Para instalar whisper.cpp, clona el repositorio de GitHub, compílalo con CMake, descarga un archivo de modelo ggml (como base o small) y ejecuta la herramienta de línea de comandos sobre un archivo WAV a 16 kHz. En Macs con Apple Silicon puedes activar la aceleración Metal para una mejora de velocidad de 3x o más. El proceso completo lleva unos 15 minutos para un desarrollador familiarizado con la terminal.

Introducción

Ejecutar reconocimiento de voz localmente nunca ha sido tan accesible. Whisper.cpp lleva el modelo Whisper de OpenAI a tu propio equipo sin nube, sin claves de API y sin que tus datos salgan del dispositivo. Esta guía de instalación de whisper.cpp recorre cada paso para ejecutar Whisper localmente tanto en macOS como en Windows.

Clonaremos el proyecto, lo compilaremos, descargaremos los modelos ggml y transcribiremos un archivo de audio real. Este es un tutorial genuino de configuración de reconocimiento de voz local — técnico, pero realizable en una tarde.

Al final tendrás un transcriptor offline funcional. También seremos honestos sobre la fricción que implica y señalaremos una alternativa empaquetada para quienes prefieran que todo funcione de entrada.

¿Qué es whisper.cpp y por qué ejecutar Whisper localmente?

Whisper.cpp es un port C/C++ de alto rendimiento del modelo de reconocimiento de voz Whisper de OpenAI que funciona completamente offline. No necesita ningún entorno Python ni conexión a internet una vez descargado el modelo.

El reconocimiento de voz es el proceso de convertir audio hablado en texto escrito. Whisper es el modelo neuronal subyacente; whisper.cpp es el motor ligero que lo ejecuta eficientemente en hardware de consumo.

Ejecutarlo localmente te ofrece tres ventajas concretas:

Este es el mismo enfoque que exploramos en profundidad en nuestro análisis sobre la IA edge y el procesamiento local, donde la inferencia en el dispositivo reemplaza por completo el viaje de ida y vuelta a la nube.

¿Cómo se instala whisper.cpp en macOS?

En macOS clonas el repositorio, compilas con CMake y descargas un modelo — tres comandos y ya estás transcribiendo. Los Macs con Apple Silicon obtienen los mejores resultados gracias a la aceleración Metal y Neural Engine.

Paso 1: Instalar las herramientas de compilación

Necesitas las herramientas de línea de comandos de Xcode y CMake. Instálalas con Homebrew:

xcode-select --install
brew install cmake

Paso 2: Clonar y compilar

Clona el repositorio y compílalo con CMake. El proceso genera un binario whisper-cli dentro del directorio build.

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release

En Apple Silicon, la aceleración Metal está activada por defecto en las versiones recientes. Para un rendimiento adicional, puedes compilar con Core ML para que el codificador se ejecute en el Apple Neural Engine, lo que según el proyecto puede superar una mejora de velocidad de 3x respecto a la CPU sola.

Paso 3: Descargar un modelo ggml

Los modelos se distribuyen como archivos ggml — un único binario que agrupa los pesos, el vocabulario y los filtros mel. Usa el script incluido para obtener uno:

sh ./models/download-ggml-model.sh base.en

Sustituye base.en por small, medium o large-v3 según la precisión que necesites. Los modelos más grandes son más precisos pero más lentos y exigen más memoria.

Paso 4: Transcribir un archivo

Whisper.cpp espera un archivo WAV mono a 16 kHz. Convierte cualquier audio con ffmpeg y ejecuta la CLI:

ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
./build/bin/whisper-cli -m models/ggml-base.en.bin -f output.wav

La transcripción se imprime en tu terminal. Añade -otxt para guardarla como archivo de texto.

¿Cómo se instala whisper.cpp en Windows?

En Windows los pasos son similares a macOS, pero compilas con el compilador de Visual Studio y las herramientas CMake que lo acompañan. Los propietarios de GPU NVIDIA pueden activar CUDA para una transcripción más rápida.

Paso 1: Instalar los requisitos previos

Instala estos tres componentes:

  1. Visual Studio 2022 con la carga de trabajo “Desarrollo de escritorio con C++”
  2. CMake (incluido con Visual Studio o instalado por separado)
  3. ffmpeg para la conversión de audio, añadido a tu PATH

Paso 2: Clonar y compilar

Abre un “Developer Command Prompt for VS” y ejecuta:

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release

Para activar la aceleración de GPU NVIDIA, añade -DGGML_CUDA=1 al primer comando CMake. Necesitarás tener instalado el CUDA Toolkit previamente.

Paso 3: Descargar un modelo y transcribir

El script de descarga de modelos también funciona en un shell Git Bash o WSL:

sh ./models/download-ggml-model.sh base.en

Luego convierte y transcribe exactamente igual que en macOS:

ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
.\build\bin\Release\whisper-cli.exe -m models\ggml-base.en.bin -f output.wav

¿Qué modelo de whisper.cpp debes elegir?

Elige tu modelo equilibrando precisión frente a velocidad y memoria. Los modelos más pequeños transcriben más rápido y usan menos RAM; los más grandes son más precisos pero más exigentes. La tabla siguiente resume las diferencias.

ModeloParámetrosRAM aprox.Velocidad relativaIdeal para
tiny39M~1 GB~10xPruebas rápidas, dispositivos de baja potencia
base74M~1 GB~7xUso general, borradores rápidos
small244M~2 GB~4xEquilibrio entre precisión y velocidad
medium769M~5 GB~2xTranscripción profesional
large-v31.550M~10 GB1x (referencia)Máxima precisión, multilingüe

Whisper admite transcripción multilingüe en decenas de idiomas, aunque la precisión varía según el idioma. Para flujos de trabajo solo en inglés, las variantes de modelo .en son más pequeñas y a menudo más precisas que sus equivalentes multilingües.

Si el rendimiento bruto importa más que el formato ggml, el proyecto faster-whisper usa el backend CTranslate2 y reporta una transcripción hasta 4x más rápida que la implementación original de OpenAI. Comparamos el panorama más amplio de modelos en nuestro análisis sobre modelos de voz open-source.

¿Prefieres no gestionar archivos de modelos? Puedes probar Weesper gratis durante 15 días — ejecuta el mismo motor whisper.cpp con el modelo adecuado preconfigurado, sin necesidad de terminal.

¿Cuáles son las limitaciones de una instalación DIY de whisper.cpp?

Una instalación propia de whisper.cpp es potente pero exige mantenimiento continuo: gestionas tú mismo las compilaciones, los archivos de modelos, la conversión de audio y las actualizaciones. Es una herramienta de línea de comandos, no una aplicación de dictado.

Ten en cuenta estas limitaciones prácticas:

Para desarrolladores y entusiastas, este control es precisamente el objetivo. Pero si simplemente quieres un dictado offline preciso que funcione en todo el sistema, la carga de configuración es real. Nuestra guía sobre el mejor software de reconocimiento de voz offline compara opciones empaquetadas precisamente por esta razón.

La alternativa empaquetada: Weesper Neon Flow

Si quieres la potencia de whisper.cpp sin el proceso de compilación, Weesper Neon Flow lo empaqueta todo. Es el mismo motor open-source, configurado con aceleración Metal, prompts personalizados y más de 50 idiomas, en una aplicación de escritorio por 5 €/mes.

Así es como se comparan los dos enfoques:

CaracterísticaDIY whisper.cppWeesper Neon Flow
Motorwhisper.cppwhisper.cpp
Offline✅ 100%
Tiempo de configuración~15+ min + mantenimientoInstala y listo
Aceleración MetalCompilación manual✅ Integrada
Atajo de teclado global
Prompts personalizados
IdiomasSegún el modelo50+
Conversión de audioManual (ffmpeg)✅ Automática
PrecioGratuito (tu tiempo)5 €/mes

Weesper mantiene la misma garantía de privacidad — tu audio nunca sale de tu dispositivo — mientras elimina el trabajo en terminal. Descargas la aplicación una vez y dictas en cualquier aplicación con un atajo de teclado, sin necesidad de conversión WAV.

Conclusión

Whisper.cpp es una pieza notable de ingeniería open-source: reconocimiento de voz offline genuino, preciso y bajo tu control total. Para desarrolladores y defensores de la privacidad dispuestos a gestionar compilaciones y archivos de modelos, es difícil de superar.

Si prefieres saltarte la instalación y empezar a dictar de inmediato, el mismo motor viene listo para usar en Weesper. Puedes iniciar una prueba gratuita de 15 días o consultar nuestra documentación del Centro de ayuda para ver cómo encaja en tu flujo de trabajo.

¿Listo para dictar offline? Obtén Weesper Neon Flow y ejecuta whisper.cpp sin la línea de comandos — o lee más en nuestro blog sobre IA local y transcripción con privacidad garantizada.