Para instalar o whisper.cpp, clone o repositório do GitHub, compile com CMake, baixe um arquivo de modelo ggml (como base ou small) e execute a ferramenta de linha de comando em um arquivo WAV a 16 kHz. Em Macs com Apple Silicon, você pode ativar a aceleração Metal para um ganho de velocidade de 3x ou mais. Todo o processo leva cerca de 15 minutos para um desenvolvedor familiarizado com o terminal.

Introdução

Executar reconhecimento de voz localmente nunca foi tão acessível. O whisper.cpp traz o modelo Whisper da OpenAI para a sua própria máquina, sem nuvem, sem chaves de API e sem que os dados saiam do seu dispositivo. Este guia de instalação do whisper.cpp percorre cada etapa para rodar o Whisper localmente tanto no macOS quanto no Windows.

Vamos clonar o projeto, compilá-lo, baixar os modelos ggml e transcrever um arquivo de áudio real. Este é um tutorial genuíno de configuração de reconhecimento de voz local — técnico, mas realizável em uma tarde.

Ao final, você terá um transcritor offline funcionando. Seremos também honestos sobre as dificuldades envolvidas e apontaremos uma alternativa empacotada para quem prefere que tudo simplesmente funcione.

O que é o whisper.cpp e por que rodar o Whisper localmente?

O whisper.cpp é um port C/C++ de alto desempenho do modelo de reconhecimento de voz Whisper da OpenAI que roda completamente offline. Ele não precisa de runtime Python nem de conexão com a internet após o download do modelo.

Reconhecimento de voz é o processo de converter áudio falado em texto escrito. O Whisper é o modelo neural subjacente; o whisper.cpp é o motor leve que o executa de forma eficiente em hardware de consumidor.

Rodá-lo localmente oferece três vantagens concretas:

Esta é a mesma abordagem que exploramos em nossa análise sobre IA de borda e processamento local, onde a inferência no dispositivo substitui completamente o ciclo de ida e volta para a nuvem.

Como instalar o whisper.cpp no macOS?

No macOS, você clona o repositório, compila com CMake e baixa um modelo — três comandos e você já está transcrevendo. Macs com Apple Silicon obtêm os melhores resultados graças à aceleração Metal e Neural Engine.

Passo 1: Instalar as ferramentas de build

Você precisa das ferramentas de linha de comando do Xcode e do CMake. Instale-os com o Homebrew:

xcode-select --install
brew install cmake

Passo 2: Clonar e compilar

Clone o repositório e compile com CMake. O build gera um binário whisper-cli dentro do diretório build.

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release

No Apple Silicon, a aceleração Metal é ativada por padrão nas versões recentes. Para um ganho extra, você pode compilar com Core ML para que o encoder rode no Apple Neural Engine, o que segundo o projeto pode superar uma aceleração de 3x em relação à CPU.

Passo 3: Baixar um modelo ggml

Os modelos são distribuídos como arquivos ggml — um binário único que reúne os pesos, o vocabulário e os filtros mel. Use o script incluído para baixar um:

sh ./models/download-ggml-model.sh base.en

Substitua base.en por small, medium ou large-v3 dependendo da precisão necessária. Modelos maiores são mais precisos, mas mais lentos e mais pesados em memória.

Passo 4: Transcrever um arquivo

O whisper.cpp espera um arquivo WAV mono a 16 kHz. Converta qualquer áudio com ffmpeg e então execute o CLI:

ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
./build/bin/whisper-cli -m models/ggml-base.en.bin -f output.wav

A transcrição é impressa no terminal. Adicione -otxt para salvá-la como arquivo de texto.

Como instalar o whisper.cpp no Windows?

No Windows, as etapas espelham o macOS, mas você compila com o compilador do Visual Studio e as ferramentas CMake que acompanham o IDE. Proprietários de GPUs NVIDIA podem ativar CUDA para transcrição mais rápida.

Passo 1: Instalar os pré-requisitos

Instale estes três componentes:

  1. Visual Studio 2022 com a carga de trabalho “Desenvolvimento para desktop com C++”
  2. CMake (incluído no Visual Studio ou instalado separadamente)
  3. ffmpeg para conversão de áudio, adicionado ao seu PATH

Passo 2: Clonar e compilar

Abra um “Developer Command Prompt for VS” e execute:

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release

Para ativar a aceleração de GPU NVIDIA, adicione -DGGML_CUDA=1 ao primeiro comando CMake. Você precisará do CUDA Toolkit instalado previamente.

Passo 3: Baixar um modelo e transcrever

O script de download do modelo também funciona no Git Bash ou no shell WSL:

sh ./models/download-ggml-model.sh base.en

Em seguida, converta e transcreva exatamente como no macOS:

ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
.\build\bin\Release\whisper-cli.exe -m models\ggml-base.en.bin -f output.wav

Qual modelo do whisper.cpp escolher?

Escolha seu modelo equilibrando precisão com velocidade e memória. Modelos menores transcrevem mais rápido e usam menos RAM; modelos maiores são mais precisos, mas mais pesados. A tabela abaixo resume as compensações.

ModeloParâmetrosRAM aproximadaVelocidade relativaMelhor para
tiny39M~1 GB~10xTestes rápidos, dispositivos de baixo consumo
base74M~1 GB~7xUso geral, rascunhos rápidos
small244M~2 GB~4xPrecisão e velocidade equilibradas
medium769M~5 GB~2xTranscrição profissional
large-v31.550M~10 GB1x (referência)Máxima precisão, multilíngue

O Whisper suporta transcrição multilíngue em dezenas de idiomas, embora a precisão varie por idioma. Para um fluxo de trabalho apenas em inglês, as variantes de modelo .en são menores e frequentemente mais precisas do que seus equivalentes multilíngues.

Se o rendimento bruto importa mais do que o formato ggml, o projeto faster-whisper usa o backend CTranslate2 e reporta transcrição até 4x mais rápida do que a implementação original da OpenAI. Comparamos o panorama mais amplo de modelos em nosso artigo sobre modelos de voz open source.

Não quer gerenciar arquivos de modelos? Você pode experimentar o Weesper gratuitamente por 15 dias — ele roda o mesmo motor whisper.cpp com o modelo correto pré-configurado, sem necessidade de terminal.

Quais são as limitações de uma instalação DIY do whisper.cpp?

Uma instalação própria do whisper.cpp é poderosa, mas exige manutenção contínua: você gerencia compilações, arquivos de modelos, conversão de áudio e atualizações por conta própria. É uma ferramenta de linha de comando, não um aplicativo de ditado.

Esteja ciente destas limitações práticas:

Para desenvolvedores e entusiastas, esse controle é exatamente o ponto. Mas se você simplesmente quer ditado offline preciso que funcione em todo o sistema, a sobrecarga de configuração é real. Nosso guia sobre o melhor software de reconhecimento de voz offline compara opções empacotadas justamente por este motivo.

A alternativa empacotada: Weesper Neon Flow

Se você quer o poder do whisper.cpp sem o processo de compilação, o Weesper Neon Flow o empacota para você. É o mesmo motor open source, configurado com aceleração Metal, prompts personalizados e mais de 50 idiomas, em um aplicativo desktop por 5 €/mês.

Veja como as duas abordagens se comparam:

Recursowhisper.cpp DIYWeesper Neon Flow
Motorwhisper.cppwhisper.cpp
Offline✅ 100%
Tempo de instalação~15+ min + manutençãoInstale e use
Aceleração MetalBuild manual✅ Integrada
Atalho global de ditado
Prompts personalizados
IdiomasDependente do modelo50+
Conversão de áudioManual (ffmpeg)✅ Automática
PreçoGratuito (seu tempo)5 €/mês

O Weesper mantém a mesma garantia de privacidade — seu áudio nunca sai do dispositivo — enquanto elimina o trabalho no terminal. Você baixa o aplicativo uma vez e dita em qualquer aplicação com um atalho de teclado, sem necessidade de conversão WAV.

Conclusão

O whisper.cpp é uma peça notável de engenharia open source: reconhecimento de voz offline genuíno, preciso e totalmente sob seu controle. Para desenvolvedores e defensores da privacidade dispostos a gerenciar compilações e arquivos de modelos, é difícil superá-lo.

Se você prefere pular a configuração e começar a ditar imediatamente, o mesmo motor está pronto para uso no Weesper. Você pode iniciar um teste gratuito de 15 dias ou consultar nossa documentação da Central de Ajuda para ver como ele se encaixa no seu fluxo de trabalho.

Pronto para ditar offline? Baixe o Weesper Neon Flow e rode o whisper.cpp sem a linha de comando — ou leia mais em nosso blog sobre IA local e transcrição com privacidade em primeiro lugar.