O Voxtral Transcribe 2 e o Whisper large-v3 são os dois principais modelos open-source de conversão de fala em texto em 2026. O Voxtral, lançado pela Mistral AI em fevereiro de 2026, traz uma arquitetura de streaming com 4 bilhões de parâmetros sob a licença Apache 2.0. O Whisper, lançado pela OpenAI em 2022 e continuamente aprimorado desde então, continua sendo o modelo ASR open-source mais amplamente implantado, com suporte a mais de 99 idiomas e um ecossistema vasto. Este guia compara a arquitetura, precisão, desempenho local e adequação para uso real dos dois modelos — para que você possa escolher o motor certo para o seu fluxo de trabalho.
O que são o Voxtral Transcribe 2 e o Whisper?
O Voxtral Transcribe 2 é a oferta de conversão de fala em texto de segunda geração da Mistral AI, lançada em 4 de fevereiro de 2026. Ele é composto por dois modelos: Voxtral Mini Transcribe V2 para transcrição em lote (offline) e Voxtral Realtime para streaming ao vivo. A variante Realtime usa um novo encoder de áudio causal que processa o áudio da esquerda para a direita, permitindo streaming real sem aguardar o clipe de áudio completo.
O Whisper é o modelo de reconhecimento automático de fala da OpenAI, lançado pela primeira vez em setembro de 2022. O modelo principal atual — Whisper large-v3 — usa uma arquitetura encoder-decoder com 1,55 bilhão de parâmetros, treinada em 680.000 horas de áudio multilingual. Seu ecossistema inclui runtimes otimizados como whisper.cpp, faster-whisper e WhisperX, que juntos alimentam milhões de implantações no dispositivo e na nuvem em todo o mundo.
Ambos os modelos são open-source, mas suas filosofias diferem. O Voxtral prioriza precisão em um conjunto menor de idiomas de alta demanda, com um design orientado ao streaming. O Whisper maximiza a cobertura de idiomas e depende da otimização conduzida pela comunidade para velocidade e implantação em dispositivos de borda.
Como suas arquiteturas se comparam?
A diferença arquitetural central é a atenção bidirecional vs causal. O Whisper usa atenção bidirecional em seu encoder — ele precisa do segmento de áudio completo antes de produzir texto. O Voxtral Realtime usa um encoder de áudio causal personalizado, treinado do zero, combinado com atenção de janela deslizante tanto para o encoder quanto para o modelo de linguagem. Isso permite streaming teoricamente infinito com latência configurável de 80 ms a 2,4 segundos.
| Especificação | Voxtral Realtime | Voxtral Mini Transcribe V2 | Whisper large-v3 | Whisper large-v3 Turbo |
|---|---|---|---|---|
| Parâmetros | 4B (3,4B LM + 970M encoder) | Não divulgado | 1,55B | 809M |
| Arquitetura | Encoder causal + LLM com janela deslizante | Encoder-decoder | Encoder-decoder bidirecional | Bidirecional (4 camadas de decoder) |
| Streaming | Nativo (80 ms–2,4 s de atraso) | Somente lote | Não nativo | Não nativo |
| Duração máxima de áudio | ~3 horas (131K tokens) | 3 horas por requisição | 30 segundos por fragmento | 30 segundos por fragmento |
| Idiomas suportados | 13 | 13 | 99+ | 99+ |
| Licença | Apache 2.0 | Somente API | MIT | MIT |
| VRAM mínima (BF16) | 16 GB | N/A (nuvem) | ~10 GB | ~6 GB |
| Tamanho quantizado | ~2,5 GB (Q4) | N/A | ~4 GB (Q5) | ~3 GB (Q5) |
A restrição de fragmentação de 30 segundos do Whisper exige ferramentas externas (ex.: WhisperX ou o VAD integrado do whisper.cpp) para lidar com áudios longos. O Voxtral processa gravações de até três horas de forma nativa, o que simplifica o pipeline para transcrição de reuniões e fluxos de trabalho com podcasts.
Qual modelo é mais preciso?
A precisão depende muito do idioma, da qualidade do áudio e da metodologia de benchmark. Veja o que os dados disponíveis mostram.
Precisão multilingual (benchmark FLEURS)
| Modelo | WER médio | Observações |
|---|---|---|
| Voxtral Mini Transcribe V2 | 5,90% | Modo lote, 13 idiomas |
| Voxtral Realtime (atraso de 2,4 s) | 6,73% | Streaming, qualidade próxima ao lote |
| Whisper large-v3 | 7,40% | 99+ idiomas |
| Voxtral Realtime (atraso de 480 ms) | 8,72% | Streaming de baixa latência |
| Whisper large-v3 Turbo | 7,75% | Variante otimizada para velocidade |
Ranking independente (Artificial Analysis, março de 2026)
| Modelo | AA-WER | Fator de velocidade | Preço por 1.000 min |
|---|---|---|---|
| Voxtral Small (via API Mistral) | 2,9% | 68,2x | US$ 4,00 |
| Voxtral Mini Transcribe V2 | 3,8% | 64,0x | US$ 3,00 |
| Whisper large-v3 (via fal.ai) | 4,2% | 31,9x | US$ 1,15 |
| Whisper large-v3 Turbo (via Groq) | 4,8% | 241,5x | US$ 0,67 |
O Voxtral supera consistentemente o Whisper nos 13 idiomas que cobre. A vantagem do Whisper aparece quando você precisa de suporte para idiomas que o Voxtral não contempla — tailandês, vietnamita, polonês, tcheco, turco e dezenas de outros.
Para uso exclusivo em inglês no dispositivo, ambos os modelos atingem precisão de nível profissional. O Weesper Neon Flow alcança mais de 95% de precisão usando o whisper.cpp com o modelo large-v3 no Apple Silicon e GPUs modernas — um nível suficiente para ditado médico, jurídico e empresarial.
Eles podem rodar no dispositivo? Comparando a implantação local
A transcrição no dispositivo é onde a diferença prática entre esses dois modelos é mais ampla — não por causa da qualidade do modelo, mas pela maturidade do ecossistema.
O ecossistema local do Whisper
O whisper.cpp, criado por Georgi Gerganov, está disponível desde o final de 2022 e acumulou mais de 46.900 estrelas no GitHub. Ele suporta Metal (macOS), CUDA (Linux/Windows), Vulkan e até inferência apenas por CPU. Modelos quantizados (Q5, Q4) rodam em laptops convencionais com 4 a 8 GB de RAM. O runtime foi testado em produção em milhões de instalações e alimenta dezenas de produtos comerciais, incluindo o Weesper Neon Flow.
Aplicações construídas com o whisper.cpp se beneficiam de três anos de otimização conduzida pela comunidade: aceleração SIMD (ARM NEON, x86 AVX), detecção de atividade de voz, wrappers de streaming em tempo real e bindings específicos de plataforma para Swift, Python, Rust e Node.js.
O ecossistema local do Voxtral
O Voxtral Realtime foi lançado em fevereiro de 2026 com suporte oficial para vLLM e Hugging Face Transformers (v5.2.0+). Implementações da comunidade já existem em C (voxtral.c), Rust e MLX (Apple Silicon). Uma compilação ExecuTorch permite implantação mobile, e uma versão quantizada Q4 roda no navegador via WebAssembly e WebGPU.
No entanto, o ecossistema tem apenas dois meses de vida. Ferramentas de nível produção para detecção de atividade de voz, diarização de locutor na borda e bindings específicos de plataforma ainda estão em fase de desenvolvimento. O requisito de 16 GB de VRAM para inferência BF16 também limita a implantação a hardware mais avançado, em comparação com a capacidade do Whisper de rodar quantizado em um MacBook Air com 8 GB de RAM.
| Critério | Whisper (via whisper.cpp) | Voxtral Realtime |
|---|---|---|
| Hardware mínimo | 4 GB de RAM (Q4, modelo small) | 16 GB de VRAM (BF16) / 2,5 GB (Q4) |
| Suporte de plataforma | macOS, Windows, Linux, iOS, Android | Linux (vLLM), macOS (MLX), navegador (WebGPU) |
| Maturidade da comunidade | 3+ anos, 46,9K estrelas no GitHub | 2 meses, crescendo rapidamente |
| Implantações em produção | Milhões | Primeiros adotantes |
| Streaming nativo | Via wrappers VAD | Integrado (80 ms–2,4 s) |
Se você precisa de um motor comprovado e leve que rode em praticamente qualquer hardware hoje, o whisper.cpp continua sendo a escolha mais segura. Se você está desenvolvendo um novo aplicativo com streaming como requisito central e pode trabalhar com GPUs mais avançadas, o Voxtral Realtime merece avaliação séria.
Quer entender melhor as tendências em IA de borda e processamento local para ditado de voz? Nossa análise aprofundada explica por que os modelos no dispositivo são o futuro do reconhecimento de fala privado.
E quanto a privacidade e licenciamento?
Ambos os modelos permitem implantações totalmente offline com foco em privacidade — mas os detalhes de licenciamento são importantes.
O Whisper é lançado sob a licença MIT, uma das licenças open-source mais permissivas disponíveis. Você pode usá-lo, modificá-lo e distribuí-lo em produtos comerciais sem restrições. Os pesos completos do modelo estão disponíveis publicamente desde 2022.
O Voxtral Realtime usa a licença Apache 2.0, igualmente permissiva e que inclui uma concessão explícita de patente — uma vantagem prática para as equipes jurídicas de empresas. Os pesos estão disponíveis no Hugging Face para implantação self-hosted.
O Voxtral Mini Transcribe V2, no entanto, está disponível atualmente apenas através da API da Mistral. Isso significa que seu áudio é processado nos servidores da Mistral, o que pode não atender a requisitos rígidos de privacidade como HIPAA ou LGPD, a menos que você utilize a oferta dedicada on-premise da Mistral.
Para aplicações onde os dados nunca saem do dispositivo, o Whisper (via whisper.cpp) e o Voxtral Realtime (self-hosted) oferecem processamento genuinamente offline. O Weesper Neon Flow usa o whisper.cpp exatamente por esse motivo — cada transcrição roda localmente no seu Mac ou PC, sem nenhuma chamada de rede.
Qual modelo de voz open-source você deve escolher?
O modelo certo depende das suas prioridades. Veja um guia prático de decisão.
Escolha o Whisper (via whisper.cpp) se você precisa de:
- Suporte para 99+ idiomas, incluindo os menos recursos
- Estabilidade comprovada em milhões de implantações
- Requisitos mínimos de hardware (roda em laptops com 8 GB)
- Um ecossistema maduro de ferramentas, bindings e suporte da comunidade
- Pesos licenciados sob MIT sem restrições
Escolha o Voxtral Realtime se você precisa de:
- Streaming em tempo real nativo com latência abaixo de 500 ms
- Melhor precisão da categoria nos idiomas suportados (13 atualmente)
- Transcrição de áudios longos (até 3 horas) sem fragmentação
- Diarização de locutor e ajuste de contexto integrados
- Uma arquitetura moderna projetada para cargas de trabalho GPU-first
Considere ambos se:
- Você está desenvolvendo um produto que começa com inglês e alguns idiomas principais (Voxtral), mas planeja expandir globalmente (fallback com Whisper)
- Você quer comparar a precisão no seu domínio específico antes de se comprometer
O cenário de conversão de fala em texto está evoluindo rapidamente. Outros concorrentes fortes como o Canary da NVIDIA (5,63% de WER no Open ASR Leaderboard), o IBM Granite Speech 3.3 e o Parakeet TDT merecem acompanhamento. Nosso guia sobre precisão no reconhecimento de fala explica como avaliar modelos além dos números de WER principais.
Por que o Weesper Neon Flow usa o whisper.cpp
O Weesper Neon Flow é construído sobre o whisper.cpp por três razões: maturidade do ecossistema, confiabilidade multiplataforma e privacidade comprovada.
O whisper.cpp roda de forma idêntica no macOS (Metal) e no Windows (DirectX/CUDA) sem dependências Python. Ele foi otimizado ao longo de três anos para oferecer precisão de nível profissional — acima de 95% para ditado em inglês — em hardware convencional a partir de 8 GB de RAM. E como cada transcrição roda inteiramente no seu dispositivo, as suas palavras nunca saem da sua máquina.
Estamos acompanhando ativamente o progresso do Voxtral. Sua arquitetura de streaming e os ganhos de precisão são impressionantes, e conforme o ecossistema amadurecer, ele poderá se tornar um complemento interessante ao Whisper para casos de uso específicos. Por ora, o whisper.cpp oferece aos usuários do Weesper a melhor combinação de precisão, velocidade, privacidade e suporte de plataforma.
Pronto para experimentar o ditado de voz no dispositivo com tecnologia whisper.cpp? Baixe o Weesper Neon Flow e comece sua avaliação gratuita — sem conta, sem nuvem, sem concessões.