O Voxtral Transcribe 2 e o Whisper large-v3 são os dois principais modelos open-source de conversão de fala em texto em 2026. O Voxtral, lançado pela Mistral AI em fevereiro de 2026, traz uma arquitetura de streaming com 4 bilhões de parâmetros sob a licença Apache 2.0. O Whisper, lançado pela OpenAI em 2022 e continuamente aprimorado desde então, continua sendo o modelo ASR open-source mais amplamente implantado, com suporte a mais de 99 idiomas e um ecossistema vasto. Este guia compara a arquitetura, precisão, desempenho local e adequação para uso real dos dois modelos — para que você possa escolher o motor certo para o seu fluxo de trabalho.
Veredito rápido (2026): O Voxtral Transcribe 2 vence em precisão bruta (5,9% de WER médio contra 7,4% do Whisper no FLEURS) e oferece streaming nativo em tempo real, mas cobre apenas 13 idiomas. O Whisper large-v3 cobre 99+ idiomas, roda em laptops de 8 GB via whisper.cpp, e conta com três anos de ferramentas de qualidade de produção. Para a maioria das implantações on-device hoje, o Whisper continua sendo a escolha mais segura — o Voxtral é o modelo a acompanhar.
O que são o Voxtral Transcribe 2 e o Whisper?
O Voxtral Transcribe 2 é a oferta de conversão de fala em texto de segunda geração da Mistral AI, lançada em 4 de fevereiro de 2026. Ele é composto por dois modelos: Voxtral Mini Transcribe V2 para transcrição em lote (offline) e Voxtral Realtime para streaming ao vivo. A variante Realtime usa um novo encoder de áudio causal que processa o áudio da esquerda para a direita, permitindo streaming real sem aguardar o clipe de áudio completo.
O Whisper é o modelo de reconhecimento automático de fala da OpenAI, lançado pela primeira vez em setembro de 2022. O modelo principal atual — Whisper large-v3 — usa uma arquitetura encoder-decoder com 1,55 bilhão de parâmetros, treinada em 680.000 horas de áudio multilingual. Seu ecossistema inclui runtimes otimizados como whisper.cpp, faster-whisper e WhisperX, que juntos alimentam milhões de implantações no dispositivo e na nuvem em todo o mundo.
Ambos os modelos são open-source, mas suas filosofias diferem. O Voxtral prioriza precisão em um conjunto menor de idiomas de alta demanda, com um design orientado ao streaming. O Whisper maximiza a cobertura de idiomas e depende da otimização conduzida pela comunidade para velocidade e implantação em dispositivos de borda.
Como suas arquiteturas se comparam?
A diferença arquitetural central é a atenção bidirecional vs causal. O Whisper usa atenção bidirecional em seu encoder — ele precisa do segmento de áudio completo antes de produzir texto. O Voxtral Realtime usa um encoder de áudio causal personalizado, treinado do zero, combinado com atenção de janela deslizante tanto para o encoder quanto para o modelo de linguagem. Isso permite streaming teoricamente infinito com latência configurável de 80 ms a 2,4 segundos.
| Especificação | Voxtral Realtime | Voxtral Mini Transcribe V2 | Whisper large-v3 | Whisper large-v3 Turbo |
|---|---|---|---|---|
| Parâmetros | 4B (3,4B LM + 970M encoder) | Não divulgado | 1,55B | 809M |
| Arquitetura | Encoder causal + LLM com janela deslizante | Encoder-decoder | Encoder-decoder bidirecional | Bidirecional (4 camadas de decoder) |
| Streaming | Nativo (80 ms–2,4 s de atraso) | Somente lote | Não nativo | Não nativo |
| Duração máxima de áudio | ~3 horas (131K tokens) | 3 horas por requisição | 30 segundos por fragmento | 30 segundos por fragmento |
| Idiomas suportados | 13 | 13 | 99+ | 99+ |
| Licença | Apache 2.0 | Somente API | MIT | MIT |
| VRAM mínima (BF16) | 16 GB | N/A (nuvem) | ~10 GB | ~6 GB |
| Tamanho quantizado | ~2,5 GB (Q4) | N/A | ~4 GB (Q5) | ~3 GB (Q5) |
A restrição de fragmentação de 30 segundos do Whisper exige ferramentas externas (ex.: WhisperX ou o VAD integrado do whisper.cpp) para lidar com áudios longos. O Voxtral processa gravações de até três horas de forma nativa, o que simplifica o pipeline para transcrição de reuniões e fluxos de trabalho com podcasts.
Qual modelo é mais preciso?
A precisão depende muito do idioma, da qualidade do áudio e da metodologia de benchmark. Veja o que os dados disponíveis mostram.
Precisão multilingual (benchmark FLEURS)
| Modelo | WER médio | Observações |
|---|---|---|
| Voxtral Mini Transcribe V2 | 5,90% | Modo lote, 13 idiomas |
| Voxtral Realtime (atraso de 2,4 s) | 6,73% | Streaming, qualidade próxima ao lote |
| Whisper large-v3 | 7,40% | 99+ idiomas |
| Voxtral Realtime (atraso de 480 ms) | 8,72% | Streaming de baixa latência |
| Whisper large-v3 Turbo | 7,75% | Variante otimizada para velocidade |
Ranking independente (Artificial Analysis, março de 2026)
| Modelo | AA-WER | Fator de velocidade | Preço por 1.000 min |
|---|---|---|---|
| Voxtral Small (via API Mistral) | 2,9% | 68,2x | US$ 4,00 |
| Voxtral Mini Transcribe V2 | 3,8% | 64,0x | US$ 3,00 |
| Whisper large-v3 (via fal.ai) | 4,2% | 31,9x | US$ 1,15 |
| Whisper large-v3 Turbo (via Groq) | 4,8% | 241,5x | US$ 0,67 |
O Voxtral supera consistentemente o Whisper nos 13 idiomas que cobre. A vantagem do Whisper aparece quando você precisa de suporte para idiomas que o Voxtral não contempla — tailandês, vietnamita, polonês, tcheco, turco e dezenas de outros.
Para uso exclusivo em inglês no dispositivo, ambos os modelos atingem precisão de nível profissional. O Weesper Neon Flow alcança mais de 95% de precisão usando o whisper.cpp com o modelo large-v3 no Apple Silicon e GPUs modernas — um nível suficiente para ditado médico, jurídico e empresarial.
Eles podem rodar no dispositivo? Comparando a implantação local
A transcrição no dispositivo é onde a diferença prática entre esses dois modelos é mais ampla — não por causa da qualidade do modelo, mas pela maturidade do ecossistema.
O ecossistema local do Whisper
O whisper.cpp, criado por Georgi Gerganov, está disponível desde o final de 2022 e acumulou mais de 46.900 estrelas no GitHub. Ele suporta Metal (macOS), CUDA (Linux/Windows), Vulkan e até inferência apenas por CPU. Modelos quantizados (Q5, Q4) rodam em laptops convencionais com 4 a 8 GB de RAM. O runtime foi testado em produção em milhões de instalações e alimenta dezenas de produtos comerciais, incluindo o Weesper Neon Flow.
Aplicações construídas com o whisper.cpp se beneficiam de três anos de otimização conduzida pela comunidade: aceleração SIMD (ARM NEON, x86 AVX), detecção de atividade de voz, wrappers de streaming em tempo real e bindings específicos de plataforma para Swift, Python, Rust e Node.js. Para quem quer compilar e configurar o whisper.cpp diretamente na própria máquina, nosso guia de instalação do whisper.cpp para reconhecimento de voz local detalha cada etapa, do download do modelo à primeira transcrição. Usuários Linux que preferem uma aplicação completa em vez do whisper.cpp puro podem escolher entre várias opções dedicadas — nosso guia das 7 melhores ferramentas de ditado por voz open source para Linux compara Vocalinux, VOXD, Handy e outras que se baseiam neste ecossistema.
O ecossistema local do Voxtral
O Voxtral Realtime foi lançado em fevereiro de 2026 com suporte oficial para vLLM e Hugging Face Transformers (v5.2.0+). Implementações da comunidade já existem em C (voxtral.c), Rust e MLX (Apple Silicon). Uma compilação ExecuTorch permite implantação mobile, e uma versão quantizada Q4 roda no navegador via WebAssembly e WebGPU.
No entanto, o ecossistema tem apenas dois meses de vida. Ferramentas de nível produção para detecção de atividade de voz, diarização de locutor na borda e bindings específicos de plataforma ainda estão em fase de desenvolvimento. O requisito de 16 GB de VRAM para inferência BF16 também limita a implantação a hardware mais avançado, em comparação com a capacidade do Whisper de rodar quantizado em um MacBook Air com 8 GB de RAM.
| Critério | Whisper (via whisper.cpp) | Voxtral Realtime |
|---|---|---|
| Hardware mínimo | 4 GB de RAM (Q4, modelo small) | 16 GB de VRAM (BF16) / 2,5 GB (Q4) |
| Suporte de plataforma | macOS, Windows, Linux, iOS, Android | Linux (vLLM), macOS (MLX), navegador (WebGPU) |
| Maturidade da comunidade | 3+ anos, 46,9K estrelas no GitHub | 2 meses, crescendo rapidamente |
| Implantações em produção | Milhões | Primeiros adotantes |
| Streaming nativo | Via wrappers VAD | Integrado (80 ms–2,4 s) |
Se você precisa de um motor comprovado e leve que rode em praticamente qualquer hardware hoje, o whisper.cpp continua sendo a escolha mais segura. Se você está desenvolvendo um novo aplicativo com streaming como requisito central e pode trabalhar com GPUs mais avançadas, o Voxtral Realtime merece avaliação séria.
Para um benchmark mais abrangente cobrindo sistemas open source e soluções comerciais, confira nossa comparação prática 2026 entre transcrição local e em nuvem — ela detalha latência, custo e precisão no Mac, Windows e nas principais APIs cloud.
Quer entender melhor as tendências em IA de borda e processamento local para ditado de voz? Nossa análise aprofundada explica por que os modelos no dispositivo são o futuro do reconhecimento de fala privado.
E quanto a privacidade e licenciamento?
Ambos os modelos permitem implantações totalmente offline com foco em privacidade — mas os detalhes de licenciamento são importantes.
O Whisper é lançado sob a licença MIT, uma das licenças open-source mais permissivas disponíveis. Você pode usá-lo, modificá-lo e distribuí-lo em produtos comerciais sem restrições. Os pesos completos do modelo estão disponíveis publicamente desde 2022.
O Voxtral Realtime usa a licença Apache 2.0, igualmente permissiva e que inclui uma concessão explícita de patente — uma vantagem prática para as equipes jurídicas de empresas. Os pesos estão disponíveis no Hugging Face para implantação self-hosted.
O Voxtral Mini Transcribe V2, no entanto, está disponível atualmente apenas através da API da Mistral. Isso significa que seu áudio é processado nos servidores da Mistral, o que pode não atender a requisitos rígidos de privacidade como HIPAA ou LGPD, a menos que você utilize a oferta dedicada on-premise da Mistral.
Para aplicações onde os dados nunca saem do dispositivo, o Whisper (via whisper.cpp) e o Voxtral Realtime (self-hosted) oferecem processamento genuinamente offline. O Weesper Neon Flow usa o whisper.cpp exatamente por esse motivo — cada transcrição roda localmente no seu Mac ou PC, sem nenhuma chamada de rede.
Qual modelo de voz open-source você deve escolher?
O modelo certo depende das suas prioridades. Veja um guia prático de decisão.
Escolha o Whisper (via whisper.cpp) se você precisa de:
- Suporte para 99+ idiomas, incluindo os menos recursos
- Estabilidade comprovada em milhões de implantações
- Requisitos mínimos de hardware (roda em laptops com 8 GB)
- Um ecossistema maduro de ferramentas, bindings e suporte da comunidade
- Pesos licenciados sob MIT sem restrições
Escolha o Voxtral Realtime se você precisa de:
- Streaming em tempo real nativo com latência abaixo de 500 ms
- Melhor precisão da categoria nos idiomas suportados (13 atualmente)
- Transcrição de áudios longos (até 3 horas) sem fragmentação
- Diarização de locutor e ajuste de contexto integrados
- Uma arquitetura moderna projetada para cargas de trabalho GPU-first
Considere ambos se:
- Você está desenvolvendo um produto que começa com inglês e alguns idiomas principais (Voxtral), mas planeja expandir globalmente (fallback com Whisper)
- Você quer comparar a precisão no seu domínio específico antes de se comprometer
O cenário de conversão de fala em texto está evoluindo rapidamente. Nosso guia sobre precisão no reconhecimento de fala explica como avaliar modelos além dos números de WER principais.
Quais outros modelos de reconhecimento de voz open-source merecem atenção em 2026?
Voxtral e Whisper dominam a discussão sobre reconhecimento de voz open-source, mas três outros modelos merecem atenção ao escolher o melhor STT open-source em 2026.
| Modelo | Lançamento | WER médio | Destaque |
|---|---|---|---|
| NVIDIA Canary 1B Flash | Janeiro de 2025 | 5,63% (Open ASR Leaderboard) | Multilingual (EN/DE/FR/ES), Apache 2.0, otimizado para GPUs NVIDIA |
| IBM Granite Speech 3.3 | Dezembro de 2025 | 6,10% (inglês) | Licença empresarial permissiva, foco em implantação on-premise |
| NVIDIA Parakeet TDT 0.6B | 2024 | 6,05% (inglês) | Inferência muito rápida (~2.000x tempo real no H100), footprint reduzido |
O NVIDIA Canary é a alternativa mais forte ao Whisper se você trabalha com hardware NVIDIA e um conjunto de idiomas principais. O IBM Granite Speech é adequado para setores regulamentados onde a licença empresarial da IBM e o suporte on-premise são importantes. O Parakeet é construído especificamente para transcrição em inglês com ultra-baixa latência em larga escala.
Nenhum desses modelos ainda iguala a cobertura de 99+ idiomas do Whisper nem o streaming nativo do Voxtral. Para a maioria das implantações on-device em 2026, a escolha ainda se resume a Voxtral (melhor precisão, conjunto de idiomas restrito) ou Whisper (maior alcance, ecossistema consolidado).
Por que o Weesper Neon Flow usa o whisper.cpp
O Weesper Neon Flow é construído sobre o whisper.cpp por três razões: maturidade do ecossistema, confiabilidade multiplataforma e privacidade comprovada.
O whisper.cpp roda de forma idêntica no macOS (Metal) e no Windows (DirectX/CUDA) sem dependências Python. Ele foi otimizado ao longo de três anos para oferecer precisão de nível profissional — acima de 95% para ditado em inglês — em hardware convencional a partir de 8 GB de RAM. E como cada transcrição roda inteiramente no seu dispositivo, as suas palavras nunca saem da sua máquina.
Estamos acompanhando ativamente o progresso do Voxtral. Sua arquitetura de streaming e os ganhos de precisão são impressionantes, e conforme o ecossistema amadurecer, ele poderá se tornar um complemento interessante ao Whisper para casos de uso específicos. Por ora, o whisper.cpp oferece aos usuários do Weesper a melhor combinação de precisão, velocidade, privacidade e suporte de plataforma.
Pronto para experimentar o ditado de voz no dispositivo com tecnologia whisper.cpp? Baixe o Weesper Neon Flow e comece sua avaliação gratuita — sem conta, sem nuvem, sem concessões.