O Voxtral Transcribe 2 e o Whisper large-v3 são os dois principais modelos open-source de conversão de fala em texto em 2026. O Voxtral, lançado pela Mistral AI em fevereiro de 2026, traz uma arquitetura de streaming com 4 bilhões de parâmetros sob a licença Apache 2.0. O Whisper, lançado pela OpenAI em 2022 e continuamente aprimorado desde então, continua sendo o modelo ASR open-source mais amplamente implantado, com suporte a mais de 99 idiomas e um ecossistema vasto. Este guia compara a arquitetura, precisão, desempenho local e adequação para uso real dos dois modelos — para que você possa escolher o motor certo para o seu fluxo de trabalho.

Veredito rápido (2026): O Voxtral Transcribe 2 vence em precisão bruta (5,9% de WER médio contra 7,4% do Whisper no FLEURS) e oferece streaming nativo em tempo real, mas cobre apenas 13 idiomas. O Whisper large-v3 cobre 99+ idiomas, roda em laptops de 8 GB via whisper.cpp, e conta com três anos de ferramentas de qualidade de produção. Para a maioria das implantações on-device hoje, o Whisper continua sendo a escolha mais segura — o Voxtral é o modelo a acompanhar.

O que são o Voxtral Transcribe 2 e o Whisper?

O Voxtral Transcribe 2 é a oferta de conversão de fala em texto de segunda geração da Mistral AI, lançada em 4 de fevereiro de 2026. Ele é composto por dois modelos: Voxtral Mini Transcribe V2 para transcrição em lote (offline) e Voxtral Realtime para streaming ao vivo. A variante Realtime usa um novo encoder de áudio causal que processa o áudio da esquerda para a direita, permitindo streaming real sem aguardar o clipe de áudio completo.

O Whisper é o modelo de reconhecimento automático de fala da OpenAI, lançado pela primeira vez em setembro de 2022. O modelo principal atual — Whisper large-v3 — usa uma arquitetura encoder-decoder com 1,55 bilhão de parâmetros, treinada em 680.000 horas de áudio multilingual. Seu ecossistema inclui runtimes otimizados como whisper.cpp, faster-whisper e WhisperX, que juntos alimentam milhões de implantações no dispositivo e na nuvem em todo o mundo.

Ambos os modelos são open-source, mas suas filosofias diferem. O Voxtral prioriza precisão em um conjunto menor de idiomas de alta demanda, com um design orientado ao streaming. O Whisper maximiza a cobertura de idiomas e depende da otimização conduzida pela comunidade para velocidade e implantação em dispositivos de borda.

Como suas arquiteturas se comparam?

A diferença arquitetural central é a atenção bidirecional vs causal. O Whisper usa atenção bidirecional em seu encoder — ele precisa do segmento de áudio completo antes de produzir texto. O Voxtral Realtime usa um encoder de áudio causal personalizado, treinado do zero, combinado com atenção de janela deslizante tanto para o encoder quanto para o modelo de linguagem. Isso permite streaming teoricamente infinito com latência configurável de 80 ms a 2,4 segundos.

EspecificaçãoVoxtral RealtimeVoxtral Mini Transcribe V2Whisper large-v3Whisper large-v3 Turbo
Parâmetros4B (3,4B LM + 970M encoder)Não divulgado1,55B809M
ArquiteturaEncoder causal + LLM com janela deslizanteEncoder-decoderEncoder-decoder bidirecionalBidirecional (4 camadas de decoder)
StreamingNativo (80 ms–2,4 s de atraso)Somente loteNão nativoNão nativo
Duração máxima de áudio~3 horas (131K tokens)3 horas por requisição30 segundos por fragmento30 segundos por fragmento
Idiomas suportados131399+99+
LicençaApache 2.0Somente APIMITMIT
VRAM mínima (BF16)16 GBN/A (nuvem)~10 GB~6 GB
Tamanho quantizado~2,5 GB (Q4)N/A~4 GB (Q5)~3 GB (Q5)

A restrição de fragmentação de 30 segundos do Whisper exige ferramentas externas (ex.: WhisperX ou o VAD integrado do whisper.cpp) para lidar com áudios longos. O Voxtral processa gravações de até três horas de forma nativa, o que simplifica o pipeline para transcrição de reuniões e fluxos de trabalho com podcasts.

Qual modelo é mais preciso?

A precisão depende muito do idioma, da qualidade do áudio e da metodologia de benchmark. Veja o que os dados disponíveis mostram.

Precisão multilingual (benchmark FLEURS)

ModeloWER médioObservações
Voxtral Mini Transcribe V25,90%Modo lote, 13 idiomas
Voxtral Realtime (atraso de 2,4 s)6,73%Streaming, qualidade próxima ao lote
Whisper large-v37,40%99+ idiomas
Voxtral Realtime (atraso de 480 ms)8,72%Streaming de baixa latência
Whisper large-v3 Turbo7,75%Variante otimizada para velocidade

Ranking independente (Artificial Analysis, março de 2026)

ModeloAA-WERFator de velocidadePreço por 1.000 min
Voxtral Small (via API Mistral)2,9%68,2xUS$ 4,00
Voxtral Mini Transcribe V23,8%64,0xUS$ 3,00
Whisper large-v3 (via fal.ai)4,2%31,9xUS$ 1,15
Whisper large-v3 Turbo (via Groq)4,8%241,5xUS$ 0,67

O Voxtral supera consistentemente o Whisper nos 13 idiomas que cobre. A vantagem do Whisper aparece quando você precisa de suporte para idiomas que o Voxtral não contempla — tailandês, vietnamita, polonês, tcheco, turco e dezenas de outros.

Para uso exclusivo em inglês no dispositivo, ambos os modelos atingem precisão de nível profissional. O Weesper Neon Flow alcança mais de 95% de precisão usando o whisper.cpp com o modelo large-v3 no Apple Silicon e GPUs modernas — um nível suficiente para ditado médico, jurídico e empresarial.

Eles podem rodar no dispositivo? Comparando a implantação local

A transcrição no dispositivo é onde a diferença prática entre esses dois modelos é mais ampla — não por causa da qualidade do modelo, mas pela maturidade do ecossistema.

O ecossistema local do Whisper

O whisper.cpp, criado por Georgi Gerganov, está disponível desde o final de 2022 e acumulou mais de 46.900 estrelas no GitHub. Ele suporta Metal (macOS), CUDA (Linux/Windows), Vulkan e até inferência apenas por CPU. Modelos quantizados (Q5, Q4) rodam em laptops convencionais com 4 a 8 GB de RAM. O runtime foi testado em produção em milhões de instalações e alimenta dezenas de produtos comerciais, incluindo o Weesper Neon Flow.

Aplicações construídas com o whisper.cpp se beneficiam de três anos de otimização conduzida pela comunidade: aceleração SIMD (ARM NEON, x86 AVX), detecção de atividade de voz, wrappers de streaming em tempo real e bindings específicos de plataforma para Swift, Python, Rust e Node.js. Para quem quer compilar e configurar o whisper.cpp diretamente na própria máquina, nosso guia de instalação do whisper.cpp para reconhecimento de voz local detalha cada etapa, do download do modelo à primeira transcrição. Usuários Linux que preferem uma aplicação completa em vez do whisper.cpp puro podem escolher entre várias opções dedicadas — nosso guia das 7 melhores ferramentas de ditado por voz open source para Linux compara Vocalinux, VOXD, Handy e outras que se baseiam neste ecossistema.

O ecossistema local do Voxtral

O Voxtral Realtime foi lançado em fevereiro de 2026 com suporte oficial para vLLM e Hugging Face Transformers (v5.2.0+). Implementações da comunidade já existem em C (voxtral.c), Rust e MLX (Apple Silicon). Uma compilação ExecuTorch permite implantação mobile, e uma versão quantizada Q4 roda no navegador via WebAssembly e WebGPU.

No entanto, o ecossistema tem apenas dois meses de vida. Ferramentas de nível produção para detecção de atividade de voz, diarização de locutor na borda e bindings específicos de plataforma ainda estão em fase de desenvolvimento. O requisito de 16 GB de VRAM para inferência BF16 também limita a implantação a hardware mais avançado, em comparação com a capacidade do Whisper de rodar quantizado em um MacBook Air com 8 GB de RAM.

CritérioWhisper (via whisper.cpp)Voxtral Realtime
Hardware mínimo4 GB de RAM (Q4, modelo small)16 GB de VRAM (BF16) / 2,5 GB (Q4)
Suporte de plataformamacOS, Windows, Linux, iOS, AndroidLinux (vLLM), macOS (MLX), navegador (WebGPU)
Maturidade da comunidade3+ anos, 46,9K estrelas no GitHub2 meses, crescendo rapidamente
Implantações em produçãoMilhõesPrimeiros adotantes
Streaming nativoVia wrappers VADIntegrado (80 ms–2,4 s)

Se você precisa de um motor comprovado e leve que rode em praticamente qualquer hardware hoje, o whisper.cpp continua sendo a escolha mais segura. Se você está desenvolvendo um novo aplicativo com streaming como requisito central e pode trabalhar com GPUs mais avançadas, o Voxtral Realtime merece avaliação séria.

Para um benchmark mais abrangente cobrindo sistemas open source e soluções comerciais, confira nossa comparação prática 2026 entre transcrição local e em nuvem — ela detalha latência, custo e precisão no Mac, Windows e nas principais APIs cloud.

Quer entender melhor as tendências em IA de borda e processamento local para ditado de voz? Nossa análise aprofundada explica por que os modelos no dispositivo são o futuro do reconhecimento de fala privado.

E quanto a privacidade e licenciamento?

Ambos os modelos permitem implantações totalmente offline com foco em privacidade — mas os detalhes de licenciamento são importantes.

O Whisper é lançado sob a licença MIT, uma das licenças open-source mais permissivas disponíveis. Você pode usá-lo, modificá-lo e distribuí-lo em produtos comerciais sem restrições. Os pesos completos do modelo estão disponíveis publicamente desde 2022.

O Voxtral Realtime usa a licença Apache 2.0, igualmente permissiva e que inclui uma concessão explícita de patente — uma vantagem prática para as equipes jurídicas de empresas. Os pesos estão disponíveis no Hugging Face para implantação self-hosted.

O Voxtral Mini Transcribe V2, no entanto, está disponível atualmente apenas através da API da Mistral. Isso significa que seu áudio é processado nos servidores da Mistral, o que pode não atender a requisitos rígidos de privacidade como HIPAA ou LGPD, a menos que você utilize a oferta dedicada on-premise da Mistral.

Para aplicações onde os dados nunca saem do dispositivo, o Whisper (via whisper.cpp) e o Voxtral Realtime (self-hosted) oferecem processamento genuinamente offline. O Weesper Neon Flow usa o whisper.cpp exatamente por esse motivo — cada transcrição roda localmente no seu Mac ou PC, sem nenhuma chamada de rede.

Qual modelo de voz open-source você deve escolher?

O modelo certo depende das suas prioridades. Veja um guia prático de decisão.

Escolha o Whisper (via whisper.cpp) se você precisa de:

Escolha o Voxtral Realtime se você precisa de:

Considere ambos se:

O cenário de conversão de fala em texto está evoluindo rapidamente. Nosso guia sobre precisão no reconhecimento de fala explica como avaliar modelos além dos números de WER principais.

Quais outros modelos de reconhecimento de voz open-source merecem atenção em 2026?

Voxtral e Whisper dominam a discussão sobre reconhecimento de voz open-source, mas três outros modelos merecem atenção ao escolher o melhor STT open-source em 2026.

ModeloLançamentoWER médioDestaque
NVIDIA Canary 1B FlashJaneiro de 20255,63% (Open ASR Leaderboard)Multilingual (EN/DE/FR/ES), Apache 2.0, otimizado para GPUs NVIDIA
IBM Granite Speech 3.3Dezembro de 20256,10% (inglês)Licença empresarial permissiva, foco em implantação on-premise
NVIDIA Parakeet TDT 0.6B20246,05% (inglês)Inferência muito rápida (~2.000x tempo real no H100), footprint reduzido

O NVIDIA Canary é a alternativa mais forte ao Whisper se você trabalha com hardware NVIDIA e um conjunto de idiomas principais. O IBM Granite Speech é adequado para setores regulamentados onde a licença empresarial da IBM e o suporte on-premise são importantes. O Parakeet é construído especificamente para transcrição em inglês com ultra-baixa latência em larga escala.

Nenhum desses modelos ainda iguala a cobertura de 99+ idiomas do Whisper nem o streaming nativo do Voxtral. Para a maioria das implantações on-device em 2026, a escolha ainda se resume a Voxtral (melhor precisão, conjunto de idiomas restrito) ou Whisper (maior alcance, ecossistema consolidado).

Por que o Weesper Neon Flow usa o whisper.cpp

O Weesper Neon Flow é construído sobre o whisper.cpp por três razões: maturidade do ecossistema, confiabilidade multiplataforma e privacidade comprovada.

O whisper.cpp roda de forma idêntica no macOS (Metal) e no Windows (DirectX/CUDA) sem dependências Python. Ele foi otimizado ao longo de três anos para oferecer precisão de nível profissional — acima de 95% para ditado em inglês — em hardware convencional a partir de 8 GB de RAM. E como cada transcrição roda inteiramente no seu dispositivo, as suas palavras nunca saem da sua máquina.

Estamos acompanhando ativamente o progresso do Voxtral. Sua arquitetura de streaming e os ganhos de precisão são impressionantes, e conforme o ecossistema amadurecer, ele poderá se tornar um complemento interessante ao Whisper para casos de uso específicos. Por ora, o whisper.cpp oferece aos usuários do Weesper a melhor combinação de precisão, velocidade, privacidade e suporte de plataforma.

Pronto para experimentar o ditado de voz no dispositivo com tecnologia whisper.cpp? Baixe o Weesper Neon Flow e comece sua avaliação gratuita — sem conta, sem nuvem, sem concessões.