Voxtral Transcribe 2 et Whisper large-v3 sont les deux principaux modèles de transcription vocale open source en 2026. Voxtral, publié par Mistral AI en février 2026, introduit une architecture de diffusion en continu à 4 milliards de paramètres sous licence Apache 2.0. Whisper, publié par OpenAI en 2022 et continuellement amélioré depuis, reste le modèle ASR open source le plus largement déployé avec une prise en charge de 99+ langues et un écosystème considérable. Ce guide compare leur architecture, leur précision, leurs performances on-device et leur adéquation au monde réel — pour vous aider à choisir le bon moteur pour votre flux de travail.

Que sont Voxtral Transcribe 2 et Whisper ?

Voxtral Transcribe 2 est l’offre de transcription vocale de deuxième génération de Mistral AI, lancée le 4 février 2026. Elle comprend deux modèles : Voxtral Mini Transcribe V2 pour la transcription par lots (hors ligne), et Voxtral Realtime pour la diffusion en direct. La variante Realtime utilise un encodeur audio causal inédit qui traite l’audio de gauche à droite, permettant une véritable diffusion en continu sans attendre la totalité du clip audio.

Whisper est le modèle de reconnaissance automatique de la parole d’OpenAI, publié pour la première fois en septembre 2022. Le fleuron actuel — Whisper large-v3 — utilise une architecture encodeur-décodeur de 1,55 milliard de paramètres, entraînée sur 680 000 heures d’audio multilingue. Son écosystème comprend des runtimes optimisés comme whisper.cpp, faster-whisper et WhisperX, qui propulsent collectivement des millions de déploiements on-device et dans le cloud à travers le monde.

Les deux modèles sont open source, mais leurs philosophies diffèrent. Voxtral pousse la précision sur un ensemble restreint de langues prioritaires avec une conception orientée diffusion en continu. Whisper maximise la couverture linguistique et s’appuie sur une optimisation portée par la communauté pour la vitesse et le déploiement en périphérie.

Comment leurs architectures se comparent-elles ?

La différence architecturale fondamentale réside dans l’attention bidirectionnelle vs causale. Whisper utilise l’attention bidirectionnelle dans son encodeur — il a besoin du segment audio complet avant de produire du texte. Voxtral Realtime utilise un encodeur audio causal personnalisé, entraîné from scratch, combiné à une attention par fenêtre glissante pour l’encodeur et le modèle de langage. Cela permet une diffusion en continu théoriquement infinie avec une latence configurable de 80 ms à 2,4 secondes.

SpécificationVoxtral RealtimeVoxtral Mini Transcribe V2Whisper large-v3Whisper large-v3 Turbo
Paramètres4B (3,4B LM + 970M encodeur)Non divulgué1,55B809M
ArchitectureEncodeur causal + LLM fenêtre glissanteEncodeur-décodeurEncodeur-décodeur bidirectionnelBidirectionnel (4 couches décodeur)
Diffusion en continuNative (délai 80 ms–2,4 s)Lots uniquementNon nativeNon native
Durée audio maximale~3 heures (131K tokens)3 heures par requête30 secondes par segment30 secondes par segment
Langues supportées131399+99+
LicenceApache 2.0API uniquementMITMIT
VRAM minimale (BF16)16 GoN/A (cloud)~10 Go~6 Go
Taille quantisée~2,5 Go (Q4)N/A~4 Go (Q5)~3 Go (Q5)

La contrainte de segmentation à 30 secondes de Whisper nécessite des outils externes (par exemple WhisperX ou le VAD intégré de whisper.cpp) pour traiter les fichiers audio de longue durée. Voxtral gère nativement des enregistrements allant jusqu’à trois heures, ce qui simplifie le pipeline pour la transcription de réunions et les flux de travail pour podcasts.

Quel modèle est le plus précis ?

La précision dépend fortement de la langue, de la qualité audio et de la méthodologie du benchmark. Voici ce que les données disponibles révèlent.

Précision multilingue (benchmark FLEURS)

ModèleWER moyenNotes
Voxtral Mini Transcribe V25,90 %Mode lots, 13 langues
Voxtral Realtime (délai 2,4 s)6,73 %Diffusion en continu, qualité proche des lots
Whisper large-v37,40 %99+ langues
Voxtral Realtime (délai 480 ms)8,72 %Diffusion en continu faible latence
Whisper large-v3 Turbo7,75 %Variante optimisée pour la vitesse

Classement indépendant (Artificial Analysis, mars 2026)

ModèleAA-WERFacteur de vitessePrix pour 1 000 min
Voxtral Small (via API Mistral)2,9 %68,2x4,00 $
Voxtral Mini Transcribe V23,8 %64,0x3,00 $
Whisper large-v3 (via fal.ai)4,2 %31,9x1,15 $
Whisper large-v3 Turbo (via Groq)4,8 %241,5x0,67 $

Voxtral surpasse systématiquement Whisper sur les 13 langues qu’il couvre. L’avantage de Whisper apparaît lorsque vous avez besoin d’une prise en charge pour des langues que Voxtral ne gère pas — le thaï, le vietnamien, le polonais, le tchèque, le turc, et des dizaines d’autres.

Pour une utilisation on-device en anglais uniquement, les deux modèles atteignent une précision de niveau professionnel. Weesper Neon Flow obtient plus de 95 % de précision en utilisant whisper.cpp avec le modèle large-v3 sur Apple Silicon et les GPU modernes — un niveau suffisant pour la dictée médicale, juridique et en entreprise.

Peuvent-ils fonctionner on-device ? Comparaison du déploiement en périphérie

La transcription on-device est là où l’écart pratique entre ces deux modèles est le plus marqué — non pas en raison de la qualité du modèle, mais à cause de la maturité de l’écosystème.

L’écosystème on-device de Whisper

whisper.cpp, créé par Georgi Gerganov, est disponible depuis fin 2022 et a accumulé plus de 46 900 étoiles sur GitHub. Il prend en charge Metal (macOS), CUDA (Linux/Windows), Vulkan, et même l’inférence sur CPU uniquement. Les modèles quantisés (Q5, Q4) fonctionnent sur des ordinateurs portables grand public avec 4 à 8 Go de RAM. Le runtime a fait ses preuves sur des millions d’installations et propulse des dizaines de produits commerciaux, dont Weesper Neon Flow.

Les applications basées sur whisper.cpp bénéficient de trois années d’optimisation portée par la communauté : accélération SIMD (ARM NEON, x86 AVX), détection d’activité vocale, wrappers de diffusion en temps réel, et bindings spécifiques aux plateformes pour Swift, Python, Rust et Node.js.

L’écosystème on-device de Voxtral

Voxtral Realtime a été lancé en février 2026 avec une prise en charge officielle de vLLM et Hugging Face Transformers (v5.2.0+). Des implémentations communautaires existent déjà en C (voxtral.c), en Rust et en MLX (Apple Silicon). Un build ExecuTorch permet le déploiement mobile, et une version quantisée Q4 s’exécute dans le navigateur via WebAssembly et WebGPU.

Cependant, l’écosystème n’a que deux mois d’existence. Les outils de niveau production pour la détection d’activité vocale, la diarisation des locuteurs en périphérie, et les bindings spécifiques aux plateformes sont encore en cours de développement. La configuration minimale de 16 Go de VRAM pour l’inférence BF16 limite également le déploiement au matériel haut de gamme, comparé à la capacité de Whisper à fonctionner en version quantisée sur un MacBook Air avec 8 Go de RAM.

CritèreWhisper (via whisper.cpp)Voxtral Realtime
Matériel minimal4 Go RAM (Q4, petit modèle)16 Go VRAM (BF16) / 2,5 Go (Q4)
Plateformes supportéesmacOS, Windows, Linux, iOS, AndroidLinux (vLLM), macOS (MLX), navigateur (WebGPU)
Maturité communautaire3+ ans, 46 900 étoiles GitHub2 mois, en croissance rapide
Déploiements en productionDes millionsPremiers adoptants
Diffusion nativeVia wrappers VADIntégrée (80 ms–2,4 s)

Si vous avez besoin d’un moteur éprouvé et léger qui fonctionne sur pratiquement n’importe quel matériel aujourd’hui, whisper.cpp reste le choix le plus sûr. Si vous développez une nouvelle application avec la diffusion en continu comme exigence fondamentale et pouvez cibler des GPU haut de gamme, Voxtral Realtime mérite une évaluation sérieuse.

Curieux des tendances plus larges concernant l’IA edge et le traitement local pour la dictée vocale ? Notre analyse approfondie explique pourquoi les modèles on-device représentent l’avenir de la reconnaissance vocale privée.

Qu’en est-il de la confidentialité et des licences ?

Les deux modèles permettent des déploiements entièrement hors ligne, axés sur la confidentialité — mais les détails des licences ont leur importance.

Whisper est publié sous licence MIT, l’une des licences open source les plus permissives disponibles. Vous pouvez l’utiliser, le modifier et le distribuer dans des produits commerciaux sans restriction. Les poids complets du modèle sont disponibles publiquement depuis 2022.

Voxtral Realtime utilise la licence Apache 2.0, tout aussi permissive et incluant une attribution explicite de brevets — un avantage pratique pour les équipes juridiques d’entreprise. Les poids sont disponibles sur Hugging Face pour un déploiement auto-hébergé.

Voxtral Mini Transcribe V2, en revanche, n’est actuellement disponible que via l’API de Mistral. Cela signifie que vos données audio sont traitées sur les serveurs de Mistral, ce qui peut ne pas satisfaire aux exigences strictes en matière de confidentialité telles que HIPAA ou RGPD, à moins d’utiliser l’offre dédiée on-premise de Mistral.

Pour les applications où les données ne quittent jamais l’appareil, Whisper (via whisper.cpp) et Voxtral Realtime (auto-hébergé) offrent tous deux un traitement hors ligne authentique. Weesper Neon Flow utilise whisper.cpp précisément pour cette raison — chaque transcription s’exécute localement sur votre Mac ou PC, sans aucun appel réseau.

Quel modèle vocal open source choisir ?

Le bon modèle dépend de vos priorités. Voici un cadre de décision pratique.

Choisissez Whisper (via whisper.cpp) si vous avez besoin de :

Choisissez Voxtral Realtime si vous avez besoin de :

Envisagez les deux si :

Le paysage de la transcription vocale évolue rapidement. D’autres concurrents sérieux comme Canary de NVIDIA (5,63 % de WER sur l’Open ASR Leaderboard), IBM Granite Speech 3.3 et Parakeet TDT méritent d’être suivis de près. Notre guide sur la précision de la reconnaissance vocale explique comment évaluer les modèles au-delà des chiffres WER de référence.

Pourquoi Weesper Neon Flow utilise whisper.cpp

Weesper Neon Flow est construit sur whisper.cpp pour trois raisons : la maturité de l’écosystème, la fiabilité multiplateforme et la confidentialité éprouvée.

whisper.cpp fonctionne de manière identique sur macOS (Metal) et Windows (DirectX/CUDA) sans dépendances Python. Il a été optimisé pendant trois ans pour offrir une précision de niveau professionnel — supérieure à 95 % pour la dictée en anglais — sur du matériel grand public à partir de 8 Go de RAM. Et parce que chaque transcription s’exécute entièrement sur votre appareil, vos mots ne quittent jamais votre machine.

Nous suivons activement les progrès de Voxtral. Son architecture de diffusion en continu et ses gains de précision sont impressionnants, et à mesure que l’écosystème mûrit, il pourrait devenir un complément convaincant à Whisper pour des cas d’usage spécifiques. Pour l’instant, whisper.cpp offre aux utilisateurs de Weesper la meilleure combinaison de précision, de vitesse, de confidentialité et de support multiplateforme.

Prêt à découvrir la dictée vocale on-device propulsée par whisper.cpp ? Téléchargez Weesper Neon Flow et commencez votre essai gratuit — sans compte, sans cloud, sans compromis.