Voxtral Transcribe 2 et Whisper large-v3 sont les deux principaux modèles de transcription vocale open source en 2026. Voxtral, publié par Mistral AI en février 2026, introduit une architecture de diffusion en continu à 4 milliards de paramètres sous licence Apache 2.0. Whisper, publié par OpenAI en 2022 et continuellement amélioré depuis, reste le modèle ASR open source le plus largement déployé avec une prise en charge de 99+ langues et un écosystème considérable. Ce guide compare leur architecture, leur précision, leurs performances on-device et leur adéquation au monde réel — pour vous aider à choisir le bon moteur pour votre flux de travail.
Que sont Voxtral Transcribe 2 et Whisper ?
Voxtral Transcribe 2 est l’offre de transcription vocale de deuxième génération de Mistral AI, lancée le 4 février 2026. Elle comprend deux modèles : Voxtral Mini Transcribe V2 pour la transcription par lots (hors ligne), et Voxtral Realtime pour la diffusion en direct. La variante Realtime utilise un encodeur audio causal inédit qui traite l’audio de gauche à droite, permettant une véritable diffusion en continu sans attendre la totalité du clip audio.
Whisper est le modèle de reconnaissance automatique de la parole d’OpenAI, publié pour la première fois en septembre 2022. Le fleuron actuel — Whisper large-v3 — utilise une architecture encodeur-décodeur de 1,55 milliard de paramètres, entraînée sur 680 000 heures d’audio multilingue. Son écosystème comprend des runtimes optimisés comme whisper.cpp, faster-whisper et WhisperX, qui propulsent collectivement des millions de déploiements on-device et dans le cloud à travers le monde.
Les deux modèles sont open source, mais leurs philosophies diffèrent. Voxtral pousse la précision sur un ensemble restreint de langues prioritaires avec une conception orientée diffusion en continu. Whisper maximise la couverture linguistique et s’appuie sur une optimisation portée par la communauté pour la vitesse et le déploiement en périphérie.
Comment leurs architectures se comparent-elles ?
La différence architecturale fondamentale réside dans l’attention bidirectionnelle vs causale. Whisper utilise l’attention bidirectionnelle dans son encodeur — il a besoin du segment audio complet avant de produire du texte. Voxtral Realtime utilise un encodeur audio causal personnalisé, entraîné from scratch, combiné à une attention par fenêtre glissante pour l’encodeur et le modèle de langage. Cela permet une diffusion en continu théoriquement infinie avec une latence configurable de 80 ms à 2,4 secondes.
| Spécification | Voxtral Realtime | Voxtral Mini Transcribe V2 | Whisper large-v3 | Whisper large-v3 Turbo |
|---|---|---|---|---|
| Paramètres | 4B (3,4B LM + 970M encodeur) | Non divulgué | 1,55B | 809M |
| Architecture | Encodeur causal + LLM fenêtre glissante | Encodeur-décodeur | Encodeur-décodeur bidirectionnel | Bidirectionnel (4 couches décodeur) |
| Diffusion en continu | Native (délai 80 ms–2,4 s) | Lots uniquement | Non native | Non native |
| Durée audio maximale | ~3 heures (131K tokens) | 3 heures par requête | 30 secondes par segment | 30 secondes par segment |
| Langues supportées | 13 | 13 | 99+ | 99+ |
| Licence | Apache 2.0 | API uniquement | MIT | MIT |
| VRAM minimale (BF16) | 16 Go | N/A (cloud) | ~10 Go | ~6 Go |
| Taille quantisée | ~2,5 Go (Q4) | N/A | ~4 Go (Q5) | ~3 Go (Q5) |
La contrainte de segmentation à 30 secondes de Whisper nécessite des outils externes (par exemple WhisperX ou le VAD intégré de whisper.cpp) pour traiter les fichiers audio de longue durée. Voxtral gère nativement des enregistrements allant jusqu’à trois heures, ce qui simplifie le pipeline pour la transcription de réunions et les flux de travail pour podcasts.
Quel modèle est le plus précis ?
La précision dépend fortement de la langue, de la qualité audio et de la méthodologie du benchmark. Voici ce que les données disponibles révèlent.
Précision multilingue (benchmark FLEURS)
| Modèle | WER moyen | Notes |
|---|---|---|
| Voxtral Mini Transcribe V2 | 5,90 % | Mode lots, 13 langues |
| Voxtral Realtime (délai 2,4 s) | 6,73 % | Diffusion en continu, qualité proche des lots |
| Whisper large-v3 | 7,40 % | 99+ langues |
| Voxtral Realtime (délai 480 ms) | 8,72 % | Diffusion en continu faible latence |
| Whisper large-v3 Turbo | 7,75 % | Variante optimisée pour la vitesse |
Classement indépendant (Artificial Analysis, mars 2026)
| Modèle | AA-WER | Facteur de vitesse | Prix pour 1 000 min |
|---|---|---|---|
| Voxtral Small (via API Mistral) | 2,9 % | 68,2x | 4,00 $ |
| Voxtral Mini Transcribe V2 | 3,8 % | 64,0x | 3,00 $ |
| Whisper large-v3 (via fal.ai) | 4,2 % | 31,9x | 1,15 $ |
| Whisper large-v3 Turbo (via Groq) | 4,8 % | 241,5x | 0,67 $ |
Voxtral surpasse systématiquement Whisper sur les 13 langues qu’il couvre. L’avantage de Whisper apparaît lorsque vous avez besoin d’une prise en charge pour des langues que Voxtral ne gère pas — le thaï, le vietnamien, le polonais, le tchèque, le turc, et des dizaines d’autres.
Pour une utilisation on-device en anglais uniquement, les deux modèles atteignent une précision de niveau professionnel. Weesper Neon Flow obtient plus de 95 % de précision en utilisant whisper.cpp avec le modèle large-v3 sur Apple Silicon et les GPU modernes — un niveau suffisant pour la dictée médicale, juridique et en entreprise.
Peuvent-ils fonctionner on-device ? Comparaison du déploiement en périphérie
La transcription on-device est là où l’écart pratique entre ces deux modèles est le plus marqué — non pas en raison de la qualité du modèle, mais à cause de la maturité de l’écosystème.
L’écosystème on-device de Whisper
whisper.cpp, créé par Georgi Gerganov, est disponible depuis fin 2022 et a accumulé plus de 46 900 étoiles sur GitHub. Il prend en charge Metal (macOS), CUDA (Linux/Windows), Vulkan, et même l’inférence sur CPU uniquement. Les modèles quantisés (Q5, Q4) fonctionnent sur des ordinateurs portables grand public avec 4 à 8 Go de RAM. Le runtime a fait ses preuves sur des millions d’installations et propulse des dizaines de produits commerciaux, dont Weesper Neon Flow.
Les applications basées sur whisper.cpp bénéficient de trois années d’optimisation portée par la communauté : accélération SIMD (ARM NEON, x86 AVX), détection d’activité vocale, wrappers de diffusion en temps réel, et bindings spécifiques aux plateformes pour Swift, Python, Rust et Node.js.
L’écosystème on-device de Voxtral
Voxtral Realtime a été lancé en février 2026 avec une prise en charge officielle de vLLM et Hugging Face Transformers (v5.2.0+). Des implémentations communautaires existent déjà en C (voxtral.c), en Rust et en MLX (Apple Silicon). Un build ExecuTorch permet le déploiement mobile, et une version quantisée Q4 s’exécute dans le navigateur via WebAssembly et WebGPU.
Cependant, l’écosystème n’a que deux mois d’existence. Les outils de niveau production pour la détection d’activité vocale, la diarisation des locuteurs en périphérie, et les bindings spécifiques aux plateformes sont encore en cours de développement. La configuration minimale de 16 Go de VRAM pour l’inférence BF16 limite également le déploiement au matériel haut de gamme, comparé à la capacité de Whisper à fonctionner en version quantisée sur un MacBook Air avec 8 Go de RAM.
| Critère | Whisper (via whisper.cpp) | Voxtral Realtime |
|---|---|---|
| Matériel minimal | 4 Go RAM (Q4, petit modèle) | 16 Go VRAM (BF16) / 2,5 Go (Q4) |
| Plateformes supportées | macOS, Windows, Linux, iOS, Android | Linux (vLLM), macOS (MLX), navigateur (WebGPU) |
| Maturité communautaire | 3+ ans, 46 900 étoiles GitHub | 2 mois, en croissance rapide |
| Déploiements en production | Des millions | Premiers adoptants |
| Diffusion native | Via wrappers VAD | Intégrée (80 ms–2,4 s) |
Si vous avez besoin d’un moteur éprouvé et léger qui fonctionne sur pratiquement n’importe quel matériel aujourd’hui, whisper.cpp reste le choix le plus sûr. Si vous développez une nouvelle application avec la diffusion en continu comme exigence fondamentale et pouvez cibler des GPU haut de gamme, Voxtral Realtime mérite une évaluation sérieuse.
Curieux des tendances plus larges concernant l’IA edge et le traitement local pour la dictée vocale ? Notre analyse approfondie explique pourquoi les modèles on-device représentent l’avenir de la reconnaissance vocale privée.
Qu’en est-il de la confidentialité et des licences ?
Les deux modèles permettent des déploiements entièrement hors ligne, axés sur la confidentialité — mais les détails des licences ont leur importance.
Whisper est publié sous licence MIT, l’une des licences open source les plus permissives disponibles. Vous pouvez l’utiliser, le modifier et le distribuer dans des produits commerciaux sans restriction. Les poids complets du modèle sont disponibles publiquement depuis 2022.
Voxtral Realtime utilise la licence Apache 2.0, tout aussi permissive et incluant une attribution explicite de brevets — un avantage pratique pour les équipes juridiques d’entreprise. Les poids sont disponibles sur Hugging Face pour un déploiement auto-hébergé.
Voxtral Mini Transcribe V2, en revanche, n’est actuellement disponible que via l’API de Mistral. Cela signifie que vos données audio sont traitées sur les serveurs de Mistral, ce qui peut ne pas satisfaire aux exigences strictes en matière de confidentialité telles que HIPAA ou RGPD, à moins d’utiliser l’offre dédiée on-premise de Mistral.
Pour les applications où les données ne quittent jamais l’appareil, Whisper (via whisper.cpp) et Voxtral Realtime (auto-hébergé) offrent tous deux un traitement hors ligne authentique. Weesper Neon Flow utilise whisper.cpp précisément pour cette raison — chaque transcription s’exécute localement sur votre Mac ou PC, sans aucun appel réseau.
Quel modèle vocal open source choisir ?
Le bon modèle dépend de vos priorités. Voici un cadre de décision pratique.
Choisissez Whisper (via whisper.cpp) si vous avez besoin de :
- Prise en charge de 99+ langues, y compris les moins répandues
- Stabilité éprouvée sur des millions de déploiements
- Configuration matérielle minimale (fonctionne sur des ordinateurs portables avec 8 Go)
- Un écosystème mature d’outils, de bindings et de support communautaire
- Des poids sous licence MIT sans contraintes
Choisissez Voxtral Realtime si vous avez besoin de :
- Diffusion en temps réel native avec une latence inférieure à 500 ms
- Une précision de premier rang sur les langues supportées (13 actuellement)
- Transcription de longue durée (jusqu’à 3 heures) sans segmentation
- Diarisation des locuteurs intégrée et contextualisation
- Une architecture moderne conçue pour les charges de travail orientées GPU
Envisagez les deux si :
- Vous développez un produit qui commence par l’anglais et quelques langues majeures (Voxtral), mais prévoit une expansion mondiale (Whisper en solution de repli)
- Vous souhaitez comparer la précision sur votre domaine spécifique avant de vous engager
Le paysage de la transcription vocale évolue rapidement. D’autres concurrents sérieux comme Canary de NVIDIA (5,63 % de WER sur l’Open ASR Leaderboard), IBM Granite Speech 3.3 et Parakeet TDT méritent d’être suivis de près. Notre guide sur la précision de la reconnaissance vocale explique comment évaluer les modèles au-delà des chiffres WER de référence.
Pourquoi Weesper Neon Flow utilise whisper.cpp
Weesper Neon Flow est construit sur whisper.cpp pour trois raisons : la maturité de l’écosystème, la fiabilité multiplateforme et la confidentialité éprouvée.
whisper.cpp fonctionne de manière identique sur macOS (Metal) et Windows (DirectX/CUDA) sans dépendances Python. Il a été optimisé pendant trois ans pour offrir une précision de niveau professionnel — supérieure à 95 % pour la dictée en anglais — sur du matériel grand public à partir de 8 Go de RAM. Et parce que chaque transcription s’exécute entièrement sur votre appareil, vos mots ne quittent jamais votre machine.
Nous suivons activement les progrès de Voxtral. Son architecture de diffusion en continu et ses gains de précision sont impressionnants, et à mesure que l’écosystème mûrit, il pourrait devenir un complément convaincant à Whisper pour des cas d’usage spécifiques. Pour l’instant, whisper.cpp offre aux utilisateurs de Weesper la meilleure combinaison de précision, de vitesse, de confidentialité et de support multiplateforme.
Prêt à découvrir la dictée vocale on-device propulsée par whisper.cpp ? Téléchargez Weesper Neon Flow et commencez votre essai gratuit — sans compte, sans cloud, sans compromis.