Voxtral Transcribe 2 und Whisper large-v3 sind die beiden führenden Open-Source-Spracherkennungsmodelle im Jahr 2026. Voxtral, im Februar 2026 von Mistral AI veröffentlicht, bringt eine Streaming-Architektur mit 4 Milliarden Parametern unter der Apache 2.0-Lizenz. Whisper, 2022 von OpenAI veröffentlicht und seitdem kontinuierlich weiterentwickelt, bleibt das am weitesten verbreitete Open-Source-ASR-Modell mit Unterstützung für über 99 Sprachen und einem umfangreichen Ökosystem. Dieser Leitfaden vergleicht Architektur, Genauigkeit, Geräteleistung und Praxistauglichkeit — damit Sie die richtige Engine für Ihren Arbeitsablauf wählen können.
Was sind Voxtral Transcribe 2 und Whisper?
Voxtral Transcribe 2 ist Mistral AIs zweite Generation von Spracherkennungsangeboten, eingeführt am 4. Februar 2026. Es umfasst zwei Modelle: Voxtral Mini Transcribe V2 für die Batch-Transkription (offline) und Voxtral Realtime für Live-Streaming. Die Realtime-Variante verwendet einen neuartigen kausalen Audio-Encoder, der Audio von links nach rechts verarbeitet und echtes Streaming ermöglicht, ohne auf den vollständigen Audio-Clip warten zu müssen.
Whisper ist OpenAIs automatisches Spracherkennungsmodell, erstmals im September 2022 veröffentlicht. Das aktuelle Flaggschiff — Whisper large-v3 — verwendet eine Encoder-Decoder-Architektur mit 1,55 Milliarden Parametern, trainiert auf 680.000 Stunden mehrsprachigem Audio. Sein Ökosystem umfasst optimierte Laufzeitumgebungen wie whisper.cpp, faster-whisper und WhisperX, die gemeinsam Millionen von Geräte- und Cloud-Deployments weltweit betreiben.
Beide Modelle sind Open-Source, verfolgen jedoch unterschiedliche Philosophien. Voxtral setzt auf Genauigkeit bei einer kleineren Auswahl hochpriorisierter Sprachen mit einem Streaming-First-Design. Whisper maximiert die Sprachabdeckung und setzt auf community-getriebene Optimierung für Geschwindigkeit und Edge-Deployment.
Wie unterscheiden sich ihre Architekturen?
Der grundlegende Architekturunterschied liegt in der bidirektionalen vs. kausalen Attention. Whisper verwendet bidirektionale Attention in seinem Encoder — es benötigt das gesamte Audiosegment, bevor es Text ausgeben kann. Voxtral Realtime verwendet einen maßgeschneiderten kausalen Audio-Encoder, von Grund auf trainiert, kombiniert mit Sliding-Window-Attention sowohl für den Encoder als auch für das Sprachmodell. Dies ermöglicht theoretisch unbegrenztes Streaming mit konfigurierbarer Latenz von 80 ms bis 2,4 Sekunden.
| Spezifikation | Voxtral Realtime | Voxtral Mini Transcribe V2 | Whisper large-v3 | Whisper large-v3 Turbo |
|---|---|---|---|---|
| Parameter | 4B (3,4B LM + 970M Encoder) | Nicht angegeben | 1,55B | 809M |
| Architektur | Kausaler Encoder + Sliding-Window-LLM | Encoder-Decoder | Bidirektionaler Encoder-Decoder | Bidirektional (4 Decoder-Schichten) |
| Streaming | Nativ (80 ms–2,4 s Verzögerung) | Nur Batch | Nicht nativ | Nicht nativ |
| Maximale Audiolänge | ~3 Stunden (131K Token) | 3 Stunden pro Anfrage | 30 Sekunden pro Chunk | 30 Sekunden pro Chunk |
| Unterstützte Sprachen | 13 | 13 | 99+ | 99+ |
| Lizenz | Apache 2.0 | Nur API | MIT | MIT |
| Min. VRAM (BF16) | 16 GB | N/A (Cloud) | ~10 GB | ~6 GB |
| Quantisierte Größe | ~2,5 GB (Q4) | N/A | ~4 GB (Q5) | ~3 GB (Q5) |
Whispers 30-Sekunden-Chunking-Einschränkung erfordert externe Werkzeuge (z. B. WhisperX oder whisper.cpps integriertes VAD), um lange Audios zu verarbeiten. Voxtral verarbeitet Aufnahmen von bis zu drei Stunden nativ, was die Pipeline für Besprechungstranskription und Podcast-Workflows vereinfacht.
Welches Modell ist genauer?
Die Genauigkeit hängt stark von der Sprache, der Audioqualität und der Benchmark-Methodik ab. Hier sind die verfügbaren Daten im Überblick.
Mehrsprachige Genauigkeit (FLEURS-Benchmark)
| Modell | Durchschnittliche WER | Hinweise |
|---|---|---|
| Voxtral Mini Transcribe V2 | 5,90 % | Batch-Modus, 13 Sprachen |
| Voxtral Realtime (2,4 s Verzögerung) | 6,73 % | Streaming, nahezu Batch-Qualität |
| Whisper large-v3 | 7,40 % | 99+ Sprachen |
| Voxtral Realtime (480 ms Verzögerung) | 8,72 % | Niedriglatenz-Streaming |
| Whisper large-v3 Turbo | 7,75 % | Geschwindigkeitsoptimierte Variante |
Unabhängiges Leaderboard (Artificial Analysis, März 2026)
| Modell | AA-WER | Geschwindigkeitsfaktor | Preis pro 1.000 min |
|---|---|---|---|
| Voxtral Small (über Mistral API) | 2,9 % | 68,2x | $4,00 |
| Voxtral Mini Transcribe V2 | 3,8 % | 64,0x | $3,00 |
| Whisper large-v3 (über fal.ai) | 4,2 % | 31,9x | $1,15 |
| Whisper large-v3 Turbo (über Groq) | 4,8 % | 241,5x | $0,67 |
Voxtral übertrifft Whisper bei den 13 unterstützten Sprachen durchgängig. Whispers Vorteil zeigt sich, wenn Sie Unterstützung für Sprachen benötigen, die Voxtral nicht abdeckt — Thai, Vietnamesisch, Polnisch, Tschechisch, Türkisch und Dutzende weitere.
Für den ausschließlich englischsprachigen Geräteeinsatz erzielen beide Modelle professionelle Genauigkeit. Weesper Neon Flow erreicht über 95 % Genauigkeit mit whisper.cpp und dem large-v3-Modell auf Apple Silicon und modernen GPUs — ein Niveau, das für medizinische, rechtliche und unternehmerische Diktatanwendungen ausreicht.
Können sie auf dem Gerät ausgeführt werden? Edge-Deployment im Vergleich
Die geräteseitige Transkription ist der Bereich, in dem der praktische Unterschied zwischen diesen beiden Modellen am deutlichsten ist — nicht aufgrund der Modellqualität, sondern aufgrund der Reife des Ökosystems.
Whispers Geräteeinsatz-Ökosystem
whisper.cpp, erstellt von Georgi Gerganov, ist seit Ende 2022 verfügbar und hat über 46.900 GitHub-Sterne gesammelt. Es unterstützt Metal (macOS), CUDA (Linux/Windows), Vulkan und sogar reine CPU-Inferenz. Quantisierte Modelle (Q5, Q4) laufen auf Consumer-Laptops mit 4–8 GB RAM. Die Laufzeitumgebung wurde über Millionen von Installationen erprobt und treibt Dutzende kommerzieller Produkte an, einschließlich Weesper Neon Flow.
Anwendungen, die auf whisper.cpp aufbauen, profitieren von drei Jahren community-getriebener Optimierung: SIMD-Beschleunigung (ARM NEON, x86 AVX), Sprachaktivitätserkennung, Echtzeit-Streaming-Wrapper und plattformspezifische Bindungen für Swift, Python, Rust und Node.js.
Voxtral Realtimes Geräteeinsatz-Ökosystem
Voxtral Realtime wurde im Februar 2026 mit offizieller Unterstützung für vLLM und Hugging Face Transformers (v5.2.0+) gestartet. Community-Implementierungen existieren bereits in C (voxtral.c), Rust und MLX (Apple Silicon). Ein ExecuTorch-Build ermöglicht die mobile Bereitstellung, und eine Q4-quantisierte Version läuft im Browser über WebAssembly und WebGPU.
Das Ökosystem ist jedoch erst zwei Monate alt. Produktionsreife Werkzeuge für Sprachaktivitätserkennung, Speaker-Diarisierung am Edge und plattformspezifische Bindungen befinden sich noch in der Entwicklung. Die VRAM-Anforderung von 16 GB für BF16-Inferenz schränkt den Einsatz auf leistungsfähigere Hardware ein, verglichen mit Whispers Fähigkeit, quantisiert auf einem MacBook Air mit 8 GB RAM zu laufen.
| Kriterium | Whisper (über whisper.cpp) | Voxtral Realtime |
|---|---|---|
| Mindesthardware | 4 GB RAM (Q4, kleines Modell) | 16 GB VRAM (BF16) / 2,5 GB (Q4) |
| Plattformunterstützung | macOS, Windows, Linux, iOS, Android | Linux (vLLM), macOS (MLX), Browser (WebGPU) |
| Community-Reife | 3+ Jahre, 46.900 GitHub-Sterne | 2 Monate, wächst schnell |
| Produktions-Deployments | Millionen | Early Adopters |
| Natives Streaming | Über VAD-Wrapper | Integriert (80 ms–2,4 s) |
Wenn Sie heute eine bewährte, schlanke Engine benötigen, die auf nahezu jeder Hardware läuft, bleibt whisper.cpp die sicherere Wahl. Wenn Sie eine neue Anwendung entwickeln, bei der Streaming eine Kernanforderung ist und Sie auf leistungsfähigere GPUs abzielen können, verdient Voxtral Realtime eine ernsthafte Evaluation.
Neugierig auf breitere Trends in der Edge-KI und lokalen Verarbeitung für Sprachdiktat? Unser ausführlicher Beitrag erläutert, warum geräteseitige Modelle die Zukunft der privaten Spracherkennung darstellen.
Was ist mit Datenschutz und Lizenzen?
Beide Modelle ermöglichen vollständig offline betriebene, datenschutzorientierte Deployments — aber die Lizenzdetails sind wichtig.
Whisper wird unter der MIT-Lizenz veröffentlicht, einer der permissivsten verfügbaren Open-Source-Lizenzen. Sie können es ohne Einschränkungen in kommerziellen Produkten verwenden, modifizieren und vertreiben. Die vollständigen Modellgewichte sind seit 2022 öffentlich verfügbar.
Voxtral Realtime verwendet die Apache 2.0-Lizenz, die ähnlich permissiv ist und eine explizite Patentgewährung umfasst — ein praktischer Vorteil für Rechtsteams in Unternehmen. Die Gewichte sind auf Hugging Face für selbst gehostetes Deployment verfügbar.
Voxtral Mini Transcribe V2 ist jedoch derzeit nur über Mistrals API verfügbar. Das bedeutet, dass Ihre Audiodaten auf Mistrals Servern verarbeitet werden, was strenge Datenschutzanforderungen wie HIPAA oder DSGVO möglicherweise nicht erfüllt, es sei denn, Sie nutzen Mistrals dediziertes On-Premise-Angebot.
Für Anwendungen, bei denen Daten das Gerät nie verlassen, bieten sowohl Whisper (über whisper.cpp) als auch Voxtral Realtime (selbst gehostet) echte Offline-Verarbeitung. Weesper Neon Flow verwendet whisper.cpp genau aus diesem Grund — jede Transkription läuft lokal auf Ihrem Mac oder PC, ohne Netzwerkaufrufe.
Welches Open-Source-Sprachmodell sollten Sie wählen?
Das richtige Modell hängt von Ihren Prioritäten ab. Hier ist ein praktischer Entscheidungsrahmen.
Wählen Sie Whisper (über whisper.cpp), wenn Sie Folgendes benötigen:
- Unterstützung für 99+ Sprachen, einschließlich weniger verbreiteter
- Bewährte Stabilität über Millionen von Deployments
- Minimale Hardwareanforderungen (läuft auf 8-GB-Laptops)
- Ein ausgereiftes Ökosystem aus Werkzeugen, Bindungen und Community-Support
- MIT-lizenzierte Gewichte ohne Einschränkungen
Wählen Sie Voxtral Realtime, wenn Sie Folgendes benötigen:
- Natives Echtzeit-Streaming mit Latenz unter 500 ms
- Erstklassige Genauigkeit bei den unterstützten Sprachen (derzeit 13)
- Langform-Transkription (bis zu 3 Stunden) ohne Chunking
- Integrierte Speaker-Diarisierung und Kontext-Biasing
- Eine moderne Architektur, die für GPU-First-Workloads konzipiert wurde
Ziehen Sie beide in Betracht, wenn:
- Sie ein Produkt entwickeln, das mit Englisch und einigen wichtigen Sprachen beginnt (Voxtral), aber globale Expansion plant (Whisper als Fallback)
- Sie die Genauigkeit in Ihrer spezifischen Domäne benchmarken möchten, bevor Sie sich festlegen
Die Spracherkennungslandschaft entwickelt sich rasant. Weitere starke Kandidaten wie NVIDIAs Canary (5,63 % WER im Open ASR Leaderboard), IBM Granite Speech 3.3 und Parakeet TDT sind es wert, beobachtet zu werden. Unser Leitfaden zur Spracherkennungsgenauigkeit erläutert, wie Sie Modelle jenseits bloßer WER-Kennzahlen bewerten können.
Warum Weesper Neon Flow whisper.cpp verwendet
Weesper Neon Flow basiert aus drei Gründen auf whisper.cpp: Ökosystem-Reife, plattformübergreifende Zuverlässigkeit und bewährter Datenschutz.
whisper.cpp läuft identisch auf macOS (Metal) und Windows (DirectX/CUDA) ohne Python-Abhängigkeiten. Es wurde über drei Jahre optimiert, um professionelle Genauigkeit zu liefern — über 95 % für englisches Diktat — auf Consumer-Hardware ab 8 GB RAM. Und da jede Transkription vollständig auf Ihrem Gerät läuft, verlassen Ihre Worte niemals Ihre Maschine.
Wir verfolgen Voxtral aktiv. Seine Streaming-Architektur und Genauigkeitsgewinne sind beeindruckend, und wenn das Ökosystem reift, könnte es für spezifische Anwendungsfälle eine überzeugende Ergänzung zu Whisper werden. Derzeit bietet whisper.cpp Weesper-Nutzern die beste Kombination aus Genauigkeit, Geschwindigkeit, Datenschutz und Plattformunterstützung.
Möchten Sie geräteseitiges Sprachdiktat mit whisper.cpp erleben? Laden Sie Weesper Neon Flow herunter und starten Sie Ihre kostenlose Testversion — kein Konto, keine Cloud, kein Kompromiss.