Voxtral Transcribe 2 und Whisper large-v3 sind die beiden führenden Open-Source-Spracherkennungsmodelle im Jahr 2026. Voxtral, im Februar 2026 von Mistral AI veröffentlicht, bringt eine Streaming-Architektur mit 4 Milliarden Parametern unter der Apache 2.0-Lizenz. Whisper, 2022 von OpenAI veröffentlicht und seitdem kontinuierlich weiterentwickelt, bleibt das am weitesten verbreitete Open-Source-ASR-Modell mit Unterstützung für über 99 Sprachen und einem umfangreichen Ökosystem. Dieser Leitfaden vergleicht Architektur, Genauigkeit, Geräteleistung und Praxistauglichkeit — damit Sie die richtige Engine für Ihren Arbeitsablauf wählen können.

Was sind Voxtral Transcribe 2 und Whisper?

Voxtral Transcribe 2 ist Mistral AIs zweite Generation von Spracherkennungsangeboten, eingeführt am 4. Februar 2026. Es umfasst zwei Modelle: Voxtral Mini Transcribe V2 für die Batch-Transkription (offline) und Voxtral Realtime für Live-Streaming. Die Realtime-Variante verwendet einen neuartigen kausalen Audio-Encoder, der Audio von links nach rechts verarbeitet und echtes Streaming ermöglicht, ohne auf den vollständigen Audio-Clip warten zu müssen.

Whisper ist OpenAIs automatisches Spracherkennungsmodell, erstmals im September 2022 veröffentlicht. Das aktuelle Flaggschiff — Whisper large-v3 — verwendet eine Encoder-Decoder-Architektur mit 1,55 Milliarden Parametern, trainiert auf 680.000 Stunden mehrsprachigem Audio. Sein Ökosystem umfasst optimierte Laufzeitumgebungen wie whisper.cpp, faster-whisper und WhisperX, die gemeinsam Millionen von Geräte- und Cloud-Deployments weltweit betreiben.

Beide Modelle sind Open-Source, verfolgen jedoch unterschiedliche Philosophien. Voxtral setzt auf Genauigkeit bei einer kleineren Auswahl hochpriorisierter Sprachen mit einem Streaming-First-Design. Whisper maximiert die Sprachabdeckung und setzt auf community-getriebene Optimierung für Geschwindigkeit und Edge-Deployment.

Wie unterscheiden sich ihre Architekturen?

Der grundlegende Architekturunterschied liegt in der bidirektionalen vs. kausalen Attention. Whisper verwendet bidirektionale Attention in seinem Encoder — es benötigt das gesamte Audiosegment, bevor es Text ausgeben kann. Voxtral Realtime verwendet einen maßgeschneiderten kausalen Audio-Encoder, von Grund auf trainiert, kombiniert mit Sliding-Window-Attention sowohl für den Encoder als auch für das Sprachmodell. Dies ermöglicht theoretisch unbegrenztes Streaming mit konfigurierbarer Latenz von 80 ms bis 2,4 Sekunden.

SpezifikationVoxtral RealtimeVoxtral Mini Transcribe V2Whisper large-v3Whisper large-v3 Turbo
Parameter4B (3,4B LM + 970M Encoder)Nicht angegeben1,55B809M
ArchitekturKausaler Encoder + Sliding-Window-LLMEncoder-DecoderBidirektionaler Encoder-DecoderBidirektional (4 Decoder-Schichten)
StreamingNativ (80 ms–2,4 s Verzögerung)Nur BatchNicht nativNicht nativ
Maximale Audiolänge~3 Stunden (131K Token)3 Stunden pro Anfrage30 Sekunden pro Chunk30 Sekunden pro Chunk
Unterstützte Sprachen131399+99+
LizenzApache 2.0Nur APIMITMIT
Min. VRAM (BF16)16 GBN/A (Cloud)~10 GB~6 GB
Quantisierte Größe~2,5 GB (Q4)N/A~4 GB (Q5)~3 GB (Q5)

Whispers 30-Sekunden-Chunking-Einschränkung erfordert externe Werkzeuge (z. B. WhisperX oder whisper.cpps integriertes VAD), um lange Audios zu verarbeiten. Voxtral verarbeitet Aufnahmen von bis zu drei Stunden nativ, was die Pipeline für Besprechungstranskription und Podcast-Workflows vereinfacht.

Welches Modell ist genauer?

Die Genauigkeit hängt stark von der Sprache, der Audioqualität und der Benchmark-Methodik ab. Hier sind die verfügbaren Daten im Überblick.

Mehrsprachige Genauigkeit (FLEURS-Benchmark)

ModellDurchschnittliche WERHinweise
Voxtral Mini Transcribe V25,90 %Batch-Modus, 13 Sprachen
Voxtral Realtime (2,4 s Verzögerung)6,73 %Streaming, nahezu Batch-Qualität
Whisper large-v37,40 %99+ Sprachen
Voxtral Realtime (480 ms Verzögerung)8,72 %Niedriglatenz-Streaming
Whisper large-v3 Turbo7,75 %Geschwindigkeitsoptimierte Variante

Unabhängiges Leaderboard (Artificial Analysis, März 2026)

ModellAA-WERGeschwindigkeitsfaktorPreis pro 1.000 min
Voxtral Small (über Mistral API)2,9 %68,2x$4,00
Voxtral Mini Transcribe V23,8 %64,0x$3,00
Whisper large-v3 (über fal.ai)4,2 %31,9x$1,15
Whisper large-v3 Turbo (über Groq)4,8 %241,5x$0,67

Voxtral übertrifft Whisper bei den 13 unterstützten Sprachen durchgängig. Whispers Vorteil zeigt sich, wenn Sie Unterstützung für Sprachen benötigen, die Voxtral nicht abdeckt — Thai, Vietnamesisch, Polnisch, Tschechisch, Türkisch und Dutzende weitere.

Für den ausschließlich englischsprachigen Geräteeinsatz erzielen beide Modelle professionelle Genauigkeit. Weesper Neon Flow erreicht über 95 % Genauigkeit mit whisper.cpp und dem large-v3-Modell auf Apple Silicon und modernen GPUs — ein Niveau, das für medizinische, rechtliche und unternehmerische Diktatanwendungen ausreicht.

Können sie auf dem Gerät ausgeführt werden? Edge-Deployment im Vergleich

Die geräteseitige Transkription ist der Bereich, in dem der praktische Unterschied zwischen diesen beiden Modellen am deutlichsten ist — nicht aufgrund der Modellqualität, sondern aufgrund der Reife des Ökosystems.

Whispers Geräteeinsatz-Ökosystem

whisper.cpp, erstellt von Georgi Gerganov, ist seit Ende 2022 verfügbar und hat über 46.900 GitHub-Sterne gesammelt. Es unterstützt Metal (macOS), CUDA (Linux/Windows), Vulkan und sogar reine CPU-Inferenz. Quantisierte Modelle (Q5, Q4) laufen auf Consumer-Laptops mit 4–8 GB RAM. Die Laufzeitumgebung wurde über Millionen von Installationen erprobt und treibt Dutzende kommerzieller Produkte an, einschließlich Weesper Neon Flow.

Anwendungen, die auf whisper.cpp aufbauen, profitieren von drei Jahren community-getriebener Optimierung: SIMD-Beschleunigung (ARM NEON, x86 AVX), Sprachaktivitätserkennung, Echtzeit-Streaming-Wrapper und plattformspezifische Bindungen für Swift, Python, Rust und Node.js.

Voxtral Realtimes Geräteeinsatz-Ökosystem

Voxtral Realtime wurde im Februar 2026 mit offizieller Unterstützung für vLLM und Hugging Face Transformers (v5.2.0+) gestartet. Community-Implementierungen existieren bereits in C (voxtral.c), Rust und MLX (Apple Silicon). Ein ExecuTorch-Build ermöglicht die mobile Bereitstellung, und eine Q4-quantisierte Version läuft im Browser über WebAssembly und WebGPU.

Das Ökosystem ist jedoch erst zwei Monate alt. Produktionsreife Werkzeuge für Sprachaktivitätserkennung, Speaker-Diarisierung am Edge und plattformspezifische Bindungen befinden sich noch in der Entwicklung. Die VRAM-Anforderung von 16 GB für BF16-Inferenz schränkt den Einsatz auf leistungsfähigere Hardware ein, verglichen mit Whispers Fähigkeit, quantisiert auf einem MacBook Air mit 8 GB RAM zu laufen.

KriteriumWhisper (über whisper.cpp)Voxtral Realtime
Mindesthardware4 GB RAM (Q4, kleines Modell)16 GB VRAM (BF16) / 2,5 GB (Q4)
PlattformunterstützungmacOS, Windows, Linux, iOS, AndroidLinux (vLLM), macOS (MLX), Browser (WebGPU)
Community-Reife3+ Jahre, 46.900 GitHub-Sterne2 Monate, wächst schnell
Produktions-DeploymentsMillionenEarly Adopters
Natives StreamingÜber VAD-WrapperIntegriert (80 ms–2,4 s)

Wenn Sie heute eine bewährte, schlanke Engine benötigen, die auf nahezu jeder Hardware läuft, bleibt whisper.cpp die sicherere Wahl. Wenn Sie eine neue Anwendung entwickeln, bei der Streaming eine Kernanforderung ist und Sie auf leistungsfähigere GPUs abzielen können, verdient Voxtral Realtime eine ernsthafte Evaluation.

Neugierig auf breitere Trends in der Edge-KI und lokalen Verarbeitung für Sprachdiktat? Unser ausführlicher Beitrag erläutert, warum geräteseitige Modelle die Zukunft der privaten Spracherkennung darstellen.

Was ist mit Datenschutz und Lizenzen?

Beide Modelle ermöglichen vollständig offline betriebene, datenschutzorientierte Deployments — aber die Lizenzdetails sind wichtig.

Whisper wird unter der MIT-Lizenz veröffentlicht, einer der permissivsten verfügbaren Open-Source-Lizenzen. Sie können es ohne Einschränkungen in kommerziellen Produkten verwenden, modifizieren und vertreiben. Die vollständigen Modellgewichte sind seit 2022 öffentlich verfügbar.

Voxtral Realtime verwendet die Apache 2.0-Lizenz, die ähnlich permissiv ist und eine explizite Patentgewährung umfasst — ein praktischer Vorteil für Rechtsteams in Unternehmen. Die Gewichte sind auf Hugging Face für selbst gehostetes Deployment verfügbar.

Voxtral Mini Transcribe V2 ist jedoch derzeit nur über Mistrals API verfügbar. Das bedeutet, dass Ihre Audiodaten auf Mistrals Servern verarbeitet werden, was strenge Datenschutzanforderungen wie HIPAA oder DSGVO möglicherweise nicht erfüllt, es sei denn, Sie nutzen Mistrals dediziertes On-Premise-Angebot.

Für Anwendungen, bei denen Daten das Gerät nie verlassen, bieten sowohl Whisper (über whisper.cpp) als auch Voxtral Realtime (selbst gehostet) echte Offline-Verarbeitung. Weesper Neon Flow verwendet whisper.cpp genau aus diesem Grund — jede Transkription läuft lokal auf Ihrem Mac oder PC, ohne Netzwerkaufrufe.

Welches Open-Source-Sprachmodell sollten Sie wählen?

Das richtige Modell hängt von Ihren Prioritäten ab. Hier ist ein praktischer Entscheidungsrahmen.

Wählen Sie Whisper (über whisper.cpp), wenn Sie Folgendes benötigen:

Wählen Sie Voxtral Realtime, wenn Sie Folgendes benötigen:

Ziehen Sie beide in Betracht, wenn:

Die Spracherkennungslandschaft entwickelt sich rasant. Weitere starke Kandidaten wie NVIDIAs Canary (5,63 % WER im Open ASR Leaderboard), IBM Granite Speech 3.3 und Parakeet TDT sind es wert, beobachtet zu werden. Unser Leitfaden zur Spracherkennungsgenauigkeit erläutert, wie Sie Modelle jenseits bloßer WER-Kennzahlen bewerten können.

Warum Weesper Neon Flow whisper.cpp verwendet

Weesper Neon Flow basiert aus drei Gründen auf whisper.cpp: Ökosystem-Reife, plattformübergreifende Zuverlässigkeit und bewährter Datenschutz.

whisper.cpp läuft identisch auf macOS (Metal) und Windows (DirectX/CUDA) ohne Python-Abhängigkeiten. Es wurde über drei Jahre optimiert, um professionelle Genauigkeit zu liefern — über 95 % für englisches Diktat — auf Consumer-Hardware ab 8 GB RAM. Und da jede Transkription vollständig auf Ihrem Gerät läuft, verlassen Ihre Worte niemals Ihre Maschine.

Wir verfolgen Voxtral aktiv. Seine Streaming-Architektur und Genauigkeitsgewinne sind beeindruckend, und wenn das Ökosystem reift, könnte es für spezifische Anwendungsfälle eine überzeugende Ergänzung zu Whisper werden. Derzeit bietet whisper.cpp Weesper-Nutzern die beste Kombination aus Genauigkeit, Geschwindigkeit, Datenschutz und Plattformunterstützung.

Möchten Sie geräteseitiges Sprachdiktat mit whisper.cpp erleben? Laden Sie Weesper Neon Flow herunter und starten Sie Ihre kostenlose Testversion — kein Konto, keine Cloud, kein Kompromiss.