Um whisper.cpp einzurichten, klonen Sie das Repository von GitHub, kompilieren Sie es mit CMake, laden Sie eine ggml-Modelldatei herunter (z. B. base oder small) und führen Sie das Befehlszeilenwerkzeug auf einer 16-kHz-WAV-Datei aus. Auf Apple-Silicon-Macs können Sie Metal-Beschleunigung aktivieren und dabei eine mehr als dreifache Geschwindigkeitssteigerung erzielen. Der gesamte Prozess dauert für einen Entwickler mit Terminal-Erfahrung etwa 15 Minuten.
Einführung
Spracherkennung lokal auszuführen war noch nie so praktikabel wie heute. Whisper.cpp bringt OpenAIs Whisper-Modell auf Ihre eigene Maschine – ohne Cloud, ohne API-Schlüssel und ohne dass Ihre Daten das Gerät verlassen. Dieser whisper.cpp-Einrichtungsleitfaden führt Sie durch jeden Schritt, um Whisper lokal auszuführen – sowohl auf macOS als auch auf Windows.
Wir klonen das Projekt, kompilieren es, laden die ggml-Modelle herunter und transkribieren eine echte Audiodatei. Dies ist ein technisches Tutorial zur lokalen Spracherkennungseinrichtung – anspruchsvoll, aber an einem Nachmittag zu bewältigen.
Am Ende haben Sie einen funktionierenden Offline-Transkriptor. Wir gehen auch ehrlich auf den damit verbundenen Aufwand ein und zeigen eine fertig konfigurierte Alternative für alle, die eine sofort einsatzbereite Lösung bevorzugen.
Was ist whisper.cpp und warum Whisper lokal betreiben?
Whisper.cpp ist ein hochperformanter C/C++-Port von OpenAIs Whisper-Spracherkennungsmodell, der vollständig offline läuft. Nach dem Herunterladen des Modells ist weder eine Python-Runtime noch eine Internetverbindung erforderlich.
Spracherkennung bezeichnet den Prozess, gesprochene Sprache in geschriebenen Text umzuwandeln. Whisper ist das zugrunde liegende neuronale Modell; whisper.cpp ist die schlanke Engine, die es effizient auf Consumer-Hardware ausführt.
Der lokale Betrieb bietet drei konkrete Vorteile:
- Datenschutz — Audio wird nie auf einen Drittanbieter-Server hochgeladen
- Keine laufenden API-Kosten — unbegrenzte Audiotranskription kostenlos
- Offline-Fähigkeit — funktioniert im Flugzeug, in einer Klinik oder hinter einer Firewall
Dies ist derselbe Ansatz, den wir in unserer ausführlichen Betrachtung von Edge-KI und lokaler Verarbeitung untersucht haben, bei der On-Device-Inferenz den Cloud-Roundtrip vollständig ersetzt.
Wie richtet man whisper.cpp auf macOS ein?
Auf macOS klonen Sie das Repository, kompilieren mit CMake und laden ein Modell herunter – drei Befehle, und Sie können bereits transkribieren. Apple-Silicon-Macs erzielen dank Metal und Neural Engine die besten Ergebnisse.
Schritt 1: Build-Tools installieren
Sie benötigen Xcode-Befehlszeilenwerkzeuge und CMake. Installieren Sie beides mit Homebrew:
xcode-select --install
brew install cmake
Schritt 2: Klonen und kompilieren
Klonen Sie das Repository und kompilieren Sie es mit CMake. Der Build erzeugt eine whisper-cli-Binärdatei im build-Verzeichnis.
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release
Auf Apple Silicon ist Metal-Beschleunigung in aktuellen Builds standardmäßig aktiviert. Für zusätzlichen Schub können Sie mit Core ML kompilieren, sodass der Encoder auf dem Apple Neural Engine läuft – laut Projektangaben kann dies die Geschwindigkeit gegenüber reiner CPU-Nutzung um mehr als das Dreifache steigern.
Schritt 3: Ein ggml-Modell herunterladen
Modelle werden als ggml-Dateien verteilt – eine einzelne Binärdatei, die Gewichte, Vokabular und Mel-Filter bündelt. Verwenden Sie das mitgelieferte Skript zum Herunterladen:
sh ./models/download-ggml-model.sh base.en
Ersetzen Sie base.en durch small, medium oder large-v3 je nach benötigter Genauigkeit. Größere Modelle sind präziser, aber langsamer und speicherintensiver.
Schritt 4: Eine Datei transkribieren
Whisper.cpp erwartet eine 16-kHz-Mono-WAV-Datei. Konvertieren Sie beliebige Audiodateien mit ffmpeg und führen Sie dann die CLI aus:
ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
./build/bin/whisper-cli -m models/ggml-base.en.bin -f output.wav
Das Transkript wird im Terminal ausgegeben. Fügen Sie -otxt hinzu, um es als Textdatei zu speichern.
Wie richtet man whisper.cpp unter Windows ein?
Unter Windows ähneln die Schritte denen auf macOS, aber Sie kompilieren mit dem Compiler von Visual Studio und dem mitgelieferten CMake-Tooling. NVIDIA-GPU-Besitzer können CUDA für schnellere Transkription aktivieren.
Schritt 1: Voraussetzungen installieren
Installieren Sie diese drei Komponenten:
- Visual Studio 2022 mit der Workload „Desktopentwicklung mit C++”
- CMake (im Lieferumfang von Visual Studio oder separat installiert)
- ffmpeg für die Audiokonvertierung, zum
PATHhinzugefügt
Schritt 2: Klonen und kompilieren
Öffnen Sie eine „Developer Command Prompt for VS” und führen Sie aus:
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release
Um NVIDIA-GPU-Beschleunigung zu aktivieren, fügen Sie -DGGML_CUDA=1 zum ersten CMake-Befehl hinzu. Dafür muss das CUDA Toolkit vorab installiert sein.
Schritt 3: Modell herunterladen und transkribieren
Das Modell-Download-Skript funktioniert auch in einer Git-Bash- oder WSL-Shell:
sh ./models/download-ggml-model.sh base.en
Konvertieren und transkribieren Sie dann genau wie auf macOS:
ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
.\build\bin\Release\whisper-cli.exe -m models\ggml-base.en.bin -f output.wav
Welches whisper.cpp-Modell sollten Sie wählen?
Wählen Sie Ihr Modell, indem Sie Genauigkeit gegen Geschwindigkeit und Speicherbedarf abwägen. Kleinere Modelle transkribieren schneller und verbrauchen weniger RAM; größere Modelle sind präziser, aber ressourcenintensiver. Die folgende Tabelle fasst die Kompromisse zusammen.
| Modell | Parameter | Ungefährer RAM | Relative Geschwindigkeit | Geeignet für |
|---|---|---|---|---|
| tiny | 39M | ~1 GB | ~10x | Schnelle Tests, schwache Geräte |
| base | 74M | ~1 GB | ~7x | Allgemeine Nutzung, schnelle Entwürfe |
| small | 244M | ~2 GB | ~4x | Ausgewogene Genauigkeit und Geschwindigkeit |
| medium | 769M | ~5 GB | ~2x | Professionelle Transkription |
| large-v3 | 1.550M | ~10 GB | 1x (Referenz) | Höchste Genauigkeit, mehrsprachig |
Whisper unterstützt mehrsprachige Transkription in Dutzenden von Sprachen, wobei die Genauigkeit je nach Sprache variiert. Für rein englischsprachige Workflows sind die .en-Modellvarianten kleiner und oft genauer als ihre mehrsprachigen Entsprechungen.
Wenn roher Durchsatz wichtiger ist als das ggml-Format, verwendet das faster-whisper-Projekt das CTranslate2-Backend und meldet bis zu viermal schnellere Transkription als die ursprüngliche OpenAI-Implementierung. Einen umfassenden Vergleich der Modelllandschaft finden Sie in unserer Analyse der Open-Source-Sprachmodelle.
Keine Lust auf manuelle Modellverwaltung? Sie können Weesper 15 Tage kostenlos testen – es betreibt dieselbe whisper.cpp-Engine mit dem richtigen Modell vorkonfiguriert, kein Terminal erforderlich.
Was sind die Einschränkungen eines selbst aufgesetzten whisper.cpp?
Ein selbst kompiliertes whisper.cpp ist leistungsstark, erfordert aber laufende Wartung: Sie verwalten Builds, Modelldateien, Audiokonvertierung und Updates eigenständig. Es ist ein Befehlszeilenwerkzeug, keine Diktat-App.
Beachten Sie diese praktischen Grenzen:
- Kein systemweites Tastenkürzel — transkribiert Dateien, kein Live-Diktat in beliebige Apps
- Manuelle Audiokonvertierung — jede Eingabe muss auf 16-kHz-WAV resampled werden
- Keine benutzerdefinierten Prompts oder Formatierung im Lieferumfang
- Sie tragen die Wartungslast — Neukompilierung nach Updates, Modellverwaltung, Fehlersuche
Für Entwickler und Tüftler ist genau diese Kontrolle der Sinn der Sache. Wer jedoch schlicht präzises Offline-Diktat systemweit haben möchte, sollte den Einrichtungsaufwand nicht unterschätzen. Unser Leitfaden zur besten Offline-Spracherkennungssoftware vergleicht fertig konfigurierte Lösungen aus genau diesem Grund.
Die fertige Alternative: Weesper Neon Flow
Wer die Leistung von whisper.cpp ohne den Build-Prozess möchte, findet in Weesper Neon Flow eine fertig konfigurierte Lösung. Es ist dieselbe Open-Source-Engine, eingerichtet mit Metal-Beschleunigung, benutzerdefinierten Prompts und über 50 Sprachen – als Desktop-App für 5 €/Monat.
So unterscheiden sich die beiden Ansätze:
| Funktion | Selbst kompiliertes whisper.cpp | Weesper Neon Flow |
|---|---|---|
| Engine | whisper.cpp | whisper.cpp |
| Offline | ✅ | ✅ 100 % |
| Einrichtungszeit | ~15+ Min. + Wartung | Installieren und loslegen |
| Metal-Beschleunigung | Manueller Build | ✅ Integriert |
| Systemweites Diktat-Tastenkürzel | ❌ | ✅ |
| Benutzerdefinierte Prompts | ❌ | ✅ |
| Sprachen | Modellabhängig | 50+ |
| Audiokonvertierung | Manuell (ffmpeg) | ✅ Automatisch |
| Preis | Kostenlos (Ihre Zeit) | 5 €/Monat |
Weesper bietet dieselbe Datenschutzgarantie – Ihre Audiodaten verlassen Ihr Gerät nie – und erspart Ihnen die Arbeit im Terminal. Sie laden die App einmalig herunter und diktieren mit einem Tastenkürzel in jede beliebige Anwendung, ohne WAV-Konvertierung.
Fazit
Whisper.cpp ist ein bemerkenswertes Stück Open-Source-Ingenieurskunst: echte, präzise, vollständig offline arbeitende Spracherkennung, die Sie vollständig kontrollieren. Für Entwickler und Datenschutzbefürworter, die bereit sind, Builds und Modelldateien zu verwalten, ist es kaum zu übertreffen.
Wer die Einrichtung überspringen und sofort mit dem Diktieren beginnen möchte, erhält dieselbe Engine einsatzbereit in Weesper. Sie können eine kostenlose 15-Tage-Testversion starten oder unsere Hilfecenter-Dokumentation durchstöbern, um zu sehen, wie es in Ihren Workflow passt.
Bereit für Offline-Diktat? Holen Sie sich Weesper Neon Flow und nutzen Sie whisper.cpp ohne Terminal – oder lesen Sie mehr in unserem Blog über lokale KI und datenschutzorientierte Transkription.