Um whisper.cpp einzurichten, klonen Sie das Repository von GitHub, kompilieren Sie es mit CMake, laden Sie eine ggml-Modelldatei herunter (z. B. base oder small) und führen Sie das Befehlszeilenwerkzeug auf einer 16-kHz-WAV-Datei aus. Auf Apple-Silicon-Macs können Sie Metal-Beschleunigung aktivieren und dabei eine mehr als dreifache Geschwindigkeitssteigerung erzielen. Der gesamte Prozess dauert für einen Entwickler mit Terminal-Erfahrung etwa 15 Minuten.

Einführung

Spracherkennung lokal auszuführen war noch nie so praktikabel wie heute. Whisper.cpp bringt OpenAIs Whisper-Modell auf Ihre eigene Maschine – ohne Cloud, ohne API-Schlüssel und ohne dass Ihre Daten das Gerät verlassen. Dieser whisper.cpp-Einrichtungsleitfaden führt Sie durch jeden Schritt, um Whisper lokal auszuführen – sowohl auf macOS als auch auf Windows.

Wir klonen das Projekt, kompilieren es, laden die ggml-Modelle herunter und transkribieren eine echte Audiodatei. Dies ist ein technisches Tutorial zur lokalen Spracherkennungseinrichtung – anspruchsvoll, aber an einem Nachmittag zu bewältigen.

Am Ende haben Sie einen funktionierenden Offline-Transkriptor. Wir gehen auch ehrlich auf den damit verbundenen Aufwand ein und zeigen eine fertig konfigurierte Alternative für alle, die eine sofort einsatzbereite Lösung bevorzugen.

Was ist whisper.cpp und warum Whisper lokal betreiben?

Whisper.cpp ist ein hochperformanter C/C++-Port von OpenAIs Whisper-Spracherkennungsmodell, der vollständig offline läuft. Nach dem Herunterladen des Modells ist weder eine Python-Runtime noch eine Internetverbindung erforderlich.

Spracherkennung bezeichnet den Prozess, gesprochene Sprache in geschriebenen Text umzuwandeln. Whisper ist das zugrunde liegende neuronale Modell; whisper.cpp ist die schlanke Engine, die es effizient auf Consumer-Hardware ausführt.

Der lokale Betrieb bietet drei konkrete Vorteile:

Dies ist derselbe Ansatz, den wir in unserer ausführlichen Betrachtung von Edge-KI und lokaler Verarbeitung untersucht haben, bei der On-Device-Inferenz den Cloud-Roundtrip vollständig ersetzt.

Wie richtet man whisper.cpp auf macOS ein?

Auf macOS klonen Sie das Repository, kompilieren mit CMake und laden ein Modell herunter – drei Befehle, und Sie können bereits transkribieren. Apple-Silicon-Macs erzielen dank Metal und Neural Engine die besten Ergebnisse.

Schritt 1: Build-Tools installieren

Sie benötigen Xcode-Befehlszeilenwerkzeuge und CMake. Installieren Sie beides mit Homebrew:

xcode-select --install
brew install cmake

Schritt 2: Klonen und kompilieren

Klonen Sie das Repository und kompilieren Sie es mit CMake. Der Build erzeugt eine whisper-cli-Binärdatei im build-Verzeichnis.

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release

Auf Apple Silicon ist Metal-Beschleunigung in aktuellen Builds standardmäßig aktiviert. Für zusätzlichen Schub können Sie mit Core ML kompilieren, sodass der Encoder auf dem Apple Neural Engine läuft – laut Projektangaben kann dies die Geschwindigkeit gegenüber reiner CPU-Nutzung um mehr als das Dreifache steigern.

Schritt 3: Ein ggml-Modell herunterladen

Modelle werden als ggml-Dateien verteilt – eine einzelne Binärdatei, die Gewichte, Vokabular und Mel-Filter bündelt. Verwenden Sie das mitgelieferte Skript zum Herunterladen:

sh ./models/download-ggml-model.sh base.en

Ersetzen Sie base.en durch small, medium oder large-v3 je nach benötigter Genauigkeit. Größere Modelle sind präziser, aber langsamer und speicherintensiver.

Schritt 4: Eine Datei transkribieren

Whisper.cpp erwartet eine 16-kHz-Mono-WAV-Datei. Konvertieren Sie beliebige Audiodateien mit ffmpeg und führen Sie dann die CLI aus:

ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
./build/bin/whisper-cli -m models/ggml-base.en.bin -f output.wav

Das Transkript wird im Terminal ausgegeben. Fügen Sie -otxt hinzu, um es als Textdatei zu speichern.

Wie richtet man whisper.cpp unter Windows ein?

Unter Windows ähneln die Schritte denen auf macOS, aber Sie kompilieren mit dem Compiler von Visual Studio und dem mitgelieferten CMake-Tooling. NVIDIA-GPU-Besitzer können CUDA für schnellere Transkription aktivieren.

Schritt 1: Voraussetzungen installieren

Installieren Sie diese drei Komponenten:

  1. Visual Studio 2022 mit der Workload „Desktopentwicklung mit C++”
  2. CMake (im Lieferumfang von Visual Studio oder separat installiert)
  3. ffmpeg für die Audiokonvertierung, zum PATH hinzugefügt

Schritt 2: Klonen und kompilieren

Öffnen Sie eine „Developer Command Prompt for VS” und führen Sie aus:

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release

Um NVIDIA-GPU-Beschleunigung zu aktivieren, fügen Sie -DGGML_CUDA=1 zum ersten CMake-Befehl hinzu. Dafür muss das CUDA Toolkit vorab installiert sein.

Schritt 3: Modell herunterladen und transkribieren

Das Modell-Download-Skript funktioniert auch in einer Git-Bash- oder WSL-Shell:

sh ./models/download-ggml-model.sh base.en

Konvertieren und transkribieren Sie dann genau wie auf macOS:

ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
.\build\bin\Release\whisper-cli.exe -m models\ggml-base.en.bin -f output.wav

Welches whisper.cpp-Modell sollten Sie wählen?

Wählen Sie Ihr Modell, indem Sie Genauigkeit gegen Geschwindigkeit und Speicherbedarf abwägen. Kleinere Modelle transkribieren schneller und verbrauchen weniger RAM; größere Modelle sind präziser, aber ressourcenintensiver. Die folgende Tabelle fasst die Kompromisse zusammen.

ModellParameterUngefährer RAMRelative GeschwindigkeitGeeignet für
tiny39M~1 GB~10xSchnelle Tests, schwache Geräte
base74M~1 GB~7xAllgemeine Nutzung, schnelle Entwürfe
small244M~2 GB~4xAusgewogene Genauigkeit und Geschwindigkeit
medium769M~5 GB~2xProfessionelle Transkription
large-v31.550M~10 GB1x (Referenz)Höchste Genauigkeit, mehrsprachig

Whisper unterstützt mehrsprachige Transkription in Dutzenden von Sprachen, wobei die Genauigkeit je nach Sprache variiert. Für rein englischsprachige Workflows sind die .en-Modellvarianten kleiner und oft genauer als ihre mehrsprachigen Entsprechungen.

Wenn roher Durchsatz wichtiger ist als das ggml-Format, verwendet das faster-whisper-Projekt das CTranslate2-Backend und meldet bis zu viermal schnellere Transkription als die ursprüngliche OpenAI-Implementierung. Einen umfassenden Vergleich der Modelllandschaft finden Sie in unserer Analyse der Open-Source-Sprachmodelle.

Keine Lust auf manuelle Modellverwaltung? Sie können Weesper 15 Tage kostenlos testen – es betreibt dieselbe whisper.cpp-Engine mit dem richtigen Modell vorkonfiguriert, kein Terminal erforderlich.

Was sind die Einschränkungen eines selbst aufgesetzten whisper.cpp?

Ein selbst kompiliertes whisper.cpp ist leistungsstark, erfordert aber laufende Wartung: Sie verwalten Builds, Modelldateien, Audiokonvertierung und Updates eigenständig. Es ist ein Befehlszeilenwerkzeug, keine Diktat-App.

Beachten Sie diese praktischen Grenzen:

Für Entwickler und Tüftler ist genau diese Kontrolle der Sinn der Sache. Wer jedoch schlicht präzises Offline-Diktat systemweit haben möchte, sollte den Einrichtungsaufwand nicht unterschätzen. Unser Leitfaden zur besten Offline-Spracherkennungssoftware vergleicht fertig konfigurierte Lösungen aus genau diesem Grund.

Die fertige Alternative: Weesper Neon Flow

Wer die Leistung von whisper.cpp ohne den Build-Prozess möchte, findet in Weesper Neon Flow eine fertig konfigurierte Lösung. Es ist dieselbe Open-Source-Engine, eingerichtet mit Metal-Beschleunigung, benutzerdefinierten Prompts und über 50 Sprachen – als Desktop-App für 5 €/Monat.

So unterscheiden sich die beiden Ansätze:

FunktionSelbst kompiliertes whisper.cppWeesper Neon Flow
Enginewhisper.cppwhisper.cpp
Offline✅ 100 %
Einrichtungszeit~15+ Min. + WartungInstallieren und loslegen
Metal-BeschleunigungManueller Build✅ Integriert
Systemweites Diktat-Tastenkürzel
Benutzerdefinierte Prompts
SprachenModellabhängig50+
AudiokonvertierungManuell (ffmpeg)✅ Automatisch
PreisKostenlos (Ihre Zeit)5 €/Monat

Weesper bietet dieselbe Datenschutzgarantie – Ihre Audiodaten verlassen Ihr Gerät nie – und erspart Ihnen die Arbeit im Terminal. Sie laden die App einmalig herunter und diktieren mit einem Tastenkürzel in jede beliebige Anwendung, ohne WAV-Konvertierung.

Fazit

Whisper.cpp ist ein bemerkenswertes Stück Open-Source-Ingenieurskunst: echte, präzise, vollständig offline arbeitende Spracherkennung, die Sie vollständig kontrollieren. Für Entwickler und Datenschutzbefürworter, die bereit sind, Builds und Modelldateien zu verwalten, ist es kaum zu übertreffen.

Wer die Einrichtung überspringen und sofort mit dem Diktieren beginnen möchte, erhält dieselbe Engine einsatzbereit in Weesper. Sie können eine kostenlose 15-Tage-Testversion starten oder unsere Hilfecenter-Dokumentation durchstöbern, um zu sehen, wie es in Ihren Workflow passt.

Bereit für Offline-Diktat? Holen Sie sich Weesper Neon Flow und nutzen Sie whisper.cpp ohne Terminal – oder lesen Sie mehr in unserem Blog über lokale KI und datenschutzorientierte Transkription.