Pour installer whisper.cpp, clonez le dépôt depuis GitHub, compilez-le avec CMake, téléchargez un fichier de modèle ggml (par exemple base ou small), puis exécutez l’outil en ligne de commande sur un fichier WAV à 16 kHz. Sur les Mac Apple Silicon, vous pouvez activer l’accélération Metal pour un gain de vitesse de 3x ou plus. L’ensemble du processus prend environ 15 minutes pour un développeur à l’aise avec le terminal.
Introduction
Faire tourner la reconnaissance vocale en local n’a jamais été aussi accessible. Whisper.cpp apporte le modèle Whisper d’OpenAI sur votre propre machine, sans cloud, sans clé API et sans que vos données ne quittent votre appareil. Ce guide d’installation de whisper.cpp détaille chaque étape pour exécuter Whisper localement sur macOS et Windows.
Nous allons cloner le projet, le compiler, télécharger les modèles ggml et transcrire un vrai fichier audio. Il s’agit d’un tutoriel de configuration de reconnaissance vocale locale réellement technique, mais réalisable en une après-midi.
À la fin, vous disposerez d’un transcripteur hors ligne fonctionnel. Nous serons également honnêtes sur les frictions impliquées, et nous indiquerons une alternative packagée pour ceux qui préfèrent que ça fonctionne directement.
Qu’est-ce que whisper.cpp et pourquoi exécuter Whisper localement ?
Whisper.cpp est un portage C/C++ haute performance du modèle de reconnaissance vocale Whisper d’OpenAI, qui fonctionne entièrement hors ligne. Il ne nécessite ni runtime Python ni connexion internet une fois le modèle téléchargé.
La reconnaissance vocale est le processus de conversion de l’audio parlé en texte écrit. Whisper est le modèle neuronal sous-jacent ; whisper.cpp est le moteur léger qui l’exécute efficacement sur du matériel grand public.
L’exécuter localement vous offre trois avantages concrets :
- Confidentialité — l’audio n’est jamais envoyé vers un serveur tiers
- Aucun coût d’API récurrent — vous transcrivez un volume illimité d’audio gratuitement
- Capacité hors ligne — cela fonctionne dans un avion, dans une clinique ou derrière un pare-feu
C’est la même approche que nous avons explorée dans notre analyse approfondie de l’IA edge et du traitement local, où l’inférence sur l’appareil remplace entièrement le trajet vers le cloud.
Comment installer whisper.cpp sur macOS ?
Sur macOS, vous clonez le dépôt, compilez avec CMake et téléchargez un modèle — trois commandes et vous transcrivez. Les Mac Apple Silicon obtiennent les meilleurs résultats grâce à l’accélération Metal et Neural Engine.
Étape 1 : Installer les outils de compilation
Vous avez besoin des outils en ligne de commande Xcode et de CMake. Installez-les avec Homebrew :
xcode-select --install
brew install cmake
Étape 2 : Cloner et compiler
Clonez le dépôt et compilez-le avec CMake. La compilation produit un binaire whisper-cli dans le répertoire build.
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release
Sur Apple Silicon, l’accélération Metal est activée par défaut dans les versions récentes. Pour un gain supplémentaire, vous pouvez compiler avec Core ML afin que l’encodeur s’exécute sur l’Apple Neural Engine — le projet indique que cela peut dépasser un gain de vitesse de 3x par rapport au CPU seul.
Étape 3 : Télécharger un modèle ggml
Les modèles sont distribués sous forme de fichiers ggml — un binaire unique qui regroupe les poids, le vocabulaire et les filtres mel. Utilisez le script inclus pour en récupérer un :
sh ./models/download-ggml-model.sh base.en
Remplacez base.en par small, medium ou large-v3 selon la précision dont vous avez besoin. Les modèles plus grands sont plus précis mais plus lents et plus gourmands en mémoire.
Étape 4 : Transcrire un fichier
Whisper.cpp attend un fichier WAV mono à 16 kHz. Convertissez n’importe quel audio avec ffmpeg, puis lancez l’interface en ligne de commande :
ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
./build/bin/whisper-cli -m models/ggml-base.en.bin -f output.wav
La transcription s’affiche dans votre terminal. Ajoutez -otxt pour la sauvegarder en fichier texte.
Comment installer whisper.cpp sur Windows ?
Sur Windows, les étapes sont similaires à macOS, mais vous compilez avec le compilateur de Visual Studio et l’outillage CMake fourni avec lui. Les propriétaires de GPU NVIDIA peuvent activer CUDA pour une transcription plus rapide.
Étape 1 : Installer les prérequis
Installez ces trois composants :
- Visual Studio 2022 avec la charge de travail “Développement Desktop en C++”
- CMake (intégré à Visual Studio ou installé séparément)
- ffmpeg pour la conversion audio, ajouté à votre
PATH
Étape 2 : Cloner et compiler
Ouvrez une “Developer Command Prompt for VS” et exécutez :
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release
Pour activer l’accélération GPU NVIDIA, ajoutez -DGGML_CUDA=1 à la première commande CMake. Vous devrez avoir installé le CUDA Toolkit au préalable.
Étape 3 : Télécharger un modèle et transcrire
Le script de téléchargement de modèle fonctionne également dans un shell Git Bash ou WSL :
sh ./models/download-ggml-model.sh base.en
Convertissez et transcrivez ensuite exactement comme sur macOS :
ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
.\build\bin\Release\whisper-cli.exe -m models\ggml-base.en.bin -f output.wav
Quel modèle whisper.cpp choisir ?
Choisissez votre modèle en équilibrant précision, vitesse et mémoire. Les modèles plus petits transcrivent plus rapidement et consomment moins de RAM ; les modèles plus grands sont plus précis mais plus lourds. Le tableau ci-dessous résume les compromis.
| Modèle | Paramètres | RAM approximative | Vitesse relative | Idéal pour |
|---|---|---|---|---|
| tiny | 39M | ~1 Go | ~10x | Tests rapides, appareils peu puissants |
| base | 74M | ~1 Go | ~7x | Usage général, brouillons rapides |
| small | 244M | ~2 Go | ~4x | Équilibre précision et vitesse |
| medium | 769M | ~5 Go | ~2x | Transcription professionnelle |
| large-v3 | 1 550M | ~10 Go | 1x (référence) | Précision maximale, multilingue |
Whisper prend en charge la transcription multilingue dans des dizaines de langues, bien que la précision varie selon la langue. Pour un flux de travail uniquement en anglais, les variantes de modèle .en sont plus légères et souvent plus précises que leurs équivalents multilingues.
Si le débit brut prime sur le format ggml, le projet faster-whisper utilise le backend CTranslate2 et annonce une transcription jusqu’à 4x plus rapide que l’implémentation OpenAI originale. Nous avons comparé l’ensemble du paysage des modèles dans notre tour d’horizon des modèles vocaux open source.
Vous préférez ne pas gérer les fichiers de modèles vous-même ? Vous pouvez essayer Weesper gratuitement pendant 15 jours — il fait tourner le même moteur whisper.cpp avec le bon modèle préconfiguré, sans terminal requis.
Quelles sont les limites d’une installation DIY de whisper.cpp ?
Une installation whisper.cpp construite soi-même est puissante, mais exige une maintenance continue : vous gérez vous-même les compilations, les fichiers de modèles, la conversion audio et les mises à jour. C’est un outil en ligne de commande, pas une application de dictée.
Gardez à l’esprit ces limitations pratiques :
- Pas de raccourci global — il transcrit des fichiers, non une dictée en direct dans n’importe quelle application
- Conversion audio manuelle — chaque entrée doit être rééchantillonnée en WAV à 16 kHz
- Pas de prompts personnalisés ni de formatage prêts à l’emploi
- Vous prenez en charge la maintenance — recompilation après les mises à jour, gestion des fichiers de modèles, débogage
Pour les développeurs et les bidouilleurs, ce contrôle est toute la valeur ajoutée. Mais si vous souhaitez simplement une dictée hors ligne précise fonctionnant à l’échelle du système, la charge d’installation est bien réelle. Notre guide des meilleurs logiciels de reconnaissance vocale hors ligne compare les solutions packagées pour exactement cette raison.
L’alternative packagée : Weesper Neon Flow
Si vous voulez la puissance de whisper.cpp sans le processus de compilation, Weesper Neon Flow l’intègre pour vous. C’est le même moteur open source, configuré avec l’accélération Metal, des prompts personnalisés et plus de 50 langues, dans une application de bureau pour 5 €/mois.
Voici comment les deux approches se comparent :
| Fonctionnalité | DIY whisper.cpp | Weesper Neon Flow |
|---|---|---|
| Moteur | whisper.cpp | whisper.cpp |
| Hors ligne | ✅ | ✅ 100% |
| Temps d’installation | ~15 min + maintenance | Installer et c’est parti |
| Accélération Metal | Compilation manuelle | ✅ Intégrée |
| Raccourci de dictée global | ❌ | ✅ |
| Prompts personnalisés | ❌ | ✅ |
| Langues | Selon le modèle | 50+ |
| Conversion audio | Manuelle (ffmpeg) | ✅ Automatique |
| Prix | Gratuit (votre temps) | 5 €/mois |
Weesper offre la même garantie de confidentialité — votre audio ne quitte jamais votre appareil — tout en supprimant le travail en terminal. Vous téléchargez l’application une fois et dictez dans n’importe quelle application avec un raccourci clavier, sans conversion WAV requise.
Conclusion
Whisper.cpp est une réalisation open source remarquable : une reconnaissance vocale hors ligne authentique, précise, que vous contrôlez entièrement. Pour les développeurs et les défenseurs de la vie privée prêts à gérer compilations et fichiers de modèles, c’est difficile à surpasser.
Si vous préférez sauter l’installation et commencer à dicter immédiatement, le même moteur est disponible prêt à l’emploi dans Weesper. Vous pouvez démarrer un essai gratuit de 15 jours ou parcourir notre documentation Centre d’aide pour voir comment il s’intègre à votre flux de travail.
Prêt à dicter hors ligne ? Obtenez Weesper Neon Flow et utilisez whisper.cpp sans ligne de commande — ou lisez d’autres articles sur notre blog sur l’IA locale et la transcription axée sur la confidentialité.