Per installare whisper.cpp, clona il repository da GitHub, compilalo con CMake, scarica un file di modello ggml (come base o small), poi esegui lo strumento da riga di comando su un file WAV a 16 kHz. Sui Mac Apple Silicon puoi abilitare l’accelerazione Metal per un incremento di velocità superiore a 3x. L’intero processo richiede circa 15 minuti per uno sviluppatore a proprio agio con il terminale.
Introduzione
Eseguire il riconoscimento vocale localmente non è mai stato così pratico. Whisper.cpp porta il modello Whisper di OpenAI sulla tua macchina, senza cloud, senza chiavi API e senza che i dati lascino il tuo dispositivo. Questa guida all’installazione di whisper.cpp illustra ogni passaggio per eseguire Whisper in locale sia su macOS che su Windows.
Cloneremo il progetto, lo compileremo, scaricheremo i modelli ggml e trascriveremo un file audio reale. Si tratta di un tutorial genuino per la configurazione del riconoscimento vocale locale — tecnico, ma realizzabile in un pomeriggio.
Alla fine avrai un trascrittore offline funzionante. Saremo anche onesti riguardo alle difficoltà incontrate, e indicheremo un’alternativa preconfezionata per chi preferisce una soluzione che funzioni subito.
Che cos’è whisper.cpp e perché eseguire Whisper in locale?
Whisper.cpp è un port C/C++ ad alte prestazioni del modello di riconoscimento vocale Whisper di OpenAI, che gira interamente offline. Non richiede alcun runtime Python né connessione a internet una volta scaricato il modello.
Il riconoscimento vocale è il processo di conversione dell’audio parlato in testo scritto. Whisper è il modello neurale sottostante; whisper.cpp è il motore leggero che lo esegue in modo efficiente sull’hardware consumer.
Eseguirlo localmente offre tre vantaggi concreti:
- Privacy — l’audio non viene mai caricato su server di terze parti
- Nessun costo API ricorrente — trascrivi audio illimitato gratuitamente
- Funzionamento offline — funziona in aereo, in clinica o dietro un firewall
È lo stesso approccio che abbiamo approfondito nella nostra analisi sull’IA edge e l’elaborazione locale, dove l’inferenza on-device sostituisce completamente il round-trip verso il cloud.
Come si installa whisper.cpp su macOS?
Su macOS cloni il repository, compili con CMake e scarichi un modello — tre comandi e sei già in grado di trascrivere. I Mac Apple Silicon ottengono i migliori risultati grazie all’accelerazione Metal e al Neural Engine.
Passo 1: Installa gli strumenti di build
Hai bisogno degli strumenti da riga di comando di Xcode e di CMake. Installali con Homebrew:
xcode-select --install
brew install cmake
Passo 2: Clona e compila
Clona il repository e compilalo con CMake. La build produce un binario whisper-cli all’interno della directory build.
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release
Su Apple Silicon, l’accelerazione Metal è abilitata di default nelle build recenti. Per un ulteriore incremento, puoi compilare con Core ML in modo che l’encoder giri sul Neural Engine di Apple, il che — secondo il progetto — può superare un’accelerazione di 3x rispetto alla sola CPU.
Passo 3: Scarica un modello ggml
I modelli sono distribuiti come file ggml — un singolo binario che contiene i pesi, il vocabolario e i filtri mel. Usa lo script incluso per scaricarne uno:
sh ./models/download-ggml-model.sh base.en
Sostituisci base.en con small, medium o large-v3 in base alla precisione necessaria. I modelli più grandi sono più accurati ma più lenti e richiedono più memoria.
Passo 4: Trascrivi un file
Whisper.cpp si aspetta un file WAV mono a 16 kHz. Converti qualsiasi audio con ffmpeg, poi esegui la CLI:
ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
./build/bin/whisper-cli -m models/ggml-base.en.bin -f output.wav
La trascrizione viene stampata nel terminale. Aggiungi -otxt per salvarla come file di testo.
Come si installa whisper.cpp su Windows?
Su Windows i passaggi rispecchiano macOS, ma compili con il compilatore di Visual Studio e gli strumenti CMake in dotazione. I possessori di GPU NVIDIA possono abilitare CUDA per una trascrizione più veloce.
Passo 1: Installa i prerequisiti
Installa questi tre componenti:
- Visual Studio 2022 con il carico di lavoro “Sviluppo di applicazioni desktop con C++”
- CMake (incluso in Visual Studio o installato separatamente)
- ffmpeg per la conversione audio, aggiunto al
PATH
Passo 2: Clona e compila
Apri un “Developer Command Prompt for VS” ed esegui:
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release
Per abilitare l’accelerazione GPU NVIDIA, aggiungi -DGGML_CUDA=1 al primo comando CMake. Dovrai aver installato in precedenza il CUDA Toolkit.
Passo 3: Scarica un modello e trascrivi
Lo script di download del modello funziona anche in una shell Git Bash o WSL:
sh ./models/download-ggml-model.sh base.en
Poi converti e trascrivi esattamente come su macOS:
ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
.\build\bin\Release\whisper-cli.exe -m models\ggml-base.en.bin -f output.wav
Quale modello whisper.cpp scegliere?
Scegli il modello bilanciando precisione, velocità e memoria. I modelli più piccoli trascrivono più velocemente e usano meno RAM; quelli più grandi sono più accurati ma più pesanti. La tabella seguente riassume i compromessi.
| Modello | Parametri | RAM approssimativa | Velocità relativa | Ideale per |
|---|---|---|---|---|
| tiny | 39M | ~1 GB | ~10x | Test rapidi, dispositivi a bassa potenza |
| base | 74M | ~1 GB | ~7x | Uso generico, bozze veloci |
| small | 244M | ~2 GB | ~4x | Equilibrio tra precisione e velocità |
| medium | 769M | ~5 GB | ~2x | Trascrizione professionale |
| large-v3 | 1.550M | ~10 GB | 1x (baseline) | Massima precisione, multilingue |
Whisper supporta la trascrizione multilingue in decine di lingue, anche se la precisione varia per lingua. Per flussi di lavoro esclusivamente in inglese, le varianti di modello .en sono più leggere e spesso più accurate rispetto alle equivalenti multilingue.
Se il throughput grezzo è più importante del formato ggml, il progetto faster-whisper usa il backend CTranslate2 e riporta una trascrizione fino a 4x più veloce rispetto all’implementazione originale di OpenAI. Abbiamo confrontato il panorama più ampio dei modelli nella nostra analisi dei modelli vocali open source.
Non vuoi gestire tu stesso i file di modello? Puoi provare Weesper gratuitamente per 15 giorni — esegue lo stesso motore whisper.cpp con il modello corretto preconfigurato, senza bisogno del terminale.
Quali sono i limiti di un setup whisper.cpp fai-da-te?
Un setup whisper.cpp autocostruito è potente ma richiede una manutenzione continua: gestisci tu stesso le build, i file di modello, la conversione audio e gli aggiornamenti. È uno strumento da riga di comando, non un’app di dettatura.
Considera questi limiti pratici:
- Nessun tasto di scelta rapida globale — trascrive file, non dettatura live in qualsiasi app
- Conversione audio manuale — ogni input deve essere ricampionato in WAV a 16 kHz
- Nessun prompt personalizzato o formattazione predefinita
- La manutenzione è a tuo carico — ricompilare dopo gli aggiornamenti, gestire i file di modello, risolvere i problemi
Per sviluppatori e appassionati del fai-da-te, questo controllo è il punto di forza. Ma se vuoi semplicemente una dettatura offline accurata che funzioni a livello di sistema, il costo in termini di configurazione è reale. La nostra guida al miglior software di riconoscimento vocale offline confronta le opzioni preconfezionate proprio per questo motivo.
L’alternativa integrata: Weesper Neon Flow
Se vuoi la potenza di whisper.cpp senza il processo di compilazione, Weesper Neon Flow lo include già configurato. È lo stesso motore open source, impostato con accelerazione Metal, prompt personalizzati e 50+ lingue, in un’app desktop a 5 €/mese.
Ecco come si confrontano i due approcci:
| Funzionalità | whisper.cpp fai-da-te | Weesper Neon Flow |
|---|---|---|
| Motore | whisper.cpp | whisper.cpp |
| Offline | ✅ | ✅ 100% |
| Tempo di setup | ~15+ min + manutenzione | Installa e usa |
| Accelerazione Metal | Build manuale | ✅ Integrata |
| Tasto di scelta rapida globale | ❌ | ✅ |
| Prompt personalizzati | ❌ | ✅ |
| Lingue | Dipende dal modello | 50+ |
| Conversione audio | Manuale (ffmpeg) | ✅ Automatica |
| Prezzo | Gratuito (il tuo tempo) | 5 €/mese |
Weesper mantiene la stessa garanzia di privacy — l’audio non lascia mai il tuo dispositivo — eliminando il lavoro da terminale. Scarichi l’app una volta e detti in qualsiasi applicazione con una scorciatoia da tastiera, senza conversione WAV richiesta.
Conclusione
Whisper.cpp è un’opera notevole di ingegneria open source: un riconoscimento vocale offline genuino, preciso e completamente sotto il tuo controllo. Per sviluppatori e appassionati della privacy disposti a gestire build e file di modello, è difficile fare di meglio.
Se preferisci saltare la configurazione e iniziare subito a dettare, lo stesso motore è disponibile pronto all’uso in Weesper. Puoi avviare una prova gratuita di 15 giorni o consultare la nostra documentazione del centro assistenza per vedere come si adatta al tuo flusso di lavoro.
Pronto a dettare offline? Scarica Weesper Neon Flow ed esegui whisper.cpp senza la riga di comando — oppure esplora altri articoli sul nostro blog sull’IA locale e la trascrizione rispettosa della privacy.