Per installare whisper.cpp, clona il repository da GitHub, compilalo con CMake, scarica un file di modello ggml (come base o small), poi esegui lo strumento da riga di comando su un file WAV a 16 kHz. Sui Mac Apple Silicon puoi abilitare l’accelerazione Metal per un incremento di velocità superiore a 3x. L’intero processo richiede circa 15 minuti per uno sviluppatore a proprio agio con il terminale.

Introduzione

Eseguire il riconoscimento vocale localmente non è mai stato così pratico. Whisper.cpp porta il modello Whisper di OpenAI sulla tua macchina, senza cloud, senza chiavi API e senza che i dati lascino il tuo dispositivo. Questa guida all’installazione di whisper.cpp illustra ogni passaggio per eseguire Whisper in locale sia su macOS che su Windows.

Cloneremo il progetto, lo compileremo, scaricheremo i modelli ggml e trascriveremo un file audio reale. Si tratta di un tutorial genuino per la configurazione del riconoscimento vocale locale — tecnico, ma realizzabile in un pomeriggio.

Alla fine avrai un trascrittore offline funzionante. Saremo anche onesti riguardo alle difficoltà incontrate, e indicheremo un’alternativa preconfezionata per chi preferisce una soluzione che funzioni subito.

Che cos’è whisper.cpp e perché eseguire Whisper in locale?

Whisper.cpp è un port C/C++ ad alte prestazioni del modello di riconoscimento vocale Whisper di OpenAI, che gira interamente offline. Non richiede alcun runtime Python né connessione a internet una volta scaricato il modello.

Il riconoscimento vocale è il processo di conversione dell’audio parlato in testo scritto. Whisper è il modello neurale sottostante; whisper.cpp è il motore leggero che lo esegue in modo efficiente sull’hardware consumer.

Eseguirlo localmente offre tre vantaggi concreti:

È lo stesso approccio che abbiamo approfondito nella nostra analisi sull’IA edge e l’elaborazione locale, dove l’inferenza on-device sostituisce completamente il round-trip verso il cloud.

Come si installa whisper.cpp su macOS?

Su macOS cloni il repository, compili con CMake e scarichi un modello — tre comandi e sei già in grado di trascrivere. I Mac Apple Silicon ottengono i migliori risultati grazie all’accelerazione Metal e al Neural Engine.

Passo 1: Installa gli strumenti di build

Hai bisogno degli strumenti da riga di comando di Xcode e di CMake. Installali con Homebrew:

xcode-select --install
brew install cmake

Passo 2: Clona e compila

Clona il repository e compilalo con CMake. La build produce un binario whisper-cli all’interno della directory build.

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release

Su Apple Silicon, l’accelerazione Metal è abilitata di default nelle build recenti. Per un ulteriore incremento, puoi compilare con Core ML in modo che l’encoder giri sul Neural Engine di Apple, il che — secondo il progetto — può superare un’accelerazione di 3x rispetto alla sola CPU.

Passo 3: Scarica un modello ggml

I modelli sono distribuiti come file ggml — un singolo binario che contiene i pesi, il vocabolario e i filtri mel. Usa lo script incluso per scaricarne uno:

sh ./models/download-ggml-model.sh base.en

Sostituisci base.en con small, medium o large-v3 in base alla precisione necessaria. I modelli più grandi sono più accurati ma più lenti e richiedono più memoria.

Passo 4: Trascrivi un file

Whisper.cpp si aspetta un file WAV mono a 16 kHz. Converti qualsiasi audio con ffmpeg, poi esegui la CLI:

ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
./build/bin/whisper-cli -m models/ggml-base.en.bin -f output.wav

La trascrizione viene stampata nel terminale. Aggiungi -otxt per salvarla come file di testo.

Come si installa whisper.cpp su Windows?

Su Windows i passaggi rispecchiano macOS, ma compili con il compilatore di Visual Studio e gli strumenti CMake in dotazione. I possessori di GPU NVIDIA possono abilitare CUDA per una trascrizione più veloce.

Passo 1: Installa i prerequisiti

Installa questi tre componenti:

  1. Visual Studio 2022 con il carico di lavoro “Sviluppo di applicazioni desktop con C++”
  2. CMake (incluso in Visual Studio o installato separatamente)
  3. ffmpeg per la conversione audio, aggiunto al PATH

Passo 2: Clona e compila

Apri un “Developer Command Prompt for VS” ed esegui:

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build
cmake --build build --config Release

Per abilitare l’accelerazione GPU NVIDIA, aggiungi -DGGML_CUDA=1 al primo comando CMake. Dovrai aver installato in precedenza il CUDA Toolkit.

Passo 3: Scarica un modello e trascrivi

Lo script di download del modello funziona anche in una shell Git Bash o WSL:

sh ./models/download-ggml-model.sh base.en

Poi converti e trascrivi esattamente come su macOS:

ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav
.\build\bin\Release\whisper-cli.exe -m models\ggml-base.en.bin -f output.wav

Quale modello whisper.cpp scegliere?

Scegli il modello bilanciando precisione, velocità e memoria. I modelli più piccoli trascrivono più velocemente e usano meno RAM; quelli più grandi sono più accurati ma più pesanti. La tabella seguente riassume i compromessi.

ModelloParametriRAM approssimativaVelocità relativaIdeale per
tiny39M~1 GB~10xTest rapidi, dispositivi a bassa potenza
base74M~1 GB~7xUso generico, bozze veloci
small244M~2 GB~4xEquilibrio tra precisione e velocità
medium769M~5 GB~2xTrascrizione professionale
large-v31.550M~10 GB1x (baseline)Massima precisione, multilingue

Whisper supporta la trascrizione multilingue in decine di lingue, anche se la precisione varia per lingua. Per flussi di lavoro esclusivamente in inglese, le varianti di modello .en sono più leggere e spesso più accurate rispetto alle equivalenti multilingue.

Se il throughput grezzo è più importante del formato ggml, il progetto faster-whisper usa il backend CTranslate2 e riporta una trascrizione fino a 4x più veloce rispetto all’implementazione originale di OpenAI. Abbiamo confrontato il panorama più ampio dei modelli nella nostra analisi dei modelli vocali open source.

Non vuoi gestire tu stesso i file di modello? Puoi provare Weesper gratuitamente per 15 giorni — esegue lo stesso motore whisper.cpp con il modello corretto preconfigurato, senza bisogno del terminale.

Quali sono i limiti di un setup whisper.cpp fai-da-te?

Un setup whisper.cpp autocostruito è potente ma richiede una manutenzione continua: gestisci tu stesso le build, i file di modello, la conversione audio e gli aggiornamenti. È uno strumento da riga di comando, non un’app di dettatura.

Considera questi limiti pratici:

Per sviluppatori e appassionati del fai-da-te, questo controllo è il punto di forza. Ma se vuoi semplicemente una dettatura offline accurata che funzioni a livello di sistema, il costo in termini di configurazione è reale. La nostra guida al miglior software di riconoscimento vocale offline confronta le opzioni preconfezionate proprio per questo motivo.

L’alternativa integrata: Weesper Neon Flow

Se vuoi la potenza di whisper.cpp senza il processo di compilazione, Weesper Neon Flow lo include già configurato. È lo stesso motore open source, impostato con accelerazione Metal, prompt personalizzati e 50+ lingue, in un’app desktop a 5 €/mese.

Ecco come si confrontano i due approcci:

Funzionalitàwhisper.cpp fai-da-teWeesper Neon Flow
Motorewhisper.cppwhisper.cpp
Offline✅ 100%
Tempo di setup~15+ min + manutenzioneInstalla e usa
Accelerazione MetalBuild manuale✅ Integrata
Tasto di scelta rapida globale
Prompt personalizzati
LingueDipende dal modello50+
Conversione audioManuale (ffmpeg)✅ Automatica
PrezzoGratuito (il tuo tempo)5 €/mese

Weesper mantiene la stessa garanzia di privacy — l’audio non lascia mai il tuo dispositivo — eliminando il lavoro da terminale. Scarichi l’app una volta e detti in qualsiasi applicazione con una scorciatoia da tastiera, senza conversione WAV richiesta.

Conclusione

Whisper.cpp è un’opera notevole di ingegneria open source: un riconoscimento vocale offline genuino, preciso e completamente sotto il tuo controllo. Per sviluppatori e appassionati della privacy disposti a gestire build e file di modello, è difficile fare di meglio.

Se preferisci saltare la configurazione e iniziare subito a dettare, lo stesso motore è disponibile pronto all’uso in Weesper. Puoi avviare una prova gratuita di 15 giorni o consultare la nostra documentazione del centro assistenza per vedere come si adatta al tuo flusso di lavoro.

Pronto a dettare offline? Scarica Weesper Neon Flow ed esegui whisper.cpp senza la riga di comando — oppure esplora altri articoli sul nostro blog sull’IA locale e la trascrizione rispettosa della privacy.