El dictado de voz en Linux en 2026 se gestiona mejor con herramientas open source que ejecutan modelos Whisper o VOSK offline. Las opciones más destacadas son Vocalinux, VOXD, Handy, OpenWhispr, nerd-dictation, Whispering y LinuxWhispr. Todas procesan el audio localmente — sin nube, sin suscripción — y la mayoría soportan escritorios X11 y Wayland.
Introducción
Durante años, el dictado de voz en Linux estuvo por detrás de macOS y Windows. Eso ha cambiado. En 2026, una nueva oleada de herramientas open source de reconocimiento de voz para Linux basadas en Whisper ofrece un dictado preciso y completamente offline que rivaliza con los productos comerciales — sin enviar ni un solo byte a la nube.
Esta guía compara las 7 mejores herramientas de dictado de voz open source para Linux, cubriendo el motor de reconocimiento que usa cada una, el soporte de Wayland y X11, la aceleración GPU y los casos de uso ideales. Tanto si buscas un único comando como una app de bandeja pulida en Ubuntu, ahora existe una opción gratuita sólida para ti.
¿Qué es el dictado de voz en Linux?
El dictado de voz es el proceso de convertir palabras habladas en texto escrito mediante reconocimiento de voz, para luego insertar ese texto en cualquier aplicación. En Linux, las herramientas de dictado open source hacen esto completamente en tu propio hardware usando modelos de IA locales.
A diferencia de los servicios en la nube, estas herramientas descargan un modelo de voz — habitualmente Whisper.cpp, OpenAI Whisper, NVIDIA Parakeet o VOSK — y lo ejecutan localmente. El audio nunca abandona la máquina, lo que convierte a Linux en una de las plataformas más respetuosas con la privacidad para el dictado.
Dos conceptos técnicos importan a la hora de elegir una herramienta:
- Motor de reconocimiento — el modelo que transcribe el audio. Los motores basados en Whisper son los más precisos; VOSK es el más ligero.
- Backend de escritura — cómo se inserta el texto en las aplicaciones.
xdotoolfunciona en X11;ydotool,dotoolywtypesoportan Wayland.
¿Cómo se comparan las 7 mejores herramientas de dictado para Linux?
La tabla siguiente resume las siete principales herramientas de dictado open source para Linux por motor, soporte de servidor gráfico y licencia. Todas funcionan offline; las funciones en la nube son complementos opcionales en algunos casos.
| Herramienta | Motor de voz | Wayland / X11 | Interfaz | Licencia |
|---|---|---|---|---|
| Vocalinux | Whisper.cpp, Whisper, VOSK | Ambos | App de bandeja | GPL-3.0 |
| VOXD | Whisper.cpp | Ambos | CLI, GUI, bandeja | MIT |
| Handy | Whisper, Parakeet V3 | Ambos | App de bandeja | MIT |
| OpenWhispr | Whisper, Parakeet (+ nube BYOK) | Ambos | App de escritorio | MIT |
| nerd-dictation | VOSK | Ambos | Línea de comandos | GPL-3.0 |
| Whispering | Whisper.cpp (+ nube BYOK) | Ambos | Escritorio, web | AGPL-3.0 |
| LinuxWhispr | Whisper (+ refinado por IA) | Ambos (X11/Wayland) | GTK4 + web | Open source |
A continuación se detalla cada herramienta con las ventajas prácticas que la distinguen.
Las 7 mejores herramientas de dictado de voz open source para Linux
1. Vocalinux — la experiencia de escritorio más completa
Vocalinux es la opción más pulida y completa para dictado por voz en Ubuntu y otras distribuciones. Incluye una app de bandeja del sistema con modos de activación por toggle y push-to-talk, transcripción en tiempo real y comandos de voz como “nueva línea” o “eliminar eso”.
Soporta tres motores — Whisper.cpp (por defecto), OpenAI Whisper y VOSK — y ofrece aceleración GPU automática mediante Vulkan. A junio de 2026 está en v0.12.0-beta, probado en Ubuntu 22.04+, Debian 11+, Fedora 39+, Arch Linux y openSUSE Tumbleweed. Funciona 100% offline y tiene licencia GPL-3.0.
Elige Vocalinux si quieres una experiencia gráfica y completa sin tocar la línea de comandos.
2. VOXD — herramienta flexible compatible con Wayland
VOXD es una versátil herramienta de dictado offline para Linux construida sobre Whisper.cpp. Se ejecuta en segundo plano, transcribe al pulsar un atajo de teclado, escribe en la aplicación enfocada y copia al portapapeles. Soporta más de 99 idiomas y no necesita GPU.
Está probado explícitamente en GNOME, KDE, Cinnamon, Hyprland y Sway, usando ydotool para escribir en Wayland. VOXD también ofrece post-procesado de texto por IA opcional mediante LLMs locales o en la nube, además de modos CLI, GUI, bandeja y detección de actividad de voz. Tiene licencia MIT.
Elige VOXD si usas un compositor Wayland y quieres múltiples modos de interfaz.
3. Handy — enfocado en la privacidad y multiplataforma
Handy ofrece un flujo de trabajo sencillo de «pulsa un atajo, habla, el texto aparece» en Linux, macOS y Windows. Usa modelos OpenAI Whisper (Small, Medium, Turbo, Large) con aceleración GPU, además de Parakeet V3, un modelo optimizado para CPU con detección automática de idioma.
Todo el procesamiento es local — «tu voz permanece en tu ordenador». Incluye detección de actividad de voz con Silero, atajos configurables e inserción directa de texto. Handy tiene licencia MIT.
Elige Handy si buscas una herramienta limpia y centrada en la privacidad que funcione de forma idéntica en todos los sistemas operativos.
4. OpenWhispr — la alternativa open source a Wispr Flow
OpenWhispr se posiciona como una alternativa open source y multiplataforma a Wispr Flow. Ofrece transcripción local completamente privada con Whisper o NVIDIA Parakeet, o modelos en la nube opcionales mediante clave propia (BYOK).
No tiene telemetría ni recopilación de datos. La última versión es v1.7.2 (mayo de 2026), mantenida activamente, con licencia MIT. Funciona en Linux, macOS y Windows.
Elige OpenWhispr si quieres una experiencia al estilo Wispr Flow con la libertad de alternar entre privacidad local y velocidad en la nube.
5. nerd-dictation — la elección del minimalista
nerd-dictation es la utilidad de reconocimiento de voz para Linux más ligera de esta lista. Es una herramienta de línea de comandos: ejecuta nerd-dictation begin para empezar y nerd-dictation end para terminar. Usa el motor VOSK para el reconocimiento completamente offline.
Soporta cuatro backends de escritura — xdotool (X11), además de ydotool, dotool y wtype (Wayland) — y ofrece procesado de texto en Python configurable por el usuario, conversión de números y un modo de suspensión/reanudación para máquinas más lentas. Tiene licencia GPL-3.0.
Elige nerd-dictation si vives en el terminal y quieres el máximo control con la mínima sobrecarga.
6. Whispering — local primero, con flexibilidad en la nube
Whispering ofrece un flujo de «pulsa un atajo, habla, obtén el texto» en Linux, macOS y Windows. Es local por defecto mediante Whisper.cpp, pero también soporta APIs en la nube (Groq, OpenAI, ElevenLabs) con clave propia.
Ten en cuenta que el repositorio original fue archivado en febrero de 2026; el proyecto vive ahora dentro del ecosistema Epicenter y sigue desarrollándose activamente allí. La transcripción local es gratuita; el uso en la nube lo factura tu proveedor elegido. Tiene licencia AGPL-3.0.
Elige Whispering si quieres un comportamiento local por defecto con la opción de llamar a una API en la nube rápida cuando la precisión o la velocidad lo requieran.
7. LinuxWhispr — alternativa nativa GTK4 a Wispr Flow
LinuxWhispr es una app de dictado nativa de Linux, centrada en la privacidad, construida como alternativa open source a Wispr Flow. Combina reconocimiento de voz en tiempo real con refinado de texto por IA, una interfaz nativa GTK4 y un panel web.
Soporta tanto X11 como Wayland y está dirigida a usuarios que quieren una experiencia de escritorio moderna e integrada en lugar de una herramienta de línea de comandos.
Elige LinuxWhispr si quieres una app de escritorio GTK nativa con limpieza de texto dictado integrada mediante IA.
¿Qué herramienta de dictado para Linux deberías elegir?
Adapta la herramienta a tu flujo de trabajo en lugar de buscar la «mejor» en términos absolutos. Para una app gráfica con todo incluido, elige Vocalinux. Para el terminal, elige nerd-dictation. Para la flexibilidad en Wayland, elige VOXD o Handy.
Usa esta guía rápida de decisión:
- Quiero una app de bandeja pulida → Vocalinux
- Quiero la herramienta CLI más ligera posible → nerd-dictation
- Uso Hyprland, Sway u otro compositor Wayland → VOXD o Handy
- Quiero una experiencia al estilo Wispr Flow → OpenWhispr o LinuxWhispr
- Quiero local primero, pero con velocidad en la nube ocasionalmente → Whispering
- Alterne entre Linux, macOS y Windows → Handy o OpenWhispr
Para un análisis más amplio de los compromisos entre la transcripción local y en la nube — latencia, precisión y privacidad — consulta nuestro análisis sobre transcripción en dispositivo versus nube. Los factores que determinan la calidad del reconocimiento se tratan en profundidad en nuestro artículo sobre precisión del reconocimiento de voz.
¿Y los usuarios de macOS y Windows?
Si también trabajas en macOS o Windows, las herramientas open source de Linux no siempre te acompañarán — los motores, el empaquetado y los backends de escritura difieren según la plataforma. Para una experiencia offline consistente en esos sistemas, una app multiplataforma dedicada suele ser más sencilla.
Weesper Neon Flow es una de esas opciones para macOS y Windows (no para Linux). Al igual que las mejores herramientas de Linux, ejecuta modelos de clase Whisper completamente en el dispositivo, por lo que el audio nunca abandona tu máquina — con aceleración Metal en Mac y prompts de vocabulario personalizado para términos técnicos.
| Capacidad | Herramientas open source Linux | Weesper Neon Flow |
|---|---|---|
| Plataformas | Linux | macOS, Windows |
| Procesamiento | 100% en dispositivo | 100% en dispositivo |
| Motor | Whisper / VOSK / Parakeet | Clase Whisper local |
| Coste | Gratuito | 5 EUR / mes |
| Vocabulario personalizado | Varía según herramienta | Sí (prompts personalizados) |
| Instalación | Manual (CLI/compilar) | Instalador con un clic |
Para saber cómo el dictado en dispositivo protege el trabajo sensible, lee nuestra guía sobre dictado de voz offline y privacidad. Si vienes de una herramienta en la nube, nuestro resumen de alternativas a Wispr Flow compara el panorama offline en todas las plataformas.
Si usas Mac o Windows y quieres la misma privacidad que disfrutan los usuarios de Linux, prueba Weesper gratis durante 15 días — sin cuenta en la nube, ningún audio abandona jamás tu dispositivo.
Conclusión
El dictado de voz para Linux ha madurado hasta convertirse en un ecosistema genuinamente sólido y completamente open source en 2026. Tanto si quieres la app de bandeja pulida de Vocalinux, el minimalismo terminal de nerd-dictation, o una experiencia al estilo Wispr Flow con OpenWhispr o LinuxWhispr, puedes dictar con precisión y privacidad con todo ejecutándose en tu propio hardware.
Empieza con la herramienta que se adapte a tu escritorio y flujo de trabajo, elige un modelo Whisper que tu hardware pueda gestionar, y confirma que el backend de escritura funciona en tu sesión X11 o Wayland. Para comparar cómo el procesamiento local se compara con la nube, explora más guías de dictado en nuestro blog. Y si tu trabajo también se extiende a macOS o Windows, descarga Weesper Neon Flow para el mismo enfoque offline en esas plataformas.