Dictado de voz en Linux: 7 mejores herramientas open source (2026)

18 de junio de 2026 · Weesper Team · 23 de junio de 2026

dictado voz Linux 2026Linux reconocimiento vozdictado open source Linuxdictado offline LinuxUbuntu dictado por voz

Dictado por voz open-source Linux 2026 — Whisper, VOXD, herramientas offline

El dictado de voz en Linux en 2026 se gestiona mejor con herramientas open source que ejecutan modelos Whisper o VOSK offline. Las opciones más destacadas son Vocalinux, VOXD, Handy, OpenWhispr, nerd-dictation, Whispering y LinuxWhispr. Todas procesan el audio localmente — sin nube, sin suscripción — y la mayoría soportan escritorios X11 y Wayland.

Introducción

Durante años, el dictado de voz en Linux estuvo por detrás de macOS y Windows. Eso ha cambiado. En 2026, una nueva oleada de herramientas open source de reconocimiento de voz para Linux basadas en Whisper ofrece un dictado preciso y completamente offline que rivaliza con los productos comerciales — sin enviar ni un solo byte a la nube.

Esta guía compara las 7 mejores herramientas de dictado de voz open source para Linux, cubriendo el motor de reconocimiento que usa cada una, el soporte de Wayland y X11, la aceleración GPU y los casos de uso ideales. Tanto si buscas un único comando como una app de bandeja pulida en Ubuntu, ahora existe una opción gratuita sólida para ti.

¿Qué es el dictado de voz en Linux?

El dictado de voz es el proceso de convertir palabras habladas en texto escrito mediante reconocimiento de voz, para luego insertar ese texto en cualquier aplicación. En Linux, las herramientas de dictado open source hacen esto completamente en tu propio hardware usando modelos de IA locales.

A diferencia de los servicios en la nube, estas herramientas descargan un modelo de voz — habitualmente Whisper.cpp, OpenAI Whisper, NVIDIA Parakeet o VOSK — y lo ejecutan localmente. El audio nunca abandona la máquina, lo que convierte a Linux en una de las plataformas más respetuosas con la privacidad para el dictado. Si quieres usar whisper.cpp directamente sin ninguna aplicación intermediaria, nuestro tutorial completo para instalar y configurar whisper.cpp te guía desde la compilación hasta la primera transcripción.

Dos conceptos técnicos importan a la hora de elegir una herramienta:

Motor de reconocimiento — el modelo que transcribe el audio. Los motores basados en Whisper son los más precisos; VOSK es el más ligero.
Backend de escritura — cómo se inserta el texto en las aplicaciones. xdotool funciona en X11; ydotool, dotool y wtype soportan Wayland.

¿Cómo se comparan las 7 mejores herramientas de dictado para Linux?

La tabla siguiente resume las siete principales herramientas de dictado open source para Linux por motor, soporte de servidor gráfico y licencia. Todas funcionan offline; las funciones en la nube son complementos opcionales en algunos casos.

Herramienta	Motor de voz	Wayland / X11	Interfaz	Licencia
Vocalinux	Whisper.cpp, Whisper, VOSK	Ambos	App de bandeja	GPL-3.0
VOXD	Whisper.cpp	Ambos	CLI, GUI, bandeja	MIT
Handy	Whisper, Parakeet V3	Ambos	App de bandeja	MIT
OpenWhispr	Whisper, Parakeet (+ nube BYOK)	Ambos	App de escritorio	MIT
nerd-dictation	VOSK	Ambos	Línea de comandos	GPL-3.0
Whispering	Whisper.cpp (+ nube BYOK)	Ambos	Escritorio, web	AGPL-3.0
LinuxWhispr	Whisper (+ refinado por IA)	Ambos (X11/Wayland)	GTK4 + web	Open source

A continuación se detalla cada herramienta con las ventajas prácticas que la distinguen.

Las 7 mejores herramientas de dictado de voz open source para Linux

1. Vocalinux — la experiencia de escritorio más completa

Vocalinux es la opción más pulida y completa para dictado por voz en Ubuntu y otras distribuciones. Incluye una app de bandeja del sistema con modos de activación por toggle y push-to-talk, transcripción en tiempo real y comandos de voz como “nueva línea” o “eliminar eso”.

Soporta tres motores — Whisper.cpp (por defecto), OpenAI Whisper y VOSK — y ofrece aceleración GPU automática mediante Vulkan. A junio de 2026 está en v0.12.0-beta, probado en Ubuntu 22.04+, Debian 11+, Fedora 39+, Arch Linux y openSUSE Tumbleweed. Funciona 100% offline y tiene licencia GPL-3.0.

Elige Vocalinux si quieres una experiencia gráfica y completa sin tocar la línea de comandos.

2. VOXD — herramienta flexible compatible con Wayland

VOXD es una versátil herramienta de dictado offline para Linux construida sobre Whisper.cpp. Se ejecuta en segundo plano, transcribe al pulsar un atajo de teclado, escribe en la aplicación enfocada y copia al portapapeles. Soporta más de 99 idiomas y no necesita GPU.

Está probado explícitamente en GNOME, KDE, Cinnamon, Hyprland y Sway, usando ydotool para escribir en Wayland. VOXD también ofrece post-procesado de texto por IA opcional mediante LLMs locales o en la nube, además de modos CLI, GUI, bandeja y detección de actividad de voz. Tiene licencia MIT.

Elige VOXD si usas un compositor Wayland y quieres múltiples modos de interfaz.

3. Handy — enfocado en la privacidad y multiplataforma

Handy ofrece un flujo de trabajo sencillo de «pulsa un atajo, habla, el texto aparece» en Linux, macOS y Windows. Usa modelos OpenAI Whisper (Small, Medium, Turbo, Large) con aceleración GPU, además de Parakeet V3, un modelo optimizado para CPU con detección automática de idioma.

Todo el procesamiento es local — «tu voz permanece en tu ordenador». Incluye detección de actividad de voz con Silero, atajos configurables e inserción directa de texto. Handy tiene licencia MIT.

Elige Handy si buscas una herramienta limpia y centrada en la privacidad que funcione de forma idéntica en todos los sistemas operativos.

4. OpenWhispr — la alternativa open source a Wispr Flow

OpenWhispr se posiciona como una alternativa open source y multiplataforma a Wispr Flow. Ofrece transcripción local completamente privada con Whisper o NVIDIA Parakeet, o modelos en la nube opcionales mediante clave propia (BYOK).

No tiene telemetría ni recopilación de datos. La última versión es v1.7.2 (mayo de 2026), mantenida activamente, con licencia MIT. Funciona en Linux, macOS y Windows.

Elige OpenWhispr si quieres una experiencia al estilo Wispr Flow con la libertad de alternar entre privacidad local y velocidad en la nube.

5. nerd-dictation — la elección del minimalista

nerd-dictation es la utilidad de reconocimiento de voz para Linux más ligera de esta lista. Es una herramienta de línea de comandos: ejecuta nerd-dictation begin para empezar y nerd-dictation end para terminar. Usa el motor VOSK para el reconocimiento completamente offline.

Soporta cuatro backends de escritura — xdotool (X11), además de ydotool, dotool y wtype (Wayland) — y ofrece procesado de texto en Python configurable por el usuario, conversión de números y un modo de suspensión/reanudación para máquinas más lentas. Tiene licencia GPL-3.0.

Elige nerd-dictation si vives en el terminal y quieres el máximo control con la mínima sobrecarga.

6. Whispering — local primero, con flexibilidad en la nube

Whispering ofrece un flujo de «pulsa un atajo, habla, obtén el texto» en Linux, macOS y Windows. Es local por defecto mediante Whisper.cpp, pero también soporta APIs en la nube (Groq, OpenAI, ElevenLabs) con clave propia.

Ten en cuenta que el repositorio original fue archivado en febrero de 2026; el proyecto vive ahora dentro del ecosistema Epicenter y sigue desarrollándose activamente allí. La transcripción local es gratuita; el uso en la nube lo factura tu proveedor elegido. Tiene licencia AGPL-3.0.

Elige Whispering si quieres un comportamiento local por defecto con la opción de llamar a una API en la nube rápida cuando la precisión o la velocidad lo requieran.

7. LinuxWhispr — alternativa nativa GTK4 a Wispr Flow

LinuxWhispr es una app de dictado nativa de Linux, centrada en la privacidad, construida como alternativa open source a Wispr Flow. Combina reconocimiento de voz en tiempo real con refinado de texto por IA, una interfaz nativa GTK4 y un panel web.

Soporta tanto X11 como Wayland y está dirigida a usuarios que quieren una experiencia de escritorio moderna e integrada en lugar de una herramienta de línea de comandos.

Elige LinuxWhispr si quieres una app de escritorio GTK nativa con limpieza de texto dictado integrada mediante IA.

¿Qué herramienta de dictado para Linux deberías elegir?

Adapta la herramienta a tu flujo de trabajo en lugar de buscar la «mejor» en términos absolutos. Para una app gráfica con todo incluido, elige Vocalinux. Para el terminal, elige nerd-dictation. Para la flexibilidad en Wayland, elige VOXD o Handy.

Usa esta guía rápida de decisión:

Quiero una app de bandeja pulida → Vocalinux
Quiero la herramienta CLI más ligera posible → nerd-dictation
Uso Hyprland, Sway u otro compositor Wayland → VOXD o Handy
Quiero una experiencia al estilo Wispr Flow → OpenWhispr o LinuxWhispr
Quiero local primero, pero con velocidad en la nube ocasionalmente → Whispering
Alterne entre Linux, macOS y Windows → Handy o OpenWhispr

Para un análisis más amplio de los compromisos entre la transcripción local y en la nube — latencia, precisión y privacidad — consulta nuestro análisis sobre transcripción en dispositivo versus nube. Los factores que determinan la calidad del reconocimiento se tratan en profundidad en nuestro artículo sobre precisión del reconocimiento de voz.

¿Y los usuarios de macOS y Windows?

Si también trabajas en macOS o Windows, las herramientas open source de Linux no siempre te acompañarán — los motores, el empaquetado y los backends de escritura difieren según la plataforma. Para una experiencia offline consistente en esos sistemas, una app multiplataforma dedicada suele ser más sencilla.

Weesper Neon Flow es una de esas opciones para macOS y Windows (no para Linux). Al igual que las mejores herramientas de Linux, ejecuta modelos de clase Whisper completamente en el dispositivo, por lo que el audio nunca abandona tu máquina — con aceleración Metal en Mac y prompts de vocabulario personalizado para términos técnicos.

Capacidad	Herramientas open source Linux	Weesper Neon Flow
Plataformas	Linux	macOS, Windows
Procesamiento	100% en dispositivo	100% en dispositivo
Motor	Whisper / VOSK / Parakeet	Clase Whisper local
Coste	Gratuito	5 EUR / mes
Vocabulario personalizado	Varía según herramienta	Sí (prompts personalizados)
Instalación	Manual (CLI/compilar)	Instalador con un clic

Para saber cómo el dictado en dispositivo protege el trabajo sensible, lee nuestra guía sobre dictado de voz offline y privacidad. Si vienes de una herramienta en la nube, nuestro resumen de alternativas a Wispr Flow compara el panorama offline en todas las plataformas.

Si usas Mac o Windows y quieres la misma privacidad que disfrutan los usuarios de Linux, prueba Weesper gratis durante 15 días — sin cuenta en la nube, ningún audio abandona jamás tu dispositivo.

Conclusión

El dictado de voz para Linux ha madurado hasta convertirse en un ecosistema genuinamente sólido y completamente open source en 2026. Tanto si quieres la app de bandeja pulida de Vocalinux, el minimalismo terminal de nerd-dictation, o una experiencia al estilo Wispr Flow con OpenWhispr o LinuxWhispr, puedes dictar con precisión y privacidad con todo ejecutándose en tu propio hardware.

Empieza con la herramienta que se adapte a tu escritorio y flujo de trabajo, elige un modelo Whisper que tu hardware pueda gestionar, y confirma que el backend de escritura funciona en tu sesión X11 o Wayland. Para comparar cómo el procesamiento local se compara con la nube, explora más guías de dictado en nuestro blog. Y si tu trabajo también se extiende a macOS o Windows, descarga Weesper Neon Flow para el mismo enfoque offline en esas plataformas.

Un precio simple, sin sorpresas

Todos los planes incluyen 15 días de prueba gratuita. Sin tarjeta de crédito necesaria.

MEJOR VALOR De por vida €99 pago único Se amortiza en 20 meses vs mensual

Anual €45 / año 3 meses gratis

Mensual €5 / mes

Descargar gratis — elige tu plan en la aplicación

Suscríbete directamente desde la aplicación tras tu prueba gratuita de 15 días.

Sobre el autor

Weesper Team

El equipo de Weesper desarrolla software de reconocimiento de voz en dispositivo usando Whisper, Metal y CUDA. Probamos herramientas de dictado en distintos sistemas operativos para ayudar a los usuarios a elegir la que mejor se adapta a su flujo de trabajo.

FAQ

¿Cuál es la mejor herramienta de dictado de voz open source para Linux en 2026?

No existe una única mejor herramienta: depende de tu flujo de trabajo. Para una experiencia de escritorio pulida con bandeja del sistema y aceleración GPU, Vocalinux es la opción más completa. Para un flujo de trabajo minimalista en línea de comandos, nerd-dictation es la más ligera. Para escritorios Wayland, tanto VOXD como Handy funcionan bien. Todas ejecutan modelos Whisper o VOSK completamente offline, por lo que el audio nunca abandona tu máquina. La mayoría son gratuitas bajo licencias open source permisivas.

¿Puedo usar dictado de voz offline en Linux?

Sí. Casi todas las herramientas de dictado open source para Linux funcionan completamente offline por diseño. Herramientas como Vocalinux, VOXD, Handy, nerd-dictation y OpenWhispr descargan un modelo de voz local (Whisper.cpp, OpenAI Whisper, NVIDIA Parakeet o VOSK) y procesan el audio en tu propio hardware. No se requiere conexión a internet una vez descargado el modelo, y ningún audio se envía a ningún servidor en la nube. Esto convierte a Linux en una de las plataformas más respetuosas con la privacidad para el dictado.

¿El dictado de voz funciona en Wayland o solo en X11?

En ambos, pero depende de la herramienta. Las utilidades más antiguas dependían de xdotool, que solo funciona en X11. Las herramientas modernas ya admiten Wayland mediante ydotool, dotool o wtype para la inyección de pulsaciones. nerd-dictation soporta xdotool, ydotool, dotool y wtype. VOXD está probado en compositores Wayland como Hyprland y Sway. Handy y OpenWhispr incluyen compilaciones nativas compatibles con Wayland. Comprueba el backend de escritura de cada proyecto antes de instalarlo en un escritorio Wayland.

¿Existe una alternativa a Wispr Flow para Linux?

Sí. Wispr Flow no soporta oficialmente Linux, pero varios proyectos open source llenan ese vacío. OpenWhispr, Handy y el proyecto nativo LinuxWhispr ofrecen un flujo de trabajo de «pulsa un atajo y habla» similar a Wispr Flow, con refinamiento de texto por IA opcional. A diferencia de Wispr Flow, estos se ejecutan localmente y mantienen el audio en el dispositivo. Si también trabajas en macOS o Windows, Weesper Neon Flow ofrece una experiencia offline comparable en esas plataformas.

¿Qué motor de reconocimiento de voz es más preciso para el dictado en Linux?

Los motores basados en Whisper son generalmente los más precisos. Whisper.cpp y OpenAI Whisper ofrecen una alta precisión en más de 99 idiomas y gestionan mejor la puntuación y los acentos que los motores más antiguos. VOSK es más ligero y rápido en hardware de gama baja, pero menos preciso para discurso complejo. NVIDIA Parakeet (utilizado por Handy y OpenWhispr) es una opción sólida optimizada para CPU. Para mayor precisión, elige un modelo Whisper más grande si tu GPU o CPU puede manejarlo.

¿Necesito una GPU potente para el dictado de voz en Linux?

No, pero una GPU ayuda. Los modelos Whisper más pequeños y VOSK funcionan de forma aceptable solo con CPU, lo que es suficiente para el dictado ocasional. Para la transcripción en tiempo real con modelos más grandes y precisos, la aceleración GPU marca una diferencia notable. Vocalinux soporta aceleración GPU Vulkan automática, y Handy usa GPU cuando está disponible. En hardware NVIDIA, Whisper.cpp con aceleración CUDA es el más rápido. Las configuraciones solo con CPU deberían preferir modelos más pequeños o Parakeet para mantener una latencia baja.