¿Qué es el texto a voz?
La conversión de texto a voz o síntesis de voz es un discurso con sonido humano generado artificialmente a partir de un texto que reconoce palabras y formula el habla humana.
El primer sistema Text-To-Speech fue presentado al mundo en 1968 por Noriko Umeda y otros, en el Laboratorio Electrotécnico de Japón.
En 1961, el físico John Larry Kelly, Jr. y su colega Louis Gerstman utilizaron una computadora IBM 704 para sintetizar el habla, un evento entre los más destacados en la historia de los Laboratorios Bell.
¿Los beneficios del TTS?
OpenTTS: Abrir servidor de texto a voz
Los principales beneficiados de esta tecnología son las personas con discapacidad visual y de lectura, ya que fueron sus primeros usuarios.
Hoy en día, muchos canales de YouTube utilizan esta tecnología para minimizar su edición y aumentar su producción.
En muchos sistemas operativos modernos, la conversión de texto a voz es una función de accesibilidad incorporada para ayudar a las personas que no pueden leer fácilmente el texto en pantalla.
Acerca de esta lista
En este artículo, le ofrecemos nuestra colección de aplicaciones de síntesis de voz y texto a voz (TTS) gratuitas y de código abierto. También puede encontrar una nueva lista actualizada para más aplicaciones y servicios TTS basados en web de código abierto.
1- MARÍA TTS
MARÍA TTS es un sistema de síntesis de texto a voz multilingüe y de código abierto escrito en Java puro. Está disponible para Windows, Linux y macOS.
MARY TTS se publica bajo la licencia LGPL-3.0.
2-Kaldi
Kaldi es un conjunto de herramientas para el reconocimiento de voz escrito en C++ y con la licencia Apache v2.0. El código fuente está disponible en GitHub.Kaldi puede ejecutarse en Windows, Linux y macOS. También puede ejecutarse en Android, PowerPC y Web Assembly.
3- AbiertoTTS
AbiertoTTS es un servidor abierto de texto a voz de código abierto y gratuito escrito en Python. Se publica bajo la licencia MIT. Admite varios idiomas y viene con una interfaz fácil de usar. Además, viene con numerosas bibliotecas alternativas.
Idiomas admitidos: inglés (27), alemán (7), francés (3), español (2), holandés (4), ruso (3), sueco (1), italiano (2), suajili (1), finlandés, Coreano, japonés, chino, sueco y más.
4- eHablar
eSpeak es un sintetizador de voz compacto de software de código abierto para inglés y otros idiomas, para Linux y Windows. Admite varios idiomas y viene con docenas de funciones útiles, lo que lo convierte en la opción ideal para muchos usuarios.
Idiomas soportados
afrikáans, albanés, aragonés, armenio, búlgaro, cantonés, catalán, croata, checo, danés, holandés, inglés, esperanto, estonio, farsi, finlandés, francés, georgiano, alemán, griego, hindi, húngaro, islandés, indonesio, irlandés, italiano, kannada, kurdo, letón, lituano, lojban, macedonio, malayo, malayalam, mandarín, nepalí, noruego, polaco, portugués, punjabí, rumano, ruso, serbio, eslovaco, español, suajili, sueco, tamil, turco, vietnamita, Galés.
5- Convertidor de texto a voz
Este proyecto de código abierto le permite convertir cualquier texto en voz fácilmente copiando y pegando el texto en su sencilla interfaz. Está escrito en lenguajes de programación C# y se ejecuta en Windows por ahora.
6- TTS EN LÍNEA
TTS EN LÍNEA es un proyecto HTML/JavaScript simple que convierte tu texto en inglés en un discurso formidable. ONLINE TTS presenta atajos simples y una interfaz de usuario limpia.
7- Flite
Flite es una síntesis pequeña y de tiempo de ejecución rápido biblioteca Adecuado para sistemas integrados y servidores. La biblioteca principal de Flite fue desarrollada por Alan W Black. [email protected] (principalmente en su llamado tiempo libre) mientras trabajaba en el Instituto de Tecnologías del Lenguaje de la Universidad Carnegie Mellon. Flite es compatible con Windows, Linux, macOS, Android, FreeBSD y varios otros sistemas.
8- julio
Julius es un motor de reconocimiento continuo de voz de gran vocabulario de código abierto.
Él es un software decodificador de reconocimiento continuo de voz (LVCSR) de alto rendimiento y tamaño reducido para investigadores y desarrolladores relacionados con el habla. Basado en palabras N-gram y HMM dependiente del contexto.
9- Atenea
Atenea es una implementación de código abierto de un motor de procesamiento de voz basado en secuencia a secuencia
Características de Atenas
ASR de extremo a extremo basado en atención híbrida/CTC
- Transformador de voz
- Preentrenamiento no supervisado
- Entrenamiento de múltiples GPU en una máquina o en varias máquinas con Horovod
- TTS basado en Tacotron2 de extremo a extremo con soporte para múltiples altavoces y GST
- TTS basado en transformador y FastSpeech
- Creación de WFST y decodificación basada en WFST
- Implementación con Tensorflow C++
10- ESPnet: kit de herramientas de procesamiento de voz de un extremo a otro
ESPnet es un conjunto de herramientas de procesamiento de voz de un extremo a otro, que se centra principalmente en el reconocimiento de voz de un extremo a otro y la conversión de texto a voz de un extremo a otro.
Es una aplicación fácil de desarrollar que se puede integrar en proyectos web. Los desarrolladores también pueden instalarlo usando Docker.
11- Constructor de voz
Constructor de voz es una herramienta de creación de voz de texto a voz (TTS) de código abierto que se centra en la simplicidad, la flexibilidad y la colaboración. Nuestra herramienta permite a cualquier persona con conocimientos básicos de informática realizar experimentos de entrenamiento de voz y escuchar la voz sintetizada resultante.
El proyecto Voice Builder está escrito con JavaScript y publicado bajo la licencia Apache-2.0.
12- Coquí TTS
Coqui TTS es una biblioteca para la generación avanzada de texto a voz. Se basa en las últimas investigaciones y fue diseñado para lograr el mejor equilibrio entre facilidad de entrenamiento, velocidad y calidad.
13- Mozilla TTS
Mozilla TTS es una biblioteca para la generación avanzada de texto a voz. Se basa en las últimas investigaciones y fue diseñado para lograr el mejor equilibrio entre facilidad de entrenamiento, velocidad y calidad.
14- METROycoft imitar
Mycroft es un sistema de asistente de voz de código abie
rto. Mimic es la biblioteca TTS incorporada creada por microft equipo.
15- TTS gratis
Si conoce alguna otra aplicación, kit de herramientas o biblioteca TTS de código abierto que no hayamos mencionado aquí, háganoslo saber.
Etiquetas
desarrollo Linux de código abierto programación macos Desarrollo web basado en web Servicios web Artículos tts Licencia Apache GPL MIT Windows FreeBSD Python Java Android Línea de comandos AI Inteligencia artificial