CoquiTTS es una biblioteca para la generación avanzada de texto a voz. Se basa en las últimas investigaciones y fue diseñado para lograr el mejor equilibrio entre facilidad de entrenamiento, velocidad y calidad.
Viene con modelos previamente entrenados, herramientas para medir la calidad del conjunto de datos y ya se utilizan en Más de 20 idiomas para productos y proyectos de investigación.
CoquiTTS está escrito con Python y puede ser una herramienta útil para desarrolladores de videojuegos, postproducción, doblaje y creación de videos educativos.
Los desarrolladores de CoquiTTS están trabajando ahora en Coqui Studio, que ofrecerá una interfaz sencilla, sencilla y fácil de usar para clonar y crear audios de texto a voz en formato MP3.
Características
- Modelos de Deep Learning de alto rendimiento para tareas Text2Speech.
- Modelos Text2Spec (Tacotron, Tacotron2, Glow-TTS, SpeedySpeech).
- Codificador de altavoces para calcular las incrustaciones de altavoces de manera eficiente.
- Modelos de vocoder (MelGAN, Multiband-MelGAN, GAN-TTS, ParallelWaveGAN, WaveGrad, WaveRNN)
- Entrenamiento de modelos rápido y eficiente.
- Registros de entrenamiento detallados en la terminal y Tensorboard.
- Soporte para TTS de múltiples altavoces.
- Eficiente, flexible, liviano pero con funciones completas
Trainer API
. - Modelos liberados y listos para usar.
- Herramientas para seleccionar conjuntos de datos de Text2Speech en
dataset_analysis
. - Utilidades para usar y probar tus modelos.
- Base de código modular (pero no demasiado) que permite una fácil implementación de nuevas ideas.
Modelos implementados
Modelos de espectrograma
- Tacotrón: papel
- Tacotrón2: papel
- Glow-TTS: papel
- Habla rápida: papel
- Alinear-TTS: papel
- Lanzamiento rápido: papel
- Habla rápida: papel
- SC-GlowTTS: papel
- Capacitrón: papel
Modelos de extremo a extremo
Métodos de atención
- Atención guiada: papel
- Decodificación hacia adelante y hacia atrás: papel
- Atención de tumbas: papel
- Consistencia del doble decodificador: Blog
- Atención convolucional dinámica: papel
- Red de Alineamiento: papel
Codificador de altavoz
codificadores de voz
- MelGAN: papel
- MultibandaMelGAN: papel
- ParallelWaveGAN: papel
- Discriminadores GAN-TTS: papel
- OndaRNN: origen
- Graduado de onda: papel
- HiFiGAN: papel
- Red Universitaria: papel
Licencia
El proyecto se publica bajo la licencia MPL-2.0.
Recursos
Etiquetas
tts Código abierto Aprendizaje profundo Inteligencia artificial youtube Programación Python Aprendizaje automático