Sat. Jul 27th, 2024

CoquiTTS: una biblioteca de código abierto para convertir texto a voz

By admin Jan 30, 2024

CoquiTTS es una biblioteca para la generación avanzada de texto a voz. Se basa en las últimas investigaciones y fue diseñado para lograr el mejor equilibrio entre facilidad de entrenamiento, velocidad y calidad.

Viene con modelos previamente entrenados, herramientas para medir la calidad del conjunto de datos y ya se utilizan en Más de 20 idiomas para productos y proyectos de investigación.

CoquiTTS está escrito con Python y puede ser una herramienta útil para desarrolladores de videojuegos, postproducción, doblaje y creación de videos educativos.

Los desarrolladores de CoquiTTS están trabajando ahora en Coqui Studio, que ofrecerá una interfaz sencilla, sencilla y fácil de usar para clonar y crear audios de texto a voz en formato MP3.

Características

  • Modelos de Deep Learning de alto rendimiento para tareas Text2Speech.
  • Modelos Text2Spec (Tacotron, Tacotron2, Glow-TTS, SpeedySpeech).
  • Codificador de altavoces para calcular las incrustaciones de altavoces de manera eficiente.
  • Modelos de vocoder (MelGAN, Multiband-MelGAN, GAN-TTS, ParallelWaveGAN, WaveGrad, WaveRNN)
  • Entrenamiento de modelos rápido y eficiente.
  • Registros de entrenamiento detallados en la terminal y Tensorboard.
  • Soporte para TTS de múltiples altavoces.
  • Eficiente, flexible, liviano pero con funciones completas Trainer API.
  • Modelos liberados y listos para usar.
  • Herramientas para seleccionar conjuntos de datos de Text2Speech endataset_analysis.
  • Utilidades para usar y probar tus modelos.
  • Base de código modular (pero no demasiado) que permite una fácil implementación de nuevas ideas.

Modelos implementados

Modelos de espectrograma

Modelos de extremo a extremo

Métodos de atención

  • Atención guiada: papel
  • Decodificación hacia adelante y hacia atrás: papel
  • Atención de tumbas: papel
  • Consistencia del doble decodificador: Blog
  • Atención convolucional dinámica: papel
  • Red de Alineamiento: papel

Codificador de altavoz

codificadores de voz

Licencia

El proyecto se publica bajo la licencia MPL-2.0.

Recursos

  1. Código fuente
  2. Sitio web

Etiquetas

tts Código abierto Aprendizaje profundo Inteligencia artificial youtube Programación Python Aprendizaje automático

By admin

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *