Presentamos Story Teller, un narrador de IA multimodal creado con difusión estable, GPT y conversión de texto a voz (TTS) neuronal. Con solo un mensaje como línea inicial, GPT genera la trama, mientras que Stable Diffusion crea una imagen para cada oración. Luego, un modelo TTS narra cada línea, lo que da como resultado un vídeo completamente animado de una historia corta con audio y elementos visuales.
Para comenzar a desarrollar localmente, instale dependencias de desarrollo y enlaces de confirmación previa. Esto garantizará que se completen las comprobaciones de calidad del código y de linting antes de cada confirmación. El vídeo final se guardará como /out/out.mp4, con otras imágenes intermedias, archivos de audio y subtítulos.
Si se le da un mensaje como línea inicial de una historia, GPT escribe el resto de la trama; Stable Diffusion dibuja una imagen para cada oración; un modelo TTS narra cada línea, lo que da como resultado un vídeo completamente animado de una historia corta, repleto de audio y elementos visuales.
Story Teller está disponible en PyPI y la forma más rápida de ejecutar una demostración es a través de la CLI. Simplemente escriba el comando y su video estará listo. Además, puede ajustar los valores predeterminados con parámetros personalizados alternando los indicadores CLI según sea necesario. Para casos de uso más avanzados, puede interactuar directamente con Story Teller usando código Python y configurar el modelo con configuraciones personalizadas.
Características
- Disponible en PyPI
- Demostración rápida a través de CLI
- Imágenes intermedias, archivos de audio y subtítulos generados.
- Parámetros personalizables mediante indicadores CLI
- Casos de uso avanzados compatibles con la interfaz de código Python
- El modelo se puede configurar con ajustes personalizados
Licencia
- Licencia MIT
Recursos
Etiquetas
ChatGPT IA de código abierto Inteligencia artificial Programación en Python Autohospedado Basado en la web