Tue. Mar 5th, 2024

Julius: Un motor de reconocimiento de voz ligero y de código abierto

By admin Jan 29, 2024

“Julius” es un software decodificador de reconocimiento continuo de voz (LVCSR) de alto rendimiento y tamaño reducido para investigadores y desarrolladores relacionados con el habla. Está escrito principalmente para el lenguaje de programación C.

El algoritmo se basa en una búsqueda de árbol enrejado de dos pasos, que incorpora plenamente las principales técnicas de decodificación, como el léxico organizado en árbol, la aproximación de contexto de 1 mejor/par de palabras, la poda de rango/puntuación, la factorización de N-gramas y el contexto de crucigramas. manejo de dependencias, búsqueda de haz envolvente, poda gaussiana, selección gaussiana, etc.

Las principales plataformas de Julius son Linux y otros sistemas basados ​​en Unix, así como Windows, Mac, Android y otras plataformas.

Características

  • Un software LVCSR de código abierto (licencia BSD de 3 cláusulas).
  • Reconocimiento preciso, de alta velocidad y en tiempo real basado en una estrategia de 2 pasadas.
  • Requisito de memoria bajo: se requieren menos de 32 MBytes para el área de trabajo (<64 MBytes para dictado de 20 000 palabras con LM de 3 gramos en memoria).
  • Admite LM de N-gram con N arbitrario. También admite gramática basada en reglas y lista de palabras para el reconocimiento de palabras aisladas.
  • Dependiendo del idioma y de la unidad: se puede utilizar cualquier LM en formato estándar ARPA y AM en formato de definición HTK ascii hmm.
  • Altamente configurable: puede establecer varios parámetros de búsqueda. También se puede elegir un algoritmo de decodificación alternativo (1 mejor/par de palabras aproximadamente, enrejado de palabras/gráfico de palabras intermedios, etc.).
  • Lista de las principales funciones compatibles:
  • Reconocimiento sobre la marcha para micrófono y entrada de red
  • Rechazo de entrada basado en GMM
  • Decodificación sucesiva, delimitando la entrada mediante pausas breves.
  • N-mejor resultado
  • Salida de gráfico de palabras
  • Alineación forzada a nivel de palabra, fonema y estado
  • Puntuación de confianza
  • Modo servidor y API de control
  • Muchos parámetros de búsqueda para ajustar su rendimiento.
  • Conversión de código de caracteres para salida de resultados.
  • (Rev. 4) El motor se convierte en biblioteca y ofrece una API sencilla
  • (Rev. 4) Compatibilidad con N-gramas largos
  • (Rev. 4) Correr solo con N-gram hacia adelante/hacia atrás
  • (Rev. 4) Salida de la red de confusión
  • (Rev. 4) Decodificación multimodelo arbitraria en un solo hilo.
  • (Rev. 4) Reconocimiento rápido de palabras aisladas
  • (Rev. 4) Incorporación de funciones LM definidas por el usuario
  • Decodificación basada en DNN, que utiliza un módulo frontal para el cálculo de probabilidad de estado de marco para mayor flexibilidad.

Licencias

Este código está disponible bajo la licencia BSD modificada (licencia BSD-3-Clause).

Recursos

Etiquetas

Código abierto AI Inteligencia artificial Reconocimiento de voz tts Linux Windows macos Desarrollo de programación FreeBSD

By admin

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *