Wed. Nov 13th, 2024

Motor de búsqueda de documentos Ambar: Libre para buscar documentos de Office, texto y PDF

By admin Jan 29, 2024

Ambar es un motor de búsqueda de documentos de código abierto con rastreo automatizado, OCR, etiquetado y búsqueda instantánea de texto completo.

Ambar define una nueva forma de implementar la búsqueda de documentos de texto completo en su flujo de trabajo.

  • Implemente Ambar fácilmente con un solo docker-compose archivo
  • Realice una búsqueda similar a la de Google a través de sus documentos y contenidos de sus imágenes.
  • Etiqueta tus documentos
  • Utilice una API REST simple para integrar Ambar en su flujo de trabajo

Tutorial: Dominar las consultas de búsqueda de Ambar

  • Búsqueda difusa (John~3)
  • Búsqueda de frases (“John Smith”)
  • Buscar por autor (autor:John)
  • Buscar por ruta de archivo (nombre de archivo:*.txt)
  • Buscar por fecha (cuándo: ayer, hoy, la semana pasada, etc.)
  • Buscar por tamaño (tamaño>1M)
  • Buscar por etiquetas (etiquetas:ocr)
  • Busque mientras escribe
  • Analizadores de idiomas soportados: inglés ambar_enruso ambar_ruAlemán ambar_deItaliano ambar_itPolaco ambar_plChino ambar_cnCJK ambar_cjk

Arrastrándose

Ambar 2.0 solo admite el rastreo de FS local; si necesita rastrear un recurso compartido SMB de una ubicación FTP, simplemente móntelo usando herramientas estándar de Linux. El rastreo es automático, no se necesita programación debido a que los rastreadores monitorean los eventos del sistema de archivos y procesan automáticamente archivos nuevos, modificados y eliminados.

Extracción de contenido

Ambar admite archivos grandes (>30 MB)

Tipos de archivos admitidos:

  • archivos ZIP
  • Archivos de correo (PST)
  • Documentos de MS Office (Word, Excel, PowerPoint, Visio, Publisher)
  • OCR sobre imágenes
  • Mensajes de correo electrónico con archivos adjuntos
  • Adobe PDF (con OCR)
  • Idiomas OCR: inglés, ruso, ita, deu, fra, spa, pl, nld
  • Documentos de OpenOffice
  • RTF, texto sin formato
  • HTML/XHTML
  • Procesamiento multiproceso

Licencia

Ambar se publica bajo la licencia MIT.

Recursos

Etiquetas

Administrador de documentos motor de búsqueda MIT de código abierto Desarrollo web basado en web Herramientas para desarrolladores

By admin

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *