Fri. Sep 20th, 2024

Top 10 Free and Open Source Self-Hosted Document Search Engines

By admin Jan 28, 2024

Cuando utilizas un motor de búsqueda para encontrar la cafetería más cercana, probablemente no estés pensando en la tecnología detrás de todo. Pero más adelante te preguntarás cómo hizo eso ese motor de búsqueda.

¿Cómo pudo recorrer todo Internet tan rápido y elegir el resultado que vio en la página?

Cada motor de búsqueda utiliza su propio programa de software, pero todos funcionan de manera similar.

Todos realizan tres tareas básicas. Primero, examinan el contenido que conocen y tienen permiso para verlo; eso se llama gatear. Segundo, categorizan cada contenido; eso se llama indexación. Y, tercero, deciden qué contenido es más útil para los buscadores; Eso se llama clasificación.

Los motores de búsqueda de documentos son útiles para un gran volumen de conjuntos de datos. Debido a que es difícil obtener información útil de ese volumen de conjunto de datos, es necesario encontrar una solución que pueda satisfacer las necesidades comerciales tanto a corto como a largo plazo.

Las características principales del anuncio.motor de búsqueda de documentos

  1. buscando: Búsqueda basada en palabras clave, Búsqueda basada en temas, Búsqueda semántica

2. Extracción de frases clave.

3. Resumen de texto.

4. Resalte el resultado de la consulta.

5. Categorización de documentos.

6. Aprendizaje por retroalimentación/Reclasificación de consultas.

Los 10 mejores motores de búsqueda de documentos de código abierto

1. Ámbar

Ámbar

Un motor de búsqueda de documentos de código abierto, así como una forma de implementar la búsqueda de documentos de texto completo en su flujo de trabajo. Ambar viene con rastreo automatizado, OCR, etiquetado y búsqueda instantánea de texto completo. Basado en tecnología abierta similar a JavaScript, Python, CSS.

Este motor de búsqueda de documentos es compatible con todos los tipos de archivos comunes, como archivos ZIP, archivos de correo (PST), documentos de MS Office (Word, Excel, PowerPoint, Visio, Publisher), OCR sobre imágenes, mensajes de correo electrónico con archivos adjuntos, Adobe PDF (con OCR), y varios otros. Tiene licencia bajo licencia MIT.

Características:

  • Realice una búsqueda tipo Google a través del contenido de sus documentos e imágenes.
  • Etiqueta tus documentos para encontrar fácilmente lo que necesitas
  • Ambar admite todos los formatos de documentos populares
  • Ambar realiza OCR en tus imágenes y PDF
  • Implemente Ambar fácilmente con un único archivo Docker-Compose
  • Utilice una API REST simple para integrar Ambar en su flujo de trabajo

GitHub: https://github.com/RD17/ambar

2. Sidra

El motor de búsqueda de documentos de Cider es una de las valiosas incorporaciones a nuestra lista.

El programa está escrito en Java, este marco de integración de contenido puede almacenar entidades analizadas en Jena (http://jena.sourceforge.net/) Vocabularios RDF y proporciona un análisis semántico mejorado del contenido basado en el conocimiento. Es extracción y recuperación de documentos. Además, se publica bajo la licencia LGPL-3.0.

GitHub: https://github.com/yacy/cider

Abrir búsqueda semántica

Otro Dockerfile, motor de búsqueda de documentos de código abierto basado en JavaScript; Open Semantic Search admite diferentes formatos de archivos y múltiples fuentes de datos. Lo mejor de la búsqueda semántica abierta es que es un software gratuito para su propio motor de búsqueda, que es una búsqueda empresarial de código abierto y estándares abiertos para la integración de datos vinculados, web semántica y datos abiertos vinculados.

Características:

  • Búsqueda de texto completo
  • Tesauro y gramática (búsqueda semántica)
  • Filtros interactivos (búsqueda por facetas)
  • Exploración, navegación y vista previa (búsqueda exploratoria)
  • Anotación y etiquetado colaborativo (búsqueda social y filtrado colaborativo)
  • Visualización de datos
  • Monitoreo: alertas y listas de seguimiento (suministros de noticias)
  • Reconocimiento automático de texto

GitHub: https://github.com/opensemanticsearch/open-semantic-search

4. Motor de búsqueda IResearch

Yo investigo

IResearch, una biblioteca de motor de búsqueda de alto rendimiento orientada a documentos, es una plataforma multiplataforma escrita íntegramente en C++. Se centra en la capacidad de conexión de diferentes modelos de clasificación/similitud.

Este software se proporciona bajo la licencia de software Apache 2.0.

Características:

  • Tiene una biblioteca que debe ser tratada como un índice independiente.
  • Los datos indexados se tratan por versión/por revisión.
  • Permite operaciones triviales de lectura/escritura multiproceso en el índice.
  • Un registro de base de datos se representa como una abstracción llamada documento. Un documento es en realidad una colección de campos indexados/almacenados.

GitHub: https://github.com/iresearch-toolkit/iresearch

5. ulular

ulular

hOOt es el motor de búsqueda de texto completo más pequeño y gratuito. Este software se creó desde cero utilizando un índice de mapa de bits rugiente de mapa de bits WAH invertido, almacenamiento altamente compacto y funcionamiento en modo de base de datos y documento.

Características:

  • Velocidad de funcionamiento increíblemente rápida (consulte la sección de prueba de rendimiento)
  • Tamaño de código increíblemente pequeño.
  • Utiliza BitArrays comprimidos WAH para almacenar información.
  • Implementación multiproceso, lo que significa que puede realizar consultas mientras indexa.
  • Almacenamiento altamente optimizado, normalmente ~60 % más pequeño que lucene.net (cuanto más en el índice, mayor es la diferencia).
  • Tamaño pequeño, DLL de solo 38 kb (lucene.net pesa ~ 300 kb).

GitHub: https://github.com/mgholam/hOOt

6. Perlín

Perlin es uno de los motores de búsqueda de documentos gratuitos creados sobre Perlin-core. Este software está escrito en Rust. Se publica bajo una licencia del MIT.

GitHub: https://github.com/CurrySoftware/perlin

7. MetaFinder

MetaFinder

Un motor de búsqueda de documentos de código abierto, MetaFinder se puede descargar fácilmente para uso gratuito. Disponible en múltiples plataformas, no tendrá que preocuparse por la plataforma que esté utilizando. El objetivo es extraer metadatos.

MetaFinder está escrito con Pyt
hon y tiene la licencia GPL-3.0.

GitHub: https://github.com/Josue87/MetaFinder

8. Buscador

El motor de búsqueda es otro motor de búsqueda muy innovador para la búsqueda de documentos por el que puede optar.

El motor de búsqueda ha escrito en Ruby, Python, JavaScript. Utiliza PostgreSQL como backend de base de datos.

GitHub: https://github.com/chihsuan/search-engine

9. vamos a CC

vamos a CC

Disponible en ediciones profesional y comunitaria, Let's CC es otro excelente servicio de motor de búsqueda gratuito que puedes utilizar. La edición comunitaria se distribuye bajo CCL (Licencia Creative Commons) y su descarga es completamente gratuita. Está escrito en PHP.

GitHub: https://github.com/neomparam/letscc

10. Buscador de documentos inteligente

Herramienta de búsqueda de documentos que puedes utilizar. Programado en Python, el software funciona en el marco Flask. Tiene licencia bajo licencia MIT.

GitHub: https://github.com/Sarthakjain1206/Intelligent_Document_Finder

Conclusión

Estos servicios no tienen por qué costar grandes cantidades de dinero, ya que existen soluciones de código abierto disponibles. Revisamos diez motores de búsqueda de documentos de código abierto comunes que están disponibles para que usted elija.

Si tiene algún software adicional que le gustaría ver en esta lista, nos encantaría saberlo en los comentarios.

Etiquetas

Lista de aplicaciones gratuitas de código abierto Nube Servicios web de Linux autohospedados DMS Servicios de desarrollo web basados ​​en web

By admin

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *