Tue. Dec 24th, 2024

12 bibliotecas y proyectos de OCR para mejorar la productividad

By admin Jan 28, 2024

¿Qué es OCR (reconocimiento óptico de caracteres)?

LOC o Reconocimiento óptico de caracteres es un proceso que convierte imágenes que contienen texto en formatos de texto editables y legibles que puede editar, copiar, pegar y guardar.

No es una tecnología nueva, ya que se creó hace décadas para ayudar a las empresas a transformar su documentación en documentos digitales.

OCR funciona reconociendo los caracteres de texto dentro de archivos de imagen o PDF, documentos escaneados o directamente desde la transmisión en vivo de una cámara.

No solo funciona con texto impreso, sino que muchas bibliotecas y marcos de OCR también pueden extraer texto de documentos escritos a mano hasta cierto punto.

Bibliotecas OCR de código abierto para desarrolladores

1- HierroOCR

HierroOCR sobresale como biblioteca C# OCR debido a sus potentes funciones de preprocesamiento y filtrado de imágenes, que gestionan hábilmente imágenes rotadas, sesgadas o ruidosas y, a menudo, alcanzan una notable precisión del 99,8-100% con una configuración mínima.

  • Compatibilidad de imágenes: Admite una variedad de formatos de imagen, incluidos PDF, TIFF, JPEG, GIF, PNG, BMP y más, lo que demuestra su flexibilidad en el manejo de diversos documentos.
  • API fácil de usar: Ofrece una biblioteca .NET completamente documentada con soporte IntelliSense y un equipo de soporte dedicado.
  • Comparado con Tesseract: IronOCR admite una amplia gama de formatos de imágenes y PDF, lo que elimina la necesidad de preprocesamiento de imágenes.
  • Ayuda de idioma: Más de 127 idiomas integrados con compatibilidad adicional con paquetes de idiomas personalizados.
  • Lectura de código de barras: Lee más de 20 formatos de códigos de barras y admite códigos QR.

Exportación de datos: Proporciona diversas opciones de exportación, lo que permite la conversión de documentos escaneados en archivos PDF con capacidad de búsqueda, OCR/HTML y la extracción de contenido textual de imágenes.

2- Teseracto

Tesseract es un motor de OCR gratuito de código abierto para crear aplicaciones de OCR. Admite Unicode (UTF-8) de forma predeterminada y muchos formatos de imagen como PNG, JPEG y TIFF. También admite muchos formatos de salida como PDF, archivos de TEXTO, TSV y texto de solo lectura.

Tesseract se desarrolló originalmente en Hewlett-Packard Laboratories Bristol y en Hewlett-Packard Co, Greeley Colorado entre 1985 y 1994, con algunos cambios más realizados en 1996 para migrar a Windows y algunos cambios en C++ en 1998. En 2005, Tesseract estaba abierto adquirido por HP. Desde 2006 hasta noviembre de 2018 fue desarrollado por Google.

Tesseract se lanza como un proyecto de código abierto bajo la licencia Apache 2.0; sin embargo, utiliza la biblioteca Leptonica que utiliza la licencia BSD de 2 cláusulas.

3- FácilOCR

EasyOCR es una solución de OCR gratuita para usuarios finales que admite más de 80 idiomas, que incluyen árabe, hebreo, chino, cirílico, latín y farsi.

El proyecto está siendo desarrollado activamente por muchos contribuyentes. Está escrito principalmente en Python.

EasyOCR admite varios formatos de imagen, archivos PDF, identificación de la posición del texto con un cuadro delimitador, nivel de confianza y más.

El proyecto utiliza Pytorch para el entrenamiento de IA. La ejecución de la detección utiliza el algoritmo CRAFT.

4- ocrd

GNU Ocrad es un programa y una biblioteca de OCR (reconocimiento óptico de caracteres) basado en un método de extracción de características. Lee imágenes en formatos png o pnm y produce texto en formatos de bytes (8 bits) o UTF-8. Los formatos pbm (mapa de bits), pgm (escala de grises) y ppm (color) se conocen colectivamente como pnm.

Ocrad incluye un analizador de diseño capaz de separar las columnas y bloques de texto que normalmente se encuentran en las páginas impresas.

Ocrad se puede utilizar como una aplicación de consola independiente o como backend para otros programas.

5- GOCR

GOCR es un OCR gratuito de código abierto que se publica bajo la licencia pública GNU.

Convierte imágenes escaneadas de texto nuevamente en archivos de texto. Jörg Schulenburg Comenzó el programa y lideró el equipo de desarrolladores en SF, y después de 2010 todavía administra el paquete en un tiempo (muy) bajo.

GOCR se puede utilizar con diferentes interfaces, lo que hace que sea muy fácil de migrar a diferentes sistemas operativos y arquitecturas. Puede abrir muchos formatos de imagen diferentes y su calidad ha ido mejorando diariamente hasta 2010.

6- Ocular

Ocular es un sistema de OCR gratuito FLOSS (Free Libre Open Source Software) para documentos históricos e impresos.

Ocular está escrito en Java y funciona perfectamente en Windows, Linux y macOS. Viene con una rica CLI (interfaz de línea de comandos) y admite todos los formatos de imagen populares.

Sus características incluyen:

  • Aprendizaje no supervisado de fuentes desconocidas: solo requiere imágenes de documentos y un corpus de texto.
  • Capacidad para manejar documentos ruidosos: entintado, espaciado, alineación vertical, etc. inconsistentes.
  • Soporte para documentos multilingües, incluidos aquellos que tienen un cambio considerable de código a nivel de palabra.
  • Aprendizaje no supervisado de patrones de variación ortográfica, incluida la ortografía arcaica y la taquigrafía impresa.
  • Transcripción conjunta simultánea en forma diplomática (literal) y normalizada.

7- OCR basado en la atención

El OCR basado en la atención viene con un reconocimiento de texto de última generación que utiliza modelos TensorFlow y un paquete Python que es totalmente compatible con Google Cloud ML Engine.

Este proyecto se basa en un modelo de Qi Guo y Yuntian Deng. Puedes encontrar el modelo original en el da03/Atención-OCR repositorio.

8- Calamares OCR

Calamari OCR Engine está basado en OCRpy y Kraken usando python3. Está diseñado para ser fácil de usar desde la línea de comandos pero también para ser modular para integrarse y personalizarse desde otros scripts de Python.

9- OCR de Python sencillo

Simple OCR es una aplicación de OCR de código abierto que utiliza las bibliotecas OpenCV y Numpy Python.

10- doctorTR

docTR (Reconocimiento de texto de documentos) es una biblioteca accesible, integrada y de alto rendimiento para tareas relacionadas con OCR impulsada por Deep Learning.

El docTR funciona con TensorFlow 2 y PyTorch.

11- SwiftOCR

SwiftOCR (que actualmente está en desuso y ya no se mantiene) es una biblioteca de OCR de código abierto escrita en lenguaje Swift.

Utiliza una red neuronal para el reconocimiento de imágenes. A partir de ahora, SwiftOCR está optimizado para reconocer códigos alfanuméricos cortos de una línea (por ejemplo, DI4C9CM). Actualmente admitimos iOS y OS X.

12- Kraken

Kraken es un OCR gratuito de código abierto para documentos históricos, como escrituras no latinas.

Características principales

  • Análisis de diseño y reconocimiento de caracteres totalmente entrenables.
  • De derecha a izquierda, bidiy compatibilidad con secuencias de comandos de arriba a abajo
  • ALTOPageXML, abbyyXML y salida hOCR
  • Cuadros delimitadores de palabras y cortes de caracteres
  • Soporte de reconocimiento de múltiples scripts
  • Repositorio público de archivos modelo
  • Archivos de modelo livianos
  • Arquitecturas de red de reconocimiento variable

Para resumir

Las tecnologías y aplicaciones OCR son esenciales para todo tipo de usuarios que deseen convertir sus documentos a formato digital.

En esta lista, enumeramos las mejores bibliotecas y marcos de OCR de código abierto para que los desarrolladores creen aplicaciones orientadas a OCR para usuarios finales.

Si conoce alguna otra biblioteca o marco de código abierto que no mencionamos aquí, háganoslo saber.

Etiquetas

Lista de programación ocr Herramientas para desarrolladores Inteligencia artificial Aprendizaje profundo Aprendizaje automático Linux AI

By admin

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *