Tue. Dec 24th, 2024

Top 13 Free and Open Source OCR PDF Text Extractors

By admin Jan 28, 2024

Los formatos de archivos PDF son un formato compacto ampliamente utilizado para crear documentos portátiles, informes, libros electrónicos y más. Desarrollado originalmente por Adobe en 1992, se ha convertido en un estándar mundial.

Los archivos PDF pueden contener texto, imágenes y tablas, y pueden generarse mediante muchas suites ofimáticas, editores de documentos, aplicaciones, servicios web y más.

Es posible que muchos usuarios necesiten extraer y editar contenido PDF, como texto, imágenes y tablas, o extraer anotaciones y resaltados de texto. Si eres uno de estos usuarios, esta publicación es para ti.

Sin embargo, si está buscando programas de edición de PDF gratuitos, lo cubrimos en la siguiente publicación:

En esta publicación, presentamos las mejores soluciones de OCR de PDF gratuitas y de código abierto. Estas alternativas pueden ahorrarle el costo de los programas comerciales de PDF y al mismo tiempo ofrecer capacidades de OCR de alta calidad.

Tenga en cuenta que la mayoría de estas herramientas requieren bastante conocimiento sobre cómo ejecutar aplicaciones de línea de comandos.

1. OCRmyPDF: Busque sus archivos PDF con facilidad

OCRmyPDF es una herramienta gratuita de línea de comandos de código abierto que agrega una capa de texto OCR a los archivos PDF escaneados, lo que permite buscarlos o copiarlos. Ya se utiliza para escanear y buscar millones de archivos PDF pesados.

Sus características incluyen:

  • Genera un archivo PDF/A con capacidad de búsqueda a partir de un PDF normal
  • Coloca el texto OCR con precisión debajo de la imagen para facilitar copiar/pegar
  • Mantiene la resolución exacta de las imágenes incrustadas originales.
  • Cuando sea posible, inserta información de OCR como una operación “sin pérdidas” sin alterar ningún otro contenido.
  • Optimiza imágenes PDF, generando a menudo archivos más pequeños que el archivo de entrada.
  • Si se solicita, corrige y/o limpia la imagen antes de realizar el OCR.
  • Valida archivos de entrada y salida.
  • Distribuye el trabajo entre todos los núcleos de CPU disponibles
  • Utiliza el motor Tesseract OCR para reconocer más de 100 idiomas
  • Mantiene sus datos privados privados.
  • Se escala correctamente para manejar archivos con miles de páginas.

2. pd3f : Herramienta de extracción de texto PDF

pd3f es un potente canal de extracción de texto PDF autohospedado y gratuito que utiliza algoritmos de aprendizaje automático de última generación para reconstruir el texto original. Con la capacidad de escanear archivos PDF con OCR usando Tesseract y extraer tablas con Camelot y Tabula, pd3f es una herramienta versátil que puede realizar una variedad de tareas.

como se usa parsrque detecta con precisión jerarquías de texto y lo divide en palabras, líneas y párrafos, pd3f-core va un paso más allá al reconstruir el texto continuo original, eliminando guiones, nuevas líneas y espacios con facilidad.

Gracias a sus modelos de lenguaje avanzados, pd3f ofrece soporte para múltiples idiomas, incluidos alemán, inglés, español, francés e italiano. Y con su intuitiva GUI basada en web y su microservicio (API) basado en Flask, también ofrece una experiencia fácil de usar que no tiene paralelo en la industria.

3. PDF-CAJA DE HERRAMIENTAS: Herramienta de edición de PDF multipropósito

Esta es una increíble caja de herramientas PDF de código abierto que le permite editar archivos PDF, convertirlos a formato de texto editable, fusionar y dividir archivos PDF, agregar marcas de agua, cifrar y descifrar archivos PDF e incluso convertir archivos PDF en audiolibros.

A pesar de tener una interfaz de línea de comandos, es bastante fácil de usar, con comandos y atajos sencillos.

4. pdfocr: Buscar archivos PDF

pdfocr agrega una capa de texto OCR a los archivos PDF escaneados, lo que permite buscarlos. Actualmente depende de Ruby 1.8.7 o superior y utiliza ocropus, cuneiforme o tesseract para realizar OCR.

5. Tabla OCR: Extraer tablas de archivos PDF

Este proyecto tiene como objetivo extraer tablas de archivos PDF de imágenes escaneadas mediante el reconocimiento óptico de caracteres.

6. OCR multipágina

Este es un script de Python simple que ejecuta Tesseract OCR en un PDF de varias páginas.

Cada página del PDF se convierte en una imagen, cada imagen se convierte en texto y todos los archivos de texto se concatenan para producir el resultado final.

El script le permite especificar parámetros de ImageMagick en la conversión de imágenes, junto con algunos parámetros de tesseract para el OCR.

7. PDF2TXT

PDF2TXT es un programa que convierte archivos PDF a formato de texto sin formato (TXT) sin perder datos ni formato. Puede convertir varios archivos a la vez y puede usarse con una GUI fácil de usar o una línea de comando versátil en modo consola.

Los archivos de texto resultantes se pueden ver o editar en cualquier editor de texto o programa de visualización. PDF2TXT también incluye una vista de texto sin formato para facilitar la lectura de archivos PDF. Es compatible con todas las versiones de Windows.

8. LOC

Esta es una aplicación de JavaScript simple que le permite convertir un archivo PDF o de imagen escaneado en un PDF con capacidad de búsqueda o un archivo de texto.

9. comentarios

Remarks le permite extraer fácilmente anotaciones de PDF y texto resaltado, y convertirlos en archivos Markdown, PDF, PNG o incluso SVG. Depende en gran medida de las bibliotecas PyMuPDF y Shapely.

10. borbo

borb es una biblioteca pura de Python para leer, escribir y manipular documentos PDF. Representa un documento PDF como una estructura de datos similar a JSON de listas anidadas, diccionarios y primitivos (números, cadenas, valores booleanos, etc.).

Las características de Borb incluyen:

  • Leer un PDF y extraer metainformación
  • Cambiar metainformación
  • Extraer texto de un PDF
  • Extraer imágenes de un PDF
  • Cambiar imágenes en un PDF
  • Agregar anotaciones (notas, enlaces, etc.) a un PDF
  • Agregar texto a un PDF
  • Agregar tablas a un PDF
  • Agregar listas a un PDF
  • Usando un administrador de diseño de página

11. Alquimia

Alchemy es un conversor de archivos de código abierto (basado en Electron y React). También admite operaciones como fusionar archivos en un solo archivo PDF.

Las características de alquimia incluyen:

  • Bellamente simple. Interfaz súper sencilla de arrastrar y soltar para convertir/fusionar archivos
  • Fusionar archivos. Fusiona varias imágenes en un PDF, incluso puedes cambiar el orden de los archivos
  • Convertir archivos. Convierta por lotes varios arc
    hivos a una variedad de tipos de archivos

12. Dangerzone: convierte archivos PDF peligrosos en seguros

Dangerzone le permite transformar archivos PDF, documentos de Office e imágenes potencialmente dañinos en archivos PDF seguros en plataformas Windows, Linux y macOS.

Cuenta con la capacidad de convertir varios formatos de archivos a PDF, incluidos, entre otros, MS Docs, archivos de Excel, archivos de PowerPoint, archivos de formato de documento abierto para documentos (Texto: ODT), ODS, ODG y ODP. Además, le permite convertir imágenes en archivos PDF sin esfuerzo.

¿Qué hace Dangerzone?

  • Los entornos sandbox no tienen acceso a la red, por lo que si un documento malicioso puede comprometer uno, no podrá llamar a casa.
  • Dangerzone puede opcionalmente realizar OCR en los archivos PDF seguros que crea, por lo que volverá a tener una capa de texto
  • Dangerzone comprime el PDF seguro para reducir el tamaño del archivo
  • Después de la conversión, Dangerzone le permite abrir el PDF seguro en el visor de PDF de su elección, lo que le permite abrir archivos PDF y documentos de Office en Dangerzone de forma predeterminada, para que nunca abra accidentalmente un documento peligroso.

13. PyMuPDF

PyMuPDF es una biblioteca Python rica en funciones que proporciona enlaces para la aplicación MuPDF. Agrega funcionalidad a la visualización de PDF, incluidas extracciones de texto e imágenes, búsqueda de archivos PDF de gran tamaño y conversión desde y hacia archivos PDF con soporte para muchos otros formatos. Además, tiene un sólido sistema OCR con soporte Tesseract.

Si conoce otras soluciones de OCR de PDF de código abierto que no mencionamos aquí, háganoslo saber.

Recomendado

Theonlineconverter.com: Conversión en un clic

El sitio web gratuito de código abierto brinda acceso a herramientas de OCR a los usuarios. Un usuario puede acceder a archivos, imágenes y convertidores de documentos para administrar sus documentos. Sorprendentemente aquí, los conversores de vídeo y audio también están a disposición del usuario sin coste alguno.

Sus características incluyen:

  • Cada una de las herramientas tiene varias interfaces simples.
  • Fácil para el usuario arrastrar o soltar archivos de imagen y texto
  • El conversor de vídeo y audio traduce archivos MP3 y MP4 en poco tiempo
  • La conversión es precisa y sin pérdidas para los usuarios.
  • Más de 100 herramientas Plus están disponibles para los usuarios
  • La conversión sencilla de documentos oficiales y educativos está ahora a un clic de distancia

Etiquetas

Productividad Lista de pdf Oficina de código abierto Python Línea de comandos Windows Linux macos Ocr basado en web AI Arch Linux Linux Mint Ubuntu Herramientas para desarrolladores

By admin

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *