Wed. Nov 13th, 2024

Descubre Xidel: la herramienta de extracción de datos de código abierto que necesitas

By admin Jan 29, 2024

Xidel es una herramienta de línea de comandos para descargar y extraer datos de páginas HTML/XML o JSON-API, usando CSS, XPath 3.0, XQuery 3.0, JSONiq o coincidencia de patrones. También puede crear documentos XML/HTML/JSON nuevos o transformados.

Es un paquete independiente de la plataforma que se ejecuta en Windows, Linux y macOS.

Características

  • Este para configurar, usar
  • No se requiere configuración
  • Funciona sin problemas en Windows, Linux, macOS y Android
  • Bien documentada
  • Lleno de docenas de ejemplos
  • Paquete liviano

Xidel admite expresiones

  • Selectores CSS 3: para extraer elementos sin cambios
  • XPath 3.0: para extraer valores y calcular cosas con ellos.
  • XQuery 3.0: para crear nuevos documentos a partir de los valores extraídos y crear scripts completos de Turing.
  • Coincidencia de patrones: para extraer varias expresiones de una manera sencilla utilizando una versión anotada de la página de entrada para la coincidencia de patrones.
  • XPath 2.0/XQuery 1.0: modo de compatibilidad para versiones antiguas de XPath/XQuery.
  • JSONiq: para trabajar con API JSON (obsoleto en XPath 3.1)

Siguiente

  • Códigos HTTP: las redirecciones como 30x se siguen automáticamente, manteniendo elementos como las cookies.
  • Enlaces: puede seguir (todos) los enlaces de una página, metaactualizaciones o cualquier valor extraído.
  • Formularios HTML: puede completar datos arbitrarios en los elementos de entrada y enviar el formulario.
  • Solicitudes HTTP arbitrarias: en cualquier consulta, puede llamar a una función para realizar otras solicitudes.

Formatos de salida:

  • Adhoc: simplemente imprime los datos en un formato legible por humanos.
  • XML: codifica los datos como XML.
  • HTML: codifica los datos como HTML.
  • JSON: codifica los datos como JSON.
  • bash/cmd: exporta los datos como variables de shell.
  • fn:serialize: implementa el estándar de serialización W3C XQuery.

Conexiones

  • Conexiones: HTTP/HTTPS así como archivos locales o stdin.

Licencia

Xidel se publica bajo la Licencia Pública General GNU v3.0.

Recursos

Etiquetas

Análisis de datos de código abierto Ingeniería de datos Arch Linux Linux Ubuntu macos Programación de Windows

By admin

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *