Tue. Nov 12th, 2024

Magda: Un Sistema de Catalogación de Big Data de Código Abierto

By admin Jan 29, 2024

Magda es un sistema de catálogo de datos que proporcionará un lugar único donde se pueden catalogar, enriquecer, buscar, rastrear y priorizar todos los datos de una organización, ya sean grandes o pequeños, de origen interno o externo, disponibles como archivos, bases de datos o API. Magda está diseñado específicamente en torno al concepto de federación: proporciona una vista única de todos los datos de interés para un usuario, independientemente de dónde se almacenan los datos o de dónde se obtuvieron.

El sistema puede rastrear rápidamente fuentes de datos externas, rastrear cambios, realizar mejoras automáticas y enviar notificaciones cuando se producen cambios, brindando a los usuarios de datos una ventanilla única para descubrir todos los datos que están disponibles para ellos.

Magda se desarrolló originalmente para el portal federal de datos abiertos del gobierno australiano. datos.gov.auque proporciona un lugar único para que los ciudadanos, científicos, periodistas y empresas de Australia descubran y accedan a más de 80.000 conjuntos de datos, desde API de datos vinculados hasta pequeños archivos de Excel.

Características

  1. Admite datos grandes y pequeños
  2. Mejora la búsqueda y catalogación de metadatos.
  3. Búsqueda integrada con soporte de búsqueda de texto completo y mapas
  4. Filtrar datos por fecha, organización y formatos de datos.
  5. Búsqueda potente y escalable basada en ElasticSearch
  6. Agregación rápida y confiable de fuentes externas de conjuntos de datos
  7. Un almacén central de metadatos sin opinión, capaz de atender a la mayoría de los esquemas de metadatos.
  8. Autenticación federada a través de pasaporte.js: inicie sesión a través de Google, Facebook, WSFed, AAF, CKAN y cree fácilmente nuevos proveedores.
  9. Basado en Kubernetes para el agnosticismo en la nube: implementable en casi cualquier nube, local o en una máquina local.
  10. Instalación y actualizaciones sencillas (siempre que conozca Kubernetes)
  11. Las extensiones se basan en agregar nuevas imágenes de Docker al clúster y, por lo tanto, se pueden desarrollar en cualquier idioma.

Magda Arquitectura

Magda se basa en una colección de microservicios que se distribuyen como contenedores acoplables. Esto se hizo para proporcionar una fácil extensibilidad: Magda se puede personalizar simplemente agregando nuevos servicios usando cualquier tecnología como imágenes de Docker e integrándolos con el resto del sistema a través de API HTTP estables.

El uso de Helm y Kubernetes para la orquestación significa que la configuración de una instancia Magda personalizada se puede almacenar y rastrear como texto sin formato, y las instancias con una configuración idéntica se pueden reproducir rápida y fácilmente.

Licencia

Magda se lanza bajo la licencia Apache-2.0

Recursos

Etiquetas

CMS Big Data Catalog Archive Código abierto Ciencia de datos autohospedado análisis de datos ingeniería de datos

By admin

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *