top of page

Datos y Metadatos

Metadatos y estructura de datos

Datos y metadatos

Datos y metadatos

Datos y Metadatos

La importancia de los metadatos en un proyecto

Los metadatos, o "datos sobre los datos", son fundamentales en cualquier proyecto de datos por varias razones:

  • Comprensión del origen: Documentan la procedencia de los datos, incluyendo cuándo, cómo y por quién fueron recolectados.

  • Estructura clara: Definen la organización y formato de los datos, facilitando su interpretación.

  • Significado contextual: Proporcionan contexto y definiciones para cada elemento de datos.

  • Evaluación de calidad: Incluyen información sobre precisión, integridad y fiabilidad.

  • Facilitan la búsqueda: Permiten encontrar y filtrar datos relevantes rápidamente.

  • Compatibilidad: Aseguran que los datos puedan ser compartidos entre sistemas y organizaciones.

  • Trazabilidad: Permiten seguir el ciclo de vida de los datos a través de transformaciones y usos.

  • Cumplimiento normativo: Ayudan a cumplir con requisitos legales de gestión de datos.

Estándares internacionales de metadatos

Existen numerosos estándares internacionales para metadatos, adaptados a diferentes dominios:

  1. Dublin Core: Un conjunto simple de 15 elementos para describir recursos digitales (autor, título, fecha, etc.). Ampliamente utilizado en bibliotecas y archivos digitales.

  2. ISO 19115: Estándar específico para información geográfica y servicios geoespaciales.

  3. DDI (Data Documentation Initiative): Enfocado en documentación de datos de ciencias sociales y comportamentales.

  4. DCAT (Data Catalog Vocabulary): Facilita la interoperabilidad entre catálogos de datos en la web.

  5. Schema.org: Conjunto de esquemas para datos estructurados en Internet, respaldado por los principales motores de búsqueda.

  6. PREMIS (Preservation Metadata): Centrado en metadatos para preservación digital a largo plazo.

  7. CSDGM (Content Standard for Digital Geospatial Metadata): Utilizado para datos geoespaciales en EE.UU.

  8. ISO/IEC 11179: Estándar para registro de metadatos y administración de datos.

  9. CERIF (Common European Research Information Format): Para información de investigación científica.

  10. METS (Metadata Encoding and Transmission Standard): Para gestión de objetos en bibliotecas digitales.

  11. EML (Ecological Metadata Language): Específico para datos ecológicos y ambientales.

Discusión con los datos

Al encarar cualquier proyecto hay que "encariñarse" con los datos. Con esto quiero decir que hay que entenderlos y entender que es lo que se pretende hacer con ellos.

Habitualmente este proceso de entender los datos suele tener dos grandes componentes:

  1.  Comprender cuales son los datos necesarios para el objetivo del proyecto. Esta ejercicio de entendimiento tiene que ver mucho con el entendimiento del negocio y sus reglas. (Ver el apartado de Datos necesarios para un proyecto en este mismo sitio web)

  2. Definir (poner en blanco y negro, o bajar a tierra) la función de utilidad de los datos. Esta dinámica tiene que ver mucho con el data cleansing del conjunto de datos. (Ver el apartado DUF: utilidad de los datos en este mismo sitio web)

En este proceso de los pasos 1 y 2 de la mencionada rutina de entendimiento de los datos, lo que se hace es comprender, definir o redefinir la estructura de datos y los metadatos.


Metadatos

Los metadatos son "datos sobre los datos". Es decir, son información estructurada que describe, explica, ubica o facilita el uso de los datos.

📌 Ejemplo simple:
Imagina que tienes una tabla de ventas con esta estructura:

Cliente   Fecha             Monto

Juan       2024-03-10     $100

Ana        2024-03-11      $250

Los datos son los valores en la tabla (Juan, 2024-03-10, $100).

Los metadatos serían la información sobre estos datos, es decir:

  • Nombres de columna: Cliente, Fecha, Monto.

  • Tipo de datos: Texto, Fecha, Número.

  • Restricciones: "Monto no puede ser negativo".

  • Descripción: "El campo 'Fecha' indica el día de la compra".

Existen tres tipos básicos de metadatos en las bases de datos:

  1. Técnicos

  2. Descriptivos

  3. Administrativos


  1. Metadatos técnicos: Contienen información sobre la estructura de los datos. Por ejemplo: Tipo de datos, longitud máxima, claves primarias.

  2. Metadatos descriptivos: Explican el significado de los datos. Por ejemplo: Descripciones, nombres estándar, etiquetas.

  3. Metadatos administrativos: Indican quién puede acceder a los datos y cómo se gestionan. Por ejemplo: Permisos de usuario, reglas de seguridad.

Convenciones y estándares para los datos y su estructura

Existen varios estándares internacionales que regulan cómo se documentan y estructuran los datos en bases de datos relacionales. Entre los más conocidos y respetados mundialmente están:


A. SQL INFORMATION_SCHEMA (ISO/IEC 9075)

Es un conjunto de vistas estándar de SQL que permiten consultar metadatos sobre las bases de datos. Lo define el estándar SQL (ISO/IEC 9075) y es ampliamente adoptado en sistemas como SQL Server, PostgreSQL, MySQL y Oracle.


Uso:

  • Obtener información sobre tablas, columnas, tipos de datos, claves primarias y foráneas.

  • Identificar restricciones, relaciones y permisos de usuario.

  • Verificar si los datos cumplen con las normas de integridad.

Ejemplo de consulta para ver metadatos en SQL Server:

SELECT COLUMN_NAME, DATA_TYPE, IS_NULLABLE







FROM INFORMATION_SCHEMA.COLUMNS







WHERE TABLE_NAME = 'Ventas';

B. ISO/IEC 11179 - Metadata Registry Standard

Un estándar internacional de gestión de metadatos que define cómo deben documentarse los datos en bases de datos y sistemas de información. Lo usa la industria para mantener consistencia y calidad de datos en grandes organizaciones.


Uso

  • Define reglas para nombres, definiciones y descripciones de datos.

  • Establece cómo estructurar catálogos de metadatos en bases de datos.

  • Se usa en gobernanza de datos y data warehouses.

Ejemplo
Si tienes una base de datos con una columna llamada cliente_id, ISO 11179 recomienda documentar su significado, por ejemplo:

  • Nombre Estándar: Identificador de Cliente

  • Descripción: Un número único asignado a cada cliente en el sistema.

  • Ejemplo de Valor: C12345

C. Dublin Core Metadata Initiative (DCMI)
Es un estándar de metadatos ampliamente usado para describir recursos digitales (documentos, bases de datos, APIs, etc.). Define 15 elementos principales, como título, descripción, creador, fecha, formato, etc.

📌 ¿Para qué se usa?

  • Describir y clasificar datos en bases de datos documentales y repositorios de datos.

  • Crear catálogos de datos abiertos (Open Data).

  • Aplicar metadatos en la web, bibliotecas digitales y bases de datos.

📌 Ejemplo de aplicación en Power Query:
Si un campo de base de datos tiene una descripción definida en su origen, Power Query puede mapearla en Documentation.Description, siguiendo principios de Dublin Core.

🔹 Este estándar influye en cómo Power Query maneja metadatos dentro de Table.Schema().

bottom of page