Metadatos clave para reutilizar datos abiertos en IA

Los datos abiertos del sector público son una pieza central de la innovación digital en torno a la inteligencia artificial, especialmente para el entrenamiento y la evaluación de modelos de aprendizaje automático. Sin embargo, entre la simple descarga de un fichero desde un portal de datos y la disponibilidad de un conjunto de datos listo para su uso en estos modelos existe todavía una brecha significativa.

Según se expone en la información publicada por la Administración, una parte relevante de esta dificultad está relacionada con los metadatos, es decir, con la forma en que se describen los conjuntos de datos. Cuando los metadatos se limitan a elementos básicos como el título, la descripción o la licencia, el proceso de comprensión y preparación de los datos resulta más complejo y costoso para quienes diseñan modelos de aprendizaje automático. Por el contrario, el uso de estándares orientados a la interoperabilidad permite que los datos sean más FAIR (localizables, accesibles, interoperables y reutilizables), facilitando así su reutilización.

DCAT como base de los portales de datos abiertos

El vocabulario DCAT (Data Catalog Vocabulary), desarrollado por el W3C, constituye la base de muchos portales de datos abiertos al facilitar la interoperabilidad entre catálogos publicados en la Web. En el ámbito europeo, este vocabulario se concreta en el perfil de aplicación DCAT-AP, recomendado por la Comisión Europea y ampliamente adoptado en el sector público, incluido su perfil nacional DCAT-AP-ES.

Gracias a DCAT-AP es posible identificar, entre otros aspectos:

Qué conjuntos de datos existen sobre una temática concreta.
Qué organismo los publica, bajo qué licencias y en qué formatos.
Dónde se encuentran las URL de descarga o los puntos de acceso mediante API.

No obstante, aunque DCAT resulta imprescindible para descubrir datos, no ofrece por sí solo información suficiente sobre su uso en modelos de aprendizaje automático ni sobre su calidad desde la perspectiva de estos modelos.

MLDCAT-AP: metadatos orientados al aprendizaje automático

Para dar respuesta a estas limitaciones surge MLDCAT-AP (Machine Learning DCAT-AP), un perfil de aplicación de DCAT desarrollado por SEMIC y la comunidad Interoperable Europe, en colaboración con OpenML. Este perfil amplía DCAT-AP incorporando metadatos específicos del ámbito del aprendizaje automático.

MLDCAT-AP permite describir, entre otros elementos:

Modelos de aprendizaje automático y sus características.
Conjuntos de datos utilizados para entrenamiento y evaluación.
Métricas de calidad asociadas a dichos modelos.
Documentación y publicaciones relacionadas.
Aspectos vinculados al riesgo, la transparencia y el contexto regulatorio europeo del AI Act.

De este modo, los catálogos basados en MLDCAT-AP no solo informan sobre qué datos existen, sino también sobre cómo se han utilizado en modelos concretos y con qué resultados.

Metadatos a nivel de estructura interna: Data Package

Para describir el contenido interno de los conjuntos de datos (campos, tipos de datos o restricciones) se destaca la iniciativa Data Package, integrada en el ecosistema de Frictionless Data. Esta propuesta se basa en un archivo JSON que documenta tanto los metadatos generales como la estructura detallada de los datos.

Entre la información que puede incluirse se encuentran los nombres de los campos, los tipos de datos y las restricciones aplicables, lo que permite realizar validaciones automáticas antes de utilizar los datos y facilita su documentación, versionado y reutilización.

Croissant: preparando los datos para el aprendizaje automático

Para conectar el ámbito de los catálogos y modelos con la estructura interna de los datos, se presenta Croissant, un formato de metadatos desarrollado en el marco de MLCommons. Croissant se implementa en JSON-LD y se apoya en el vocabulario schema.org/Dataset.

Este formato combina metadatos generales, descripción de recursos, estructura de los datos y una capa semántica específica para aprendizaje automático, incluyendo la separación de datos de entrenamiento, validación y prueba, así como la identificación de campos objetivo. Croissant está diseñado para que distintos repositorios puedan publicar conjuntos de datos de forma que las librerías de aprendizaje automático los carguen de manera homogénea, y cuenta además con una extensión para su uso en portales de datos abiertos basados en CKAN.

Otras iniciativas complementarias

El artículo menciona también otras propuestas relevantes, como schema.org/Dataset, CSV on the Web (CSVW), Datasheets for Datasets y Dataset Cards, orientadas a mejorar la documentación, localización y comprensión de los conjuntos de datos, y ampliamente utilizadas en plataformas especializadas.

Un enfoque combinado para datos abiertos preparados para IA

La combinación de estas iniciativas permite avanzar hacia un modelo en el que los datos abiertos del sector público dejan de ser simples ficheros descargables y pasan a convertirse en una materia prima preparada para el aprendizaje automático. Este enfoque contribuye a reducir fricciones, mejorar la calidad de los datos y aumentar la confianza en los sistemas de inteligencia artificial construidos a partir de ellos.

Fuente: https://administracionelectronica.gob.es/

En CETIC te preparamos y nos enfocamos en lo importante para superar las oposiciones.

¿Qué dicen de CETIC y como nos valoran?

⬇️ Nadie mejor que nuestros alumnos para definirnos ⬇️

Me inscribí pasado el primer examen. Particularmente me ayudó en el ejercicio de redacción, quizás el que más inseguridad me daba por estar más relacionado con temas legales, ya que las profesoras se involucraron al 100%. Para el ejercicio práctico, fue muy importante contar con propuestas de prácticas muy reales y profesores con gran conocimiento de la Administración. La recomiendo.

Excelente academia. La calidad de los profesores y la metodología utilizada me permitieron aprobar muy rápido, se centran en lo importante. Totalmente recomendable y muy cercanos. Perfecto para oposiciones a informática o telecomunicaciones.

Interés en la mejora continua. Preocupación por el alumno y por atender sus necesidades.

Mi experiencia con CETIC fue excelente. La calidad de los preparadores así como la metodología utilizada me permitieron aprobar la oposición a la primera y mientras trabajaba en el sector privado. Totalmente recomendable.

Cookie	Duración	Descripción
__cf_bm	30 minutos	Esta cookie, establecida por Cloudflare, se utiliza para dar soporte a Cloudflare Bot Management.
messagesUtk	6 meses	HubSpot establece esta cookie para reconocer a los visitantes que chatean a través de la herramienta chatflows.
wp_woocommerce_session_*	2 años	WooCommerce establece esta cookie para hacer un código único para cada cliente para que sepa dónde encontrar los datos del carrito en la base de datos para cada uno.

Cookie	Duración	Descripción
__hstc	6 meses	Hubspot establece esta cookie principal para el seguimiento de los visitantes. Contiene el dominio, la marca de tiempo inicial (primera visita), la última marca de tiempo (última visita), la marca de tiempo actual (esta visita) y el número de sesión (se incrementa para cada sesión posterior).
_ga	2 años	La cookie _ga, instalada por Google Analytics, calcula los datos de visitantes, sesiones y campañas y también realiza un seguimiento del uso del sitio para el informe analítico del sitio. La cookie almacena información de forma anónima y asigna un número generado aleatoriamente para reconocer visitantes únicos.
_ga_*	1 año 1 mes 4 días	Google Analytics instala esta cookie para almacenar y contar las visitas a las páginas.
_gat_UA-*	1 minuto	Google Analytics establece esta cookie para el seguimiento del comportamiento del usuario.
_gat_UA-154602193-1	1 minute	A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.
_gcl_au	3 meses	Proporcionado por Google Tag Manager para experimentar la eficiencia publicitaria de los sitios web que utilizan sus servicios.
_gid	1 día	Instalada por Google Analytics, la cookie _gid almacena información sobre cómo los visitantes utilizan un sitio web y al mismo tiempo crea un informe analítico del rendimiento del sitio web. Algunos de los datos que se recopilan incluyen la cantidad de visitantes, su fuente y las páginas que visitan de forma anónima.
_hjAbsoluteSessionInProgress	30 minutes	Hotjar sets this cookie to detect the first pageview session of a user. This is a True/False flag set by the cookie.
_hjFirstSeen	30 minutos	Hotjar configura esta cookie para identificar la primera sesión de un nuevo usuario. Almacena un valor verdadero/falso, que indica si fue la primera vez que Hotjar vio a este usuario.
_hjIncludedInPageviewSample	2 minutos	Hotjar establece esta cookie para saber si un usuario está incluido en el muestreo de datos definido por el límite de páginas vistas del sitio.
_hjIncludedInSessionSample	2 minutos	Hotjar establece esta cookie para saber si un usuario está incluido en el muestreo de datos definido por el límite de sesiones diarias del sitio.
_hjSession_*	1 hora	Hotjar establece esta cookie para garantizar que los datos de visitas posteriores al mismo sitio se atribuyan al mismo ID de usuario, que persiste en el ID de usuario de Hotjar, que es único para ese sitio.
_hjSessionUser_*	1 año	Hotjar establece esta cookie para garantizar que los datos de visitas posteriores al mismo sitio se atribuyan al mismo ID de usuario, que persiste en el ID de usuario de Hotjar, que es único para ese sitio.
CONSENT	2 años	YouTube instala esta cookie a través de los vídeos de YouTube incrustados y registra datos estadísticos anónimos.
hubspotutk	6 meses	HubSpot establece esta cookie para realizar un seguimiento de los visitantes del sitio web. Esta cookie se transmite a HubSpot al enviar el formulario y se utiliza para duplicar contactos.
vuid	2 years	Vimeo installs this cookie to collect tracking information by setting a unique ID to embed videos to the website.

Cookie	Duración	Descripción
_fbp	3 meses	Facebook configura esta cookie para mostrar anuncios cuando esté en Facebook o en una plataforma digital impulsada por la publicidad de Facebook, después de visitar el sitio web.
fr	3 meses	Facebook configura esta cookie para mostrar anuncios relevantes a los usuarios mediante el seguimiento del comportamiento del usuario en la web, en sitios que tienen un píxel de Facebook o un complemento social de Facebook.
NID	6 meses	Google instala la cookie con fines publicitarios; para limitar el número de veces que el usuario ve un anuncio, para silenciar anuncios no deseados y para medir la eficacia de los anuncios.
test_cookie	15 minutos	doubleclick.net establece esta cookie para determinar si el navegador del usuario admite cookies.

Cookie	Duración	Descripción
_hjIncludedInSessionSample_1800990	1 hora	La descripción no está disponible actualmente.
_hjSession_1800990	30 minutos	Sin descripción
_hjSessionUser_1800990	1 año	Sin descripción
m	2 años	No hay descripción disponible.

Metadatos clave para reutilizar datos abiertos en IA

DCAT como base de los portales de datos abiertos

MLDCAT-AP: metadatos orientados al aprendizaje automático

Metadatos a nivel de estructura interna: Data Package

Croissant: preparando los datos para el aprendizaje automático

Otras iniciativas complementarias

Un enfoque combinado para datos abiertos preparados para IA

Quizá te pueda interesar

Fondos Next Generation EU: en qué consisten y qué ayudas ofrecen exactamente

Riesgos de la Inteligencia Artificial en la UE: multas y medidas, la nueva normativa

Guía práctica para los últimos días antes de un examen de oposición

¿Necesitas más información?

Nuestros canales de Telegram

A1

A2

C1