Metadatos clave para reutilizar datos abiertos en IA

Los datos abiertos del sector público son una pieza central de la innovación digital en torno a la inteligencia artificial, especialmente para el entrenamiento y la evaluación de modelos de aprendizaje automático. Sin embargo, entre la simple descarga de un fichero desde un portal de datos y la disponibilidad de un conjunto de datos listo para su uso en estos modelos existe todavía una brecha significativa.

Según se expone en la información publicada por la Administración, una parte relevante de esta dificultad está relacionada con los metadatos, es decir, con la forma en que se describen los conjuntos de datos. Cuando los metadatos se limitan a elementos básicos como el título, la descripción o la licencia, el proceso de comprensión y preparación de los datos resulta más complejo y costoso para quienes diseñan modelos de aprendizaje automático. Por el contrario, el uso de estándares orientados a la interoperabilidad permite que los datos sean más FAIR (localizables, accesibles, interoperables y reutilizables), facilitando así su reutilización.

DCAT como base de los portales de datos abiertos

El vocabulario DCAT (Data Catalog Vocabulary), desarrollado por el W3C, constituye la base de muchos portales de datos abiertos al facilitar la interoperabilidad entre catálogos publicados en la Web. En el ámbito europeo, este vocabulario se concreta en el perfil de aplicación DCAT-AP, recomendado por la Comisión Europea y ampliamente adoptado en el sector público, incluido su perfil nacional DCAT-AP-ES.

Gracias a DCAT-AP es posible identificar, entre otros aspectos:

  • Qué conjuntos de datos existen sobre una temática concreta.
  • Qué organismo los publica, bajo qué licencias y en qué formatos.
  • Dónde se encuentran las URL de descarga o los puntos de acceso mediante API.

No obstante, aunque DCAT resulta imprescindible para descubrir datos, no ofrece por sí solo información suficiente sobre su uso en modelos de aprendizaje automático ni sobre su calidad desde la perspectiva de estos modelos.

MLDCAT-AP: metadatos orientados al aprendizaje automático

Para dar respuesta a estas limitaciones surge MLDCAT-AP (Machine Learning DCAT-AP), un perfil de aplicación de DCAT desarrollado por SEMIC y la comunidad Interoperable Europe, en colaboración con OpenML. Este perfil amplía DCAT-AP incorporando metadatos específicos del ámbito del aprendizaje automático.

MLDCAT-AP permite describir, entre otros elementos:

  • Modelos de aprendizaje automático y sus características.
  • Conjuntos de datos utilizados para entrenamiento y evaluación.
  • Métricas de calidad asociadas a dichos modelos.
  • Documentación y publicaciones relacionadas.
  • Aspectos vinculados al riesgo, la transparencia y el contexto regulatorio europeo del AI Act.

De este modo, los catálogos basados en MLDCAT-AP no solo informan sobre qué datos existen, sino también sobre cómo se han utilizado en modelos concretos y con qué resultados.

Metadatos a nivel de estructura interna: Data Package

Para describir el contenido interno de los conjuntos de datos (campos, tipos de datos o restricciones) se destaca la iniciativa Data Package, integrada en el ecosistema de Frictionless Data. Esta propuesta se basa en un archivo JSON que documenta tanto los metadatos generales como la estructura detallada de los datos.

Entre la información que puede incluirse se encuentran los nombres de los campos, los tipos de datos y las restricciones aplicables, lo que permite realizar validaciones automáticas antes de utilizar los datos y facilita su documentación, versionado y reutilización.

Croissant: preparando los datos para el aprendizaje automático

Para conectar el ámbito de los catálogos y modelos con la estructura interna de los datos, se presenta Croissant, un formato de metadatos desarrollado en el marco de MLCommons. Croissant se implementa en JSON-LD y se apoya en el vocabulario schema.org/Dataset.

Este formato combina metadatos generales, descripción de recursos, estructura de los datos y una capa semántica específica para aprendizaje automático, incluyendo la separación de datos de entrenamiento, validación y prueba, así como la identificación de campos objetivo. Croissant está diseñado para que distintos repositorios puedan publicar conjuntos de datos de forma que las librerías de aprendizaje automático los carguen de manera homogénea, y cuenta además con una extensión para su uso en portales de datos abiertos basados en CKAN.

Otras iniciativas complementarias

El artículo menciona también otras propuestas relevantes, como schema.org/Dataset, CSV on the Web (CSVW), Datasheets for Datasets y Dataset Cards, orientadas a mejorar la documentación, localización y comprensión de los conjuntos de datos, y ampliamente utilizadas en plataformas especializadas.

Un enfoque combinado para datos abiertos preparados para IA

La combinación de estas iniciativas permite avanzar hacia un modelo en el que los datos abiertos del sector público dejan de ser simples ficheros descargables y pasan a convertirse en una materia prima preparada para el aprendizaje automático. Este enfoque contribuye a reducir fricciones, mejorar la calidad de los datos y aumentar la confianza en los sistemas de inteligencia artificial construidos a partir de ellos.

 

Fuente: https://administracionelectronica.gob.es/

En CETIC te preparamos y nos enfocamos en lo importante para superar las oposiciones.

¿Qué dicen de CETIC y como nos valoran?

⬇️ Nadie mejor que nuestros alumnos para definirnos ⬇️

Irene Lequerica Zorrozua
Irene Lequerica Zorrozua
Me inscribí pasado el primer examen. Particularmente me ayudó en el ejercicio de redacción, quizás el que más inseguridad me daba por estar más relacionado con temas legales, ya que las profesoras se involucraron al 100%. Para el ejercicio práctico, fue muy importante contar con propuestas de prácticas muy reales y profesores con gran conocimiento de la Administración. La recomiendo.
Rodrigo Mayo
Rodrigo Mayo
Positivo: Profesionalismo
Excelente academia. La calidad de los profesores y la metodología utilizada me permitieron aprobar muy rápido, se centran en lo importante. Totalmente recomendable y muy cercanos. Perfecto para oposiciones a informática o telecomunicaciones.
María Berenguer Carretero
María Berenguer Carretero
Interés en la mejora continua. Preocupación por el alumno y por atender sus necesidades.
Rafa B.
Rafa B.
Mi experiencia con CETIC fue excelente. La calidad de los preparadores así como la metodología utilizada me permitieron aprobar la oposición a la primera y mientras trabajaba en el sector privado. Totalmente recomendable.

¿Necesitas más información?

Nuestros canales de Telegram

Disponemos de un canal dedicado a cada oposición. Selecciona el que te interesa.