Tag Archives: vocabulaires

Le programme HADOC

En 2014, j’ai assisté à plusieurs conférences  sur le programme HADOC (atelier à l’INHA et journée d’étude du Labex Les Passés dans le présent)  : voici une synthèse de mes notes. 

Une masse de ressources

Sous l’égide du Ministère de la Culture, les institutions françaises ont produit des milliers de ressources documentaires (bases de données, applications métiers), aujourd’hui disponibles en ligne. Ces ressources, si elles sont de très haute qualité et tendent à l’exhaustivité, ne sont pas toujours visibles (bases de données situées dans le web profond – non moissonné par les robots) ni tout simplement conçues dans un but de diffusion. En effet, de nombreuses données ont été produites dans des contextes « métiers », dans un but avant tout de gestion.

Nous avons donc à faire à une masse de ressources énorme, dont les contenus sont très divers. Étant donné que ces ressources ont été produites dans des modèles métiers différents, les vocabulaires, outils, schémas de métadonnées employés varient énormément d’une base à l’autre.

Le MCC est aujourd’hui confronté à de nouveaux enjeux, tant en terme de production que de diffusion :

  • En terme de diffusion :
    • proposer un accès unifié à l’ensemble des ressources (portails, métamoteurs, à l’exemple du moteur collections) avec une approche inter et transdisciplinaire
    • l’ouverture des données publiques : quelles données libère-t-on, sous quels formats et quelles licences ? Parfois, les données libres se trouvent dans des ressources documentaires qui sont, elles, soumises au droit d’auteur.
  • en terme de production :
    • comment rationaliser l’action publique (éliminer les ressaisies, la redondance informationnelle) ?
    • comment mieux piloter l’activité en disposant de données de référence (et à long terme améliorer les processus métiers) ?

Le programme HADOC est une réflexion sur ces enjeux de production et de diffusion.

Les enjeux des modèles de représentation dans le secteur culturel

Il est aujourd’hui nécessaire de concevoir et partager des modèles de représentation riches. Dublin core, très largement utilisé jusqu’ici pour présenter des métadonnées, ne représente plus une solution performante car son modèle est à plat. On souhaite disposer de modèles plus profonds. Des modèles orientés événements ont émergé, tels que CIDOC-CRM dans les bibliothèques et les archives, EDM ou FRBR.

Un modèle conceptuel dit « orienté événement » est conçu pour suivre la vie d’un objet, caractérisé par une succession d’événements (création, achat, classement, restauration, par exemple)

HADOC

Tout cela implique évidemment un effort de consolidation des données : d’une part les contenus doivent être riches et de qualité, d’autre part fixes et uniques, c’est-à-dire disposant d’une identification unique et pérenne. L’un des objectifs du programme HADOC est de déplacer cet effort le plus en amont possible dans le cycle de vie des données.

Le programme HADOC a été lancé en 2008. Il a commencé par un brainstorming très large, rassemblant des professionnels de métiers différents. Les pratiques métiers ont été analysés, notamment dans leurs modules fonctionnels. Une question primordiale a particulièrement été étudiée : « comment identifie-t-on un bien culturel ? » S’il est assez facile de remplir les cases pour un objet, il est plus compliqué de documenter une photo qui illustre un objet (par exemple, une photographie de la Tour Eiffel).

Nous sommes confrontés par ailleurs à différents problèmes :

  • les saisies multiples : plusieurs services créent des fiches pour un même artefact (exemple, pour un monument)
  • les formats multiples
  • la granularité (certaines fiches sont sommaires, d’autres sont très détaillées).

Par exemple, une même petite église peut être documentée sur une dizaine de base sous des appellations différentes ! Les informations sont lacunaires et les datations sont bancales. On comprend mieux pourquoi l’harmonisation des modèles de données est un enjeu prioritaire.

Au-delà de l’enjeu d’optimisation de la production, il y a celui de l’intégration sur le web sémantique : les robots du web ne sont pas en mesure de comprendre le texte libre. L’harmonisation ne peut pas se faire n’importe comment : ainsi, il n’est pas envisageable de créer un modèle métier unique ! La modélisation, l’alignement et l’harmonisation doivent d’abord concerner les données les plus partagées (format des dates, nomenclatures, formats de stockages des données…). Notons que le patrimoine et les musées sont moins normés que les archives et les bibliothèques.

Il faut par ailleurs harmoniser les contenus en partageant le même vocabulaire scientifique et technique. Cela implique dans un premier temps de clarifier les notions : qu’est-ce qu’un domaine ? Un support ? Un matériau ? Clarifier les données en les exprimant sous une forme commune et une sémantique commune. Exprimer sous une forme commune, une sémantique commune, clarifier les données. La question de l’identification est ici également cruciale. Nous avons une diversité de formes qui désignent une seule et même chose. Par exemple, les auteurs : il est indispensable d’avoir un référentiel d’auteur, avec un URI unique et pérenne. Cela préparera les données pour le web sémantique.

Comment HADOC fonctionne?

HADOC vise à engendrer un cadre normatif pour la production de données culturelles, via des modèles harmonisés, des référentiels partagés, des normes et des nomenclatures (standards). À terme, il faut faire émerger un référentiel des biens culturels qui serve à la fois à la production et à la diffusion. Une image pour mieux comprendre : il faut voir ces données comme la carte d’identité de l’objet. HADOC a été lancé en 2008. Les chantiers menés par le programme peuvent être perçus comme des briques : la brique « modèle de données », la brique « harmonisation des référentiels ». En 2013, une première version d’un modèle de données a été publiée. Notons que le modèle de production est très inspiré des modèles de diffusions tel le CIDOC CRM. Ce modèle a servi à la conversion d’un fonds pilote (la base Mérimée). Ce travail est encore en cours, ce qui n’a pas empêché ce modèle 1.0 (en UML) d’être utilisé lors de l’élaboration de la nouvelle base du MUCEM. Une seconde version est en préparation, car la confrontation à des cas concrets (Mérimée, archéologie) a enrichi le modèle. HADOC intègre déjà des relations « alignables », « mapables » pour la diffusion.

La seconde brique concerne la gestion des référentiels. Une centaine de vocabulaires sont présents dans les applications métiers. L’équipe les a exportés dans GINCO, un outil de gestion partagé. Un code ouvert a été développé sur la forge logicielle GITHUB afin de favoriser une démarche collaborative qui permet de traverser les métiers. À l’intérieur de GINCO, les vocabulaires ont été alignés (on ne fusionne pas les vocabulaires mais les aligne en créant des passerelles.) tout en respectant les normes et standards (ISO, SKOS, RDF).

Ce projet a été développé en an grâce à la méthode Agile : 15 jours de développement, une semaine d’application et ainsi de suite. Le résultat est accessible sur data.culture et peut s’intégrer à des applications métiers sous forme de briques de web-service. La version 2 intégrera l’alignement. Poursuite des chantiers de modélisation : description physique du bien numérique, ressource multimédia, production du schéma RDF, élaboration d’un référentiel d’acteurs. Le manque de personnel ralentit le travail.

Pour aller plus loin

Documentation