Tag Archives: référentiels

Isidore, moissonner et enrichir les ressources en SHS

À l’occasion du séminaire écrilecture du 12 mai 2015, Stéphane Pouyllau présentait Isidore, un service de visualisation et d’enrichissement des données de la recherche en Sciences Humaines et Sociales. D’un premier abord un peu difficile à cerner, le moteur Isidore se révèle un précieux allié pour les chercheurs, offrant un point d’entrée unifié et enrichi sémantiquement à de nombreuses ressources essentielles des SHS. 

Logo Isidore

Isidore, une plateforme d’accès aux données numériques des SHS

Le constat du difficile accès aux données et ressources de la recherche

Tout chercheur en SHS a déjà été confronté à ce problème : il existe de multiples portails qui proposent des accès à des ressources utiles à ses travaux (articles, annonces de colloques, sources numérisées…). Tous ces portails ont des périmètres plus ou moins étendus, des moteurs de recherche spécifiques et des modalités d’accès aux contenus (licences…) divers. Certains portails moissonnent et regroupent le contenu de plusieurs bases, mais en excluent d’autres. Il est rare qu’un chercheur connaisse parfaitement le périmètre des sites qu’il utilise, ou qu’il ait une vision globale de la qualité et de la quantité des ressources proposées.
Faute de connaissances aussi précises, la recherche se fait parfois au petit bonheur la chance : « j’utilise telle base ou telle bibliothèque parce que je la connais, son interface est pratique« . On exclut tel site, parce que l’on n’apprécie pas la présentation des résultats, ou encore, on trouve que tel portail renvoie des résultats moins pertinents que tel autre, sans vraiment en comprendre la raison… et ce ne sont pas de bonnes pratiques !

Une solution: Isidore, moissonner, enrichir et visualiser les ressources disponibles

Face à cette multitude de ressources et de points d’accès mais aussi aux disparités qualitatives des métadonnées, HumaNum a développé une plateforme, Isidore, qui moissonne des ressources provenant de différentes sources, enrichit leur description et les présente dans une interface qui se veut la plus pratique possible. Pour résumer, Isidore est une plateforme qui fédère l’accès aux données numériques des SHS. 

Page d'accueil d'Isidore

Page d’accueil d’Isidore

Avant de continuer, un point de vocabulaire, qui facilitera les développements suivants.

  • une métadonnée : c’est une donnée sur la donnée. En d’autres termes, il s’agit d’une information qui décrit une ressource. Par exemple, la date de prise de vue d’une photographie est une métadonnée qui nous renseigne sur la photographie.
  • moissonner : c’est interroger un fournisseur de données (une base, un gisement) pour collecter les métadonnées qu’il conserve. Par exemple, Gallica, que vous connaissez bien, moissonne les contenus de diverses bibliothèques numériques partenaires, comme celle de l’INHA.
  • un gisement de données : un entrepôt où sont stockées des données (par exemple une base de données).

Comment ça fonctionne ?

Continue reading

Le programme HADOC

En 2014, j’ai assisté à plusieurs conférences  sur le programme HADOC (atelier à l’INHA et journée d’étude du Labex Les Passés dans le présent)  : voici une synthèse de mes notes. 

Une masse de ressources

Sous l’égide du Ministère de la Culture, les institutions françaises ont produit des milliers de ressources documentaires (bases de données, applications métiers), aujourd’hui disponibles en ligne. Ces ressources, si elles sont de très haute qualité et tendent à l’exhaustivité, ne sont pas toujours visibles (bases de données situées dans le web profond – non moissonné par les robots) ni tout simplement conçues dans un but de diffusion. En effet, de nombreuses données ont été produites dans des contextes « métiers », dans un but avant tout de gestion.

Nous avons donc à faire à une masse de ressources énorme, dont les contenus sont très divers. Étant donné que ces ressources ont été produites dans des modèles métiers différents, les vocabulaires, outils, schémas de métadonnées employés varient énormément d’une base à l’autre.

Le MCC est aujourd’hui confronté à de nouveaux enjeux, tant en terme de production que de diffusion :

  • En terme de diffusion :
    • proposer un accès unifié à l’ensemble des ressources (portails, métamoteurs, à l’exemple du moteur collections) avec une approche inter et transdisciplinaire
    • l’ouverture des données publiques : quelles données libère-t-on, sous quels formats et quelles licences ? Parfois, les données libres se trouvent dans des ressources documentaires qui sont, elles, soumises au droit d’auteur.
  • en terme de production :
    • comment rationaliser l’action publique (éliminer les ressaisies, la redondance informationnelle) ?
    • comment mieux piloter l’activité en disposant de données de référence (et à long terme améliorer les processus métiers) ?

Le programme HADOC est une réflexion sur ces enjeux de production et de diffusion.

Les enjeux des modèles de représentation dans le secteur culturel

Il est aujourd’hui nécessaire de concevoir et partager des modèles de représentation riches. Dublin core, très largement utilisé jusqu’ici pour présenter des métadonnées, ne représente plus une solution performante car son modèle est à plat. On souhaite disposer de modèles plus profonds. Des modèles orientés événements ont émergé, tels que CIDOC-CRM dans les bibliothèques et les archives, EDM ou FRBR.

Un modèle conceptuel dit « orienté événement » est conçu pour suivre la vie d’un objet, caractérisé par une succession d’événements (création, achat, classement, restauration, par exemple)

HADOC

Tout cela implique évidemment un effort de consolidation des données : d’une part les contenus doivent être riches et de qualité, d’autre part fixes et uniques, c’est-à-dire disposant d’une identification unique et pérenne. L’un des objectifs du programme HADOC est de déplacer cet effort le plus en amont possible dans le cycle de vie des données.

Le programme HADOC a été lancé en 2008. Il a commencé par un brainstorming très large, rassemblant des professionnels de métiers différents. Les pratiques métiers ont été analysés, notamment dans leurs modules fonctionnels. Une question primordiale a particulièrement été étudiée : « comment identifie-t-on un bien culturel ? » S’il est assez facile de remplir les cases pour un objet, il est plus compliqué de documenter une photo qui illustre un objet (par exemple, une photographie de la Tour Eiffel).

Nous sommes confrontés par ailleurs à différents problèmes :

  • les saisies multiples : plusieurs services créent des fiches pour un même artefact (exemple, pour un monument)
  • les formats multiples
  • la granularité (certaines fiches sont sommaires, d’autres sont très détaillées).

Par exemple, une même petite église peut être documentée sur une dizaine de base sous des appellations différentes ! Les informations sont lacunaires et les datations sont bancales. On comprend mieux pourquoi l’harmonisation des modèles de données est un enjeu prioritaire.

Au-delà de l’enjeu d’optimisation de la production, il y a celui de l’intégration sur le web sémantique : les robots du web ne sont pas en mesure de comprendre le texte libre. L’harmonisation ne peut pas se faire n’importe comment : ainsi, il n’est pas envisageable de créer un modèle métier unique ! La modélisation, l’alignement et l’harmonisation doivent d’abord concerner les données les plus partagées (format des dates, nomenclatures, formats de stockages des données…). Notons que le patrimoine et les musées sont moins normés que les archives et les bibliothèques.

Il faut par ailleurs harmoniser les contenus en partageant le même vocabulaire scientifique et technique. Cela implique dans un premier temps de clarifier les notions : qu’est-ce qu’un domaine ? Un support ? Un matériau ? Clarifier les données en les exprimant sous une forme commune et une sémantique commune. Exprimer sous une forme commune, une sémantique commune, clarifier les données. La question de l’identification est ici également cruciale. Nous avons une diversité de formes qui désignent une seule et même chose. Par exemple, les auteurs : il est indispensable d’avoir un référentiel d’auteur, avec un URI unique et pérenne. Cela préparera les données pour le web sémantique.

Comment HADOC fonctionne?

HADOC vise à engendrer un cadre normatif pour la production de données culturelles, via des modèles harmonisés, des référentiels partagés, des normes et des nomenclatures (standards). À terme, il faut faire émerger un référentiel des biens culturels qui serve à la fois à la production et à la diffusion. Une image pour mieux comprendre : il faut voir ces données comme la carte d’identité de l’objet. HADOC a été lancé en 2008. Les chantiers menés par le programme peuvent être perçus comme des briques : la brique « modèle de données », la brique « harmonisation des référentiels ». En 2013, une première version d’un modèle de données a été publiée. Notons que le modèle de production est très inspiré des modèles de diffusions tel le CIDOC CRM. Ce modèle a servi à la conversion d’un fonds pilote (la base Mérimée). Ce travail est encore en cours, ce qui n’a pas empêché ce modèle 1.0 (en UML) d’être utilisé lors de l’élaboration de la nouvelle base du MUCEM. Une seconde version est en préparation, car la confrontation à des cas concrets (Mérimée, archéologie) a enrichi le modèle. HADOC intègre déjà des relations « alignables », « mapables » pour la diffusion.

La seconde brique concerne la gestion des référentiels. Une centaine de vocabulaires sont présents dans les applications métiers. L’équipe les a exportés dans GINCO, un outil de gestion partagé. Un code ouvert a été développé sur la forge logicielle GITHUB afin de favoriser une démarche collaborative qui permet de traverser les métiers. À l’intérieur de GINCO, les vocabulaires ont été alignés (on ne fusionne pas les vocabulaires mais les aligne en créant des passerelles.) tout en respectant les normes et standards (ISO, SKOS, RDF).

Ce projet a été développé en an grâce à la méthode Agile : 15 jours de développement, une semaine d’application et ainsi de suite. Le résultat est accessible sur data.culture et peut s’intégrer à des applications métiers sous forme de briques de web-service. La version 2 intégrera l’alignement. Poursuite des chantiers de modélisation : description physique du bien numérique, ressource multimédia, production du schéma RDF, élaboration d’un référentiel d’acteurs. Le manque de personnel ralentit le travail.

Pour aller plus loin

Documentation