Isidore, moissonner et enrichir les ressources en SHS

À l’occasion du séminaire écrilecture du 12 mai 2015, Stéphane Pouyllau présentait Isidore, un service de visualisation et d’enrichissement des données de la recherche en Sciences Humaines et Sociales. D’un premier abord un peu difficile à cerner, le moteur Isidore se révèle un précieux allié pour les chercheurs, offrant un point d’entrée unifié et enrichi sémantiquement à de nombreuses ressources essentielles des SHS. 

Logo Isidore

Isidore, une plateforme d’accès aux données numériques des SHS

Le constat du difficile accès aux données et ressources de la recherche

Tout chercheur en SHS a déjà été confronté à ce problème : il existe de multiples portails qui proposent des accès à des ressources utiles à ses travaux (articles, annonces de colloques, sources numérisées…). Tous ces portails ont des périmètres plus ou moins étendus, des moteurs de recherche spécifiques et des modalités d’accès aux contenus (licences…) divers. Certains portails moissonnent et regroupent le contenu de plusieurs bases, mais en excluent d’autres. Il est rare qu’un chercheur connaisse parfaitement le périmètre des sites qu’il utilise, ou qu’il ait une vision globale de la qualité et de la quantité des ressources proposées.
Faute de connaissances aussi précises, la recherche se fait parfois au petit bonheur la chance : « j’utilise telle base ou telle bibliothèque parce que je la connais, son interface est pratique« . On exclut tel site, parce que l’on n’apprécie pas la présentation des résultats, ou encore, on trouve que tel portail renvoie des résultats moins pertinents que tel autre, sans vraiment en comprendre la raison… et ce ne sont pas de bonnes pratiques !

Une solution: Isidore, moissonner, enrichir et visualiser les ressources disponibles

Face à cette multitude de ressources et de points d’accès mais aussi aux disparités qualitatives des métadonnées, HumaNum a développé une plateforme, Isidore, qui moissonne des ressources provenant de différentes sources, enrichit leur description et les présente dans une interface qui se veut la plus pratique possible. Pour résumer, Isidore est une plateforme qui fédère l’accès aux données numériques des SHS. 

Page d'accueil d'Isidore

Page d’accueil d’Isidore

Avant de continuer, un point de vocabulaire, qui facilitera les développements suivants.

  • une métadonnée : c’est une donnée sur la donnée. En d’autres termes, il s’agit d’une information qui décrit une ressource. Par exemple, la date de prise de vue d’une photographie est une métadonnée qui nous renseigne sur la photographie.
  • moissonner : c’est interroger un fournisseur de données (une base, un gisement) pour collecter les métadonnées qu’il conserve. Par exemple, Gallica, que vous connaissez bien, moissonne les contenus de diverses bibliothèques numériques partenaires, comme celle de l’INHA.
  • un gisement de données : un entrepôt où sont stockées des données (par exemple une base de données).

Comment ça fonctionne ?

Collecter

Isidore moissonne des bases de données auquel il a accès : dans chacune, il collecte les métadonnées des ressources qui s’y trouvent, de façon à enrichir sa propre base. Attention, Isidore ne collecte pas les fichiers des ressources (documents numérisés, articles), mais uniquement les métadonnées qui s’y rapportent, c’est-à-dire les informations qui décrivent chaque ressource (par exemple, le nom des auteurs, le titre de la ressource, sa date de création et sa date de mise en ligne, l’URL menant vers l’original, etc.)

Isidore ne moissonne pas dans tout le web mais uniquement des bases de données et autres gisements de données pour lesquelles il a négocié un accès. Lors de la sélection, l’équipe fait très attention à la validité des données et n’accepte que des bases dont les producteurs ont une bonne pratique de validation, sans quoi cela nuirait à la qualité de l’ensemble du service.

Actuellement 3126 sources de données numériques (provenant de 92 producteurs différents) sont moissonnées par Isidore. Gallica, Persée, Revues.org, Hypothèses.org, Calames, Criminocorpus, Calenda sont quelques-unes des nombreux entrepôts moissonnés. La liste exhaustive est disponible sur le site d’Isidore.

EXEMPLE : Isidore moissonne une partie de HAL, l’archive ouverte des établissements d’enseignement et de recherche. 82 000 documents présents sur cette archive concernent les SHS. Pour chacun d’eux, Isidore collecte automatiquement les métadonnées disponibles. Ainsi pour l’article de Sophie Aymes-Stokes intitulé « Illustration et intermédialité, entre gravure et photographie », Isidore recupère le titre, le nom de l’auteur, la date de publication, le résumé, les mots-clés, l’adresse de la ressource, la langue, le type (un article)

Fiche d'une ressource

Fiche d’une ressource

Enrichir et classer

Sur la base de ce qu’il a moissonné, Isidore indexe et enrichit les métadonnées qui décrivent chaque ressource. Pour cela, il analyse les informations fournies par le producteur, lève certaines ambiguïtés sémantiques, connecte à d’autres ressources, fouille le contenu de la ressource si elle est disponible en plein texte.

Tout cela se fait bien évidemment de façon automatique : Isidore s’appuie sur des référentiels scientifiques (thésaurus, listes de vocabulaires) pour ajouter des mots-clés pertinents qui décrivent finement la ressource. Sur la base de cet enrichissement, la ressource pourra être connectée à d’autres ressources avec lesquelles elle partage les mêmes mots-clés.

EXEMPLE : L’article de Sophie Aymes-Stokes, précédemment cité, traite du rôle de l’illustrateur dans les manuels d’illustration à la fin du XIXe siècle. Isidore analyse les mots-clés fournis par HAL, le résumé de l’article et la ressource en plein texte : il compare les mots employés aux référentiels Rameau, Gemet, Pactols et GeoEthno pour repérer de nouveaux mot-clés pertinents, ici « livre », « gravure », « photographie », « image », « publics », « technique », « reproduction »… L’utilisation de ces référentiels permet d’éviter les confusions sémantiques : ici, on parle de « gravure » au sens de procédé technique de réalisation d’une matrice pour l’impression et non d’une incision au sens de la sculpture (gravure préhistorique par exemple). Bien sûr les choses ne sont pas parfaites : il y a des mots-clés non pertinents (ce qu’on appelle le bruit) et le spécialiste trouvera des inexactitudes à la définition et aux formes retenues du concept « gravure » dans Rameau, qui exclut la xylographie (!)

Enrichissement sémantique

Enrichissement sémantique

Visualiser et accéder

L’interface web d’Isidore offre à l’internaute un moteur de recherche qui lui permet d’accéder à ces données enrichies. Le site a été conçu pour offrir une visualisation qui réponde au plus près aux besoins des chercheurs : il est possible de restreindre de manière très fine les résultats (filtre par provenance…) et de rebondir sur un mot-clé pertinent. Dans certains cas, grâce à l’indexation proposée par Isidore, des lectures similaires sont suggérées.

Exemple de suggestions

Exemple de suggestions

Isidore offre un autre service précieux : un mécanisme de citation pérenne. Certaines structures, faute de moyens techniques, n’ont pas doté leurs ressources d’identifiant unique et d’URL stable. Si le site change d’adresse ou que les technologies employées évoluent, il est possible que les liens vers les ressources ne soient plus maintenus. Porté par une structure d’envergure, Isidore assure la pérennité des fiches qu’il propose. Ainsi, si la ressource originale disparaît, les métadonnées présentées sur Isidore seront maintenues, offrant une validité de citation.

Un service en constante évolution

Isidore est en ligne depuis 2011. En quatre ans, l’outil s’est enrichi quantitativement et qualitativement. Régulièrement, des améliorations sont apportées aux algorithmes et de nouvelles fonctionnalités sont ajoutées, affinant ainsi la pertinence des résultats et l’expérience utilisateur. D’autre part, l’accroissement du volume des ressources indexées a pour conséquence mécanique l’amélioration de l’intégralité des métadonnées existantes : plus Isidore emmagasine des informations, plus il est capable d’affiner ses traitements.

Depuis janvier 2015, Isidore est multilingue : il est possible de naviguer en anglais, français et en espagnol grâce à un alignement des référentiels existant dans les différentes langues. C’est-à-dire que chaque mot-clé a été relié à ses équivalents dans les deux autres langues.

Réutilisations

Isidore ne se contente pas de donner accès à ces données enrichies : il permet aussi de les réutiliser. Pour cela, plusieurs points d’accès ont été aménagés (API, Sparql Endpoint) rendant ainsi Isidore requêtable sans passer par le site web.

Dans le cadre de ce billet, nous n’évoquerons que deux exemples de réutilisations possibles. La première est la récupération par les producteurs des gisements de données des enrichissements effectués par Isidore pour les intégrer à leur base et ainsi en faire bénéficier leurs utilisateurs.

Le second exemple concerne les usagers qui effectuent une recherche sur un sujet précis et souhaiteraient personnaliser leur visualisation des résultats renvoyés par Isidore. Grâce à l’API et quelques outils open source, il est possible de générer des statistiques sur les dates et les lieux de publications, les mots clés récurrents ou encore de visualiser des graphes.

Imaginons que l’on travaille sur l’illustration du livre au XIXe siècle : à l’aide de ces outils, on pourrait visualiser les auteurs les plus prolixes à ce propos, l’émergence de ce sujet de recherche dans l’historiographie ou encore générer un graphe dévoilant des sujets connexes.

Je n’ai personnellement pas eu l’occasion de tester ces outils, aussi me contenterai-je de signaler les deux très bons tutoriaux que l’on trouve sur le blog de la bibliothèque de l’université Nice-Sophia Antioplis.

Si ces offres sont destinées à un public averti, Isidore développe aussi des outils plus accessibles, comme un plugin intégrable à WordPress, qui permet de suggérer des lectures en relation avec un billet de blog, sur la base des mot-clés tagués par l’auteur. Ce plugin est implémenté sur le présent blog : je lui consacrerai ultérieurement une courte note.

Implémentation du plugin Isidore sur le présent blog

Implémentation du plugin Isidore sur le présent blog

Une plateforme qui a rencontré son public

Aujourd’hui, Isidore donne accès à quelque 3,4 millions de notices. La plateforme reçoit 120 000 utilisateurs uniques par mois (lissés sur l’année, les pics suivent évidemment le rythme universitaire). La durée moyenne de session est de six minutes, et 80% des visiteurs reviennent, signe d’une fidélisation forte des utilisateurs, essentiellement des chercheurs, des étudiants et des professionnels des IST. Et vous, utilisez-vous Isidore ?

Quelques ressources :

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>