ReNom – Naviguer dans Rabelais et Ronsard par la cartographie

Les « lundis du numérique » ont lieu une fois par mois à l’INHA : pendant une heure et demi, un intervenant est invité à présenter une réalisation alliant recherche et numérique dans le domaine de l’histoire de l’art. Depuis 2014, ces séances sont ouvertes à tous.
>accéder au programme<

Le 17 novembre 2014, Jorge Fins, ingénieur d’étude, était invité à nous présenter le site ReNom qui offre une visualisation cartographique des œuvres de Rabelais et de Ronsard à travers des extraits géolocalisés.
Ce projet original, porté par le Centre d’Etudes Supérieur de la Renaissance (programme des Bibliothèques virtuelles humanistes (BVH) à Tours), associe un volet de recherche sur les outils numériques appliqués au patrimoine textuel et un volet de valorisation touristique, en partenariat étroit avec les acteurs publics et privés de la région Centre. 

Page d'accueil du site ReNom

Recherche scientifique et médiation culturelle : les objectifs du projet ReNom

Le projet ReNom répond à des objectifs multiples, qui touchent tant à la recherche scientifique qu’à médiation culturelle. Sur le plan scientifique, il s’agit d’expérimenter les usages offerts par la visualisation cartographique des données et de prospecter dans le champ de la géographie littéraire. La géolocalisation des fragments d’un texte offre un accès nouveau à l’œuvre littéraire, mais permet-elle de renouveler le regard qu’on lui porte ?

En proposant une exploration cartographique des œuvres de Ronsard et de Rabelais, le programme vise à valoriser un pan majeur du patrimoine littéraire de la région Centre et à revitaliser une somme de connaissances. Il s’agit de fournir des contenus de qualité pour l’industrie touristique locale, sur laquelle elle puisse bâtir des services ludiques et instructifs (parcours de visite, audioguides).

Par ailleurs, l’un des volets du programme s’attache à la mise à l’épreuve de nouvelles méthodes de reconnaissance automatique des entités nommées dans les documents anciens, en s’appuyant non pas sur l’OCR mais sur la reconnaissance des images.

ReNom appartient donc à ces projets d’un genre nouveau qui poursuivent des enjeux scientifiques tout en s’ouvrant au grand public via des partenariats avec des acteurs privés.

Interface web Gargantua de Rabelais Geolocalisé

Affichage d’un extrait de Gargantua citant Chinon (Chaisnon)

Encodage en TEI des sources

Le projet s’appuie sur des contenus déjà numérisés et disponibles sur les Bibliothèques virtuelles humanistes ou dans Gallica. Dans la mesure du possible, les responsables du projet ont donné la priorité aux éditions princeps. Si celles-ci n’étaient pas numérisées, ils se sont rabattus sur d’autres éditions ultérieures. Dans leur majorité, ces textes étaient déjà encodés en XML/TEI, mais de façon très sommaire. Les entités nommées de lieux et de personnes qui nous intéressent ici étaient balisées à l’aide de et mais n’étaient associés à aucun identifiant unique ni à un référentiel.

En confrontant automatiquement ce balisage préexistant avec des index, cet encodage TEI a été enrichi et chaque entité nommée s’est vue attribuer un identifiant, facilitant ainsi la géolocalisation.

Évidemment, ces fichiers TEI enrichis seront reversés dans les bibliothèques virtuelles humanistes.

Géolocaliser le texte : problématiques et enjeux

La géolocalisation du texte a posé deux problèmes principaux : le premier étant de déterminer les référentiels à employer et le second se rapportant aux spécificités de la géographie littéraire, qui compose avec des lieux imaginaires ou difficilement identifiables, parce que disparus ou imprécisément décrits.

Afin de procéder au traitement automatique des entités nommées, il faut s’appuyer sur des référentiels couvrant l’intégralité des cas recensés dans le texte. Ainsi l’indexation d’un corpus du XVIe siècle exige de disposer d’un référentiel correspondant historiquement, c’est-à-dire couvrant les découpages géopolitiques de l’époque. Le référentiel géographique le plus complet pour le XVIe siècle est Pléiade, mais il ne s’attache qu’à la zone méditerranéenne.

Le référentiel Geoname, le plus fréquemment employé dans les projets d’indexation, reflète la géopolitique actuelle et ne couvre pas la totalité des lieux qui apparaissent dans les corpus de Ronsard et de Rabelais. Surtout, il ne prend pas en compte la hiérarchie ancienne des lieux.

Pour des raisons de faisabilité, Geoname a néanmoins été retenu comme base de travail. Les données de ce référentiel ont été complétées selon les besoins du projet par de nouvelles entrées ou par des équivalences.

Un index spécifique a été bâti sous Excel. Chaque entrée a été dotée d’un identifiant unique, une forme normalisée et l’enregistrement de toutes les variantes. À partir de cet index, le balisage TEI a été automatiquement enrichi, puis contrôlé manuellement. L’index construit dans le cadre de ReNom pourra être reversé dans Geoname pour renseigner le champ « forme historique du nom ».

Évidemment, l’établissement de cet index posait d’épineux problèmes d’orthographe : au XVIe siècle la graphie de certains mots et noms n’était pas encore fixée et il faut composer avec de nombreuses variantes.

Les textes de Rabelais et de Ronsard posaient une seconde spécificité pour la géolocalisation des extraits : certains lieux sont bien réels et identifiés, mais d’autres, quand ils ne sont pas tout simplement issus de l’imagination de l’auteur, posent des problèmes d’interprétation, soit que plusieurs hypothèses de localisation aient été émises, soit que le lieu ait disparu. Dès lors, comment localiser sur une carte moderne ces espaces disparus, identifiés de manière contradictoire ou floue? Comment intégrer un degré d’incertitude ?

Dans le cas du projet ReNom, il a été fait des choix stratégiques :

  • Les lieux flous ou disparus ont été localisés sur un point accessible, nuancé par un sourçage précis.
  • Quand plusieurs hypothèses ont été émises pour localiser un lieu, l’hypothèse la plus vraisemblable a été retenue. Les identifications rejetées sont systématiquement signalées dans le descriptif. (un exemple, le cas de l’abbaye de Thélème)
  • Enfin, la base de données distingue, à l’aide d’un champ dédié, les lieux réels, fictifs, hypothétiques ou mythiques.
Cas de l'abbaye de Thélème : localisation hypothétique et sourçage.

Cas de l’abbaye de Thélème : localisation hypothétique et sourçage.

ReNom, un site internet pour visualiser les textes

La société Supersonic, partenaire privé du projet, a développé un site internet pour visualiser le fruit du travail des équipes de recherche de la BVH. L’interface, très épurée et agréable, permet de naviguer sur une carte où sont géolocalisés les extraits du texte. Il est ainsi possible de visualiser autrement le texte : le lecteur découvre de nouvelles portes pour explorer l’œuvre littéraire. En cela, la géographie littéraire s’exprime par une nouvelle matérialité et laisse à voir « quelque chose qui n’existe pas tout à fait dans le texte ».

Quelles retombées sur le terrain ? 

Pour l’instant, les retombées touristiques sont encore limitées même si le projet soulève un intérêt indéniable. De nombreux contacts ont été noués avec des acteurs locaux, publics et privés (châteaux, musées, maisons d’écrivains, associations, Conseil général, entreprises touristiques). La multitude des interlocuteurs et l’absence de réseau constitué rend complexe la communication et la circulation de l’information : espérons que le projet ReNom sera un vecteur pour répondre à ces enjeux.

La fréquentation de la base ReNom par le grand public est très limitée. En revanche, les acteurs locaux identifient en ReNom un outil de travail fiable pour construire leurs propres contenus de médiation.

La recherche sur la reconnaissance des mots 

L’un des axes du projet est de tester de nouvelles méthodes de reconnaissance du texte dans les ouvrages numérisés. Lors de la numérisation, on obtient en effet des fichiers images, des photographies des pages du livre. La méthode de l’OCR (reconnaissance optique des caractères) permet théoriquement d’extraire le contenu textuel de ces photographies. Si la méthode marche relativement bien sur les ouvrages récents, les résultats sont en revanche très limités avec les imprimés anciens, dont les caractères typographiques sont parfois mal reconnus. En effet, l’usure du matériel typographique ou la présence de caractères spéciaux, comme les S longs, ne permet pas une bonne acquisition du texte par la machine.

Ici, les chercheurs ont voulu tester la méthode dite du « Word spotting » : il ne s’agit plus de reconnaître individuellement chaque caractère, mais les mots en se basant sur une recherche dans l’image.

Malheureusement, le temps réduit de l’atelier ne nous a pas permis d’aborder plus en détail les résultats de ces expérimentations qui me semblent passionnantes.

Perspectives et évolutions 

La première version du site est parue en février 2014. Une seconde phase de développement se profile désormais. Elle portera sur :

  • L’ajout d’une version modernisée des textes de Rabelais, plus à même de toucher le grand public que les transcriptions en moyen français
  • Versement de nouveaux textes pour enrichir le corpus existant.
  • Développement d’une médiation accessible : ajout de sentiers de randonnées, connexion avec les lieux touristiques.

Ces développements prendront forme à travers le programme « intelligence du patrimoine », un pôle de réflexion qui porte sur la valorisation du patrimoine en associant institutions de recherche et acteurs économiques. Il s’agit de mutualiser les outils et les investissements.

Concernant ReNom, le modèle est établi, les ressources sont en place, il faut maintenant aider les publics à s’approprier le site, son contenu et à en imaginer des usages innovants.

L’expérimentation mise en place par l’équipe de la BVH suscite la curiosité d’autres programmes de recherche portant sur la géographie littéraire. Il est ainsi prévu d’expérimenter le modèle développé sur d’autres corpus littéraires (œuvre de Voltaire, par exemple). Il serait également envisageable d’adapter le modèle à la description des œuvres d’art dans la littérature et de l’appliquer aux œuvres décrites par Balzac dans la Comédie Humaine, reconstituant ainsi un « musée imaginaire » à propos duquel Yves Gagneux a publié un ouvrage.

Ce projet, dont la présentation m’a passionnée est très inspirant pour moi, notamment parce qu’il rejoint les problématiques rencontrées au cours de mon stage sur les Guides de Paris et dans mon projet naissant d’édition de Rouen Bizarre.

Pour aller plus loin

One comment

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>