Sur l'interface utilisateur de Gallica, le téléchargement en HD est limité à 25% de la vue complète

Comment télécharger des images en haute définition sur Gallica ?

Comment récupérer les images de Gallica en haute définition ? Voici une problématique qui revient souvent dans mes discussions avec des chercheurs et étudiants en SHS. Dans ce billet je vous livre quelques astuces pour récupérer, en quelques clics, les HD disponibles sur Gallica. 

  • Pourquoi ne peut-on pas (actuellement) télécharger les images en HD directement sur le site de Gallica ?
  • Un plugin pour télécharger les images de Gallica directement depuis votre navigateur
  • Comment modifier l’URL pour récupérer les images en HD grâce à la spécification IIIF
  • L’outil Pyllica

Pourquoi ne peut-on pas télécharger les images en HD directement sur Gallica ?

L’interface de consultation de Gallica permet de télécharger, un à un, les fichiers que nous consultons dans sa visionneuse. Les livres, images, partitions, etc. sont disponibles en format JPG, PDF, et, parfois, en TXT ou en EPUB.

Pour un document en plusieurs pages, il est possible de télécharger une partie ou la totalité de celle-ci en PDF. Le téléchargement en JPG n’est disponible que pour une page à la fois (la page en cours de consultation). Là, l’internaute aura le choix entre un télécharger l’image entière en basse définition (1470×1024) ou seulement une partie de l’image en haute définition. Ce n’est pas clairement indiqué mais la limite de ce téléchargement en HD correspond à un quart de la surface de l’image, ce qui limite fortement les réutilisations possibles (par exemple pour utiliser le fichier comme fonds de carte ou pour montrer un document en cours).

Sur l'interface utilisateur de Gallica, le téléchargement en HD est limité à 25% de la vue complète

Sur l’interface utilisateur de Gallica, le téléchargement en HD est limité à 25% de la vue complète

 

Par ailleurs, si vous avez plusieurs images à télécharger successivement, il faut répéter l’opération autant de fois que nécessaire (sans oublier de cocher la case « j’accepte les conditions d’utilisation« ) ce qui peut se révéler fastidieux.  Heureusement, il existe de plusieurs outils ou astuces qui peuvent vous faciliter la tâche. Je les ai classés en fonction du degré de difficulté d’utilisation et des besoins auxquels ils répondent.

Facile et grand public : IIIF Download

Votre situation : vous avez ponctuellement besoin d’une image en haute def lorsque vous naviguez sur internet et vous ne vous sentez pas l’âme d’un geek ? Le plugin IIIF Download conçu par Symac est fait pour vous !

Comment ça marche ? Téléchargez le plugin IIIF Download pour Firefox ou Chrome et installez-le dans votre navigateur. Lorsque vous serez sur une page de Gallica qui contient une image téléchargeable, le bouton du plugin va s’allumer en rouge : il ne vous reste qu’à cliquer dessus pour télécharger l’image en HD au format JPG ou TIFF. Pratique !

Le plugin IIIF s'allume en rouge pour me signaler qu'une image est disponible au téléchargement sur la page que je consulte

Le plugin IIIF s’allume en rouge pour me signaler qu’une image est disponible au téléchargement sur la page que je consulte

Le plugin IIIF Download propose le téléchargement de l'image en JPG ou TIFF

Le plugin IIIF Download propose le téléchargement de l’image en JPG ou TIFF

Un peu plus ardu (mais néanmoins accessible : Bidouiller l’URL

Votre situation : Vous ne voulez pas seulement télécharger l’image en haute def mais créer un lien vers cette image (par exemple, pour envoyer l’URL dans un mail plutôt que de la télécharger). Il suffit de modifier l’URL pour requêter directement l’image selon la spécification IIIF (il n’est pas nécessaire de comprendre ce qu’est IIIF pour le faire, mais comme c’est toujours utile, vous trouverez une introduction à IIIF sur le site de Biblissima)

Comment ça marche ? 

Prenez une URL dans Gallica, par exemple : http://gallica.bnf.fr/ark:/12148/btv1b52507561k/f1.item

Modifiez là de façon à requêter selon la spécification IIIF : http://gallica.bnf.fr/iiif/ark:/12148/btv1b52507561k/f1/full/full/0/native.jpg

J’ai indiqué en gras et rouge ce qu’il faut ajouter à l’URL. Pour comprendre comment cela se passe, allons voir du côté de l’API de récupération des images de Gallica, qui explique comment réaliser l’opération (mais dont la présentation assez technique peut décourager les non-geeks). L’URL doit être construite selon la syntaxe suivante :

{scheme}://{server}{/prefix}/{identifier}/{region}/{size}/{rotation}/{quality}.{format}.

soit traduit en langage de courant :

{http}://{gallica.bnf.fr}{/iiif}/{numéro ark de la ressource}/{zone de l'image que l'on veut récupérer (ici : full, toute l'image)}/{size : dans quelle taille en pixel on veut récupérer l'image, ici encore full}/{rotation (si on veut tourner l'image à 90° par exemple}/{quality permet de choisir si on veut l'image en couleur, en noir et blanc, ect.}.{format : JPG, tiff...}.

Autrement dit, il vous suffit de copier l’adresse ci-dessous et de modifier selon vos besoins les éléments que j’ai indiqués en vert (qui correspond à l’identifiant ark du document)

http://gallica.bnf.fr/iiif/ark:/12148/btv1b52507561k/f1/full/full/0/native.jpg

Cet identifiant ark, vous le trouvez dans la notice « information » dans Gallica à l’entrée « identifiant ». Attention, il y a une petite subtilité avec le F1 qui suit, que j’ai mis en bleu : cela indique le n° de la vue que vous souhaitez dans le document. Si vous voulez la vue 150 d’un document de x pages, il faudra mettre f150. Pour un document d’une seule vue (une estampe par exemple), il faudra aussi veiller à mettre f1.

Pour tourner une image (à 90°, à 180°) remplacez le 0 en violet par le 90 ou 180…

Trouver l'identifiant ARK d'un document (aussi disponible dans "partager")

Trouver l’identifiant ARK d’un document (aussi disponible dans « partager »)

Mais est-ce que j’ai droit de faire ça ? Oui ! La documentation de l’API Gallica a été publiée par la BNF, il ne s’agit donc pas d’une recette secrète !

Aux besoins spécifiques, grands moyens : Pyllica

Votre situation : il vous faut télécharger des dizaines ou des centaines d’images en JPG d’un document numérisé, ou bien seulement une partie d’une image sur plusieurs pages successives et il est hors de question que vous passiez trois ou quatre heures  à effectuer cette tâche manuellement. Là encore, il existe une solution, l’outil Pyllica créé par Pierre-Carl Langlais.

Note : non Pyllica ne veut pas dire « Piller Gallica » mais « Python+Gallica »… Python étant un langage de programmation. 

Comment ça marche : Pyllica est un outil qui s’installe sur votre ordinateur. Pour le faire fonctionner, il faut disposer de Python (gratuit, à installer également si votre version n’est pas à jour) et de Beautifulsoup (une librairie python, toujours gratuite).

Pyllica va vous permettre de télécharger en JPG plusieurs pages d’un document d’un seul coup. Pensé à l’origine pour les périodiques, il permet de télécharger plusieurs numéros d’un même titre, et d’extraire des fichiers en textes bruts des documents qui ont été océrisés.

Pierre-Carl donne toutes les instructions de fonctionnement dans le « Lisez-moi » sur Github. Malgré la clarté de ses explications, il peut être difficile pour un néophyte de lancer l’outil. J’essaierai de publier un tutoriel « Pyllica pour les nuls » un de ces jours (mais, vu que le dernier billet du présent blog remonte à septembre 2015, je ne peux que vous conseiller d’être patients).

Note : Ce billet a été rédigé comme un pense-bête car la question du téléchargement des images m’est régulièrement posée dans le cadre de cours. J’ai essayé de simplifier au maximum le vocabulaire, afin de rendre le contenu accessible à tous. Si toutefois j’ai fait des raccourcis techniques un peu trop violents aux oreilles des spécialistes, merci de me le faire savoir.

Notez aussi qu’Antoine Courtin avait rédigé un tutoriel du même type en 2016, disponible sur Médium, plus rigoureux que le mien dans l’emploi du vocabulaire.

Si le sujet vous a intéressé, je vous signale également ces deux billets de Pierre-Carl Langlais et Damien Petermann expliquant comment lire la totalité d’un livre « aperçu » sur Google Book et comment récupérer le fichier.

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>