L’encodage en XML-TEI

Édition électronique en Sciences Humaines.

 L’encodage en XML-TEI

La TEI propose un schéma d’encodage pour la création de documents XML prenant en compte différentes approches du document et permet d’encoder un texte selon plusieurs niveaux différents. Le premier niveau retenu dans le cadre du projet  Savoirs, est le balisage sémantique, des toponymes, des anthroponymes, des dates, etc. Il complété par un second niveau, de balisage analytique, réalisé par une équipe d’étudiants et de chercheurs qui appliquent aux parties du texte une grille d’analyse reposant sur une taxonomie : le thésaurus Savoirs. Dans le cadre du projet, l’encodage typographique et formel est automatisé grâce à l’outil Métopes.

La construction d’un fichier XML-TEI avec Métopes


Le projet  Métopes – Méthodes et outils pour l’édition structurée – vise à mettre au point, à développer et diffuser, dans la sphère publique, un ensemble d’outils et de méthodes permettant aux utilisateurs d’organiser leur production et leur diffusion papier et numérique sur le modèle du Single Source Publishing. L’ensemble du dispositif permet aux éditeurs et producteurs de revues d’assurer la pérennisation des contenus normés en XML-TEI et leurs exploitations de diffusion multi-supports tout en garantissant un haut niveau de métadonnées associées.


L’édition numérique en XML-TEI offre des perspectives non seulement pour la diffusion des sources de la recherche, mais aussi pour leur exploitation par les équipes de recherche. Nécessaire pour l’édition numérique des sources, le format libre XML, facilement interopérable et très orienté vers la publication sur Internet, permet la séparation du contenu et de sa présentation, tandis que la TEI offre un cadre  méthodologique, appuyé sur une longue expertise et une communauté d'utilisateurs très active. Ces outils ont donc fait irruption dans l’éventail des outils informatiques dans l’édition des revues et des ouvrages scientifiques. Depuis sa création en 1987, la TEI est parvenue au rang de standard international et interdisciplinaire pour l'édition électronique en Sciences Humaines.

Dans le cadre du projet Savoirs , les outils Métopes constituent le premier maillon éditorial et technique de la chaîne de production, visant l’élaboration d’un réservoir de contenus, encodés en XML-TEI, uniformes et normés. Les textes, destinés à l’alimentation de la bibliothèque Savoirs , de sources et de formats informatiques divers (fichiers de traitement de texte, fichiers XML issus d’une publication antérieure), sont traités par des opérations de stylage et/ou de conversion dans le but d’obtenir ce bassin homogène, point de départ à une annotation sémantique plus avancée.


L’encodage sémantique et analytique


Si les difficultés informatiques à mettre en œuvre de tels projets d'édition numérique semblent s'estomper, l’encodage manuel en XML et l’écriture de balises peut être une difficulté pour des chercheur(e)s et des ingénieur(e)s néophytes. L’interface Métopes dédiée au projet Savoirs permet à tous, néophytes ou non, de participer à l’encodage XML des textes. Grâce à l’outil collaboratif   Pluco , l’encodage peut-être réalisé par différents membres de l’équipe, sur différents textes simultanéments. 

Le travail d’encodage du projet  Savoirs  porte sur les entités nommées — à savoir les noms de personnes, les lieux, les dates —, les langues, les références bibliographiques et les concepts du thésaurus  Savoirs  [intégrer un renvoi vers la page sur le thésaurus de la landing page] . Pour réaliser ce travail le projet Savoirs bénéficie d’un environnement d’encodage qui répond à ces besoins. Outre des commandes pour l’encodage typographiques (italique, gras, …), l’environnement Savoirs dispose des commandes pour les encodages suivants : 


  • noms de personnes avec un lien IdRef

  • lieux avec Geonames

  • dates et périodes

  • concepts avec le thésaurus Savoirs publié sur Datu

  • langues

  • références bibliographiques avec les items de la bibliothèque Zotero du projet Savoirs [intégrer un renvoi vers  https://www.zotero.org/groups/2408090/projet_savoirs/  ] , bibliothèque où sont stockées les métadonnées des textes du corpus avant d’être rapatriées dans le TEI Header 


L’écran de l’interface se décompose en quatre parties :

  1. En haut, la barre d’outils

  2. Dans la colonne de gauche : le texte s’affiche en langage XML avec les recommandations TEI

  3. Dans l’écran central sur lequel l’annotateur travaille : le format est textuel

  4. Dans une colonne de droite — non visible ici — qui reprend la liste des fichiers entreposés sur BaseX et déjà “métopisés” ainsi que des informations de commande

Pour en savoir plus sur le détail de l’encodage du projet, on pourra consulter prochainement le guide d’encodage, écrit par Edith Cannet, Nicole Dufournaud et Axel Le Roy, et qui est le résultat d’une combinaison entre un  manuel  technique sur l’élaboration de l’outil Métopes Savoirs et des indications sur l’encodage XML-TEI.

Perspectives


En lien étroit avec l'équipe Métopes, la Plateforme géomatique de l’EHESS et en partenariat avec l'équipe ALMAnaCH de l'INRIA (Paris), nous envisageons d'enrichir l’environnement d’encodage du projet Savoirs , avec un service d'interrogation du système de reconnaissance automatique d'entités nommées NERD [http://nerd.huma-num.fr/], créé par l'INRIA et hébergé par la TGIR Humanum. Les résultats de l’interrogation de NERD dans XMLMind pourront être affichés dans l’environnement sous la forme de suggestions. Ces dernières seront proposées à l'utilisateur humain qui réalise l'encodage manuel des textes — l’objectif étant par ailleurs de gagner du temps d’encodage pour accroître le corpus —. Il y aura aussi une réflexion sur l'encodage TEI, très répandu en SHS, et les outils de reconnaissance d’entités nommées, qui sont souvent incompatibles. Nous sommes convaincus que l'enrichissement de Métopes avec un système de suggestions pour l'annotation d'EN est une contribution importante à la communautés en SHS. Dans cette perspective, il pourra être nécessaire d'étudier ses faiblesses pour traiter les textes de  Savoirs . En TAL, il s'agit d'un problème d'adaptation à un nouveau domaine et il faudrait donc identifier les thématiques sous-représentées dans le modèle et de l'enrichir, a priori en direction de l’histoire et de l’anthropologie des sciences et des savoirs. 


Si l’encodage semble être une solution pour interagir avec l’ordinateur, le jugement humain reste nécessaire afin d’explorer des données de masse à l’aide de procédés comme la visualisation d’informations, domaine de l’informatique en pleine expansion. Il s’agit d’utiliser nos capacités visuelles pour détecter des phénomènes inattendus. La navigation et l’exploration, voire même l’extraction des données sont rendues possibles grâce à la construction et le croisement des index, des réseaux sociaux, et de multiples listes : le travail récupéré permet une analyse ultérieure des mêmes sources. Des outils de visualisation permettent de construire des graphes, des cartes, et autres spatialisations des données qui sont au coeur du mode de navigation entre les textes, par le passage d’une visualisation à l’autre, le paramétrage d’algorithmes qui, pour l’heure actuelle, puisent les données qu’ils mobilisent dans les fichiers encodés en XML-TEI. 

Le projet Savoirs apporte ainsi aux lecteurs et lectrices une possibilité nouvelle.  Les auteurs sont dessaisis de leur édition XML au bénéfice des internautes, qui dynamiquement récupèrent les données, les interprètent, les ré-analysent et les re-diffusent. Pour y parvenir, l’internaute mobilise l’outil informatique, que ce soit un ordinateur, une tablette, ou encore un smart-phone. À la différence d’une base de données qui peut diviser un texte, le projet  Savoirs entend préserver le texte original.