Accueil Présentation Articles Parcours Corpus Rechercher Index Manifeste Encodage

Manifeste éditorial

La segmentation, la transcription et le balisage des documents a été réalisé sur Transkribus, un logiciel de transcription de sources développé à l’université d’Innsbruck dans le cadre du projet européen READ (Recognition and Enrichment of Archival Documents) et initialement financé par le programme de recherche européen H2020.

Comme infrastructure de recherche, Transkribus propose un moteur de reconnaissance d’écriture manuscrite et a pour objectif premier de contribuer à l’affinage des technologies de transcription automatique. Si le corpus que constitue les papiers Antoine-Louis Barye (volumétrie réduite, scripteurs variés…) est inadapté aux procédés de transcription automatique par apprentissage, Transkribus a offert à l’équipe un cadre logiciel confortable pour la segmentation, la transcription et le balisage des documents (fig. 1). En outre, les différents onglets et champs proposés par son interface se sont révélés un outil de pédagogie bien adapté à l’appréhension des jeux de métadonnées et leurs différents registres. Initialement peu familiers des normes et des usages de l’édition numérique, des processus d’encodage et de traitement informatique des sources, les chercheurs et chercheuses de l’équipe ont ainsi pu se former aux enjeux relatifs à ce type de pratiques, ses exigences et ses normes.

Fig. 1. Une lettre d’Hector Lefuel à Antoine-Louis Barye transcrite et balisée sur le logiciel Transkribus (INHA, Archives 166/1/2/063/06)

Parallèlement à la transcription et l’encodage, un prototypage rapide de la plateforme a été élaboré et mis à disposition immédiate de l’équipe, donnant à l’ensemble du projet une dimension expérimentale. Les échanges réguliers entre l’ingénieur de recherche et l’équipe de chercheurs et chercheuses ont permis d’ajuster, de compléter et d’affiner les outils mis à disposition par ce prototype afin de rendre le travail d’encodage des documents moins aride et plus efficace. Ce mode de travail a rendu possible l’émergence d’idées nouvelles et l’élaboration de fonctionnalités qui, bien que parfois non retenues pour l’édition des « Papiers Barye », pourront l’être dans le cadre de projet à venir.

Ces démarches ont parfois constitué un soutien précieux pour le déchiffrage des documents manuscrits comme pour le premier niveau d’éditorialisation scientifique. Un exemple suggestif est le choix d’une segmentation systématique des marques postales, qui rendait possible l’appel de toutes les zones des documents qui en sont pourvues. Leur disposition côte à côte facilitait ainsi la datation de certains documents. En œuvrant à l’établissement d’un cadre de travail intuitif et modulable, l’INHA a ainsi pu développer des méthodes et des savoir-faire instaurant une véritable culture de l’édition numérique, applicable à d’autres projets futurs.

Le corpus comme base de données

Le traitement des « papiers Barye » a donné lieu à la production de métadonnées déployées sur cette page (fig. 2), selon les principes exposés ci-dessous. De l’échelle générale du corpus à celle de la simple ligne, chaque décision relative à la segmentation et au balisage des sources a fait l’objet d’une discussion au sein de l’équipe et du comité scientifique de suivi. Certaines pistes et procédés, qui semblaient pertinents au départ ou qui se révélaient utiles dans la phase de transcription, n’ont pas été retenus pour la plateforme telle qu’elle se présente aux lecteurs.

Fig. 2. Structure des données de l'édition numérique enrichie des « Papiers Barye »

L’ensemble de ces jeux de métadonnées permettent d’envisager le texte et les documents qui les contiennent comme une base de données, dont l’existence n’altère en rien l’intégrité documentaire des sources tout en permettant renvois et croisement de références. L’accès aux textes est ainsi intégralement structuré et permet différentes modalités d’entrées vers le contenu

Métadonnées de document

Chaque document bénéfice d’un titre stabilisé, normalisé selon des formulations élaborées en accord avec la logique documentaire des sources telle qu’interprétée par l’équipe. Les métadonnées principales des documents contiennent des informations basiques comme l’auteur ou le scripteur, la langue ou encore la datation (plus ou moins certaines). Ces données ont été accordées avec l’élément <corresDesc> en usage dans la TEI.

Les métadonnées sont renseignées sous la balise <teiHeader> . Elle déploie toutes les informations sur la source, ses référencements et les personnes chargées de leur traitement.

Métadonnées de segmentation de page

L’intégralité des documents du corpus a fait l’objet, via l’usage des technologies mises à disposition par Transkribus, de segmentations permettant de différencier les zones et éléments d’une page et d’en enregistrer les coordonnées spatiales. Si le logiciel offre des outils de segmentation automatisée particulièrement efficaces, l’équipe de transcripteurs en a souvent affiné manuellement les résultats afin de répondre à la configuration singulière de certaines pièces (notes éparses, brouillons, factures…). Il est ici à noter que de nombreux documents du corpus comprennent des jeux de données organisés de manière tabulaire (catalogues, listes…), rendant nécessaire l’appel à la fonction de la segmentation par cellules également proposée par Transkribus. Ce choix permet une plus grande précision dans l’organisation, le traitement et le rendu des données transcrites, mais les libertés prises par les scripteurs de certaines pièces rendent parfois cet exercice de rationalisation particulièrement complexe (fig. 3). Dans le cas de documents organisés de manière inhabituelle ou anarchique, un aller-retour des lecteurs entre le facsimilé numérique et la transcription proposée se révélera nécessaire pour une pleine appréhension du document.

Fig. 3. Catalogue de bronzes d’Antoine-Louis Barye segmentés et transcrits sur le logiciel Transkribus (INHA, Archives 166/1/3/003/2)

Chaque pièce voit ainsi ses zones segmentées selon plusieurs catégories trouvant leur équivalent dans le vocabulaire de la TEI. Les zones de textes sont spatialisées, et associées à des attributs permettant de distinguer, par exemple, en-tête et pied de page, paragraphe, signature, marginalia – voire les zones de marquage postaux, qui jouent parfois un rôle crucial pour la datation des documents. Le contenu textuel a fait l’objet d’une segmentation à l’échelle de la ligne, mais la précision des outils automatisés de Transkribus permet dans la plupart des cas d’identifier la position d’un mot au sein d’une ligne. Enfin, des zones contenant des images ou graphiques ont fait l’objet d’une segmentation propre, qui se rapporte aux éventuels croquis, dessins ou photographies contenus dans les documents. Ce travail de segmentation rend par conséquent possible aux lectrices et lecteurs l’appel de certaines zones, ou l’affinage des résultats d’une recherche plein texte par la prise en compte ou l’exclusion certaines zones spécifiques des documents.

Métadonnées typographiques

Les documents ont fait l’objet d’une transcription diplomatique, ou « hyperdiplomatique », si l’on envisage l’association ces données à leur coordonnées spatiales au sein de chaque page. Dans ce cadre, les balises de formatage de style ont été appliquées directement via Transkribus au fil des transcriptions et des relectures. Le corpus encodé comprend au moins à une reprise les suivantes, que la TEI regroupe sous la balise générique de « mise en évidence » <hi> , qui « distingue un mot ou une expression comme graphiquement distincte du texte environnant, sans en donner la raison ».

  bold

texte en gras

italic

texte en italique

superscript

texte en exposant

underline

texte souligné

strikethrough

texte barré

blackening

texte caviardé

 

À ces balises de formatage de style courantes se trouve associée une autre série de balises dont le registre est différent, et nécessite de fait un bref éclaircissement. Elles sont ici listées, associées à leur traduction et définition dans le dictionnaire de la TEI ainsi qu’à un court commentaire sur l’usage qui en a été fait dans le cadre du projet des « Papiers Barye ».

<add>

[ajout] contient des lettres, des mots ou des phrases insérés dans le texte par un auteur, un copiste, un annotateur ou un correcteur

Cette balise désigne un ajout réalisé sur un document, basé sur la considération qu’il existait dans un état premier avant d’être altéré par la suite à au moins une reprise. En raison des informations lacunaires concernant l’origine et le parcours des documents du corpus, une véritable approche génétique des sources n’est pas envisageable pour les « Papiers Barye ».

<del>

[suppression] contient une lettre, un mot ou un passage supprimé, marqué comme supprimé, sinon indiqué comme superflu ou erroné dans le texte par un auteur, un copiste, un annotateur ou un correcteur

Associée à une balise de formatage de style correspondante, cette balise indique lorsqu’un scripteur ultérieur a barré ou rayé le contenu d’un document relevant de son état supposé premier. Elle a ainsi été appliquée, pour citer l’exemple le plus commun, sur un texte imprimé plus tard barré à la main.

<unclear>

[incertain] contient un mot, une expression ou bien un passage qui ne peut être transcrit avec certitude parce qu'il est illisible ou inaudible dans la source

Cette balise se rapporte à tout contenu à la transcription incertaine. Elle concerne tant les passages pour l’équipe a proposé, sans pleine conviction, une transcription du contenu, que les passages illisibles en raison d’une mauvaise conservation du document, d’une graphie problématique où d’une méconnaissance dans l’attente d’être comblée.

<sic>

[ainsi] contient du texte reproduit quoiqu'il est apparemment incorrect ou inexact

Cette balise rappelle la dimension diplomatique de la transcription tout en proposant systématiquement des correctifs par l’intermédiaire des balises <choice> et <corr> . Les fautes ou étrangetés de grammaire ou d’orthographe, très fréquentes tout au long du corpus, n’ont pas été relevées. Ont fait l’objet d’un correctif désigné à améliorer la lisibilité des sources et leur bonne compréhension toutes les erreurs repérées dans des formulations considérées comme clés (noms propres, erreur explicite dans le relevé d’une date…) ou afin d’éviter toute confusion possible dans l’identification d’une personne ou d’un événement.

Métadonnées sémantiques

Les métadonnées sémantiques concernent l’ensemble des balises citées et décrites ci-dessous, à la fois par leur définition selon les directives P5 de la TEI et par leur usage dans le cadre de la présente édition. Chaque formulation est liée à une entité nommée guidant, lorsque possible, à une ou plusieurs bases de données de référentiels (Wikidata, VIAF, IdRef).

<date>

[date] contient une date exprimée dans n’importe quel format

<event>

[événement] contient des données liées à tout type d'événement significatif dans l’existence d'une personne, d'un lieu ou d'une organisation

Balise appliquée à chaque mention d’un événement particulier (exposition, vente aux enchères), associée à une date ou une durée spécifique.

<orgName>

[nom d’organisation] contient le nom d’une organisation

Balise appliquée à toute organisation ou institution mentionnée dans une source (ministère, musée, association, société, entreprise…). Dans le cadre de la mention de sociétés ou d’entreprises nommées d’après une ou un groupe de personnes, nombreuses dans le corpus, le balisage a été affiné contextuellement. Ainsi, le nom de « Barbedienne » peut apparaître comme <orgName> en lien avec l’entité nommée « Maison Barbedienne » ; et ailleurs comme <persName> afin de désigner la personne de Ferdinand Barbedienne comme individu ou scripteur.

<persName>

[nom de personne] contient un nom propre ou une expression nominale se référant à une personne, pouvant inclure tout ou partie de ses prénoms, noms de famille, titres honorifiques, noms ajoutés, etc.

Balise appliquée à chaque mention de personnes, même via l’usage de pseudonymes, surnoms ou de leur appellation par titre. En raison de leurs occurrences nombreuses dans le cadre d’une édition de correspondances, la locution « Cher Monsieur », par exemple, n’a pas été balisée – la métadonnée du document lui-même comprenant cette information.

<placeName>

[nom de lieu] contient un nom de lieu absolu ou relatif

Balise appliquée à chaque mention de région, ville ou pays.

 

Les nombreuses œuvres d’art citées ( <work> ), parfois difficiles à identifier précisément, les matériaux mentionnés ( <material> ), ainsi que les prix d’œuvres mentionnés ( <price> , <sum> ) ont également fait l’objet d’un balisage systématique dont l’équipe réfléchit encore à l’usage et les applications dans le cadre de cette édition et de ses évolutions à venir.

Données ouvertes Crédits Mentions légales