DIM Sciences du Texte et Connaissances Nouvelles

Actualités

Proposition de l’équipe eScriptorium dans le cadre de l’appel à projets du DIM STCN novembre 2021 : facilitation d’entraînement de modèles généralisés pour la segmentation et la transcription.

Un grand enjeu de l’analyse automatique de documents écrits (HTR/OCR) sont les modèles de segmentation et de transcription “mixtes” ou généralisés, c’est-à-dire des modèles qui ne sont pas adaptés à une main scribale spécifique mais des modèles capables de transcrire ou de segmenter tous les documents d’un type, d’un siècle ou même d’une écriture. Nous venons de publier des modèles ouverts pour trois types d’écriture d’hébreu médiéval (ashkénaze, italien, sépharade) qui couvrent pratiquement tous les manuscrits européens livresques avant le 15e siècle (https://zenodo.org/record/5468286# déjà téléchargé plus de 150 fois en 2 mois). L’équipe de l’ENC a publié des premiers modèles pour des documents en latin / français médiéval (https://github.com/HTR-United/cremma-medieval). Cependant, l’entraînement de modèles généralisés est actuellement un processus très chronophage et complexe qui nécessite l’accès à des clusters multiples car l’interface d’eScriptorium ne permet que d’entraîner un modèle sur un seul “document/manuscrit”. Pour entraîner un modèle sur plusieurs documents/manuscrits il faut actuellement exporter les données et entraîner sur une autre machine que msIA (le cluster manuscriptologIA financé par le DIM), ce qui rend le processus chronophage pour tous et inadapté pour les utilisateurs normaux. Pour faciliter l’entraînement de modèles généralisés pour d’autres types d’écriture (par ex. latin, grec, arabe etc) par tous les utilisateurs il nous faudrait avoir un moyen de financer les développements suivants. Naturellement toutes les parties du code sont en open source (https://gitlab.com/scripta/escriptorium).

Adapter les tâches d’entraînement pour pouvoir accepter des documents multiples en
lieu d’un seul (~6j)
● Ajouter deux boutons au niveau de projet pour lancer les entraînement (segmentation ou
transcription) (~1j)
● Ajouter ces fonctions dans l’API (~2j)
● Ajouter la possibilité de copier ou bouger des images d’un document à l’autre (~5j)
● Création de types de régions ou de lignes directement via l’interface
d’import/copie/bouger (~7j)
● Ajouter la possibilité d’importer (ou saisir manuellement) des métadonnées (par ex. date,
lieu, auteur, type de document) au niveau d’élément (=image) pour faciliter le travail et
filtrage sur de documents d’archives par ex. pour entraîner un modèle pour tous les
documents d’un siècle ou d’un lieu
○ modélisation de la base de données (3j)
○ Interface (5j)
○ API : (2j)
● filtrage des données (documents, images, zones):
○ Niveau d’élément (image): (2j)
○ Niveau de type de région / type de ligne (3j)
○ Via les métadonnées (4j)

40j de développement à 800 euro = 32.000 euro

DIM_STCN

DIM
Science du texte
et connaissances
nouvelles

Trier par

Catégories

Trier par

Catégories

DIM_STCN

DIM
Science du texte
et connaissances
nouvelles

Facilitation d’entraînement de modèles généralisés pour la segmentation et la transcription