X1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
X17
 
text

eScriptorium

  • I
    Année d'intégration au réseau DIM STCN : 2020
  • R
    Informatique, intelligence artificielle, OCR

Le projet

eScriptorium, émanant du projet IRIS Scripta-PSL, est une plateforme permettant la transcription et l’analyse automatiques et manuelles de documents écrits grâce aux techniques de pointe de l’apprentissage profond (de « l’intelligence » artificielle) du logiciel kraken et d’une interface utilisateur ergonomique et intuitive. eScriptorium (y compris kraken) est entièrement open source ce qui incite la participation et le partage des outils et ressources des projets l’utilisant.

Les documents analysés peuvent être écrits dans pratiquement n’importe quelle écriture ou langue. C’est donc de l’OCR non seulement pour les documents imprimés mais aussi pour les manuscrits ou des textes incisés dans des pierres ou d’autres objets, aussi des écritures rares. En annotant les régions et lignes sur quelques pages, l’utilisateur permet au système d’apprendre une analyse de la mise-en-page du type de documents souhaité (« modèle de segmentation »). Ainsi on peut, par exemple, isoler les enluminures, lettrines, titres, ou notes marginales du texte principal. En transcrivant ou en important quelques pages de texte (la quantité nécessaire dépend de la complexité de l’écriture, des images et d’autres facteurs) l’utilisateur peut entraîner l’ordinateur à transcrire automatiquement toutes les autres pages. Actuellement nous ajoutons la possibilité d’annoter le texte (entités nommées etc) et l’image (v. Archétype-Digipal) pour l’édition électronique et l’analyse paléographique. Dans une édition classique, les liens entre texte et image sont rompus. Grâce à eScriptorium ils peuvent être préservés et permettent de nouvelles formes de questionnement et d’analyse.

eScriptorium peut être installé sur un serveur linux ou mac, de préférence avec un gpu. Grâce au financement du DIM STCN et les cofinancements de l’EPHE et de l’IRHT, eScriptorium est mis à disposition de la communauté scientifique sur le cluster manuscriptologIA, un cluster de calcul de haute performance avec une grande capacité de calcul (cpus & gpus) et un important volume de stockage. manuscriptologIA est l’instance principale d’eScriptorium hébergé au cluster mesoPSL à l’Observatoire de Paris. D’autres instances sont installées sur des serveurs plus petits en Europe, en Israël et aux États-Unis.

eScriptorium est développé par l’équipe numérique de l’EPHE à AOrOc (UMR 8546) grâce au financement du projet Iris Scripta-PSL, du projet Infradev Resilience et de l’équipex Biblissima+. Partenaires principaux du développement d’eScriptorium sont l’INRIA (projet Lectaurep), les Universités de Maryland et de Northeastern (projet openITI), l’Université de Genève (projet FoNDUE), l’Université de Princeton, et la PME Teklia.

Parmi les grands projets qui utilisent actuellement eScriptorium (dont une partie sur manuscriptologIA) il y a Vietnamica, Scripta Sinology, ALFAANTONOMAZSofer MahirPapyroLogosScripta Qumranica ElectronicaHTR4PGPopenITILectaurepe-ditioneskatabase[email protected]Visual contagionsBonHumCarnets d’AbbadieeNDP, et le master humanités numériques de PSL.

Les membres

Responsables
Daniel Stökl Ben Ezra
École Pratique des Hautes Études
Peter Stokes
École Pratique des Hautes Études
Ingénieurs
Benjamin Kiessling
École Pratique des Hautes Études
Robin Tissot
École Pratique des Hautes Études
text
Tous droits réservés © DIM_STCN 2022
Conception graphique & développement : Julienne Richard & Simon Bouchard