X1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
X17
 
text

OMÉLiE – Outils et Méthodes pour l’Édition Linguistique Enrichie

  • I
    Année d'intégration au réseau : 2018
  • N
    Domaines de recherche : Philologie romane, Traitement Automatique des Langues

Le projet

Enrichir un texte d’une interprétation linguistique, sous la forme d’une lemmatisation et d’une annotation morpho-syntaxique, est un enjeu pour toutes les langues naturelles, notamment anciennes ou médiévales, pour leurs états les moins standardisés. L‘enrichissement linguistique des éditions savantes permet d’exploiter pleinement leur dimension numérique, par l’inclusion de fonctionnalités inaccessibles aux éditions imprimées traditionnelles, en permettant une lecture et une interrogation renouvelées et étendues des textes.

La lemmatisation et l’annotation flexionnelle permet à l’utilisateur de visionner à la demande le paradigme d’un lemme dans un texte ou un corpus de textes, facilitant son étude linguistique ou son utilisation pédagogique, grâce aux liens possibles avec dictionnaires et grammaires. Les corpus annotés permettent aussi, en vertu d’un processus circulaire, l’entraînement de modèles plus performants pour la lemmatisation et l’annotation, par des méthodes d’apprentissage profond. Ils permettent enfin de poser de nouvelles questions aux textes, par l’analyse quantitative (sémantique, stylométrique ou scriptométrique).

Toutefois, à l’heure actuelle, les langues médiévales doivent faire face à des difficultés particulières, qui rendent les outils développés pour les langues modernes peu accessibles : 1) les outils sont encore peu adaptés à des états de langue incomplètement standardisés. La variation linguistique dans l’espace et dans le temps, l’absence, la faiblesse ou la pluralité des normes graphiques sont autant de difficultés rencontrées ; 2), la rareté des données disponibles ainsi que la petite taille des corpus limite la pertinence d’outils fondés sur l’apprentissage en contexte de données annotées, vérifiées et en nombre important.

Afin de contribuer à lever ces difficultés, le projet OMÉLiE œuvre au développement d’outils et de modèles pour permettre un changement d’échelle dans l’annotation de corpus. Ces développements s’appuient sur l’accroissement des corpus disponibles et sur une réflexion méthodologique, qui porte sur des langues rares du point de vue de leur traitement automatique, à savoir le français et l’occitan médiévaux.

Les membres

Responsable scientifique
Jean-Baptiste Camps
Centre Jean-Mabillon
École nationale des chartes | Université PSL
Frédéric Duval
Centre Jean-Mabillon
École nationale des chartes | Université PSL
Autres membres
Thibault Clérice
Centre Jean-Mabillon
École nationale des chartes | Université PSL
Lucence Ing
Centre Jean-Mabillon
École nationale des chartes | Université PSL
Ariane Pinche
Centre Jean-Mabillon
École nationale des chartes | Université PSL
text
Tous droits réservés © DIM_STCN 2020
Conception graphique & développement : Julienne Richard & Simon Bouchard