DIM Sciences du Texte et Connaissances Nouvelles

I

Année d'intégration du réseau : 2019
R

Axes de recherche : 1 "numérisation" et 2 "exploration et fouille"
N

Domaines de recherche : langue française et littérature, linguistique, informatique

Le projet

Le projet Antonomaz vise à exploiter un corpus de plus de 6000 écrits du milieu du 17^esiècle ayant pour objet les affaires politiques de la régence du cardinal Mazarin, et traditionnellement appelés « Mazarinades ». Notre approche se situe dans le champ des Humanités Numériques et cherche à fournir des méthodes automatiques, empruntant au Traitement Automatique des Langues et à la Fouille de Données, pour l’analyse de ces données par les experts de plusieurs disciplines (historiens, linguistiques, littéraires).

Le premier objectif est d’améliorer les données textuelles obtenues par des transcriptions automatiques (par reconnaissance de caractères), en mettant à profit les méthodes d’apprentissage profond. Il s’agit de paramétrer finement la reconnaissance automatique des caractères originaux figurant dans l’imprimé ancien. Cecorpus pilote de Mazarinades étant constitué de textes d’actualité, il ne prend sens qu’en le situant dans la production textuelle contemporaine : aussi convient-il d’intégrer de larges ensembles d’écrits du 17^e siècle, disponibles sur les grandes bibliothèques numériques. Un des buts du projet est ainsi d’abonder une de ces bibliothèques numériques, celle de la Bibliothèque Mazarine, en favorisant les numérisations puis en automatisant le passage du mode image au mode texte. S’ensuivent plusieurs pistes de travail, comme lamyriadisation pour la normalisation du mode texte, ainsi que divers types d’annotations, de balisage et d’extractions d’informations comme les entités nommées.

Le second objectif regroupe une série d’applications en Traitement Automatique des Langues, notamment la datation automatique, l’attribution d’auteur ainsi que la classification non-supervisée.Ces expériences exploiteront d’abord directement les données brutes (sorties d’OCR bruitées), dont l’analyse au grain caractère peut produire des résultats parfois meilleurs que les données lissées pour l’œil humain, bien plus coûteuses pourtant à obtenir.

Le troisième objectif est de proposer une visualisation originale de ces textes polémiques qui, en raison de leur nature réactionnelle, n’ont de sens que par leur mise en réseaux. Il s’agira de rendre compte de leur enchaînement à la fois chronologique et réticulaire.

Crédits image :
La mort funeste du cardinal Mazarin avec son epitaphe…. – [Sans lieu : sans nom], 1651. – In-4.
https://mazarinum.bibliotheque-mazarine.fr/ark:/61562/mz2933
(licence CC-by-nc-nd)

Les membres

Responsables scientifiques du projet

Karine Abiven
Sorbonne Université

Gaël Lejeune
Sorbonne Université

Autre membres

Jean-Baptiste TANGUY
Sorbonne Université - Obvil

DIM_STCN

DIM
Science du texte
et connaissances
nouvelles

Trier par

Catégories