X1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
X17
 
text

Offre de stage : Repérage et analyse automatique des diagrammes dans les manuscrits astronomiques médiévaux (arabe et latin) par apprentissage profond

25 - 01 - 2021

Le ou la stagiaire travaillera au sein du projet de Recherche ALFA, the shaping of a European scientific Scene : Alfonsine astronomy (ERC CoG 723085, PI Matthieu Husson) (alfa.hypotheses.org) hébergé par l’équipe d’histoire de l’astronomie du Laboratoire SYRTE-UMR8630 à L’Observatoire de Paris. Outre l’accueil du candidat à l’Observatoire de Paris, l’équipe du projet ALFA (4 chercheurs, 3 ingénieurs, 12 collaborateurs internationaux) assurera le suivi scientifique pour la composante « humanité numérique » du stage. La composante intelligence artificielle et apprentissage profond du stage sera effectuée en lien avec l’équipe IMAGINE de l’Ecole des ponts Paris Tech (imagine-lab.enpc.fr). Cette équipe (7 chercheurs permanents, 28 doctorants) est spécialisée en vision artificielle, apprentissage profond et optimisation.

Encadré par Matthieu Husson (ALFA) et Mathieu Aubry (IMAGINE), ce stage aura pour objectif d’établir un outil de repérage et d’analyse automatique des diagrammes de manuscrits astronomiques médiévaux (arabe et latin) au moyen de méthodes d’apprentissage profond. Il s’appuiera sur une expertise établie sur ces questions au sein de l’équipe IMAGINE et sur les jeux de données construits au sein du projet ERC ALFA.

 
Description du poste
Objet scientifique

Produire, avec des méthodes d’apprentissage, un algorithme de repérage et d’analyse des diagrammes astronomiques dans les sources médiévales manuscrites en arabe et en latin. Outre qu’il s’agit d’une première étape pour de nombreuses analyses plus fines des diagrammes (plus proche voisin/variantes, annotation des labels, vectorisation), un tel outil permettrait en lui-même de dégager de nouveaux faits sur l’histoire de l’astronomie concernant l’évolution de la structure intellectuelle des manuscrits et l’histoire de la transmission entre les traditions arabes et latines au Moyen-Âge.

Le défi principal de ce projet tient essentiellement à la complexité du jeu de données à traiter : diversité des supports matériels et des écritures manuscrites (parchemin-papier, arabe-latin, corpus couvrant huit siècles d’histoire de l’astronomie), diversité des types d’images (numérisation directe de la source historique selon différentes techniques, numérisation de microfilms…). Le succès du projet nécessitera donc de traiter le problème de la généralisation de l’algorithme à partir d’un minimum de données d’entraînement, idéalement uniquement à partir de données synthétiques, un des défis majeurs pour l’application pratique des techniques de vision artificielle.

Méthodologie

La phase d’analyse de la diversité du jeu de données sera cruciale en vue d’établir la meilleure stratégie possible pour la résolution de ce problème en apprentissage. Cette analyse devra permettre notamment de mettre en place un générateur de données synthétiques en adéquation avec le modèle d’apprentissage sélectionné (Structure du réseau, fonction de coût, méthode d’optimisation) et le jeu de données réel auquel l’algorithme devra se généraliser.

Le (la) stagiaire pourra s’appuyer sur un corpus numérisé de plus de 1500 manuscrits astronomiques arabes et latins construit par les projets PAL (Ptolemaus Arabus et Latinus, Munich) et ALFA (Paris), soit une banque de plusieurs dizaine de milliers de pages. L’expertise des historiens et des ingénieurs en humanités numériques du projet ALFA sera un support essentiel pour l’analyse de ce jeu de données. Le (la) stagiaire pourra également bénéficier du savoir-faire des chercheurs de l’équipe IMAGINE, en vision artificielle et apprentissage profond sur des sources historiques avec déjà plusieurs projets réalisés dans ce domaine (ANR EnHerit). En particulier, il aura accès à une base de code permettant de générer des données synthétiques et d’apprendre un réseau permettant de segmenter les illustrations et le texte. Il pourra ainsi rapidement mettre en pratique et développer ces compétences en vue de la résolution du défi.

 
Compétences

M2 en sciences des données
Compétences en vision artificielle
Python (Pytorch)
Capacité au travail en équipe
Anglais, lu écrit

 

Date de disponibilité : début de stage entre février et avril 2021

Durée : 5-6 mois

Temps de travail hebdomadaire : 35h

Gratification mensuelle : 560€ (3.90€/heure) + carte Navigo (50%)

Lieu de travail : Observatoire de Paris, 77, avenue Denfert Rochereau 75014 Paris

 

Adresser CV, lettre de motivation, transcripts et contact pouvant écrire une recommandation à : 

matthieu.husson [at] obspm.fr

mathieu.aubry [at] imagine.enpc.fr

text
Tous droits réservés © DIM_STCN 2021
Conception graphique & développement : Julienne Richard & Simon Bouchard