Contexte
Le projet EcoLe (« “S’ECOuter LirE ») vise à l’établissement d’une nouvelle grammaire historique : celle, pionnière, des diverses pratiques de lecture (oralisée, silencieuse et déclamée) qui, en France, ont coexisté et connu une intense période de covariation entre le début du Moyen-Âge central (13 e s.) et la fin de l’Ancien régime (18 e s.). Il se propose d’étudier la manière dont les écrits de cette période ont pu encoder leur mode d’appropriation préférentiel (par l’œil ou par l’oreille). Dans ce contexte nous cherchons à reconstituer la structure et le mode d’organisation des documents de la période pour pouvoir les comparer.
Le poste
Nous recherchons un profil avec une formation (master et/ou thèse) soit (I) en humanités numériques avec une forte composante technique, soit (II) en Traitement Automatique des Langues/Vision par Ordinateur avec une appétence pour les recherches en SHS et les documents anciens.
Les principales tâches visées concernent l’annotation de la mise en page et de la mise en texte (mise en forme matérielle notamment) des documents du corpus école. Nous cherchons des candidats/candidates répondant à une majorité des critères suivants :
– Compétences en apprentissage automatique (machine learning et deep learning), avec une capacité à appliquer ces techniques à des problématiques d’analyse textuelle.
– Appétence pour les questions de linguistique textuelle et d’humanités numériques.
– Capacité de concevoir et d’exploiter des API diverses.
– Connaissance approfondie des langages de programmation utilisés dans le projet (Python et, si possible, aussi PHP)
– Connaissances en interfaces homme-machine.
– La gestion de Back-office sur les outils/plateformes du projet serait un plus.
D’un point de vue applicatif, les besoins exprimés sont les suivants :
• L’étiquetage morpho-syntaxique d’un corpus textuel longitudinal en français (13e-18e s.) avec ré-entraînement et adaptation de modèles existants.
• L’étiquetage des connecteurs logiques et de la ponctuation noire et blanche ; l’identification des chaînes de co-référence.
• L’extraction et la désambiguïsation d’entités nommées.
• L’utilisation d’autres applications d’outils de NLP : extraction d’informations et de relations notamment
Modalités de Candidature et Calendrier
– Envoyer CV + notes de Master à : richard.walter@ens.fr, claire.badiou-monferran@sorbonne-nouvelle.fr, gabriella.parussa@sorbonne-universite.fr, gael.lejeune@sorbonne-universite.fr
– Date limite : mercredi 19 juin 2024
– Sélection des dossiers : vendredi 21 juin
– Auditions : fin juin début juillet
– Prise de poste septembre/octobre 2024 à Sorbonne Université (quartier St Michel)