Université Paris-Saclay

Bonjour,

dans le cadre du projet ANR Autogramm, nous développons une vingtaine de treebanks en dépendances pour des langues peu dotées. Nous voulons aider les annotateurs et annotatrices avec un système de bootstrapping : régulièrement, on entraînera un analyseur syntaxique sur les phrases déjà annotées afin de faire des propositions pour les prochaines phrases à annoter, augmentant ainsi la vitesse et la cohérence de l’annotation.

L’objectif est d’adapter l’analyseur syntaxique HOPS (Grobol et Crabbé 2021) de manière à ce qu’il puisse être utilisé avec différents modèles de langues de type BERT. Le ou la stagiaire aura les missions suivantes :
– réaliser le fine-tuning d’un BERT existant sur du texte brut ;

– évaluer différents modèles et sélectionner celui qui donne les meilleurs résultats sur une langue donnée, en se basant sur les textes annotés et bruts fournis ainsi que des informations typologiques de la langue en question ;

– implémenter un système suffisamment compact et rapide pour être utilisé via une API sur un serveur doté d’une carte graphique (on envisage d’intégrer l’outil de bootstrapping dans notre outil https://arboratorgrew.elizia.net/ ).
Il ou elle sera également amené·e à interagir avec des linguistes du terrain et à prendre en compte leur feedback sur les analyses proposées.

Les évaluations croisées seront effectuées sur des données linguistiques très variées et permettront de définir un chemin optimal pour le développement d’un treebank, en termes de choix de modèle de base (BERT multilingue, BERT d’une langue voisine), taille du corpus brut (de la langue en question ou d’une langue voisine), nombre de phrases annotées en syntaxe ou possiblement seulement en partie du discours, etc.

Pré-requis : l’étudiant·e en M2 informatique ou de niveau équivalent, devra avoir une spécialisation en apprentissage automatique / intelligence artificielle, avec éventuellement des connaissances en analyse syntaxique et typologie. Il ou elle devra maîtriser le langage Python, la librairie de réseaux de neurones Pytorch et être autonome pour l’implémentation. Il ou elle sera amené·e à utiliser des bibliothèques de TAL (spaCy, stanza). Une expérience de programmation d’API web en Python serait de plus un avantage précieux.

Durée : du 1er mars à fin juillet ou fin aoûtLieu : Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Université Paris-Saclay (Orsay)

Pour postuler, vous pouvez nous contacter par e-mail :
– Kim Gerdes gerdes@lisn.fr
– Loïc Grobol loic.grobol@gmail.com
– Caio Corro caio.corro@limsi.fr

Loïc Grobol et Benoît Crabbé. « Analyse en dépendances du français avec des plongements contextualisés ». In 28e Conférence sur le Traitement Automatique des Langues Naturelles. Association pour le Traitement Automatique des Langues, 2021. https://hal.archives-ouvertes.fr/hal-03223424

Leave a Reply

Your email address will not be published. Required fields are marked *