Université Paris-Saclay

Bonjour,

dans le cadre du projet ANR Autogramm, nous développons une vingtaine de treebanks en dépendances pour des langues peu dotées. Nous voulons aider les annotateurs et annotatrices avec un système de bootstrapping : régulièrement, on entraînera un analyseur syntaxique sur les phrases déjà annotées afin de faire des propositions pour les prochaines phrases à annoter, augmentant ainsi la vitesse et la cohérence de l’annotation.

L’objectif est d’adapter l’analyseur syntaxique HOPS (Grobol et Crabbé 2021) de manière à ce qu’il puisse être utilisé avec différents modèles de langues de type BERT. Le ou la stagiaire aura les missions suivantes :
– réaliser le fine-tuning d’un BERT existant sur du texte brut ;

– évaluer différents modèles et sélectionner celui qui donne les meilleurs résultats sur une langue donnée, en se basant sur les textes annotés et bruts fournis ainsi que des informations typologiques de la langue en question ;

– implémenter un système suffisamment compact et rapide pour être utilisé via une API sur un serveur doté d’une carte graphique (on envisage d’intégrer l’outil de bootstrapping dans notre outil https://arboratorgrew.elizia.net/ ).
Il ou elle sera également amené·e à interagir avec des linguistes du terrain et à prendre en compte leur feedback sur les analyses proposées.

Les évaluations croisées seront effectuées sur des données linguistiques très variées et permettront de définir un chemin optimal pour le développement d’un treebank, en termes de choix de modèle de base (BERT multilingue, BERT d’une langue voisine), taille du corpus brut (de la langue en question ou d’une langue voisine), nombre de phrases annotées en syntaxe ou possiblement seulement en partie du discours, etc.

Pré-requis : l’étudiant·e en M2 informatique ou de niveau équivalent, devra avoir une spécialisation en apprentissage automatique / intelligence artificielle, avec éventuellement des connaissances en analyse syntaxique et typologie. Il ou elle devra maîtriser le langage Python, la librairie de réseaux de neurones Pytorch et être autonome pour l’implémentation. Il ou elle sera amené·e à utiliser des bibliothèques de TAL (spaCy, stanza). Une expérience de programmation d’API web en Python serait de plus un avantage précieux.

Durée : du 1er mars à fin juillet ou fin aoûtLieu : Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Université Paris-Saclay (Orsay)

Pour postuler, vous pouvez nous contacter par e-mail :
– Kim Gerdes gerdes@lisn.fr
– Loïc Grobol loic.grobol@gmail.com
– Caio Corro caio.corro@limsi.fr

Loïc Grobol et Benoît Crabbé. « Analyse en dépendances du français avec des plongements contextualisés ». In 28e Conférence sur le Traitement Automatique des Langues Naturelles. Association pour le Traitement Automatique des Langues, 2021. https://hal.archives-ouvertes.fr/hal-03223424

Sorbonne Université

Internship Master or Engineering degree

AI for Science: Physics Based Deep Learning for Modeling Complex Dynamics. Application to Climate

More information at: https://mlia.lip6.fr/available-positions/

Contact : patrick.gallinari@sorbonne-universite.fr
Where : Machine Learning and Information Access team – MLIA – https://mlia.lip6.fr,  Sorbonne University, Paris, Fr
Dates and duration : 6 months starting in spring 2022
Candidate profile: Master or engineering degree in computer science or applied mathematics. The candidate should have a strong scientific background with good technical skills in programming.
Stipend : classical French academic  internship gratification around 550 E/ mois

Research project summary

AI for science is concerned with the exploration of machine learning for scientific computing in domains traditionally dominated by physics models (first principles) like earth science, climate science, biological science, etc. It is particularly promising in problems involving processes that are not completely understood, or computationally too complex to solve by running the physics inspired model. The global objective for the internship is the development of new models integrating physics prior knowledge and deep learning (DL) for spatio-temporal dynamics characterizing physical phenomena such as those underlying  climate observations. The classical modeling tools for such dynamics in physics rely on partial differential equations (PDE). We will then consider situations where the physical prior background is provided by PDEs. Two main directions will be explored: : (i) Interfacing Deep neural Networks  and PDEs and (ii) Domain generalization for deep learning as dynamical model. The application will target the modeling of the dynamics of ocean circulation.