Sorbonne Université

Contexte

Le projet EcoLe (« “S’ECOuter LirE ») vise à l’établissement d’une nouvelle grammaire historique : celle, pionnière, des diverses pratiques de lecture (oralisée, silencieuse et déclamée) qui, en France, ont coexisté et connu une intense période de covariation entre le début du Moyen-Âge central (13 e s.) et la fin de l’Ancien régime (18 e s.). Il se propose d’étudier la manière dont les écrits de cette période ont pu encoder leur mode d’appropriation préférentiel (par l’œil ou par l’oreille). Dans ce contexte nous cherchons à reconstituer la structure et le mode d’organisation des documents de la période pour pouvoir les comparer.

Le poste

Nous recherchons un profil avec une formation  (master et/ou thèse) soit (I) en humanités numériques avec une forte composante technique, soit (II) en Traitement Automatique des Langues/Vision par Ordinateur avec une appétence pour les recherches en SHS et les documents anciens.

Les principales tâches visées concernent l’annotation de la mise en page et de la mise en texte (mise en forme matérielle notamment) des documents du corpus école. Nous cherchons des candidats/candidates répondant à une majorité des critères suivants :

– Compétences en apprentissage automatique (machine learning et deep learning), avec une capacité à appliquer ces techniques à des problématiques d’analyse textuelle.
– Appétence pour les questions de linguistique textuelle et d’humanités numériques.
– Capacité de concevoir et d’exploiter des API diverses.
– Connaissance approfondie des langages de programmation utilisés dans le projet (Python et, si possible, aussi PHP)
– Connaissances en interfaces homme-machine.
– La gestion de Back-office sur les outils/plateformes du projet serait un plus.

D’un point de vue applicatif, les besoins exprimés sont les suivants :

    • L’étiquetage morpho-syntaxique d’un corpus textuel longitudinal en français (13e-18e s.) avec ré-entraînement et adaptation de modèles existants.
    • L’étiquetage des connecteurs logiques et de la ponctuation noire et blanche ; l’identification des chaînes de co-référence.
    • L’extraction et la désambiguïsation d’entités nommées.
    • L’utilisation d’autres applications d’outils de NLP : extraction d’informations et de relations notamment

Modalités de Candidature et Calendrier

– Envoyer CV + notes de Master à : richard.walter@ens.fr, claire.badiou-monferran@sorbonne-nouvelle.fr, gabriella.parussa@sorbonne-universite.fr, gael.lejeune@sorbonne-universite.fr

– Date limite : mercredi 19 juin 2024

– Sélection des dossiers : vendredi 21 juin

– Auditions : fin juin début juillet

– Prise de poste septembre/octobre 2024 à Sorbonne Université (quartier St Michel)

Sorbonne Université

PhD position in Engineering and Computer Science, Sorbonne Université, Paris, Fr 

Foundation Models for Physics-Aware Deep Learning

Contact : Patrick Gallinari, patrick.gallinari@sorbonne-universite.fr

Location: Sorbonne Université, Pierre et Marie Curie Campus, 4 Place Jussieu, Paris, Fr. Machine Learning and Information Access team.

Candidate profile: Master degree in computer science or applied mathematics, Engineering school.  Background and experience in machine learning. Good technical skills in programming.

How to apply: please send a cv, motivation letter, grades obtained in master, recommendation letters when possible to patrick.gallinari@sorbonne-universite.fr

Start date: October/November 2024 for three years

Note: The research topic is open and depending on the candidate profile could be oriented more on the theory or on the application side

Keywords: deep learning, physics-aware deep learning, fluid dynamics, AI4Science

Full description: https://pages.isir.upmc.fr/gallinari/open-positions/

Abstract: Physics-aware deep learning aims at investigating the potential of AI methods to advance scientific research for the modeling of complex natural phenomena. This is a fast-growing research topic with the potential to boost scientific progress and to change the way we develop research in a whole range of scientific domains. An area where this idea raises high hopes is the modeling of complex dynamics characterizing natural phenomena occurring in domains as diverse as climate science, earth science, biology, fluid dynamics. Despite significant advances, this remains an emerging topic that raises several open problems in machine learning and application domains. Among all the exploratory research directions, the idea of developing foundation models for learning from multiple physics is emerging as one of the fundamental challenges in this field. This PhD proposal is aimed at exploring different aspects of this new challenging topic. Two main challenges will be investigated: learning from multiple physics and generalization with few shot learning.