Second semestre – M2 Apprentissage et Algorithmes (M2A)

Période : janvier à avril.
Modalités : 4 cours au choix (3 ECTS chacun).

Apprentissage automatique pour données médicales

Responsable : Xavier Tannier
Modalités : 30h CM
Objectif : le but de ce cours est double : d’une part, découvrir les défis réels de la biologie fondamentale et de la médecine où l’apprentissage statistique est déjà utilisé avec succès ; d’autre part, acquérir les bases pour modéliser des données médicales complexes.
Prérequis : notions fondamentales de probabilités et statistique, algèbre linéaire, Python.
Contenu :

Médecine et apprentissage statistique.
Clustering des données médicales : analyse exploratoire.
Stratification efficace des individus (patients) pour le développement des méthodes de médecine personnalisée.
Modèles interprétables.
A la recherche de la causalité dans des données (drug effects, variables latentes).

Analyse statistique de graphes

Responsables : Catherine Matias
Modalités : 30h CM
Objectif :

l’analyse statistique des réseaux d’interaction (ou graphes) connaît de nos jours un fort développement dans des domaines très variés (internet, biologie, réseaux sociaux, etc.) avec des données de bien plus grande taille (quelques centaines, milliers, voire millions de nœuds). L’objectif du cours est d’apprendre à manipuler et modéliser des données de type réseaux ainsi que de se familiariser avec des méthodes de classification et inférence statistique sur des graphes. De nombreux TP sous R permettront de pratiquer l’analyse de graphes et de mettre en œuvre les méthodes statistiques.
Prérequis : notions fondamentales de probabilités et statistique, connaissance du logiciel R.
Contenu :

Statistiques descriptives élémentaires des réseaux et visualisation.
Détection de communautés et de la classification des nœuds.
Modèles de graphes aléatoires et des méthodes d’inférence statistique.

Apprentissage statistique moderne

Responsable : Ismaël Castillo, Étienne Roquain, Simon Coste
Modalités : 30h CM
Objectif : ce cours tentera de faire un tour d’horizon des dernières tendances mathématiques dans la communauté du machine learning et de l’apprentissage statistique.
Prérequis : notions fondamentales de probabilités et statistique.
Contenu :

Théorie de l’approximation pour les réseaux de neurones
Dimension VC pour les réseaux de neurones
Bornes minimax pour la régression avec réseaux de neurones
GANs
Biais implicite des descentes de gradient
Interpolation & overfitting bénin
Confidentialité

Confidentialité et équité algorithmique

Responsables : Christophe Denis et Rafael Pinot
Modalités : 30h CM
Objectif : l’objectif de ce cours est de sensibiliser les étudiant⋅e⋅s aux enjeux de confiance liés à l’utilisation des algorithmes d’apprentissage automatique. Les défis liés à la confiance dans l’apprentissage automatique sont nombreux et concernent aussi bien le milieu de la recherche que le monde de l’entreprise (notamment en raison de la nouvelle réglementation européenne entrée en vigueur en 2018). Le cours est divisé en deux parties, chacune abordant une thématique liée à l’apprentissage automatique de confiance. La première partie se concentre sur les questions relatives à la protection des données personnelles. La seconde partie fournit des outils de compréhension des problématiques de biais et d’équité algorithmique.
Prérequis : notions fondamentales de probabilités et statistique. Notions élémentaires d’apprentissage statistique et d’optimisation.
Contenu :

Confidentialité dans analyse statistique des bases de données (k-anonymat, confidentialité différentielle, etc).
Apprentissage supervisé sous contrainte de confidentialité différentielle.
Équité algorithmique en apprentissage statistique (parité statistique, parité statistique conditionnelle, etc).
Méthodes in-processing et post-processing pour l’équité algorithmique.

Inégalités de concentration

Responsables : Anna Ben-Hamou
Modalités : 24h CM
Objectif : en probabilités comme en statistiques, on est souvent amené à étudier les déviations dune variable aléatoire par rapport à son espérance. Alors que le théorème central limite nous renseigne sur les fluctuations asymptotiques, les inégalités de concentration fournissent des résultats non-asymptotiques (à n fixé). Les inégalités exponentielles classiques, comme l’inégalité de Hoeffding, concernent les sommes de variables indépendantes. Dans ce cours, nous verrons que le phénomène de concentration de la mesure apparaît aussi pour des fonctions bien plus complexes que la somme : « une variable qui dépend (de façon lisse) de beaucoup de variables indépendantes (mais pas trop de chacune d’entre elles) est essentiellement constante » (Michel Talagrand).
La théorie de la concentration trouve des applications dans de nombreux domaines, et le cours sera illustré par beaucoup d’examples issus de la physique statistique, mais aussi d’autres contextes comme l’apprentissage statistique, les matrices et graphes aléatoires, le mélange de chaînes de Markov, la théorie de l’information.
Prérequis : notions de base en probabilités et statistique.
Contenu :

Inégalités de Poincaré et de Sobolev.
Méthode entropique.
Méthode de transport.
Isopérimétrie.
Méthode de Stein.

Méthodes de simulation pour les modèles génératifs

Responsable : Sylvain Le Corff
Modalités : 30h CM
Objectif : La simulation de variables aléatoires en grande dimension est un véritable défi pour de nombreux problèmes de machine learning récents et pour l’apprentissage de modèles génératifs profonds. Ce problème se rencontre par exemple dans un contexte bayésien lorsque la loi a posteriori n’est connue qu’à une constante de normalisation près, dans le cadre des auto encodeurs variationnels ou encore pour la métamodélisation de systèmes dynamiques complexes.
De nombreuses méthodes sont basées sur des approches de type “Importance Sampling” ou “Sequential Monte Carlo” dont nous rappelerons les éléments principaux. Pour surmonter les faiblesses inhérentes à ces méthodologies en grande dimension ou pour les modèles génératifs profonds (à base de réseaux récurrents, réseaux denses ou convolutifs), nous étudierons dans ce cours de récentes solutions en mettant l’accent sur les aspects méthodologiques. Le fonctionnement de ces méthodes sera illustré à l’aide de jeux de données publics pour des problématiques de “computer vision” et de prédictions de séries temporelles.
Prérequis : Notions fondamentales de probabilités et statistique ; notions concernant les méthodes de Monte Carlo et les chaînes de Markov. Notions concernant les méthodes de Monte Carlo.
Contenu :

Rappels sur les modèles de Markov cachés et leur inférence (score de Fisher, algorithme Expectation Maximization).
Méthodes de Monte Carlo séquentielles (filtrage et lissage) pour les modèles à espace d’état.
Méthodes de Monte Carlo séquentielles variationnelles.
Flots normalisants et “neural importance sampling”.
Estimation variationnelle en ligne.

Modèles statistiques pour l’écologie

Responsable : Stéphane Robin
Modalités : 30h CM
Objectif : l’écologie s’intéresse aux relations que les espèces vivantes entre- tiennent entre elles et avec leur milieu. L’analyse et la compréhension de ces interac- tions passe fréquemment par une modélisation statistique impliquant des variables latentes (c’est-à-dire non observées) visant à décrire les structures et les processus qui sous-tendent ces interactions. L’objectif de ce cours est de présenter certains de ces modèles comme les modèles de distributions (jointes) d’espèces ou les modèles de réseaux écologiques. Les mo- dèles les plus simples sont des modèles linéaires généralisés, éventuellement mixtes. Les modèles plus complexes posent des problèmes d’inférence spécifiques qui peuvent être surmontées grâce à des généralisations de l’algorithme EM. Un des objectifs principaux de ce cours est la bonne compréhension de tels modèles et la définition d’un algorithme permettant d’en inférer les paramètres. Nous utiliserons également la représentation de ces modèles selon le formalisme des modèles graphiques qui permettent de comprendre la structure de dépendance entre les différentes variables (observés ou latentes) et de d’anticiper la complexité de l’algorithme d’inférence. Cette représentation est par ailleurs pertinente pour traiter le problème de l’inférence de réseaux écologiques, dans lequel il s’agit notamment de distinguer entre interactions directes ou indirectes entre les espèces. Certains des modèles présentés seront mis en oeuvre lors de séances de travaux dirigés sur machine. Ce cours vise notamment à apprendre à définir un modèle pertinent pour répondre à une question écologique, concevoir un algorithme permettant d’en estimer les paramètres et implémenter cet algorithme.
Prérequis : notions fondamentales de probabilités et statistique, connaissance de R.
Contenu :

Modèles à variables latentes.
Modèles graphiques.
Modèles de distribution d’espèces.
Modèles de réseaux écologiques.

Modélisation et statistique bayésienne computationnelle

Responsable : Nicolas Bousquet
Modalités : 30h CM
Objectif : présenter d’une part les principales méthodologies de modélisation bayésienne appliquées à des problèmes d’aide à la décision en univers risqué sur des variables scalaires et fonctionnelles, et d’autre part des méthodes avancées de calcul inférentiel permettant l’enrichissement de l’information utile, en fonction de l’emploi et de la nature des modèles.
Prérequis : notions fondamentales de probabilités et statistique, introduction aux statistiques bayésiennes, méthodes de Monte-Carlo, calcul scientifique en R.
Contenu :

Formalisation et résolution de problèmes d’aide à la décision en univers risqué, représentation probabiliste des incertitudes (Cox-Jaynes, de Finetti).
Maximum d’entropie, familles exponentielles, modélisation par données virtuelles.
Règles d’invariance, de compatibilité et de cohérence pour les modèles bayésiens.
Algorithmes de Gibbs via OpenBUGS, MCMC adaptatives, introduction aux chaînes de Markov cachées, méthodes de filtrage et approches « likelihood-free » (ABC).
Modélisation bayésienne fonctionnelle, processus gaussiens, calibration par expériences numériques, critères d’enrichissement bayésiens.

Optimisation stochastique, apprentissage PAC-Bayésien et inférence variationnelle

Responsable : Antoine Godichon-Baggioni et Badr-Eddine Chérief-Abdellatif
Modalités : 30h CM
Objectif : présenter et analyser de méthodes stochastiques pour l’optimisation numérique ; donner un aperçu de la théorie PAC-Bayésienne, en partant de la théorie de l’apprentissage statistique (bornes de généralisation et inégalités oracles) et en couvrant les développements algorithmiques par inférence variationnelle, jusqu’aux analyses PAC-Bayésiennes récentes des propriétés de généralisation des réseaux de neurones profonds.
Prérequis : notions fondamentales de probabilités et statistique, notions d’optimisation convexe, logiciel R ou Python.
Contenu :

Théorèmes de convergence pour les Martingales.
Algorithmes de gradient stochastiques et applications.
Généralisation en apprentissage statistique.
Théorie PAC-Bayésienne.
Inférence variationnelle.
Bornes de généralisation en apprentissage profond.

Optimisation stochastique pour le Machine Learning en finance

Responsable : Gilles Pagès
Modalités : 21h CM
Objectif : ce cours présent les principes mathématiques d’analyse des algorithme de gradient ou de pseudo-gradient stochastiques en apprentissage supervisé ou non supervisé.
Prérequis : notions fondamentales de probabilités à temps fixe et à temps discrets (martingales, chaîne de Markov).
Contenu :

Introduction à l’optimisation, algorithme de Newton-Raphson, descente de gradient.
Simulation versus data : un changement de paradigme.
Genèse d’un algorithmes stochastique : pourquoi et comment. Descente de Gradient stochastique (SGD).
Théorèmes de convergence : lemme de Robbins-Siegmund et application à la convergence p.s.
Autres modes de convergence, vitesse : principe de moyennisation de Ruppert & Pòliak.
Application aux réseaux de neurones : rétro-propagation du gradient, approximation universelle.
Apprentissage non supervisé : des k-means à la quantification optimale.
Algorithme de Langevin Monte Carlo.
Accélération d’une descente de gradient : SAGA, etc.

Programmation parallèle à grande échelle sur GPU pour les grandes masses de données

Responsable : Lokman Abbas Turki
Modalités : 15h TP
Objectif : ce cours introduit la programmation CUDA et présente des éléments d’optimisation mémoire et algorithmique pour le calcul massivement parallèle sur cartes graphiques.
Prérequis : notions fondamentales de probabilités et programmation C.
Contenu :

Le streaming multiprocessor et son interprétation en termes de blocks et de threads.
L’utilisation de la mémoire globale, shared, registres et constante pour une simulation Monte Carlo.
Locked, mapped memory & concurrency.
Batch computing et applications : tri fusion, algèbre linéaire, EDP.
Utilisation GPU pour un problème de deep learning.

Réseaux de neurones et approximation numérique adaptative

Responsable : Bruno Després
Modalités : 30h CM
Objectif : ce cours présente comment utiliser les réseaux de neurones pour l’approximation numérique adaptative.
Prérequis : quelques notions d’analyse et un intérêt pour la programmation.
Contenu :

Fonctions représentables par des réseaux de neurones.
Preuves élémentaires du théorème de Cybenko. La fonction de Takagi.
Construction de datasets et malédiction de la dimension.
Interprétation des algorithmes de gradients stochastiques sous la forme d’équations différentielles ordinaires.
Applications à des problèmes issus du calcul scientifique pour la CFD en lien avec la classification d’images.
Illustration avec quelques logiciels.