Second semestre – M2 Apprentissage et Algorithmes (M2A)

Période : janvier à avril.
Modalités : 4 cours au choix (3 ECTS chacun).

Algorithmes stochastiques : de la finance aux données massives

Responsable : Gilles Pagès
Modalités : 21h CM
Objectif : ce cours présent les principes mathématiques d’analyse des algorithme de gradient ou de pseudo-gradient stochastiques en apprentissage supervisé ou non supervisé.
Prérequis : notions fondamentales de probabilités à temps fixe et à temps discrets (martingales, chaîne de Markov).
Contenu :

Introduction à l’optimisation, algorithme de Newton-Raphson, descente de gradient.
Simulation versus data : un changement de paradigme.
Genèse d’un algorithmes stochastique : pourquoi et comment. Descente de Gradient stochastique (SGD).
Théorèmes de convergence : lemme de Robbins-Siegmund et application à la convergence p.s.
Autres modes de convergence, vitesse : principe de moyennisation de Ruppert & Pòliak.
Application aux réseaux de neurones : rétro-propagation du gradient, approximation universelle.
Apprentissage non supervisé : des k-means à la quantification optimale.
Algorithme de Langevin Monte Carlo.
Accélération d’une descente de gradient : SAGA, etc.

Analyse statistique de graphes

Responsables : Catherine Matias
Modalités : 30h CM
Objectif :

l’analyse statistique des réseaux d’interaction (ou graphes) connaît de nos jours un fort développement dans des domaines très variés (internet, biologie, réseaux sociaux, etc.) avec des données de bien plus grande taille (quelques centaines, milliers, voire millions de nœuds). L’objectif du cours est d’apprendre à manipuler et modéliser des données de type réseaux ainsi que de se familiariser avec des méthodes de classification et inférence statistique sur des graphes. De nombreux TP sous R permettront de pratiquer l’analyse de graphes et de mettre en œuvre les méthodes statistiques.
Prérequis : notions fondamentales de probabilités et statistique, connaissance du logiciel R.
Contenu :

Statistiques descriptives élémentaires des réseaux et visualisation.
Détection de communautés et de la classification des nœuds.
Modèles de graphes aléatoires et des méthodes d’inférence statistique.

Apprentissage automatique pour données médicales

Responsable : Xavier Tannier
Modalités : 30h CM
Objectif : le but de ce cours est double : d’une part, découvrir les défis réels de la biologie fondamentale et de la médecine où l’apprentissage statistique est déjà utilisé avec succès ; d’autre part, acquérir les bases pour modéliser des données médicales complexes.
Prérequis : notions fondamentales de probabilités et statistique, algèbre linéaire, Python.
Contenu :

Médecine et apprentissage statistique.
Clustering des données médicales : analyse exploratoire.
Stratification efficace des individus (patients) pour le développement des méthodes de médecine personnalisée.
Modèles interprétables.
A la recherche de la causalité dans des données (drug effects, variables latentes).

Confidentialité et équité algorithmique

Responsables : Christophe Denis et Rafael Pinot
Modalités : 30h CM
Objectif : l’objectif de ce cours est de sensibiliser les étudiant⋅e⋅s aux enjeux de confiance liés à l’utilisation des algorithmes d’apprentissage automatique. Les défis liés à la confiance dans l’apprentissage automatique sont nombreux et concernent aussi bien le milieu de la recherche que le monde de l’entreprise (notamment en raison de la nouvelle réglementation européenne entrée en vigueur en 2018). Le cours est divisé en deux parties, chacune abordant une thématique liée à l’apprentissage automatique de confiance. La première partie se concentre sur les questions relatives à la protection des données personnelles. La seconde partie fournit des outils de compréhension des problématiques de biais et d’équité algorithmique.
Prérequis : notions fondamentales de probabilités et statistique. Notions élémentaires d’apprentissage statistique et d’optimisation.
Contenu :

Confidentialité dans analyse statistique des bases de données (k-anonymat, confidentialité différentielle, etc).
Apprentissage supervisé sous contrainte de confidentialité différentielle.
Équité algorithmique en apprentissage statistique (parité statistique, parité statistique conditionnelle, etc).
Méthodes in-processing et post-processing pour l’équité algorithmique.

Inégalités de concentration

Responsables : Anna Ben-Hamou
Modalités : 24h CM
Objectif : en probabilités comme en statistiques, on est souvent amené à étudier les déviations dune variable aléatoire par rapport à son espérance. Alors que le théorème central limite nous renseigne sur les fluctuations asymptotiques, les inégalités de concentration fournissent des résultats non-asymptotiques (à n fixé). Les inégalités exponentielles classiques, comme l’inégalité de Hoeffding, concernent les sommes de variables indépendantes. Dans ce cours, nous verrons que le phénomène de concentration de la mesure apparaît aussi pour des fonctions bien plus complexes que la somme : « une variable qui dépend (de façon lisse) de beaucoup de variables indépendantes (mais pas trop de chacune d’entre elles) est essentiellement constante » (Michel Talagrand).
La théorie de la concentration trouve des applications dans de nombreux domaines, et le cours sera illustré par beaucoup d’examples issus de la physique statistique, mais aussi d’autres contextes comme l’apprentissage statistique, les matrices et graphes aléatoires, le mélange de chaînes de Markov, la théorie de l’information.
Prérequis : notions de base en probabilités et statistique.
Contenu :

Inégalités de Poincaré et de Sobolev.
Méthode entropique.
Méthode de transport.
Isopérimétrie.
Méthode de Stein.

Méthodes de simulation pour les modèles génératifs

Responsable : Sylvain Le Corff
Modalités : 30h CM
Objectif : La simulation de variables aléatoires en grande dimension est un véritable défi pour de nombreux problèmes de machine learning récents et pour l’apprentissage de modèles génératifs profonds. Ce problème se rencontre par exemple dans un contexte bayésien lorsque la loi a posteriori n’est connue qu’à une constante de normalisation près, dans le cadre des auto encodeurs variationnels ou encore pour la métamodélisation de systèmes dynamiques complexes.
De nombreuses méthodes sont basées sur des approches de type “Importance Sampling” ou “Sequential Monte Carlo” dont nous rappelerons les éléments principaux. Pour surmonter les faiblesses inhérentes à ces méthodologies en grande dimension ou pour les modèles génératifs profonds (à base de réseaux récurrents, réseaux denses ou convolutifs), nous étudierons dans ce cours de récentes solutions en mettant l’accent sur les aspects méthodologiques. Le fonctionnement de ces méthodes sera illustré à l’aide de jeux de données publics pour des problématiques de “computer vision” et de prédictions de séries temporelles.
Prérequis : Notions fondamentales de probabilités et statistique ; notions concernant les méthodes de Monte Carlo et les chaînes de Markov. Notions concernant les méthodes de Monte Carlo.
Contenu :

Rappels sur les modèles de Markov cachés et leur inférence (score de Fisher, algorithme Expectation Maximization).
Méthodes de Monte Carlo séquentielles (filtrage et lissage) pour les modèles à espace d’état.
Méthodes de Monte Carlo séquentielles variationnelles.
Flots normalisants et “neural importance sampling”.
Estimation variationnelle en ligne.

Modélisation et statistique bayésienne computationnelle

Responsable : Nicolas Bousquet
Modalités : 30h CM
Objectif : présenter d’une part les principales méthodologies de modélisation bayésienne appliquées à des problèmes d’aide à la décision en univers risqué sur des variables scalaires et fonctionnelles, et d’autre part des méthodes avancées de calcul inférentiel permettant l’enrichissement de l’information utile, en fonction de l’emploi et de la nature des modèles.
Prérequis : notions fondamentales de probabilités et statistique, introduction aux statistiques bayésiennes, méthodes de Monte-Carlo, calcul scientifique en R.
Contenu :

Formalisation et résolution de problèmes d’aide à la décision en univers risqué, représentation probabiliste des incertitudes (Cox-Jaynes, de Finetti).
Maximum d’entropie, familles exponentielles, modélisation par données virtuelles.
Règles d’invariance, de compatibilité et de cohérence pour les modèles bayésiens.
Algorithmes de Gibbs via OpenBUGS, MCMC adaptatives, introduction aux chaînes de Markov cachées, méthodes de filtrage et approches « likelihood-free » (ABC).
Modélisation bayésienne fonctionnelle, processus gaussiens, calibration par expériences numériques, critères d’enrichissement bayésiens.

Optimisation stochastique, apprentissage PAC-Bayésien et inférence variationnelle

Responsable : Antoine Godichon-Baggioni et Badr-Eddine Chérief-Abdellatif
Modalités : 30h CM
Objectif : présenter et analyser de méthodes stochastiques pour l’optimisation numérique ; donner un aperçu de la théorie PAC-Bayésienne, en partant de la théorie de l’apprentissage statistique (bornes de généralisation et inégalités oracles) et en couvrant les développements algorithmiques par inférence variationnelle, jusqu’aux analyses PAC-Bayésiennes récentes des propriétés de généralisation des réseaux de neurones profonds.
Prérequis : notions fondamentales de probabilités et statistique, notions d’optimisation convexe, logiciel R ou Python.
Contenu :

Théorèmes de convergence pour les Martingales.
Algorithmes de gradient stochastiques et applications.
Généralisation en apprentissage statistique.
Théorie PAC-Bayésienne.
Inférence variationnelle.
Bornes de généralisation en apprentissage profond.

Programmation parallèle à grande échelle sur GPU pour les grandes masses de données

Responsable : Lokman Abbas Turki
Modalités : 15h TP
Objectif : ce cours introduit la programmation CUDA et présente des éléments d’optimisation mémoire et algorithmique pour le calcul massivement parallèle sur cartes graphiques.
Prérequis : notions fondamentales de probabilités et programmation C.
Contenu :

Le streaming multiprocessor et son interprétation en termes de blocks et de threads.
L’utilisation de la mémoire globale, shared, registres et constante pour une simulation Monte Carlo.
Locked, mapped memory & concurrency.
Batch computing et applications : tri fusion, algèbre linéaire, EDP.
Utilisation GPU pour un problème de deep learning.

Réseaux de neurones et approximation numérique adaptative

Responsable : Bruno Després
Modalités : 30h CM
Objectif : ce cours présente comment utiliser les réseaux de neurones pour l’approximation numérique adaptative.
Prérequis : quelques notions d’analyse et un intérêt pour la programmation.
Contenu :

Fonctions représentables par des réseaux de neurones.
Preuves élémentaires du théorème de Cybenko. La fonction de Takagi.
Construction de datasets et malédiction de la dimension.
Interprétation des algorithmes de gradients stochastiques sous la forme d’équations différentielles ordinaires.
Applications à des problèmes issus du calcul scientifique pour la CFD en lien avec la classification d’images.
Illustration avec quelques logiciels.

Apprentissage statistique moderne

Responsable : Ismaël Castillo, Étienne Roquain, Simon Coste
Modalités : 30h CM
Objectif : ce cours tentera de faire un tour d’horizon des dernières tendances mathématiques dans la communauté du machine learning et de l’apprentissage statistique.
Prérequis : notions fondamentales de probabilités et statistique.
Contenu :

Théorie de l’approximation pour les réseaux de neurones
Dimension VC pour les réseaux de neurones
Bornes minimax pour la régression avec réseaux de neurones
GANs
Biais implicite des descentes de gradient
Interpolation & overfitting bénin
Confidentialité