Second semestre

Période : janvier à avril.
Modalités : 4 cours au choix (3 ECTS chacun).

Acquisition compressée, reconstruction et complétion de matrices

Responsable : Claire Boyer
Modalités :
30h CM
Objectif :
l’objectif de ce cours est double : illustrer le traitement de données en grande dimension lorsque des données sont manquantes (par le prisme de l’acquisition compressée et de la complétion de matrice), et acquérir les bases d’optimisation convexe. Ces deux thèmes, qui seront abordés de concert car intimement liés, ouvrent la voie à de nombreux autres domaines d’apprentissage statistique et problèmes rencontrés en science des données.
Prérequis :
notions fondamentales de probabilités, statistique inférentielle et algèbre linéaire, calcul scientifique en Python.
Contenu :

  • Introduction à l’acquisition compressée et à la complétion de matrice.
  • Outils d’analyse convexe.
  • Parcimonie, relaxation convexe et algorithmes primaux.
  • Conditions RIP pour l’acquisition compressée.
  • Dualité et algorithmes duaux.

Algorithmes stochastiques : de la finance aux données massives

Responsable : Gilles Pagès
Modalités :
21h CM
Objectif : ce cours présent les principes mathématiques d’analyse des algorithme de gradient ou de pseudo-gradient stochastiques en apprentissage supervisé ou non supervisé.
Prérequis : notions fondamentales de probabilités à temps fixe et à temps discrets (martingales, chaîne de Markov).
Contenu :

  • Introduction à l’optimisation, algorithme de Newton-Raphson, descente de gradient.
  • Simulation versus data : un changement de paradigme.
  • Genèse d’un algorithmes stochastique : pourquoi et comment. Descente de Gradient stochastique (SGD).
  • Théorèmes de convergence : lemme de Robbins-Siegmund et application à la convergence p.s.
  • Autres modes de convergence, vitesse : principe de moyennisation de Ruppert & Pòliak.
  • Application aux réseaux de neurones : rétro-propagation du gradient, approximation universelle.
  • Apprentissage non supervisé : des k-means à la quantification optimale.
  • Algorithme de Langevin Monte Carlo.
  • Accélération d’une descente de gradient : SAGA, etc.

Analyse statistique de graphes

Responsables : Catherine Matias
Modalités :
30h CM
Objectif :

l’analyse statistique des réseaux d’interaction (ou graphes) connaît de nos jours un fort développement dans des domaines très variés (internet, biologie, réseaux sociaux, etc.) avec des données de bien plus grande taille (quelques centaines, milliers, voire millions de nœuds). L’objectif du cours est d’apprendre à manipuler et modéliser des données de type réseaux ainsi que de se familiariser avec des méthodes de classification et inférence statistique sur des graphes. De nombreux TP sous R permettront de pratiquer l’analyse de graphes et de mettre en œuvre les méthodes statistiques.
Prérequis : notions fondamentales de probabilités et statistique, connaissance du logiciel R.
Contenu :

  • Statistiques descriptives élémentaires des réseaux et visualisation.
  • Détection de communautés et de la classification des nœuds.
  • Modèles de graphes aléatoires et des méthodes d’inférence statistique.

Apprentissage automatique pour données médicales

Responsable : Xavier Tannier
Modalités : 30h CM
Objectif : le but de ce cours est double : d’une part, découvrir les défis réels de la biologie fondamentale et de la médecine où l’apprentissage statistique est déjà utilisé avec succès ; d’autre part, acquérir les bases pour modéliser des données médicales complexes.
Prérequis : notions fondamentales de probabilités et statistique, algèbre linéaire, Python.
Contenu :

  • Médecine et apprentissage statistique.
  • Clustering des données médicales : analyse exploratoire.
  • Stratification efficace des individus (patients) pour le développement des méthodes de médecine personnalisée.
  • Modèles interprétables.
  • A la recherche de la causalité dans des données (drug effects, variables latentes).

Approximation et traitement de données en grande dimension

Responsable : Albert Cohen
Modalités :
30h CM
Objectif :
reconstruire une fonction inconnue à partir de données ponctuelles, exacte ou bruitées, est un problème mathématique rencontré dans une multitude de contextes applicatif. On peut citer l’interpolation ou l’apprentissage statistique à partir de données expérimentales, la mise au point de surfaces de réponses issues de codes numériques ou d’équations aux dérivées partielles. Ces tâches deviennent particulièrement délicates en grande dimension, les méthodes numériques classiques étant souvent mises en échec. Ce cours explorera les fondements mathématiques de ce problème aussi bien sous l’angle de la théorie de l’approximation, que de l’analyse numérique et des statistiques. Des développement récents permettant de traiter certains problèmes en grande dimension seront abordés.
Prérequis :
notions fondamentales d’analyse fonctionnelle, approximation variationnelle des fonctions.
Contenu :

  • Théorie de l’approximation lineaire et non-linéaire.
  • Epaisseurs et entropies de Kolmogorov.
  • Interpolation, régression et méthodes de moindres carrés.
  • Approximation parcimonieuse en grande dimension.
  • EDP paramétriques et bases réduites.

Inégalités de concentration

Responsables : Anna Ben-Hamou
Modalités :
24h CM
Objectif :
en probabilités comme en statistiques, on est souvent amené à étudier les déviations dune variable aléatoire par rapport à son espérance. Alors que le théorème central limite nous renseigne sur les fluctuations asymptotiques, les inégalités de concentration fournissent des résultats non-asymptotiques (à n fixé). Les inégalités exponentielles classiques, comme l’inégalité de Hoeffding, concernent les sommes de variables indépendantes. Dans ce cours, nous verrons que le phénomène de concentration de la mesure apparaît aussi pour des fonctions bien plus complexes que la somme : « une variable qui dépend (de façon lisse) de beaucoup de variables indépendantes (mais pas trop de chacune d’entre elles) est essentiellement constante » (Michel Talagrand).
La théorie de la concentration trouve des applications dans de nombreux domaines, et le cours sera illustré par beaucoup d’examples issus de la physique statistique, mais aussi d’autres contextes comme l’apprentissage statistique, les matrices et graphes aléatoires, le mélange de chaînes de Markov, la théorie de l’information.
Prérequis : notions de base en probabilités et statistique.
Contenu :

  • Inégalités de Poincaré et de Sobolev.
  • Méthode entropique.
  • Méthode de transport.
  • Isopérimétrie.
  • Méthode de Stein.

Inférence géométrique

Responsables : Eddie Aamari
Modalités :
30h CM
Objectif :
les données peuvent souvent être représentées par des nuages de points dans des espaces de grande dimension. En pratique, on constate que ces points ne sont pas distribués uniformément dans l’espace ambiant : ils se localisent à proximité de structures non-linéaires de plus petite dimension, comme des courbes ou des surfaces, qu’il est intéressant de comprendre. L’inférence géométrique, aussi appelée analyse topologique de données, est un domaine récent consistant en l’étude des aspects statistiques associés à la géométrie des données. Ce cours a pour but de donner une introduction à ce sujet en pleine expansion.
Prérequis : notions fondamentales de probabilités et statistique. Toutes les notions nécessaires de géométrie et de topologie seront introduites ou rappelées au fil du cours.
Contenu :

  • Introduction et motivations.
  • Estimation du support d’une densité.
  • Reconstruction de compact.
  • Distance à la mesure et inférence robuste.
  • Estimation de l’homologie d’une sous-variété.
  • Persistance topologique.
  • Graphes de Reeb et algorithme Mapper.
  • Page web du cours.

Méthodes de simulation pour les modèles génératifs

Responsable : Sylvain Le Corff
Modalités : 30h CM
Objectif : La simulation de variables aléatoires en grande dimension est un véritable défi pour de nombreux problèmes de machine learning récents et pour l’apprentissage de modèles génératifs profonds. Ce problème se rencontre par exemple dans un contexte bayésien lorsque la loi a posteriori n’est connue qu’à une constante de normalisation près, dans le cadre des auto encodeurs variationnels ou encore pour la métamodélisation de systèmes dynamiques complexes.
De nombreuses méthodes sont basées sur des approches de type “Importance Sampling” ou “Sequential Monte Carlo” dont nous rappelerons les éléments principaux. Pour surmonter les faiblesses inhérentes à ces méthodologies en grande dimension ou pour les modèles génératifs profonds (à base de réseaux récurrents, réseaux denses ou convolutifs), nous étudierons dans ce cours de récentes solutions en mettant l’accent sur les aspects méthodologiques. Le fonctionnement de ces méthodes sera illustré à l’aide de jeux de données publics pour des problématiques de “computer vision” et de prédictions de séries temporelles.
Prérequis : Notions fondamentales de probabilités et statistique ; notions concernant les méthodes de Monte Carlo et les chaînes de Markov.Notions concernant les méthodes de Monte Carlo.
Contenu :

  • Rappels sur les modèles de Markov cachés et leur inférence (score de Fisher, algorithme Expectation Maximization).
  • Méthodes de Monte Carlo séquentielles (filtrage et lissage)  pour les modèles à espace d’état.
  • Méthodes de Monte Carlo séquentielles variationnelles.
  • Flots normalisants et “neural importance sampling”.
  • Estimation variationnelle en ligne.

Modélisation et statistique bayésienne computationnelle

Responsable : Nicolas Bousquet
Modalités :
30h CM
Objectif : présenter d’une part les principales méthodologies de modélisation bayésienne appliquées à des problèmes d’aide à la décision en univers risqué sur des variables scalaires et fonctionnelles, et d’autre part des méthodes avancées de calcul inférentiel permettant l’enrichissement de l’information utile, en fonction de l’emploi et de la nature des modèles.
Prérequis : notions fondamentales de probabilités et statistique, introduction aux statistiques bayésiennes, méthodes de Monte-Carlo, calcul scientifique en R.
Contenu :

  • Formalisation et résolution de problèmes d’aide à la décision en univers risqué, représentation probabiliste des incertitudes (Cox-Jaynes, de Finetti).
  • Maximum d’entropie, familles exponentielles, modélisation par données virtuelles.
  • Règles d’invariance, de compatibilité et de cohérence pour les modèles bayésiens.
  • Algorithmes de Gibbs via OpenBUGS, MCMC adaptatives, introduction aux chaînes de Markov cachées, méthodes de filtrage et approches « likelihood-free » (ABC).
  • Modélisation bayésienne fonctionnelle, processus gaussiens, calibration par expériences numériques, critères d’enrichissement bayésiens.

Optimisation stochastique, apprentissage PAC-Bayésien et inférence variationnelle

Responsable : Antoine Godichon-Baggioni et Badr-Eddine Chérief-Abdellatif
Modalités :
30h CM
Objectif : présenter et analyser de méthodes stochastiques pour l’optimisation numérique ; donner un aperçu de la théorie PAC-Bayésienne, en partant de la théorie de l’apprentissage statistique (bornes de généralisation et inégalités oracles) et en couvrant les développements algorithmiques par inférence variationnelle, jusqu’aux analyses PAC-Bayésiennes récentes des propriétés de généralisation des réseaux de neurones profonds.
Prérequis : notions fondamentales de probabilités et statistique, notions d’optimisation convexe, logiciel R ou Python.
Contenu :

  • Théorèmes de convergence pour les Martingales.
  • Algorithmes de gradient stochastiques et applications.
  • Généralisation en apprentissage statistique.
  • Théorie PAC-Bayésienne.
  • Inférence variationnelle.
  • Bornes de généralisation en apprentissage profond.

Programmation parallèle à grande échelle sur GPU pour les grandes masses de données

Responsable : Lokman Abbas Turki
Modalités :
15h TP
Objectif : ce cours introduit la programmation CUDA et présente des éléments d’optimisation mémoire et algorithmique pour le calcul massivement parallèle sur cartes graphiques.
Prérequis : notions fondamentales de probabilités et programmation C.
Contenu :

  • Le streaming multiprocessor et son interprétation en termes de blocks et de threads.
  • L’utilisation de la mémoire globale, shared, registres et constante pour une simulation Monte Carlo.
  • Locked, mapped memory & concurrency.
  • Batch computing et applications : tri fusion, algèbre linéaire, EDP.
  • Utilisation GPU pour un problème de deep learning.

Réseaux de neurones et approximation numérique adaptative

Responsable : Bruno Després
Modalités :
30h CM
Objectif : ce cours présente comment utiliser les réseaux de neurones pour l’approximation numérique adaptative.
Prérequis : quelques notions d’analyse et un intérêt pour la programmation.
Contenu :

  • Fonctions représentables par des réseaux de neurones.
  • Preuves élémentaires du théorème de Cybenko. La fonction de Takagi.
  • Construction de datasets et malédiction de la dimension.
  • Interprétation des algorithmes de gradients stochastiques sous la forme d’équations différentielles ordinaires.
  • Applications à des problèmes issus du calcul scientifique pour la CFD en lien avec la classification d’images.
  • Illustration avec quelques logiciels.

Sujets modernes d’apprentissage automatique

Responsable : Eddie Aamari, Claire Boyer, Ismaël Castillo, Étienne Roquain,
Modalités :
30h CM
Objectif : ce cours tentera de faire un tour d’horizon des dernières tendances mathématiques dans la communauté du machine learning et de l’apprentissage statistique.
Prérequis : notions fondamentales de probabilités et statistique.
Contenu :

  • Théorie de l’approximation pour les réseaux de neurones
  • Dimension VC pour les réseaux de neurones
  • Bornes minimax pour la régression avec réseaux de neurones
  • GANs
  • Biais implicite des descentes de gradient
  • Interpolation & overfitting bénin
  • Confidentialité