Second semestre

Période : janvier à avril.
Modalités : 4 cours au choix (3 ECTS chacun).

Acquisition compressé, reconstruction et complétion de matrices

Responsable : Claire Boyer
Modalités :
30h CM
Objectif :
l’objectif de ce cours est double : illustrer le traitement de données en grande dimension lorsque des données sont manquantes (par le prisme de l’acquisition compressée et de la complétion de matrice), et acquérir les bases d’optimisation convexe. Ces deux thèmes, qui seront abordés de concert car intimement liés, ouvrent la voie à de nombreux autres domaines d’apprentissage statistique et problèmes rencontrés en science des données.
Prérequis :
notions fondamentales de probabilités, statistique inférentielle et algèbre linéaire, calcul scientifique en Python.
Contenu :

  • Introduction à l’acquisition compressée et à la complétion de matrice.
  • Outils d’analyse convexe.
  • Parcimonie, relaxation convexe et algorithmes primaux.
  • Conditions RIP pour l’acquisition compressée.
  • Dualité et algorithmes duaux.

Algorithmes stochastiques : de la finance aux données massives

Responsable : Gilles Pagès
Modalités :
21h CM
Objectif : ce cours présent les principes mathématiques d’analyse des algorithme de gradient ou de pseudo-gradient stochastiques en apprentissage supervisé ou non supervisé.
Prérequis : notions fondamentales de probabilités à temps fixe et à temps discrets (martingales, chaîne de Markov).
Contenu :

  • Introduction à l’optimisation, algorithme de Newton-Raphson, descente de gradient.
  • Simulation versus data : un changement de paradigme.
  • Genèse d’un algorithmes stochastique : pourquoi et comment. Descente de Gradient stochastique (SGD).
  • Théorèmes de convergence : lemme de Robbins-Siegmund et application à la convergence p.s.
  • Autres modes de convergence, vitesse : principe de moyennisation de Ruppert & Pòliak.
  • Application aux réseaux de neurones : rétro-propagation du gradient, approximation universelle.
  • Apprentissage non supervisé : des k-means à la quantification optimale.
  • Algorithme de Langevin Monte Carlo.
  • Accélération d’une descente de gradient : SAGA, etc.

Apprentissage automatique pour données médicales

Responsable : N. Sokolovska
Modalités : 30h CM
Objectif : le but de ce cours est double : d’une part, découvrir les défis réels de la biologie fondamentale et de la médecine où l’apprentissage statistique est déjà utilisé avec succès ; d’autre part, acquérir les bases pour modéliser des données médicales complexes.
Prérequis : notions fondamentales de probabilités et statistique, algèbre linéaire, Python.
Contenu :

  • Médecine et apprentissage statistique.
  • Clustering des données médicales : analyse exploratoire.
  • Stratification efficace des individus (patients) pour le développement des méthodes de médecine personnalisée.
  • Modèles interprétables.
  • A la recherche de la causalité dans des données (drug effects, variables latentes).

Approximation et traitement de données en grande dimension

Responsable : Albert Cohen
Modalités :
30h CM
Objectif :
reconstruire une fonction inconnue à partir de données ponctuelles, exacte ou bruitées, est un problème mathématique rencontré dans une multitude de contextes applicatif. On peut citer l’interpolation ou l’apprentissage statistique à partir de données expérimentales, la mise au point de surfaces de réponses issues de codes numériques ou d’équations aux dérivées partielles. Ces tâches deviennent particulièrement délicates en grande dimension, les méthodes numériques classiques étant souvent mises en échec. Ce cours explorera les fondements mathématiques de ce problème aussi bien sous l’angle de la théorie de l’approximation, que de l’analyse numérique et des statistiques. Des développement récents permettant de traiter certains problèmes en grande dimension seront abordés.
Prérequis :
notions fondamentales d’analyse fonctionnelle.
Contenu :

  • Théorie de l’approximation lineaire et non-linéaire.
  • Epaisseurs et entropies de Kolmogorov.
  • Interpolation, régression et méthodes de moindres carrés.
  • Approximation parcimonieuse en grande dimension.
  • EDP paramétriques et bases réduites.

Inégalités de concentration

Responsables : A. Ben-Hamou
Modalités :
24h CM
Objectif :
en probabilités comme en statistiques, on est souvent amené à étudier les déviations dune variable aléatoire par rapport à son espérance. Alors que le théorème central limite nous renseigne sur les fluctuations asymptotiques, les inégalités de concentration fournissent des résultats non-asymptotiques (à n fixé). Les inégalités exponentielles classiques, comme l’inégalité de Hoeffding, concernent les sommes de variables indépendantes. Dans ce cours, nous verrons que le phénomène de concentration de la mesure apparaît aussi pour des fonctions bien plus complexes que la somme : « une variable qui dépend (de façon lisse) de beaucoup de variables indépendantes (mais pas trop de chacune d’entre elles) est essentiellement constante » (Michel Talagrand).
La théorie de la concentration trouve des applications dans de nombreux domaines, et le cours sera illustré par beaucoup d’examples issus de la physique statistique, mais aussi d’autres contextes comme l’apprentissage statistique, les matrices et graphes aléatoires, le mélange de chaînes de Markov, la théorie de l’information.
Prérequis : notions de base en probabilités et statistique.
Contenu :

  • Inégalités de Poincaré et de Sobolev.
  • Méthode entropique.
  • Méthode de transport.
  • Isopérimétrie.
  • Méthode de Stein.

Inférence géométrique

Responsables : E. Aamari
Modalités :
30h CM
Objectif :
les données peuvent souvent être représentées par des nuages de points dans des espaces de grande dimension. En pratique, on constate que ces points ne sont pas distribués uniformément dans l’espace ambiant : ils se localisent à proximité de structures non-linéaires de plus petite dimension, comme des courbes ou des surfaces, qu’il est intéressant de comprendre. L’inférence géométrique, aussi appelée analyse topologique de données, est un domaine récent consistant en l’étude des aspects statistiques associés à la géométrie des données. Ce cours a pour but de donner une introduction à ce sujet en pleine expansion.
Prérequis : notions fondamentales de probabilités et statistique. Toutes les notions nécessaires de géométrie et de topologie seront introduites ou rappelées au fil du cours.
Contenu :

  • Introduction et motivations.
  • Estimation du support d’une densité.
  • Reconstruction de compact.
  • Distance à la mesure et inférence robuste.
  • Estimation de l’homologie d’une sous-variété.
  • Persistance topologique.
  • Graphes de Reeb et algorithme Mapper.
  • Page web du cours.

Analyse statistique de graphes

Responsables : T. Rebafka
Modalités :
30h CM
Objectif :

l’analyse statistique des réseaux d’interaction (ou graphes) connaît de nos jours un fort développement dans des domaines très variés (internet, biologie, réseaux sociaux, etc.) avec des données de bien plus grande taille (quelques centaines, milliers, voire millions de nœuds). L’objectif du cours est d’apprendre à manipuler et modéliser des données de type réseaux ainsi que de se familiariser avec des méthodes de classification et inférence statistique sur des graphes. De nombreux TP sous R permettront de pratiquer l’analyse de graphes et de mettre en œuvre les méthodes statistiques.
Prérequis : notions fondamentales de probabilités et statistique, connaissance du logiciel R.
Contenu :

  • Statistiques descriptives élémentaires des réseaux et visualisation.
  • Détection de communautés et de la classification des nœuds.
  • Modèles de graphes aléatoires et des méthodes d’inférence statistique.

Modélisation et statistique bayésienne computationnelle

Responsable : N. Bousquet
Modalités :
30h CM
Objectif : présenter d’une part les principales méthodologies de modélisation bayésienne appliquées à des problèmes d’aide à la décision en univers risqué sur des variables scalaires et fonctionnelles, et d’autre part des méthodes avancées de calcul inférentiel permettant l’enrichissement de l’information utile, en fonction de l’emploi et de la nature des modèles.
Prérequis : notions fondamentales de probabilités et statistique, introduction aux statistiques bayésiennes, méthodes de Monte-Carlo, calcul scientifique en R.
Contenu :

  • Formalisation et résolution de problèmes d’aide à la décision en univers risqué, représentation probabiliste des incertitudes (Cox-Jaynes, de Finetti).
  • Maximum d’entropie, familles exponentielles, modélisation par données virtuelles.
  • Règles d’invariance, de compatibilité et de cohérence pour les modèles bayésiens.
  • Algorithmes de Gibbs via OpenBUGS, MCMC adaptatives, introduction aux chaînes de Markov cachées, méthodes de filtrage et approches « likelihood-free » (ABC).
  • Modélisation bayésienne fonctionnelle, processus gaussiens, calibration par expériences numériques, critères d’enrichissement bayésiens.

Optimisation stochastique

Responsable : A. Godichon-Baggioni et A. Guyader
Modalités :
30h CM
Objectif : présenter et analyser de méthodes stochastiques pour l’optimisation numérique.
Prérequis : notions fondamentales de probabilités et statistique, notions d’optimisation convexe, logiciel R ou Python.
Contenu :

  • Rappels sur le principe des méthodes Monte-Carlo.
  • Monte-Carlo par Chaînes de Markov et recuit simulé.
  • Théorèmes de convergence pour les Martingales.
  • Algorithmes de gradient stochastiques et applications.

Programmation parallèle à grande échelle sur GPU pour les grandes masses de données

Responsable : Lokman Abbas Turki
Modalités :
15h TP
Objectif : ce cours introduit la programmation CUDA et présente des éléments d’optimisation mémoire et algorithmique pour le calcul massivement parallèle sur cartes graphiques.
Prérequis : notions fondamentales de probabilités et programmation C.
Contenu :

  • Le streaming multiprocessor et son interprétation en termes de blocks et de threads.
  • L’utilisation de la mémoire globale, shared, registres et constante pour une simulation Monte Carlo.
  • Locked, mapped memory & concurrency.
  • Batch computing et applications : tri fusion, algèbre linéaire, EDP.
  • Utilisation GPU pour un problème de deep learning.

Réseaux de neurones et approximation numérique adaptative

Responsable : Bruno Després
Modalités :
30h CM
Objectif : ce cours présente comment utiliser les réseaux de neurones pour l’approximation numérique adaptative.
Prérequis : quelques notions d’analyse et un intérêt pour la programmation.
Contenu :

  • Fonctions représentables par des réseaux de neurones.
  • Preuves élémentaires du théorème de Cybenko. La fonction de Takagi.
  • Construction de datasets et malédiction de la dimension.
  • Interprétation des algorithmes de gradients stochastiques sous la forme d’équations différentielles ordinaires.
  • Applications à des problèmes issus du calcul scientifique pour la CFD en lien avec la classification d’images.
  • Illustration avec quelques logiciels.