Jour 1
RAPPEL DES FONDAMENTAUX
Ecosystème Big Data et Data Science
Comment modéliser un problème de data science ?
Les différentes familles d’algorithmes (supervisé : classification/régression, non supervisé)
Les algorithmes classiques
Comment évaluer la performance ?
Sur apprentissage et compromis biais/variance
MODÈLES ENSEMBLISTES
Rappels
Pourquoi ça fonctionne ? Raisons théoriques
Introduction au stacking
- Architecture et promesses du stacking
- Feature weighted stacking
- Mise en application
INTRODUCTION AU TEXT MINING
Un modèle de représentation : le bag of words
Normalisations usuelles
Stemming, lemmatization
Distances (Levenshtein, Hamming, Jaro-Winkler)
Word2Vec
Jour 2
FEATURE ENGINEERING AVANCÉ
Normalisation
- Qu’est ce que la normalisation ?
- Quand l’utiliser ?
Réduction de dimension (ACP, TSNE, LSA, etc)
Transformation et interactions entre variables
Traitement des variables catégorielles à haute dimensionnalité
Création de variables extraites d’arbres (Facebook Trick)
RÉSEAUX DE NEURONES ET DEEP LEARNING
L’origine : le perceptron
Les réseaux de neurones
Deep learning
- Objectif : s’affranchir du feature engineering manuel
- Convolution
- Réseaux récurrents
Cas concret : reconnaissance de chiffres
APPRENTISSAGE SEMI-SUPERVISÉ
Jour 3
RAPPELS ET RÉVISIONS
Synthèse des points abordés en journées 1 et 2
Approfondissement des sujets sélectionnés avec l’intervenant
MISE EN PRATIQUE
Le dernier jour est entièrement consacré à des mises en pratique
SÉLECTION ET PARTICIPATION À UNE COMPÉTITION
Le formateur sélectionnera une compétition en cours sur Kaggle qui sera démarrée en jour 3 par l’ensemble des participants