Après le module sur les bases de la Data science, la formation « Data Science : niveau avancé » vous permettra d'approfondir certains des concepts avancés de machine learning (feature engineering avancé, modèles ensemblistes…) utilisés notamment par les lauréats de concours Kaggle. Vous découvrirez également les techniques d'analyse et de traitement spécifiques aux données de type image ou texte (deep learning, réseaux de neurones convolutifs, réseaux récurrents,...).
40% pratique
10% échanges
La formation en détails
Description
Après le module sur les bases de la Data science, la formation « Data Science : niveau avancé » vous permettra d'approfondir certains des concepts avancés de machine learning (feature engineering avancé, modèles ensemblistes…) utilisés notamment par les lauréats de concours Kaggle. Vous découvrirez également les techniques d'analyse et de traitement spécifiques aux données de type image ou texte (deep learning, réseaux de neurones convolutifs, réseaux récurrents,...).
Objectifs
- Découvrir et utiliser la puissance prédictive des modèles ensemblistes
- Savoir effectuer un "feature engineering" performant
- Appréhender les techniques de text-mining et de deep-learning à travers des exemples concrets
- Enrichir sa boite à outils de data scientist
Public cible
- Analyste
- Statisticien
- Architecte
- Développeur
- Data scientist
Prérequis
- Connaissances de base en programmation ou en scripting
- Avoir suivi la formation "Fondamentaux de la Data Science" (DSDFX) serait en plus
Modalités pédagogiques
Profil du formateur
Modalités d'évaluation et de suivi
Afin de valider les compétences acquises lors de la formation, un formulaire d'auto-positionnement est envoyé en amont et en aval de celle-ci.
Une évaluation à chaud est également effectuée en fin de session pour mesurer la satisfaction des stagiaires et un certificat de réalisation leur est adressé individuellement.
Programme détaillé
RAPPEL DES FONDAMENTAUX
Ecosystème Big Data et Data Science
Comment modéliser un problème de data science ?
Les différentes familles d’algorithmes (supervisé : classification/régression, non supervisé)
Les algorithmes classiques
Comment évaluer la performance ?
Sur apprentissage et compromis biais/variance
MODÈLES ENSEMBLISTES
Rappels
Pourquoi ça fonctionne ? Raisons théoriques
Introduction au stacking
- Architecture et promesses du stacking
- Feature weighted stacking
- Mise en application
INTRODUCTION AU TEXT MINING
Un modèle de représentation : le bag of words
Normalisations usuelles
Stemming, lemmatization
Distances (Levenshtein, Hamming, Jaro-Winkler)
Word2Vec
Jour 2
FEATURE ENGINEERING AVANCÉ
Normalisation
- Qu’est ce que la normalisation ?
- Quand l’utiliser ?
Réduction de dimension (ACP, TSNE, LSA, etc)
Transformation et interactions entre variables
Traitement des variables catégorielles à haute dimensionnalité
Création de variables extraites d’arbres (Facebook Trick)
RÉSEAUX DE NEURONES ET DEEP LEARNING
L’origine : le perceptron
Les réseaux de neurones
Deep learning
- Objectif : s’affranchir du feature engineering manuel
- Convolution
- Réseaux récurrents
Cas concret : reconnaissance de chiffres
APPRENTISSAGE SEMI-SUPERVISÉ
Jour 3
RAPPELS ET RÉVISIONS
Synthèse des points abordés en journées 1 et 2
Approfondissement des sujets sélectionnés avec l’intervenant
MISE EN PRATIQUE
Le dernier jour est entièrement consacré à des mises en pratique
SÉLECTION ET PARTICIPATION À UNE COMPÉTITION
Le formateur sélectionnera une compétition en cours sur Kaggle qui sera démarrée en jour 3 par l’ensemble des participants
Satisfaction moyenne des participants
Nos autres formations du domaine « Data Science » Toutes les formations du domaine
S'initier à la pratique de la Data Science et constituer sa première boîte à outils de Data Scientist
Devenir un expert du langage écrit et parlé avec python
Appréhender les enjeux éthiques et favoriser l'interprétabilité et la vigilance des modèles de Machine Learning
Concevoir des modèles de Machine Learning en visant un équilibre entre performance et frugalité
Comprendre les spécificités d'un projet de Data Science pour mieux le piloter de la conception au delivery
Appréhender et prendre en main les nouvelles architectures de données : Hadoop, NoSQL, Spark
Besoin d'aide pour trouver votre formation ?
Sessions & Inscriptions
Session partagée avec d'autres organisations
Prochaines sessions
-
du 25 au 27/03/2024Présentiel, Paris2 500,00 € HT
-
du 01 au 03/07/2024Présentiel, Paris2 500,00 € HT
-
du 25 au 27/11/2024Présentiel, Paris2 500,00 € HT
Organiser une session dédiée à votre organisation
Vous avez plusieurs collaborateurs à former ?
Cette formation peut être organisée
sous la forme de sessions dédiées
aux membres de votre organisation.
Personnaliser cette formation
Cette formation vous intéresse
et vous souhaitez l'adapter pour
vos collaborateurs ?
Nos formateurs et notre équipe pédagogique sont à
votre disposition pour en discuter
et vous proposer un programme sur-mesure.