En navigant sur ce site, vous acceptez l’utilisation de cookies ou autres traceurs vous permettant une utilisation optimale du site (partages sur les réseaux sociaux, statistiques de visite, etc.)
EXCLU

Machine Learning et Data Science avec Apache Spark de Databricks

Formation officielle Databricks « DB301 - Apache Spark™ for Machine Learning and Data Science »

Description

Cette formation s’adresse principalement à des data scientists qui souhaitent apprendre à utiliser Spark pour construire et paralléliser leurs modèles de Machine Learning. Ce module convient également à tout développeur désireux d’avoir une vue d’ensemble complète du Machine Learning avec Apache Spark.

Le programme couvre d’une part les fondamentaux d’Apache Spark : l’architecture et le fonctionnement interne de Spark, les APIs coeur, le streaming. D’autre part, il met un accent particulier sur les APIs de Machine Learning. La formation propose un mixte entre théorie et pratique.

Chaque chapitre est constitué d’une présentation et de travaux pratiques réalisés sur un environnement Databricks au travers de notebooks. Ceux-ci restent accessibles aux participants qui peuvent continuer de les utiliser après la formation.

Objectifs pédagogiques

  • Identifier les cas d’utilisation de Spark
  • Savoir utiliser les APIs coeur de Spark
  • Se familiariser avec différents algorithmes tels que : Decision Trees, Random Forests, Gradient Boosted Trees, Linear Regression, Collaborative Filtering et K-Means
  • Construire des pipelines de Machine Learning sur Spark à l’aide de Transformers et Estimators
  • Savoir optimiser et mettre en production des modèles : Grid Search, utilisation de librairies externes (XGBoost, Scikit-learn), application des modèles sur des applications Streaming...

Public cible

  • Data scientist
  • Analyste
  • Architecte
  • Développeur

Pré-requis

  • Disposer d’une connaissance d’Apache Spark n’est pas obligatoire.
  • Avoir une connaissance des concepts généraux de Machine Learning et de Data Science est fortement recommandé.
  • Une expérience en programmation orientée objet ou fonctionnelle est demandée..

Méthode pédagogique

Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation.
Cette formation peut être réalisée simultanément dans les langages de programmation Python et Scala.

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.

MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DE LA FORMATION

L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l'action de formation ainsi que la formalisation des acquis.

Programme :

JOUR 1

  • 1. Présentation de Spark
    • Discussion approfondie sur les concepts de Spark SQL et Dataframes
      • RDD vs DataFrame vs Dataset API
      • Spark SQL
      • Data Aggregation
      • Column Operations
      • L’API functions : date/time, string manipulation, aggregation
      • Les différents niveaux de cache
      • Utilisation de la Spark UI pour analyser le fonctionnement et la performance des requêtes
    • Vue d’ensemble de Spark
      • Cluster Architecture
      • Planification et exécution des fonctions et des tâches avec Spark
      • Shuffling, shuffle files, and performance
      • Le Catalyst query optimizer

JOUR 2

  • 4. Spark Structured Streaming
    • 1. Sources et sinks
      • Structured Streaming APIs
      • Windowing et Aggregation
      • Checkpointing et Watermarking
      • Fiabilité et tolérance aux pannes
    • Manipulation de données avec Spark ML
      • Exploration de données
      • Nettoyage de données
      • Création de pipelines de transformation avec les transformers
      • Entrainement de modèles supervisés et non supervisés
      • Application de modèles au streaming

JOUR 3

  • 6. Utilisation approfondie des API de Machine Learning
    • 1. Evaluation de modèles
      • Optimisation d’hyperparamètres
      • Cross validation et grid search
      • Evaluation de modèles
      • Entrainement de modèles sur des Dataframes avec Spark ML : Decision Trees, Random Forests, Gradient Boosted Trees, Linear Regression, K-Means, and Alternating Least Squares
    • Intégration de librairies tierces
      • XGBoost
      • Distribuer des algorithmes mono-noeud avec Scikit-learn et Spark
        • Spark-Sklearn : recherche d’hyperparamètres en parallèle appliqué à Scikit-learn
    • Discussion sur l’industrialisation de modèles
    • Sujets en option (fonction du temps restant et des attentes des participants)
      • MLflow : suivi et comparaison des performances des modèles
      • Deep Learning :
        • Intégration avec Keras
        • Transfer Learning, CNN
        • Horovod
      • GraphFrame

Pour aller plus loin :

Type : Stage pratique en présentiel
Code formation : DB301
Durée : 3 jours (21 heures)

Sessions inter-entreprises :

Tarif & dates intra-entreprise :
Devis sur demande
Nous Contacter