Apache Spark pour développeurs de Cloudera

Formation officielle "Cloudera Developer Training for Apache Spark"

Description

Cette formation pose les bases du développement avec Apache Spark, tout en présentant l’écosystème Hadoop dans lequel il s’intègre. Le principal objectif est la prise en main de cet outil incontournable du paysage du Big Data ainsi que l’acquisition de notions essentielles relatives à son architecture. Des éléments de Spark Streaming et Spark SQL sont aussi abordés.

Cloudera

Objectifs pédagogiques

  • Découvrir et manipuler les principes fondamentaux d’Apache Spark
  • Découvrir l’environnement Hadoop dans lequel il s’intègre
  • Explorer les différents cas d’usage et les stratégies de performance

Public cible

  • Développeur
  • Analyste
  • Architecte

Pré-requis

  • Expérience en programmation Python, Java ou Scala
  • Expérience de la ligne de commande
  • Notions sur l’écosystème Hadoop

Méthode pédagogique

Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation.

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.

MODALITÉS D’ÉVALUATION

L’évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud est réalisée systématiquement en fin de session.

Programme :

Jour 1

  • Introduction à Apache Spark
    • Qu’est-ce que Spark ?
    • Rappel : de MapReduce à Spark
    • Rappel : HDFS
    • Rappel : YARN
    • Vue d’ensemble de Spark
  • Les bases d’Apache Spark
    • Qu’est-ce que Spark ?
    • Utilisation de la console Spark
    • RDDs (Resilient Distributed Datasets)
    • Programmation fonctionnelle en Spark
    • Travaux pratiques
  • Utilisation des RDDs
    • Créer des RDDs
    • Autres opérations générales sur les RDDs
    • Travaux pratiques
  • Agréger les données à l’aide des Pair RDDs
    • Les Pair RDDs clé-valeur
    • MapReduce
    • Autres opérations sur les Pair RDDs
    • Travaux pratiques

Jour 2

  • Écrire et déployer une application Spark
    • Application VS console Spark
    • Créer un Spark Context
    • Build d’une application Spark (en Java ou Scala)
    • Lancer une application Spark
    • L’interface utilisateur web
    • Travaux pratiques
    • Configurer les propriétés de Spark
    • Logging
    • Travaux pratiques : configurer une application Spark
  • Traitements parallèles
    • Rappel : Spark sur un cluster
    • Partitions d’un RDD
    • Partitionnement d’un RDD créé à partir d’un fichier
    • HDFS et la colocalité
    • Exécuter des traitements parallèles
    • Stages et tasks
    • Travaux pratiques
  • Persistance des RDDs
    • Généalogie des RDDs
    • Vue d’ensemble de la persistance d’un RDD
    • Persistance distribuée
    • Travaux pratiques
  • Bases de Spark Streaming
    • Vue d’ensemble de Spark Streaming
    • Exemple : comptage de connexions
    • DStream
    • Déveloper une application Spark Streaming
    • Travaux pratiques

Jour 3

  • Spark Streaming avancé
    • Opérations Multi-Batch
    • Opérations avec mémoire (State Operations)
    • Fenêtres glissantes
    • Sources de données avancées
    • Travaux pratiques
  • Patterns classiques en Spark
    • Use cases classiques
    • Algorithmes itératifs en Spark
    • Analyse de Graphe
    • Machine-Learning
    • Exemple : k-means
    • Travaux pratiques
  • Amélioration des performances
    • Variables partagées : broadcast Variable
    • Variables partagées : accumulateurs
    • Problèmes de performance classiques
    • Diagnostiquer les problèmes de performance
    • Travaux pratiques
  • Spark SQL et dataframes
    • Spark SQL et le SQL Context
    • Créer des dataframes
    • Transformer et interroger un dataframe
    • Sauvegarder un dataframe
    • Lien entre dataframe et RDD
    • Comparaison de Spark SQL, Impala et Hive-on-Spark
    • Travaux pratiques

Pour aller plus loin :

Type : Stage pratique
Code formation : CLSPK
Durée : 3 jours (21 heures)
Tarif & dates intra-entreprise :
Devis sur demande
Nous Contacter