Formation officielle
Format : Stage pratique
Répartition du temps : 40% exposés
50% pratique
10% échanges

La formation en détails

Description

Apache Spark est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Depuis sa sortie, il a connu une adoption rapide par les entreprises de secteurs très divers. Des acteurs majeurs du monde de l'internet tels que Netflix, Yahoo et eBay l'ont déployé à très grande échelle, traitant ensemble plusieurs peta-octets de données sur des clusters de plus de 8 000 nœuds.

En deux jours, cette formation propose un panorama pratique de la solution Apache Spark en alternant des présentations théoriques et des exercices pratiques. Ce module couvre les APIs de base de Spark, les fondamentaux et les mécanismes du framework, mais aussi les outils de plus haut-niveau, dont SQL, ainsi que ses capacités de traitement en streaming et l'API de machine learning.

A l'issue de la session, les notebooks peuvent être conservés et être réutilisés dans le service cloud gratuit Databricks Community Edition, pour lequel la compatibilité est garantie. Il est également possible d'exporter le notebook sous forme de code source pour exécution sur n'importe quel environnement Spark.
Ce cours officiel prépare à la certification "Databricks Certified Associate Developer for Apache Spark 3.0". La certification se passe après la formation et n'est pas obligatoire.

Objectifs

  • Décrire les fondamentaux de Spark
  • Exploiter les APIs de base de Spark pour manipuler des données
  • Concevoir et implémenter des cas d'usage typiques de Spark
  • Construire des pipelines de données et requêter de larges jeux de données grâce à Spark SQL et aux DataFrames
  • Analyser les jobs Sparks à l'aide des interfaces d'administration et des logs au sein des environnements Databricks
  • Créer des jobs de type Structured Streaming
  • Découvrir les bases du fonctionnement interne de Spark
  • Découvrir le pattern Deltalake

Certification

Cette formation permet de préparer la certification Databricks Certified Associate Developer for Apache Spark.
L'inscription à la certification vous sera proposée de façon optionnelle au tarif de 240,00 € HT par tentative.

Public cible

Data engineers et data analysts ayant l'expérience des traitements Big Data, qui souhaitent apprendre à utiliser Apache Spark pour effectuer leurs traitements Big Data, construire des jobs Spark à destination de la production et comprendre mais aussi déboguer des applications Spark.

Prérequis

  • Une première expérience avec Apache Spark est conseillée
  • Avoir utilisé les Spark DataFrames dans des cas simples est souhaitable
  • Une expérience de programmation en langage objet ou fonctionnel est nécessaire

Modalités pédagogiques

Formation avec apports théoriques, échanges sur les contextes des participants et retours d'expérience du formateur, complétés de travaux pratiques et de mises en situation. La formation mélange les langages Python et Scala.

Chaque sujet abordé comprend une partie d'exposé couplée à une mise en pratique de Spark au travers d'un environnement type notebook web. Inspiré d'outils tels IPython/Jupyter, les notebooks permettent aux participants de développer des jobs, des requêtes d'analyse et des représentations visuelles s'appuyant sur leur propre cluster Spark, le tout depuis leur navigateur web.

Programme détaillé

Jour 1

APERÇU DE SPARK ET DATAFRAMES
  • Introduction
  • L’écosystème Databricks
  • Spark SQL
  • Lecture et écriture de données
  • Dataframe et colonnes

TRANSFORMATIONS ET MANIPULATIONS DE DONNÉES
  • Agrégations
  • Datetimes
  • Types complexes
  • Fonctions additionnelles
  • UDF : User Defined Functions

Jour 2

OPTIMISATION DE SPARK
  • Architecture
  • Shuffle et Cache
  • Optimisation des requêtes
  • Spark UI
  • Gestion des partitions

STRUCTURED STREAMING
  • Exposés
  • Streaming et requêtes
  • Processing streaming
  • Agrégations
  • Deltalake

CONCLUSION
  • Évaluation de la session
  • Partage sur la formation
  • Questions/réponses additionnelles
4.40 / 5

Satisfaction moyenne des participants

Sur la base de 6 avis, collectés en fin de formation.

Besoin d'aide pour trouver votre formation ?

Contactez-nous

Sessions & Inscriptions

Session partagée avec d'autres organisations

Prochaines sessions
  • du 01 au 02/02/2022
    Distanciel
    1 710,00 € HT
    Certification en option
    240,00 € HT / tentative
  • du 30 au 31/03/2022
    Présentiel, Paris
    1 710,00 € HT
    Certification en option
    240,00 € HT / tentative
  • du 20 au 21/06/2022
    Présentiel, Paris
    1 710,00 € HT
    Certification en option
    240,00 € HT / tentative
  • du 28 au 29/11/2022
    Présentiel, Paris
    1 710,00 € HT
    Certification en option
    240,00 € HT / tentative
Durée
14 h / 2 j

Demandez un devis Contactez-nous
Télécharger le programme

Organiser une session dédiée à votre organisation

Durée
14 h / 2 j

Vous avez plusieurs collaborateurs à former ?

Cette formation peut être organisée
sous la forme de sessions dédiées
aux membres de votre organisation.

Demandez un devis Contactez-nous Télécharger le programme

Personnaliser cette formation

Cette formation vous intéresse
et vous souhaitez l'adapter pour
vos collaborateurs ?

Nos formateurs et notre équipe pédagogique sont à
votre disposition pour en discuter
et vous proposer un programme sur-mesure.

Contactez-nous Télécharger le programme

OCTO Academy respecte votre vie privée

Ce site web stocke des informations vous concernant via le dépôt de cookie afin de mesurer l’audience du site. Ces données de navigation sont anonymisées.

En cliquant sur « OK pour moi », vous manifestez votre consentement pour le dépôt de ces cookies.

Lire la politique de confidentialité

À propos des cookies

Sur ce site, nous utilisons des cookies pour mesurer notre audience, entretenir la relation avec vous et vous adresser de temps à autre du contenu qualitif ainsi que de la publicité. Vous pouvez sélectionner ici ceux que vous autorisez à rester ici.

Cookies