Formation officielle

Format : Stage pratique

Niveau Fondamentaux

Répartition du temps : 40% exposés
50% pratique
10% échanges

La formation en détails

Description

Apache Spark est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Depuis sa sortie, il a connu une adoption rapide par les entreprises de secteurs très divers. Des acteurs majeurs du monde de l'internet tels que Netflix, Yahoo et eBay l'ont déployé à très grande échelle, traitant ensemble plusieurs peta-octets de données sur des clusters de plus de 8 000 nœuds.

En deux jours, cette formation propose un panorama pratique de la solution Apache Spark en alternant des présentations théoriques et des exercices pratiques. Ce module couvre les APIs de base de Spark, les fondamentaux et les mécanismes du framework, mais aussi les outils de plus haut-niveau, dont SQL, ainsi que ses capacités de traitement en streaming et l'API de machine learning.

A l'issue de la session, les notebooks peuvent être conservés et être réutilisés dans le service cloud gratuit Databricks Community Edition, pour lequel la compatibilité est garantie. Il est également possible d'exporter le notebook sous forme de code source pour exécution sur n'importe quel environnement Spark.

Ce cours officiel prépare à la certification "Databricks Certified Associate Developer for Apache Spark 3.0". La certification se passe après la formation et n'est pas obligatoire.

Objectifs

Décrire les fondamentaux de Spark
Exploiter les APIs de base de Spark pour manipuler des données
Concevoir et implémenter des cas d'usage typiques de Spark
Construire des pipelines de données et requêter de larges jeux de données grâce à Spark SQL et aux DataFrames
Analyser les jobs Sparks à l'aide des interfaces d'administration et des logs au sein des environnements Databricks
Créer des jobs de type Structured Streaming
Découvrir les bases du fonctionnement interne de Spark
Découvrir le pattern Deltalake

Certification

Cette formation permet de préparer la certification Databricks Certified Associate Developer for Apache Spark.

A la suite de changements opérés par l'éditeur, OCTO Academy ne propose plus l'achat du voucher de certification, celui-ci sera à effectuer à vos frais. Notre équipe reste à votre disposition pour vous indiquer la procédure à suivre afin de pouvoir acheter un voucher permettant de passer la certification Databricks Certified Associate Developer for Apache Spark

Public cible

Data engineers et data analysts ayant l'expérience des traitements Big Data, qui souhaitent apprendre à utiliser Apache Spark pour effectuer leurs traitements Big Data, construire des jobs Spark à destination de la production et comprendre mais aussi déboguer des applications Spark.

Prérequis

Une première expérience avec Apache Spark est conseillée
Avoir utilisé les Spark DataFrames dans des cas simples est souhaitable
Une expérience de programmation en langage objet ou fonctionnel est nécessaire

Modalités pédagogiques

Formation avec apports théoriques, échanges sur les contextes des participants et retours d'expérience du formateur, complétés de travaux pratiques et de mises en situation. La formation mélange les langages Python et Scala.

Chaque sujet abordé comprend une partie d'exposé couplée à une mise en pratique de Spark au travers d'un environnement type notebook web. Inspiré d'outils tels IPython/Jupyter, les notebooks permettent aux participants de développer des jobs, des requêtes d'analyse et des représentations visuelles s'appuyant sur leur propre cluster Spark, le tout depuis leur navigateur web.

Accessibilité

L'inclusion est un sujet important pour OCTO Academy.
Nos référent·es sont à votre disposition pour faciliter l'adaptation de votre formation à vos besoins spécifiques.

Notre politique accessibilité Contacter nos référent·es

Profil du formateur

Cette formation est dispensée par un·e ou plusieurs consultant·es d'OCTO Technology ou de son réseau de partenaires, expert·es reconnus des sujets traités.

Le processus de sélection de nos formateurs et formatrices est exigeant et repose sur une évaluation rigoureuse leurs capacités techniques, de leur expérience professionnelle et de leurs compétences pédagogiques.

Par ailleurs, pour animer cette formation, nos intervenant·es doivent également avoir suivi un parcours d'habilitation imposé par Databricks, Inc.

Modalités d'évaluation et de suivi

L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique.

Afin de valider les compétences acquises lors de la formation, un formulaire d'auto-positionnement est envoyé en amont et en aval de celle-ci.

En l'absence de réponse d'un ou plusieurs participants, un temps sera consacré en ouverture de session pour prendre connaissance du positionnement de chaque stagiaire sur les objectifs pédagogiques évalués.

Une évaluation à chaud est également effectuée en fin de session pour mesurer la satisfaction des stagiaires et un certificat de réalisation leur est adressé individuellement.

Programme détaillé

Jour 1

APERÇU DE SPARK ET DATAFRAMES

Introduction
L'écosystème Databricks
Spark SQL
Lecture et écriture de données
Dataframe et colonnes

TRANSFORMATIONS ET MANIPULATIONS DE DONNÉES

Agrégations
Datetimes
Types complexes
Fonctions additionnelles
UDF : User Defined Functions

Jour 2

OPTIMISATION DE SPARK

Architecture
Shuffle et Cache
Optimisation des requêtes
Spark UI
Gestion des partitions

STRUCTURED STREAMING

Exposés
Streaming et requêtes
Processing streaming
Agrégations
Deltalake

CONCLUSION

Évaluation de la session
Partage sur la formation
Questions/réponses additionnelles

Ce qu'en disent les participants

4.00 / 5

Satisfaction moyenne

Sur la base de 10 avis, collectés en fin de formation durant les 12 derniers mois.

100 %

recommandent cette formation

Sur la base de 10 avis, collectés en fin de formation durant les 12 derniers mois.

Nos autres formations du domaine « Data Engineering » Toutes les formations du domaine

ASPOP Optimiser Apache Spark™ sur Databricks
Formation officielle Optimizing Apache Spark™ on Databricks

Software Engineering / Data Engineering

Durée : 14 h / 2 j

Expert

Prochaine session : 08 décembre 2025

Découvrez les profils métiers associés à cette formation

Data Engineer
L'ingénierie de la donnée pour stimuler et favoriser l'innovation

Data & Intelligence Artificielle

Besoin d'aide pour trouver votre formation ?

Contactez-nous

Sessions & Inscriptions

Session partagée avec d'autres organisations

Prochaines sessions

du 26 au 27/03/2026

Distanciel

1 800,00 € ^HT

Certification en option
du 25 au 26/06/2026

Présentiel, Paris

1 800,00 € ^HT

Certification en option

Durée

14 h / 2 j

Demander un devis Nous contacter
Télécharger le programme

Organiser une session dédiée à votre organisation

Durée

14 h / 2 j

Vous avez plusieurs collaborateurs à former ?

Cette formation peut être organisée
sous la forme de sessions dédiées
aux membres de votre organisation.

Demander un devis Nous contacter Télécharger le programme

Personnaliser cette formation

Cette formation vous intéresse
et vous souhaitez l'adapter pour
vos collaborateurs ?

Nos formateurs et notre équipe pédagogique sont à
votre disposition pour en discuter
et vous proposer un programme sur-mesure.

Nous contacter Télécharger le programme

ASPWD Programmer avec Apache Spark de Databricks Formation officielle Databricks «Apache Spark™ Programming with Databricks »