Apache Spark est le moteur d'analyses unifiées ultra-rapide incontournable pour le big data.
Adopté massivement par des acteurs majeurs comme Netflix, Yahoo et eBay, il traite quotidiennement des pétaoctets de données. Cette formation de deux jours vous apprend à exploiter la puissance de Spark spécifiquement au sein de l'écosystème Databricks.
Ce cours propose un panorama complet, conçu pour être immédiatement applicable. Notre approche alterne entre :
- Présentations théoriques pour bâtir des fondations solides.
- Exercices pratiques pour vous rendre opérationnel sur la plateforme.
Ce module est construit pour couvrir les piliers de la data engineering moderne sur Databricks
- Les fondements d'Apache Spark : l'architecture Spark, les DataFrames, Spark SQL et PySpark.
- La manipulation de données avec les APIs Spark : DataFrame et Spark SQL pour ingérer, transformer et manipuler efficacement de grands volumes de données.
- La plateforme Databricks : les composants clés de la plateforme Databricks et son architecture (Clusters, Notebooks, Workspace) pour gérer vos projets.
- Le stockage optimisé avec Delta Lake : les caractéristiques et les avantages déterminants du format Delta Lake (transactions ACID, Time Travel) qui est au cœur de la plateforme.
À l'issue de la session, vous conservez tous les notebooks de cours. Vous pouvez réexécuter vos travaux pratiques sur le service cloud Databricks Free Edition (gratuit) ou les exporter en code source pour n'importe quel environnement Spark.
Ce cours est aligné sur la certification "Databricks Data Engineer Associate".
Il couvre les trois piliers de l'examen : les fondamentaux de Spark, l'utilisation de la plateforme Databricks et la compréhension de Delta Lake. Le passage de l'examen se fait après la formation et reste optionnel.