Dans ce cours, les apprenants exploreront les 5 problèmes majeurs de performance rencontrés dans une application Apache Spark™ : skew, spill, shuffle, stockage et serialization.
Au travers d'exemples basés sur des datasets de 100Go à 1To, le focus sera mis sur investigation et la réalisation de diagnostic des différentes sources de goulets d'étranglement avec Spark UI, ainsi que sur l'appropriation de stratégies de résolution efficaces.
Enfin, un temps sera également consacré à la découverte des nouvelles fonctionnalités proposées par Spark 3.x qui adressent automatiquement ces problèmes de performance communs.