Formation officielle
Format : Stage pratique
Niveau Expert
 
 
 
 
Répartition du temps : 70% exposés
20% pratique
10% échanges

La formation en détails

Description

Apache Spark™ est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Depuis sa sortie, il a connu une adoption rapide par les entreprises de secteurs très divers. Des acteurs majeurs tels que Netflix, Yahoo et eBay l'ont déployé à très grande échelle, traitant ensemble plusieurs péta-octets de données sur des clusters de plus de 8 000 nœuds.

Dans ce cours, les apprenants exploreront les 5 problèmes majeurs de performance rencontrés dans une application Apache Spark™ : skew, spill, shuffle, stockage et serialization.
Au travers d'exemples basés sur des datasets de 100Go à 1To, le focus sera mis sur investigation et la réalisation de diagnostic des différentes sources de goulets d'étranglement avec Spark UI, ainsi que sur l'appropriation de stratégies de résolution efficaces.

Enfin, un temps sera également consacré à la découverte des nouvelles fonctionnalités proposées par Spark 3.x qui adressent automatiquement ces problèmes de performance communs.

Objectifs

  • S'approprier les 5 problématiques de performances les plus communes dans une application Spark et leurs principales méthodes de résolution
  • Investiguer, identifier et traiter des problèmes de performances les plus communs associés à l'ingestion de données.
  • Appréhender les nouvelles fonctionnalités de Spark 3.x permettant de traiter les problèmes de performance dans vos applications Spark.
  • Configurer des clusters Spark pour une performance maximale pour des besoins métier spécifiques.

Public cible

  • Développeurs Spark™
  • Data Engineers

Prérequis

Une expérience de développement sur Apache Spark™.
Une expérience de développement avec Python ou Scala.
Il est fortement recommandé d'avoir suivi la formation "Programmer avec Apache Spark de Databricks" (ASPWD) au préalable.

Modalités pédagogiques

Formation avec apports théoriques, échanges sur les contextes des participants et retours d'expérience pratique des formateurs, complétés de travaux pratiques et de mises en situation.

Profil du formateur

Toutes nos formations sont animées par des consultants-formateurs et consultantes-formatrices dont l'expérience et l'expertise sont reconnues par leurs pairs.

Modalités d'évaluation et de suivi

L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l'action de formation ainsi que la formalisation des acquis.

Programme détaillé

Jour 1
RAPPEL DU FONCTIONNEMENT DE SPARK™
  • Revue de l'architecture de Spark et de Spark UI
  • Skew
  • Spill
  • Shuffle
  • Storage
  • Serialization

Jour 2
MÉTHODES D'OPTIMISATION
  • Les bases de l'ingestion
  • Prédire et anticiper les goulets d'étranglement
  • Partitionnement de disque
  • Z-ordering
  • Bucketing
  • Optimisation avec Adaptive Query Execution (AQE)
  • Concevoir et configurer des clusters à haute performance

BILAN ET CLÔTURE DE SESSION
  • Revue des concepts clés présentés lors de la formation
  • Temps d'échange sur les questions et réponses additionnels
  • Retour à chaud et clôture 

Nos autres formations du domaine « Data Engineering » Toutes les formations du domaine

ASPWD Programmer avec Apache Spark de Databricks
Formation officielle Databricks «Apache Spark™ Programming with Databricks »
Exclusivité Certifiant
Durée : 14 h / 2 j
Avancé
 
 
 
 
Prochaine session : 05 juin 2023

Besoin d'aide pour trouver votre formation ?

Contactez-nous

Sessions & Inscriptions

Session partagée avec d'autres organisations

Aucune session n'est programmée pour le moment 😕

N'hésitez pas à nous contacter pour signaler votre besoin !

Durée
14 h / 2 j

Nous contacter Télécharger le programme

Organiser une session dédiée à votre organisation

Durée
14 h / 2 j

Vous avez plusieurs collaborateurs à former ?

Cette formation peut être organisée
sous la forme de sessions dédiées
aux membres de votre organisation.

Demander un devis Nous contacter Télécharger le programme

Personnaliser cette formation

Cette formation vous intéresse
et vous souhaitez l'adapter pour
vos collaborateurs ?

Nos formateurs et notre équipe pédagogique sont à
votre disposition pour en discuter
et vous proposer un programme sur-mesure.

Nous contacter Télécharger le programme

OCTO Academy respecte votre vie privée

Ce site web stocke des informations vous concernant via le dépôt de cookie afin de mesurer l’audience du site. Ces données de navigation sont anonymisées.

En cliquant sur « OK pour moi », vous manifestez votre consentement pour le dépôt de ces cookies.

Lire la politique de confidentialité

À propos des cookies

Sur ce site, nous utilisons des cookies pour mesurer notre audience, entretenir la relation avec vous et vous adresser de temps à autre du contenu qualitif ainsi que de la publicité. Vous pouvez sélectionner ici ceux que vous autorisez à rester ici.

Cookies