Formation officielle
Format : Classe à distance
Niveau Avancé
 
 
 
 
Répartition du temps : 60% exposés
30% pratique
10% échanges

La formation en détails

Description

Durant cette formation, vous apprendrez à construire des solutions d'analyse de données par lots à l'aide d'Amazon EMR, un service géré Apache Spark et Apache Hadoop de niveau entreprise. Vous découvrirez comment Amazon EMR s'intègre aux projets Open Source tels que Apache Hive, Hue et HBase, ainsi qu'aux services AWS tels que AWS Glue et AWS Lake Formation.

Ce module aborde les composants de collecte, d'ingestion, de catalogage, de stockage et de traitement des données dans le contexte de Spark et Hadoop. Vous utiliserez EMR Notebooks pour prendre en charge les charges de travail d'analyse et d'apprentissage automatique. Enfin, vous appliquerez les meilleures pratiques de sécurité, de performance et de gestion des coûts au fonctionnement d'Amazon EMR.

Cette formation vous intéresse ? Bénéficiez d'un tarif préférentiel avec notre offre "Amazon Web Services - Bundle Data"

Objectifs

  • Comparer les caractéristiques et les avantages des entrepôts de données, des lacs de données et des architectures de données modernes
  • Concevoir et mettre en œuvre une solution d'analyse de données par lots
  • Identifier et appliquer les techniques appropriées, notamment la compression, pour optimiser le stockage des données
  • Sélectionner et déployer les options appropriées pour ingérer, transformer et stocker les données
  • Sélectionner les types d'instances et de nœuds, les clusters, la mise à l'échelle automatique et la topologie réseau appropriés pour un cas d'utilisation particulier
  • Découvrir comment le stockage et le traitement des données affectent les mécanismes d'analyse et de visualisation nécessaires pour obtenir des informations commerciales exploitables
  • Décrire comment sécuriser les données au repos et en transit
  • Surveiller les charges de travail analytiques afin d'identifier et de résoudre les problèmes
  • Identifier les meilleures pratiques de gestion des coûts

Public cible

Cette formation s'adresse aux Ingénieurs de plateforme de données et Architectes et opérateurs qui construisent et gèrent des pipelines d'analyse de données

Prérequis

Il est préférable de disposer d'une expérience d'un an dans dans la gestion de frameworks de données Open Source tels que Apache Spark ou Apache Hadoop.
Avoir suivi la formation “AWS : Notions techniques Amazon Web Services de base” (AWS00) ou disposer de connaissances équivalentes.

Modalités pédagogiques

Formation avec apports théoriques, échanges sur les contextes des participants et retours d'expérience pratique des formateurs, complétés de travaux pratiques et de mises en situation.

Profil du formateur

Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.

Modalités d'évaluation et de suivi

L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l'action de formation ainsi que la formalisation des acquis.

Programme détaillé

Module A : aperçu de l'analyse des données et du pipeline de données
  • Cas d'utilisation de l'analyse de données
  • Utilisation du pipeline de données pour l'analyse

Module 1 : introduction à Amazon EMR
  • Utilisation d'Amazon EMR dans les solutions analytiques
  • Architecture du cluster Amazon EMR
  • Démo interactive 1 : “Lancement d'un cluster Amazon EMR”
  • Stratégies de gestion des coûts

Module 2 : pipeline d'analyse de données utilisant Amazon EMR ( Ingestion et stockage)
  • Optimisation du stockage avec Amazon EMR
  • Techniques d'ingestion de données

Module 3 : analyse de données par lots haute performance avec Apache Spark sur Amazon EMR
  • Cas d'utilisation d'Apache Spark sur Amazon EMR
  • Pourquoi Apache Spark sur Amazon EMR ?
  • Concepts de Spark interactive 2 : se connecter à un cluster EMR et exécuter des commandes Scala à l'aide du shell Spark
  • Transformation, traitement et analyse
  • Utilisation de notebooks avec Amazon EMR

Atelier 1 : “Analyse de données à faible latence avec Apache Spark sur Amazon EMR”

Module 4 : traitement et analyse de données par lots avec Amazon EMR et Apache Hive
  • Utilisation d'Amazon EMR avec Hive pour traiter des données par lots
  • Transformation, traitement et analyse

Atelier 2 : “Traitement de données par lots à l'aide d'Amazon EMR et Hive”
  • Introduction à Apache HBase sur Amazon EMR

Module 5 : traitement des données sans serveur
  • Traitement, transformation et analyse des données sans serveur
  • Utilisation d'AWS Glue avec les charges de travail Amazon EMR

Atelier 3 : “Orchestrer le traitement des données dans Spark à l'aide d'AWS Step Functions”

Module 6 : sécurité et surveillance des clusters Amazon EMR
  • Sécurisation des clusters EMR
  • Démonstration interactive 3 : cryptage côté client avec EMRFS
  • Surveillance et dépannage des clusters Amazon EMR
  • Démo : Examen de l'historique du cluster Apache Spark

Module 7 : Conception de solutions d'analyse de données par lots
  • Cas d'utilisation de l'analyse de données par lots

Activité 4 : “Conception d'un flux de travail d'analyse de données par lots”

Module B : Développement d'architectures de données modernes sur AWS
  • Architectures de données modernes

Nos autres formations du domaine « Data » Toutes les formations du domaine

AWSDL AWS Data Lakes : Créer des lacs de données sur Amazon Web Services
Formation officielle Building Data Lakes on AWS
Nouveau
Durée : 7 h / 1 j
Avancé
 
 
 
 
Prochaine session : 27 mai 2024
AWSRE AWS : Créer des solutions d'analyse de données à l'aide d'Amazon Redshift
Formation officielle Building Data Analytics Solutions Using Amazon Redshift
Nouveau
Durée : 7 h / 1 j
Avancé
 
 
 
 
Prochaine session : 03 juin 2024
AWSSD AWS : Créer des solutions d'analyse de Data Streaming sur AWS
Formation officielle "Building Streaming Data Analytics Solutions on AWS"
Nouveau
Durée : 7 h / 1 j
Avancé
 
 
 
 
Prochaine session : 04 juin 2024
AWS12 AWS : MLOps Engineering
Formation officielle AWS MLOps Engineering on AWS
Durée : 21 h / 3 j
Avancé
 
 
 
 
Prochaine session : Sur demande
AWSPI AWS : utiliser le pipeline de Machine Learning sur AWS
Formation officielle The Machine Learning Pipeline on AWS
Nouveau Certifiant
Durée : 28 h / 4 j
Avancé
 
 
 
 
Prochaine session : 18 mars 2024

Besoin d'aide pour trouver votre formation ?

Contactez-nous

Sessions & Inscriptions

Session partagée avec d'autres organisations

Prochaines sessions
  • le 28/05/2024
    Distanciel
    780,00 € HT
  • le 10/09/2024
    Distanciel
    780,00 € HT
Durée
7 h / 1 j

Demander un devis Nous contacter
Télécharger le programme

Organiser une session dédiée à votre organisation

Durée
7 h / 1 j

Vous avez plusieurs collaborateurs à former ?

Cette formation peut être organisée
sous la forme de sessions dédiées
aux membres de votre organisation.

Demander un devis Nous contacter Télécharger le programme

Personnaliser cette formation

Cette formation vous intéresse
et vous souhaitez l'adapter pour
vos collaborateurs ?

Nos formateurs et notre équipe pédagogique sont à
votre disposition pour en discuter
et vous proposer un programme sur-mesure.

Nous contacter Télécharger le programme

OCTO Academy respecte votre vie privée

Ce site web stocke des informations vous concernant via le dépôt de cookie afin de mesurer l’audience du site. Ces données de navigation sont anonymisées.

En cliquant sur « OK pour moi », vous manifestez votre consentement pour le dépôt de ces cookies.

Lire la politique de confidentialité

À propos des cookies

Sur ce site, nous utilisons des cookies pour mesurer notre audience, entretenir la relation avec vous et vous adresser de temps à autre du contenu qualitif ainsi que de la publicité. Vous pouvez sélectionner ici ceux que vous autorisez à rester ici.

Cookies