Formation officielle
Format : Classe à distance
Niveau Fondamentaux
 
 
 
 
Répartition du temps : 40% exposés
50% pratique
10% échanges

La formation en détails

Description

Vous souhaitez exploiter le potentiel de vos données pour créer de la valeur et développer votre activité. Avec Hadoop et son architecture flexible et évolutive, vous pouvez stocker, traiter et analyser vos données à partir d'une plateforme unique fonctionnant sur du matériel standard.

Successeur des distributions Cloudera Distribution of Hadoop (CDH) et Hortonworks Data Platform (HDP), Cloudera Data Platform est une plateforme hybride qui vous permet de gérer les architectures de données modernes, où que se trouvent celles-ci.

Ce module de quatre jours, de Cloudera pour CDP Private Cloud Base, offre aux participants une compréhension complète de toutes les étapes nécessaires pour exploiter et maintenir des clusters sur site à l'aide de Cloudera Manager. De l'installation et de la configuration à l'équilibrage de charge et au réglage, ce cours de formation Cloudera est la meilleure préparation aux défis du monde réel auxquels sont confrontés les administrateurs qui exécutent CDP Private Cloud Base.

Objectifs

  • Reposer les bases de l'environnement Hadoop, MapReduce, Spark et HDFS
  • Gérer un cluster CDP Private Cloud Base avec les fonctionnalités de Cloudera Manager
  • Déterminer le matériel et l'infrastructure appropriés pour son cluster
  • Configurer et déployer correctement le cluster pour l'intégration avec le système d'information
  • Charger des données dans le cluster à partir de fichiers générés dynamiquement à l'aide de NiFi, ou à partir de SGBDR en utilisant Sqoop
  • Configurer FairScheduler pour répartir les ressources entre plusieurs utilisateurs d'un cluster
  • Préparer et maintenir un cluster en production en utilisant les bonnes pratiques
  • Dépanner, diagnostiquer, mettre au point et résoudre les problèmes sur le cluster

Certification

Cette formation permet de préparer la certification CDP Administrator - Private Cloud Base.
L'inscription à la certification vous sera proposée de façon optionnelle au tarif de 350,00 € HT par tentative.

Public cible

  • Administrateur système
  • Responsable informatique
  • Architecte système
  • Développeur
  • Analyste de données
  • Administrateur de bases de données

Prérequis

Connaissance de base de la ligne de commande Linux

Modalités pédagogiques

Formation avec apports théoriques, échanges sur les contextes des participants et retours d'expérience pratique du formateur, complétés de travaux pratiques et de mises en situation. Cette formation permet de préparer l'examen associé au titre de la certification « CDP Administrator ».

Profil du formateur

Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.
 

Modalités d'évaluation et de suivi

L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l'action de formation ainsi que la formalisation des acquis.
 

Programme détaillé

Jour 1

INTRODUCTION

CLOUDERA DATA PLATFORM
  • L’état de l’art des réponses aux besoins Big Data
  • Le défi de devenir Data Driven
  • Cloudera Entreprise Data Cloud
  • Aperçu de CDP

INSTALLATION DE CDP PRIVATE CLOUD BASE
  • Aperçu de l’installation
  • Installation de Cloudera Manager
  • Aperçu de CDP Runtime
  • Introduction à Cloudera Manager

CONFIGURER UN CLUSTER CDP
  • Vue d’ensemble
  • Paramètres de configuration
  • Modifier la configuration des services
  • Fichiers de configuration
  • Gérer les instances de rôle
  • Ajouter des nouveaux services
  • Ajouter et supprimer des hôtes

STOCKAGE DE DONNÉES
  • Introduction
  • Topologie et rôles HDFS
  • La performance HDFS et la tolérance à la panne
  • Introduction à la sécurité de HDFS et de Hadoop
  • Interfaces utilisateurs web pour HDFS
  • Utiliser la ligne de commande HDFS
  • Aperçu de HBase, Kudu et du stockage cloud

Jour 2

INGESTION DE DONNÉES
  • Introduction à l’ingestion de données
  • Formats de fichiers
  • Ingérer de la donnée en utilisant File Transfer ou les interfaces REST
  • Ingérer de la donnée d’une base de donnée relationnelle avec Sqoop
  • Ingérer de la donnée avec NiFi
  • Les bonnes pratiques d’ingestion de donnée

FLUX DE DONNÉES
  • Aperçu de Cloudera Flow Management et de NiFi
  • Architecture de NiFi
  • Cloudera Edge Flow Management et MiNiFi
  • Introduction à Apache Kafka et de son architecture en cluster
  • Outils de ligne de commande Apache Kafka

ACCÈS AUX DONNEES
  • Apache Hive
  • Apache Impala et son optimisation
  • Introduction aux service de recherche
  • Introduction à Hue, sa gestion et sa configuration
  • Introduction à Cloudera Data Science Workbench (CDSW)

LE COMPUTE
  • Introduction à YARN
  • Exécuter des applications sur YARN
  • Explorer les applications YARN
  • Les logs d’application YARN
  • Les applications MapReduce
  • Réglage mémoire et CPU pour YARN
  • Présentation de Tez
  • Exécution de Hive sur Tez
  • Les propriétés ACID et Hive
  • Introduction à Apache Spark
  • Introduction à Spark
  • Comment les applications Spark s'exécutent sur YARN
  • Monitoring les applications Spark
  • Introduction à Phoenix

Jour 3

GESTION DES RESSOURCES
  • Configuration de cgroups avec des centres de services statiques
  • Le Fair Scheduler
  • Configurer la gestion dynamique des ressources
  • Planification des requêtes Impala

DIMENSIONNEMENT DU CLUSTER CDP PRIVATE CLOUD BASE
  • Considérations générales relatives au dimensionnement
  • Choix le bon matériel
  • Considérations relatives au réseau
  • Le déploiement cloud avec CDP Private Cloud
  • Configuration des noeuds

CONFIGURATION AVANCÉE DU CLUSTER
  • Configurer les ports de service
  • Paramétrer HDFS et MapReduce
  • Protection de la donnée avec Erasure Coding
  • Comment gérer le passage à l’échelle
  • Activer la Haute Disponibilité HDFS

MAINTENANCE DU CLUSTER
  • Vérification du statut HDFS
  • Copier les données entre clusters
  • Rééquilibrage des données dans HDFS
  • Snapshots de répertoires
  • Maintenance des hôtes
  • Mise à niveau du cluster

Jour 4

MONITORING DU CLUSTER
  • Fonctionnalités de monitoring dans Cloudera Manager
  • Les Health Tests
  • Événements et alertes
  • Graphiques et rapports
  • Les bonnes pratiques de monitoring

DIAGNOSTIC DU CLUSTER
  • Introduction
  • Outils de diagnostic
  • Exemples de mauvaises configurations

SÉCURITÉ
  • Gouvernance des données avec SDX
  • Les concepts de sécurité sur Hadoop
  • Authentification sur Hadoop en utilisant Kerberos
  • Les autorisations sur Hadoop
  • Le chiffrement sur Hadoop
  • Sécuriser un cluster Hadoop
  • Introduction à Apache Ranger et Apache Atlas
  • Sauvegarde et récupération

PRIVATE CLOUD vs. PUBLIC CLOUD
  • Aperçu global de l’offre CDP
  • Fonctionnalités de l’offre Private Cloud
  • Fonctionnalités de l’offre Public Cloud
  • Qu'est-ce que Kubernetes ?
  • Aperçu de WXM
  • Auto-scaling
3.95 / 5

Satisfaction moyenne des participants

Sur la base de 6 avis, collectés en fin de formation durant les 12 derniers mois.

Nos autres formations du domaine « Data Engineering » Toutes les formations du domaine

Durée : 14 h / 2 j
Fondamentaux
 
 
 
 
Prochaine session : 20 novembre 2023
CLANA Cloudera Data Analyst
Formation officielle Cloudera Certified Associate Data Analyst
Certifiant
Durée : 28 h / 4 j
Fondamentaux
 
 
 
 
Prochaine session : 03 avril 2023
CLSPH Développer des applications avec Apache Spark
Formation officielle Cloudera Data Engineering: Developing Applications with Apache Spark
Certifiant
Durée : 28 h / 4 j
Avancé
 
 
 
 
Prochaine session : Sur demande
ASPWD Programmer avec Apache Spark de Databricks
Formation officielle Databricks «Apache Spark™ Programming with Databricks »
Exclusivité Certifiant
Durée : 14 h / 2 j
Avancé
 
 
 
 
Prochaine session : 05 juin 2023
SQLNO NoSQL : découverte des solutions et architecture de la donnée
Appréhender les notions relatives aux systèmes distribués et les différentes solutions du marché
Durée : 14 h / 2 j
Fondamentaux
 
 
 
 
Prochaine session : 23 novembre 2023
ELK01 Gérer efficacement ses logs avec la stack ELK
S'approprier les bonnes pratiques de visualisation et supervision avec ElasticSearch, Logstach et Kibana
Durée : 14 h / 2 j
Fondamentaux
 
 
 
 
Prochaine session : 01 juin 2023

Besoin d'aide pour trouver votre formation ?

Contactez-nous

Sessions & Inscriptions

Session partagée avec d'autres organisations

Aucune session n'est programmée pour le moment 😕

N'hésitez pas à nous contacter pour signaler votre besoin !

Durée
28 h / 4 j

Nous contacter Télécharger le programme

Organiser une session dédiée à votre organisation

Durée
28 h / 4 j

Vous avez plusieurs collaborateurs à former ?

Cette formation peut être organisée
sous la forme de sessions dédiées
aux membres de votre organisation.

Demander un devis Nous contacter Télécharger le programme

Personnaliser cette formation

Cette formation vous intéresse
et vous souhaitez l'adapter pour
vos collaborateurs ?

Nos formateurs et notre équipe pédagogique sont à
votre disposition pour en discuter
et vous proposer un programme sur-mesure.

Nous contacter Télécharger le programme

OCTO Academy respecte votre vie privée

Ce site web stocke des informations vous concernant via le dépôt de cookie afin de mesurer l’audience du site. Ces données de navigation sont anonymisées.

En cliquant sur « OK pour moi », vous manifestez votre consentement pour le dépôt de ces cookies.

Lire la politique de confidentialité

À propos des cookies

Sur ce site, nous utilisons des cookies pour mesurer notre audience, entretenir la relation avec vous et vous adresser de temps à autre du contenu qualitif ainsi que de la publicité. Vous pouvez sélectionner ici ceux que vous autorisez à rester ici.

Cookies