Accueil / Formations

Formations

Administrer la plateforme Hadoop Cloudera Mixte : présentiel / à distance

Dernière mise à jour : 23/08/2021

Formation officielle Cloudera Administrator Training for Apache Hadoop
Type : Classe à distance
Description
Vous souhaitez exploiter le potentiel de vos données pour créer de la valeur et développer votre activité. Avec Hadoop et son architecture flexible et évolutive, vous pouvez stocker, traiter et analyser vos données à partir d'une plateforme unique fonctionnant sur du matériel standard.

Dès sa création en 2008, Cloudera a lié son histoire à celle de l'écosystème Hadoop. Avec ses fondations composées à 100 % de logiciels open source et de standards ouverts, la plate-forme Cloudera vous assure un meilleur contrôle des coûts, plus de souplesse et des résultats plus performants pour votre organisation. CDH, la plate-forme open source de Cloudera, est ainsi devenue la distribution la plus populaire de Hadoop.

De l'installation à la configuration en passant par l'équilibrage de charge et le réglage, cette formation de quatre jours fournit aux participants une compréhension complète de toutes les étapes nécessaires pour opérer et maintenir un cluster Hadoop à l'aide de Cloudera Manager.
Objectifs de la formation
  • Reposer les bases de l'environnement Hadoop, MapReduce, Spark et HDFS
  • Gérer un cluster avec les fonctionnalités de Cloudera Manager
  • Déterminer le matériel et l'infrastructure appropriés pour son cluster
  • Configurer et déployer correctement le cluster pour l'intégration avec le système d'information
  • Charger des données dans le cluster à partir de fichiers générés dynamiquement à l'aide de Flume, ou à partir de SGBDR en utilisant Sqoop
  • Configurer FairScheduler pour répartir les ressources entre plusieurs utilisateurs d'un cluster
  • Préparer et maintenir Apache Hadoop en production en utilisant les bonnes pratiques
  • Dépanner, diagnostiquer, mettre au point et résoudre les problèmes sur Hadoop
Certification
Cette formation permet de préparer la certification CCA Administrator Certification.
L'inscription à la certification vous sera proposée de façon optionnelle au tarif de 300,00 € HT par tentative.
Public visé
  • Administrateur système
  • Responsable informatique
  • Architecte système
  • Développeur
  • Analyste de données
  • Administrateur de bases de données
Prérequis
Connaissance de base de la ligne de commande Linux
Modalités pédagogiques
Formation avec apports théoriques, échanges sur les contextes des participants et retours d'expérience pratique du formateur, complétés de travaux pratiques et de mises en situation. Cette formation permet de préparer l'examen associé au titre de la certification « Cloudera Certified Associate Administrator ».
Profil du / des Formateur(s)
Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.
Modalités d'évaluation et de suivi
L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l'action de formation ainsi que la formalisation des acquis.
Programme
Jour 1

INTRODUCTION

CLOUDERA ENTERPRISE DATA HUB
  • Cloudera Enterprise Data Hub
  • Introduction au CDH
  • Introduction à Cloudera Manager
  • Les responsabilités d'un administrateur Hadoop

INSTALLATION DE CLOUDERA MANAGER ET DU CDH
  • Introduction à l'installation du cluster
  • Installation de Cloudera Manager Installation
  • Installation du CDH
  • Les services du cluster CDH

CONFIGURER UN CLUSTER CLOUDERA
  • Introduction
  • Paramètres de configuration
  • Modifier la configuration des services
  • Fichiers de configuration
  • Gérer les instances de rôle
  • Ajouter des nouveaux services
  • Ajouter et supprimer des hôtes

HADOOP DISTRIBUTED FILE SYSTEM
  • Introduction
  • Topologie et rôles HDFS
  • Modifier les logs et le checkpointing
  • La performance HDFS et la tolérance à la panne
  • Introduction à la sécurité de HDFS et de Hadoop
  • Interfaces utilisateurs web pour HDFS
  • Utiliser la ligne de commande HDFS
  • Autres outils de ligne de commande

Jour 2

INGESTION DE DONNÉES SUR HDFS
  • Introduction à l'ingestion de données
  • Formats de fichiers
  • Ingérer de la donnée en utilisant File Transfer ou les interfaces REST
  • Ingérer de la donnée d'une base de donnée relationnel avec Sqoop
  • Ingérer de la donnée d'une source externe avec Flume
  • Les bonnes pratiques d'ingestion de donnée

HIVE ET IMPALA
  • Apache Hive
  • Apache Impala

YARN ET MAPREDUCE
  • Introduction à YARN
  • Exécuter des applications sur YARN
  • Explorer les applications YARN
  • Les logs d'application YARN
  • Les applications Map Reduce
  • Réglage mémoire et CPU pour YARN

APACHE SPARK
  • Introduction à Spark
  • Les applications Spark
  • Comment les applications Spark s'exécutent sur YARN
  • Monitorer les applications Spark

Jour 3

DIMENSIONNEMENT DE VOTRE CLUSTER HADOOP
  • Considérations générales relatives au dimensionnement
  • Choix du matériel
  • Considérations sur le réseau
  • Options de virtualisation
  • Options de déploiement cloud
  • Configuration des noeuds

CONFIGURATION AVANCÉ DU CLUSTER
  • Configurer les ports de service
  • Paramétrer HDFS et MapReduce
  • Activer la Haute Disponibilité HDFS

GESTION DES RESSOURCES
  • Configuration de cgroups avec des centres de services statiques
  • Le Fair Scheduler
  • Configurer la gestion dynamique des ressources
  • Planification des requêtes Impala

MAINTENANCE DU CLUSTER
  • Vérification du statut HDFS
  • Copier les données entre clusters
  • Rééquilibrage du cluster
  • Snapshots de répertoires
  • Mise à niveau du cluster

Jour 4

MONITORING DU CLUSTER
  • Fonctionnalités de monitoring de Cloudera Manager
  • Tests de santé
  • Événements et alertes
  • Graphiques et rapports
  • Recommandation de monitoring

DIAGNOSTIC DU CLUSTER
  • Introduction
  • Outils de diagnostic
  • Exemples de mauvaises configurations

INSTALLER ET GÉRER HUE
  • Introduction
  • Gérer et configurer Hue
  • Authentification et autorisation Hue

SÉCURITÉ
  • Les concepts de sécurité sur Hadoop
  • Authentification sur Hadoop en utilisant Kerberos
  • Authorisation sur Hadoop
  • Chiffrement sur Hadoop
  • Sécuriser un cluster Hadoop

CONCLUSION

Suppléments sous réserve de temps disponible

APACHE KUDU
  • Introduction à Kudu
  • Architecture
  • Installation et Configuration
  • Outils de monitoring et de gestion

APACHE KAFKA
  • Qu'est-ce que Apache Kafka ?
  • Introduction à Kafka
  • Architecture de cluster Kafka
  • Outils de ligne de commande Kafka
  • Utiliser Kafka avec Flume

STOCKAGE D'OBJETS DANS LE CLOUD
  • Système de stockage d'objet
  • Connecter Hadoop et un système de stockage objet
Exposé (%)
40
Pratique (%)
50
Echanges (%)
10

M'inscrire à la formation

Demander un devis
Prochaines Sessions
  • Désolé, cette formation n'est pas programmée pour le moment.
    Si vous êtes responsable formation, vous pouvez faire une requête pour l'organiser en INTRA dans votre entreprise.
Dans la même catégorie

Catalogue de formation propulsé par Dendreo,
logiciel spécialisé pour centres et organismes de formation

OCTO Academy respecte votre vie privée

Ce site web stocke des informations vous concernant via le dépôt de cookie afin de mesurer l’audience du site. Ces données de navigation sont anonymisées.

En cliquant sur « OK pour moi », vous manifestez votre consentement pour le dépôt de ces cookies.

Lire la politique de confidentialité

À propos des cookies

Sur ce site, nous utilisons des cookies pour mesurer notre audience, entretenir la relation avec vous et vous adresser de temps à autre du contenu qualitif ainsi que de la publicité. Vous pouvez sélectionner ici ceux que vous autorisez à rester ici.

Cookies