NEW

Administrer la plateforme Hadoop Cloudera

Formation officielle « Cloudera Administrator Training for Apache Hadoop »

Description

Vous souhaitez exploiter le potentiel de vos données pour créer de la valeur et développer votre activité. Avec Hadoop et son architecture flexible et évolutive, vous pouvez stocker, traiter et analyser vos données à partir d’une plateforme unique fonctionnant sur du matériel standard.

Dès sa création en 2008, Cloudera a lié son histoire à celle de l’écosystème Hadoop. Avec ses fondations composées à 100 % de logiciels open source et de standards ouverts, la plate-forme Cloudera vous assure un meilleur contrôle des coûts, plus de souplesse et des résultats plus performants pour votre organisation. CDH, la plate-forme open source de Cloudera, est ainsi devenue la distribution la plus populaire de Hadoop.

De l’installation à la configuration en passant par l’équilibrage de charge et le réglage, cette formation de quatre jours fournit aux participants une compréhension complète de toutes les étapes nécessaires pour opérer et maintenir un cluster Hadoop à l'aide de Cloudera Manager.

Cloudera

Objectifs pédagogiques

  • Reposer les bases de l’environnement Hadoop, MapReduce, Spark et HDFS
  • Gérer un cluster avec les fonctionnalités de Cloudera Manager
  • Déterminer le matériel et l'infrastructure appropriés pour son cluster
  • Configurer et déployer correctement le cluster pour l'intégration avec le système d’information
  • Charger des données dans le cluster à partir de fichiers générés dynamiquement à l'aide de Flume, ou à partir de SGBDR en utilisant Sqoop
  • Configurer FairScheduler pour répartir les ressources entre plusieurs utilisateurs d'un cluster
  • Préparer et maintenir Apache Hadoop en production en utilisant les bonnes pratiques
  • Dépanner, diagnostiquer, mettre au point et résoudre les problèmes sur Hadoop

Public cible

  • Administrateur système
  • Responsable informatique
  • Architecte système
  • Développeur
  • Analyste de données
  • Administrateur de bases de données

Pré-requis

Connaissance de base de la ligne de commande Linux

Méthode pédagogique

Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation.

Cette formation permet de préparer l'examen associé au titre de la certification « Cloudera Certified Associate Administrator ».

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.

MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DE LA FORMATION

L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l'action de formation ainsi que la formalisation des acquis.

Programme :

Jour 1

Introduction

  • Présentation d’Apache Hadoop
    • Pourquoi Hadoop
    • Concepts et fondamentaux
    • Principaux composants d’Hadoop
  • Installation du cluster Hadoop
    • Avantage d’une solution de gestion de Cluster
    • Fonctionnalités de Cloudera Manager
    • Installation de Cloudera Manager
    • Installation d’Hadoop (CDH)
  • Le système de fichiers distribués Hadoop (HDFS)
    • Fonctionnalités de HDFS
    • Écriture et lecture de fichiers
    • Considérations relatives à la mémoire du NameNode
    • Vue d'ensemble sur la sécurité dans HDFS
    • IU Web pour HDFS
    • Utilisation de Hadoop File Shell
  • MapReduce et Spark sur YARN
    • Le rôle des frameworks
    • YARN outil de gestion de clusters
    • Les concepts de MapReduce
    • Les concepts d’Apache Spark
    • Exécution de frameworks sur YARN
    • Exploration des applications YARN via les IU Web et la ligne de commande
    • Les logs d’application de YARN

JOUR 2

  • Configuration de Hadoop et du journal de logs
    • Gérer les configurations avec Cloudera Manager Constructs
    • Appliquer des changements de configuration
    • Gérer des instances et ajouter des services
    • Configurer le service HDFS
    • Configurer les journaux de logs Hadoop
    • Configurer le service YARN
  • Obtenir des données dans HDFS
    • Ingestion de données à partir de sources externes avec Flume
    • Ingestion de données à partir de bases de données relationnelles avec Sqoop
    • Les interfaces REST
    • Les meilleures pratiques pour l'importation de données
  • Dimensionnement de votre cluster Hadoop
    • Considérations générales relatives au dimensionnement
    • Choix du matériel
    • Options de virtualisation
    • Considérations sur le réseau
    • Configuration des noeuds

JOUR 3

  • Installation et configuration de Hive, Impala et Pig
    • Installer et configurer Hive
    • Installer et configurer Impala
    • Installer et configurer Pig
  • Clients Hadoop et Hue
    • Clients Hadoop
    • Installation et configuration des clients Hadoop
    • Installation et configuration de Hue
    • Authentification et autorisation avec Hue
  • Configuration avancée du cluster
    • Paramètres avancés de configuration
    • Configurer les ports Hadoop
    • Configuration de HDFS pour la Rack Awareness
    • Configuration de la haute disponibilité HDFS

JOUR 4

  • Les enjeux de la sécurité dans Hadoop
    • Pourquoi la sécurité Hadoop est-elle importante
    • Concepts du système de sécurité de Hadoop
    • Présentation de Kerberos et de son fonctionnement
    • Sécurisation d'un cluster Hadoop avec Kerberos
    • Autres concepts de sécurité
  • Gestion des ressources
    • Configuration de cgroups avec des centres de services statiques
    • Méthode « Fair Scheduler »
    • Configuration des centres de ressources dynamiques
    • Réglage mémoire et CPU pour YARN
    • Planification des requêtes avec Impala
  • Entretien du cluster
    • Vérification du statut HDFS
    • Copier les données entre clusters
    • Ajout et suppression de noeuds de cluster
    • Rééquilibrage du cluster
    • Snapshots de répertoires
    • Mise à niveau du cluster
  • Monitoring et dépannage du cluster
    • Fonctionnalités de monitoring de Cloudera Manager
    • Monitoring des Clusters Hadoop
    • Dépannage des Clusters Hadoop
    • Mauvaises configurations les plus fréquentes

Pour aller plus loin :

Type : Stage pratique en présentiel
Code formation : CLADM
Durée : 4 jours (28 heures)
Certification : 300 € HT
Tarif & dates intra-entreprise :
Devis sur demande
Nous Contacter