En navigant sur ce site, vous acceptez l’utilisation de cookies ou autres traceurs vous permettant une utilisation optimale du site (partages sur les réseaux sociaux, statistiques de visite, etc.)
BEST

Administrer la plateforme Hadoop Cloudera

Formation officielle « Cloudera Administrator Training for Apache Hadoop »

Description

Vous souhaitez exploiter le potentiel de vos données pour créer de la valeur et développer votre activité. Avec Hadoop et son architecture flexible et évolutive, vous pouvez stocker, traiter et analyser vos données à partir d’une plateforme unique fonctionnant sur du matériel standard.

Dès sa création en 2008, Cloudera a lié son histoire à celle de l’écosystème Hadoop. Avec ses fondations composées à 100 % de logiciels open source et de standards ouverts, la plate-forme Cloudera vous assure un meilleur contrôle des coûts, plus de souplesse et des résultats plus performants pour votre organisation. CDH, la plate-forme open source de Cloudera, est ainsi devenue la distribution la plus populaire de Hadoop.

De l’installation à la configuration en passant par l’équilibrage de charge et le réglage, cette formation de quatre jours fournit aux participants une compréhension complète de toutes les étapes nécessaires pour opérer et maintenir un cluster Hadoop à l'aide de Cloudera Manager.

Cloudera

Objectifs pédagogiques

  • Reposer les bases de l’environnement Hadoop, MapReduce, Spark et HDFS
  • Gérer un cluster avec les fonctionnalités de Cloudera Manager
  • Déterminer le matériel et l'infrastructure appropriés pour son cluster
  • Configurer et déployer correctement le cluster pour l'intégration avec le système d’information
  • Charger des données dans le cluster à partir de fichiers générés dynamiquement à l'aide de Flume, ou à partir de SGBDR en utilisant Sqoop
  • Configurer FairScheduler pour répartir les ressources entre plusieurs utilisateurs d'un cluster
  • Préparer et maintenir Apache Hadoop en production en utilisant les bonnes pratiques
  • Dépanner, diagnostiquer, mettre au point et résoudre les problèmes sur Hadoop

Public cible

  • Administrateur système
  • Responsable informatique
  • Architecte système
  • Développeur
  • Analyste de données
  • Administrateur de bases de données

Pré-requis

Connaissance de base de la ligne de commande Linux

Méthode pédagogique

Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation.

Cette formation permet de préparer l'examen associé au titre de la certification « Cloudera Certified Associate Administrator ».

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.

MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DE LA FORMATION

L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l'action de formation ainsi que la formalisation des acquis.

Programme :

Jour 1

  • Introduction
  • Cloudera Enterprise Data Hub
    • Cloudera Enterprise Data Hub
    • Introduction au CDH
    • Introduction à Cloudera Manager
    • Les responsabilités d’un administrateur Hadoop
  • Installation de Cloudera Manager et du CDH
    • Introduction à l’installation du cluster
    • Installation de Cloudera Manager Installation
    • Installation du CDH
    • Les services du cluster CDH
  • Configurer un cluster Cloudera
    • Introduction
    • Paramètres de configuration
    • Modifier la configuration des services
    • Fichiers de configuration
    • Gérer les instances de rôle
    • Ajouter des nouveaux services
    • Ajouter et supprimer des hôtes
  • Hadoop Distributed File System
    • Introduction
    • Topologie et rôles HDFS
    • Modifier les logs et le checkpointing
    • La performance HDFS et la tolérance à la panne
    • Introduction à la sécurité de HDFS et de Hadoop
    • Interfaces utilisateurs web pour HDFS
    • Utiliser la ligne de commande HDFS
    • Autres outils de ligne de commande

Jour 2

  • Ingestion de données sur HDFS
    • Introduction à l’ingestion de données
    • Formats de fichiers
    • Ingérer de la donnée en utilisant File Transfer ou les interfaces REST
    • Ingérer de la donnée d’une base de donnée relationnel avec Sqoop
    • Ingérer de la donnée d’une source externe avec Flume
    • Les bonnes pratiques d’ingestion de donnée
  • Hive et Impala
    • Apache Hive
    • Apache Impala
  • YARN et MapReduce
    • Introduction à YARN
    • Exécuter des applications sur YARN
    • Explorer les applications YARN
    • Les logs d’application YARN
    • Les applications Map Reduce
    • Réglage mémoire et CPU pour YARN
  • Apache Spark
    • Introduction à Spark
    • Les applications Spark
    • Comment les applications Spark s'exécutent sur YARN
    • Monitorer les applications Spark

Jour 3

  • Dimensionnement de votre cluster Hadoop
    • Considérations générales relatives au dimensionnement
    • Choix du matériel
    • Considérations sur le réseau
    • Options de virtualisation
    • Options de déploiement cloud
    • Configuration des noeuds
  • Configuration avancé du cluster
    • Configurer les ports de service
    • Paramétrer HDFS et MapReduce
    • Activer la Haute Disponibilité HDFS
  • Gestion des ressources
    • Configuration de cgroups avec des centres de services statiques
    • Le Fair Scheduler
    • Configurer la gestion dynamique des ressources
    • Planification des requêtes Impala
  • Maintenance du cluster
    • Vérification du statut HDFS
    • Copier les données entre clusters
    • Rééquilibrage du cluster
    • Snapshots de répertoires
    • Mise à niveau du cluster

Jour 4

  • Monitoring du cluster
    • Fonctionnalités de monitoring de Cloudera Manager
    • Tests de santé
    • Événements et alertes
    • Graphiques et rapports
    • Recommandation de monitoring
  • Diagnostic du cluster
    • Introduction
    • Outils de diagnostic
    • Exemples de mauvaises configurations
  • Installer et gérer Hue
    • Introduction
    • Gérer et configurer Hue
    • Authentification et autorisation Hue
  • Sécurité
    • Les concepts de sécurité sur Hadoop
    • Authentification sur Hadoop en utilisant Kerberos
    • Authorisation sur Hadoop
    • Chiffrement sur Hadoop
    • Sécuriser un cluster Hadoop
  • Conclusion

Suppléments sous réserve de temps disponible

  • Apache Kudu
    • Introduction à Kudu
    • Architecture
    • Installation et Configuration
    • Outils de monitoring et de gestion
  • Apache Kafka
    • Qu’est-ce que Apache Kafka ?
    • Introduction à Kafka
    • Architecture de cluster Kafka
    • Outils de ligne de commande Kafka
    • Utiliser Kafka avec Flume
  • Stockage d’objets dans le cloud
    • Système de stockage d’objet
    • Connecter Hadoop et un système de stockage objet

Pour aller plus loin :

Type : Stage pratique en présentiel
Code formation : CLADM
Durée : 4 jours (28 heures)
Certification : 300 € HT

Sessions inter-entreprises :

Tarif & dates intra-entreprise :
Devis sur demande
Nous Contacter