Accueil / Formations

Formations

Administrer la plateforme Hadoop Cloudera Mixte : présentiel / à distance

Dernière mise à jour : 30/04/2021

Formation officielle Cloudera Administrator Training for Apache Hadoop
Type : Stage pratique en présentiel
Description
Vous souhaitez exploiter le potentiel de vos données pour créer de la valeur et développer votre activité. Avec Hadoop et son architecture flexible et évolutive, vous pouvez stocker, traiter et analyser vos données à partir d'une plateforme unique fonctionnant sur du matériel standard.

Dès sa création en 2008, Cloudera a lié son histoire à celle de l'écosystème Hadoop. Avec ses fondations composées à 100 % de logiciels open source et de standards ouverts, la plate-forme Cloudera vous assure un meilleur contrôle des coûts, plus de souplesse et des résultats plus performants pour votre organisation. CDH, la plate-forme open source de Cloudera, est ainsi devenue la distribution la plus populaire de Hadoop.

De l'installation à la configuration en passant par l'équilibrage de charge et le réglage, cette formation de quatre jours fournit aux participants une compréhension complète de toutes les étapes nécessaires pour opérer et maintenir un cluster Hadoop à l'aide de Cloudera Manager.
Objectifs de la formation
  • Reposer les bases de l'environnement Hadoop, MapReduce, Spark et HDFS
  • Gérer un cluster avec les fonctionnalités de Cloudera Manager
  • Déterminer le matériel et l'infrastructure appropriés pour son cluster
  • Configurer et déployer correctement le cluster pour l'intégration avec le système d'information
  • Charger des données dans le cluster à partir de fichiers générés dynamiquement à l'aide de Flume, ou à partir de SGBDR en utilisant Sqoop
  • Configurer FairScheduler pour répartir les ressources entre plusieurs utilisateurs d'un cluster
  • Préparer et maintenir Apache Hadoop en production en utilisant les bonnes pratiques
  • Dépanner, diagnostiquer, mettre au point et résoudre les problèmes sur Hadoop
Certification
Cette formation permet de préparer la certification CCA Administrator Certification.
L'inscription à la certification vous sera proposée de façon optionnelle au tarif de 300,00 € HT par tentative.
Public visé
Administrateur système
Responsable informatique
Architecte système
Développeur
Analyste de données
Administrateur de bases de données
Prérequis
Connaissance de base de la ligne de commande Linux
Modalités pédagogiques
Formation avec apports théoriques, échanges sur les contextes des participants et retours d'expérience pratique du formateur, complétés de travaux pratiques et de mises en situation. Cette formation permet de préparer l'examen associé au titre de la certification « Cloudera Certified Associate Administrator ».
Profil du / des Formateur(s)
Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.
Modalités d'évaluation et de suivi
L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l'action de formation ainsi que la formalisation des acquis.
Programme
Jour 1

1.Introduction

2.Cloudera Enterprise Data Hub 
2.1.Cloudera Enterprise Data Hub 
2.2.Introduction au CDH
2.3.Introduction à Cloudera Manager
2.4.Les responsabilités d'un administrateur Hadoop

3.Installation de Cloudera Manager et du CDH 
3.1.Introduction à l'installation du cluster
3.2.Installation de Cloudera Manager Installation 
3.3.Installation du CDH 
3.4.Les services du cluster CDH

4.Configurer un cluster Cloudera
4.1.Introduction 
4.2.Paramètres de configuration
4.3.Modifier la configuration des services
4.4.Fichiers de configuration 
4.5.Gérer les instances de rôle
4.6.Ajouter des nouveaux services
4.7.Ajouter et supprimer des hôtes

5.Hadoop Distributed File System 
5.1.Introduction
5.2.Topologie et rôles HDFS
5.3.Modifier les logs et le checkpointing
5.4.La performance HDFS et la tolérance à la panne
5.5.Introduction à la sécurité de HDFS et de Hadoop
5.6.Interfaces utilisateurs web pour HDFS
5.7.Utiliser la ligne de commande HDFS
5.8.Autres outils de ligne de commande

Jour 2

6.Ingestion de données sur HDFS
6.1.Introduction à l'ingestion de données
6.2.Formats de fichiers
6.3.Ingérer de la donnée en utilisant File Transfer ou les interfaces REST
6.4.Ingérer de la donnée d'une base de donnée relationnel avec Sqoop
6.5.Ingérer de la donnée d'une source externe avec Flume
6.6.Les bonnes pratiques d'ingestion de donnée

7.Hive et Impala 
7.1.Apache Hive 
7.2.Apache Impala 

8.YARN et MapReduce
8.1.Introduction à YARN 
8.2.Exécuter des applications sur YARN
8.3.Explorer les applications YARN
8.4.Les logs d'application YARN
8.5.Les applications Map Reduce
8.6.Réglage mémoire et CPU pour YARN 

9.Apache Spark 
9.1.Introduction à Spark
9.2.Les applications Spark
9.3.Comment les applications Spark s'exécutent sur YARN
9.4.Monitorer les applications Spark

Jour 3

10.Dimensionnement de votre cluster Hadoop
10.1.Considérations générales relatives au dimensionnement
10.2.Choix du matériel
10.3.Considérations sur le réseau
10.4.Options de virtualisation 
10.5.Options de déploiement cloud
10.6.Configuration des noeuds

11.Configuration avancé du cluster
11.1.Configurer les ports de service
11.2.Paramétrer HDFS et MapReduce
11.3.Activer la Haute Disponibilité HDFS

12.Gestion des ressources
12.1.Configuration de cgroups avec des centres de services statiques
12.2.Le Fair Scheduler 
12.3.Configurer la gestion dynamique des ressources
12.4.Planification des requêtes Impala

13.Maintenance du cluster 
13.1.Vérification du statut HDFS
13.2.Copier les données entre clusters
13.3.Rééquilibrage du cluster
13.4.Snapshots de répertoires
13.5.Mise à niveau du cluster

Jour 4

14.Monitoring du cluster
14.1.Fonctionnalités de monitoring de Cloudera Manager
14.2.Tests de santé 
14.3.Événements et alertes
14.4.Graphiques et rapports
14.5.Recommandation de monitoring

15.Diagnostic du cluster
15.1.Introduction 
15.2.Outils de diagnostic
15.3.Exemples de mauvaises configurations

16.Installer et gérer Hue
16.1.Introduction 
16.2.Gérer et configurer Hue
16.3.Authentification et autorisation Hue

17.Sécurité 
17.1.Les concepts de sécurité sur Hadoop
17.2.Authentification sur Hadoop en utilisant Kerberos
17.3.Authorisation sur Hadoop
17.4.Chiffrement sur Hadoop
17.5.Sécuriser un cluster Hadoop

18.Conclusion 

Suppléments sous réserve de temps disponible

19.Apache Kudu 
19.1.Introduction à Kudu
19.2.Architecture
19.3.Installation et Configuration
19.4.Outils de monitoring et de gestion

20.Apache Kafka 
20.1.Qu'est-ce que Apache Kafka ?
20.2.Introduction à Kafka
20.3.Architecture de cluster Kafka
20.4.Outils de ligne de commande Kafka
20.5.Utiliser Kafka avec Flume

21.Stockage d'objets dans le cloud
21.1.Système de stockage d'objet
21.2.Connecter Hadoop et un système de stockage objet
Exposé (%)
40
Pratique (%)
50
Echanges (%)
10

M'inscrire à la formation

Lieu :
Classe virtuelle
PARIS
Détail des horaires :
Demander un devis
Prochaines Sessions
  • 25/05/21 → 28/05/21 Présentiel / à distance Classe virtuelle
  • 20/09/21 → 23/09/21 Présentiel / à distance PARIS
Dans la même catégorie

Catalogue de formation propulsé par Dendreo,
logiciel spécialisé pour centres et organismes de formation