Administrer la base de données HBase avec Hadoop 2.X Hortonworks

Formation Hadoop officielle Hortonworks "HDP Operations: Apache HBase Advanced Management"

Description

Inspirée des publications de Google sur BigTable, HBase est un SGBD non relationnel capable de gérer d'énormes quantités de données.

Intégré à l’écosystème Hadoop, il permet de distribuer les données en utilisant le système de fichiers distribué HDFS (Hadoop Distributed File System) du framework. Son fonctionnement, qui repose donc sur le stockage distribué des données sur un cluster de machines physiques, garantit à la fois la haute disponibilité et les hautes performances des bases. Deux arguments de poids qui suffisent à comprendre le succès croissant de la solution.

A l’issue de cette formation, les participants disposeront des connaissances et compétences nécessaires à la mise en œuvre de HBase.

Hortonworks

Objectifs pédagogiques

  • Savoir installer HBase
  • Sécuriser les accès cluster
  • Assurer la maintenance des données
  • Monitorer HBase pour faciliter la résolution de problème
  • Optimiser les performances

Public cible

  • Architecte
  • Administrateur
  • Analyste Développeur
  • Tech lead
  • Chef de projet
  • Gestionnaire de bases de données

Pré-requis

Connaissance de l’environnement Linux et des SGBD relationnels

Méthode pédagogique

Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation.

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.

MODALITÉS D’ÉVALUATION

L’évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud est réalisée systématiquement en fin de session.

Programme :

Jour 1

  • Introduction à Hadoop
    • Présentation de cas d’usage big data
    • Différents types de données : structurée, non structurée
    • Les caractéristiques d’un projet big data
    • Hadoop et Hortonworks
  • HDFS et Yarn
    • Démonstration pour la découverte et l’utilisation de HDFS (Hadoop Distributed File System)
    • Architecture de Yarn
  • Introduction à HBase
    • Modèle clé-valeur, lignes, colonnes
    • Architecture
    • Phoenix, une solution pour requêter HBase en SQL

Jour 2

  • Installation
    • Installations de Standalone : semi-distribuées ou pleinement distribuées
    • Prérequis demandés : Java, Zookeeper, Master Server, Region Server
    • Installation manuelle ou automatisée avec Ambari
    • Mise en pratique : "Installation automatisée avec Ambari"
    • Mise en pratique : "Installation manuelle"
    • Vérification de l'installation
  • Utilisation du client
    • Commandes générales
    • Manipulation des tables
    • Manipulation des données
    • Mise en pratique : "Exploration des commandes"
    • Mise en pratique : "Administration du cluster (régions, balance, etc.)"
  • Ingestion de données
    • Composants impliqués dans le stockage (re, Write Ahead log, Memstore, HFile, etc.)
    • Modèle de stockage : paires clés-valeur, clés de lignes, familles de colonnes, etc.
    • Appréhender les mécanismes de lecture et d'écriture de données
    • Flush process (memstore, etc.)
    • Compactage des régions
    • Ingestion de données en masse (import tsv, coompletebulkload)
    • Mise en pratique : "Utiliser ImportTSV pour ingérer des données"
    • CopyTable (use cases, exemples)

Jour 3

  • Gestion des opérations
    • Utilisation d'Ambari pour gérer HBase
    • Haute disponibilité (sauvegarde des maires, lectures HA)
    • Mise en pratique : "Haute disponibilité"
    • Log files (log4j, Linux, GUI Master Server)
    • Mise en pratique : "Log files"
    • Coprocesseur : le pendant des triggers SQL
    • Filtres (filtres de scan, filtres customs)
  • Sauvegarde et restauration des données
    • Protection des données : réplication HDFS, réplication de clusters, backup et snapshots
    • Mise en pratique : "Snapshots"
    • Réplication de cluster : topologies, configuration
    • Mise en pratique : "Réplication"
    • Snapshots hbase : processus, création et gestion, travailler avec
  • Sécurité
    • Authentification
    • Autorisations et Access Control Lists
    • Mise en pratique : "Autorisations et Access Control Lists"
    • Commandes Hbase Shell relatives à la sécurité
    • Ranger : un outil pour configurer les autorisations sur l'ensemble du cluster
    • Knox : un point d'accès sécurisé au cluster
    • Authentifications simples
    • Bulk load secure

Jour 4

  • Monitoring HBase et diagnostic des problèmes
    • Métriques importantes (Master Server, Region Server)
    • Les outils de monitoring HBase : Nagios, Ganglia, OpenTSDB
    • Identifier les HotSpots
    • Mise en pratique : "Identifier les hotspots"
    • Eviter les hotspots par le design des clés de ligne
    • Utiliser le pré-split
  • Maintenance
    • Split de régions
    • Mise en pratique : "Split de régions"
    • Load balancer
    • Monitoring de la taille des régions
    • Split et merge manuel de régions
    • Problèmes d'intégrité (utilisation de hbck)
  • Résolution de problèmes
    • Vérification des statuts Zookeeper
    • Monitoring des garbage collection de la JVM
    • Mise en pratique : "Monitoring des garbage collection de la JVM"
    • Résolution des erreurs au démarrage des serveurs HBase
    • Régler HBase pour obtenir de meilleures performances
    • Régler HDFS pour obtenir de meilleures performances
  • Projet récapitulatif

Pour aller plus loin :

Type : Stage pratique
Code formation : HWHB2
Durée : 4 jours (28 heures)
Tarif & dates intra-entreprise :
Devis sur demande
Nous Contacter