Les fondamentaux d’Hadoop

Description

Cette formation est une initiation aux fondamentaux d’Hadoop. Elle donne aux participants une connaissance théorique et pratique de la plateforme, au travers de plusieurs exercices pratiques appliqués à des cas réels. A l’issue de la session, les participants seront en capacité d’utiliser les outils de l’écosystème Hadoop pour explorer des données stockées sur un entrepôt Big Data.

Objectifs pédagogiques

  • Appréhender le fonctionnement d’Hadoop
  • Identifier l’écosystème : quels outils pour quels usages ?
  • Manipuler les principales commandes shell d’interaction avec Hadoop
  • Emettre des requêtes SQL avec Hive et HCatalog
  • Créer des traitements de données avec Pig

Public cible

  • Analyste
  • Data scientist
  • Architecte
  • Développeur

Pré-requis

Connaissances de base en programmation ou en scripting.

Méthode pédagogique

Apports théoriques préalables présentant la plateforme Hadoop, son fonctionnement et son écosystème.
Travaux pratiques pour une mise en application immédiate.
Les travaux pratiques s’effectueront sur un cluster Apache Hadoop 2.x.

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.

MODALITÉS D’ÉVALUATION

L’évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud est réalisée systématiquement en fin de session.

Programme :

Jour 1

  • Introduction au Big Data
    • Qu’est-ce que Big Data ?
    • Les grands enjeux métier
    • Paysage technologique : les architectures Big Data
  • Introduction à Hadoop
    • Historique succinct
    • Le cœur de la plateforme : HDFS et YARN
    • L’écosystème Hadoop
      • Frameworks et algorithmes
      • Bases de données
      • Traitements des données
      • Intégration
    • Hadoop et la sécurité des données
  • Manipuler la ligne de commande Hadoop
    • Présentation des principales commandes
    • Mise en pratique "Manipulation et transfert de fichiers en ligne de commande
  • Une interface utilisateur pour Hadoop : Hue
    • Présentation de Hue et de ses modules
    • Mise en pratique "Manipulation interactive de données"
  • Interroger Hadoop avec du SQL : Hive
    • Présentation de Hive
    • Mise en pratique "Manipulation de données avec SQL"
      • Créer un modèle de données
      • Importer des fichiers sources
      • Requêter les données

Jour 2

  • Transformer des données : le langage Pig
    • Présentation de Pig
    • Mise en pratique "Transformation de données avec Pig"
      • Charger des données semi-structurées
      • Croiser avec des données Hive
      • Sauvegarder le résultat dans HDFS
  • Ecriture de traitements avancés
    • Présentation du framework Hadoop Streaming
    • Présentation express du langage Python et du squelette de programme pour l’exercice
    • Mise en pratique "Ecriture d’un programme de manipulation complexe"
  • Composition et ordonnancement de traitements
    • Présentation d’Oozie
    • Mise en pratique "Création d’un pipeline de traitement de données"

Pour aller plus loin :

Type : Stage pratique
Code formation : HDP01
Durée : 2 jours (14 heures)

Sessions inter-entreprises :

Tarif & dates intra-entreprise :
Devis sur demande
Nous Contacter