Développer des applications pour Hadoop 2.X Hortonworks avec Java

Formation Hadoop officielle Hortonworks "HDP Developer: Java"

Description

Ce stage de formation présente les grands outils de l’écosystème Hadoop d’un point de vue technique et est orienté développement Java. Les objectifs principaux sont d’avoir une parfaite compréhension et pratique du framework d’exécution de calculs MapReduce ainsi que d’être capable de développer des modules d’extensions de Pig et Hive.

Hortonworks

Objectifs pédagogiques

  • Identifier et définir les différents composants de l’écosystème Hadoop
  • Appréhender l’architecture de Hadoop 2.X
  • Mettre en application les techniques avancées MapReduce
  • Analyser un use case métier et valoriser les données correspondantes

Public cible

  • Architecte
  • Développeur
  • Analyste

Pré-requis

Bonne connaissance du langage Java.

Méthode pédagogique

Formation avec d’importants apports théoriques, des retours d’expérience du formateur complétés de travaux pratiques sous forme d’exercices d’application et d’analyse de uses cases métier.

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.

MODALITÉS D’ÉVALUATION

L’évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud est réalisée systématiquement en fin de session.

Programme :

Jour 1

  • Comprendre Hadoop 2.X et HDFS
    • Hadoop et Hadoop 2.X
    • Le système de gestion de ressources et de cluster YARN
    • Le système de fichiers distribué HDFS
      • Prise en main de l’environnement de développement Hadoop et accès aux fichiers HDFS
  • Ecrire des applications MapReduce
    • Illustration avec un exemple simple
    • Grands principes du framework MapReduce
    • MapReduce sur YARN
      • Développement de programmes MapReduce
  • Les agrégations avec MapReduce
    • Utilisation des combiners
    • Utilisation de l’in-map agrégation
      • Mise en pratique de l’agrégation à travers deux exemples

Jour 2

  • Partitionnement et tri
    • Le partitioner de MapReduce
    • Analyse et compréhension du Secondary Sort
      • Implémentation de deux types de Partitioner
      • Implémentation du Secondary Sort à travers un cas pratique
  • Input et Output formats
    • Récapitulatifs des formats d’entrée et de sortie standards MapReduce
    • Analyse du fonctionnement d’un input format
      • Implémentations d’un input format et d’un output format
  • Optimiser les jobs MapReduce
    • Optimisation des différentes phases d’un programme MapReduce
    • Utilisation et paramétrage de la compression
    • Utilisation des comparateurs de données non sérialisées
      • Illustration du principe de la compression de données
      • Implémentation d’un RawComparator

Jour 3

  • Fonctionnalités avancées de MapReduce
    • Localisation partagée des données
    • Les différents types de jointure
    • Les filtres de Bloom
      • Illustration d’une jointure côté Map
      • Illustration de l’utilisation d’un filtre de Bloom
  • Tester unitairement son code
    • Présentation de la librairie MRUnit
      • Ecriture de tests unitaires
  • Programmation HBase
    • Architecture de HBase
    • Interactions avec HBase
      • Import de données avec HBase
      • Illustration d’un job MapReduce avec HBase

Jour 4

  • Programmation Pig
    • Types et mots-clés dans Pig
    • Extension de Pig via les classes définies par l’utilisateur (UDF)
      • Implémentation d’une UDF
  • Programmation Hive
    • Types et mots-clés dans Hive
    • Extension de Hive via les classes définies par l’utilisateur (UDF)
      • Implémentation d’une UDF
  • Créer et utiliser un workflow Oozie
    • Workflow et coordinateur Oozie
    • Actions possibles avec Oozie

Pour aller plus loin :

Type : Stage pratique
Code formation : HWJAV
Durée : 4 jours (28 heures)
Certification : 280 € HT
Tarif & dates intra-entreprise :
Devis sur demande
Nous Contacter