BEST

Analyse de données pour Hadoop 2.X Hortonworks avec Pig, Hive et Spark

Formation Hadoop officielle Hortonworks "HDP Developer: Apache Pig and Hive"

Description

Cette formation présente les grands outils de l’écosystème Hadoop en se focalisant plus spécifiquement sur Pig et Hive. Le principal objectif est le développement de compétences de data analyst orientées accès et traitement des données sans nécessairement avoir un fort background technique.

Hortonworks

Objectifs pédagogiques

  • Identifier et définir les différents composants de l’écosystème Hadoop
  • Appréhender l’architecture de Hadoop 2.X
  • Expérimenter les outils d’exploration et d’analyse avancée de données

Public cible

  • Analyste
  • Statisticien
  • Développeur

Pré-requis

Connaissances de base en scripting (SQL, Python, R) ou en programmation.

Méthode pédagogique

Formation mêlant des apports théoriques à de nombreux travaux pratiques sous forme d’exercices d’application et d’analyse de uses cases métier complétés des retours d’expérience du formateur.

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.

MODALITÉS D’ÉVALUATION

L’évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud est réalisée systématiquement en fin de session.

Programme :

Jour 1

  • Comprendre Hadoop 2.X
    • L’architecture de Hadoop 2.X
    • The Hortonworks Data Platform (HDP)
  • Le système de fichiers distribué HDFS
    • Architecture fonctionnelle de HDFS
      • Exercice d’interaction en ligne de commande avec HDFS
  • Alimenter HDFS en données
    • Prise en main de l’outil Flume
    • Prise en main de l’outil Sqoop
      • Application de ces deux outils d’import et d’export des données
  • Le framework MapReduce
    • Architecture et fonctionnement général de MapReduce
      • Exemples d’utilisation d’un job MapReduce
    • Présentation de Hadoop Streaming

Jour 2

  • Introduction à Pig
    • Types et mots-clés dans Pig
      • Exploration de données avec Pig
  • Programmation Pig avancée
    • Mots-clés et fonctionnalités avancées dans Pig
    • Jointures dans Pig
    • Astuces d’optimisation de scripts Pig
      • Analyse de cas d’usages métier divers avec Pig

Jour 3

  • Programmation Hive
    • Types et mots-clés dans Hive
    • Concept de table et base de données dans Hive
    • Présentation et explication des types de jointures
      • Démonstration de jointures
      • Analyse de cas d’usages métier
  • Utiliser HCatalog
    • Fonctionnement et utilisation de HCatalog
      • Démonstration du fonctionnement de HCatalog

Jour 4

  • Programmation Hive Avancée
    • Les vues dans Hive
    • Les différents formats de stockage des tables Hive
    • Optimisation de scripts Hive
      • Illustration des fonctions avancées
  • Hadoop 2.X et YARN
    • Architecture de YARN
      • Démonstration d’une application YARN
  • Apache Spark
    • Introduction à Spark
    • Programmation Spark (RDD, programmation fonctionnelle)
      • Ecriture d’un job Spark en Python
    • Spark SQL et les DataFrames
      • Utilisation de Spark SQL et des DataFrames sur des tables Hive et des fichiers HDFS
  • Créer et utiliser un workflow Oozie
    • Workflow et coordinateur Oozie
    • Actions possibles avec Oozie

L'avis de nos clients

Excellent formateur, professionnel et très à l'écoute. (Et réactif !!!)

Elvire DECALLONNE, Chef de projet BI - Natixis

Pour aller plus loin :

Type : Stage pratique
Code formation : HWAPH
Durée : 4 jours (28 heures)
Certification : 280 € HT

Sessions inter-entreprises :

Tarif & dates intra-entreprise :
Devis sur demande
Nous Contacter