Cloudera Data Analyst : utiliser Pig, Hive et Impala avec Hadoop

Formation officielle « Cloudera Data Analyst Training: using Pig, Hive, and Impala with Hadoop »

Description

Cloudera propose aux professionnels de la donnée les outils les plus performants pour accéder, manipuler, transformer et analyser des ensembles de données complexes, en utilisant SQL et les langages de script les plus courants.

Au cours de cette formation Data Analyst, vous apprendrez à appliquer vos compétences d'analyse de données et de business intelligence aux grands outils de données comme Apache Impala (en incubation), Apache Hive et Apache Pig.

Apache Pig apporte à Hadoop les capacités des langages de script familiers. Apache Hive, par l'intermédiaire de son langage HiveQL proche du SQL, permet la transformation et l'analyse de données complexes et multi-structurées évolutives dans Hadoop. Enfin, Cloudera Impala permet l'analyse interactive instantanée des données stockées dans Hadoop dans un environnement SQL natif.

Ensemble, Pig, Hive et Impala rendent les données multi-structurées accessibles aux analystes, aux administrateurs de base de données et à d'autres utilisateurs, sans nécessité de connaître la programmation Java.

Cloudera

Objectifs pédagogiques

  • Acquérir, stocker et analyser des données à l'aide de Pig, Hive et Impala
  • Effectuer des tâches fondamentales d'ETL avec les outils Hadoop (extraire, transformer et charger) : ingestion et traitement avec Hadoop
  • Utiliser Pig, Hive et Impala pour améliorer la productivité sur les tâches d'analyse typiques
  • Relier des jeux de données de diverses provenances pour obtenir une meilleure connaissance commerciale
  • Effectuer des requêtes complexes sur les jeux de données

Public cible

  • Analystes de données
  • Spécialiste de la business intelligence
  • Développeur
  • Architectes système
  • Administrateur de bases de données

Pré-requis

  • Connaissance de SQL.
  • Connaissance de base des lignes de commandes Linux.
  • Connaissance préalable d'Apache Hadoop non requise.
  • Connaissance d'un langage de script (comme Bash scripting, Perl, Python ou Ruby) est utile, mais pas indispensable.

Méthode pédagogique

Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation.
Cette formation permet de préparer l'examen associé au titre de la certification « Cloudera Certified Associate Data Analyst » attestant des compétences acquises. La certification se déroule en dehors du temps de formation.

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.

MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DE LA FORMATION

L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l'action de formation ainsi que la formalisation des acquis.

Programme :

Jour 1

Introduction

  • Les fondamentaux d’Hadoop
    • Pourquoi choisir Hadoop ?
    • Présentation d’Hadoop
    • Stockage de données : HDFS
    • Traitement des données distribuées : YARN, MapReduce et Spark
    • Traitement et analyse des données : Pig, Hive et Impala
    • Intégration de base de données : Sqoop
    • Les autres outils Hadoop
    • Présentation des exercices
  • Introduction à Pig
    • Présentation de Pig
    • Les fonctionnalités de Pig
    • Cas d’utilisation de Pig
    • Interagir avec Pig
  • Analyse basique de données avec Pig
    • La syntaxe Pig Latin
    • Chargement des données
    • Types de données simples
    • Définitions de champs
    • Sortie de données
    • Affichage du schéma
    • Filtrage et tri des données
    • Fonctions couramment utilisées
  • Traitement des données complexes avec Pig
    • Formats de stockage
    • Types de données complexes / imbriquées
    • Regroupement
    • Fonctions intégrées pour les données complexes
    • Itération sur les données groupées
  • Manipulation de plusieurs jeux de données avec Pig
    • Techniques de combinaison de jeux de données
    • Jointure de jeux de données dans Pig
    • Opérations ensemblistes
    • Diviser des jeux de données
  • Débogage de Pig et optimisation
    • Débogage
    • Journalisation
    • Utilisation de l'interface utilisateur web d'Hadoop
    • Échantillonnage de données et débogage
    • Vue d’ensemble de la performance
    • Comprendre le plan d'exécution
    • Conseils pour améliorer la performance des jobs de Pig

Jour 2

  • Introduction à Hive et à Impala
    • Présentation de Hive
    • Présentation d'Impala
    • Pourquoi utiliser Hive et Impala?
    • Schéma et stockage de données
    • Comparaison de Hive et Impala avec les bases de données traditionnelles
    • Cas d'utilisation
  • Requêtes avec Hive et Impala
    • Bases de données et tables
    • Syntaxe de base des langages de requête Hive et Impala
    • Types de données
    • Utilisation de Hue pour exécuter des requêtes
    • Utilisation de Beeline (Shell Hive)
    • Utilisation de Impala Shell
  • Gestion des données avec Hive et Impala
    • Stockage de données
    • Création de bases de données et de tables
    • Chargement des données
    • Modification des bases de données et des tables
    • Simplification des requêtes au moyen de vues
    • Enregistrement des résultats de requêtes

Jour 3

  • Stockage de données et performances
    • Tables partitionnées
    • Chargement des données dans des tables partitionnées
    • Quand utiliser le partitionnement
    • Choisir un format de fichier
    • Utilisation des formats de fichier Avro et Parquet
  • Analyse relationnelle de données avec Hive et Impala
    • Jointure de jeux de données
    • Fonctions communes intégrées
    • Agrégation et fenêtrage
  • Données complexes avec Hive et Impala
    • Données complexes avec Hive
    • Données complexes avec Impala
  • Analyse de texte avec Hive et Impala
    • Utilisation d'expressions régulières avec Hive et Impala
    • Traitement des données textuelles dans Hive avec des SerDes
    • Analyse de sentiment et n-grams

Jour 4

  • Optimisation de Hive
    • Comprendre les performances des requêtes
    • Bucketing
    • Indexation des données
    • Hive sur Spark
  • Optimisation d’Impala
    • Exécution de requête avec Impala
    • Améliorer la performance d’Impala
  • Extension de Hive et d’Impala
    • SerDes et formats de fichier personnalisés dans Hive
    • Transformation de données avec des scripts personnalisés dans Hive
    • Fonctions définies par l'utilisateur
    • Requêtes paramétrées
  • Choisir le meilleur outil
    • Comparaison de Pig, Hive, Impala et des bases de données relationnelles
    • Critères de choix
  • Clôture de la session

Pour aller plus loin :

Type : Stage pratique en présentiel
Code formation : CLANA
Durée : 4 jours (28 heures)
Certification : 300 € HT

Sessions inter-entreprises :

Tarif & dates intra-entreprise :
Devis sur demande
Nous Contacter