Formation officielle
Format : Stage pratique
Niveau Fondamentaux
 
 
 
 
Répartition du temps : 10% exposés
80% pratique
10% échanges

La formation en détails

Description

Cloudera propose aux professionnels de la donnée les outils les plus performants pour accéder, manipuler, transformer et analyser des ensembles de données complexes, en utilisant SQL et les langages de script les plus courants.. . Au cours de cette formation Data Analyst, vous apprendrez à appliquer vos compétences d'analyse de données et de business intelligence aux grands outils de données comme Apache Impala (en incubation) et Apache Hive.

Apache Hive, par l'intermédiaire de son langage HiveQL proche du SQL, permet la transformation et l'analyse de données complexes et multi-structurées évolutives dans Hadoop. Enfin, Cloudera Impala permet l'analyse interactive instantanée des données stockées dans Hadoop dans un environnement SQL natif.

Ensemble, Hive et Impala rendent les données multi-structurées accessibles aux analystes, aux administrateurs de base de données et à d'autres utilisateurs, sans nécessité de connaître la programmation Java. .

Objectifs

  • Acquérir, stocker et analyser des données à l'aide de Hive et Impala
  • Effectuer des tâches fondamentales d'ETL avec les outils Hadoop (extraire, transformer et charger) : ingestion et traitement avec Hadoop
  • Utiliser Hive et Impala pour améliorer la productivité sur les tâches d'analyse typiques
  • Relier des jeux de données de diverses provenances pour obtenir une meilleure connaissance commerciale
  • Effectuer des requêtes complexes sur les jeux de données

Certification

Cette formation permet de préparer la certification CCA Data Analyst.
L'inscription à la certification vous sera proposée de façon optionnelle au tarif de 350,00 € HT par tentative.

Public cible

  • Analyste de données
  • Spécialiste de la business intelligence
  • Développeur
  • Architecte système
  • Administrateur de bases de données

Prérequis

  • Connaissance de SQL Connaissance de base des lignes de commandes Linux
  • Connaissance préalable d'Apache Hadoop non requise
  • Connaissance d'un langage de script (comme Bash scripting, Perl, Python ou Ruby) est utile, mais pas indispensable.

Modalités pédagogiques

Formation avec apports théoriques, échanges sur les contextes des participants et retours d'expérience du formateur, complétés de travaux pratiques et de mises en situation. Cette formation permet de préparer l'examen associé au titre de la certification « Cloudera Certified Associate Data Analyst » attestant des compétences acquises. La certification se déroule en dehors du temps de formation.

Profil du formateur

Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.
 

Modalités d'évaluation et de suivi

L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l'action de formation ainsi que la formalisation des acquis.
 

Programme détaillé

JOUR 1

LES FONDAMENTAUX D'HADOOP
  • Pourquoi choisir Hadoop ?
  • Présentation d’Hadoop
  • Stockage de données : HDFS
  • Traitement des données distribuées : YARN, MapReduce et Spark
  • Traitement et analyse des données : Hive et Impala
  • Intégration de base de données : Sqoop
  • Les autres outils Hadoop
  • Présentation des exercices

INTRODUCTION À HIVE ET IMPALA
  • Présentation de Hive
  • Présentation d'Impala
  • Pourquoi utiliser Hive et Impala?
  • Schéma et stockage de données
  • Comparaison de Hive et Impala avec les bases de données traditionnelles
  • Cas d'utilisation

REQUÊTE AVEC HIVE ET IMPALA
  • Bases de données et tables
  • Syntaxe de base des langages de requête Hive et Impala
  • Types de données
  • Utilisation de Hue pour exécuter des requêtes
  • Utilisation de Beeline (Shell Hive)
  • Utilisation de Impala Shell

Jour 2

LES OPÉRATEURS COMMUNS ET FONCTIONS BUILT-IN
  • Opérateurs
  • Fonctions scalaires
  • Fonctions d'agrégation

GESTION DES DONNÉES AVEC HIVE ET IMPALA
  • Stockage de données
  • Création de bases de données et de tables
  • Chargement des données
  • Modification des bases de données et des tables
  • Simplification des requêtes au moyen de vues
  • Enregistrement des résultats de requêtes

STOCKAGE DE DONNÉES ET PERFORMANCES
  • Tables partitionnées
  • Chargement des données dans des tables partitionnées
  • Quand utiliser le partitionnement
  • Choisir un format de fichier
  • Utilisation des formats de fichier Avro et Parquet

Jour 3

ANALYSE RELATIONNELLE DE DONNÉES AVEC HIVE ET IMPALA
  • Jointure de jeux de données
  • Fonctions communes intégrées
  • Agrégation et fenêtrage

LES FONCTIONS ANALYTIQUES ET LE FENETRAGE
  • Utiliser des fonctions analytiques
  • Autres fonctions analytiques
  • Fenêtres glissantes

DONNÉES COMPLEXES AVEC HIVE ET IMPALA
  • Données complexes avec Hive
  • Données complexes avec Impala

ANALYSE DE TEXTE AVEC HIVE ET IMPALA
  • Utilisation d'expressions régulières avec Hive et Impala
  • Traitement des données textuelles dans Hive avec des SerDes
  • Analyse de sentiment et n-grams

Jour 4

OPTIMISATION DE HIVE
  • Comprendre les performances des requêtes
  • Bucketing
  • Indexation des données
4HIVE SUR SPARK

OPTIMISATION D'IMPALA
  • Exécution de requête avec Impala
  • Améliorer la performance d’Impala

EXTENSION DE HIVE ET D'IMPALA
  • SerDes et formats de fichier personnalisés dans Hive
  • Transformation de données avec des scripts personnalisés dans Hive
  • Fonctions définies par l'utilisateur
  • Requêtes paramétrées

CHOISIR LE MEILLEUR OUTIL
  • Comparaison de Pig, Hive, Impala et des bases de données relationnelles
  • Critères de choix

MODULE OPTIONNEL (EN FONCTION DE L'AVANCEMENT) : APACHE KUDU
  • Qu’est-ce que Kudu
  • Les tables Kudu
  • Utiliser Impala avec Kudu

CLOTURE DE LA SESSION

Nos autres formations du domaine « Data Engineering » Toutes les formations du domaine

Durée : 14 h / 2 j
Fondamentaux
 
 
 
 
Prochaine session : 20 novembre 2023
CLSPH Développer des applications avec Apache Spark
Formation officielle Cloudera Data Engineering: Developing Applications with Apache Spark
Certifiant
Durée : 28 h / 4 j
Avancé
 
 
 
 
Prochaine session : Sur demande
CLADM Administrer la plateforme CDP Private Cloud Base de Cloudera
Formation officielle Administrator Training: CDP Private Cloud Base
Certifiant
Durée : 28 h / 4 j
Fondamentaux
 
 
 
 
Prochaine session : Sur demande
ASPWD Programmer avec Apache Spark de Databricks
Formation officielle Databricks «Apache Spark™ Programming with Databricks »
Exclusivité Certifiant
Durée : 14 h / 2 j
Avancé
 
 
 
 
Prochaine session : 05 juin 2023
SQLNO NoSQL : découverte des solutions et architecture de la donnée
Appréhender les notions relatives aux systèmes distribués et les différentes solutions du marché
Durée : 14 h / 2 j
Fondamentaux
 
 
 
 
Prochaine session : 23 novembre 2023
ELK01 Gérer efficacement ses logs avec la stack ELK
S'approprier les bonnes pratiques de visualisation et supervision avec ElasticSearch, Logstach et Kibana
Durée : 14 h / 2 j
Fondamentaux
 
 
 
 
Prochaine session : 01 juin 2023

Besoin d'aide pour trouver votre formation ?

Contactez-nous

Sessions & Inscriptions

Session partagée avec d'autres organisations

Prochaine session
  • du 03 au 06/04/2023
    Distanciel
    Session confirmée ✅
    2 970,00 € HT
    Certification en option
    350,00 € HT / tentative
Durée
28 h / 4 j

Demander un devis Nous contacter
Télécharger le programme

Organiser une session dédiée à votre organisation

Durée
28 h / 4 j

Vous avez plusieurs collaborateurs à former ?

Cette formation peut être organisée
sous la forme de sessions dédiées
aux membres de votre organisation.

Demander un devis Nous contacter Télécharger le programme

Personnaliser cette formation

Cette formation vous intéresse
et vous souhaitez l'adapter pour
vos collaborateurs ?

Nos formateurs et notre équipe pédagogique sont à
votre disposition pour en discuter
et vous proposer un programme sur-mesure.

Nous contacter Télécharger le programme

OCTO Academy respecte votre vie privée

Ce site web stocke des informations vous concernant via le dépôt de cookie afin de mesurer l’audience du site. Ces données de navigation sont anonymisées.

En cliquant sur « OK pour moi », vous manifestez votre consentement pour le dépôt de ces cookies.

Lire la politique de confidentialité

À propos des cookies

Sur ce site, nous utilisons des cookies pour mesurer notre audience, entretenir la relation avec vous et vous adresser de temps à autre du contenu qualitif ainsi que de la publicité. Vous pouvez sélectionner ici ceux que vous autorisez à rester ici.

Cookies