Accueil / Formations

Formations

Cloudera Data Analyst

Dernière mise à jour : 09/04/2021

Description
Cloudera propose aux professionnels de la donnée les outils les plus performants pour accéder, manipuler, transformer et analyser des ensembles de données complexes, en utilisant SQL et les langages de script les plus courants.. . Au cours de cette formation Data Analyst, vous apprendrez à appliquer vos compétences d'analyse de données et de business intelligence aux grands outils de données comme Apache Impala (en incubation) et Apache Hive.

Apache Hive, par l'intermédiaire de son langage HiveQL proche du SQL, permet la transformation et l'analyse de données complexes et multi-structurées évolutives dans Hadoop. Enfin, Cloudera Impala permet l'analyse interactive instantanée des données stockées dans Hadoop dans un environnement SQL natif.

Ensemble, Hive et Impala rendent les données multi-structurées accessibles aux analystes, aux administrateurs de base de données et à d'autres utilisateurs, sans nécessité de connaître la programmation Java. .
Objectifs de la formation
Acquérir, stocker et analyser des données à l'aide de Hive et Impala
Effectuer des tâches fondamentales d'ETL avec les outils Hadoop (extraire, transformer et charger) : ingestion et traitement avec Hadoop
Utiliser Hive et Impala pour améliorer la productivité sur les tâches d'analyse typiques
Relier des jeux de données de diverses provenances pour obtenir une meilleure connaissance commerciale
Effectuer des requêtes complexes sur les jeux de données
Public visé
Analyste de données
Spécialiste de la business intelligence
Développeur
Architecte système
Administrateur de bases de données
Prérequis
Connaissance de SQL Connaissance de base des lignes de commandes Linux
Connaissance préalable d'Apache Hadoop non requise
Connaissance d'un langage de script (comme Bash scripting, Perl, Python ou Ruby) est utile, mais pas indispensable.
Programme
JOUR 1 

1.Les fondamentaux d'Hadoop
1.1.Pourquoi choisir Hadoop ?
1.2.Présentation d'Hadoop
1.3.Stockage de données : HDFS
1.4.Traitement des données distribuées : YARN, MapReduce et Spark
1.5.Traitement et analyse des données : Hive et Impala
1.6.Intégration de base de données : Sqoop
1.7.Les autres outils Hadoop
1.8.Présentation des exercices

2.Introduction à Hive et Impala
2.1.Présentation de Hive
2.2.Présentation d'Impala
2.3.Pourquoi utiliser Hive et Impala?
2.4.Schéma et stockage de données
2.5.Comparaison de Hive et Impala avec les bases de données traditionnelles
2.6.Cas d'utilisation

3.Requête avec Hive et Impala
3.1.Bases de données et tables
3.2.Syntaxe de base des langages de requête Hive et Impala
3.3.Types de données
3.4.Utilisation de Hue pour exécuter des requêtes
3.5.Utilisation de Beeline (Shell Hive)
3.6.Utilisation de Impala Shell

Jour 2 

4.Les opérateurs communs et fonctions Built-in
4.1.Opérateurs
4.2.Fonctions scalaires
4.3.Fonctions d'agrégation

5.Gestion des données avec Hive et Impala
5.1.Stockage de données
5.2.Création de bases de données et de tables
5.3.Chargement des données
5.4.Modification des bases de données et des tables
5.5.Simplification des requêtes au moyen de vues
5.6.Enregistrement des résultats de requêtes

6.Stockage de données et performances
6.1.Tables partitionnées
6.2.Chargement des données dans des tables partitionnées
6.3.Quand utiliser le partitionnement
6.4.Choisir un format de fichier
6.5.Utilisation des formats de fichier Avro et Parquet

Jour 3 

7.Analyse relationnelle de données avec Hive et Impala
7.1.Jointure de jeux de données
7.2.Fonctions communes intégrées
7.3.Agrégation et fenêtrage

8.Les fonctions analytiques et le fenetrage
8.1.Utiliser des fonctions analytiques
8.2.Autres fonctions analytiques
8.3.Fenêtres glissantes

9.Données complexes avec Hive et Impala
9.1.Données complexes avec Hive
9.2.Données complexes avec Impala

10.Analyse de texte avec Hive et Impala
10.1.Utilisation d'expressions régulières avec Hive et Impala
10.2.Traitement des données textuelles dans Hive avec des SerDes
10.3.Analyse de sentiment et n-grams 

Jour 4

11.Optimisation de Hive
11.1.Comprendre les performances des requêtes
11.2.Bucketing
11.3.Indexation des données
11.4Hive sur Spark

12.Optimisation d'impala
12.1.Exécution de requête avec Impala
12.2.Améliorer la performance d'Impala

13.Extension de Hive et d'Impala
13.1.SerDes et formats de fichier personnalisés dans Hive
13.2.Transformation de données avec des scripts personnalisés dans Hive
13.3.Fonctions définies par l'utilisateur
13.4.Requêtes paramétrées

14.Choisir le meilleur outil 
14.1.Comparaison de Pig, Hive, Impala et des bases de données relationnelles
14.2.Critères de choix

15.Module optionnel (en fonction de l'avancement) : Apache Kudu
15.1.Qu'est-ce que Kudu
15.2.Les tables Kudu
15.3.Utiliser Impala avec Kudu

16. Cloture de la session
Modalités pédagogiques
Formation avec apports théoriques, échanges sur les contextes des participants et retours d'expérience du formateur, complétés de travaux pratiques et de mises en situation. Cette formation permet de préparer l'examen associé au titre de la certification « Cloudera Certified Associate Data Analyst » attestant des compétences acquises. La certification se déroule en dehors du temps de formation.
Profil du / des Formateur(s)
Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.
Modalités d'évaluation et de suivi
L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l'action de formation ainsi que la formalisation des acquis.
Pour aller plus loin
https://fr.cloudera.com/ Site internet de Cloudera http://www.octo.academy/fr/formation/102-spark-avec-hadoop-pour-developpeurs-de-cloudera Formation "Spark avec Hadoop pour développeurs de C

M'inscrire à la formation

Lieu :
Classe virtuelle
PARIS
Détail des horaires :
Ajouter au panier
Prochaines Sessions
  • 03/05/21 → 06/05/21 Classe virtuelle
  • 02/11/21 → 05/11/21 PARIS

Catalogue de formation propulsé par Dendreo,
logiciel spécialisé pour centres et organismes de formation