Jour 1
INTRODUCTION AU BIG DATA
Qu’est-ce que Big Data ?
Les grands enjeux métier
Paysage technologique : les architectures Big Data
INTRODUCTION À HADOOP
Historique succinct
Le cœur de la plateforme : HDFS et YARN
L’écosystème Hadoop
- Frameworks et algorithmes
- Bases de données
- Traitements des données
- Intégration
Hadoop et la sécurité des données
MANIPULER LA LIGNE DE COMMANDE HADOOP
Présentation des principales commandes
Mise en pratique "Manipulation et transfert de fichiers en ligne de commande
UNE INTERFACE UTILISATEUR POUR HADOOP : HUE
Présentation de Hue et de ses modules
Mise en pratique "Manipulation interactive de données"
INTERROGER HADOOP AVEC DU SQL : HIVE
Présentation de Hive
Mise en pratique "Manipulation de données avec SQL"
- Créer un modèle de données
- Importer des fichiers sources
- Requêter les données
Jour 2
TRANSFORMER DES DONNÉES : LE LANGAGE PIG
Présentation de Pig
Mise en pratique "Transformation de données avec Pig"
- Charger des données semi-structurées
- Croiser avec des données Hive
- Sauvegarder le résultat dans HDFS
ECRITURE DE TRAITEMENTS AVANCÉS
Présentation du framework Hadoop Streaming
Présentation express du langage Python et du squelette de programme pour l’exercice
Mise en pratique "Ecriture d’un programme de manipulation complexe"
COMPOSITION ET ORDONNANCEMENT DE TRAITEMENTS
Présentation d’Oozie
Mise en pratique "Création d’un pipeline de traitement de données"