BIG DATA

HADOOP CLOUDERA

BESTDévelopper des applications pour Spark avec Hadoop Cloudera

Formation officielle "Cloudera Developer Training for Spark and Hadoop"

Apache Spark s’est imposé ces dernières années comme LE framework Big Data de référence, et comme un outil central de l’écosystème Hadoop. Cette formation intensive emmène le participant de la découverte de Spark jusqu’à l’utilisation de ses fonctionnalités avancées.

La démarche pédagogique équilibre apports théoriques sur les structures fondamentales Spark (RDD, DataFrame, DataSets) et de nombreux travaux pratiques. Les participants manipulent la console interactive pour prototyper. Ensuite, ils codent, déploient et monitorent des applications sur un cluster. Le programme intègre les évolutions majeures de la nouvelle version Spark 2, et des cas d’usages complexes de traitement en flux (streaming).

Au cours de la formation, un panorama de l’écosystème Hadoop est dressé, en insistant sur les concepts essentiels des environnements distribués : stockage sur HDFS, calcul avec Map-Reduce et gestion des ressources via YARN.

Des compléments sur l’ingestion de données avec Sqoop et Kafka sont proposés, afin que les participants maitrisent l’ensemble des outils nécessaires pour développer des applications Spark. Ils disposent ainsi d’une expertise complète pour préparer des données massives et les analyser sur un cluster Hadoop.

plus d'infos

Administrer la plateforme Hadoop Cloudera

Formation officielle « Cloudera Administrator Training for Apache Hadoop »

Vous souhaitez exploiter le potentiel de vos données pour créer de la valeur et développer votre activité. Avec Hadoop et son architecture flexible et évolutive, vous pouvez stocker, traiter et analyser vos données à partir d’une plateforme unique fonctionnant sur du matériel standard.

Dès sa création en 2008, Cloudera a lié son histoire à celle de l’écosystème Hadoop. Avec ses fondations composées à 100 % de logiciels open source et de standards ouverts, la plate-forme Cloudera vous assure un meilleur contrôle des coûts, plus de souplesse et des résultats plus performants pour votre organisation. CDH, la plate-forme open source de Cloudera, est ainsi devenue la distribution la plus populaire de Hadoop.

De l’installation à la configuration en passant par l’équilibrage de charge et le réglage, cette formation de quatre jours fournit aux participants une compréhension complète de toutes les étapes nécessaires pour opérer et maintenir un cluster Hadoop à l'aide de Cloudera Manager.

plus d'infos

Cloudera Data Analyst : utiliser Pig, Hive et Impala avec Hadoop

Formation officielle « Cloudera Data Analyst Training: using Pig, Hive, and Impala with Hadoop »

Cloudera propose aux professionnels de la donnée les outils les plus performants pour accéder, manipuler, transformer et analyser des ensembles de données complexes, en utilisant SQL et les langages de script les plus courants.

Au cours de cette formation Data Analyst, vous apprendrez à appliquer vos compétences d'analyse de données et de business intelligence aux grands outils de données comme Apache Impala (en incubation), Apache Hive et Apache Pig.

Apache Pig apporte à Hadoop les capacités des langages de script familiers. Apache Hive, par l'intermédiaire de son langage HiveQL proche du SQL, permet la transformation et l'analyse de données complexes et multi-structurées évolutives dans Hadoop. Enfin, Cloudera Impala permet l'analyse interactive instantanée des données stockées dans Hadoop dans un environnement SQL natif.

Ensemble, Pig, Hive et Impala rendent les données multi-structurées accessibles aux analystes, aux administrateurs de base de données et à d'autres utilisateurs, sans nécessité de connaître la programmation Java.

plus d'infos
Télécharger en pdf