BIG DATA

DATA SCIENCE

BESTFondamentaux de la Data Science

Surfant sur la vague du Big Data, le data scientist joue un rôle clé dans la valorisation de données. Au-delà des paillettes, quel est son rôle, ses outils, sa méthodologie, ses "tips and tricks" ? Venez le découvrir au travers de cette initiation à la Data Science délivrée par des data scientists renommés qui vous apporteront l’expérience des compétitions de Data Science et leurs riches retours d’expérience des modèles réels qu’ils mettent en place chez leurs clients.

plus d'infos

BESTData Science : niveau avancé

Le Big Data et la data science sont en train de changer le monde que nous connaissons. Avec la digitalisation sans cesse croissante de nos interactions et les progrès accomplis en matière d’intelligence artificielle, les entreprises ont de plus en plus recours aux algorithmes pour améliorer leurs processus de prise de décision et proposer de nouveaux services. Le Data scientist, à travers sa faculté à trouver à partir de l’exploitation des données une réponse adéquate à un problème fonctionnel donné, est au cœur de ces évolutions. Après le module sur les bases de la Data science, la formation « Data Science : niveau avancé » vous permettra d’approfondir certains des concepts avancés de machine learning (feature engineering avancé, modèles ensemblistes…) utilisés notamment par les lauréats de concours Kaggle. Vous découvrirez également les techniques d’analyse et de traitement spécifiques aux données de type image ou texte (deep learning, réseaux de neurones convolutifs, réseaux récurrents,...).

plus d'infos

HADOOP HORTONWORKS

Les fondamentaux d’Hadoop

Cette formation est une initiation aux fondamentaux d’Hadoop. Elle donne aux participants une connaissance théorique et pratique de la plateforme, au travers de plusieurs exercices pratiques appliqués à des cas réels. A l’issue de la session, les participants seront en capacité d’utiliser les outils de l’écosystème Hadoop pour explorer des données stockées sur un entrepôt Big Data.

plus d'infos

BESTAdministrer la plateforme Hadoop 2.X Hortonworks : niveau 1

Formation Hadoop officielle Hortonworks "HDP Operations: HDP Administration 1"

Cette session prépare au rôle d’administrateur au sein d’un contexte technologique innovant et en particulier au cours d’un projet Big Data. A travers des exercices concrets, vous apprendrez à installer, configurer et maintenir un cluster Hadoop.

A la fin de cette formation, vous aurez une compréhension solide de comment Hadoop fonctionne avec le Big Data et, à travers nos mises en pratique, vous saurez déployer tout le cycle de vie pour des clusters multi-nœuds.

plus d'infos

EXCLUAdministrer la plateforme Hadoop 2.X Hortonworks : niveau avancé

Formation Hadoop officielle Hortonworks "HDP Administrator: HDP Administration 2"

Cette formation est destinée aux administrateurs de plateforme HDP qui souhaiteraient approfondir leurs connaissances. Le focus est mis sur la haute disponibilité des divers outils, la gouvernance de la donnée, les réglages avancés de la plateforme ainsi que l’automatisation de déploiement de celle-ci.

plus d'infos

EXCLUAdministrer la plateforme Hadoop 2.X Hortonworks : sécurité

Formation Hadoop officielle Hortonworks "HDP Operations: Security"

Cette formation est destinée aux administrateurs d'Hortonworks Data Platform (HDP) qui souhaiteraient approfondir leurs connaissances en matière de sécurité. Le focus est mis sur les outils permettant de sécuriser la plateforme en termes d’authentification, d’autorisation et d’audit.

plus d'infos

BESTAnalyse de données pour Hadoop 2.X Hortonworks avec Pig, Hive et Spark

Formation Hadoop officielle Hortonworks "HDP Developer: Apache Pig and Hive"

Cette formation présente les grands outils de l’écosystème Hadoop en se focalisant plus spécifiquement sur Pig et Hive. Le principal objectif est le développement de compétences de data analyst orientées accès et traitement des données sans nécessairement avoir un fort background technique.

plus d'infos

EXCLUDévelopper des applications pour Apache Spark avec Python ou Scala

Formation Hadoop officielle Hortonworks "HDP Developer: Enterprise Apache Spark I"

Spark est né en 2009 dans le laboratoire AMPLab de l’université de Berkeley. Ce framework offre un modèle de programmation plus simple que celui du MapReduce d’Hadoop et surtout plus rapide avec des temps d’exécution jusqu’à 100 fois plus courts. Avec Spark, les développeurs peuvent écrire simplement des applications distribuées complexes qui permettent de prendre des meilleures décisions plus rapidement et des actions en temps réel, appliquées à une grande variété de cas d’utilisations, d’architecture et de secteurs d’activités.
Cette formation s’adresse aux développeurs qui souhaitent créer et déployer des applications Big Data complètes et uniques en combinant batchs, le streaming et analyses interactives sur l’ensemble des données.

plus d'infos

HADOOP CLOUDERA

BESTDévelopper des applications pour Spark avec Hadoop Cloudera

Formation officielle "Cloudera Developer Training for Spark and Hadoop"

Cette formation propose de fournir aux participants les concepts clés et l’expertise nécessaire pour intégrer et enregistrer les données dans un cluster Hadoop avec les techniques et les outils récents.
Les participants utiliseront des projets tels que Spark, Hive, Flume, Sqoop et Impala afin de bénéficier de la meilleure préparation possible pour faire face aux défis quotidiens auxquels sont confrontés les développeurs Hadoop. Ils apprendront à identifier et à utiliser les outils appropriés à chaque situation. Ils découvriront comment importer des données dans leur"cluster" Apache Hadoop et le transformer avec Spark, Hive, Flume, Sqoop, Impala, et d’autres outils de l’écosystème Hadoop.

plus d'infos

NEWAdministrer la plateforme Hadoop Cloudera

Formation officielle « Cloudera Administrator Training for Apache Hadoop »

Vous souhaitez exploiter le potentiel de vos données pour créer de la valeur et développer votre activité. Avec Hadoop et son architecture flexible et évolutive, vous pouvez stocker, traiter et analyser vos données à partir d’une plateforme unique fonctionnant sur du matériel standard.

Dès sa création en 2008, Cloudera a lié son histoire à celle de l’écosystème Hadoop. Avec ses fondations composées à 100 % de logiciels open source et de standards ouverts, la plate-forme Cloudera vous assure un meilleur contrôle des coûts, plus de souplesse et des résultats plus performants pour votre organisation. CDH, la plate-forme open source de Cloudera, est ainsi devenue la distribution la plus populaire de Hadoop.

De l’installation à la configuration en passant par l’équilibrage de charge et le réglage, cette formation de quatre jours fournit aux participants une compréhension complète de toutes les étapes nécessaires pour opérer et maintenir un cluster Hadoop à l'aide de Cloudera Manager.

plus d'infos

NEWUtiliser Pig, Hive et Impala avec Hadoop Cloudera pour les analystes de données

Formation officielle « Cloudera Data Analyst Training: using Pig, Hive, and Impala with Hadoop »

Cloudera propose aux professionnels de la donnée les outils les plus performants pour accéder, manipuler, transformer et analyser des ensembles de données complexes, en utilisant SQL et les langages de script les plus courants.

Au cours de cette formation Data Analyst, vous apprendrez à appliquer vos compétences d'analyse de données et de business intelligence aux grands outils de données comme Apache Impala (en incubation), Apache Hive et Apache Pig.

Apache Pig apporte à Hadoop les capacités des langages de script familiers. Apache Hive, par l'intermédiaire de son langage HiveQL proche du SQL, permet la transformation et l'analyse de données complexes et multi-structurées évolutives dans Hadoop. Enfin, Cloudera Impala permet l'analyse interactive instantanée des données stockées dans Hadoop dans un environnement SQL natif.

Ensemble, Pig, Hive et Impala rendent les données multi-structurées accessibles aux analystes, aux administrateurs de base de données et à d'autres utilisateurs, sans nécessité de connaître la programmation Java.

plus d'infos

SPARK DATABRICKS

EXCLUProgrammer avec Apache Spark de Databricks

Formation officielle Databricks « Apache® Spark™ Programming SPARK 105 »

Cette formation de 3 jours propose un panorama pratique de la solution Apache Spark en alternant des présentations et des exercices pratiques. Elle couvre les APIs de base de Spark, les fondamentaux et les mécanismes du framework, mais aussi les outils plus haut-niveau dont SQL, ainsi que ses capacités de traitement en streaming et l’API de machine learning.

Chaque sujet couvert comprend une partie d’exposé couplée à une mise en pratique de Spark au travers d’un environnement type notebook web. Inspiré d’outils tels IPython/Jupyter, les notebooks permettent aux participants de développer des jobs, des requêtes d’analyse et des représentations visuelles s’appuyant sur leur propre cluster Spark, le tout depuis leur navigateur web.

A l’issue du cours, les notebooks peuvent être conservés et être réutilisés dans le service cloud gratuit Databricks Community Edition, pour lequel la compatibilité est garantie. Il est également possible d’exporter le notebook sous forme de code source pour exécution sur n’importe quel environnement Spark.

plus d'infos

NOSQL

BESTNoSQL : découverte des solutions et architecture de la donnée

Les avancées technologiques de ces dernières années permettent d’accompagner l’augmentation des volumes de données structurées et non structurées. Les limites techniques auxquelles les systèmes relationnels étaient une réponse ne sont plus d’actualité : volume de données en ligne (Transactional Processing), disponibilité des systèmes, temps réel, démocratisation du cloud, etc. Par ailleurs, la donnée qui était hier une commodité opérationnelle est devenue un enjeu business pour de nouvelles opportunités : exploration de la donnée, data science, etc. Nous vous proposons de découvrir l’écosystème des nouvelles architectures de la donnée bâties autour des solutions dites NoSQL afin d’en appréhender leurs caractéristiques propres et cas d’usage associés : Couchbase, MongoDB, ElasticSearch, Cassandra, etc.

plus d'infos

Déployer et gérer un cluster Couchbase

Formation officielle "Couchbase NoSQL Server Administration"

Cette formation Couchbase pour administrateurs apportera aux participants les concepts architecturaux et l’expertise nécessaire à la définition, au déploiement, et à l’opération de clusters Couchbase. Ils découvriront et expérimenteront les procédures et outils dont un administrateur a besoin pour opérer des plateformes critiques et temps-réel utilisant Couchbase.

plus d'infos

Requêtes, modélisation de données, optimisation et migration via N1QL

Formation officielle Couchbase "Querying, Modeling, Tuning, and Migrating Data using N1QL"

Une formation Couchbase centrée sur l’architecture et le design de données à l’aide de N1QL. Modélisation des données, stockage et accès sont au cœur des présentations et des nombreux exercices pratiques visant à construire des applications NoSQL robustes, performantes et capable d’absorber les montées en charge. La formation couvre : le langage de requêtes N1QL (SQL pour JSON), la modélisation de données dans les applications NoSQL, indexes et vues, optimisations de performance en fonction des cas d’usages, et migration depuis une base de données relationnelle.

plus d'infos

Gérer efficacement ses logs avec la stack ELK

ElasticSearch – Logstash – Kibana

La stack ELK est très communément utilisée pour gérer facilement et efficacement ses logs applicatifs. Issue de l’open source, simple à installer et permettant de gérer toute sorte de documents (logs, messages divers, documents évènementiels, etc.), cette stack est un outil puissant qui peut cependant vite devenir incontrôlable. Cette formation vous donne des outils simples et pratiques pour dimensionner, configurer et gérer simplement votre cluster ELK.

plus d'infos

NEWConcevoir un moteur de recherche avec Elasticsearch

Dimensionnement - Administration - Recherche

Elasticsearch est un moteur de recherche conçu dès le départ pour être distribué et gérer des volumes de données massifs. Il se base sur la librairie Apache Lucene et lui ajoute des fonctionnalités supplémentaires pour la mise en cluster, la haute disponibilité ainsi qu'une API puissante.
Cette formation a pour objet de présenter Elasticsearch et toutes les notions importantes pour développer de façon efficace avec Elasticsearch. Elle est aussi l'occasion de jeter un œil sous le capot pour comprendre plus en profondeur le fonctionnement d'Elasticsearch et en tirer le meilleur.

plus d'infos
Télécharger en pdf