Format : Stage pratique

Niveau Fondamentaux

Répartition du temps : 50% exposés
40% pratique
10% échanges

La formation en détails

Description

Si les algorithmes de Machine Learning ont connu des avancées majeures ces dernières années, c'est avant tout grâce à la quantité d'information disponible pour les entraîner. Accumuler toute cette donnée, la traiter, et la rendre disponible sont les enjeux principaux du mouvement Big Data.

Au cours de cette formation, nos consultants mettent à disposition les connaissances issues de leurs retours d'expériences auprès de nos clients, et vous font découvrir les bases des architectures permettant de répondre à ces enjeux de stockage et d'accès.

Objectifs

Découvrir les notions centrales de stockage de données
Appréhender les enjeux des nouvelles architectures de données (Hadoop, NoSQL, Spark), et positionner leurs usages au sein de l'univers Big Data
Savoir manipuler ces technologies et les bases de données de façon conjointe, pour mener à bien des analyses efficaces

Public cible

Analyste
Statisticien
Développeur

Prérequis

Notions de programmation sur la base d'un langage quelconque
Manipulation basique de la ligne de commande Linux

Modalités pédagogiques

Formation avec apports théoriques, échanges sur les contextes des participants et retours d'expérience pratique du formateur, complétés de travaux pratiques et de mises en situation.

Accessibilité

L'inclusion est un sujet important pour OCTO Academy.
Nos référent·es sont à votre disposition pour faciliter l'adaptation de votre formation à vos besoins spécifiques.

Notre politique accessibilité Contacter nos référent·es

Profil du formateur

Cette formation est dispensée par un·e ou plusieurs consultant·es d'OCTO Technology ou de son réseau de partenaires, expert·es reconnus des sujets traités.

Le processus de sélection de nos formateurs et formatrices est exigeant et repose sur une évaluation rigoureuse leurs capacités techniques, de leur expérience professionnelle et de leurs compétences pédagogiques.

Modalités d'évaluation et de suivi

L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique.

Afin de valider les compétences acquises lors de la formation, un formulaire d'auto-positionnement est envoyé en amont et en aval de celle-ci.

En l'absence de réponse d'un ou plusieurs participants, un temps sera consacré en ouverture de session pour prendre connaissance du positionnement de chaque stagiaire sur les objectifs pédagogiques évalués.

Une évaluation à chaud est également effectuée en fin de session pour mesurer la satisfaction des stagiaires et un certificat de réalisation leur est adressé individuellement.

Programme détaillé

Jour 1

INTRODUCTION

ACCÈS AUX DONNÉES

Les fichiers

Arborescence
Formats

Les bases de données

Notion de Catalogue
Le langage SQL
Data Warehouses et Data Lake
Bases d'analyse

API

Définition
Web Scraping

Traitements en mémoire

ARCHITECTE DE DONNÉES

Limites des systèmes traditionnels

Limites des fichiers
Limites des SGBD

Les architectures distribuées

Patterns d'accès
1OLTP
2OLAP
Distribution vs Réplication

Concepts essentiels

Disponibilités
Cohérence
Tolérance à la partition

Le théorème CAP

Quorums

BASES NOSQL

Avantages et inconvénients

Modèles de données

Key-Value
Documents
Column-Family
Graph

Exemple : MongoDB

Les moteurs de recherche

JOUR 2

HADOOP

Introduction à Hadoop

Histoire
Ecosystème

HDFS

Map-Reduce

Les phases de Map-Reduce
Notion de job
Exemple

YARN

Les distributions

La ligne de commande

Administration d'un cluster

Resource Manager
History Server
Hue

ÉTUDES DE CAS

Traitements de courbes de charge

Contexte et hypothèses
Raisonnements

Analyse de logs

Contexte et Hypothèses
Raisonnements

CONCLUSION

Rappels des points abordés

Questions et réponses

Synthèse

Jour 3

DÉCOUVERTE DE SPARK

Spark Core

RDD
Transformations
Pair RDD

Spark SQL

Spark Streaming

Structured Streaming

Ce qu'en disent les participants

4.65 / 5

Satisfaction moyenne

Sur la base de 3 avis, collectés en fin de formation durant les 12 derniers mois.

100 %

recommandent cette formation

Sur la base de 2 avis, collectés en fin de formation durant les 12 derniers mois.

Nos autres formations du domaine « Data Science » Toutes les formations du domaine

DSFDX Fondamentaux de la Data Science
S'initier à la pratique de la Data Science et constituer sa première boîte à outils de Data Scientist

Data & AI / Data Science

Durée : 21 h / 3 j

Fondamentaux

Prochaine session : 21 mai 2025

DSNVA Data Science : niveau avancé
Approfondir des concepts avancés de machine learning et enrichir sa boîte à outils de Data Scientist

Data & AI / Data Science

Durée : 21 h / 3 j

Avancé

Prochaine session : 24 septembre 2025

DSGDP Cadrage et pilotage d'un projet de Data Science
Comprendre les spécificités d'un projet de Data Science pour mieux le piloter de la conception au delivery

Data & AI / Data Science

Durée : 14 h / 2 j

Avancé

Prochaine session : 16 juin 2025

Besoin d'aide pour trouver votre formation ?

Contactez-nous

Sessions & Inscriptions

Session partagée avec d'autres organisations

Prochaine session

du 15 au 17/10/2025

Présentiel, Paris

2 500,00 € ^HT

Durée

21 h / 3 j

Demander un devis Nous contacter
Télécharger le programme

Organiser une session dédiée à votre organisation

Durée

21 h / 3 j

Vous avez plusieurs collaborateurs à former ?

Cette formation peut être organisée
sous la forme de sessions dédiées
aux membres de votre organisation.

Demander un devis Nous contacter Télécharger le programme

Personnaliser cette formation

Cette formation vous intéresse
et vous souhaitez l'adapter pour
vos collaborateurs ?

Nos formateurs et notre équipe pédagogique sont à
votre disposition pour en discuter
et vous proposer un programme sur-mesure.

Nous contacter Télécharger le programme

DSARC Architecture des données : stockage et accès Appréhender et prendre en main les nouvelles architectures de données : Hadoop, NoSQL, Spark

La formation en détails

Description

Objectifs

Public cible

Prérequis

Modalités pédagogiques

Accessibilité

Profil du formateur

Modalités d'évaluation et de suivi

Programme détaillé

Ce qu'en disent les participants

Nos autres formations du domaine « Data Science » Toutes les formations du domaine

Besoin d'aide pour trouver votre formation ?

Sessions & Inscriptions