Traiter de grands volumes de données, souvent hétérogènes, dans un temps réduit pour dégager des insights pertinents pour le métier, est un défi quotidien que peu d’organisations encore parviennent à maîtriser totalement. L’une des étapes de cette stratégie sera très certainement la création d’un entrepôt de données ou data warehouse. Il va permettre de stocker, modéliser et rendre accessibles et exploitables les données pour les experts métiers (data analyst, expert business intelligence…).
Pour mieux appréhender ces concepts autour de l’entreposage des données et en cerner les avantages, rencontre avec Safa Mabrouk, Consultante Senior OCTO Technology et formatrice sur « Data Warehousing on AWS », la formation officielle AWS proposée par OCTO Academy
À quelles problématiques la création d’un Data warehouse répond-t-elle ?
Safa Mabrouk – Dans tous les systèmes d’information, nous avons des données provenant de sources hétérogènes. La valeur business de ces données, à l’état brut, est très faible. Les données deviennent des informations utiles et exploitables et apportent de la valeur, surtout du CA, seulement lorsqu’elles sont analysées et évaluées. Ces informations peuvent fournir des insights sur ce qui se passe dans l’entreprise et aider à prendre des décisions commerciales.
C’est là que les bases de données de type data warehouse ou entrepôt de données sont utiles. Elles servent à stocker un grand volume de données hétérogènes, fournir les outils pour les modéliser selon les besoins d’analyses, les axes de requêtage et les performances de calcul souhaitées. Un data warehouse fournit donc de grandes capacités de stockage, des ressources de calcul optimisées et des outils d’accès à la données adaptés aux usages des développeurs, des data analytics et du métier.
Ainsi le data warehouse donne de la valeur à la donnée collectée via des principes de business intelligence classique. C’est une base de données modélisée et orientée Analytics. Un datawarehouse et la donnée qui y est traitée et stockée sont utilisés essentiellement par les data analystes et les experts BI. Ils travaillent avec le métier pour savoir comment valoriser la donnée selon les besoins.
Le data warehouse est alimenté par plusieurs sources. Les développeurs/data engineers développent via des outils d’ETL (ou ELT) les flux nécessaires pour transférer la donnée des applications du SI ou des sources externes au SI (fichiers de partenaires, données issues des réseaux sociaux …). Le data warehouse est nécessaire pour agréger et requêter dans un seul endroit, ce gros volume de données hétérogènes. Il est indispensable pour faire de l’analytics et de la business intelligence. Tenter de le faire avec une base de données classique, même avec des clusters Spark s’avérera inadapté, vous risquez de vous trouver avec une véritable usine à gaz, très difficilement maintenable, sans les moyens de calcul que propose le data warehouse.
En résumé, la place d’un entrepôt de données dans votre SI est souvent la suivante : la donnée est collectée de différentes manières et stockée dans votre data warehouse via des flux ETL ou ELT. Cette donnée y est ensuite nettoyée, modélisée et agrégée via des moteurs de calcul. Le résultat est disponible au data analyst via des outils de requêtage sql fournis par le data warehouse. In fine, sur un entrepôt de données on peut plugger des outils de data visualisation comme Tableau ou autre.
Quelles sont les principales difficultés à la mise en place d’un entrepôt de données ?
Safa – La première difficulté pour la mise en place d’un data warehouse est de savoir comment modéliser la donnée afin que le métier puisse l’exploiter de façon efficace. Il y a déjà plusieurs patterns de modélisation à maîtriser, théoriquement au moins, afin de pouvoir ensuite les adapter au contexte métier.
La modélisation de la donnée est cruciale pour deux raisons : la première est de fournir au métier et aux data analystes des moyens de requêtage de la donnée efficaces. La deuxième : pouvoir mettre en place des algorithmes de calcul et d’agrégation de la donnée intelligents et surtout avec un temps de running limité : chaque matin, chaque X heures ou au fil du l’eau, selon le besoin. Le métier et les data analystes ont besoin des résultats de ces calculs qui tournent sur des Téras de données et il est donc primordial que les calculs soient finis. Le temps de traitement de ses calculs dépend fortement du modèle de la donnée.
La deuxième difficulté est l’optimisation des algorithmes de calcul. En plus d’une donnée bien modélisée et d’une bonne connaissance du contexte métier, le code de ces algorithmes, écrit en sql, doit être optimisé afin de diminuer au maximum le temps de traitement en utilisant des ressources en termes de CPU et de RAM qui restent acceptables. L’optimisation de ces requêtes sql demande de l’expertise en BI, des outils de monitoring continu de la performance et des analyses des résultats pragmatiques. C’est un travail de fond en continu, au fur et à mesure que le volume de données stockées augmente et que les besoins métier se complexifient, et nécessaire pour garder un data warehouse en bonne santé.
Quel est l’intérêt d’AWS Data Warehousing ?
Safa – Amazon Web Services (AWS) fournit un service managé de data warehousing : Amazon Redshift. Comme évoqué précédemment, la construction d’un entrepôt de données traditionnel est complexe, la gestion et la maintenance continues peuvent être difficiles et coûteuses. Amazon Redshift prend en charge la plupart des tâches difficiles de déploiement et de maintenance du data warehouse. Amazon Redshift est un service de data warehousing au niveau entreprise puissant, robuste, flexible, durable, hautement disponible, conforme à la norme ANSI-SQL. Il fournit des capacités de requêtage haute performance sur de grands ensembles de données à l’aide d’une architecture de traitement massivement parallèle, d’un stockage en colonnes, d’une compression, d’un stockage localement attaché, d’un réseau interne à haut débit et de diverses méthodes de distribution et de tri des données.
Amazon Redshift est intégré avec plusieurs services managés de AWS (d’autres bases de données comme Dynamo ou Rds, des outils de requêtage comme Glue, ou des services de recherche textuelle comme Elastic…). Il fournit aussi les APIs nécessaires pour plugger différents outils de data visualisation.
En tant que formatrice, à quelles conditions selon toi, la formation sera réussie ?
Safa – Afin que la formation soit une réussite pour le participant et qu’il puisse en tirer le maximum, il faut qu’il soit familier avec les concepts de Cloud (scalabilité automatique, paiement, les avantages des services managés…). Une connaissance technique basique de AWS en tant que cloud provider est primordiale (ce que c’est un bucket S3, une machine EC2, monitoring dans cloud watch). Cette connaissance peut être acquise via une utilisation de AWS ou après avoir suivi les formations « AWS Technical essentials » ou « AWS associate Architect« .
Et la condition principale reste bien sûr la curiosité du participant et son intérêt pour le cours. Plus il y a de questions, plus il y a de partages, de retours d’expérience, des interrogations, des mises en contexte, des challenges, plus la formation est intéressante.
Cette formation peut être complétée par la formation « AWS Big data » si le participant souhaite avoir une connaissance complète sur le traitement de la donnée dans AWS, les outils et les services managés fournis par le cloud provider afin de monter des clusters data volumineux et qui apportent de la valeur au métier.
A propos de la formation
« Data Warehousing on AWS »
Le cours “Architecting on AWS” aborde les bases de la création d’infrastructure informatique sur AWS. Ce cours est conçu pour montrer aux participants comment optimiser l’utilisation du cloud AWS grâce à la compréhension de ces nombreux services et de leur intégration dans la création de solutions basées sur le cloud.
Etant donné que les solutions architecturales peuvent varier selon le secteur, le type d’application et la taille de l’entreprise, ce cours met l’accent sur les bonnes pratiques relatives au cloud AWS afin d’aider les participants à construire des solutions informatiques optimisées sur AWS. Cette formation présente également de nombreuses études de cas expliquant comment certains clients AWS ont conçu leurs infrastructures, mais aussi les stratégies et services qu’ils ont implémentés. A l’issue de cette formation, vous serez en capacité de créer une grande variété d’infrastructures en recourant aux différents services vu au travers de ce module.
Cette formation est éligible au Compte Personnel de Formation (CPF) permettant de préparer la Certification associée inscrite au répertoire spécifique de France Compétences. Pour savoir si vous pouvez en bénéficier, nous vous invitons à faire une simulation via le site “Mon Compte Formation”.