Sommaire
1. Les enjeux de la mise en place d'une infrastructure data
C'est désormais un lieu commun : la data, sa maîtrise et la maturité de ses collaborateurs vis-à-vis de celle-ci sont des facteurs essentiels de compétitivité des entreprises. A contrario, une gestion et une utilisation défaillantes des données internes entraînent des coûts supplémentaires, une moindre efficacité, etc.
Toute entreprise génère désormais des quantités de données très importantes, provenant de nombreux systèmes, et en continu. Pour rendre ces données exploitables, il est indispensable de les nettoyer, les organiser, et les structurer pour les mettre à disposition des utilisateurs que sont notamment les contrôleurs de gestion, data analysts, ou data scientists.
En effet, quoi de plus frustrant que de devoir régulièrement extraire des données de chaque système source, pour ensuite les “croiser” dans Excel ou dans Python ?
Or, chaque département, qu'il s'agisse de la finance, du commercial, des ressources humaines, de la production, ou d'autres domaines, accumule ses propres jeux de données dans des outils et des environnements isolés. Les données sont ainsi cantonnées à des "silos", ne communiquant pas entre eux.
En réponse à ces enjeux de traitement de données, plusieurs solutions existent selon les contraintes, les objectifs, et la maturité des entreprises : data warehouses, data lakes et autres data hubs.
Chaque approche présente ses avantages et ses limites, auxquels vous devez réfléchir pour choisir la meilleure technologie pour votre entreprise. À cet effet, le cabinet Solstice Lab vous présente les grandes différences entre data warehouse, data lake et data hub pour vous aider à vous y retrouver.
Pour illustrer comment ces solutions se déploient concrètement en entreprise, nous avons détaillé plusieurs cas pratiques accompagnés par Solstice :
- Le machine learning grâce au Data Lake dans le secteur des assurances (publication prochaine !)
2. Le point de départ de nombreuses entreprises : Excel, Google Spreadsheets, et autres outils "légers"
Excel, l’outil le + standard pour l’analyse business
De façon “naturelle”, la plupart des analyses business commencent par une modélisation dans Excel.
Si Excel présente des qualités évidentes, cet outil se retrouve rapidement dépassé lorsqu’il s’agit de “passer à l’échelle”.
Avant d'explorer les solutions de Data Warehouse, Data Lake et Data Hub, commençons par évoquer les limites d'une gestion artisanale de vos données, sur Excel notamment.
Excel : un excellent outil pour se lancer dans une analyse…
✔️ De très loin l’outil d’analyse de données le + standard du marché : tous vos clients et vos collègues l’ont sur leurs postes et en ont au moins une maîtrise basique
✔️ Coûts de “setup” extrêmement faibles : n’importe qui peut ouvrir Excel et se lancer dans l’analyse, avec une formation et une maîtrise des concepts techniques limitées.
✔️ Extrêmement flexible, peu de contraintes.
✔️ Réunit dans un même outil de nombreuses fonctionnalités très différentes : saisie de données, calculs, graphiques, saisie d’autres objets (commentaires, couleurs, formes, images…)
✔️ « What you see is what you get » (WYSIWYG) : Excel permet d’interagir directement avec les données, et de visualiser immédiatement le résultat de ses actions.
✔️ Permet de construire des modèles possiblement complexes.
✔️ Très peu cher
… mais bien trop limité pour passer à l'échelle
⚠️ Limites en taille des jeux de données :
- Un maximum d'environ 1 million de lignes – en pratique, Excel rencontre des problèmes de performance bien en-deça de cette limite.
- Un maximum d'environ 16 000 colonnes – en pratique, ceci n’est jamais un problème toutefois.
⚠️ Conséquences de la grande flexibilité de l’outil :
- pas conçu ni optimisé pour calculer rapidement ⇒ les temps de calculs peuvent être plusieurs ordres de grandeur plus élevés (x10, x100…) que les temps de calcul dans un vrai système de gestion de bases de données. Ce qui explique qu’Excel “crash” régulièrement lorsque les calculs sont trop lourds
- pas conçu ni optimisé pour minimiser l’espace pris sur le disque
⚠️ Pas de contrôle de version : chacun peut s’approprier le fichier et le modifier sans coordination avec d’autres utilisateurs. Sans une bonne organisation, il peut être difficile (et long) de réconcilier des versions divergentes d’un même modèle.
⚠️ Outil “fragile” : un outil Excel livré à un client peut facilement se casser (connexion aux sources de données instable, changement de version d’Excel, modifications intempestives par le client, etc.)
⚠️ Ne permet pas d’automatiser le “pipeline” de traitement des données (ex : on doit se reconnecter aux fichiers sources, reproduire les traitements…)
La nécessité de s'équiper d'une solution de data management : Data Warehouse, Data lake ou Data hub
Les différents outils "légers" de traitement de données (Excel, etc.) ne pouvant pas répondre à un traitement de données à l'échelle, il est indispensable d’adopter une “data stack” moderne et répondant aux différents besoins de l’entreprise. Les Data Warehouse, Date Lake et Data Hub sont des composants essentiels d’une architecture data.
3. Le Data Warehouse (DWH) : la solution idéale de centralisation de données standardisées et de qualité, destinée aux profils métier aussi bien que techniques
Qu'est-ce qu'un Data Warehouse, en quelques mots ?
En matière de stockage de données, le data warehouse est la solution la plus ancienne. Il offre la possibilité de recueillir, de centraliser et de traiter des données issues de différentes sources (ex. : caisses en points de vente, e-commerce, fichiers CSV, services web, etc). Le data warehouse aide à constituer une plateforme de données sur laquelle votre entreprise peut miser pour construire un système d'information décisionnel efficace.
Le Data Warehouse est une base de données (dite relationnelle), qui stocke vos données sous une forme structurée. En clair, toutes vos données se présentent sous forme de tables. Des données structurées peuvent être des données de vente, une base de clients... A contrario, des formats plus complexes tels que des vidéos, des fichiers audio, etc. ne pourront pas être stockés tels quels dans un Data Warehouse. Un Data Warehouse permet aux utilisateurs d’avoir rapidement accès à une donnée de qualité. Les données sont nettoyées, structurées et optimisées pour une analyse rapide et efficace.
Le Data Warehouse collecte les données de diverses sources hétérogènes, et donc centralise les données de votre entreprise.
Cette centralisation a le plus souvent pour principal objectif d’offrir la possibilité de les analyser avec des outils de Business Intelligence (BI), et plus généralement de pouvoir les exploiter à des fins d’analyse.
Au-delà du travail de mise en place de l'infrastructure du data warehouse, une partie importante du temps de développement correspond à la mise en cohérence et à la standardisation des données provenant des différentes sources.
A qui un Data Warehouse est-il destiné ?
Un Data Warehouse recueille, prépare, et stocke des données destinées au métier.
L'utilisation principale d’un entrepôt de données est la création de tableaux de bord et visualisations, permettant un meilleur suivi de performance ainsi que de meilleures prises de décisions stratégiques. Il s'agit donc d'une infrastructure particulièrement pertinente pour toutes les populations de l'entreprise analysant des données métier : équipes finance, contrôleurs de gestion, business analysts, etc.
Le Data Warehouse sert bien souvent de principale source de données aux applications de Business Intelligence (BI), permettant de les exploiter à des fins d’analyse. Au-delà du travail de mise en place de l'infrastructure du data warehouse, une partie importante du temps de développement correspond à la mise en cohérence et à la standardisation des données provenant des différentes sources. Découvrez notre article sur les atouts d’un consultant Power BI pour passer à l’échelle et transformer vos données brutes en informations stratégiques exploitables.
Les principales caractéristiques du Data Warehouse
- Intégration des données : Un DWH permet l’intégration de données structurées provenant de sources hétérogènes, telles que des bases de données transactionnelles (ex. : caisses en points de vente, e-commerce...), des fichiers CSV, des services web, etc. Les data warehouses intègrent un module d'extraction, de transformation et de chargement des données, ou ETL (Extract, Transform, Load), dans une structure commune et normalisée.
- Stockage optimisé pour l'analyse : le système est conçu pour être interrogé régulièrement, et répondre rapidement aux requêtes. Techniquement, cela prend la forme de structures de données en colonne, de compression des données, et autres indexations optimisées pour le requêtage.
- Export des données : le data warehouse permet l'extraction et l'export de données vers d'autres systèmes ou applications, par exemple pour alimenter des rapports, des tableaux de bord ou d'autres processus d'analyse en aval.
- Agrégation des données et "data mart" : les data warehouse permettent de précalculer certains résultats couramment utilisés (sommes, moyennes, etc.) ceci permettant d'accélérer les temps de réponse aux requêtes. L'agrégation de données permet également la création de Data Marts, sous-ensembles du Data Warehouse, spécialisés dans un seul thème et destinés à un métier précis (ex : data mart commercial, RH, etc.)
Les contraintes propres aux DWH
- Structure des données : Un Data Warehouse impose souvent une structure prédéfinie pour les données. Cela peut rendre difficile l'intégration de nouvelles sources de données ou l'adaptation à des changements fréquents dans la structure des données. Le traitement des données non-structurées (images, fichiers vidéo ou audio, fichiers PDF, emails, etc.) est ainsi considéré comme moins pertinent pour un data warehouse.
- Complexité des ETL : Les processus ETL utilisés pour intégrer, transformer et charger les données dans un Data Warehouse peuvent être complexes et nécessitent souvent une expertise technique ainsi qu’une maintenance régulière. C'est pourquoi faire appel à un consultant Data Warehouse est recommandé afin de les traiter au mieux sans risques de pertes de données.
Pourquoi choisir un Data Warehouse ?
L’accessibilité aux données est un des principaux enjeux pour les entreprises. Un Data Warehouse permet aux utilisateurs d’avoir rapidement accès à une donnée de qualité. Les données sont nettoyées, structurées et optimisées pour une analyse rapide et efficace.
💡 L'utilisation principale d’un entrepôt de données est la création de tableaux de bord et visualisations, permettant un meilleur suivi de performance ainsi que des meilleures prises de décisions stratégiques.
Découvrez comment Solstice Lab a accompagné une marque brésilienne de chocolats dans la mise en place de son DWH.
4. Le Data Lake (DL) : une solution plus flexible, acceptant tous formats de données, et à laquelle des data scientists peuvent accéder directement
Qu'est-ce qu'un Data Lake, en quelques mots ?
Apparu en 2010, le Data Lake est une approche moderne de stockage de données qu'utilisent de plus en plus d'entreprises. On l'oppose souvent au data warehouse auquel il tend à se substituer. Découvrez ce à quoi renvoie cette technologie, ses forces et ses limites.
Le terme Data Lake se traduit en français par « lac de données ». Comme le Data Warehouse, il s'agit d'un système informatique développé pour collecter, traiter et centraliser les données d'une organisation en provenance de sources disparates. Dans un lac de données, vous avez la possibilité de stocker des informations brutes qui pourront être utilisées ultérieurement. Celles-ci peuvent être structurées (base de données interne), moyennement structurées (tableur Excel) ou pas du tout structurées (e-mails).
Certaines données peuvent ne jamais être utilisées. Une stratégie de data solide doit toutefois être déployée pour permettre d'entretenir ce lac de données. Sans une gouvernance efficace des données, le Data Lake peut se transformer en « data swamp », ou « marécage de données », qui ne vous profitera pas. Héberger des données non structurées ne veut pas dire que la plateforme de stockage est elle-même sans structure.
A qui un Data Lake est-il destiné ?
Le Data Lake stockant des données brutes, il est destiné à un public capable de les traiter et d'interagir avec celles-ci.
C'est pourquoi on considère qu'un Data Lake est avant tout un outil à destination des data scientists.
Les principales fonctionnalités d’un Data Lake
- Stockage polyvalent des données : Un Data Lake permet de stocker des données de différentes natures et structures, y compris des données structurées, semi-structurées et non structurées. Contrairement au Data Warehouse, il ne nécessite pas de schéma prédéfini, ce qui permet de stocker des données brutes sans transformation préalable. Compte tenu de cette flexibilité, il n'est pas nécessaire de penser en amont à l'utilisation des données, à leur sécurité ou au moment où elles serviront, certaines données peuvent d’ailleurs ne jamais être utilisées.
- Stockage évolutif et distribué : À l’image d’un lac, le Data Lake est conçu pour être un espace de stockage expansif, capable de stocker et traiter un nombre important de données. Il s'appuie sur des systèmes de fichiers distribués, pour offrir une capacité de stockage flexible et évolutive.
- Intégration de données en temps réel : Un Data Lake peut intégrer des données en temps réel provenant de différentes sources, y compris des flux de données en continu (“streaming”). Cela permet d'alimenter le Data Lake avec des données fraîches et en constante évolution, ce qui est utile pour les analyses en temps réel et les applications nécessitant des mises à jour en direct.
- Open source : un Data Lake est une solution open source. Vous n'avez pas besoin de logiciels sous licence éditeurs avant de l'utiliser, ce qui en fait une approche bon marché.
Les contraintes propres aux Data Lakes
La gouvernance des données est le point d’attention le plus important lorsque l’on souhaite maintenir un Data Lake sain. C’est un enjeu de taille et qui peut être complexe en raison de la grande variété de sources et de la flexibilité des schémas de données. Il est essentiel de mettre en place des politiques et des processus de gouvernance solides pour maintenir la qualité, la cohérence et la conformité des données. Sans processus clair et avec une mauvaise utilisation des métadonnées, votre lac de données peut se transformer en Data Swamp.
Pourquoi choisir un Data Lake ?
Au-delà d'être une technologie “bon marché”, un Data Lake peut rapidement ingérer tous les types de nouvelles données, sans modèle. Il permet leur exploration, traitement et analyse dans de nombreux métiers et pour de nombreux besoins différents. Sa capacité à ingérer des données non-structurées le différencie fortement d’un Data Warehouse.
💡 Pour donner quelques cas concrets, les lacs de données sont souvent adoptés dans des projets d’exploration de données, d’analyse prédictive et machine learning. Mais aussi pour le Big Data et les analyses en temps réel, ou encore pour archiver et sauvegarder des grandes quantités de données.
Que vous ayez besoin de stocker l’historique médical de vos patients, vos derniers chiffres de vente ou encore les données de vos utilisateurs si vous êtes une entreprise tech, le Data Lake peut s’adapter à vos besoins et au format de vos données brutes sans transformation.
Le Data Lake est bien souvent la source de données privilégiée des data scientists, qui ont besoin d’accéder à des données brutes, et sont capables de les traiter même si elles ne sont pas standardisées comme elles le seraient dans un Data Warehouse.
5. Le Data Hub (DH) : une solution technique permettant à vos applications de communiquer entre elles
Qu'est-ce qu'un Data Hub, en quelques mots ?
Un Data Hub, ou hub des données, est un système centralisé d’administration de données.
Il ne doit pas être considéré uniquement comme une solution de stockage pour vos données. Son objectif est de fournir à une organisation, une source unique d’information centralisée et unifiée.
Le hub fonctionne comme un point de gestion, permettant à vos systèmes de distribuer et d'échanger des informations par l'intermédiaire du centre de données. Il recueille et partage les données dans une variété de formats afin de les rendre plus accessibles.
💡 On parle de modèle hub & spoke ou modèle en étoile. C’est une architecture mettant en œuvre un point de connexion central qui peut atteindre chacune des terminaisons situées à la périphérie.
Les principales fonctionnalités d’un Data Hub
- Simplification de l’accès aux données : Un Data Hub permet d'intégrer des données provenant de différentes sources, qu'elles soient internes ou externes à l'organisation.
- Harmonisation des données : Il permet de résoudre les problèmes de qualité et de cohérence des données en harmonisant les différentes sources de données. Il offre des fonctionnalités de nettoyage, de normalisation et de déduplication des données afin de garantir une cohérence et une fiabilité
- Distribution des données : Un Data Hub peut permettre la distribution des données harmonisées vers d'autres systèmes ou applications en fonction des besoins spécifiques de l'organisation. Cela facilite la réutilisation des données dans différents processus métier et applications.
- Agilité, flexibilité et meilleure évolutivité : Centraliser vos données sans qu’elles soient corrélées à leur système source vous offre une plus grande réactivité et demande moins de ressources pour les opérations de mise à l’échelle.
Les contraintes propres aux Data Hub
L’idée fondamentale derrière un Data Hub est assez simple, pour autant, sa mise en place dans votre société peut être un challenge. Cela nécessite une fine connaissance de l’état de l’art de votre système d’information, ainsi que certaines compétences techniques.
Pourquoi choisir un Data Hub ?
Un Data Hub est une solution flexible pour centraliser les données de multiples sources, facilitant ainsi leur intégration en temps réel et leur disponibilité pour diverses utilisations. Il rend également possible l'interopérabilité entre différents systèmes, ce qui rend les opérations plus agiles et efficientes.
💡 Un Data Hub peut notamment être utilisé dans le secteur financier, de la santé, des télécommunications et transport et logistique afin de centraliser et optimiser l’information et ainsi d’améliorer l’efficacité des prises de décisions.
On peut citer quelques utilisations notables comme par exemple la création de Master Data Management (MDM), permettant de s'assurer que toutes les parties de l'entreprise ont accès à une version unique et cohérente des données clés. Il peut également fournir des données en temps réel afin d'alimenter des outils d’analyse et de Business intelligence.
6. Comment bien choisir sa solution data
Définir précisément son besoin et ses données
Avant de faire votre choix, soyez sûr de vous être posé les bonnes questions. Quel est mon type de donnée ? Quelles sont mes sources ? Quelle en sera l’utilisation ? Qui sera l’utilisateur principal ? etc.
Un mauvais choix peut entraîner des longs travaux qui ne mèneront pas à un résultat satisfaisant.
Une infrastructure n’en empêche pas une autre !
Enfin, gardez en tête que l’implémentation d’une solution ou d’une autre dépend exclusivement de votre besoin et de vos moyens. Ces solutions ne présentent pas les mêmes fonctionnalités et ne répondent donc pas aux mêmes exigences.
De plus, une solution peut ne pas être suffisante pour répondre à votre besoin. Il est possible de combiner ces concepts et outils pour concevoir une solution sur-mesure.
Bénéficier de l'accompagnement d’une équipe experte
Acquérir une maturité suffisante pour avoir confiance en son choix est un processus long, et les profils capables de comprendre l'intégration des enjeux sont rares.
Solstice Lab est un cabinet de conseil à taille humaine, alliant stratégie et expertise Data, IA et Data science. Nous accompagnons nos clients depuis plusieurs années sur l’ensemble du cycle de vie de leurs projets : de la définition de la stratégie data au développement d’algorithmes et d’applications sur mesure.
Nous connaissons les enjeux métiers, business et croyons en la capacité de votre data à servir votre performance. Avec plus de 35 projets à choisir, créer et déployer des solutions Data, nous sommes un partenaire de confiance pour vous guider vers le bon choix d’infrastructure.