Sommaire
La qualité des données : un enjeu fondamental
La qualité des données fait partie des enjeux cruciaux de l'informatique et du digital depuis leurs débuts. Comme l'exprime l'adage bien connu, "garbage in, garbage out" ! En d'autres termes, la précision et la pertinence des informations restituées dans vos systèmes (reporting, analyses, outils, ERP, CRM, etc.) sont directement liées à la qualité des données entrantes.
Selon notre expérience, la question de la qualité des données intervient systématiquement dans les projets impliquant de l'analyse des données, émergeant inévitablement à un moment ou à un autre.
Quel que soit votre secteur d’activité, l’exploitation pertinente de vos données impose en tout cas de “mettre sous contrôle” la qualité de celles-ci. Ceci implique généralement :
- Un travail ponctuel de “nettoyage” et de remise en qualité des données,
- La mise en place d’outils de gestion des données et/ou de process pour assurer un maintien dans le temps de la qualité des données.
Dans cet article, nous vous présentons les principaux enjeux de la qualité de la donnée, et les bonnes pratiques pour aborder le sujet.
Comment définir et mesurer la qualité des données ?
La qualité de la donnée s'analyse généralement selon les grandes dimensions suivantes :
- Exactitude : L'exactitude des données concerne la précision des informations collectées et stockées. C'est la correspondance entre la valeur enregistrée dans le système et la réalité du monde extérieur. Par exemple, un numéro de téléphone inexact peut entraîner des erreurs de communication avec un client, et ainsi détériorer la gestion de la relation client.
- Cohérence : La cohérence fait référence à l'uniformité des données dans le temps et à travers différents systèmes ou bases de données. Cela signifie que les mêmes informations devraient être identiques, quel que soit l'endroit où elles sont stockées ou consultées.
- Validité : La validité des données est relative à la conformité, aux normes, ou aux formats définis. Par exemple, un code postal valide doit correspondre à une région géographique spécifique.
- Intégrité : L'intégrité des données concerne la complétude et la cohérence des données au sein d'un système. Elle vise à éviter la corruption des données et à assurer que les relations entre les ensembles de données sont maintenues.
- Disponibilité / Fraîcheur : La disponibilité des données fait référence à la facilité et à la rapidité avec lesquelles les données peuvent être récupérées et utilisées lorsque cela est nécessaire. La notion corollaire de fraîcheur correspond à la "récence" (contraire de l'ancienneté) des données.
- Exhaustivité : L'exhaustivité des données se rapporte à la présence de toutes les données requises.
La non-qualité des données et ses conséquences
De façon générale, un défaut de qualité des données se révèle pénalisant pour au moins les 4 raisons suivantes :
- Mauvaises décisions business : Des données de mauvaise qualité se répercutent sur vos analyses business et peuvent donc conduire à des analyses erronées, qui entraînent à leur tour des décisions commerciales, industrielles, stratégiques, etc.
- Opportunités manquées : L'exploitation efficace des données est ralentie par les problèmes de non-qualité, faisant perdre un temps précieux dans l'identification d'opportunités commerciales.
- Perte de productivité : Le temps et l'énergie consacrés par les équipes à nettoyer, compléter et corriger des données défectueuses réduisent immanquablement la productivité, et limitent leur capacité à se concentrer sur les tâches plus stratégiques et à valeur ajoutée.
- Impossibilité d'entraîner correctement des modèles d'IA : la mise en place d'une solution d'Intelligence Artificielle (IA) suppose une phase "d'entraînement", lors de laquelle l'algorithme "apprend" à partir de données passées. Des données non fiabilisées biaiseront nécessairement l'algorithme, compromettant ainsi perdre sa pertinence.
Quelques exemples pratiques de problèmes de non-qualité des données, que nous avons pu rencontrer dans nos projets récents :
- Pour une entreprise industrielle, le pilotage par le Directeur Commercial de la performance des commerciaux était rendu impossible du fait de la faible qualité des informations saisies dans le CRM : données clients absentes, saisie tardive de l’avancement des négociations avec les clients, etc.
- Pour une entreprise de gestion de location immobilière, la saisie en “comptabilité analytique”, permettant d’attribuer des dépenses et des revenus aux actifs immobiliers, était faite de façon incomplète et non systématique, empêchant le calcul de la rentabilité de ces actifs par les décideurs.
- Un courtier en assurance automobile partageait aux autorités des informations selon un format incohérent, générant des erreurs d’interprétation (03/05/2023 était interprété comme le 5 mars 2023, et non comme le 3 mai 2023).
- Un opérateur de télécommunication payait certaines de ses factures fournisseurs plusieurs fois, à cause d'une mauvaise saisie des numéros de factures, entrainant un échec de l'algorithme de détection de doublons.
Pourquoi améliorer la qualité de ses données ?
Les avantages sont nombreux et varient avec votre secteur d’activité et notamment avec votre utilisation de la donnée. Le plus fréquemment, une donnée de qualité permet pour les entreprises de se démarquer dans les domaines suivants :
- Efficacité de vente : Une qualité supérieure des données peut aider à augmenter l'efficacité des ventes en permettant une meilleure segmentation des clients, une prévision des ventes plus précise et une meilleure compréhension du comportement des clients, etc.
- Meilleure productivité et gain de temps : Des données de haute qualité peuvent améliorer la productivité en réduisant le temps passé à corriger des erreurs, à chercher des informations manquantes ou à résoudre des conflits de données. Cela permet aux utilisateurs de se concentrer sur des tâches à valeur ajoutée.
- Meilleure scalabilité : Avec des données de qualité, les entreprises peuvent facilement augmenter leur échelle d'opérations. Les systèmes basés sur des données solides et fiables sont plus faciles à étendre et à reproduire dans de nouvelles régions ou de nouveaux segments de marché. Cela facilite la croissance et l'expansion de l'entreprise.
- Prise de décision plus efficace : Des données précises et à jour, accompagnées de rapports de qualité, permettent d’améliorer la prise de décision en fournissant une vue claire et fiable de l'entreprise.
Cette liste est évidemment non exhaustive et l’application à votre domaine pourra faire apparaître de nombreux avantages.
Dans certains secteurs fortement réglementés (Banque, Assurance), la qualité des données peut même faire l’objet de projets qui lui sont entièrement consacrés. Dans ces secteurs en effet, la qualité de données constitue une contrainte légale forte :
- Dans le secteur bancaire, les accords de Bâle exigent ainsi des banques qu’elles disposent de processus solides de gestion des risques, ce qui inclut une attention particulière à la qualité des données utilisées pour évaluer et quantifier les risques financiers.
- De même, la Directive Solvabilité II, de l'Union européenne, concernant le secteur de l'assurance, établit des exigences concernant la qualité des données utilisées dans les modèles actuariels et les évaluations des risques.
Optimiser la qualité des données : 5 étapes essentielles, de l’audit à la maîtrise dans la durée
La plupart des projets data que nous menons comprennent un volet traitant de la qualité de la données.
Pour mener à bien ces projets, notre méthodologie consiste en 5 étapes essentielles :
- Nous menons un audit de la qualité des données (#1 Cartographie des données, #2 Evaluation de l'impact de la non-qualité)
- Nous mesurons précisément les défauts des données, en quantité et en nature (#3 Mesure et quantification)
- Nous accompagnons les équipes dans l'exercice de fiabilisation des données (#4 Traitement des problèmes qualité)
- Nous mettons en place les solutions pour maintenir dans la durée un haut niveau de qualité (#5 Adaptation des systèmes et des process)
En détail, voici les enjeux et le détail des travaux menés à chaque étape :
#1 Cartographiez vos données
Tout comme une carte et une boussole sont indispensables pour se lancer dans une course d’orientation, il est primordial de disposer d’une cartographie claire des données de son entreprise et des flux qui y sont associés avant de traiter la question de la qualité en tant que telle. C'est ainsi que commence tout exercice d'audit de la qualité des données.
Or, force est de constater que la majorité des entreprises ont une idée bien limitée de leur architecture de données ! S’il existe des outils permettant de cartographier en partie les flux de données, l'exercice de cartographie consiste bien souvent en un travail d'investigation, de fond, nécessitant une vue transverse du fonctionnement de l'entreprise, de ses process et de ses métiers.
L’exercice de cartographie des données permet d’évaluer votre patrimoine de données, et de documenter l’ensemble des traitements effectués, de l’amont (ex : saisie par un commercial d’un projet de contrat dans le CRM) à l’aval (ex : restitution dans un tableau de bord de Direction).
Mener à bien cet exercice nécessite à la fois une très bonne compréhension des aspects techniques, mais également une capacité à travailler en proximité avec les équipes métier, qui sont souvent les plus à même de qualifier la donnée.
#2 Évaluez les conséquences de la non-qualité de données
Les conséquences des problèmes de qualité sont généralement bien connues des équipes métier et des équipes de Direction :
- doutes permanents sur la validité des chiffres,
- débats sur la responsabilité des erreurs dans les données,
- retard dans la production d’états financiers, etc.
#3 Mesurez et quantifiez la qualité de vos données
Comme le veut la devise du célèbre consultant en management américain Peter Drucker : "Ce que l'on mesure, on le gère."
Il est ainsi indispensable de quantifier précisément les problèmes de données, en matière de fréquence des erreurs, de sources, etc., et de suivre dans le temps cette quantification.
Le contrôle de la cohérence des chiffres peut se faire sur une base de règles logique (ex : on sait que certaines combinaisons sont impossibles), ou sur une base statistique (une combinaison de données est peu probable, et on peut la suspecter de révéler une erreur) qui permet de détecter de possibles anomalies.
Au-delà d’un sondage ponctuel, il est indispensable de mesurer la qualité de la donnée sur la durée. Le développement d’un tableau de bord de suivi de la qualité de la donnée présente de nombreuses vertus :
- Possibilité d’identifier instantanément les indicateurs de qualité de données problématiques et à traiter,
- Transparence donnée à l’ensemble des équipes sur les progrès réalisés,
- Motivation des équipes, qui ne veulent pas se retrouver identifiées comme étant les “mauvais élèves” à la source de problèmes de qualité de données !
Enfin, des solutions technologiques "low-code" voire "no-code" sont disponibles sur le marché pour vous aider à devancer les problèmes de données en les détectant automatiquement dès qu'ils apparaissent, et avant que d'autres personnes ne soient affectées.
#4 Autant que possible, traitez les problèmes à la racine
Une fois les problèmes de qualité identifiés, il va s’agir :
- à court terme, de corriger les problèmes,
- de mettre en place des mesures pour repérer et traiter le plus efficacement possible les problèmes qui ne manqueront pas d’apparaître à l’avenir.
Dans la mesure du possible, le plus efficace est de contrôler la qualité des données au moment de sa création ou acquisition, de manière préventive. Dans les systèmes sources, il peut par exemple s’agir d’interdire la saisie de certaines données incohérentes, et de suggérer des corrections à l’utilisateur.
Ce traitement à la racine n’étant pas toujours possible – car pouvant nécessiter des développements sur mesure dans des systèmes dont on ne maîtrise pas forcément la technologie – il faut alors adopter une approche corrective. Les indicateurs calculés et restitués dans les tableaux de bord de qualité de la donnée permettent alors de repérer les erreurs, et de d’orienter vers les systèmes sources dans lesquels elles devront être corrigées.
#5 Adaptez vos process et votre organisation
Les approches décrites jusqu’ici nécessitent de mettre en place ou d’adapter l’organisation humaine.
Pour garantir un haut niveau de qualité dans la durée, les approches correctives nécessitent en effet de repenser les processus qui créent ou modifient les données.
Les processus peuvent être adaptés de deux manières au moins :
- Process control : en insérant des vérifications et des procédures de contrôle dans le processus de production des données lorsque : (1) de nouvelles données sont créées, (2) des ensembles de données sont mis à jour, ou (3) de nouveaux ensembles de données sont accessibles par le processus.
- Process redesign : en remaniant les processus afin d'éliminer les causes de la mauvaise qualité et introduire de nouvelles activités qui produisent des données de meilleure qualité.
Dans les organisations à grande échelle, de véritables démarches de Data Governance sont mises en place pour distribuer la responsabilité de la qualité de la donnée au sein de l’organisation.
La qualité des données : ce qu'il faut retenir
Bien que de plus en plus présente dans les esprits des dirigeants et des équipes, la qualité de donnée reste un enjeu majeur pour de nombreuses organisations.
Cartographier vos données, comprendre vos sources et l'ensemble des besoins est crucial pour de nombreuses raisons citées plus haut.