
Qualité de données et data-management, indissociables ?
Des experts en data-management capable de vulgariser et de vous en expliquer les tenants et aboutissants, ce n’est pas difficile à trouver. Le même exercice concernant la qualité de données est moins aisé, mais je vais faire de mon mieux.
Qu’est-ce que la qualité de données ?
Il n’est pas simple de donner une définition qui satisfasse tout le monde. Dans une entreprise, le marketing n’a pas les mêmes besoins et attentes que les fonctions supports. Le périmètre de qualité de données a suivi l’évolution des usages. Il y a 20 ans, le marketing disposait de beaucoup moins de critères de ciblage. Même si les data-warehouse existaient déjà, toutes les entreprises ne pouvaient pas se permettre ce type de projet.
On se concentrait beaucoup sur les canaux de communications :
- L’adresse postale
- Le téléphone
- L’email
Pour le reste, on essayait de mettre en place des référentiels aussi souvent que possible. Mais est-ce de la data-governance ou de la qualité de données ?
De nos jours, la quantité d’informations dont nous disposons est beaucoup plus importante. Le machine learning n’utilise pas directement les informations que nous souhaitons analyser, mais celles qui pourraient correspondre, sont directement ou indirectement liées et susceptible d’enrichir un modèle
Donc si je devais définir la qualité de données, je dirais que c’est un ensemble de process et de normes qui, appliqués à une information, en permet une représentation correcte.
Exemple :
- Une adresse email est mise en qualité pour être utilisé.
- Un prénom, lorsqu’il est suffisamment correct, peut être rapproché d’un référentiel qui donnera le sexe ou une année de naissance probable.
- Un code APE permet de connaitre l’activité d’une entreprise.
- Un chiffre d’affaires est une information importante.
Les prénoms et code APE peuvent être contrôlés simplement via des référentiels disponibles auprès de l’INSEE.
Pour l’adresse email ou le chiffre d’affaires, nous ne pouvons vérifier que la structure. L’adresse email n’est que partiellement référencée via le nom de domaine.
La qualité de données fait donc référence à l’état général de nos données : leur précision, leur cohérence, leur intégrité et leur exhaustivité. Elle nous garantit que nous collectons, stockons et utilisons des données fiables, pertinentes et conformes aux normes requises.
En revanche, une mauvaise qualité de données peut entraîner des conséquences plus ou moins néfastes. Cela peut être un mauvais téléphone, mais aussi un élément important pour une prise de décision stratégique.
Pourquoi est-elle si importante ?
L’efficacité des pipelines
Lorsqu’elle est couplée à une bonne data-governance, elle permet de simplifier vos pipelines de données en réduisant les contrôles manuels, la donnée est directement transcrite. La donnée traitée peut être directement trouvée dans un référentiel. De plus, cela simplifie et favorise le partage d’informations entre vos applications.
La mise en place de nouveaux pipelines commence avec moins d’inconnues.
La prise de décisions
Des données précises et fiables sont essentielles pour obtenir de bons KPI. Et les bons KPI aident à la prise de décisions éclairées. En améliorant la qualité de vos données, vous augmentez la confiance dans vos analyses et insights. Vous êtes mieux équipés pour analyser votre marché.
Des données cohérentes à travers l’entreprise en permettent une lecture uniforme favorisant un consensus dans la prise de décision.
L’expérience client
De bonnes données permettent de mieux comprendre le client et rendent les ciblages plus simples et pertinents. Votre communication et les offres sont adaptées. La connaissance client privilégie l’engagement. Et enfin, vous limitez les erreurs de communication qui pourraient nuire à votre réputation.
La conformité réglementaire
Toutes les entreprises sont soumises à des réglementations strictes en matière de protection des données personnelles et sensibles. En veillant à la qualité de vos données, il devient plus simple de respecter les obligations légales et réglementaires, évitant ainsi les risques juridiques et les amendes potentielles.
Vous ne pouvez pas supprimer un mineur de vos bases, si sa date de naissance n’est pas correcte. Vous ne pouvez pas non plus satisfaire un droit à l’oubli si vous ne trouvez pas le client dans vos bases.
Quand appliquer la qualité de données
Tout dépend du type d’information et, bien entendu, de la capacité de vos logiciels.
Si nous traitons une information propre à l’utilisateur, date de naissance, adresse, …, le plus pertinent sera de le faire pendant la saisie. L’interaction avec l’utilisateur favorise une correction rapide si nécessaire (faute de frappe, imprécision, etc).
Si c’est un pipeline sans interaction humaine, on fera, bien entendu, la mise en qualité avant toute utilisation de la donnée.
Mais ce à quoi il faut faire le plus attention, à mon sens, c’est à la durée de pertinence du traitement. Une information est-elle correcte indéfiniment ou peut-elle nécessiter un nouveau traitement.
Si nous prenons l’exemple d’une adresse postale. On peut imaginer que votre client l’a validé, votre logiciel de validation d’adresses également. Mais cela veut-il dire que votre client ne déménagera jamais.
Autre exemple, une adresse email peut être KO le lundi. Le mardi, votre client peut y faire le ménage. L’adresse sera à nouveau OK le mercredi.
Un questionnaire que vous avez parfaitement normalisé il y a trois ans est-il encore pertinent ?
On se rend compte qu’il peut être nécessaire de retraiter une information. Cela peut être à l’occasion d’une opération marketing ou au début d’une phase d’analyse de votre stock.
Mais dans quelles conditions. Et bien cela dépendra de :
- Votre usage
- De la qualité courante
- De la récence du dernier traitement
Quelques exemples concrets :
- Un téléphone à 50 chiffres le lundi a peu de chance d’être correct le mardi.
- Une adresse email KO le lundi peut devenir OK le mardi.
- Une adresse postale OK en mai peut être celle d’une autre personne en décembre
- Un code produit peut changer de gamme de produit.
Il est donc primordial de connaitre ou pouvoir déduire
- La qualité courante
- Le statut définitif ou temporaire de l’état
- La date de la dernière validation
Enfin, si votre SI dispose d’une même information à 2 endroits, il est plus pertinent, quand cela est possible, de partager le résultat du traitement. Cela assure une cohérence, mais également une réduction des coûts qui peut ne pas être négligeable.
En conclusion
Sans aucune hésitation, la qualité de données et le data-management sont indissociables.
La qualité de données ne doit pas être négligée tant les impacts peuvent être importants. Suivant la taille de votre SI, elle peut nécessiter la mise en place d’une stratégie complexe.
Les nouveaux usages comme le machine learning vont naturellement faire monter l’exigence autour de la qualité de données.