Démarche d’un projet Data
Quality
La prise de bonnes décisions est basée en particulier sur la
disponibilité des données de bonne qualité. C’est pourquoi l’assurance qualité
de données est devenue une question importante.
Les données de l’entreprise proviennent de différentes sources tels que : les ERP, les CRM, les BDD relationnelles
du système opérant… ces données sont généralement dupliquées, incomplètes,
incohérentes… pour cette raison il faut améliorer leur qualité ce qui donne
naissance à un projet de qualité de données.
C’est quoi la qualité de données ?
D’après [Des données de
qualité –Exploitez le capital de votre organisation. Un livre blanc de JEMM
research. Janvier 2008. Informatica] : c’est un terme générique décrivant à la fois les
caractéristiques des données : complète, fiables, pertinentes, à jour,
cohérentes, mais aussi l’ensemble des processus qui permet de garantir ses
caractéristiques.
Les étapes d’un projet qualité de données :
Comme tout projet informatique,
le projet Data quality doit suivre une certaine démarche afin d’assurer sa
réussite. L’objectif d’un
projet qualité de données n’est pas seulement corriger les erreurs existante
actuellement dans les données mais d’assurer leur qualité dans le futur.
Pour cela, la démarche est donnée comme suit :
1.
Audit: c’est une étape primordiale et préliminaire qui
consiste à étudier la qualité des données de la source et identifier les problèmes
de qualité présents.
Pour faire cette étude il
existe des moyens techniques tel qu’avec microsoft:
a. Data profiling
assuré par le Data profining task dans le SSIS, ce moyen permet d’étudier la
source : par colonne (val min, val max, taux de val null), les liens entre
les tables…
b. Le DQS
(Data Quality service) : c’est un service qui permet d’étudier la qualité
de données et d’assurer même la déduplication.
2.
Définir les besoins en qualité : par la suite, il
faut définir les priorité en indiquants quelles sont les besoins de qualité (complétude
de l’information, la validité de la donnée, l’unicité, consistency , accuracy …)
3.
Définition des objectifs à atteindre : Ce projet doit avoir des objectifs mesurables qu'on peut suivre à travers un tableau de bord, ces objectifs répondent aux points suivants :
-
Eliminer les redondances
-
Eliminer les valeurs NULL
-
Enrichissement de la donnée
-
Découplage : séparer les données non correctement
couplées…
4.
Définir un plan d’exécution : une fois les
objectifs et les besoins sont arrêtés, il faut préparer un plan d’exécution qui
comprend les étapes à mettre en œuvre pour régler les problèmes identifiées,
donc il faut commencer à penser à la solution et définir ses étapes.
5.
Réparer : c’est le fait de corriger les erreurs détectées
en mettant en place le plan d’exécution qui peut être réadapté selon le besoin :
a. Définir
les règles de qualité : qui sont basées sur les règles métiers de l’entreprise
ainsi que les contraintes de bases de données : Primary key, Foreign key,
check…
b. Préparer un référentiel sur lequel on se base pour corriger les erreurs. Ce référentiel peut etre utilisé pour le Master data management dans l'entreprise et peut être établi avec DQS.
b. Préparer un référentiel sur lequel on se base pour corriger les erreurs. Ce référentiel peut etre utilisé pour le Master data management dans l'entreprise et peut être établi avec DQS.
b. La solution technique peut reposer sur l’utilisation
des requêtes SQL, développement d’application pour la correction, utilisation
de DQS pour le cleansing et Matching, utiliser des ETL avec SSIS qui offre des
taches tels que : Fuzzy groupping Fuzzy lookup …
6.
Corriger : c’est régler la source de l’erreur définitivement.
ça ne sert à rien de corriger l’historique et laisser la source de problème car
les erreurs vont persister dans les nouvelles données, ce projet consiste à
régler l’historique mais à mettre en place des mécanismes qui contrôlent les
données futures.
7.
Définir un plan d’assurance qualité : pour
inscrire toutes les étapes à suivre pour que les erreurs ne glissent pas ainsi
pour définir la démarche à suivre pour le contrôle de qualité.
Remarque importante : le projet de qualité de
données en réalité ce n’est pas juste un ensemble de taches techniques à mettre
en œuvre mais c’est plus que ça ; c’est un projet qui nécessite l’implication
du métier, il faut que les gens du métier intègrent le projet dès le départ car
c’est à eux de définir les règles et processus métiers ainsi c’est à eux de
remplir les manques et valider la donnée.
En dernier un projet Data quality doit s’intégrer dans la stratégie IT de
l’entreprise et il ne s'arrête pas au déploiement, il doit être réajusté selon
les différents aléas qui vont modifier les données sources.
Comments
Post a Comment
Put your comments here, please.
Share with us you vision...