Démarche d’un projet Data Quality

La prise de bonnes décisions est basée en particulier sur la disponibilité des données de bonne qualité. C’est pourquoi l’assurance qualité de données est devenue une question importante.
Les données de l’entreprise proviennent de différentes sources  tels que : les ERP, les CRM, les BDD relationnelles du système opérant… ces données sont généralement dupliquées, incomplètes, incohérentes… pour cette raison il faut améliorer leur qualité ce qui donne naissance à un projet de qualité de données.


C’est quoi la qualité de données ?

D’après  [Des données de qualité –Exploitez le capital de votre organisation. Un livre blanc de JEMM research. Janvier 2008. Informatica] : c’est un  terme générique décrivant à la fois les caractéristiques des données : complète, fiables, pertinentes, à jour, cohérentes, mais aussi l’ensemble des processus qui permet de garantir ses caractéristiques.

Les étapes d’un projet qualité de données :

Comme tout projet informatique, le projet Data quality doit suivre une certaine démarche afin d’assurer sa réussite. L’objectif d’un projet qualité de données n’est pas seulement corriger les erreurs existante actuellement dans les données mais d’assurer leur qualité dans le futur.
Pour cela, la démarche est donnée comme suit :

     1.      Audit: c’est une étape primordiale et préliminaire qui consiste à étudier la qualité des données de la source et identifier les problèmes de qualité présents.
Pour faire cette étude il existe des moyens techniques tel qu’avec microsoft:
a.       Data profiling assuré par le Data profining task dans le SSIS, ce moyen permet d’étudier la source : par colonne (val min, val max, taux de val null), les liens entre les tables…
b.      Le DQS (Data Quality service) : c’est un service qui permet d’étudier la qualité de données et d’assurer même la déduplication.
     2.      Définir les besoins en qualité : par la suite, il faut définir les priorité en indiquants quelles sont les besoins de qualité (complétude de l’information, la validité de la donnée, l’unicité, consistency , accuracy …)

     3.      Définition des objectifs à atteindre : Ce projet doit avoir des objectifs mesurables qu'on peut suivre à travers un tableau de bord, ces objectifs répondent aux points suivants : 
-          Eliminer les redondances
-          Eliminer les valeurs NULL
-          Enrichissement de la donnée
-          Découplage : séparer les données non correctement couplées…

    4.      Définir un plan d’exécution : une fois les objectifs et les besoins sont arrêtés, il faut préparer un plan d’exécution qui comprend les étapes à mettre en œuvre pour régler les problèmes identifiées, donc il faut commencer à penser à la solution et définir ses étapes.

    5.      Réparer : c’est le fait de corriger les erreurs détectées en mettant en place le plan d’exécution qui peut être réadapté selon le besoin :
a.       Définir les règles de qualité : qui sont basées sur les règles métiers de l’entreprise ainsi que les contraintes de bases de données : Primary key, Foreign key, check…
b.     Préparer un référentiel sur lequel on se base pour corriger les erreurs. Ce référentiel peut etre utilisé pour le Master data management dans l'entreprise et peut être établi avec DQS.
b.       La solution technique peut reposer sur l’utilisation des requêtes SQL, développement d’application pour la correction, utilisation de DQS pour le cleansing et Matching, utiliser des ETL avec SSIS qui offre des taches tels que : Fuzzy groupping Fuzzy lookup …

    6.      Corriger : c’est régler la source de l’erreur définitivement. ça ne sert à rien de corriger l’historique et laisser la source de problème car les erreurs vont persister dans les nouvelles données, ce projet consiste à régler l’historique mais à mettre en place des mécanismes qui contrôlent les données futures.

     7.      Définir un plan d’assurance qualité : pour inscrire toutes les étapes à suivre pour que les erreurs ne glissent pas ainsi pour définir la démarche à suivre pour le contrôle de qualité.

Remarque importante : le projet de qualité de données en réalité ce n’est pas juste un ensemble de taches techniques à mettre en œuvre mais c’est plus que ça ; c’est un projet qui nécessite l’implication du métier, il faut que les gens du métier intègrent le projet dès le départ car c’est à eux de définir les règles et processus métiers ainsi c’est à eux de remplir les manques et valider la donnée.

En dernier un projet Data quality doit s’intégrer dans la stratégie IT de l’entreprise et il ne s'arrête pas au déploiement, il doit être réajusté selon les différents aléas qui vont modifier les données sources.




Comments

Popular posts from this blog