Microsoft SQL Server Data Quality Services

Assurer la qualité de donnée est l’une des missions principales dans l’entreprise, car avoir une donnée correcte, fiable et complète s’avère primordiale pour la prise de décision.
Parfois, l’entreprise décide de lancer un projet d’assurance qualité de données afin de régler les anomalies et d’assurer la pérennité de la bonne qualité. Et ceci est une étape qui doit se faire avant de se lancer dans un projet de Business Intelligence.
Dans l’article précédent, nous avons abordé la démarche de réalisation d’un projet Data Quality dans l’entreprise, arrivant à l’étape Régler, on doit mettre en œuvre la solution en se basant sur des outils techniques parmi eux: Microsoft SQL Server Data Quality Services.

Microsoft SQL Server Data Quality Services est une knowledge-based solution pour régler les problèmes de qualité. Cette solution vous permet de réaliser les tâches suivantes:
     
      1.      Data Cleansing : permet d’identifier et corriger les données invalides et inconsistantes.
      2.      Data Matching : permet d’identifier les duplications.

Pour installer le DQS, on suit les étapes suivantes :
Lancer l’installation de SQL Server 2014 ou 2016 (tout dépend la version dont vous disposez)
Suivez les étapes d’installation, arrivant aux features, sélectionnez (Data Quality services) et vous continuez votre installation.
Une fois terminé, vous trouvez qu’il y a eu l’installation de :
     1.      Data Quality Sevices Server : c’est un service qui utilise une base de connaissances pour appliquer les règles de qualité sur les données. Pour qu’il soit fonctionnel, il faut l’activer comme suit :
Cliquez sur Data Quality server, une console est ouverte, vous suivez la capture suivante :


il faut donner à mot de passe dans cette console:



Une fois terminé, vous remarquez la création de trois bases de données (Catalogues) dans les moteurs de base de données qui sont :
      -          DQS_MAIN : contenant les procédures stockées, DQS Engine, les knowledge data bases créées.  
     -          DQS_PROJECT : inclut les données nécessaires pour le knowledge management et Data Quality activities.
      -           DQS_STAGING_DATA : c’est un stage area


      2.      Data Quality Client : c’est un wizard utilisé par les data-stewards (business users) pour gérer la qualité de données.  Il est même utilisé par les administrateurs DQS.


** Knowledge base (Base de connaissances) : c’est une base contenant les règles métiers correctes, et qui est utilisé comme référence pour transformer les données (Cleansing & Matching). De ce fait, on constate que cette base comprend :
       -          Domaine : c’est l’ensemble des valeurs valides pour un domaine métier donné. Ces valeurs sont catégorisés en Valide, Invalide, Erronée
      -          Politique de Matching : afin de réussir la déduplication des données.


Cet outil est très efficace pour l’étude et la correction de la qualité de données.

Comments

Popular posts from this blog