Microsoft
SQL Server Data Quality Services
Assurer la qualité de donnée est
l’une des missions principales dans l’entreprise, car avoir une donnée
correcte, fiable et complète s’avère primordiale pour la prise de décision.
Parfois, l’entreprise décide de
lancer un projet d’assurance qualité de données afin de régler les anomalies et
d’assurer la pérennité de la bonne qualité. Et ceci est une étape qui doit se
faire avant de se lancer dans un projet de Business Intelligence.
Dans l’article précédent, nous
avons abordé la démarche de réalisation d’un projet Data Quality dans l’entreprise,
arrivant à l’étape Régler, on doit mettre en œuvre la solution en se basant sur
des outils techniques parmi eux: Microsoft SQL Server Data Quality Services.
Microsoft SQL Server Data Quality
Services est une knowledge-based solution pour régler les problèmes de qualité.
Cette solution vous permet de réaliser les tâches suivantes:
1. Data Cleansing : permet d’identifier et corriger les
données invalides et inconsistantes.
2. Data Matching : permet d’identifier les duplications.
Pour installer le DQS, on suit
les étapes suivantes :
Lancer l’installation de SQL
Server 2014 ou 2016 (tout dépend la version dont vous disposez)
Suivez les étapes d’installation,
arrivant aux features, sélectionnez (Data Quality services) et vous continuez
votre installation.
Une fois terminé, vous trouvez qu’il
y a eu l’installation de :
1. Data Quality Sevices Server : c’est un service qui utilise
une base de connaissances pour appliquer les règles de qualité sur les données.
Pour qu’il soit fonctionnel, il faut l’activer comme suit :
Cliquez sur Data Quality server,
une console est ouverte, vous suivez la capture suivante :
il faut donner à mot de passe dans cette console:
Une fois terminé, vous remarquez
la création de trois bases de données (Catalogues) dans les moteurs de base de
données qui sont :
-
DQS_MAIN : contenant
les procédures stockées, DQS Engine, les knowledge data bases créées.
- DQS_PROJECT : inclut
les données nécessaires pour le knowledge management et Data Quality
activities.
- DQS_STAGING_DATA : c’est un stage area
2. Data Quality Client : c’est un wizard utilisé par les
data-stewards (business users) pour gérer la qualité de données. Il est même utilisé par les administrateurs
DQS.
** Knowledge base (Base de
connaissances) : c’est une base contenant les règles métiers correctes, et
qui est utilisé comme référence pour transformer les données (Cleansing &
Matching). De ce fait, on constate que cette base comprend :
-
Domaine : c’est l’ensemble
des valeurs valides pour un domaine métier donné. Ces valeurs sont catégorisés
en Valide, Invalide, Erronée
-
Politique de Matching :
afin de réussir la déduplication des données.
Cet outil est très efficace pour
l’étude et la correction de la qualité de données.
Comments
Post a Comment
Put your comments here, please.
Share with us you vision...