June 29, 2015

ETL & Data profiling

La réalisation d’un système décisionnel (BI) peut passer par l’établissement d’un Data Warehouse comme solution de stockage de données.

Un data warehouse (Entrepôt de données) regroupe toutes les données de l’entreprise nécessaires pour l’analyse décisionnelle. Pour alimenter cet entrepôt, les données doivent subir un ensemble de traitements qui assurent leur standardisation ainsi que leur qualité.

Le traitement de données passe par un processus d’ETL (Extraction, Transformation et Chargement). Ces traitements peuvent être :

§ Définition des clés de substitution : pour remplacer les clés naturelles et être indépendant de la source.
Changement et unification des types de données : pour assurer la compatibilité entre la source et le DW.
Formatage de date
Remplacer les ‘Null’ par des valeurs par défaut
Elimination des doublons
Normalisation de la casse des chaines de caractères.
Formatage des valeurs numériques
.....

§ …

Mais pour pouvoir décider des traitements à appliquer sur les différentes données issues de diverses sources hétérogènes, il faut bien étudier ces sources ainsi que la qualité des données qu’elles regroupent.

Parmi les techniques permettant une étude de la qualité des données, se trouve le Data profiling.

Un data profiling ou Profilage de données consiste à avoir une idée sur les données aux niveaux des sources. Pour minimiser les efforts, un concepteur de Data warehouse et avant de concevoir son processus d’ETL, il est appelé à passer par cette étape.

Avec Microsoft SQL Server BI suite, cette fonctionnalité est offerte, elle permet le :

Profilage de clés primaires
Etude de la longueur des attributs (colonnes des tables)
Etude de taux des valeurs NULL pour chaque colonne
Statistique des valeurs pour chaque colonne (Valeur Min, Valeur Max, Val Moyenne)
Distribution de valeurs dans chaque colonne
Etude des dépendances entre les tables.

La tâche de Data profiling est une pratique très recommandée car elle oriente le concepteur de l’ETL avant de se lancer dans la réalisation de son processus ETL qui est très coûteux et le plus important dans un projet décisionnel.

Shared Knowledge

ETL & Data profiling

Comments

Post a Comment

Popular posts from this blog