ETL & Data profiling
La
réalisation d’un système décisionnel (BI)
peut passer par l’établissement d’un Data Warehouse comme solution de
stockage de données.
Un
data warehouse (Entrepôt de données) regroupe toutes les données de l’entreprise
nécessaires pour l’analyse décisionnelle. Pour alimenter cet entrepôt, les
données doivent subir un ensemble de traitements qui assurent leur
standardisation ainsi que leur qualité.
Le
traitement de données passe par un processus d’ETL (Extraction, Transformation
et Chargement). Ces traitements peuvent être :
- § Définition des clés de substitution : pour remplacer les clés naturelles et être indépendant de la source.
- Changement et unification des types de données : pour assurer la compatibilité entre la source et le DW.
- Formatage de date
- Remplacer les ‘Null’ par des valeurs par défaut
- Elimination des doublons
- Normalisation de la casse des chaines de caractères.
- Formatage des valeurs numériques
- .....
§ …
Mais pour
pouvoir décider des traitements à appliquer sur les différentes données issues
de diverses sources hétérogènes, il faut bien étudier ces sources ainsi que la
qualité des données qu’elles regroupent.
Parmi les
techniques permettant une étude de la qualité des données, se trouve le Data
profiling.
Un data
profiling ou Profilage de données consiste à avoir une idée sur les données aux
niveaux des sources. Pour minimiser les efforts, un concepteur de Data
warehouse et avant de concevoir son processus d’ETL, il est appelé à passer par
cette étape.
Avec Microsoft
SQL Server BI suite, cette fonctionnalité est offerte, elle permet le :
- Profilage de clés primaires
- Etude de la longueur des attributs (colonnes des tables)
- Etude de taux des valeurs NULL pour chaque colonne
- Statistique des valeurs pour chaque colonne (Valeur Min, Valeur Max, Val Moyenne)
- Distribution de valeurs dans chaque colonne
- Etude des dépendances entre les tables.
La tâche de
Data profiling est une pratique très recommandée car elle oriente le concepteur
de l’ETL avant de se lancer dans la réalisation de son processus ETL qui est
très coûteux et le plus important dans un projet décisionnel.
Comments
Post a Comment
Put your comments here, please.
Share with us you vision...