Les tâches à réaliser dans un processus ETL


 Pour concevoir et implémenter un processus ETL, un ensemble de tâches sont à prendre en considération qui sont résumées dans ce tableau.

* Ce tableau est une partie résumée du Livre: Le Data Warehouse- Guide de conduite projet. Ralph Kimball, Edition  Eyrolles : France, 5ème édition, 2011

Extraction
Chargement initial
Chargement incrémentiel programmé
Utiliser le fichier journal des transactions qui permet de connaitre les changements
Réplication : charger les changements dans la zone ETL puis les mettre dans le DW
On peut utiliser (compression/décompression) de données pour minimiser le volume lors de transfert.
Transformation
Intégration : clés de substitution => table de correspondance
Maintenance de dimensions changeantes : valeurs modifiables
Contrôle de l’intégrité référentielle (CIF)
Nettoyage, déduplication, fusion, purge
Conversion du type de données
Vérification du contenu de données : vérifier les totaux, sous-totaux et les tester avec la source
Traçabilité de données : gestion des journaux    
Recenser les taches aboutissant à la création d’un enregistrement donné
Transformation spécifique à l’outil ou à l’analyse
Val NULL : les modifications par des valeurs par défaut.
Chargement
Gestion du système cible
Optimisation du changement
Gestion du processus du chargement complet
Contrôle des taches de préparation de données
Définition des taches : tache= succession d’étapes + les relations  
Planification des taches : planification horaire et événementielle => piloté par événement système
Surveillance : par heure, tache, table de chargement… automatisée=> par fichier Log ou logiciel 
Journalisation : collecte des informations sur l’ensemble de  l’opération (par journal => Déconseillé/ par BDD=> Conseillé)
Gestion des exceptions et erreurs
Notification
Gestion matérielle des outils back-room
Sauvegarde et restauration : onduleurs, disques RAID, Processeurs (Réplication) [automatisation+ notification]
Archivage et récupération : définir un processus de sauvegarde approprié => dresser la liste des infos à sauvegarder, la fréquence de sauvegarde et la durée. + mettre le processus de sauvegarde en œuvre. 
Sécurité : insister sur la sécurité du front-office

Comments

Popular posts from this blog