Introduction aux Services de Qualité des Données
- Article
- 08/17/2020
- 7 minutes à lire
-
- l
- M
- r
- c
- d
S’applique à: SQL Server (toutes les versions prises en charge)
La solution de qualité des données fournie par Data Quality Services (DQS) permet à un gestionnaire de données ou à un professionnel de l’informatique de maintenir la qualité de leurs données et de s’assurer que les données sont adaptées à leur utilisation professionnelle. DQS est une solution axée sur le savoir qui fournit des moyens à la fois assistés par ordinateur et interactifs pour gérer l’intégrité et la qualité de vos sources de données. DQS vous permet de découvrir, de construire et de gérer des connaissances sur vos données. Vous pouvez ensuite utiliser ces connaissances pour effectuer le nettoyage, la correspondance et le profilage des données. Vous pouvez également tirer parti des services basés sur le cloud des fournisseurs de données de référence dans un projet de qualité des données DQS.
Le besoin métier de DQS
Des données incorrectes peuvent résulter d’erreurs de saisie par l’utilisateur, d’une corruption dans la transmission ou le stockage, de définitions de dictionnaires de données incompatibles et d’autres problèmes de qualité et de processus des données. L’agrégation de données provenant de différentes sources qui utilisent des normes de données différentes peut entraîner des données incohérentes, tout comme l’application d’une règle arbitraire ou l’écrasement de données historiques. Des données incorrectes affectent la capacité d’une entreprise à remplir ses fonctions commerciales et à fournir des services à ses clients, entraînant une perte de crédibilité et de revenus, une insatisfaction des clients et des problèmes de conformité. Les systèmes automatisés ne fonctionnent souvent pas avec des données incorrectes, et de mauvaises données gaspillent le temps et l’énergie des personnes effectuant des processus manuels. Des données incorrectes peuvent nuire à l’analyse des données, aux rapports, à l’exploration de données et à l’entreposage.
Des données de haute qualité sont essentielles à l’efficacité des entreprises et des institutions. Une organisation de toute taille peut utiliser des QD pour améliorer la valeur informationnelle de ses données, les rendant plus adaptées à l’utilisation prévue. Une solution de qualité des données peut rendre les données plus fiables, accessibles et réutilisables. Il peut améliorer l’exhaustivité, la précision, la conformité et la cohérence de vos données, en résolvant les problèmes causés par de mauvaises données dans les charges de travail de Business intelligence ou d’entrepôt de données, ainsi que dans les systèmes OLTP opérationnels.
DQS permet à un utilisateur professionnel, un travailleur de l’information ou un professionnel de l’informatique qui n’est ni un expert en base de données ni un programmeur de créer, de maintenir et d’exécuter les opérations de qualité des données de son organisation avec un temps de configuration ou de préparation minimal.
Répondre à ce besoin avec DQS
La qualité des données n’est pas définie en termes absolus. Cela dépend si les données sont appropriées à la finalité à laquelle elles sont destinées. DQS identifie les données potentiellement incorrectes et vous fournit une évaluation de la probabilité que les données soient en fait incorrectes. DQS vous fournit une compréhension sémantique des données afin que vous puissiez décider de leur pertinence. DQS vous permet de résoudre les problèmes d’incomplétude, de défaut de conformité, d’incohérence, d’inexactitude, d’invalidité et de duplication de données.
DQS fournit les fonctionnalités suivantes pour résoudre les problèmes de qualité des données.
-
Nettoyage des données : modification, suppression ou enrichissement de données incorrectes ou incomplètes, à l’aide de processus assistés par ordinateur et interactifs. Pour plus d’informations, consultez Nettoyage des données.
-
Correspondance: l’identification des doublons sémantiques dans un processus basé sur des règles qui vous permet de déterminer ce qui constitue une correspondance et d’effectuer une déduplication. Pour plus d’informations, reportez-vous à la section Correspondance des données.
-
Services de données de référence : vérification de la qualité de vos données en utilisant les services d’un fournisseur de données de référence. Vous pouvez utiliser les services de données de référence de Microsoft Azure Marketplace pour nettoyer, valider, associer et enrichir les données. Pour plus d’informations, consultez Services de données de référence dans DQS.
-
Profilage: l’analyse d’une source de données pour fournir un aperçu de la qualité des données à chaque étape des processus de découverte des connaissances, de gestion des domaines, de mise en correspondance et de nettoyage des données. Le profilage est un outil puissant dans une solution de qualité des données DQS. Vous pouvez créer une solution de qualité des données dans laquelle le profilage est tout aussi important que la gestion des connaissances, la mise en correspondance ou le nettoyage des données. Pour plus d’informations, consultez Profilage des données et notifications dans DQS.
-
Suivi: le suivi et la détermination de l’état des activités de qualité des données. La surveillance vous permet de vérifier que votre solution de qualité des données fait ce pour quoi elle a été conçue. Pour plus d’informations, consultez Administration de DQS.
-
Base de connaissances : Data Quality Services est une solution axée sur les connaissances qui analyse les données en fonction des connaissances que vous construisez avec DQS. Cela vous permet de créer des processus de qualité des données qui améliorent continuellement les connaissances sur vos données et, ce faisant, améliorent continuellement la qualité de vos données.
L’illustration suivante affiche le processus DQS:
Une solution axée sur les connaissances
La base de connaissances DQS est un référentiel de trois types de connaissances: les connaissances prêtes à l’emploi, les connaissances générées par le serveur de qualité des données et les connaissances générées par l’utilisateur. DQS vous permet de stocker des connaissances sur vos données dans la base de connaissances, d’ajouter des règles métier et de modifier les connaissances comme bon vous semble, puis de les appliquer pour tester l’intégrité et l’exactitude des données. Après avoir créé la base de connaissances, vous pouvez l’améliorer en permanence, puis la réutiliser dans plusieurs processus d’amélioration de la qualité des données.
Les connaissances dans une base de connaissances identifient les données potentiellement incorrectes et proposent des modifications aux données. Il peut trouver des correspondances de données, ce qui vous permet d’effectuer une déduplication de données. Il peut comparer des données sources avec des données de référence basées sur le cloud maintenues et garanties par des fournisseurs de qualité de données. Le responsable des données ou le professionnel de l’informatique vérifie à la fois les connaissances de la base de connaissances et les modifications à apporter aux données, et exécute les services de nettoyage, de déduplication et de données de référence.
Une base de connaissances stocke toutes les connaissances liées à un type spécifique de source de données. Par exemple, vous pouvez gérer une base de connaissances pour une base de données de clients et une autre base de connaissances pour une base de données d’employés. Les connaissances sont contenues dans un ou plusieurs domaines de données, chacun étant une représentation sémantique d’un type de données dans un champ de données. Une base de connaissances pour une base de données de clients peut contenir des domaines pour les noms d’entreprises, les adresses, les contacts, les informations de contact, etc. Un domaine contient une liste de valeurs approuvées, de valeurs non valides et de données erronées. La connaissance du domaine comprend les associations de synonymes, les relations de termes, les règles de validation et de gestion et les politiques de correspondance. Fort de ces connaissances, le responsable des données peut prendre une décision éclairée quant à la correction ou non d’instances spécifiques des valeurs d’un domaine.
DQS vous permet d’effectuer des opérations d’importation et d’exportation avec une base de connaissances. Vous pouvez importer ou exporter des domaines ou des bases de connaissances à l’aide d’un fichier DQS. Vous pouvez importer des valeurs ou des domaines à partir d’un fichier Excel. Vous pouvez également importer des valeurs trouvées par un processus de nettoyage basé sur la base de connaissances dans un domaine. Ces opérations vous permettent d’améliorer continuellement une base de connaissances, en vous assurant que les connaissances acquises grâce aux décisions et aux découvertes sont réacheminées dans la base de connaissances.
La solution axée sur les connaissances DQS utilise deux étapes fondamentales pour nettoyer les données:
-
Un processus de gestion des connaissances qui construit la base de connaissances
-
Un projet de qualité des données qui propose des modifications aux données sources en fonction des connaissances de la base de connaissances.
Pour plus d’informations, consultez Bases de connaissances et domaines DQS et Projets de qualité des données (DQS).
Composants DQS
Les Services de Qualité des Données comprennent un Serveur de Qualité des Données et un Client de Qualité des Données. Ces composants vous permettent d’effectuer des services de qualité des données séparément des autres opérations SQL Server. Les deux sont installés à partir du programme d’installation de SQL Server.
Data Quality Server est implémenté sous la forme de trois catalogues SQL Server que vous pouvez gérer et surveiller dans SQL Server Management Studio (DQS_MAIN, DQS_PROJECTS et DQS_STAGING_DATA). DQS_MAIN inclut les procédures stockées DQS, le moteur DQS et les bases de connaissances publiées. DQS_PROJECTS inclut les données nécessaires à la gestion de la base de connaissances et aux activités du projet DQS. DQS_STAGING_DATA fournit une base de données intermédiaire dans laquelle vous pouvez copier vos données sources pour effectuer des opérations DQS, puis exporter vos données traitées.
Data Quality Client est une application autonome qui vous permet d’exécuter des projets de gestion des connaissances, de qualité des données et d’administration dans une seule interface utilisateur. L’application est conçue pour les gestionnaires de données et les administrateurs DQS. Il s’agit d’un fichier exécutable autonome qui effectue la découverte des connaissances, la gestion des domaines, la création de stratégies de correspondance, le nettoyage des données, la correspondance, le profilage, la surveillance et l’administration du serveur. Data Quality Client peut être installé et exécuté sur le même ordinateur que Data Quality Server ou à distance sur un ordinateur séparé. De nombreuses opérations dans Data Quality Client sont pilotées par un assistant pour en faciliter l’utilisation.
Fonctionnalité de qualité des données dans les Services d’intégration et les Services de données de base
La fonctionnalité de qualité des données fournie par les Services de qualité des données est intégrée à un composant de SQL Server Integration Services (SSIS) et aux fonctionnalités des Services de données de base (MDS) pour vous permettre d’effectuer des processus de qualité des données au sein de ces services.
Composant de nettoyage DQS dans Integration Services
Le composant de nettoyage DQS dans Integration Services vous permet d’effectuer un nettoyage des données dans le cadre d’un package de services d’intégration. Lorsque le package est exécuté, le nettoyage des données est exécuté en tant que fichier batch. Il s’agit d’une alternative à l’exécution d’un projet de nettoyage dans l’application client Data Quality. Vous pouvez vous assurer automatiquement de la qualité de vos données. Vous n’avez pas à effectuer les étapes interactives d’un projet de nettoyage des données dans l’application client Data Quality. Vous pouvez inclure le processus de nettoyage des données dans un flux de données contenant d’autres composants Integration Services. Pour plus d’informations, voir Transformation de nettoyage DQS.
Processus de qualité des données dans les services de données de référence
La fonctionnalité des services de qualité des données a été intégrée dans les Services de données de référence (MDS), de sorte que vous pouvez effectuer une déduplication des données sources et des données de référence dans le module complémentaire Microsoft SQL Server 2014 Master Data Services pour Microsoft Excel. Pour effectuer la correspondance, chargez les données gérées par MDS dans une feuille de calcul Excel, combinez-les avec des données non gérées par MDS, puis effectuez la correspondance dans Excel. Les composants du serveur de qualité des données doivent être installés avec MDS. Pour plus d’informations, consultez Correspondance de la qualité des données dans le complément MDS pour Excel.
Leave a Reply