Einführung in die Datenqualitätsdienste
- Artikel
- 08/17/2020
- 7 minuten zum Lesen
-
- größe s
- M
- r
- c
- d
Gilt für: SQL Server (alle unterstützten Versionen)
Die Datenqualitätslösung von Data Quality Services (DQS) ermöglicht es einem Data Steward oder IT-Experten, die Qualität seiner Daten aufrechtzuerhalten und sicherzustellen, dass die Daten für die geschäftliche Nutzung geeignet sind. DQS ist eine wissensbasierte Lösung, die sowohl computergestützte als auch interaktive Möglichkeiten zur Verwaltung der Integrität und Qualität Ihrer Datenquellen bietet. Mit DQS können Sie Wissen über Ihre Daten ermitteln, aufbauen und verwalten. Sie können dieses Wissen dann verwenden, um Datenbereinigung, -abgleich und -profilerstellung durchzuführen. Sie können auch die Cloud-basierten Dienste von Referenzdatenanbietern in einem DQS-Datenqualitätsprojekt nutzen.
Der geschäftliche Bedarf an DQS
Fehlerhafte Daten können durch Benutzereingabefehler, Beschädigung bei der Übertragung oder Speicherung, nicht übereinstimmende Datenwörterbuchdefinitionen und andere Datenqualitäts- und Prozessprobleme verursacht werden. Das Aggregieren von Daten aus verschiedenen Quellen, die unterschiedliche Datenstandards verwenden, kann zu inkonsistenten Daten führen, ebenso wie das Anwenden einer willkürlichen Regel oder das Überschreiben historischer Daten. Falsche Daten beeinträchtigen die Fähigkeit eines Unternehmens, seine Geschäftsfunktionen auszuführen und Dienstleistungen für seine Kunden bereitzustellen, was zu einem Verlust an Glaubwürdigkeit und Umsatz, Kundenunzufriedenheit und Compliance-Problemen führt. Automatisierte Systeme arbeiten oft nicht mit falschen Daten, und schlechte Daten verschwenden die Zeit und Energie von Menschen, die manuelle Prozesse durchführen. Falsche Daten können verheerende Auswirkungen auf Datenanalyse, Reporting, Data Mining und Warehousing haben.
Hochwertige Daten sind entscheidend für die Effizienz von Unternehmen und Institutionen. Eine Organisation jeder Größe kann DQS verwenden, um den Informationswert ihrer Daten zu verbessern und die Daten für die beabsichtigte Verwendung besser geeignet zu machen. Eine Datenqualitätslösung kann Daten zuverlässiger, zugänglicher und wiederverwendbarer machen. Es kann die Vollständigkeit, Genauigkeit, Konformität und Konsistenz Ihrer Daten verbessern und Probleme lösen, die durch fehlerhafte Daten in Business Intelligence- oder Data Warehouse-Workloads sowie in betrieblichen OLTP-Systemen verursacht werden.
DQS ermöglicht es einem geschäftlichen Benutzer, Informationsarbeiter oder IT-Fachmann, der weder Datenbankexperte noch Programmierer ist, die Datenqualitätsoperationen seiner Organisation mit minimaler Einrichtungs- oder Vorbereitungszeit zu erstellen, zu verwalten und auszuführen.
Beantwortung dieses Bedarfs mit DQS
Datenqualität ist nicht absolut definiert. Es hängt davon ab, ob die Daten für den Zweck geeignet sind, für den sie bestimmt sind. DQS identifiziert potenziell fehlerhafte Daten und gibt Ihnen eine Einschätzung der Wahrscheinlichkeit, dass die Daten tatsächlich fehlerhaft sind. DQS bietet Ihnen ein semantisches Verständnis der Daten, so dass Sie ihre Angemessenheit entscheiden können. Mit DQS können Sie Probleme im Zusammenhang mit Unvollständigkeit, mangelnder Konformität, Inkonsistenz, Ungenauigkeit, Ungültigkeit und Datenduplizierung lösen.
DQS bietet die folgenden Funktionen zur Behebung von Datenqualitätsproblemen.
-
Datenbereinigung: Die Änderung, Entfernung oder Anreicherung von Daten, die falsch oder unvollständig sind, sowohl mit computergestützten als auch interaktiven Prozessen. Weitere Informationen finden Sie unter Datenbereinigung.
-
Passend: die Identifizierung semantischer Duplikate in einem regelbasierten Prozess, mit dem Sie bestimmen können, was eine Übereinstimmung darstellt, und die Deduplizierung durchführen können. Weitere Informationen finden Sie unter Datenabgleich.
-
Referenzdatendienste: Überprüfung der Qualität Ihrer Daten mithilfe der Dienste eines Referenzdatenanbieters. Sie können Referenzdatendienste aus Microsoft Azure Marketplace verwenden, um Daten zu bereinigen, zu validieren, abzugleichen und anzureichern. Weitere Informationen finden Sie unter Referenzdatendienste in DQS.
-
Profilerstellung: die Analyse einer Datenquelle, um Einblicke in die Qualität der Daten in jeder Phase der Wissensermittlungs-, Domänenmanagement-, Matching- und Datenbereinigungsprozesse zu erhalten. Profiling ist ein leistungsfähiges Werkzeug in einer DQS-Datenqualitätslösung. Sie können eine Datenqualitätslösung erstellen, bei der die Profilerstellung genauso wichtig ist wie das Wissensmanagement, der Abgleich oder die Datenbereinigung. Weitere Informationen finden Sie unter Data Profiling und Benachrichtigungen in DQS.
-
Überwachung: die Verfolgung und Bestimmung des Zustands der Datenqualitätsaktivitäten. Mit der Überwachung können Sie überprüfen, ob Ihre Datenqualitätslösung das tut, wofür sie entwickelt wurde. Weitere Informationen finden Sie unter DQS Administration.
-
Wissensdatenbank: Data Quality Services ist eine wissensbasierte Lösung, die Daten basierend auf Wissen analysiert, das Sie mit DQS erstellen. Auf diese Weise können Sie Datenqualitätsprozesse erstellen, die das Wissen über Ihre Daten kontinuierlich erweitern und damit die Qualität Ihrer Daten kontinuierlich verbessern.
Die folgende Abbildung zeigt den DQS-Prozess:
Eine wissensbasierte Lösung
Die DQS Knowledge Base ist ein Repository für drei Arten von Wissen: Out-of-the-Box-Wissen, vom Data Quality Server generiertes Wissen und vom Benutzer generiertes Wissen. Mit DQS können Sie Wissen über Ihre Daten in der Knowledge Base speichern, Geschäftsregeln hinzufügen und das Wissen nach Belieben ändern und dann anwenden, um die Integrität und Korrektheit der Daten zu testen. Nachdem Sie die Wissensdatenbank erstellt haben, können Sie sie kontinuierlich verbessern und dann in mehreren Prozessen zur Verbesserung der Datenqualität wiederverwenden.
Wissen in einer Wissensdatenbank identifiziert potenziell falsche Daten und schlägt Änderungen an den Daten vor. Es kann Datenübereinstimmungen finden, sodass Sie eine Datendeduplizierung durchführen können. Es kann Quelldaten mit cloudbasierten Referenzdaten vergleichen, die von Datenqualitätsanbietern gepflegt und garantiert werden. Der Datenverwalter oder IT-Fachmann überprüft sowohl das Wissen in der Wissensdatenbank als auch die an den Daten vorzunehmenden Änderungen und führt die Bereinigungs-, Deduplizierungs- und Referenzdatendienste aus.
Eine Wissensdatenbank speichert das gesamte Wissen zu einem bestimmten Typ von Datenquelle. Sie können beispielsweise eine Wissensdatenbank für eine Kundendatenbank und eine andere Wissensdatenbank für eine Mitarbeiterdatenbank verwalten. Wissen ist in einer oder mehreren Datendomänen enthalten, von denen jede eine semantische Repräsentation eines Datentyps in einem Datenfeld ist. Eine Wissensdatenbank für eine Kundendatenbank kann Domänen für Firmennamen, Adressen, Kontakte, Kontaktinformationen usw. enthalten. Eine Domäne enthält eine Liste vertrauenswürdiger Werte, ungültiger Werte und fehlerhafter Daten. Domänenwissen umfasst Synonym-Assoziationen, Termbeziehungen, Validierungs- und Geschäftsregeln sowie Matching-Richtlinien. Mit diesem Wissen kann der Datenverwalter eine fundierte Entscheidung darüber treffen, ob bestimmte Instanzen der Werte in einer Domäne korrigiert werden sollen.
Mit DQS können Sie Import- und Exportvorgänge mit einer Wissensdatenbank durchführen. Sie können Domänen oder Wissensdatenbanken mithilfe einer DQS-Datei importieren oder exportieren. Sie können Werte oder Domänen aus einer Excel-Datei importieren. Sie können auch Werte, die durch einen Bereinigungsprozess basierend auf der Wissensdatenbank gefunden wurden, wieder in eine Domäne importieren. Diese Vorgänge ermöglichen es Ihnen, eine Wissensdatenbank kontinuierlich zu verbessern und sicherzustellen, dass das durch Entscheidungen und Entdeckungen gewonnene Wissen zurück in die Wissensdatenbank geleitet wird.
Die DQS Knowledge-driven Solution nutzt zwei grundlegende Schritte, um Daten zu bereinigen:
-
Ein Wissensmanagementprozess, der die Wissensbasis aufbaut
-
Ein Datenqualitätsprojekt, das Änderungen an den Quelldaten basierend auf dem Wissen in der Wissensdatenbank vorschlägt.
Weitere Informationen finden Sie unter DQS Knowledge Bases and Domains und Data Quality Projects (DQS).
DQS-Komponenten
Data Quality Services besteht aus Data Quality Server und Data Quality Client. Mit diesen Komponenten können Sie Data Quality Services getrennt von anderen SQL Server-Vorgängen ausführen. Beide werden aus dem SQL Server-Setup-Programm installiert.
Data Quality Server ist als drei SQL Server-Kataloge implementiert, die Sie im SQL Server Management Studio verwalten und überwachen können (DQS_MAIN, DQS_PROJECTS und DQS_STAGING_DATA). DQS_MAIN enthält gespeicherte DQS-Prozeduren, die DQS-Engine und veröffentlichte Wissensdatenbanken. DQS_PROJECTS enthält Daten, die für das Knowledge Base Management und DQS-Projektaktivitäten benötigt werden. DQS_STAGING_DATA stellt eine Staging-Zwischendatenbank bereit, in die Sie Ihre Quelldaten kopieren können, um DQS-Vorgänge auszuführen, und anschließend Ihre verarbeiteten Daten exportieren können.
Data Quality Client ist eine eigenständige Anwendung, mit der Sie Wissensmanagement, Datenqualitätsprojekte und Verwaltung in einer Benutzeroberfläche durchführen können. Die Anwendung ist sowohl für Datenverwalter als auch für DQS-Administratoren konzipiert. Es handelt sich um eine eigenständige ausführbare Datei, die Wissenserkennung, Domänenverwaltung, Erstellung von Übereinstimmungsrichtlinien, Datenbereinigung, Abgleich, Profilerstellung, Überwachung und Serveradministration durchführt. Data Quality Client kann auf demselben Computer wie Data Quality Server oder remote auf einem separaten Computer installiert und ausgeführt werden. Viele Vorgänge im Data Quality Client sind aus Gründen der Benutzerfreundlichkeit assistentengesteuert.
Datenqualitätsfunktionalität in Integration Services und Master Data Services
Die von Data Quality Services bereitgestellte Datenqualitätsfunktionalität ist in eine Komponente von SQL Server Integration Services (SSIS) und in Funktionen von Master Data Services (MDS) integriert, damit Sie Datenqualitätsprozesse innerhalb dieser Dienste ausführen können.
DQS-Bereinigungskomponente in Integration Services
Mit der DQS-Bereinigungskomponente in Integration Services können Sie eine Datenbereinigung als Teil eines Integration Services-Pakets durchführen. Wenn das Paket ausgeführt wird, wird die Datenbereinigung als Batchdatei ausgeführt. Dies ist eine Alternative zum Ausführen eines Bereinigungsprojekts in der Datenqualitäts-Clientanwendung. Sie können die Qualität Ihrer Daten automatisch sicherstellen. Sie müssen die interaktiven Schritte eines Datenbereinigungsprojekts nicht innerhalb der Datenqualitäts-Clientanwendung ausführen. Sie können den Datenbereinigungsprozess in einen Datenfluss einbeziehen, der andere Integration Services-Komponenten enthält. Weitere Informationen finden Sie unter DQS Cleansing Transformation.
Datenqualitätsprozesse in Master Data Services
Die Data Quality Services-Funktionalität wurde in Master Data Services (MDS) integriert, sodass Sie die Deduplizierung von Quelldaten und Stammdaten innerhalb des Microsoft SQL Server 2014 Master Data Services-Add-Ins für Microsoft Excel durchführen können. Um einen Abgleich durchzuführen, laden Sie von MDS verwaltete Daten in ein Excel-Arbeitsblatt, kombinieren Sie sie mit Daten, die nicht von MDS verwaltet werden, und führen Sie dann einen Abgleich in Excel durch. Die Data Quality Server-Komponenten müssen mit MDS installiert werden. Weitere Informationen finden Sie unter Datenqualitätsanpassung im MDS-Add-In für Excel.
Leave a Reply