Wprowadzenie do usług jakości danych
- artykuł
- 08/17/2020
- 7 protokół do czytania
-
- s
- M
- r
- c
- d
dotyczy: SQL Server (Wszystkie obsługiwane wersje)
rozwiązanie do zapewniania jakości danych dostarczane przez Data Quality Services (DQS) umożliwia stewardowi danych lub specjaliście IT utrzymanie jakości swoich danych i upewnienie się, że dane są odpowiednie do ich wykorzystania biznesowego. DQS to oparte na wiedzy rozwiązanie, które zapewnia zarówno wspomagane komputerowo, jak i interaktywne sposoby zarządzania integralnością i jakością źródeł danych. DQS umożliwia odkrywanie, budowanie i zarządzanie wiedzą na temat danych. Następnie możesz użyć tej wiedzy do czyszczenia, dopasowywania i profilowania danych. W projekcie jakości danych DQS można również korzystać z usług bazujących na chmurze referencyjnych dostawców danych.
potrzeba biznesowa DQS
nieprawidłowe dane mogą wynikać z błędów wprowadzania danych przez użytkownika, uszkodzenia transmisji lub przechowywania, niedopasowanych definicji słownika danych oraz innych problemów z jakością danych i procesem. Agregowanie danych z różnych źródeł, które wykorzystują różne standardy danych, może skutkować niespójnością danych, podobnie jak stosowanie arbitralnej reguły lub nadpisywanie danych historycznych. Nieprawidłowe dane wpływają na zdolność firmy do wykonywania swoich funkcji biznesowych i świadczenia usług na rzecz swoich klientów, powodując utratę wiarygodności i przychodów, niezadowolenie klientów i problemy z zgodnością. Zautomatyzowane systemy często nie działają z błędnymi danymi, a złe dane marnują czas i energię osób wykonujących ręczne procesy. Nieprawidłowe dane mogą siać spustoszenie dzięki analizie danych, raportowaniu, eksploracji danych i magazynowaniu.
wysoka jakość danych ma kluczowe znaczenie dla efektywności przedsiębiorstw i instytucji. Organizacja dowolnej wielkości może używać DQS do poprawy wartości informacyjnej swoich danych, dzięki czemu dane są bardziej odpowiednie do zamierzonego wykorzystania. Rozwiązanie jakości danych może sprawić, że dane będą bardziej niezawodne, dostępne i wielokrotnego użytku. Może poprawić kompletność, dokładność, zgodność i spójność danych, rozwiązując problemy spowodowane błędnymi danymi w obciążeniach Business intelligence lub hurtowni danych, a także w operacyjnych systemach OLTP.
DQS umożliwia użytkownikowi biznesowemu, informatykowi lub specjaliście IT, który nie jest ani ekspertem od baz danych, ani programistą, tworzenie, utrzymywanie i wykonywanie operacji jakości danych w organizacji przy minimalnym czasie konfiguracji lub przygotowania.
odpowiadając na te potrzeby za pomocą DQS
jakość danych nie jest zdefiniowana w kategoriach bezwzględnych. Zależy to od tego, czy dane są odpowiednie do celu, do którego są przeznaczone. DQS identyfikuje potencjalnie nieprawidłowe Dane i zapewnia ocenę prawdopodobieństwa, że dane są w rzeczywistości nieprawidłowe. DQS zapewnia semantyczne zrozumienie danych, dzięki czemu możesz zdecydować o ich stosowności. DQS umożliwia rozwiązywanie problemów dotyczących niekompletności, braku zgodności, niespójności, niedokładności, nieważności i powielania danych.
DQS oferuje następujące funkcje do rozwiązywania problemów z jakością danych.
-
Czyszczenie danych: modyfikacja, usuwanie lub wzbogacanie danych, które są nieprawidłowe lub niekompletne, przy użyciu zarówno wspomaganych komputerowo, jak i interaktywnych procesów. Aby uzyskać więcej informacji, zobacz Czyszczenie danych.
-
dopasowanie: identyfikacja semantycznych duplikatów w procesie opartym na regułach, który pozwala określić, co stanowi dopasowanie i wykonać duplikację. Aby uzyskać więcej informacji, zobacz dopasowanie danych.
-
usługi danych referencyjnych: weryfikacja jakości Twoich danych za pośrednictwem usług dostawcy danych referencyjnych. Usługi danych referencyjnych z platformy Microsoft Azure Marketplace można używać do czyszczenia, walidacji, dopasowywania i wzbogacania danych. Aby uzyskać więcej informacji, zobacz referencyjne usługi danych w DQS.
-
Profilowanie: analiza źródła danych w celu zapewnienia wglądu w jakość danych na każdym etapie odkrywania wiedzy, zarządzania domeną, dopasowywania i procesów czyszczenia danych. Profilowanie to potężne narzędzie w rozwiązaniu DQS ds. jakości danych. Możesz stworzyć rozwiązanie do jakości danych, w którym profilowanie jest równie ważne jak zarządzanie wiedzą, dopasowywanie lub czyszczenie danych. Aby uzyskać więcej informacji, zobacz profilowanie danych i powiadomienia w DQS.
-
monitorowanie: śledzenie i określanie stanu działań dotyczących jakości danych. Monitorowanie umożliwia sprawdzenie, czy Twoje rozwiązanie ds. jakości danych spełnia to, do czego zostało zaprojektowane. Więcej informacji: Administracja DQS.
-
Baza Wiedzy: Data Quality Services to oparte na wiedzy rozwiązanie, które analizuje dane w oparciu o wiedzę, którą budujesz za pomocą DQS. Umożliwia to tworzenie procesów jakości danych, które stale poszerzają wiedzę na temat danych, a tym samym stale poprawiają jakość danych.
Poniższa ilustracja przedstawia proces DQS:
rozwiązanie oparte na wiedzy
baza wiedzy DQS to repozytorium trzech rodzajów wiedzy: wiedzy gotowej do użycia, wiedzy generowanej przez serwer jakości danych i wiedzy generowanej przez użytkownika. DQS umożliwia przechowywanie wiedzy o danych w Bazie wiedzy, dodawanie reguł biznesowych i modyfikowanie wiedzy według własnego uznania, a następnie stosowanie jej do testowania integralności i poprawności danych. Po zbudowaniu bazy wiedzy można ją stale ulepszać, a następnie ponownie wykorzystywać w wielu procesach poprawy jakości danych.
wiedza w Bazie wiedzy identyfikuje potencjalnie nieprawidłowe Dane i proponuje ich zmiany. Może znaleźć dopasowania danych, umożliwiając przeprowadzenie deduplikacji danych. Może porównywać dane źródłowe z danymi referencyjnymi w chmurze utrzymywanymi i gwarantowanymi przez dostawców jakości danych. Data steward lub it professional weryfikuje zarówno wiedzę w Bazie wiedzy, jak i zmiany, które należy wprowadzić do danych, i wykonuje usługi czyszczenia, deduplikacji i danych referencyjnych.
baza wiedzy przechowuje całą wiedzę związaną z określonym typem źródła danych. Na przykład możesz utrzymywać jedną bazę wiedzy dla bazy danych klientów i inną bazę wiedzy dla bazy danych pracowników. Wiedza jest zawarta w jednej lub kilku domenach danych, z których każda jest semantyczną reprezentacją typu danych w polu danych. Baza wiedzy dla bazy danych Klientów może zawierać domeny nazw firm, adresów, kontaktów, informacji kontaktowych i tak dalej. Domena zawiera listę wartości zaufanych, wartości nieprawidłowych i błędnych danych. Wiedza o domenie obejmuje skojarzenia synonimów, relacje pojęć, zasady walidacji i biznesowe oraz zasady dopasowywania. Uzbrojony w tę wiedzę, steward danych może podjąć świadomą decyzję o tym, czy skorygować określone przypadki wartości w domenie.
DQS umożliwia wykonywanie operacji importu i eksportu za pomocą bazy wiedzy. Możesz importować lub eksportować domeny lub bazy wiedzy za pomocą pliku DQS. Możesz importować wartości lub domeny z pliku Excel. Do domeny można również zaimportować wartości Znalezione w procesie czyszczenia opartym na bazie wiedzy. Operacje te umożliwiają ciągłe ulepszanie bazy wiedzy, upewniając się, że wiedza zdobyta dzięki decyzjom i odkryciom jest kierowana z powrotem do bazy wiedzy.
rozwiązanie oparte na wiedzy DQS wykorzystuje dwa podstawowe kroki do czyszczenia danych:
-
proces zarządzania wiedzą, który buduje bazę wiedzy
-
projekt jakości danych, który proponuje zmiany w danych źródłowych w oparciu o wiedzę w Bazie wiedzy.
aby uzyskać więcej informacji, zobacz bazy wiedzy i domeny DQS oraz projekty dotyczące jakości danych (DQS).
Komponenty DQS
Usługi jakości danych składają się z serwera jakości danych i klienta jakości danych. Komponenty te umożliwiają wykonywanie usług jakości danych niezależnie od innych operacji na serwerze SQL. Oba są instalowane z poziomu programu SQL Server setup.
Serwer jakości danych jest zaimplementowany jako trzy katalogi SQL Server, którymi można zarządzać i monitorować w SQL Server Management Studio (DQS_MAIN, DQS_PROJECTS i DQS_STAGING_DATA). DQS_MAIN zawiera procedury składowane DQS, silnik DQS i opublikowane bazy wiedzy. DQS_PROJECTS zawiera dane wymagane do zarządzania bazą wiedzy i działań projektowych DQS. DQS_STAGING_DATA zapewnia pośrednią bazę danych, w której można kopiować dane źródłowe w celu wykonywania operacji DQS, a następnie eksportować przetworzone dane.
Data Quality Client to samodzielna aplikacja, która umożliwia zarządzanie wiedzą, projektami dotyczącymi jakości danych i administrowanie w jednym interfejsie użytkownika. Aplikacja jest przeznaczona zarówno dla stewardów danych i administratorów DQS. Jest to samodzielny plik wykonywalny, który wykonuje odkrywanie wiedzy, zarządzanie domeną, tworzenie zasad dopasowania, czyszczenie danych, dopasowywanie, profilowanie, monitorowanie i administracja serwerem. Data Quality Client może być zainstalowany i uruchomiony na tym samym komputerze co Data Quality Server lub zdalnie na oddzielnym komputerze. Wiele operacji w programie Data Quality Client jest obsługiwanych przez kreatora w celu ułatwienia obsługi.
funkcjonalność jakości danych w usługach integracyjnych i usługach danych podstawowych
funkcjonalność jakości danych dostarczana przez Usługi jakości danych jest wbudowana w komponent SQL Server Integration Services (SSIS) oraz w funkcje Usług danych podstawowych (MDS), aby umożliwić wykonywanie procesów jakości danych w tych usługach.
komponent czyszczący DQS w usługach integracyjnych
komponent czyszczący DQS w usługach integracyjnych umożliwia czyszczenie danych w ramach pakietu usług integracyjnych. Po uruchomieniu pakietu czyszczenie danych jest uruchamiane jako plik wsadowy. Jest to alternatywa dla uruchomienia projektu oczyszczania w aplikacji Data Quality Client. Możesz automatycznie zapewnić jakość swoich danych. Nie musisz wykonywać interaktywnych kroków projektu oczyszczania danych w aplikacji Data Quality Client. Proces oczyszczania danych można włączyć do przepływu danych zawierającego inne komponenty usług integracyjnych. Więcej informacji: transformacja oczyszczająca DQS.
procesy jakości danych w Master Data Services
Funkcja Data Quality Services została zintegrowana z Master Data Services (MDS), dzięki czemu można wykonywać duplikację danych źródłowych i danych podstawowych w dodatku Microsoft SQL Server 2014 Master Data Services dla programu Microsoft Excel. Aby wykonać dopasowanie, załaduj dane zarządzane przez MDS do arkusza Excel, połącz je z danymi nie zarządzanymi przez MDS, a następnie wykonaj dopasowanie w programie Excel. Komponenty serwera jakości danych muszą być zainstalowane z MDS. Aby uzyskać więcej informacji, zobacz dopasowanie jakości danych w dodatku MDS dla programu Excel.
Leave a Reply