oszałamiający wpływ brudnych danych
Ed Downs
Ed Downs jest odpowiedzialny za marketing rozwiązań dla klientów w MarkLogic. Bazuje na swoim dużym doświadczeniu, realizując duże projekty big data oraz rozwiązania operacyjne i analityczne dla organizacji sektora publicznego i prywatnego, aby zwiększyć świadomość i przyspieszyć wdrożenie platformy MarkLogic.
czasami koszty podkradają się do nas. To, co może wydawać się codzienną irytacją, od lat ma oszałamiające konsekwencje kosztowe.
brudne dane—dane niedokładne, niekompletne lub niespójne—są jedną z tych niespodzianek. Experian donosi, że średnio firmy na całym świecie uważają, że 26% ich danych jest brudnych. Przyczynia się to do ogromnych strat. W rzeczywistości kosztuje To średnią firmę od 15% do 25% przychodów, a gospodarka USA ponad 3 biliony dolarów rocznie. Każdy, kto miał do czynienia z brudnymi danymi, wie, jak frustrujące mogą być, ale gdy liczby zostaną zsumowane, może być trudno owinąć głowę wokół ich wpływu.
ponieważ brudne dane kosztują tak dużo—otrzeźwiające niedopowiedzenie—ważne jest, aby zrozumieć, skąd pochodzą, jak wpływają na biznes i jak można sobie z nimi radzić.
Skąd Się Biorą Brudne Dane?
według Experian, błąd ludzki wpływa na ponad 60% brudnych danych, a słaba komunikacja międzyresortowa jest zaangażowana w około 35% niedokładnych rekordów danych. Intuicyjnie wydaje się, że solidna strategia danych powinna złagodzić te problemy, ale niewystarczająca strategia danych wpływa również na 28% niedokładnych danych.
gdy różne działy wprowadzają powiązane dane do oddzielnych silosów danych, nawet dobra strategia danych nie zapobiegnie zanieczyszczeniu kolejnych hurtowni danych, martów i jezior. Rekordy mogą być powielane z niekanonicznymi danymi, takimi jak różne błędy w pisowni nazwisk i adresów. Silosy danych o słabych ograniczeniach mogą prowadzić do wyświetlania dat, numerów kont lub danych osobowych w różnych formatach, co utrudnia lub uniemożliwia ich automatyczne uzgodnienie.
brudne dane mogą pozostać ukryte przez lata, co sprawia, że jeszcze trudniej je wykryć i poradzić sobie z nimi, gdy zostaną rzeczywiście znalezione. Niestety, 57% firm dowiaduje się o brudnych danych, gdy są one zgłaszane przez klientów lub potencjalnych klientów—jest to szczególnie słaby sposób na znalezienie i rozwiązanie istotnych problemów z danymi.
wiele organizacji szuka niespójnych i niedokładnych danych za pomocą procesów ręcznych, ponieważ ich dane są zbyt zdecentralizowane i zbyt niestandardowe. Plany te zazwyczaj wpadają w tę samą pułapkę, co DANE-zamiast planowania skonsolidowanego, każdy dział jest odpowiedzialny za własne nieścisłości danych. Chociaż może to wyłapywać pewne przypadki, przyczynia się również do wewnętrznych niespójności między silosami działowymi. Poprawka dzieje się w jednym miejscu, ale nie w innym, co prowadzi do większej liczby problemów z danymi.
wpływ brudnych danych
brudne dane skutkują marnowaniem zasobów, utratą wydajności, nieudaną komunikacją—zarówno wewnętrzną, jak i zewnętrzną—oraz zmarnowanymi wydatkami marketingowymi. W Stanach Zjednoczonych szacuje się, że 27% przychodów jest marnowane na niedokładne lub niekompletne dane klientów i potencjalnych klientów.
wydajność ma wpływ na kilka ważnych obszarów. Analitycy danych poświęcają około 60% swojego czasu na czyszczenie, normalizację i porządkowanie danych. W międzyczasie pracownicy wiedzy spędzają do 50% swojego czasu z ukrytymi i niedokładnymi danymi.
brudne dane nie są wiarygodne, a to oznacza, że użytkownicy końcowi, którzy polegają na tych danych, spędzają dodatkowy czas na potwierdzaniu ich dokładności, co jeszcze bardziej zmniejsza szybkość i wydajność. Wprowadzenie innego procesu ręcznego prowadzi do większej liczby nieścisłości i rosnących niespójności dzięki rosnącej liczbie brudnych rekordów.
oprócz utraty przychodów, brudne dane wpływają na firmy bardziej podstępnie. Tylko 16% kadry kierowniczej biznesu są pewni dokładności, która leży u podstaw ich decyzji biznesowych. Śmieci w, śmieci na zewnątrz-kiedy nie można polegać na własnych danych, trzeba coś zrobić, aby zwiększyć dokładność i niezawodność danych.
brudne dane w bankowości
na całym świecie nieścisłości w danych kosztują od 15% do 25% przychodów dla firmy. Przy globalnych przychodach w wysokości ponad 2,2 biliona dolarów oznacza to, że brudne dane kosztują globalną branżę bankową ponad 400 miliardów dolarów. Brudne dane prowadzą również do szeregu ryzyk, które są unikalne dla branży bankowej.
niespójne informacje w silosach danych w organizacji prowadzą do ryzyka transakcyjnego, takiego jak niedokładne lub nawet oszukańcze transakcje. Fałszywe i oszukańcze konta powinny zostać wcześnie przechwycone przez procesy, które czyszczą lub wykrywają brudne dane. Jeśli tego nie zrobią, bank jest narażony na ryzyko, a jego reputacja jest uszkodzona.
przy tak dużej ilości brudnych danych i tak niewielu kierowników ufających danym, których używają, z pewnością doprowadzi to do złych decyzji strategicznych. Nie możesz wybrać właściwej ścieżki, jeśli nie wiesz, gdzie jesteś. Brudne dane mogą prowadzić do ogromnego ryzyka operacyjnego.
stale zmieniający się krajobraz regulacyjny również stanowi duże obciążenie dla zarządzania danymi. Zespoły ds. zgodności są pod znaczną presją, aby dostarczać więcej informacji na temat danych, ale jeśli nie mają czystych danych do pracy, nie mają szczęścia. Wprowadzenie przepisów Mifid II w 2018 r.było tego bolesnym przykładem, ponieważ słabnąca zgodność z przepisami i coraz bardziej rygorystyczne organy regulacyjne powodują ból dla wielu europejskich firm finansowych.
radzenie sobie z brudnymi danymi
najtrudniejszym problemem w usuwaniu brudnych danych jest czyszczenie nieprawidłowych wpisów i zduplikowanych danych. Konieczna jest dokładna korekcja błędów, aby nie tylko zapewnić, że żadne dane nie zostaną utracone, a jednocześnie poprawić spójność istniejących ważnych danych, ale także aby wszystkie metadane odpowiadające korekcji danych były utrzymywane wraz z samymi zintegrowanymi danymi.
po oczyszczeniu danych należy je zachować. Po początkowym procesie czyszczenia brudnych danych, tylko nowe lub zmienione dane powinny być sprawdzane pod kątem ważności i spójności. We wszystkich przypadkach, od starych do nowo wprowadzonych danych, linia danych musi być rejestrowana. Zapewnia to jego ważność i wiarygodność.
najlepsze praktyki czyszczenia brudnych danych i zarządzania danymi obejmują następujące praktyki:
- harmonizacja poprzez korelację danych z różnych źródeł i wykorzystanie metadanych dla pochodzenia danych i linii.
- wykorzystaj podstawowe funkcje inteligentnego masteringu, aby dopasować i scalić jednostki w jednej platformie wielomodelowej.
- Zastosuj semantykę do przechwytywania relacji między danymi i zapewnienia spójności.
- Utwórz widok 360 stopni, integrując wszystkie źródła danych.
- Znajdź brudne dane za pomocą wyszukiwania w języku naturalnym, modelowania danych i uczenia maszynowego w celu identyfikacji wzorców i anomalii.
to dużo, ale warto. Organizacja, która oprócz praktyk czyszczenia danych stosuje silne zarządzanie danymi, może generować do 70% więcej przychodów.
przestań spowalniać brudne dane
wpływ brudnych danych na biznes jest oszałamiający, ale indywidualna organizacja może uniknąć bagna. Nowoczesne techniki i technologie mogą zminimalizować wpływ brudnych danych. Czyste, niezawodne dane sprawiają, że firma jest bardziej elastyczna i elastyczna, jednocześnie ograniczając zmarnowane wysiłki naukowców zajmujących się danymi i pracowników wiedzy.
Twoja firma może już planować rozwiązanie problemów z brudnymi danymi. W rzeczywistości 84% firm planuje wkrótce wdrożyć rozwiązania dotyczące jakości danych, ale wiele z tych rozwiązań jest podzielonych na działy w przedsiębiorstwie. Co więcej, wiele inicjatyw dotyczących jakości danych nie zajmie się podstawowymi zmianami potrzebnymi w bazie danych, aby wpłynąć na pozytywne zmiany tam, gdzie są najbardziej potrzebne. Doprowadzi to tylko do przyszłych problemów z niespójnymi danymi, pogarszając obecny stan w miarę rozprzestrzeniania się danych. Wysiłki muszą być globalne w całej firmie i w sposób, który usuwa niedociągnięcia u ich źródła-w bazie danych. Operacyjne centrum danych, takie jak oparte na MarkLogic®, może pomóc Twojej firmie w odpowiednim rozpoczęciu czyszczenia brudnych danych.
dowiedz się, w jaki sposób Platforma MarkLogic Operational Data Hub może pomóc w usprawnieniu zarządzania danymi i poprawie jakości zasobów danych.
Leave a Reply