ohromující dopad špinavých dat
Ed Downs
Ed Downs je zodpovědný za marketing zákaznických řešení ve společnosti MarkLogic. Čerpá ze svých značných zkušeností, které dodaly rozsáhlé velké datové projekty a provozní a analytická řešení pro organizace veřejného a soukromého sektoru, aby podpořily povědomí a urychlily přijetí platformy MarkLogic.
někdy, náklady se na nás plíží. To, co by se mohlo zdát jako každodenní nepříjemnost, má roky ohromující dopady na náklady.
špinavá data-data, která jsou nepřesná, neúplná nebo nekonzistentní-jsou jedním z těchto překvapení. Experian uvádí, že společnosti po celém světě mají v průměru pocit, že 26% jejich údajů je špinavých. To přispívá k obrovským ztrátám. Ve skutečnosti to stojí průměrný podnik 15% až 25% příjmů a americká ekonomika přes 3 biliony dolarů ročně. Každý, kdo se musel vypořádat se špinavými daty, ví, jak frustrující to může být, ale když se čísla sčítají, může být obtížné zabalit hlavu kolem jejího dopadu.
protože špinavé údaje stojí tolik—vytrvalé podhodnocení—je důležité pochopit, odkud pocházejí, jak ovlivňují podnikání a jak je lze řešit.
Odkud Pocházejí Špinavá Data?
podle Experiana lidská chyba ovlivňuje více než 60% špinavých dat a špatná meziresortní komunikace se podílí na asi 35% nepřesných datových záznamů. Intuitivně se zdá, že solidní datová strategie by měla tyto problémy zmírnit,ale nedostatečná datová strategie také ovlivňuje 28% nepřesných dat.
když různá oddělení zadávají související data do samostatných datových sil, ani dobrá datová strategie nezabrání znečištění následných datových skladů, tržišť a jezer. Záznamy mohou být duplikovány s nekanonickými daty, jako jsou různé překlepy jmen a adres. Datová Sila se špatnými omezeními mohou vést k datům, čísla účtů nebo osobní údaje jsou zobrazeny v různých formátech, což ztěžuje nebo znemožňuje automatické sladění.
špinavá data mohou zůstat skrytá po celá léta, což ztěžuje detekci a řešení, kdy jsou skutečně nalezena. Bohužel 57% podniků se dozví o špinavých datech, když je hlásí zákazníci nebo vyhlídky-obzvláště špatný způsob, jak vystopovat a vyřešit základní problémy s daty.
mnoho organizací hledá nekonzistentní a nepřesná data pomocí ručních procesů, protože jejich data jsou příliš decentralizovaná a příliš nestandardní. Tyto plány mají tendenci spadat do stejné pasti jako data – místo konsolidovaného plánování je každé oddělení odpovědné za své vlastní nepřesnosti dat. I když to může zachytit některé případy, přispívá to také k vnitřním nesrovnalostem mezi silami oddělení. Oprava se děje na jednom místě, ale ne na jiném, což vede pouze k dalším problémům s daty.
dopad špinavých dat
špinavé údaje vedou k plýtvání zdroji, ztrátě produktivity, neúspěšné komunikaci-interní i externí—a zbytečným marketingovým výdajům. V USA se odhaduje, že 27% příjmů je plýtváno nepřesnými nebo neúplnými údaji o zákaznících a vyhlídkách.
produktivita je ovlivněna v několika důležitých oblastech. Vědci v oblasti dat tráví kolem 60% svého času čištěním, normalizací a organizováním dat. Mezitím znalostní pracovníci tráví až 50% svého času skrytými a nepřesnými údaji.
špinavá data postrádají důvěryhodnost, a to znamená, že koncoví uživatelé, kteří se spoléhají na tato data, tráví více času potvrzením jejich přesnosti, což dále snižuje rychlost a produktivitu. Zavedení dalšího manuálního procesu vede k větším nepřesnostem a narůstajícím nesrovnalostem díky rostoucímu počtu špinavých záznamů.
kromě ztráty příjmů mají špinavé údaje dopad na podniky zákeřněji. Pouze 16% obchodních manažerů je přesvědčeno o přesnosti, která je základem jejich obchodních rozhodnutí. Garbage in, garbage out – když se nemůžete spolehnout na vlastní data, je třeba něco udělat pro zvýšení přesnosti a spolehlivosti dat.
špinavé údaje v bankovnictví
celosvětově nepřesnosti v datech stojí mezi 15% a 25% příjmů společnosti. S globálními příjmy přes 2,2 bilionu dolarů to znamená, že špinavé údaje stojí globální bankovní průmysl přes 400 miliard dolarů. Špinavé údaje také vedou k řadě rizik, která jsou pro bankovní sektor jedinečná.
nekonzistentní informace napříč datovými silami v Organizaci vedou k transakčním rizikům, jako jsou nepřesné nebo dokonce podvodné transakce. Falešné a podvodné účty by měly být včas zachyceny procesy, které čistí nebo detekují špinavá data. Když tak neučiní, banka je ohrožena a její pověst je poškozena.
s tolika špinavými daty a tak málo vedoucích pracovníků důvěřujících údajům, které používají, to musí mít za následek špatná strategická rozhodnutí. Nemůžete si vybrat správnou cestu, pokud nevíte, kde jste. Špinavá data mohou vést k obrovským operačním rizikům.
neustále se vyvíjející regulační prostředí také vytváří velkou zátěž pro správu dat. Compliance týmy jsou pod značným tlakem, aby poskytly více informací o datech, ale když nemají čistá data, se kterými by mohli pracovat, mají smůlu. Zavádění předpisů Mifid II v roce 2018 je toho bolestným příkladem, protože slábnoucí dodržování předpisů a stále přísnější regulační orgány způsobují bolest mnoha evropským finančním firmám.
řešení špinavých dat
nejnáročnějším problémem při čištění špinavých dat je čištění neplatných záznamů a duplicitních dat. Pečlivá Oprava chyb je nutná nejen k zajištění ztráty dat při zlepšování konzistence stávajících platných dat, ale také k zachování všech metadat odpovídajících korekci dat vedle samotných integrovaných dat.
jakmile jsou data vyčištěna, je třeba je udržovat. Po počátečním procesu čištění špinavých dat je třeba zkontrolovat platnost a konzistenci pouze nových nebo změněných dat. Ve všech případech, od starých po nově zadaná data, musí být zaznamenána linie dat. Tím je zajištěna jeho platnost a důvěryhodnost.
osvědčené postupy pro čištění špinavých dat a pro správu dat zahrnují následující postupy:
- harmonizujte korelací dat mezi různými zdroji siloed a využitím metadat pro původ dat a linii.
- využijte základní schopnosti inteligentního masteringu pro porovnávání a slučování entit v jedné platformě s více modely.
- použijte sémantiku pro zachycení vztahů mezi daty a pro zajištění konzistence.
- Vytvořte 360stupňový pohled integrací všech zdrojů dat.
- Najděte špinavá data pomocí vyhledávání v přirozeném jazyce, modelování dat a strojového učení k identifikaci vzorců a anomálií.
je to hodně, ale stojí to za to. Organizace, která kromě postupů čištění dat používá silnou správu dat, může generovat až o 70% vyšší příjmy.
přestaňte nechat špinavá Data zpomalit
obchodní dopad špinavých dat je ohromující, ale jednotlivá organizace se může vyhnout morálce. Moderní techniky a technologie mohou minimalizovat dopad špinavých dat. Čistý, spolehlivá data činí podnik agilnější a citlivější při snižování zbytečného úsilí vědců v oblasti dat a znalostních pracovníků.
vaše firma již možná plánuje řešit své problémy se špinavými daty. Ve skutečnosti 84% podniků plánuje brzy implementovat řešení kvality dat, ale mnoho z těchto řešení je segmentováno napříč odděleními v podniku. Mnoho iniciativ v oblasti kvality dat navíc neřeší základní změny potřebné v databázi, aby ovlivnily pozitivní změny tam, kde je to nejvíce potřeba. To povede pouze k budoucím problémům s nekonzistentními daty, což zhorší současný stav, jak se data šíří. Úsilí musí být Globální v celém podnikání a způsobem, který řeší nedostatky u jejich zdroje-uvnitř databáze. Provozní datové centrum, jako je například centrum postavené na MarkLogic®, může vašemu podniku pomoci začít správně čistit jeho špinavá data.
zjistěte, jak vám rámec operačního datového centra společnosti MarkLogic může pomoci zlepšit správu dat a zvýšit kvalitu vašich datových aktiv.
Leave a Reply