de onthutsende Impact van vuile gegevens
Ed Downs
Ed Downs is verantwoordelijk voor de marketing van klantoplossingen bij MarkLogic. Hij put uit zijn ruime ervaring, met het leveren van grootschalige big Data-projecten en operationele en analytische oplossingen voor publieke en private organisaties, om de bewustwording te stimuleren en de invoering van het MarkLogic-platform te versnellen.
soms besluipen de kosten ons. Wat een alledaagse ergernis lijkt te zijn, heeft al jaren duizelingwekkende gevolgen voor de kosten.
vuile gegevens – Gegevens die onnauwkeurig, onvolledig of inconsistent zijn—zijn een van deze verrassingen. Experian meldt dat bedrijven over de hele wereld Gemiddeld het gevoel hebben dat 26% van hun data vuil is. Dit draagt bij aan enorme verliezen. In feite kost het de gemiddelde business 15% tot 25% van de omzet, en de Amerikaanse economie meer dan $ 3 biljoen per jaar. Iedereen die te maken heeft gehad met vuile gegevens weet hoe frustrerend het kan zijn, maar wanneer de cijfers worden opgeteld, kan het moeilijk zijn om je hoofd te wikkelen rond de impact ervan.
omdat vuile gegevens zoveel kosten—een ontnuchterend understatement—is het van cruciaal belang om te begrijpen waar ze vandaan komen, hoe ze van invloed zijn op het bedrijfsleven en hoe ze kunnen worden behandeld.
Waar Komen Vuile Gegevens Vandaan?Volgens Experian beïnvloedt menselijke fouten meer dan 60% van de vuile gegevens en is slechte interdepartementale communicatie betrokken bij ongeveer 35% van de onnauwkeurige gegevensbestanden. Intuïtief lijkt het erop dat een solide data-strategie deze problemen zou moeten verminderen, maar ontoereikende data-strategie heeft ook gevolgen voor 28% van de onnauwkeurige gegevens.
wanneer verschillende afdelingen gerelateerde gegevens invoeren in afzonderlijke datasilo ‘ s, zal zelfs een goede datastrategie niet voorkomen dat downstream datawarehouses, marts en meren vervuild raken. Records kunnen worden gedupliceerd met niet-canonieke gegevens, zoals verschillende spelfouten van namen en adressen. Datasilo ‘ s met slechte beperkingen kunnen ertoe leiden dat data, rekeningnummers of persoonlijke informatie in verschillende formaten worden weergegeven, waardoor ze moeilijk of onmogelijk automatisch te verzoenen zijn.
vuile gegevens kunnen jarenlang verborgen blijven, wat het nog moeilijker maakt om ze op te sporen en te verwerken wanneer ze daadwerkelijk worden gevonden. Helaas, 57% van de bedrijven te weten komen over vuile gegevens wanneer het wordt gemeld door klanten of prospects—een bijzonder slechte manier om op te sporen en op te lossen essentiële gegevens problemen.
veel organisaties zoeken naar inconsistente en onnauwkeurige gegevens met behulp van handmatige processen omdat hun gegevens te gedecentraliseerd en te Niet-standaard zijn. Deze plannen vallen vaak in dezelfde val als de gegevens—in plaats van geconsolideerde planning, is elke afdeling verantwoordelijk voor zijn eigen gegevensonnauwkeurigheden. Hoewel dit sommige gevallen kan vangen, het draagt ook bij aan interne inconsistenties tussen afdeling silo ‘ s. De fix gebeurt op de ene plaats, maar niet in een andere, die gewoon leidt tot meer gegevens problemen.
de Impact van vuile gegevens
vuile gegevens resulteert in verspilde middelen, verloren productiviteit, mislukte communicatie—zowel intern als extern—en verspilde marketinguitgaven. In de VS wordt geschat dat 27% van de omzet wordt verspild aan onjuiste of onvolledige klant-en prospect-gegevens.
de productiviteit wordt op verschillende belangrijke gebieden beïnvloed. Datawetenschappers besteden ongeveer 60% van hun tijd aan het schoonmaken, normaliseren en organiseren van gegevens. Ondertussen besteden kenniswerkers tot 50% van hun tijd aan verborgen en onnauwkeurige gegevens.
vuile gegevens ontbreken aan geloofwaardigheid, en dat betekent dat eindgebruikers die op die gegevens vertrouwen extra tijd besteden aan het bevestigen van de nauwkeurigheid, waardoor de snelheid en productiviteit verder worden verminderd. De invoering van een ander handmatig proces leidt tot meer onnauwkeurigheden en toenemende inconsistenties door groeiende aantallen vuile records.
naast het verlies aan inkomsten, hebben vuile gegevens meer verraderlijke gevolgen voor bedrijven. Slechts 16% van de bedrijfsleiders heeft vertrouwen in de nauwkeurigheid die ten grondslag ligt aan hun zakelijke beslissingen. Garbage in, garbage out-wanneer u niet kunt vertrouwen op uw eigen gegevens, moet er iets worden gedaan om de nauwkeurigheid en betrouwbaarheid van gegevens te verhogen.
Dirty Data in Banking
wereldwijd, onnauwkeurigheden in data kosten tussen 15% en 25% van de omzet voor een bedrijf. Met een wereldwijde omzet van meer dan $2.2 biljoen, betekent dit dat vuile data de wereldwijde banksector meer dan $ 400 miljard kost. Dirty data leidt ook tot een aantal risico ‘ s die uniek zijn voor de banksector.
inconsistente informatie over datasilo ‘s in een organisatie leidt tot transactierisico’ s zoals onnauwkeurige of zelfs frauduleuze transacties. Valse en frauduleuze accounts moeten vroeg worden gevangen door processen die vuile gegevens reinigen of detecteren. Als ze dat niet doen, wordt de bank in gevaar gebracht, en haar reputatie wordt beschadigd.
met zoveel vuile gegevens en zo weinig leidinggevenden die vertrouwen op de gegevens die ze gebruiken, zal het onvermijdelijk leiden tot slechte strategische beslissingen. Je kunt niet de juiste weg kiezen als je niet weet waar je bent. Vuile data kan leiden tot enorme operationele risico ‘ s.
het voortdurend veranderende regelgevingslandschap vormt ook een zware last voor het gegevensbeheer. Compliance teams staan onder grote druk om meer informatie over gegevens te verstrekken, maar als ze geen schone gegevens hebben om mee te werken, hebben ze pech. De uitrol van de MiFID II-regelgeving in 2018 is daar een pijnlijk voorbeeld van geweest, met haperende naleving en steeds strengere toezichthouders die veel Europese financiële bedrijven pijn doen.
omgaan met vuile gegevens
het meest uitdagende probleem bij het opruimen van vuile gegevens is het opschonen van ongeldige ingangen en dubbele gegevens. Er is een zorgvuldige foutcorrectie nodig om er niet alleen voor te zorgen dat er geen gegevens verloren gaan terwijl de consistentie van bestaande geldige gegevens wordt verbeterd, maar ook dat alle metagegevens die overeenkomen met gegevenscorrectie naast de geïntegreerde gegevens zelf worden gehandhaafd.
zodra de gegevens zijn gereinigd, moeten ze worden gehandhaafd. Na het eerste proces van het reinigen van vuile gegevens, alleen nieuwe of gewijzigde gegevens moeten worden gecontroleerd op geldigheid en consistentie. In alle gevallen, van oude tot nieuw ingevoerde gegevens, moet de afstamming van de gegevens worden geregistreerd. Dit garandeert de geldigheid en betrouwbaarheid ervan.
beste praktijken voor het reinigen van vuile gegevens en voor gegevensbeheer omvatten de volgende praktijken:
- harmoniseren door de gegevens te correleren tussen verschillende gescheiden bronnen en gebruik te maken van metagegevens voor de herkomst en afstamming van de gegevens.
- maak gebruik van de belangrijkste mogelijkheden voor slimme mastering om entiteiten te matchen en samen te voegen in één platform met meerdere modellen.
- semantiek toepassen om relaties tussen gegevens vast te leggen en consistentie te waarborgen.
- Maak een 360-graden weergave door al uw gegevensbronnen te integreren.
- vind vuile gegevens met behulp van zoeken in natuurlijke taal, gegevensmodellering en machine learning om patronen en anomalieën te identificeren.
het is veel, maar het is het waard. Een organisatie die gebruik maakt van sterke data governance in aanvulling op data-cleansing praktijken kan genereren tot 70% meer omzet.
laat vuile gegevens u niet langer vertragen
de zakelijke impact van vuile gegevens is onthutsend, maar een individuele organisatie kan het moeras vermijden. Moderne technieken en technologie kunnen de impact van vuile data minimaliseren. Schone, betrouwbare gegevens maken het bedrijf wendbaarder en responsiever en besparen op verspilde inspanningen van datawetenschappers en kenniswerkers.
uw bedrijf is misschien al van plan om zijn “dirty-data” – problemen aan te pakken. In feite, 84% van de bedrijven zijn van plan om data quality oplossingen binnenkort te implementeren, maar veel van deze oplossingen zijn gesegmenteerd over afdelingen in de onderneming. Bovendien zullen veel initiatieven op het gebied van gegevenskwaliteit niet ingaan op de kernveranderingen die nodig zijn in de database om positieve veranderingen te beïnvloeden waar deze het meest nodig zijn. Dit zal alleen maar leiden tot toekomstige problemen met inconsistente gegevens, waardoor de huidige toestand verergert naarmate de gegevens zich uitbreiden. De inspanningen moeten globaal zijn in het hele bedrijf en op een manier die tekortkomingen aan de bron—binnen de database-aanpakt. Een operationele datahub, zoals een die bovenop MarkLogic® is gebouwd, kan uw bedrijf helpen om de juiste start te maken met het schoonmaken van de vuile gegevens.
ontdek hoe MarkLogic ‘ s Operational Data Hub framework u kan helpen gegevensbeheer te verbeteren en de kwaliteit van uw gegevensactiva te verhogen.
Leave a Reply