den svimlende virkning af beskidte Data
Ed nedture
Ed er ansvarlig for markedsføring af kundeløsninger hos MarkLogic. Han trækker på sin betydelige erfaring med at have leveret store big data-projekter og operationelle og analytiske løsninger til organisationer i den offentlige og private sektor for at skabe opmærksomhed og fremskynde vedtagelsen af MarkLogic-platformen.
nogle gange sniger omkostningerne sig på os. Hvad der kan synes at være en daglig irritation, har haft svimlende omkostningsimplikationer i årevis.
beskidte data—data, der er unøjagtige, ufuldstændige eller inkonsekvente—er en af disse overraskelser. Eksperter rapporterer, at virksomheder over hele kloden i gennemsnit føler, at 26% af deres data er beskidte. Dette bidrager til enorme tab. Faktisk koster det den gennemsnitlige forretning 15% til 25% af omsætningen, og den amerikanske økonomi over $3 billioner årligt. Enhver, der har haft at gøre med beskidte data, ved, hvor frustrerende det kan være, men når tallene tilføjes, kan det være svært at pakke dit hoved omkring dets indvirkning.
da beskidte data koster så meget—en nøgtern underdrivelse—er det afgørende at forstå, hvor det kommer fra, hvordan det påvirker forretningen, og hvordan det kan håndteres.
Hvor Kommer Beskidte Data Fra?
ifølge eksperter påvirker menneskelige fejl over 60% af beskidte data, og dårlig interdepartementel kommunikation er involveret i omkring 35% af unøjagtige dataposter. Intuitivt ser det ud til, at en solid datastrategi skal afbøde disse problemer, men utilstrækkelig datastrategi påvirker også 28% af unøjagtige data.
når forskellige afdelinger indtaster relaterede data i separate datasiloer, vil selv god datastrategi ikke forhindre begroning nedstrøms datalagre, marts og søer. Poster kan duplikeres med ikke-kanoniske data, såsom forskellige stavefejl i navne og adresser. Datasiloer med dårlige begrænsninger kan føre til, at datoer, kontonumre eller personlige oplysninger vises i forskellige formater, hvilket gør dem vanskelige eller umulige at automatisk forene.
beskidte data kan forblive skjult i årevis, hvilket gør det endnu vanskeligere at opdage og håndtere, når det faktisk findes. Desværre finder 57% af virksomhederne ud af beskidte data, når de rapporteres af kunder eller kundeemner—en særlig dårlig måde at spore og løse vigtige dataproblemer på.
mange organisationer søger efter inkonsekvente og unøjagtige data ved hjælp af manuelle processer, fordi deres data er for decentraliserede og for ikke-standardiserede. Disse planer har tendens til at falde i samme fælde som dataene—i stedet for konsolideret planlægning er hver afdeling ansvarlig for sine egne data unøjagtigheder. Selvom dette kan fange nogle tilfælde, bidrager det også til interne uoverensstemmelser mellem afdelingssiloer. Rettelsen sker et sted, men ikke et andet, hvilket bare fører til flere dataproblemer.
virkningen af beskidte Data
beskidte data resulterer i spildte ressourcer, mistet produktivitet, mislykket kommunikation—både intern og ekstern—og spildt marketingudgifter. I USA anslås det, at 27% af omsætningen spildes på unøjagtige eller ufuldstændige kunde-og prospektdata.
Produktivitet påvirkes på flere vigtige områder. Dataforskere bruger omkring 60% af deres tid på at rense, normalisere og organisere data. I mellemtiden bruger videnarbejdere op til 50% af deres tid med skjulte og unøjagtige data.
beskidte data mangler troværdighed, og det betyder, at slutbrugere, der er afhængige af disse data, bruger ekstra tid på at bekræfte dens nøjagtighed, hvilket yderligere reducerer hastighed og produktivitet. Introduktion af en anden manuel proces fører til flere unøjagtigheder og montering af uoverensstemmelser gennem et stigende antal beskidte poster.
ud over indtægtstabet påvirker beskidte data virksomheder mere snigende. Kun 16% af virksomhedsledere er sikre på den nøjagtighed, der ligger til grund for deres forretningsbeslutninger. Garbage in, garbage out-når du ikke kan stole på dine egne data, skal der gøres noget for at øge datanøjagtigheden og pålideligheden.
beskidte Data i Bank
på verdensplan koster unøjagtigheder i data mellem 15% og 25% af omsætningen for en virksomhed. Med en global omsætning på over 2,2 billioner dollars betyder det, at beskidte data koster den globale bankindustri over 400 milliarder dollars. Beskidte data fører også til en række risici, der er unikke for banksektoren.
inkonsekvent information på tværs af datasiloer i en organisation fører til transaktionsrisici såsom unøjagtige eller endda svigagtige transaktioner. Falske og svigagtige konti skal fanges tidligt af processer, der renser eller registrerer beskidte data. Når de ikke gør det, sættes banken i fare, og dens omdømme er beskadiget.
med så meget beskidte data og så få ledere, der stoler på de data, de bruger, er det bundet til at resultere i dårlige strategiske beslutninger. Du kan ikke vælge den rigtige vej, hvis du ikke ved, hvor du er. Beskidte data kan føre til enorme operationelle risici.
det konstant udviklende reguleringslandskab skaber også en tung byrde for datastyring. Compliance teams er under betydeligt pres for at give mere information om data, men når de ikke har rene data at arbejde med, er de ude af lykke. 2018-udrulningen af Mifid II-regler har været et smertefuldt eksempel på dette, med vaklende overholdelse og stadig strengere regulatorer, der forårsager smerte for mange europæiske finansielle virksomheder.
håndtering af beskidte Data
det mest udfordrende problem ved oprydning af beskidte data er rengøring af ugyldige poster og duplikatdata. Omhyggelig fejlkorrektion er nødvendig for ikke kun at sikre, at ingen data går tabt, samtidig med at konsistensen af eksisterende gyldige data forbedres, men at alle metadata, der svarer til datakorrektion, opretholdes sammen med selve de integrerede data.
når dataene er blevet renset, skal de opretholdes. Efter den indledende proces med rengøring af beskidte data skal kun nye eller ændrede data kontrolleres for gyldighed og konsistens. I alle tilfælde, fra gamle til nyligt indtastede data, skal afstamningen af dataene registreres. Dette sikrer dens gyldighed og troværdighed.
bedste fremgangsmåder til rengøring af beskidte data og til datastyring inkluderer følgende praksis:
- harmonisere ved at korrelere data på tværs af forskellige siloed kilder og udnytte metadata for data herkomst og afstamning.
- Udnyt core smart mastering kapaciteter til at matche og flette enheder i en enkelt multi-model platform.
- Anvend semantik til at fange forhold mellem data og for at sikre konsistens.
- Opret en 360-graders visning ved at integrere alle dine datakilder.
- Find beskidte data ved hjælp af naturlig sprogsøgning, datamodellering og maskinindlæring for at identificere mønstre og anomalier.
det er meget, men det er det værd. En organisation, der bruger stærk datastyring ud over datarensningspraksis, kan generere op til 70% mere omsætning.
Stop med at lade beskidte Data bremse dig
forretningsvirkningen af beskidte data er svimlende, men en individuel organisation kan undgå morassen. Moderne teknikker og teknologi kan minimere virkningen af beskidte data. Rene, pålidelige data gør virksomheden mere smidig og lydhør, mens den skærer ned på spildt indsats fra dataforskere og videnarbejdere.
din virksomhed planlægger muligvis allerede at tackle sine beskidte dataproblemer. Faktisk planlægger 84% af virksomhederne snart at implementere datakvalitetsløsninger, men mange af disse løsninger er segmenteret på tværs af afdelinger i virksomheden. Desuden vil mange datakvalitetsinitiativer ikke adressere kerneændringer, der er nødvendige i databasen for at påvirke positive ændringer, hvor det er mest nødvendigt. Dette vil kun føre til fremtidige problemer med inkonsekvente data, hvilket forværrer den nuværende tilstand, når data spredes. Indsatsen skal være global på tværs af virksomheden og på en måde, der adresserer mangler ved deres kilde—inde i databasen. Et operationelt DataHub, som f.eks. et bygget oven på MarkLogic kursist, kan hjælpe din virksomhed med at få den rigtige start på at rense sine beskidte data.
Lær, hvordan Marklogics operationelle DataHub-rammer kan hjælpe dig med at forbedre datastyring og øge kvaliteten af dine dataaktiver.
Leave a Reply