Articles / augusti 25, 2021

den svindlande effekten av smutsiga Data

Ed Downs

Ed Downs-marknadschef för lösningar / MarkLogic

Ed Downs ansvarar för marknadsföring av kundlösningar på MarkLogic. Han bygger på sin stora erfarenhet, efter att ha levererat storskaliga big data-projekt och operativa och analytiska lösningar för offentliga och privata organisationer, för att driva medvetenhet och påskynda antagandet av MarkLogic-plattformen.

ibland, kostnader smyga upp på oss. Vad som kan tyckas vara en vardaglig irritation har haft svindlande kostnadskonsekvenser i flera år.

Smutsiga data – data som är felaktiga, ofullständiga eller inkonsekventa—är en av dessa överraskningar. Experian rapporterar att företag över hela världen i genomsnitt känner att 26% av deras data är smutsiga. Detta bidrar till enorma förluster. I själva verket kostar det den genomsnittliga verksamheten 15% till 25% av intäkterna, och den amerikanska ekonomin över $3 biljoner årligen. Någon som har haft att göra med smutsiga data vet hur frustrerande det kan vara, men när siffrorna läggs upp, det kan vara svårt att linda huvudet runt dess inverkan.

eftersom smutsiga data kostar så mycket—en nykterande underdrift-är det viktigt att förstå varifrån det kommer, hur det påverkar verksamheten och hur det kan hanteras.

Var Kommer Smutsiga Data Från?

enligt Experian påverkar mänskliga fel över 60% av smutsiga data, och dålig interdepartemental kommunikation är inblandad i cirka 35% av felaktiga dataposter. Intuitivt verkar det som om en solid datastrategi bör mildra dessa problem, men otillräcklig datastrategi påverkar också 28% av felaktiga data.

när olika avdelningar matar in relaterade data i separata datasilos, kommer inte ens bra datastrategi att förhindra nedsmutsning nedströms datalager, marts och sjöar. Poster kan dupliceras med icke-kanoniska data som olika felstavningar av namn och adresser. Datasilor med dåliga begränsningar kan leda till att datum, kontonummer eller personlig information visas i olika format, vilket gör dem svåra eller omöjliga att automatiskt förena.

Smutsiga data kan förbli dolda i flera år, vilket gör det ännu svårare att upptäcka och hantera när det faktiskt hittas. Tyvärr får 57% av företagen reda på smutsiga data när det rapporteras av kunder eller framtidsutsikter—ett särskilt dåligt sätt att spåra och lösa viktiga dataproblem.

många organisationer söker efter inkonsekventa och felaktiga data med manuella processer eftersom deras data är för decentraliserade och för icke-standardiserade. Dessa planer tenderar att falla i samma fälla som data—istället för konsoliderad planering är varje avdelning ansvarig för sina egna datafel. Även om detta kan fånga vissa fall, det bidrar också till interna inkonsekvenser mellan avdelningssilor. Fixen händer på ett ställe men inte på ett annat, vilket bara leder till fler dataproblem.

effekten av smutsiga Data

Smutsiga data resulterar i bortkastade resurser, förlorad produktivitet, misslyckad kommunikation—både internt och externt—och bortkastade marknadsföringsutgifter. I USA beräknas 27% av intäkterna slösas bort på felaktiga eller ofullständiga kund-och prospektdata.

produktiviteten påverkas inom flera viktiga områden. Dataforskare spenderar cirka 60% av sin tid på att rengöra, normalisera och organisera data. Under tiden spenderar kunskapsarbetare upp till 50% av sin tid med dolda och felaktiga uppgifter.

Smutsiga data saknar trovärdighet, och det betyder att slutanvändare som litar på den informationen spenderar extra tid på att bekräfta dess noggrannhet, vilket ytterligare minskar hastigheten och produktiviteten. Att introducera en annan manuell process leder till fler felaktigheter och ökande inkonsekvenser genom växande antal smutsiga poster.

förutom intäktsförlusten påverkar smutsiga data företag mer lumskt. Endast 16% av företagsledarna är övertygade om den noggrannhet som ligger till grund för deras affärsbeslut. Garbage in, garbage out-när du inte kan lita på dina egna data, något måste göras för att öka data noggrannhet och tillförlitlighet.

Smutsiga Data i Bank

över hela världen kostar felaktigheter i data mellan 15% och 25% av intäkterna för ett företag. Med globala intäkter på över 2,2 biljoner dollar betyder det att smutsiga data kostar den globala bankindustrin över 400 miljarder dollar. Smutsiga data leder också till ett antal risker som är unika för bankbranschen.

inkonsekvent information över datasilos i en organisation leder till transaktionsrisker som felaktiga eller till och med bedrägliga transaktioner. Falska och bedrägliga konton bör fångas tidigt av processer som rengör eller upptäcker smutsiga data. När de inte gör det riskerar banken och dess rykte skadas.

med så mycket smutsiga data och så få chefer som litar på de data de använder, kommer det säkert att leda till dåliga strategiska beslut. Du kan inte välja rätt väg Om du inte vet var du är. Smutsiga data kan leda till enorma operativa risker.

det ständigt utvecklande regleringslandskapet skapar också en tung börda för datahantering. Compliance-team är under stort tryck för att ge mer information om data, men när de inte har rena data att arbeta med har de ingen tur. 2018 års utbyggnad av Mifid II-Regler har varit ett smärtsamt exempel på detta, med vacklande efterlevnad och allt strängare tillsynsmyndigheter som orsakar smärta för många europeiska finansiella företag.

hantera Smutsiga Data

det mest utmanande problemet vid rengöring av smutsiga data är rengöring av ogiltiga poster och dubbla data. Noggrann felkorrigering behövs för att inte bara säkerställa att inga data går förlorade samtidigt som konsistensen av befintliga giltiga data förbättras, men att alla metadata som motsvarar datakorrigering bibehålls tillsammans med de integrerade data i sig.

när data har rengjorts måste den bibehållas. Efter den första processen med rengöring av smutsiga data bör endast nya eller ändrade data behöva kontrolleras för giltighet och konsistens. I alla fall, från gamla till nyinmatade data, måste datalinjen registreras. Detta säkerställer dess giltighet och pålitlighet.

bästa praxis för rengöring av smutsiga data och för datastyrning inkluderar följande metoder:

harmonisera genom att korrelera data över olika siloed källor och utnyttja metadata för data härkomst och härstamning.
utnyttja core smart mastering-funktioner för att matcha och slå samman enheter i en enda plattform med flera modeller.
tillämpa semantik för att fånga relationer mellan data och för att säkerställa konsekvens.
skapa en 360-graders vy genom att integrera alla dina datakällor.
hitta smutsiga data med hjälp av naturligt språk sökning, datamodellering och maskininlärning för att identifiera mönster och avvikelser.

det är mycket, men det är värt det. En organisation som använder stark datastyrning utöver datarensning kan generera upp till 70% mer intäkter.

sluta låta Smutsiga Data sakta ner dig

affärseffekten av smutsiga data är svindlande, men en enskild organisation kan undvika morass. Modern teknik och teknik kan minimera effekterna av smutsiga data. Rena, tillförlitliga data gör verksamheten mer smidig och lyhörd samtidigt som man minskar bortkastade ansträngningar från datavetare och kunskapsarbetare.

ditt företag kanske redan planerar att ta itu med sina smutsiga dataproblem. Faktum är att 84% av företagen planerar att implementera datakvalitetslösningar snart, men många av dessa lösningar är segmenterade över avdelningar i företaget. Dessutom kommer många datakvalitetsinitiativ inte att ta itu med kärnförändringar som behövs i databasen för att påverka positiv förändring där den behövs mest. Detta kommer bara att leda till framtida problem med inkonsekventa data, vilket förvärrar det aktuella tillståndet när data sprider sig. Insatsen måste vara global i hela verksamheten och på ett sätt som tar itu med brister vid källan—inuti databasen. Ett operativt datanav, som ett byggt ovanpå MarkLogic, kan hjälpa ditt företag att få rätt start på att rengöra sina smutsiga data.

läs om hur Marklogics ramverk för operativa Data Hub kan hjälpa dig att förbättra datastyrningen och öka kvaliteten på dina datatillgångar.

International Blogging Network