L’incredibile Impatto di Dati Sporchi
Ed Downs
Ed Downs è responsabile per il cliente soluzioni di marketing a MarkLogic. Egli si basa sulla sua notevole esperienza, avendo consegnato su larga scala progetti di big data e soluzioni operative e analitiche per le organizzazioni del settore pubblico e privato, per guidare la consapevolezza e accelerare l’adozione della piattaforma MarkLogic.
A volte, i costi si insinuano su di noi. Quello che potrebbe sembrare un fastidio quotidiano ha avuto implicazioni di costo sconcertanti per anni.
I dati sporchi-dati imprecisi, incompleti o incoerenti-sono una di queste sorprese. Experian riporta che in media, le aziende di tutto il mondo ritengono che il 26% dei loro dati sia sporco. Ciò contribuisce a enormi perdite. In realtà, costa il business medio 15% al 25% delle entrate, e l’economia degli Stati Uniti oltre trillion 3 trilioni all’anno. Chiunque abbia avuto a che fare con dati sporchi sa quanto possa essere frustrante, ma quando i numeri vengono sommati, può essere difficile avvolgere la testa intorno al suo impatto.
Poiché i dati sporchi costano così tanto—un eufemismo che fa riflettere—è fondamentale capire da dove vengono, come influisce sul business e come può essere affrontato.
Da dove vengono i dati sporchi?
Secondo Experian, l’errore umano influenza oltre il 60% dei dati sporchi e una scarsa comunicazione interdipartimentale è coinvolta in circa il 35% dei record di dati imprecisi. Intuitivamente, sembra che una solida strategia di dati dovrebbe mitigare questi problemi, ma una strategia di dati inadeguata influisce anche sul 28% dei dati imprecisi.
Quando diversi reparti stanno inserendo dati correlati in silos di dati separati, anche una buona strategia di dati non impedirà l’incrostazione di data warehouse, mart e laghi a valle. I record possono essere duplicati con dati non canonici come diversi errori ortografici di nomi e indirizzi. Silos di dati con vincoli poveri possono portare a date, numeri di conto o informazioni personali visualizzati in diversi formati, il che li rende difficili o impossibili da riconciliare automaticamente.
I dati sporchi possono rimanere nascosti per anni, il che rende ancora più difficile rilevare e gestire quando vengono effettivamente trovati. Sfortunatamente, il 57% delle aziende scopre i dati sporchi quando vengono segnalati da clienti o potenziali clienti, un modo particolarmente scadente per rintracciare e risolvere problemi di dati essenziali.
Molte organizzazioni cercano dati incoerenti e imprecisi utilizzando processi manuali perché i loro dati sono troppo decentralizzati e troppo non standard. Questi piani tendono a cadere nella stessa trappola come i dati—invece di pianificazione consolidata, ogni reparto è responsabile per le proprie inesattezze di dati. Mentre questo può catturare alcuni casi, contribuisce anche alle incongruenze interne tra i silos di reparto. La correzione avviene in un posto ma non in un altro, il che porta solo a più problemi di dati.
L’impatto dei dati sporchi
I dati sporchi si traducono in spreco di risorse, perdita di produttività, comunicazione non riuscita—sia interna che esterna—e spese di marketing sprecate. Negli Stati Uniti, si stima che il 27% delle entrate sia sprecato in dati imprecisi o incompleti di clienti e prospect.
La produttività è influenzata in diverse aree importanti. Gli scienziati dei dati stanno spendendo circa il 60% del loro tempo a pulire, normalizzare e organizzare i dati. Nel frattempo, i lavoratori della conoscenza stanno spendendo fino al 50% del loro tempo con dati nascosti e imprecisi.
I dati sporchi mancano di credibilità e ciò significa che gli utenti finali che si affidano a tali dati trascorrono più tempo a confermarne l’accuratezza, riducendo ulteriormente velocità e produttività. L’introduzione di un altro processo manuale porta a più imprecisioni e incoerenze di montaggio attraverso un numero crescente di record sporchi.
Oltre alla perdita di entrate, i dati sporchi influiscono in modo più insidioso sulle aziende. Solo il 16% dei dirigenti aziendali sono fiduciosi nella precisione che sta alla base delle loro decisioni di business. Garbage in, garbage out-quando non si può fare affidamento sui propri dati, qualcosa deve essere fatto per aumentare la precisione e l’affidabilità dei dati.
Dati sporchi nel settore bancario
In tutto il mondo, le imprecisioni nei dati costano tra il 15% e il 25% delle entrate per un’azienda. Con ricavi globali di oltre trillion 2.2 trilioni, questo significa che i dati sporchi costano al settore bancario globale oltre billion 400 miliardi. I dati sporchi portano anche a una serie di rischi che sono unici per il settore bancario.
Le informazioni incoerenti tra i silos di dati di un’organizzazione comportano rischi transazionali come transazioni imprecise o addirittura fraudolente. Gli account falsi e fraudolenti dovrebbero essere catturati presto dai processi che puliscono o rilevano dati sporchi. Quando non lo fanno, la banca è messa a rischio e la sua reputazione è danneggiata.
Con così tanti dati sporchi e così pochi dirigenti che si fidano dei dati che stanno utilizzando, è destinato a tradursi in decisioni strategiche scadenti. Non puoi scegliere la strada giusta se non sai dove ti trovi. I dati sporchi possono portare a enormi rischi operativi.
Il panorama normativo in continua evoluzione crea anche un pesante onere per la gestione dei dati. I team di compliance sono sotto pressione per fornire maggiori informazioni sui dati, ma quando non hanno dati puliti con cui lavorare, sono sfortunati. Il rollout 2018 dei regolamenti Mifid II è stato un doloroso esempio di ciò, con una conformità vacillante e regolatori sempre più severi che hanno causato dolore a molte società finanziarie europee.
Gestione dei dati sporchi
Il problema più impegnativo nella pulizia dei dati sporchi è la pulizia di voci non valide e dati duplicati. È necessaria un’attenta correzione degli errori non solo per garantire che nessun dato venga perso migliorando la coerenza dei dati validi esistenti, ma che tutti i metadati corrispondenti alla correzione dei dati vengano mantenuti insieme ai dati integrati stessi.
Una volta che i dati sono stati puliti, devono essere mantenuti. Dopo il processo iniziale di pulizia dei dati sporchi, solo i dati nuovi o modificati dovrebbero essere controllati per la validità e la coerenza. In tutti i casi, dai dati vecchi a quelli appena inseriti, deve essere registrato il lignaggio dei dati. Ciò garantisce la sua validità e affidabilità.
Le best practice per la pulizia dei dati sporchi e per la governance dei dati includono le seguenti pratiche:
- Armonizzare correlando i dati tra diverse fonti in silos e sfruttando i metadati per la provenienza dei dati e il lignaggio.
- Sfrutta le funzionalità di mastering smart core per abbinare e unire entità in un’unica piattaforma multi-modello.
- Applicare la semantica per acquisire le relazioni tra i dati e garantire la coerenza.
- Crea una vista a 360 gradi integrando tutte le tue origini dati.
- Trova i dati sporchi utilizzando la ricerca in linguaggio naturale, la modellazione dei dati e l’apprendimento automatico per identificare modelli e anomalie.
È molto, ma ne vale la pena. Un’organizzazione che utilizza una forte governance dei dati oltre a pratiche di pulizia dei dati può generare fino al 70% di entrate in più.
Smetti di lasciare che i dati sporchi ti rallentino
L’impatto sul business dei dati sporchi è sconcertante, ma una singola organizzazione può evitare la palude. Le moderne tecniche e tecnologie possono ridurre al minimo l’impatto dei dati sporchi. Dati puliti e affidabili rendono l’azienda più agile e reattiva, riducendo al contempo gli sforzi sprecati da data scientist e knowledge workers.
La tua azienda potrebbe già pianificare di affrontare i suoi problemi di dati sporchi. Infatti, l ‘ 84% delle aziende sta pianificando di implementare presto soluzioni di qualità dei dati, ma molte di queste soluzioni sono segmentate tra i reparti dell’azienda. Inoltre, molte iniziative di qualità dei dati non affronteranno le modifiche fondamentali necessarie all’interno del database per influenzare il cambiamento positivo dove è più necessario. Ciò porterà solo a problemi futuri con dati incoerenti, esacerbando lo stato attuale mentre i dati proliferano. Lo sforzo deve essere globale in tutto il business e in un modo che risolve le carenze alla loro fonte—all’interno del database. Un hub di dati operativi, come quello costruito su MarkLogic®, può aiutare la tua azienda a iniziare a pulire i dati sporchi.
Scopri come il framework Operational Data Hub di MarkLogic può aiutarti a migliorare la governance dei dati e ad aumentare la qualità delle tue risorse di dati.
Leave a Reply