Die erstaunlichen Auswirkungen schmutziger Daten
Ed Downs
Ed Downs ist bei MarkLogic für das Customer Solutions Marketing verantwortlich. Er stützt sich auf seine umfangreiche Erfahrung in der Bereitstellung umfangreicher Big-Data-Projekte sowie operativer und analytischer Lösungen für Organisationen des öffentlichen und privaten Sektors, um das Bewusstsein für die MarkLogic-Plattform zu schärfen und die Einführung zu beschleunigen.
Manchmal schleichen sich Kosten an uns heran. Was wie ein alltägliches Ärgernis erscheinen mag, hat seit Jahren erstaunliche Kostenauswirkungen.
Schmutzige Daten – Daten, die ungenau, unvollständig oder inkonsistent sind — sind eine dieser Überraschungen. Experian berichtet, dass Unternehmen auf der ganzen Welt im Durchschnitt das Gefühl haben, dass 26% ihrer Daten schmutzig sind. Dies trägt zu enormen Verlusten bei. Tatsächlich kostet es das durchschnittliche Unternehmen 15% bis 25% des Umsatzes und die US-Wirtschaft jährlich über 3 Billionen US-Dollar. Jeder, der mit schmutzigen Daten zu tun hatte, weiß, wie frustrierend es sein kann, aber wenn die Zahlen addiert werden, kann es schwierig sein, den Kopf um seine Auswirkungen zu wickeln.
Da schmutzige Daten so viel kosten — eine ernüchternde Untertreibung — ist es wichtig zu verstehen, woher sie kommen, wie sie sich auf das Geschäft auswirken und wie damit umgegangen werden kann.
Woher kommen schmutzige Daten?
Laut Experian beeinflusst menschliches Versagen über 60% der schmutzigen Daten, und eine schlechte abteilungsübergreifende Kommunikation ist an etwa 35% der ungenauen Datensätze beteiligt. Intuitiv scheint es, dass eine solide Datenstrategie diese Probleme abmildern sollte, aber eine unzureichende Datenstrategie wirkt sich auch auf 28% der ungenauen Daten aus.
Wenn verschiedene Abteilungen verwandte Daten in separate Datensilos eingeben, wird selbst eine gute Datenstrategie nicht verhindern, dass nachgelagerte Data Warehouses, Marts und Lakes verschmutzt werden. Datensätze können mit nicht-kanonischen Daten wie verschiedenen Rechtschreibfehlern von Namen und Adressen dupliziert werden. Datensilos mit schlechten Einschränkungen können dazu führen, dass Daten, Kontonummern oder persönliche Informationen in verschiedenen Formaten angezeigt werden, was den automatischen Abgleich erschwert oder unmöglich macht.
Schmutzige Daten können jahrelang verborgen bleiben, was es noch schwieriger macht, sie zu erkennen und zu behandeln, wenn sie tatsächlich gefunden werden. Leider erfahren 57% der Unternehmen von schmutzigen Daten, wenn sie von Kunden oder Interessenten gemeldet werden – ein besonders schlechter Weg, um wichtige Datenprobleme aufzuspüren und zu lösen.
Viele Organisationen suchen mit manuellen Prozessen nach inkonsistenten und ungenauen Daten, weil ihre Daten zu dezentralisiert und zu nicht standardisiert sind. Diese Pläne tendieren dazu, in die gleiche Falle wie die Daten zu tappen – anstelle einer konsolidierten Planung ist jede Abteilung für ihre eigenen Datenungenauigkeiten verantwortlich. Dies kann zwar einige Fälle auffangen, trägt aber auch zu internen Inkonsistenzen zwischen Abteilungssilos bei. Das Update findet an einer Stelle statt, aber nicht an einer anderen, was nur zu mehr Datenproblemen führt.
Die Auswirkungen schmutziger Daten
Schmutzige Daten führen zu Ressourcenverschwendung, Produktivitätsverlust, fehlgeschlagener Kommunikation — sowohl intern als auch extern — und verschwendeten Marketingausgaben. In den USA werden schätzungsweise 27% des Umsatzes mit ungenauen oder unvollständigen Kunden- und Interessentendaten verschwendet.
Die Produktivität wird in mehreren wichtigen Bereichen beeinträchtigt. Datenwissenschaftler verbringen rund 60% ihrer Zeit damit, Daten zu bereinigen, zu normalisieren und zu organisieren. In der Zwischenzeit verbringen Wissensarbeiter bis zu 50% ihrer Zeit mit versteckten und ungenauen Daten.
Schmutzigen Daten mangelt es an Glaubwürdigkeit, und das bedeutet, dass Endbenutzer, die sich auf diese Daten verlassen, zusätzliche Zeit damit verbringen, ihre Genauigkeit zu bestätigen, was die Geschwindigkeit und Produktivität weiter verringert. Die Einführung eines weiteren manuellen Prozesses führt zu mehr Ungenauigkeiten und zunehmenden Inkonsistenzen durch eine wachsende Anzahl schmutziger Datensätze.
Zusätzlich zum Umsatzverlust wirken sich schmutzige Daten heimtückischer auf Unternehmen aus. Nur 16% der Führungskräfte vertrauen auf die Genauigkeit, die ihren Geschäftsentscheidungen zugrunde liegt. Müll rein, Müll raus – wenn Sie sich nicht auf Ihre eigenen Daten verlassen können, muss etwas getan werden, um die Datengenauigkeit und -zuverlässigkeit zu erhöhen.
Schmutzige Daten im Bankwesen
Weltweit kosten Ungenauigkeiten in Daten zwischen 15% und 25% des Umsatzes eines Unternehmens. Bei einem weltweiten Umsatz von über 2,2 Billionen US-Dollar bedeutet dies, dass schmutzige Daten die globale Bankenbranche über 400 Milliarden US-Dollar kosten. Schmutzige Daten führen auch zu einer Reihe von Risiken, die für die Bankenbranche einzigartig sind.
Inkonsistente Informationen über Datensilos hinweg in einer Organisation führen zu Transaktionsrisiken wie ungenauen oder sogar betrügerischen Transaktionen. Gefälschte und betrügerische Konten sollten frühzeitig von Prozessen erkannt werden, die schmutzige Daten bereinigen oder erkennen. Wenn sie dies nicht tun, wird die Bank gefährdet und ihr Ruf beschädigt.
Bei so vielen schmutzigen Daten und so wenigen Führungskräften, die den von ihnen verwendeten Daten vertrauen, führt dies zwangsläufig zu schlechten strategischen Entscheidungen. Sie können nicht den richtigen Weg wählen, wenn Sie nicht wissen, wo Sie sind. Schmutzige Daten können zu enormen operationellen Risiken führen.
Die sich ständig weiterentwickelnde regulatorische Landschaft stellt auch eine hohe Belastung für das Datenmanagement dar. Compliance-Teams stehen unter erheblichem Druck, mehr Informationen über Daten bereitzustellen, aber wenn sie keine sauberen Daten zum Arbeiten haben, haben sie kein Glück. Die Einführung der Mifid II-Vorschriften im Jahr 2018 war ein schmerzhaftes Beispiel dafür, da die Einhaltung der Vorschriften und die immer strengeren Regulierungsbehörden vielen europäischen Finanzunternehmen Schmerzen bereiten.
Umgang mit schmutzigen Daten
Das schwierigste Problem beim Bereinigen schmutziger Daten ist das Bereinigen ungültiger Einträge und doppelter Daten. Eine sorgfältige Fehlerkorrektur ist erforderlich, um nicht nur sicherzustellen, dass keine Daten verloren gehen und gleichzeitig die Konsistenz der vorhandenen gültigen Daten verbessert wird, sondern auch, dass alle Metadaten, die der Datenkorrektur entsprechen, neben den integrierten Daten selbst erhalten bleiben.
Sobald die Daten bereinigt wurden, müssen sie gepflegt werden. Nach dem anfänglichen Bereinigen verschmutzter Daten sollten nur neue oder geänderte Daten auf Gültigkeit und Konsistenz überprüft werden müssen. In allen Fällen, von alten bis zu neu eingegebenen Daten, muss die Abstammung der Daten aufgezeichnet werden. Dies gewährleistet seine Gültigkeit und Vertrauenswürdigkeit.
Best Practices für die Bereinigung schmutziger Daten und für die Datenverwaltung umfassen die folgenden Praktiken:
- Harmonisieren Sie, indem Sie die Daten über verschiedene isolierte Quellen hinweg korrelieren und Metadaten für die Datenherkunft und -abstammung nutzen.
- Nutzen Sie die Kernfunktionen von Smart Mastering, um Entitäten in einer einzigen Multi-Modell-Plattform abzugleichen und zusammenzuführen.
- Wenden Sie Semantik an, um Beziehungen zwischen Daten zu erfassen und Konsistenz sicherzustellen.
- Erstellen Sie eine 360-Grad-Ansicht, indem Sie alle Ihre Datenquellen integrieren.
- Finden Sie schmutzige Daten mithilfe der Suche in natürlicher Sprache, der Datenmodellierung und des maschinellen Lernens, um Muster und Anomalien zu identifizieren.
Es ist viel, aber es lohnt sich. Eine Organisation, die zusätzlich zu den Datenbereinigungspraktiken eine starke Data Governance einsetzt, kann bis zu 70% mehr Umsatz generieren.
Lassen Sie sich nicht von schmutzigen Daten bremsen
Die geschäftlichen Auswirkungen schmutziger Daten sind atemberaubend, aber eine einzelne Organisation kann den Morast vermeiden. Moderne Techniken und Technologien können die Auswirkungen von schmutzigen Daten minimieren. Saubere, zuverlässige Daten machen das Unternehmen agiler und reaktionsschneller und reduzieren gleichzeitig die verschwendeten Anstrengungen von Datenwissenschaftlern und Wissensarbeitern.
Ihr Unternehmen plant möglicherweise bereits, die Probleme mit schmutzigen Daten anzugehen. Tatsächlich planen 84% der Unternehmen, bald Datenqualitätslösungen zu implementieren, aber viele dieser Lösungen sind abteilungsübergreifend im Unternehmen segmentiert. Darüber hinaus befassen sich viele Initiativen zur Datenqualität nicht mit Kernänderungen, die in der Datenbank erforderlich sind, um positive Veränderungen dort zu bewirken, wo sie am dringendsten benötigt werden. Dies wird nur zu zukünftigen Problemen mit inkonsistenten Daten führen, die den aktuellen Zustand bei der Verbreitung von Daten verschärfen. Der Aufwand muss unternehmensweit global sein und Mängel an der Quelle beheben — innerhalb der Datenbank. Ein Operational Data Hub, wie er auf MarkLogic® aufbaut, kann Ihrem Unternehmen helfen, die schmutzigen Daten richtig zu bereinigen.
Erfahren Sie, wie Sie mit dem Operational Data Hub-Framework von MarkLogic die Data Governance verbessern und die Qualität Ihrer Datenbestände steigern können.
Leave a Reply