ダーティデータの驚異的な影響
Ed Downs
Ed DownsはMarkLogicのカスタマーソリューションマーケティングを担当しています。 MarkLogicプラットフォームの認知度を高め、採用を加速させるために、公共および民間部門の組織に大規模なビッグデータプロジェクトと運用および分析ソリ
時には、コストが私たちにこっそり。 毎日の迷惑であるように見えるかもしれないものは、何年もの間、驚異的なコストへの影響を持っています。
ダーティデータ—不正確、不完全、または一貫性のないデータ—は、これらの驚きの一つです。 エクスペリアンは、平均して、世界中の企業は、データの26%が汚れていると感じていると報告しています。 これは莫大な損失に貢献します。 実際、平均的なビジネスには収益の15%から25%、米国経済には年間3兆ドル以上の費用がかかります。 汚れたデータに対処しなければならなかった人は誰でも、それがいかにイライラするかを知っていますが、数字が加算されると、その影響に頭を包むこ
ダーティデータのコストは非常に高いため、それがどこから来て、ビジネスにどのように影響し、どのように対処できるかを理解することが重要です。
ダーティデータはどこから来ますか?
Experianによると、人為的ミスは汚れたデータの60%以上に影響を及ぼし、不正確なデータ記録の約35%には部門間のコミュニケーションの悪さが関与しています。 直感的には、堅実なデータ戦略はこれらの問題を軽減すべきだと思われますが、不十分なデータ戦略は不正確なデータの28%にも影響を与えます。
異なる部門が関連データを別々のデータサイロに入力している場合、優れたデータ戦略であっても、下流のデータウェアハウス、マート、レイクの汚損を防ぐことはできません。 レコードは、名前や住所の異なるスペルミスなど、非正規データで複製することができます。 制約の少ないデータサイロは、日付、口座番号、または個人情報が異なる形式で表示されるため、自動的に調整することが困難または不可能になります。
汚れたデータは何年も隠されたままになる可能性があるため、実際に見つかったときに検出して対処することがさらに困難になります。 残念なことに、企業の57%は、顧客や見込み客から報告されたときにダーティデータについて知りました。
多くの組織は、データが分散化されすぎ、非標準であるため、手動プロセスを使用して、一貫性のない不正確なデータを検索します。 これらの計画は、データと同じ罠に陥る傾向があります—統合計画ではなく、各部門が独自のデータの不正確さを担当しています。 これはいくつかの例をキャッチすることができますが、それはまた、部門のサイロ間の内部の不整合に貢献しています。 修正はある場所では行われますが、別の場所では行われないため、データの問題が増えます。
ダーティデータの影響
ダーティデータは、リソースの無駄、生産性の低下、内部および外部の通信の失敗、マーケティング支出の無駄をもたらします。 米国では、収益の27%が不正確または不完全な顧客および見込み客データに浪費されると推定されています。
生産性はいくつかの重要な分野に影響を与えている。 データサイエンティストは、データのクリーニング、正規化、整理に約60%の時間を費やしています。 その間に、ナレッジワーカーは、隠された不正確なデータで自分の時間の50%まで費やしています。
ダーティデータには信頼性がないため、そのデータに依存するエンドユーザーは精度の確認に余分な時間を費やし、速度と生産性をさらに低下させます。 別の手動プロセスを導入すると、汚れたレコードの数が増えて、より多くの不正確さと不整合が発生します。
収益の損失に加えて、汚れたデータは企業にもっと陰湿に影響を与えます。 ビジネス上の意思決定の基礎となる正確さに自信を持っているのは、ビジネスエグゼクティブのわずか16%です。 ガベージイン、ガベージアウト—自分のデータに頼ることができない場合は、データの精度と信頼性を高めるために何かを行う必要があります。
銀行のダーティデータ
世界的には、データの不正確さは企業の収益の15%から25%の間で発生します。 世界の収益は2.2兆ドルを超え、これはダーティデータが世界の銀行業界に4,000億ドル以上の費用を要することを意味します。 汚れたデータはまた、銀行業界に固有の多くのリスクにつながります。
組織内のデータサイロ間で一貫性のない情報は、不正確な取引や詐欺的な取引などの取引リスクにつながります。 偽のアカウントや詐欺的なアカウントは、汚れたデータをきれいにしたり検出したりするプロセスによっ 彼らがしないとき、銀行は危険にさらされ、その評判は損なわれます。
汚いデータが多く、使用しているデータを信頼する幹部はほとんどいないため、戦略的な意思決定が貧弱になります。 あなたがどこにいるかわからない場合は、正しい道を選ぶことはできません。 ダーティデータは、多大な運用上のリスクにつながる可能性があります。
絶えず進化する規制環境は、データ管理にも大きな負担をもたらします。 コンプライアンスチームは、データに関するより多くの情報を提供するために大きな圧力を受けていますが、作業するためのクリーンなデータがない場合、彼らは運が悪いです。 2018年のMifid II規制の展開は、多くの欧州の金融会社に痛みをもたらし、コンプライアンスの低迷とますます厳格な規制当局によって、これの痛い例となっています。
ダーティデータの処理
ダーティデータをクリーンアップする上で最も困難な問題は、無効なエントリと重複データのクリーニングです。 既存の有効なデータの一貫性を向上させながら、データが失われないようにするだけでなく、データ修正に対応するすべてのメタデータが統合されたデータ自体と一緒に維持されるためには、慎重なエラー修正が必要です。
データがクリーンアップされたら、それを維持する必要があります。 ダーティデータをクリーニングする最初のプロセスの後、新しいデータまたは変更されたデータのみが有効性と一貫性をチェックする必要があります。 いずれの場合も、古いデータから新しく入力されたデータまで、データの系統を記録する必要があります。 これにより、その妥当性と信頼性が保証されます。
ダーティデータのクリーニングとデータガバナンスのベストプラクティスには、次のプラクティスが含まれます:
- 異なるサイロ化されたソース間でデータを相関させ、データの出所と系統のメタデータを利用することによって調和させます。
- コアスマートマスタリング機能を活用して、単一のマルチモデルプラットフォーム内のエンティティを一致させ、マージします。
- セマンティクスを適用して、データ間の関係をキャプチャし、一貫性を確保します。
- すべてのデータソースを統合して、360度のビューを作成します。
- 自然言語検索、データモデリング、機械学習を使用してパターンや異常を特定し、ダーティデータを検索します。
それはたくさんありますが、それだけの価値があります。 データクレンジングの実践に加えて、強力なデータガバナンスを使用する組織は、最大70%の収益を生み出すことができます。
ダーティデータの減速を止める
ダーティデータのビジネスへの影響は驚異的ですが、個々の組織は泥沼を避けることができます。 最新の技術と技術は、ダーティデータの影響を最小限に抑えることができます。 クリーンで信頼性の高いデータは、データ科学者やナレッジワーカーによる無駄な努力を削減しながら、ビジネスをより機敏で応答性にします。
あなたのビジネスはすでにダーティデータの問題に取り組むことを計画している可能性があります。 実際には、企業の84%がすぐにデータ品質ソリューションを実装することを計画していますが、これらのソリューションの多くは、企業内の部門間で分割さ さらに、多くのデータ品質イニシアチブでは、データベース内で必要とされるコアの変更に対処して、最も必要とされる肯定的な変更に影響を与えません。 これは、一貫性のないデータの将来の問題につながるだけであり、データが増殖するにつれて現在の状態を悪化させます。 この取り組みは、ビジネス全体でグローバルであり、データベース内のソースの欠点に対処する方法である必要があります。 MarkLogic®の上に構築された運用データハブなどは、ビジネスがダーティデータのクリーニングを適切に開始するのに役立ちます。
MarkLogicの運用データハブフレームワークが、データガバナンスを改善し、データ資産の品質を向上させるのにどのように役立つかを説明します。
Leave a Reply