더티 데이터의 엄청난 영향
에드 다운스
에드 다운스는 마크 로직 고객 솔루션 마케팅에 대한 책임. 그는 마크 로직 플랫폼의 인식을 높이고 채택을 가속화하기 위해 공공 및 민간 부문 조직을위한 대규모 빅 데이터 프로젝트와 운영 및 분석 솔루션을 제공 한 상당한 경험을 활용합니다.
때때로,비용은 우리에 몰래. 일상적인 성가심으로 보일 수있는 것은 수년 동안 엄청난 비용 영향을 미쳤습니다.
더티 데이터-부정확하거나 불완전하거나 일치하지 않는 데이터-는 이러한 놀라움 중 하나입니다. 익스피리언스는 평균적으로 전 세계 기업들이 데이터의 26%가 더럽다고 느끼고 있다고 보고했다. 이것은 엄청난 손실에 기여합니다. 사실,그것은 평균 비즈니스 수익의 15%~25%,그리고 미국 경제 연간$3 조 비용. 더티 데이터를 다루어야하는 사람은 누구나 그것이 얼마나 실망 스러울 수 있는지 알고 있지만,숫자가 합산되면 그 영향으로 머리를 감싸기가 어려울 수 있습니다.
더러운 데이터는 너무 많은 비용 때문에—냉정한 삼가-그것은 어디에서 오는 이해하는 것이 중요합니다,그것은 비즈니스에 미치는 영향과 그것을 처리 할 수있는 방법.
더러운 데이터는 어디에서 오는가?
익스피리언스에 따르면 인간의 실수는 더러운 데이터의 60%이상에 영향을 미치며,부서 간 의사 소통이 좋지 않아 부정확 한 데이터 기록의 약 35%가 관련되어 있습니다. 직관적으로 견고한 데이터 전략은 이러한 문제를 완화해야하지만 부적절한 데이터 전략은 부정확 한 데이터의 28%에 영향을 미칩니다.
서로 다른 부서가 관련 데이터를 별도의 데이터 사일로에 입력 할 때 좋은 데이터 전략조차도 다운 스트림 데이터웨어 하우스,마트 및 호수의 오염을 방지하지 못할 것입니다. 레코드는 이름 및 주소의 다른 맞춤법 오류와 같은 비 정식 데이터와 복제 될 수 있습니다. 제약 조건이 좋지 않은 데이터 사일로는 날짜,계좌 번호 또는 개인 정보가 다른 형식으로 표시되어이를 자동으로 조정하기가 어렵거나 불가능하게 만들 수 있습니다.
더티 데이터는 수년 동안 숨겨져 있을 수 있으며,이로 인해 실제로 발견된 시점을 탐지하고 처리하는 것이 훨씬 더 어려워진다. 안타깝게도 기업의 57%는 고객이나 잠재 고객이 보고한 더러운 데이터에 대해 알아내는데,이는 특히 중요한 데이터 문제를 추적하고 해결하는 방법이 좋지 않습니다.
많은 조직에서 데이터가 너무 분산되어 있고 너무 비표준이기 때문에 수동 프로세스를 사용하여 일관성이없고 부정확 한 데이터를 검색합니다. 이러한 계획은 데이터와 동일한 함정에 빠지는 경향이 있습니다—통합 계획 대신 각 부서는 자체 데이터 부정확성에 대한 책임이 있습니다. 이는 일부 인스턴스를 잡을 수 있지만 부서 사일로 간의 내부 불일치에도 기여합니다. 이 수정은 한 곳에서 발생하지만 다른 곳에서는 발생하지 않으므로 더 많은 데이터 문제가 발생합니다.
더티 데이터의 영향
더티 데이터는 자원 낭비,생산성 손실,내부 및 외부 커뮤니케이션 실패,마케팅 지출 낭비를 초래합니다. 미국에서는 수익의 27%가 부정확하거나 불완전한 고객 및 잠재 고객 데이터에 낭비되는 것으로 추정됩니다.
생산성은 몇 가지 중요한 영역에서 영향을 받습니다. 데이터 과학자들은 데이터를 정리,정규화 및 구성하는 데 약 60%의 시간을 할애하고 있습니다. 그동안 지식 근로자는 숨겨진 부정확 한 데이터로 최대 50%의 시간을 보내고 있습니다.
더티 데이터는 신뢰성이 부족하며,이는 데이터에 의존하는 최종 사용자가 정확성을 확인하는 데 추가 시간을 할애하여 속도와 생산성을 더욱 저하 시킨다는 것을 의미합니다. 다른 수동 프로세스를 도입하면 더티 레코드의 증가를 통해 더 많은 부정확성 및 마운팅 불일치가 발생합니다.
수익 손실 외에도 더티 데이터는 기업에 더 교활하게 영향을 미칩니다. 비즈니스 임원의 16%만이 비즈니스 의사 결정의 기초가되는 정확성에 자신감을 가지고 있습니다. 쓰레기 인,쓰레기 아웃-자신의 데이터에 의존 할 수 없을 때 데이터의 정확성과 신뢰성을 높이기 위해 뭔가를해야합니다.
뱅킹의 더티 데이터
전 세계적으로 데이터 비용의 부정확성은 회사 수익의 15%에서 25%사이입니다. 2 조 2 천억 달러가 넘는 글로벌 매출로 인해 더티 데이터는 글로벌 금융 산업에 4,000 억 달러가 넘습니다. 더러운 데이터는 또한 은행 산업에 고유 한 여러 가지 위험을 초래합니다.
조직의 데이터 사일로 간에 정보가 일치하지 않으면 부정확하거나 사기 거래와 같은 트랜잭션 위험이 발생합니다. 가짜 및 사기성 계정은 더러운 데이터를 청소하거나 감지하는 프로세스에 의해 조기에 발견되어야합니다. 그렇지 않으면 은행이 위험에 처하게되고 그 명성이 손상됩니다.
너무 많은 더러운 데이터와 그들이 사용하는 데이터를 신뢰하는 임원이 거의 없기 때문에 전략적 의사 결정이 좋지 않을 수밖에 없습니다. 당신이 어디에 있는지 모르는 경우 올바른 경로를 선택할 수 없습니다. 더러운 데이터는 엄청난 운영 위험을 초래할 수 있습니다.
끊임없이 진화하는 규제 환경은 또한 데이터 관리에 큰 부담을 안겨줍니다. 컴플라이언스 팀은 데이터에 대한 자세한 정보를 제공해야 하는 상당한 압력을 받고 있지만 작업할 깨끗한 데이터가 없을 때는 운이 좋지 않습니다. 2018 년 미피드 2 규제의 출시는 이에 대한 고통스러운 예였으며,규정 준수가 흔들리고 점점 더 엄격한 규제 기관이 많은 유럽 금융 회사들에게 고통을 안겨주었습니다.
더티 데이터 처리
더티 데이터 정리에서 가장 어려운 문제는 잘못된 항목과 중복 된 데이터를 정리하는 것입니다. 기존 유효한 데이터의 일관성을 향상시키면서 데이터가 손실되지 않도록 할 뿐만 아니라 데이터 수정에 해당하는 모든 메타데이터가 통합 데이터 자체와 함께 유지 관리되도록 주의 깊은 오류 수정이 필요합니다.
데이터가 정리되면 유지 관리해야 합니다. 더티 데이터를 정리하는 초기 프로세스 후에는 새 데이터 또는 변경된 데이터만 유효성 및 일관성을 검사해야 합니다. 모든 경우에 오래된 데이터부터 새로 입력 된 데이터까지 데이터의 계보를 기록해야합니다. 이것은 그것의 타당성 및 신뢰성을 지킵니다.
더티 데이터 정리 및 데이터 거버넌스에 대한 모범 사례는 다음과 같습니다:
- 서로 다른 사일로 소스 간에 데이터를 상호 연관시키고 데이터 출처 및 계보를 위한 메타데이터를 활용하여 조화를 이룹니다.
- 핵심 스마트 마스터링 기능을 활용하여 단일 다중 모델 플랫폼에서 엔터티를 일치시키고 병합합니다.
- 데이터 간의 관계를 캡처하고 일관성을 보장하기 위해 의미 체계를 적용합니다.
- 모든 데이터 원본을 통합하여 360 도 뷰를 만듭니다.
- 자연어 검색,데이터 모델링 및 기계 학습을 사용하여 더티 데이터를 찾아 패턴과 이상을 식별합니다.
많이 있지만 그만한 가치가 있습니다. 데이터 정리 방법 외에도 강력한 데이터 거버넌스를 사용하는 조직은 최대 70%더 많은 수익을 창출 할 수 있습니다.
더티 데이터 중지 속도 저하
더티 데이터의 비즈니스 영향은 엄청나지만 개별 조직에서는 이러한 문제를 피할 수 있습니다. 최신 기술과 기술은 더티 데이터의 영향을 최소화 할 수 있습니다. 깨끗하고 신뢰할 수 있는 데이터는 데이터 과학자와 지식 근로자의 낭비되는 노력을 줄이면서 비즈니스를 더욱 민첩하고 반응적으로 만듭니다.
귀하의 비즈니스는 이미 더러운 데이터 문제를 해결하려고 계획 중일 수 있습니다. 실제로 기업의 84%가 곧 데이터 품질 솔루션을 구현할 계획이지만 이러한 솔루션 중 많은 부분이 기업의 부서별로 세분화되어 있습니다. 또한 많은 데이터 품질 이니셔티브는 가장 필요한 곳에서 긍정적 인 변화에 영향을 미치기 위해 데이터베이스 내부에 필요한 핵심 변경 사항을 해결하지 못합니다. 이것은 단지 데이터가 증식으로 현재 상태를 악화,일치하지 않는 데이터와 미래의 문제로 이어질 것입니다. 이러한 노력은 비즈니스 전반에 걸쳐 전 세계적이어야하며 데이터베이스 내부의 소스에서 단점을 해결하는 방식으로 이루어져야합니다. 운영 데이터 허브(예:마크 로직 위에 구축 된 데이터 허브)는 비즈니스가 더티 데이터 정리를 올바르게 시작하는 데 도움이 될 수 있습니다.
마크로직의 운영 데이터 허브 프레임워크가 데이터 거버넌스를 개선하고 데이터 자산의 품질을 향상시키는 데 어떻게 도움이 되는지 알아보십시오.
Leave a Reply