O grande Impacto da Sujo de Dados
Ed Baixos
Ed Downs é responsável por cliente soluções de marketing em MarkLogic. Ele se baseia em sua considerável experiência, tendo entregue projetos de big data em grande escala e soluções operacionais e analíticas para organizações do setor público e privado, para impulsionar a conscientização e acelerar a adoção da plataforma MarkLogic.
às vezes, os custos se infiltram em nós. O que pode parecer um aborrecimento diário tem tido implicações de custo surpreendentes há anos.
dados Sujos – dados imprecisos, incompletos ou inconsistentes—é uma dessas surpresas. A Experian relata que, em média, as empresas em todo o mundo sentem que 26% de seus dados estão sujos. Isso contribui para enormes perdas. Na verdade, custa ao negócio médio 15% a 25% da receita, e a economia dos EUA mais de US $3 trilhões por ano. Qualquer pessoa que tenha que lidar com dados Sujos sabe o quão frustrante pode ser, mas quando os números são somados, pode ser difícil envolver sua cabeça em torno de seu impacto.
como os dados Sujos custam tanto-um eufemismo sóbrio-é fundamental entender de onde vem, como afeta os negócios e como pode ser tratado.
De Onde Vêm Os Dados Sujos?
de acordo com Experian, o erro humano influencia mais de 60% dos dados sujos e a comunicação interdepartamental deficiente está envolvida em cerca de 35% dos registros de dados imprecisos. Intuitivamente, parece que uma estratégia de dados sólida deve mitigar esses problemas, mas a estratégia de dados inadequada também afeta 28% dos dados imprecisos.
quando diferentes departamentos estão inserindo dados relacionados em silos de dados separados, mesmo uma boa estratégia de dados não impedirá a incrustação de data warehouses, marts e lakes a jusante. Os registros podem ser duplicados com dados não canônicos, como diferentes erros ortográficos de nomes e endereços. Silos de dados com restrições ruins podem levar a datas, números de conta ou informações pessoais sendo mostrados em diferentes formatos, o que os torna difíceis ou impossíveis de Conciliar automaticamente.
dados sujos podem permanecer ocultos por anos, o que torna ainda mais difícil detectar e lidar com quando é realmente encontrado. Infelizmente, 57% das empresas descobrem dados sujos quando são relatados por clientes ou clientes em potencial—uma maneira particularmente ruim de rastrear e resolver problemas essenciais de dados.
muitas organizações procuram dados inconsistentes e imprecisos usando processos manuais porque seus dados são muito descentralizados e não padronizados. Esses planos tendem a cair na mesma armadilha que os dados—em vez de um planejamento consolidado, cada departamento é responsável por suas próprias imprecisões de dados. Embora isso possa capturar algumas instâncias, também contribui para inconsistências internas entre silos de departamento. A correção acontece em um lugar, mas não em outro, o que só leva a mais problemas de dados.
o impacto dos dados Sujos
os dados Sujos resultam em desperdício de recursos, perda de produtividade, falha na comunicação—interna e externa—e desperdício de gastos com marketing. Nos EUA, estima-se que 27% da receita seja desperdiçada em dados imprecisos ou incompletos de clientes e prospectos.
a produtividade é impactada em várias áreas importantes. Os cientistas de dados estão gastando cerca de 60% de seu tempo limpando, normalizando e organizando dados. Enquanto isso, os trabalhadores do conhecimento estão gastando até 50% de seu tempo com dados ocultos e imprecisos.
dados sujos não têm credibilidade, e isso significa que os usuários finais que dependem desses dados gastam mais tempo confirmando sua precisão, reduzindo ainda mais a velocidade e a produtividade. A introdução de outro processo manual leva a mais imprecisões e inconsistências de montagem por meio de um número crescente de registros Sujos.
além da perda de receita, dados Sujos impactam as empresas de forma mais insidiosa. Apenas 16% dos executivos de negócios estão confiantes na precisão subjacente às suas decisões de negócios. Garbage in, garbage out-Quando você não pode confiar em seus próprios dados, algo precisa ser feito para aumentar a precisão e a confiabilidade dos dados.
dados sujos no setor bancário
em todo o mundo, imprecisões nos dados custam entre 15% e 25% da receita de uma empresa. Com receitas globais de mais de US $ 2,2 trilhões, isso significa que dados Sujos custam ao setor bancário global mais de US $400 bilhões. Dados sujos também levam a uma série de riscos exclusivos do setor bancário.
informações inconsistentes em silos de dados em uma organização levam a riscos transacionais, como transações imprecisas ou mesmo fraudulentas. Contas falsas e fraudulentas devem ser capturadas precocemente por processos que limpam ou detectam dados Sujos. Quando eles não o fazem, o banco é colocado em risco e sua reputação é danificada.
com tantos dados sujos e tão poucos executivos confiando nos dados que estão usando, é obrigado a resultar em más decisões estratégicas. Você não pode escolher o caminho certo se não souber onde está. Dados sujos podem levar a enormes riscos operacionais.
o cenário regulatório em constante evolução também cria um fardo pesado para o gerenciamento de dados. As equipes de conformidade estão sob pressão significativa para fornecer mais informações sobre dados, mas quando não têm dados limpos para trabalhar, estão sem sorte. O lançamento de 2018 dos regulamentos MiFID II tem sido um exemplo doloroso disso, com a conformidade vacilante e reguladores cada vez mais rígidos causando dor para muitas empresas financeiras europeias.
Lidar com Dados Sujos
O problema mais desafiador na limpeza de dados sujos é a limpeza de entradas inválidas e dados duplicados. É necessária uma correção cuidadosa de erros para não apenas garantir que nenhum dado seja perdido, melhorando a consistência dos dados válidos existentes, mas que todos os metadados correspondentes à correção de dados sejam mantidos ao lado dos próprios dados integrados.
uma vez que os dados foram limpos, ele precisa ser mantido. Após o processo inicial de limpeza de dados Sujos, apenas dados novos ou alterados devem ser verificados quanto à validade e consistência. Em todos os casos, de dados antigos a recém-inseridos, a linhagem dos dados deve ser registrada. Isso garante sua validade e confiabilidade.
as melhores práticas para limpar dados sujos e para Governança de dados incluem as seguintes práticas:
- Harmonize correlacionando os dados em diferentes fontes isoladas e aproveitando metadados para proveniência e linhagem de dados.
- aproveite os principais recursos de masterização inteligente para combinar e mesclar entidades em uma única plataforma multi-modelo.
- aplicar semântica para capturar relações entre dados e garantir consistência.
- crie uma visualização de 360 graus integrando todas as suas fontes de dados.
- encontre dados Sujos usando pesquisa de linguagem natural, modelagem de dados e aprendizado de máquina para identificar padrões e anomalias.
é muito, mas vale a pena. Uma organização que usa uma forte governança de dados, além de práticas de limpeza de dados, pode gerar até 70% mais receita.
pare de deixar os dados Sujos diminuírem
o impacto comercial dos dados sujos é impressionante, mas uma organização individual pode evitar o idiota. Técnicas e tecnologias modernas podem minimizar o impacto de dados Sujos. Dados limpos e confiáveis tornam o negócio mais ágil e responsivo, reduzindo os esforços desperdiçados por cientistas de dados e trabalhadores do conhecimento.
sua empresa já pode estar planejando resolver seus problemas de dados Sujos. De fato, 84% das empresas planejam implementar soluções de qualidade de dados em breve, mas muitas dessas soluções são segmentadas entre departamentos da empresa. Além disso, muitas iniciativas de qualidade de dados não abordarão as principais alterações necessárias dentro do banco de dados para afetar a mudança positiva onde é mais necessária. Isso só levará a problemas futuros com dados inconsistentes, exacerbando o estado atual à medida que os dados proliferam. O esforço precisa ser global em toda a empresa e de uma forma que resolva as deficiências em sua fonte—dentro do banco de dados. Um hub de dados operacional, como um construído em cima do MarkLogic®, pode ajudar sua empresa a começar a limpar seus dados Sujos.Saiba como a estrutura do Hub de Dados Operacionais da MarkLogic pode ajudá-lo a melhorar a governança de dados e aumentar a qualidade de seus ativos de dados.
Leave a Reply