El Impacto Asombroso de los Datos Sucios
Ed Downs
Ed Downs es responsable del marketing de soluciones para clientes en MarkLogic. Se basa en su considerable experiencia, habiendo entregado proyectos de big data a gran escala y soluciones operativas y analíticas para organizaciones del sector público y privado, para impulsar el conocimiento y acelerar la adopción de la plataforma MarkLogic.
A veces, los costos se nos acercan sigilosamente. Lo que podría parecer una molestia cotidiana ha tenido implicaciones de costos asombrosas durante años.
Los datos sucios, datos inexactos, incompletos o inconsistentes, son una de estas sorpresas. Experian informa que, en promedio, las empresas de todo el mundo sienten que el 26% de sus datos están sucios. Esto contribuye a enormes pérdidas. De hecho, le cuesta al negocio promedio entre el 15% y el 25% de los ingresos, y a la economía estadounidense más de 3 billones de dólares al año. Cualquiera que haya tenido que lidiar con datos sucios sabe lo frustrante que puede ser, pero cuando se suman los números, puede ser difícil comprender su impacto.
Dado que los datos sucios cuestan mucho, un eufemismo aleccionador, es fundamental comprender de dónde vienen, cómo afectan a los negocios y cómo se pueden tratar.
¿De Dónde Vienen Los Datos Sucios?
Según Experian, el error humano influye en más del 60% de los datos sucios, y la mala comunicación interdepartamental está involucrada en aproximadamente el 35% de los registros de datos inexactos. Intuitivamente, parece que una estrategia de datos sólida debería mitigar estos problemas, pero una estrategia de datos inadecuada también afecta al 28% de los datos inexactos.
Cuando diferentes departamentos ingresan datos relacionados en silos de datos separados, incluso una buena estrategia de datos no evitará que se ensucien los almacenes de datos, los centros comerciales y los lagos de aguas abajo. Los registros se pueden duplicar con datos no canónicos, como diferentes errores ortográficos de nombres y direcciones. Los silos de datos con limitaciones deficientes pueden llevar a que las fechas, los números de cuenta o la información personal se muestren en diferentes formatos, lo que dificulta o imposibilita su conciliación automática.
Los datos sucios pueden permanecer ocultos durante años, lo que hace que sea aún más difícil detectarlos y tratarlos cuando se encuentran realmente. Desafortunadamente, el 57% de las empresas se enteran de los datos sucios cuando son reportados por clientes o prospectos, una forma particularmente deficiente de rastrear y resolver problemas de datos esenciales.
Muchas organizaciones buscan datos inconsistentes e inexactos mediante procesos manuales porque sus datos están demasiado descentralizados y no son estándar. Estos planes tienden a caer en la misma trampa que los datos: en lugar de la planificación consolidada, cada departamento es responsable de sus propias inexactitudes de datos. Si bien esto puede detectar algunos casos, también contribuye a las inconsistencias internas entre los silos de departamento. La solución ocurre en un lugar pero no en otro, lo que solo conduce a más problemas de datos.
El impacto de los datos Sucios
Los datos sucios dan como resultado recursos desperdiciados, pérdida de productividad, comunicación fallida, tanto interna como externa, y gastos de marketing desperdiciados. En los Estados Unidos, se estima que el 27% de los ingresos se desperdicia en datos inexactos o incompletos de clientes y prospectos.
La productividad se ve afectada en varias áreas importantes. Los científicos de datos dedican alrededor del 60% de su tiempo a limpiar, normalizar y organizar los datos. Mientras tanto, los trabajadores del conocimiento pasan hasta el 50% de su tiempo con datos ocultos e inexactos.
Los datos sucios carecen de credibilidad, lo que significa que los usuarios finales que dependen de esos datos pasan más tiempo confirmando su precisión, lo que reduce aún más la velocidad y la productividad. La introducción de otro proceso manual conduce a más inexactitudes e inconsistencias crecientes a través de un número creciente de registros sucios.
Además de la pérdida de ingresos, los datos sucios afectan a las empresas de manera más insidiosa. Solo el 16% de los ejecutivos de negocios confían en la precisión que subyace en sus decisiones comerciales. Entrada y salida de basura: cuando no puede confiar en sus propios datos, es necesario hacer algo para aumentar la precisión y fiabilidad de los datos.
Datos sucios en Banca
En todo el mundo, las inexactitudes en los datos cuestan entre el 15% y el 25% de los ingresos de una empresa. Con ingresos globales de más de 2,2 billones de dólares, esto significa que los datos sucios cuestan al sector bancario mundial más de 400 mil millones de dólares. Los datos sucios también generan una serie de riesgos que son exclusivos del sector bancario.
La información inconsistente en los silos de datos de una organización genera riesgos transaccionales, como transacciones inexactas o incluso fraudulentas. Las cuentas falsas y fraudulentas deben detectarse a tiempo mediante procesos que limpien o detecten datos sucios. Cuando no lo hacen, el banco se pone en riesgo y su reputación se daña.
Con tantos datos sucios y tan pocos ejecutivos que confían en los datos que están utilizando, está obligado a dar lugar a malas decisiones estratégicas. No puedes elegir el camino correcto si no sabes dónde estás. Los datos sucios pueden generar enormes riesgos operativos.
El panorama normativo en constante evolución también crea una pesada carga para la gestión de datos. Los equipos de cumplimiento están bajo una presión significativa para proporcionar más información sobre los datos, pero cuando no tienen datos limpios con los que trabajar, no tienen suerte. El lanzamiento en 2018 de las regulaciones Mifid II ha sido un doloroso ejemplo de esto, con un cumplimiento vacilante y reguladores cada vez más estrictos que causan dolor a muchas firmas financieras europeas.
Tratar con datos sucios
El problema más difícil en la limpieza de datos sucios es la limpieza de entradas no válidas y datos duplicados. Se necesita una cuidadosa corrección de errores no solo para garantizar que no se pierdan datos al tiempo que se mejora la coherencia de los datos válidos existentes, sino también para que todos los metadatos correspondientes a la corrección de datos se mantengan junto con los propios datos integrados.
Una vez que los datos se han limpiado, deben mantenerse. Después del proceso inicial de limpieza de datos sucios, solo se deben verificar la validez y consistencia de los datos nuevos o modificados. En todos los casos, desde los datos antiguos hasta los recién ingresados, se debe registrar el linaje de los datos. Esto garantiza su validez y fiabilidad.
Las mejores prácticas para limpiar datos sucios y para el gobierno de datos incluyen las siguientes prácticas:
- Armonice mediante la correlación de los datos entre diferentes fuentes aisladas y el aprovechamiento de los metadatos para la procedencia y el linaje de los datos.
- Aproveche las capacidades principales de masterización inteligente para combinar y fusionar entidades en una única plataforma de varios modelos.
- Aplique semántica para capturar relaciones entre datos y garantizar la coherencia.
- Cree una vista de 360 grados integrando todas sus fuentes de datos.
- Encuentre datos sucios mediante la búsqueda en lenguaje natural, el modelado de datos y el aprendizaje automático para identificar patrones y anomalías.
es mucho, pero vale la pena. Una organización que utiliza una gobernanza de datos sólida, además de prácticas de limpieza de datos, puede generar hasta un 70% más de ingresos.
Deje de Permitir que los datos Sucios Lo Ralenticen
El impacto empresarial de los datos sucios es asombroso, pero una organización individual puede evitar el pantano. Las técnicas y la tecnología modernas pueden minimizar el impacto de los datos sucios. Los datos limpios y confiables hacen que el negocio sea más ágil y receptivo, al tiempo que reducen los esfuerzos desperdiciados de los científicos de datos y los trabajadores del conocimiento.
Es posible que su empresa ya esté planeando abordar sus problemas de datos sucios. De hecho, el 84% de las empresas planea implementar pronto soluciones de calidad de datos, pero muchas de estas soluciones están segmentadas entre departamentos de la empresa. Además, muchas iniciativas de calidad de datos no abordan los cambios fundamentales necesarios dentro de la base de datos para afectar el cambio positivo donde más se necesita. Esto solo conducirá a problemas futuros con datos inconsistentes, exacerbando el estado actual a medida que proliferen los datos. El esfuerzo debe ser global en toda la empresa y de una manera que aborde las deficiencias en su origen, dentro de la base de datos. Un centro de datos operativo, como uno construido sobre MarkLogic®, puede ayudar a su empresa a comenzar a limpiar sus datos sucios.
Descubra cómo el marco operativo de Data Hub de MarkLogic puede ayudarlo a mejorar el gobierno de los datos y aumentar la calidad de sus activos de datos.
Leave a Reply