L’Impact Stupéfiant des Données Sales
Ed Downs
Ed Downs est responsable du marketing des solutions clients chez MarkLogic. Il s’appuie sur sa grande expérience, ayant livré des projets Big data à grande échelle et des solutions opérationnelles et analytiques pour des organisations des secteurs public et privé, pour sensibiliser et accélérer l’adoption de la plate-forme MarkLogic.
Parfois, les coûts se faufilent sur nous. Ce qui peut sembler être un ennui quotidien a des implications de coûts énormes depuis des années.
Les données sales — données inexactes, incomplètes ou incohérentes – sont l’une de ces surprises. Experian rapporte qu’en moyenne, les entreprises du monde entier estiment que 26% de leurs données sont sales. Cela contribue à d’énormes pertes. En fait, cela coûte à l’entreprise moyenne 15% à 25% de son chiffre d’affaires et à l’économie américaine plus de 3 billions de dollars par an. Quiconque a dû faire face à des données sales sait à quel point cela peut être frustrant, mais lorsque les chiffres sont additionnés, il peut être difficile de comprendre son impact.
Étant donné que les données sales coûtent tellement cher — un euphémisme qui donne à réfléchir — il est essentiel de comprendre d’où elles viennent, comment elles affectent les entreprises et comment elles peuvent être traitées.
D’Où Viennent Les Données Sales ?
Selon Experian, l’erreur humaine influence plus de 60% des données sales, et une mauvaise communication interministérielle est impliquée dans environ 35% des enregistrements de données inexacts. Intuitivement, il semble qu’une stratégie de données solide devrait atténuer ces problèmes, mais une stratégie de données inadéquate affecte également 28% des données inexactes.
Lorsque différents départements entrent des données connexes dans des silos de données distincts, même une bonne stratégie de données n’empêchera pas d’encrasser les entrepôts de données, les marts et les lacs en aval. Les enregistrements peuvent être dupliqués avec des données non canoniques telles que différentes fautes d’orthographe de noms et d’adresses. Les silos de données avec de faibles contraintes peuvent entraîner l’affichage de dates, de numéros de compte ou d’informations personnelles sous différents formats, ce qui les rend difficiles, voire impossibles, à concilier automatiquement.
Les données sales peuvent rester cachées pendant des années, ce qui les rend encore plus difficiles à détecter et à traiter lorsqu’elles sont réellement trouvées. Malheureusement, 57% des entreprises découvrent des données sales lorsqu’elles sont signalées par des clients ou des prospects — un moyen particulièrement médiocre de traquer et de résoudre les problèmes de données essentiels.
De nombreuses organisations recherchent des données incohérentes et inexactes à l’aide de processus manuels, car leurs données sont trop décentralisées et trop non standardisées. Ces plans ont tendance à tomber dans le même piège que les données — au lieu d’une planification consolidée, chaque ministère est responsable de ses propres inexactitudes de données. Bien que cela puisse attraper certains cas, cela contribue également à des incohérences internes entre les silos des ministères. Le correctif se produit à un endroit mais pas à un autre, ce qui entraîne simplement plus de problèmes de données.
L’impact des données sales
Les données sales entraînent un gaspillage de ressources, une perte de productivité, une communication défaillante — interne et externe — et des dépenses marketing gaspillées. Aux États-Unis, on estime que 27% des revenus sont gaspillés sur des données clients et prospects inexactes ou incomplètes.
La productivité est affectée dans plusieurs domaines importants. Les data scientists passent environ 60% de leur temps à nettoyer, normaliser et organiser les données. Pendant ce temps, les travailleurs du savoir passent jusqu’à 50% de leur temps avec des données cachées et inexactes.
Les données sales manquent de crédibilité, ce qui signifie que les utilisateurs finaux qui s’appuient sur ces données passent plus de temps à confirmer leur précision, ce qui réduit encore la vitesse et la productivité. L’introduction d’un autre processus manuel entraîne davantage d’inexactitudes et d’incohérences croissantes à travers un nombre croissant de dossiers sales.
En plus de la perte de revenus, les données sales ont un impact plus insidieux sur les entreprises. Seuls 16% des dirigeants d’entreprise ont confiance en l’exactitude qui sous-tend leurs décisions commerciales. Déchets entrants, déchets sortants – lorsque vous ne pouvez pas compter sur vos propres données, quelque chose doit être fait pour augmenter la précision et la fiabilité des données.
Données sales dans le secteur bancaire
Dans le monde entier, les inexactitudes dans les données coûtent entre 15% et 25% du chiffre d’affaires d’une entreprise. Avec des revenus mondiaux de plus de 2,2 billions de dollars, cela signifie que les données sales coûtent plus de 400 milliards de dollars au secteur bancaire mondial. Les données sales entraînent également un certain nombre de risques propres au secteur bancaire.
Des informations incohérentes entre les silos de données d’une organisation entraînent des risques transactionnels tels que des transactions inexactes, voire frauduleuses. Les comptes faux et frauduleux doivent être détectés tôt par des processus qui nettoient ou détectent des données sales. Quand ils ne le font pas, la banque est mise en danger et sa réputation est endommagée.
Avec tant de données sales et si peu de cadres faisant confiance aux données qu’ils utilisent, cela entraînera forcément de mauvaises décisions stratégiques. Vous ne pouvez pas choisir le bon chemin si vous ne savez pas où vous êtes. Des données sales peuvent entraîner d’énormes risques opérationnels.
Le paysage réglementaire en constante évolution crée également un lourd fardeau pour la gestion des données. Les équipes de conformité subissent une pression importante pour fournir plus d’informations sur les données, mais lorsqu’elles n’ont pas de données propres avec lesquelles travailler, elles n’ont pas de chance. Le déploiement de la réglementation Mifid II en 2018 en a été un exemple douloureux, avec une conformité chancelante et des régulateurs de plus en plus stricts qui causent de la douleur à de nombreuses entreprises financières européennes.
Traiter les données sales
Le problème le plus difficile dans le nettoyage des données sales est le nettoyage des entrées invalides et des données en double. Une correction minutieuse des erreurs est nécessaire non seulement pour s’assurer qu’aucune donnée n’est perdue tout en améliorant la cohérence des données valides existantes, mais aussi pour que toutes les métadonnées correspondant à la correction des données soient conservées parallèlement aux données intégrées elles-mêmes.
Une fois les données nettoyées, elles doivent être maintenues. Après le processus initial de nettoyage des données sales, seules les données nouvelles ou modifiées doivent être vérifiées pour leur validité et leur cohérence. Dans tous les cas, des données anciennes aux données nouvellement saisies, la lignée des données doit être enregistrée. Cela garantit sa validité et sa fiabilité.
Les meilleures pratiques pour nettoyer les données sales et pour la gouvernance des données comprennent les pratiques suivantes:
- Harmoniser en corrélant les données entre différentes sources cloisonnées et en exploitant les métadonnées pour la provenance et la lignée des données.
- Tirez parti des capacités de mastering intelligent de base pour associer et fusionner des entités dans une plate-forme multi-modèles unique.
- Appliquez de la sémantique pour capturer les relations entre les données et assurer la cohérence.
- Créez une vue à 360 degrés en intégrant toutes vos sources de données.
- Trouvez des données sales à l’aide de la recherche en langage naturel, de la modélisation de données et de l’apprentissage automatique pour identifier les modèles et les anomalies.
C’est beaucoup, mais ça vaut le coup. Une organisation qui utilise une gouvernance des données solide en plus des pratiques de nettoyage des données peut générer jusqu’à 70 % de revenus supplémentaires.
Arrêtez de laisser les données Sales Vous ralentir
L’impact commercial des données sales est stupéfiant, mais une organisation individuelle peut éviter le bourbier. Les techniques et technologies modernes peuvent minimiser l’impact des données sales. Des données propres et fiables rendent l’entreprise plus agile et réactive tout en réduisant les efforts gaspillés des scientifiques des données et des travailleurs du savoir.
Votre entreprise envisage peut-être déjà de s’attaquer à ses problèmes de données sales. En fait, 84 % des entreprises envisagent de mettre en œuvre prochainement des solutions de qualité des données, mais bon nombre de ces solutions sont segmentées entre les départements de l’entreprise. De plus, de nombreuses initiatives de qualité des données ne traiteront pas les changements essentiels nécessaires à l’intérieur de la base de données pour affecter des changements positifs là où ils sont le plus nécessaires. Cela ne fera que conduire à des problèmes futurs avec des données incohérentes, exacerbant l’état actuel à mesure que les données prolifèrent. L’effort doit être global dans l’ensemble de l’entreprise et de manière à remédier aux lacunes à la source — à l’intérieur de la base de données. Un hub de données opérationnel, tel que celui construit sur MarkLogic®, peut aider votre entreprise à démarrer correctement le nettoyage de ses données sales.
Découvrez comment le framework Operational Data Hub de MarkLogic peut vous aider à améliorer la gouvernance des données et à augmenter la qualité de vos actifs de données.
Leave a Reply