Pattern mining
Préoccupations relatives à la vie privée et orientations futures
Le potentiel d’atteinte à la vie privée à l’aide de l’exploration de données est une préoccupation pour de nombreuses personnes. Les bases de données commerciales peuvent contenir des enregistrements détaillés des antécédents médicaux des personnes, des transactions d’achat et de l’utilisation du téléphone, entre autres aspects de leur vie. Les libertaires civils considèrent certaines bases de données détenues par des entreprises et des gouvernements comme une intrusion injustifiée et une invitation à l’abus. Par exemple, l’American Civil Liberties Union a poursuivi les États-Unis. La National Security Agency (NSA) alléguant l’espionnage sans mandat de citoyens américains par l’acquisition d’enregistrements d’appels de certaines sociétés de télécommunications américaines. Le programme, qui a débuté en 2001, n’a été découvert par le public qu’en 2006, lorsque les informations ont commencé à fuiter. Souvent, le risque ne provient pas de l’exploration de données elle-même (qui vise généralement à produire des connaissances générales plutôt que d’apprendre des informations sur des problèmes spécifiques), mais d’une mauvaise utilisation ou d’une divulgation inappropriée d’informations dans ces bases de données.
Aux États-Unis, de nombreuses agences fédérales sont désormais tenues de produire des rapports annuels qui traitent spécifiquement des incidences sur la vie privée de leurs projets d’exploration de données. La loi américaine exigeant des rapports sur la protection de la vie privée des agences fédérales définit l’exploration de données de manière assez restrictive comme “analyses des analyses visant à découvrir ou à localiser un modèle prédictif ou une anomalie indiquant une activité terroriste ou criminelle de la part d’un ou de plusieurs individus.”Alors que divers organismes d’application de la loi locaux, nationaux et internationaux ont commencé à partager ou à intégrer leurs bases de données, le risque d’abus ou d’atteintes à la sécurité a forcé les gouvernements à travailler avec l’industrie pour développer des ordinateurs et des réseaux plus sécurisés. En particulier, il y a eu des recherches sur des techniques d’exploration de données préservant la confidentialité qui fonctionnent sur des données déformées, transformées ou cryptées pour réduire le risque de divulgation des données de tout individu.
L’exploration de données évolue, l’un des moteurs étant les compétitions sur les problèmes de défi. Un exemple commercial de cela était le prix Netflix de 1 million de dollars. Netflix, une société américaine qui propose des locations de films livrées par courrier ou diffusées sur Internet, a lancé le concours en 2006 pour voir si quelqu’un pouvait améliorer de 10% son système de recommandation, un algorithme permettant de prédire les préférences cinématographiques d’un individu en fonction des données de location précédentes. Le prix a été décerné le sept. 21, 2009, au Chaos pragmatique de BellKor — une équipe de sept mathématiciens, informaticiens et ingénieurs des États-Unis, du Canada, d’Autriche et d’Israël qui avaient atteint l’objectif de 10% le 26 juin 2009 et ont finalisé leur victoire avec un algorithme amélioré 30 jours plus tard. Le concours ouvert de trois ans avait suscité de nombreuses innovations intelligentes dans l’exploration de données de la part des concurrents. Par exemple, les Conférences de 2007 et 2008 sur la Découverte des connaissances et l’exploration de données ont organisé des ateliers sur le Prix Netflix, au cours desquels des articles de recherche ont été présentés sur des sujets allant des nouvelles techniques de filtrage collaboratif à la factorisation matricielle plus rapide (un élément clé de nombreux systèmes de recommandation). Les préoccupations concernant la confidentialité de ces données ont également conduit à des progrès dans la compréhension de la vie privée et de l’anonymat.
L’exploration de données n’est cependant pas une panacée et les résultats doivent être consultés avec le même soin qu’avec toute analyse statistique. L’une des forces de l’exploration de données est la capacité d’analyser des quantités de données qui ne seraient pas pratiques à analyser manuellement, et les modèles trouvés peuvent être complexes et difficiles à comprendre pour les humains; cette complexité nécessite un soin dans l’évaluation des modèles. Néanmoins, les techniques d’évaluation statistique peuvent aboutir à des connaissances exemptes de biais humains, et la grande quantité de données peut réduire les biais inhérents aux échantillons plus petits. Utilisée correctement, l’exploration de données fournit des informations précieuses sur de grands ensembles de données qui, autrement, ne seraient pas pratiques ou possibles à obtenir.
Christopher Clifton
Leave a Reply