Pattern mining
privacy concerns and future directions
de mogelijkheid van inbreuk op de privacy met behulp van data mining is voor veel mensen een zorg geweest. Commerciële databases kunnen gedetailleerde verslagen bevatten van de medische geschiedenis van mensen, aankooptransacties en telefoongebruik, onder andere aspecten van hun leven. Burgerlijke libertariërs beschouwen sommige databases in handen van bedrijven en overheden als een ongerechtvaardigde inbraak en een uitnodiging tot misbruik. Bijvoorbeeld, de American Civil Liberties Union klaagde de VS aan National Security Agency (NSA) beweert zonder garantie bespioneren Amerikaanse burgers door de overname van call records van een aantal Amerikaanse telecommunicatiebedrijven. Het programma, dat begon in 2001, werd niet ontdekt door het publiek tot 2006, toen de informatie begon te lekken. Vaak is het risico niet het gevolg van datamining zelf (die meestal tot doel heeft algemene kennis te produceren in plaats van informatie over specifieke kwesties te leren), maar van misbruik of ongepaste openbaarmaking van informatie in deze databases.
in de Verenigde Staten zijn veel federale agentschappen nu verplicht jaarverslagen op te stellen die specifiek ingaan op de privacyimplicaties van hun dataminingprojecten. De Amerikaanse wet die privacy rapporten van federale agentschappen definieert data mining vrij restrictief als ” … analyses te ontdekken of te lokaliseren een voorspellend patroon of anomalie indicatief voor terroristische of criminele activiteit van de kant van een individu of individuen.”Aangezien verschillende lokale, nationale en internationale wetshandhavingsinstanties zijn begonnen met het delen of integreren van hun databases, heeft het potentieel voor misbruik of inbreuken op de beveiliging regeringen gedwongen om samen te werken met de industrie aan het ontwikkelen van meer veilige computers en netwerken. In het bijzonder is er onderzoek gedaan naar technieken voor privacy-behoud van datamining die werken op vervormde, getransformeerde of versleutelde gegevens om het risico van openbaarmaking van de gegevens van een individu te verminderen.
datamining ontwikkelt zich, met als enige bestuurder wedstrijden over uitdagingsproblemen. Een commercieel voorbeeld hiervan was de $ 1 miljoen Netflix Prize. Netflix, een Amerikaans bedrijf dat filmverhuur aanbiedt die per post wordt geleverd of via Internet wordt gestreamd, begon de wedstrijd in 2006 om te zien of iemand zijn aanbevelingssysteem met 10 procent kan verbeteren, een algoritme voor het voorspellen van de filmvoorkeuren van een individu op basis van eerdere huurgegevens. De prijs werd uitgereikt op Sept. 21, 2009, aan Bellkor ‘ s Pragmatic Chaos – een team van zeven wiskundigen, computerwetenschappers en ingenieurs uit de Verenigde Staten, Canada, Oostenrijk en Israël die het 10 procent-doel hadden bereikt op 26 juni 2009, en hun overwinning afgerond met een verbeterd algoritme 30 dagen later. De driejarige open competitie had veel slimme innovaties op het gebied van datamining van deelnemers aangewakkerd. Zo hielden de conferenties van 2007 en 2008 over Kennisontdekking en datamining workshops over de Netflix-prijs, waarbij onderzoekspapers werden gepresenteerd over onderwerpen variërend van nieuwe collaboratieve filtertechnieken tot snellere matrix-factorisatie (een belangrijk onderdeel van veel aanbevelingssystemen). Bezorgdheid over de privacy van dergelijke gegevens heeft ook geleid tot een beter begrip van privacy en anonimiteit.
datamining is echter geen wondermiddel en de resultaten moeten met dezelfde zorgvuldigheid worden bekeken als bij elke statistische analyse. Een van de sterke punten van datamining is het vermogen om hoeveelheden gegevens te analyseren die onpraktisch zouden zijn om handmatig te analyseren, en de gevonden patronen kunnen complex en moeilijk zijn voor mensen om te begrijpen; deze complexiteit vereist zorg bij het evalueren van de patronen. Niettemin, kunnen de statistische evaluatietechnieken in kennis resulteren die van menselijke vooringenomenheid vrij is, en de grote hoeveelheid gegevens kan vooroordelen inherent aan kleinere steekproeven verminderen. Correct gebruikt, data mining biedt waardevolle inzichten in grote datasets die anders niet praktisch of mogelijk zou zijn om te verkrijgen.
Christopher Clifton
Leave a Reply