Mønster mining
Personvern og fremtidige retninger
potensialet for invasjon av personvern ved hjelp av data mining har vært en bekymring for mange mennesker. Kommersielle databaser kan inneholde detaljerte registreringer av folks medisinske historie, kjøpstransaksjoner og telefonbruk, blant andre aspekter av deres liv. Sivile libertarianere anser noen databaser holdt av bedrifter og myndigheter for å være en uberettiget inntrenging og en invitasjon til misbruk. For Eksempel saksøkte American Civil Liberties Union USA. National Security Agency (NSA) hevder å spionere på amerikanske borgere gjennom oppkjøp av samtaleposter fra Noen Amerikanske telekommunikasjonsselskaper. Programmet, som startet i 2001, ble ikke oppdaget av publikum til 2006, da informasjonen begynte å lekke ut. Ofte er risikoen ikke fra datautvinning selv (som vanligvis tar sikte på å produsere generell kunnskap i stedet for å lære informasjon om bestemte problemer), men fra misbruk eller upassende avsløring av informasjon i disse databasene.
i Usa er mange føderale byråer nå pålagt å produsere årsrapporter som spesifikt adresserer personvernimplikasjonene av deres datautvinningsprosjekter. DEN AMERIKANSKE loven som krever personvernrapporter fra føderale byråer definerer data mining ganske restriktivt som “…analyser for å oppdage eller finne et prediktivt mønster eller anomali som indikerer terrorist eller kriminell aktivitet fra en enkeltperson eller enkeltpersoner.”Ettersom ulike lokale, nasjonale og internasjonale rettshåndhevende organer har begynt å dele eller integrere sine databaser, har potensialet for misbruk eller sikkerhetsbrudd tvunget regjeringer til å jobbe med industrien for å utvikle sikrere datamaskiner og nettverk. Spesielt har det vært forskning i teknikker for personvernbevarende datautvinning som opererer på forvrengt, transformert eller kryptert data for å redusere risikoen for avsløring av individets data.
data mining utvikler seg, med en sjåfør som konkurranser på utfordringsproblemer. Et kommersielt eksempel på Dette var $1 million Netflix-Prisen. Netflix, Et amerikansk selskap som tilbyr filmutleie levert via post eller streamet Over Internett, begynte konkurransen i 2006 for å se om noen kunne forbedre med 10 prosent sitt anbefalingssystem, en algoritme for å forutsi en persons filmpreferanser basert på tidligere leiedata. Prisen ble tildelt På September. 21. juni 2009 til Bellkors Pragmatic Chaos – et team av syv matematikere—datavitenskapere og ingeniører fra Usa, Canada, Østerrike og Israel som hadde oppnådd 10 prosent målet 26.juni 2009, og avsluttet seieren med en forbedret algoritme 30 dager senere. Den treårige åpne konkurransen hadde ansporet mange smarte data-mining innovasjoner fra deltakerne. For eksempel Holdt 2007 og 2008 Konferanser Om Kunnskapsoppdagelse og Data Mining workshops På Netflix-Prisen, hvor forskningsartikler ble presentert om emner som spenner fra nye samarbeidsfiltreringsteknikker til raskere matrisefaktorisering (en nøkkelkomponent i Mange anbefalingssystemer). Bekymringer over personvernet til slike data har også ført til fremskritt i å forstå personvern og anonymitet.
data mining er imidlertid ikke et paradis, og resultatene må ses med samme forsiktighet som ved enhver statistisk analyse. En av styrkene til data mining er evnen til å analysere mengder data som ville være upraktisk å analysere manuelt, og mønstrene funnet kan være komplekse og vanskelige for mennesker å forstå; denne kompleksiteten krever omsorg i å vurdere mønstrene. Likevel kan statistiske evalueringsteknikker resultere i kunnskap som er fri for menneskelig bias, og den store mengden data kan redusere forstyrrelser som ligger i mindre prøver. Brukt riktig, data mining gir verdifull innsikt i store datasett som ellers ikke ville være praktisk eller mulig å få.
Christopher Clifton
Leave a Reply