mønster mining
Privacy bekymringer og fremtidige retninger
potentialet for invasion af privatlivets fred ved hjælp af data mining har været en bekymring for mange mennesker. Kommercielle databaser kan indeholde detaljerede optegnelser over folks sygehistorie, købstransaktioner og telefonbrug, blandt andre aspekter af deres liv. Civile libertarianere betragter nogle databaser, som virksomheder og regeringer har, som en uberettiget indtrængen og en invitation til misbrug. For eksempel sagsøgte American Civil Liberties Union USA. National Security Agency (NSA) hævder uberettiget spionage på amerikanske borgere gennem erhvervelse af opkaldsposter fra nogle amerikanske telekommunikationsselskaber. Programmet, der begyndte i 2001, blev ikke opdaget af offentligheden før i 2006, da oplysningerne begyndte at lække ud. Ofte er risikoen ikke fra datamining i sig selv (som normalt sigter mod at producere generel viden snarere end at lære information om specifikke problemer), men fra misbrug eller upassende videregivelse af information i disse databaser.
i USA er mange føderale agenturer nu forpligtet til at udarbejde årsrapporter, der specifikt adresserer privatlivets konsekvenser af deres data-mining-projekter. Den amerikanske lov, der kræver privatlivsrapporter fra føderale agenturer, definerer data mining ret restriktivt som “…analyser for at opdage eller lokalisere et forudsigeligt mønster eller anomali, der tyder på terrorist eller kriminel aktivitet fra enhver persons eller enkeltpersoners side.”Da forskellige lokale, nationale og internationale retshåndhævende myndigheder er begyndt at dele eller integrere deres databaser, har potentialet for misbrug eller sikkerhedsbrud tvunget regeringer til at arbejde sammen med industrien om at udvikle mere sikre computere og netværk. Især har der været forskning i teknikker til beskyttelse af privatlivets fred data mining, der opererer på forvrængede, transformerede eller krypterede data for at mindske risikoen for offentliggørelse af en persons data.
Data mining udvikler sig, hvor en chauffør er konkurrencer om udfordringsproblemer. Et kommercielt eksempel på dette var prisen på 1 million dollars. Mail eller streamet over Internettet, begyndte konkurrencen i 2006 for at se, om nogen kunne forbedre sit anbefalingssystem med 10 procent, en algoritme til forudsigelse af en persons filmpræferencer baseret på tidligere lejedata. Prisen blev tildelt den Sept. 21, 2009, til Bellkors pragmatiske kaos—et team på syv matematikere, computerforskere og ingeniører fra USA, Canada, Østrig og Israel, der havde nået 10 procentmålet den 26.juni 2009 og afsluttede deres sejr med en forbedret algoritme 30 dage senere. Den treårige åbne konkurrence havde ansporet mange kloge data-mining innovationer fra deltagere. For eksempel afholdt konferencerne i 2007 og 2008 om Videnopdagelse og datamining værksteder om Netfleks-prisen, hvor forskningsartikler blev præsenteret om emner lige fra nye samarbejdsfiltreringsteknikker til hurtigere matriksfaktorisering (en nøglekomponent i mange anbefalingssystemer). Bekymringer over privatlivets fred for sådanne data har også ført til fremskridt i forståelsen af privatlivets fred og anonymitet.
Data mining er dog ikke et universalmiddel, og resultaterne skal ses med samme omhu som ved enhver statistisk analyse. En af styrkerne ved data mining er evnen til at analysere mængder data, der ville være upraktisk at analysere manuelt, og de fundne mønstre kan være komplekse og vanskelige for mennesker at forstå; denne kompleksitet kræver omhu ved evaluering af mønstrene. Ikke desto mindre kan statistiske evalueringsteknikker resultere i viden, der er fri for menneskelig bias, og den store mængde data kan reducere forstyrrelser, der er forbundet med mindre prøver. Brugt korrekt, Data mining giver værdifuld indsigt i store datasæt, som ellers ikke ville være praktisk eller muligt at opnå.
Christopher Clifton
Leave a Reply