mönster mining

integritetsfrågor och framtida riktningar

potentialen för intrång i privatlivet med hjälp av data mining har varit ett bekymmer för många människor. Kommersiella databaser kan innehålla detaljerade register över människors medicinska historia, köptransaktioner och telefonanvändning, bland andra aspekter av deras liv. Medborgerliga libertarianer anser att vissa databaser som innehas av företag och regeringar är ett obefogat intrång och en inbjudan till missbruk. Till exempel stämde American Civil Liberties Union USA. National Security Agency (NSA) hävdar garantilös spionering på amerikanska medborgare genom förvärv av samtalsposter från vissa amerikanska telekommunikationsföretag. Programmet, som började 2001, upptäcktes inte av allmänheten förrän 2006, då informationen började läcka ut. Ofta är risken inte från data mining själv (som vanligtvis syftar till att producera allmän kunskap snarare än att lära sig information om specifika problem) men från missbruk eller olämpligt avslöjande av information i dessa databaser.

i USA är många federala myndigheter nu skyldiga att producera årliga rapporter som specifikt behandlar integritetseffekterna av deras datautvinningsprojekt. Den amerikanska lagen som kräver integritetsrapporter från federala myndigheter definierar data mining ganska restriktivt som ” … analyser för att upptäcka eller lokalisera ett prediktivt mönster eller anomali som indikerar terrorist eller kriminell verksamhet hos någon individ eller individer.”Eftersom olika lokala, nationella och internationella brottsbekämpande organ har börjat dela eller integrera sina databaser har potentialen för missbruk eller säkerhetsbrott tvingat regeringar att arbeta med industrin för att utveckla säkrare datorer och nätverk. I synnerhet har det gjorts forskning inom tekniker för integritetsbevarande datautvinning som fungerar på förvrängda, transformerade eller krypterade data för att minska risken för utlämnande av individens data.

data mining utvecklas, med en förare som tävlingar om utmaningsproblem. Ett kommersiellt exempel på detta var Netflix-priset på 1 miljon dollar. Netflix, ett amerikanskt företag som erbjuder filmuthyrning som levereras via post eller strömmas över Internet, började tävlingen 2006 för att se om någon kunde förbättra sitt rekommendationssystem med 10 procent, en algoritm för att förutsäga en individs filminställningar baserat på tidigare hyresdata. Priset delades ut den September. 21, 2009, till BellKor ‘ s Pragmatic Chaos – ett team av sju matematiker, datavetare och ingenjörer från USA, Kanada, Österrike och Israel som hade uppnått 10-procentmålet den 26 juni 2009 och slutförde sin seger med en förbättrad algoritm 30 dagar senare. Den treåriga öppna tävlingen hade sporrat många smarta datautvinningsinnovationer från tävlande. Till exempel höll konferenserna 2007 och 2008 om Kunskapsupptäckt och Data Mining workshops om Netflix-priset, där forskningspapper presenterades om ämnen som sträcker sig från nya samarbetsfiltreringstekniker till snabbare matrisfaktorisering (en nyckelkomponent i många rekommendationssystem). Oro över integriteten för sådana uppgifter har också lett till framsteg när det gäller att förstå integritet och anonymitet.

data mining är inte ett universalmedel, dock, och resultaten måste ses med samma omsorg som med någon statistisk analys. En av styrkorna med data mining är förmågan att analysera mängder data som skulle vara opraktiska att analysera manuellt, och de hittade mönstren kan vara komplexa och svåra för människor att förstå; denna komplexitet kräver omsorg vid utvärdering av mönstren. Ändå kan statistiska utvärderingstekniker resultera i kunskap som är fri från mänsklig bias, och den stora mängden data kan minska fördomar som är inneboende i mindre prover. Används på rätt sätt, ger data mining värdefulla insikter i stora datamängder som annars inte skulle vara praktiskt eller möjligt att få.

Christopher Clifton

Leave a Reply