Pattern mining

Privacy concerns and future directions

the potential for invasion of privacy using data mining has been a concern for many people. Kaupallisissa tietokannoissa voi olla yksityiskohtaisia tietoja muun muassa ihmisten sairaushistoriasta, ostotapahtumista ja puhelimen käytöstä. Kansalaisvapauksien kannattajat pitävät joitakin yritysten ja hallitusten hallussa olevia tietokantoja aiheettomana tunkeutumisena ja kehotuksena väärinkäyttöön. Esimerkiksi American Civil Liberties Union haastoi Yhdysvaltain oikeuteen. National Security Agency (NSA) syyttää varomatonta vakoilusta Yhdysvaltain kansalaisia hankkimalla puhelutiedot joidenkin amerikkalaisten telekommunikaatioyhtiöiden. Vuonna 2001 alkanut ohjelma paljastui yleisölle vasta vuonna 2006, jolloin tieto alkoi vuotaa julkisuuteen. Usein riski ei johdu tiedonhankinnasta itsestään (jolla pyritään yleensä tuottamaan yleistietoa eikä oppimaan tietoa erityisistä asioista) vaan näiden tietokantojen tietojen väärinkäytöstä tai epäasianmukaisesta paljastamisesta.

Yhdysvalloissa monien liittovaltion virastojen on nyt laadittava vuosiraportteja, joissa käsitellään erityisesti niiden tiedonlouhintahankkeiden yksityisyyteen liittyviä vaikutuksia. Yhdysvaltain laki, joka vaatii yksityisyysraportteja liittovaltion virastoilta, määrittelee tiedon louhinnan melko rajoittavasti ” … analyyseiksi, joiden avulla voidaan löytää tai paikantaa ennakoiva kuvio tai poikkeama, joka viittaa terrorismiin tai rikolliseen toimintaan kenenkään yksilön tai yksilöiden taholta.”Kun useat paikalliset, kansalliset ja kansainväliset lainvalvontaviranomaiset ovat alkaneet jakaa tai integroida tietokantojaan, väärinkäytösten tai tietoturvaloukkausten mahdollisuus on pakottanut hallitukset työskentelemään teollisuuden kanssa turvallisempien tietokoneiden ja verkkojen kehittämiseksi. Erityisesti on tutkittu yksityisyyden suojaamiseen tähtääviä tiedonlouhintatekniikoita, jotka toimivat vääristyneellä, muunnetulla tai salatulla tiedolla vähentääkseen riskiä kenenkään yksilön tietojen paljastumisesta.

tiedonlouhinta kehittyy, ja yksi kuljettaja kilpailee haasteongelmista. Kaupallinen esimerkki tästä oli miljoonan dollarin Netflix-palkinto. Netflix, amerikkalainen yritys, joka tarjoaa elokuvien vuokrat toimitetaan postitse tai suoratoistona Internetissä, aloitti kilpailun 2006 nähdä, jos joku voisi parantaa 10 prosenttia sen suositusjärjestelmä, algoritmi ennustaa yksilön elokuva mieltymykset perustuu aikaisempiin vuokraustietoihin. Palkinto jaettiin syyskuussa. 21, 2009, bellkor ‘ s Pragmatic Chaos-ryhmä seitsemän matemaatikot, tietojenkäsittelytieteilijät, ja insinöörit Yhdysvalloista, Kanadasta, Itävallasta, ja Israel, joka oli saavuttanut 10 prosentin tavoite 26.kesäkuuta 2009, ja viimeisteli voittonsa parannettu algoritmi 30 päivää myöhemmin. Kolmevuotinen avoin kilpailu oli kirvoittanut kilpailijoilta monia nokkelia tiedonlouhinta-innovaatioita. Esimerkiksi vuosina 2007 ja 2008 järjestetyissä tiedon löytämistä ja tiedon louhintaa käsittelevissä konferensseissa pidettiin Netflix-palkintoa käsitteleviä työpajoja, joissa esiteltiin tutkimuspapereita aiheista, jotka vaihtelivat uusista yhteistoiminnallisista suodatustekniikoista nopeampaan matriisi-faktorisointiin (keskeinen osa monia suositusjärjestelmiä). Huoli tällaisten tietojen yksityisyydestä on myös johtanut edistymiseen yksityisyyden ja anonymiteetin ymmärtämisessä.

tiedonlouhinta ei kuitenkaan ole ihmelääke, vaan tuloksiin on suhtauduttava yhtä huolellisesti kuin mihin tahansa tilastoanalyysiin. Yksi tiedon louhinnan vahvuuksista on kyky analysoida datamääriä, joita olisi epäkäytännöllistä analysoida manuaalisesti, ja löydetyt kuviot voivat olla monimutkaisia ja vaikeita ihmisille ymmärtää; tämä monimutkaisuus vaatii huolellisuutta kaavojen arvioinnissa. Tilastolliset arviointitekniikat voivat kuitenkin johtaa tietoon, joka ei sisällä ihmisen ennakkoluuloja, ja suuri tietomäärä voi vähentää pienempiin näytteisiin liittyviä harhoja. Oikein käytettynä tiedonlouhinta tarjoaa arvokasta tietoa suurista tietokokonaisuuksista, joita ei muuten olisi käytännöllistä tai mahdollista saada.

Christopher Clifton

Leave a Reply