Pattern mining
Problemi di privacy e direzioni future
Il potenziale di invasione della privacy utilizzando il data mining è stato una preoccupazione per molte persone. I database commerciali possono contenere registrazioni dettagliate della storia medica delle persone, delle transazioni di acquisto e dell’utilizzo del telefono, tra gli altri aspetti della loro vita. I libertari civili considerano alcuni database detenuti da aziende e governi un’intrusione ingiustificata e un invito ad abusare. Ad esempio, l’American Civil Liberties Union ha citato in giudizio gli Stati Uniti. National Security Agency (NSA) attinente spionaggio senza garanzia sui cittadini americani attraverso l’acquisizione di record di chiamata da alcune società di telecomunicazioni americane. Il programma, iniziato nel 2001, non è stato scoperto dal pubblico fino al 2006, quando le informazioni hanno iniziato a trapelare. Spesso il rischio non deriva dal data mining stesso (che di solito mira a produrre conoscenze generali piuttosto che a apprendere informazioni su questioni specifiche), ma da un uso improprio o da una divulgazione inappropriata di informazioni in queste banche dati.
Negli Stati Uniti, molte agenzie federali sono ora tenuti a produrre relazioni annuali che affrontano specificamente le implicazioni sulla privacy dei loro progetti di data mining. La legge statunitense che richiede rapporti sulla privacy da parte delle agenzie federali definisce il data mining in modo piuttosto restrittivo come ” analyses analisi per scoprire o individuare un modello predittivo o anomalia indicativa di attività terroristiche o criminali da parte di qualsiasi individuo o individuo.”Poiché varie agenzie locali, nazionali e internazionali hanno iniziato a condividere o integrare i loro database, il potenziale di abusi o violazioni della sicurezza ha costretto i governi a lavorare con l’industria sullo sviluppo di computer e reti più sicure. In particolare, ci sono state ricerche in tecniche di data mining che preservano la privacy che operano su dati distorti, trasformati o crittografati per ridurre il rischio di divulgazione dei dati di qualsiasi individuo.
Il data mining si sta evolvendo, con un pilota che sta competendo su problemi di sfida. Un esempio commerciale di questo è stato il premio Netflix da Netflix 1 milioni. Netflix, una società americana che offre noleggi di film consegnati per posta o in streaming su Internet, ha iniziato il concorso nel 2006 per vedere se qualcuno poteva migliorare del 10 per cento il suo sistema di raccomandazione, un algoritmo per predire le preferenze di film di un individuo in base ai dati di noleggio precedenti. Il premio è stato assegnato il settembre. 21, 2009, al caos pragmatico di BellKor – un team di sette matematici, informatici e ingegneri provenienti da Stati Uniti, Canada, Austria e Israele che avevano raggiunto l’obiettivo del 10% il 26 giugno 2009 e finalizzato la loro vittoria con un algoritmo migliorato 30 giorni dopo. Il concorso aperto di tre anni aveva stimolato molte innovazioni intelligenti di data-mining dai concorrenti. Ad esempio, le conferenze 2007 e 2008 sulla scoperta della conoscenza e il Data mining hanno tenuto workshop sul premio Netflix, in cui sono stati presentati documenti di ricerca su argomenti che vanno dalle nuove tecniche di filtraggio collaborativo alla fattorizzazione a matrice più rapida (una componente chiave di molti sistemi di raccomandazione). Le preoccupazioni sulla privacy di tali dati hanno anche portato a progressi nella comprensione della privacy e dell’anonimato.
L’estrazione dei dati non è una panacea, tuttavia, e i risultati devono essere visti con la stessa cura di qualsiasi analisi statistica. Uno dei punti di forza del data mining è la capacità di analizzare quantità di dati che non sarebbe pratico analizzare manualmente, e i modelli trovati possono essere complessi e difficili da comprendere per gli esseri umani; questa complessità richiede attenzione nella valutazione dei modelli. Tuttavia, le tecniche di valutazione statistica possono portare a conoscenze prive di pregiudizi umani e la grande quantità di dati può ridurre i pregiudizi inerenti a campioni più piccoli. Utilizzato correttamente, il data mining fornisce informazioni preziose su set di dati di grandi dimensioni che altrimenti non sarebbero pratici o possibili da ottenere.
Christopher Clifton
Leave a Reply