pattern mining
probleme de confidențialitate și direcții viitoare
potențialul de invazie a vieții private folosind Data mining a fost o preocupare pentru mulți oameni. Bazele de date comerciale pot conține înregistrări detaliate ale istoricului medical al oamenilor, tranzacțiile de cumpărare și utilizarea telefonului, printre alte aspecte ale vieții lor. Libertarienii civili consideră că unele baze de date deținute de întreprinderi și guverne sunt o intruziune nejustificată și o invitație la abuz. De exemplu, Uniunea Americană pentru Libertăți Civile a dat în judecată SUA. Agenția Națională de securitate (NSA) a acuzat spionarea fără mandat a cetățenilor americani prin achiziționarea de înregistrări de apeluri de la unele companii americane de telecomunicații. Programul, care a început în 2001, nu a fost descoperit de public până în 2006, când informațiile au început să se scurgă. Adesea, riscul nu este de la data mining în sine (care, de obicei, își propune să producă cunoștințe generale, mai degrabă decât să învețe informații despre probleme specifice), ci de la utilizarea necorespunzătoare sau divulgarea necorespunzătoare a informațiilor în aceste baze de date.
în Statele Unite, multe agenții federale sunt acum obligate să producă rapoarte anuale care abordează în mod specific implicațiile asupra vieții private ale proiectelor lor de extragere a datelor. Legea americană care impune rapoarte de Confidențialitate de la agențiile federale definește exploatarea datelor destul de restrictiv ca “…analize pentru a descoperi sau localiza un model predictiv sau o anomalie care indică o activitate teroristă sau criminală din partea oricărei persoane sau persoane.”Pe măsură ce diferite agenții locale, naționale și internaționale de aplicare a legii au început să partajeze sau să integreze bazele lor de date, potențialul de abuz sau încălcări ale securității a forțat guvernele să colaboreze cu industria pentru a dezvolta computere și rețele mai sigure. În special, au existat cercetări în tehnici de extragere a datelor care păstrează confidențialitatea, care operează pe date distorsionate, transformate sau criptate pentru a reduce riscul de divulgare a datelor oricărei persoane.
data mining evoluează, un singur pilot fiind concursuri pe probleme de provocare. Un exemplu comercial în acest sens a fost Premiul Netflix de 1 milion de dolari. Netflix, o companie americană care oferă închirieri de filme livrate prin poștă sau transmise prin Internet, a început concursul în 2006 pentru a vedea dacă cineva ar putea îmbunătăți cu 10% sistemul său de recomandări, un algoritm pentru prezicerea preferințelor filmului unei persoane pe baza datelor anterioare de închiriere. Premiul a fost acordat în septembrie. 21, 2009, către haosul Pragmatic al lui BellKor—o echipă de șapte matematicieni, informaticieni și ingineri din Statele Unite, Canada, Austria și Israel care au atins obiectivul de 10% pe 26 iunie 2009 și și-au finalizat victoria cu un algoritm îmbunătățit 30 de zile mai târziu. Competiția deschisă de trei ani a stimulat multe inovații inteligente de extragere a datelor de la concurenți. De exemplu, conferințele din 2007 și 2008 privind descoperirea cunoștințelor și extragerea datelor au organizat ateliere pe tema Premiului Netflix, la care au fost prezentate lucrări de cercetare pe teme care variază de la noi tehnici de filtrare colaborativă la factorizarea mai rapidă a matricei (o componentă cheie a multor sisteme de recomandare). Preocupările legate de confidențialitatea acestor date au condus, de asemenea, la progrese în înțelegerea confidențialității și a anonimatului.
data mining nu este însă un panaceu, iar rezultatele trebuie privite cu aceeași grijă ca în cazul oricărei analize statistice. Unul dintre punctele forte ale extragerii datelor este capacitatea de a analiza cantități de date care ar fi imposibil de analizat manual, iar tiparele găsite pot fi complexe și dificil de înțeles pentru oameni; această complexitate necesită îngrijire în evaluarea tiparelor. Cu toate acestea, tehnicile de evaluare statistică pot duce la cunoștințe care nu sunt părtinitoare umane, iar cantitatea mare de date poate reduce prejudecățile inerente eșantioanelor mai mici. Folosit în mod corespunzător, Data mining oferă informații valoroase despre seturi mari de date care altfel nu ar fi practice sau posibile de obținut.
Cristofor Clifton
Leave a Reply