Pattern mining
adatvédelmi aggályok és jövőbeli irányok
az adatbányászat használatával a magánélet megsértésének lehetősége sok ember számára aggodalomra ad okot. A kereskedelmi adatbázisok részletes nyilvántartást tartalmazhatnak az emberek kórtörténetéről, vásárlási tranzakcióiról és telefonhasználatáról, többek között életük egyéb aspektusairól. A polgári libertáriusok a vállalkozások és a kormányok által birtokolt adatbázisokat indokolatlan behatolásnak és visszaélésre való felhívásnak tekintik. Például az American Civil Liberties Union beperelte az Egyesült Államokat. Nemzetbiztonsági Ügynökség (NSA) azt állítja, hogy az amerikai állampolgárok indokolatlan kémkedése egyes amerikai távközlési vállalatok hívásrekordjainak megszerzésével történt. A 2001-ben kezdődött programot a nyilvánosság csak 2006-ban fedezte fel, amikor az információk kiszivárogtak. A kockázatot gyakran nem maga az adatbányászat jelenti (amelynek célja általában általános ismeretek előállítása, nem pedig konkrét kérdésekkel kapcsolatos információk megismerése), hanem az ezen adatbázisokban található információk visszaélése vagy nem megfelelő közzététele.
az Egyesült Államokban számos szövetségi Ügynökségnek éves jelentéseket kell készítenie, amelyek kifejezetten foglalkoznak adatbányászati projektjeik adatvédelmi vonatkozásaival. A szövetségi ügynökségek adatvédelmi jelentéseit előíró amerikai törvény az adatbányászatot meglehetősen korlátozottan határozza meg: “…elemzések egy olyan prediktív minta vagy anomália felfedezésére vagy megtalálására, amely bármely személy vagy személyek terrorista vagy bűnözői tevékenységére utal.”Mivel a különböző helyi, nemzeti és nemzetközi bűnüldöző szervek elkezdték megosztani vagy integrálni adatbázisaikat, a visszaélések vagy a biztonság megsértésének lehetősége arra kényszerítette a kormányokat, hogy együttműködjenek az iparral a biztonságosabb számítógépek és hálózatok fejlesztésében. Különösen kutatásokat végeztek a magánélet megőrzésének technikáiban adatbányászat amelyek torzított, átalakított vagy titkosított adatokon működnek, hogy csökkentsék az egyén adatainak nyilvánosságra hozatalának kockázatát.
az adatbányászat fejlődik, az egyik vezető versenyez a Kihívási problémákkal. Ennek kereskedelmi példája az 1 millió dolláros Netflix-díj volt. A Netflix, egy amerikai cég, amely filmkölcsönzéseket kínál postai úton vagy az Interneten keresztül, 2006-ban kezdte meg a versenyt, hogy kiderítse, képes-e valaki 10 százalékkal javítani ajánlási rendszerét, egy algoritmust az egyén filmpreferenciáinak előrejelzésére a korábbi bérleti adatok alapján. A díjat szeptemberben ítélték oda. 21, 2009, BellKor pragmatikus Káoszához-hét matematikusból, számítástechnikusból és mérnökökből álló csapat az Egyesült Államokból, Kanadából, Ausztriából és Izraelből, akik elérték a 10 százalékos célt június 26-án, 2009-ben, és 30 nappal később befejezték győzelmüket egy továbbfejlesztett algoritmussal. A hároméves nyílt verseny sok okos adatbányászati újítást ösztönzött a versenyzőktől. Például a 2007-es és 2008-as Tudásfeltárási és adatbányászati konferenciák workshopokat tartottak a Netflix-díjjal kapcsolatban, ahol kutatási cikkeket mutattak be az új együttműködési szűrési technikáktól a gyorsabb mátrixfaktorizálásig (számos ajánlási rendszer kulcsfontosságú eleme). Az ilyen adatok magánéletével kapcsolatos aggodalmak a magánélet és az anonimitás megértésének előrehaladásához is vezettek.
az adatbányászat azonban nem csodaszer, az eredményeket ugyanolyan gondossággal kell vizsgálni, mint bármely statisztikai elemzésnél. Az adatbányászat egyik erőssége az a képesség, hogy olyan adatmennyiségeket elemezzen, amelyeket nem lenne célszerű manuálisan elemezni, és a talált minták összetettek és nehezen érthetők az emberek számára; ez a komplexitás körültekintést igényel a minták értékelésében. Mindazonáltal a statisztikai értékelési technikák olyan ismereteket eredményezhetnek, amelyek mentesek az emberi elfogultságtól, és a nagy mennyiségű adat csökkentheti a kisebb mintákban rejlő torzításokat. Megfelelően használva az adatbányászat értékes betekintést nyújt a nagy adatkészletekbe, amelyeket egyébként nem lenne praktikus vagy lehetséges megszerezni.
Christopher
Leave a Reply