Pattern mining
Privacy concerns and future directions
potenciál pro invazi do soukromí pomocí data mining byl problém pro mnoho lidí. Komerční databáze mohou obsahovat podrobné záznamy o anamnéze lidí, nákupních transakcích a používání telefonu, mimo jiné aspekty jejich života. Občanští libertariáni považují některé databáze držené podniky a vládami za neopodstatněné vniknutí a výzvu ke zneužití. Například Americká unie občanských svobod zažalovala USA. Národní bezpečnostní agentura (NSA) tvrdí, že bez záruky špehuje americké občany prostřednictvím získávání záznamů o hovorech od některých amerických telekomunikačních společností. Program, který začal v roce 2001, veřejnost objevila až v roce 2006, kdy informace začaly unikat. Riziko často není způsobeno samotným dolováním dat (jehož cílem je obvykle získat obecné znalosti, nikoli se dozvědět informace o konkrétních problémech), ale zneužitím nebo nevhodným zveřejněním informací v těchto databázích.
ve Spojených státech je nyní mnoho federálních agentur povinno předkládat výroční zprávy, které se konkrétně zabývají dopady na soukromí svých projektů těžby dat. Americký zákon vyžadující zprávy o ochraně osobních údajů od federálních agentur definuje dolování dat poměrně restriktivně jako ” … analýzy k objevení nebo lokalizaci prediktivního vzorce nebo anomálie svědčící o teroristické nebo trestné činnosti ze strany jednotlivce nebo jednotlivců.”Vzhledem k tomu, že různé místní, národní a mezinárodní donucovací orgány začaly sdílet nebo integrovat své databáze, potenciál zneužití nebo narušení bezpečnosti přinutil vlády spolupracovat s průmyslem na vývoji bezpečnějších počítačů a sítí. Zejména, tam byl výzkum v technikách pro ochranu soukromí dolování dat, které pracují na zkreslené, transformované, nebo šifrované údaje ke snížení rizika zveřejnění Dat každého jednotlivce.
dolování dat se vyvíjí, přičemž jeden ovladač je soutěží o problémy s výzvou. Komerčním příkladem toho byla cena Netflix ve výši 1 milionu dolarů. Netflix, americká společnost, která nabízí půjčovny filmů doručené poštou nebo streamované přes Internet, zahájila soutěž v roce 2006, aby zjistila, zda by někdo mohl zlepšit o 10 procent svůj systém doporučení, algoritmus pro předpovídání filmových preferencí jednotlivce na základě předchozích údajů o pronájmu. Cena byla udělena v Září. 21, 2009, do Bellkorova pragmatického chaosu—týmu sedmi matematiků, počítačových vědců a inženýrů ze Spojených států, Kanady, Rakouska a Izraele, kteří dosáhli cíle 10 procent 26.června 2009 a dokončili své vítězství vylepšeným algoritmem o 30 dní později. Tříletá otevřená soutěž podnítila od soutěžících mnoho chytrých inovací v oblasti dolování dat. Například konference 2007 a 2008 o objevování znalostí a dolování dat pořádaly workshopy o ceně Netflix, na kterých byly prezentovány výzkumné práce na témata od nových technik filtrování spolupráce po rychlejší faktorizaci matice(klíčová součást mnoha systémů doporučení). Obavy o soukromí těchto údajů také vedly k pokroku v porozumění soukromí a anonymitě.
dolování dat však není všelékem a na výsledky je třeba pohlížet se stejnou péčí jako při jakékoli statistické analýze. Jednou ze silných stránek dolování dat je schopnost analyzovat množství dat, která by byla nepraktická pro ruční analýzu, a nalezené vzory mohou být pro člověka složité a obtížné pochopit; tato složitost vyžaduje péči při hodnocení vzorců. Techniky statistického hodnocení však mohou vést ke znalostem, které jsou prosté lidské zaujatosti, a velké množství dat může snížit předsudky spojené s menšími vzorky. Při správném použití poskytuje dolování dat cenné poznatky o velkých datových sadách, které by jinak nebyly praktické nebo možné získat.
Christopher Clifton
Leave a Reply