Pattern mining
obawy dotyczące prywatności i przyszłe kierunki
możliwość naruszenia prywatności za pomocą eksploracji danych jest problemem dla wielu osób. Komercyjne bazy danych mogą zawierać szczegółowe zapisy historii medycznej ludzi, transakcji zakupu i korzystania z telefonu, wśród innych aspektów ich życia. Libertarianie uważają niektóre bazy danych przechowywane przez firmy i rządy za nieuzasadnione wtargnięcie i zaproszenie do nadużyć. Na przykład amerykańska Unia Wolności Obywatelskich pozwała USA. National Security Agency (NSA) zarzuca bezwarunkowe Szpiegowanie amerykańskich obywateli poprzez pozyskiwanie rejestrów połączeń od niektórych amerykańskich firm telekomunikacyjnych. Program, który rozpoczął się w 2001 roku, nie został odkryty przez społeczeństwo aż do 2006 roku, kiedy informacje zaczęły wyciekać. Często ryzyko nie wynika z samego eksploracji danych (która zwykle ma na celu uzyskanie ogólnej wiedzy, a nie poznanie informacji o konkretnych kwestiach), ale z niewłaściwego lub niewłaściwego ujawnienia informacji w tych bazach danych.
w Stanach Zjednoczonych wiele agencji federalnych jest obecnie zobowiązanych do sporządzania rocznych raportów, które w szczególności dotyczą implikacji Prywatności ich projektów eksploracji danych. Prawo USA wymagające raportów o prywatności od agencji federalnych definiuje eksplorację danych dość restrykcyjnie jako “…analizy mające na celu odkrycie lub zlokalizowanie predykcyjnego wzorca lub anomalii wskazującej na działalność terrorystyczną lub przestępczą ze strony dowolnej osoby lub osób.”Ponieważ różne lokalne, krajowe i międzynarodowe organy ścigania zaczęły udostępniać lub integrować swoje bazy danych, potencjalne nadużycia lub naruszenia bezpieczeństwa zmusiły rządy do współpracy z przemysłem nad rozwojem bezpieczniejszych komputerów i sieci. W szczególności przeprowadzono badania nad technikami ochrony prywatności data mining, które działają na zniekształconych,przekształconych lub zaszyfrowanych danych, aby zmniejszyć ryzyko ujawnienia danych danej osoby.
eksploracja danych ewoluuje, jeden Sterownik jest konkursem na problemy z wyzwaniami. Komercyjnym przykładem tego była nagroda Netflix o wartości 1 miliona dolarów. Netflix, amerykańska firma oferująca wypożyczalnie filmów dostarczane pocztą lub przesyłane strumieniowo przez Internet, rozpoczęła konkurs w 2006 roku, aby sprawdzić, czy ktoś może poprawić o 10 procent swój system rekomendacji, algorytm przewidywania preferencji filmowych danej osoby na podstawie danych z poprzednich wypożyczeń. Nagroda została przyznana w dniu 09.09.2010 r. 21 czerwca 2009, do Pragmatic Chaos BellKor—zespół siedmiu matematyków, informatyków i inżynierów ze Stanów Zjednoczonych, Kanady, Austrii i Izraela, którzy osiągnęli 10-procentowy cel 26 czerwca 2009 i zakończyli swoje zwycięstwo ulepszonym algorytmem 30 dni później. Trzyletni otwarty konkurs zachęcił uczestników do wielu sprytnych innowacji w zakresie eksploracji danych. Na przykład w 2007 i 2008 r. na konferencjach poświęconych odkrywaniu wiedzy i eksploracji danych odbyły się warsztaty dotyczące nagrody Netflix, podczas których przedstawiono prace badawcze na tematy od nowych technik filtrowania opartego na współpracy po szybszą faktoryzację macierzy (kluczowy element wielu systemów rekomendacji). Obawy dotyczące prywatności takich danych doprowadziły również do postępu w zrozumieniu Prywatności i anonimowości.
eksploracja danych nie jest jednak panaceum, a wyniki muszą być oglądane z taką samą ostrożnością, jak w przypadku każdej analizy statystycznej. Jedną z mocnych stron eksploracji danych jest zdolność do analizy ilości danych, które byłyby niepraktyczne do analizy ręcznie, a znalezione wzorce mogą być złożone i trudne do zrozumienia dla ludzi; ta złożoność wymaga staranności w ocenie wzorców. Niemniej jednak techniki oceny statystycznej mogą skutkować wiedzą, która jest wolna od uprzedzeń ludzkich, a duża ilość danych może zmniejszyć uprzedzenia związane z mniejszymi próbkami. Właściwie wykorzystywane eksploracja danych zapewnia cenne wgląd w duże zbiory danych, które w przeciwnym razie nie byłyby praktyczne lub możliwe do uzyskania.
Christopher Clifton
Leave a Reply