Pattern Mining
Datenschutzbedenken und zukünftige Richtungen
Das Potenzial für eine Verletzung der Privatsphäre durch Data Mining war für viele Menschen ein Problem. Kommerzielle Datenbanken können unter anderem detaillierte Aufzeichnungen über die Krankengeschichte, Kauftransaktionen und die Telefonnutzung von Personen enthalten. Bürgerliche Libertäre betrachten einige Datenbanken, die von Unternehmen und Regierungen gehalten werden, als ein ungerechtfertigtes Eindringen und eine Einladung zum Missbrauch. Zum Beispiel verklagte die American Civil Liberties Union die USA. National Security Agency (NSA) behauptet warrantless Spionage auf amerikanische Bürger durch den Erwerb von Anruflisten von einigen amerikanischen Telekommunikationsunternehmen. Das Programm, das 2001 begann, wurde erst 2006 von der Öffentlichkeit entdeckt, als die Informationen zu sickern begannen. Oft liegt das Risiko nicht beim Data Mining selbst (das normalerweise darauf abzielt, allgemeines Wissen zu erzeugen, anstatt Informationen über bestimmte Themen zu lernen), sondern beim Missbrauch oder der unangemessenen Offenlegung von Informationen in diesen Datenbanken.
In den Vereinigten Staaten sind viele Bundesbehörden nun verpflichtet, Jahresberichte zu erstellen, die sich speziell mit den Auswirkungen ihrer Data-Mining-Projekte auf den Datenschutz befassen. Das US-Gesetz, das Datenschutzberichte von Bundesbehörden verlangt, definiert Data Mining ziemlich restriktiv als “… Analysen, um ein Vorhersagemuster oder eine Anomalie zu entdecken oder zu lokalisieren, die auf terroristische oder kriminelle Aktivitäten seitens einer Person oder von Einzelpersonen hindeuten.” Da verschiedene lokale, nationale und internationale Strafverfolgungsbehörden begonnen haben, ihre Datenbanken zu teilen oder zu integrieren, hat das Potenzial für Missbrauch oder Sicherheitsverletzungen die Regierungen gezwungen, mit der Industrie an der Entwicklung sichererer Computer und Netzwerke zusammenzuarbeiten. Insbesondere wurden Techniken zur Wahrung der Privatsphäre erforscht Data Mining, die mit verzerrten, transformierten oder verschlüsselten Daten arbeiten, um das Risiko der Offenlegung der Daten einer Person zu verringern.
Data Mining entwickelt sich weiter, wobei ein Treiber auf Herausforderungsproblemen basiert. Ein kommerzielles Beispiel dafür war der Netflix-Preis in Höhe von 1 Million US-Dollar. Netflix, ein amerikanisches Unternehmen, das Filmverleih per Post oder Streaming über das Internet anbietet, begann den Wettbewerb im Jahr 2006, um zu sehen, ob jemand sein Empfehlungssystem, einen Algorithmus zur Vorhersage der Filmpräferenzen einer Person basierend auf früheren Mietdaten, um 10 Prozent verbessern könnte. Der Preis wurde am September verliehen. 21, 2009, an Bellkors Pragmatisches Chaos – ein Team von sieben Mathematikern, Informatikern und Ingenieuren aus den USA, Kanada, Österreich und Israel, die am 26.Juni 2009 das 10-Prozent-Ziel erreicht und 30 Tage später mit einem verbesserten Algorithmus ihren Sieg errungen hatten. Der dreijährige offene Wettbewerb hatte viele clevere Data-Mining-Innovationen von den Teilnehmern angeregt. Zum Beispiel veranstalteten die Konferenzen 2007 und 2008 zu Knowledge Discovery und Data Mining Workshops zum Netflix-Preis, bei denen Forschungsarbeiten zu Themen vorgestellt wurden, die von neuen kollaborativen Filtertechniken bis hin zu schnellerer Matrixfaktorisierung (einer Schlüsselkomponente vieler Empfehlungssysteme) reichten. Bedenken hinsichtlich des Datenschutzes solcher Daten haben auch zu Fortschritten beim Verständnis von Datenschutz und Anonymität geführt.
Data Mining ist jedoch kein Allheilmittel, und die Ergebnisse müssen mit der gleichen Sorgfalt wie bei jeder statistischen Analyse betrachtet werden. Eine der Stärken des Data Mining ist die Fähigkeit, Datenmengen zu analysieren, deren manuelle Analyse unpraktisch wäre, und die gefundenen Muster können komplex und für den Menschen schwer zu verstehen sein. Dennoch können statistische Auswertungstechniken zu Wissen führen, das frei von menschlichen Verzerrungen ist, und die große Datenmenge kann Verzerrungen verringern, die kleineren Stichproben innewohnen. Bei richtiger Anwendung liefert Data Mining wertvolle Einblicke in große Datensätze, die sonst nicht praktikabel oder möglich wären.
Christopher Clifton
Leave a Reply