パターンマイニング

プライバシーに関する懸念と今後の方向性

データマイニングを使用したプライバシー侵害の可能性は、多くの人々にとって懸念されています。 商業データベースには、生活の他の側面の中で、人々の病歴、購入取引、および電話の使用状況の詳細な記録が含まれている可能性があります。 市民の自由主義者は、企業や政府が保有するいくつかのデータベースを不当な侵入と虐待への招待であると考えています。 例えば、アメリカの市民の自由連合は、米国を訴えました 国家安全保障局(NSA)は、いくつかのアメリカの通信会社からの通話記録を取得することにより、アメリカの市民にワラントレススパイを主張しています。 2001年に始まったこのプログラムは、情報が漏れ始めた2006年まで一般の人々によって発見されませんでした。 多くの場合、リスクはデータマイニング自体(通常、特定の問題に関する情報を学ぶのではなく、一般的な知識を生み出すことを目的としています)ではなく、これらのデータベース内の情報の誤用または不適切な開示によるものです。

米国では、多くの連邦機関が、データマイニングプロジェクトのプライバシーへの影響に具体的に対処する年次報告書を作成する必要があります。 連邦政府機関からのプライバシーレポートを必要とする米国の法律は、データマイニングを非常に制限的に定義しています”…分析は、個人または個人の側のテロリストまたは犯罪活動を示す予測パターンまたは異常を発見または見つけるためのものです。”さまざまな地方、国、および国際的な法執行機関がデータベースを共有または統合し始めているため、虐待やセキュリティ侵害の可能性は、政府がより安全 特に、個人のデータの開示のリスクを軽減するために、歪んだ、変換された、または暗号化されたデータを操作するプライバシー保護データマイニングの技術の研究が行われています。

データマイニングは進化しており、一人のドライバーが挑戦問題に競争しています。 これの商業的な例は、100万ドルのNetflix賞でした。 ネットフリックス、メールで配信またはインターネット経由でストリーミング映画のレンタルを提供しているアメリカの会社は、誰もが以前のレンタルデータに基づ 賞は9月9日に授与されました。 21,2009,To BellKor’s Pragmatic Chaos—アメリカ、カナダ、オーストリア、イスラエルの数学者、コンピュータ科学者、エンジニアのチームが10パーセントの目標を達成し、26,2009,そして30日後に改良されたアルゴリズムで勝利を確定した。 三年間のオープン競争は、出場者から多くの巧妙なデータマイニングの技術革新に拍車をかけていました。 例えば、2007年と2008年の知識発見とデータマイニングに関する会議では、Netflix Prizeに関するワークショップが開催され、新しい共同フィルタリング技術から、より高速な行列因数分解(多くの推奨システムの重要なコンポーネント)に至るまでのトピックに関する研究論文が発表されました。 このようなデータのプライバシーに対する懸念は、プライバシーと匿名性の理解の進歩にもつながっています。

ただし、データマイニングは万能薬ではなく、結果は統計分析と同じ注意を払って表示する必要があります。 データマイニングの強みの一つは、手動で分析するのが現実的ではない量のデータを分析する能力であり、見つかったパターンは複雑で人間が理解する それにもかかわらず、統計的評価技術は、人間の偏見から解放された知識をもたらすことができ、大量のデータは、より小さなサンプルに固有の偏見を減 適切に使用すると、データマイニングは、そうでなければ実用的ではなく、入手することができない大規模なデータセットに貴重な洞察を提供します。

クリストファー-クリフトン

Leave a Reply