Minería de patrones
Preocupaciones de privacidad y direcciones futuras
El potencial de invasión de la privacidad mediante la minería de datos ha sido una preocupación para muchas personas. Las bases de datos comerciales pueden contener registros detallados de la historia clínica de las personas, las transacciones de compra y el uso del teléfono, entre otros aspectos de sus vidas. Los libertarios civiles consideran que algunas bases de datos de empresas y gobiernos son una intrusión injustificada y una invitación al abuso. Por ejemplo, la Unión Americana de Libertades Civiles demandó a los Estados Unidos. La Agencia de Seguridad Nacional (NSA) alega espionaje sin orden judicial a ciudadanos estadounidenses a través de la adquisición de registros de llamadas de algunas compañías de telecomunicaciones estadounidenses. El programa, que comenzó en 2001, no fue descubierto por el público hasta 2006, cuando la información comenzó a filtrarse. A menudo, el riesgo no proviene de la extracción de datos en sí (que por lo general tiene como objetivo producir conocimientos generales en lugar de aprender información sobre cuestiones específicas), sino del uso indebido o la divulgación inadecuada de información en estas bases de datos.
En los Estados Unidos, muchas agencias federales ahora deben producir informes anuales que aborden específicamente las implicaciones de privacidad de sus proyectos de minería de datos. La ley de los Estados Unidos que requiere informes de privacidad de las agencias federales define la minería de datos de manera muy restrictiva como “analyses análisis para descubrir o localizar un patrón predictivo o anomalía indicativo de actividad terrorista o criminal por parte de cualquier individuo o individuos.”A medida que varias agencias de aplicación de la ley locales, nacionales e internacionales han comenzado a compartir o integrar sus bases de datos, el potencial de abuso o brechas de seguridad ha obligado a los gobiernos a trabajar con la industria para desarrollar computadoras y redes más seguras. En particular, se han realizado investigaciones sobre técnicas de extracción de datos para preservar la privacidad que funcionan con datos distorsionados, transformados o cifrados para disminuir el riesgo de divulgación de los datos de cualquier persona.
La minería de datos está evolucionando, y un conductor son las competiciones sobre problemas de desafío. Un ejemplo comercial de esto fue el premio de Netflix de 1 1 millón. Netflix, una compañía estadounidense que ofrece alquileres de películas entregados por correo o transmitidos por Internet, comenzó el concurso en 2006 para ver si alguien podía mejorar en un 10 por ciento su sistema de recomendaciones, un algoritmo para predecir las preferencias de películas de una persona en función de los datos de alquiler anteriores. El premio fue entregado el pasado mes de septiembre. el 21 de diciembre de 2009, a Pragmatic Chaos de BellKor, un equipo de siete matemáticos, informáticos e ingenieros de Estados Unidos, Canadá, Austria e Israel que habían logrado el objetivo del 10 por ciento el 26 de junio de 2009, y finalizaron su victoria con un algoritmo mejorado 30 días después. La competencia abierta de tres años había estimulado muchas innovaciones inteligentes de minería de datos de los concursantes. Por ejemplo, en las Conferencias de 2007 y 2008 sobre Descubrimiento de Conocimientos y Minería de Datos se celebraron talleres sobre el Premio Netflix, en los que se presentaron trabajos de investigación sobre temas que iban desde nuevas técnicas de filtrado colaborativo hasta una factorización de matrices más rápida (un componente clave de muchos sistemas de recomendación). La preocupación por la privacidad de esos datos también ha dado lugar a avances en la comprensión de la privacidad y el anonimato.
La minería de datos no es una panacea, sin embargo, y los resultados deben verse con el mismo cuidado que con cualquier análisis estadístico. Una de las fortalezas de la minería de datos es la capacidad de analizar cantidades de datos que sería poco práctico analizar manualmente, y los patrones encontrados pueden ser complejos y difíciles de entender para los humanos; esta complejidad requiere cuidado al evaluar los patrones. Sin embargo, las técnicas de evaluación estadística pueden dar como resultado un conocimiento libre de sesgos humanos, y la gran cantidad de datos puede reducir los sesgos inherentes a muestras más pequeñas. Si se utiliza correctamente, la minería de datos proporciona información valiosa sobre grandes conjuntos de datos que de otro modo no serían prácticos ni posibles de obtener.
Christopher Clifton
Leave a Reply