viernes, 18 de septiembre de 2009

Datos anónimos... o no tanto

Este era el título de un post del famoso Blog de Microsiervos donde se hablaba de un estudio efectuado por una experta en estadística que fue capaz de identificar al 87% de una muestra de datos anónimos únicamente por su código postal, fecha de nacimiento y sexo.


Una de las principales ventajas de aplicar la minería de datos frente a la estadística (recordemos que si la madre de la minería de datos es el aprendizaje automático y la computación, el padre sería la estadística) es que permite trabajar con una cantidad mucho mayor de variables y obtener inferencias difíciles de obtener con procesos estadísticos clásicos.


El eterno problema de la "anonimización" surge por tanto de la poca seguridad que se tiene de que datos aparentemente anónimos puedan servir para reconstruir con un índice de confianza bastante elevado los datos de la persona que hay detrás.


Por ejemplo, un acceso aparentemente "anónimo" desde un medio electrónico, por ejemplo, una visita a cualquier página Web, puede no serlo tanto si el receptor de las peticiones, es decir, la página Web a la que se accede, tiene un sistema de rastreo básico como el proporcionado por cualquier servidor de alojamientos, por trackers como Google Analytics, o más aún por trackers hechos a medida.


Todos estos trackers obtienen como mínimo los siguientes datos: fecha/hora de acceso, tiempo de permanencia, página visitada e IP que efectuó la petición. ¿Son suficientes estos datos para "desanonimizar" una petición "anónima"? Pues depende... ¿qué opinan los lectores?


En otro post hablamos de Tareas en Data Mining y en otro post hablaremos de Métodos en Data Mining, completando de este modo la perspectiva general aplicable en esta disciplina y dándole una base suficiente para otra serie de artículos en otra disciplina hermana, el Use Mining, capaz de obtener patrones de acceso y de uso de los usuarios, y que permitirá al lector tener más claro hasta qué punto es factible esta "desanonimización" de manera más o menos sencilla... o no.

No hay comentarios:

Publicar un comentario