Data Mining en GIS, también denominado Spatial Data Mining, consiste en el conjunto de tareas y métodos de Data Mining aplicados a la extracción de información de datos espaciales.
En el anterior enlace se trata de las tareas de Data Mining a nivel general, pero que pueden ser aplicadas a datos espaciales ya que la única diferencia es que esta última contiene una o más característica con información geográfica, aunque eso sí, deberán ser aplicadas teniendo en consideración algunas cosas respecto a las mismas.
En este artículo vamos a ver una breve introducción a las técnicas de Data Mining que se pueden aplicar en GIS para ver las posibilidades que nos brinda la unión de estas dos disciplinas.
Una base de datos espacial es una base de datos que contiene información sobre un espacio determinado, por lo que una característica diferenciadora es la dimensión espacio, bien se represente este en dos dimensiones (pe. un mapa urbano o un circuito electrónico), en tres dimensiones (pe. una ciudad en 3D o una galaxia), o en cuatro (pe. una representación 3D animada en el tiempo).
Una de las tareas más potentes que suelen incluir los GIS son los mapas temáticos que permiten visualizar de manera gráfica sobre el territorio (el mapa) una consulta que incluya información de cualquier tipo y que sea representable sobre él (pe. una coloración de la divisón por distritos de escolarización según el número de niños de 3 años a escolarizar el próximo curso).
Este análisis geográfico requiere del conocimiento de un experto para constuir el temático, y de otro experto para extraer el conocimiento adecuado. El Data Mining permite (al menos debe permitir) extraer de manera automática conocimiento válido, novedoso, útil y comprensible.
De las tareas de Data Mining descritas en el artículo referenciado, a continuación se explica la aplicación de alguna de ellas y sus particularidades:
- Clasificación y regresión: Una de las características que suelen tener los objetos de un sistema espacial es que suelen estar afectados por las propiedades de los objetos cercanos en distancia. La clasificación en los sistemas espaciales se suele orientar a la clasificación de un objeto en una determinada categoría en función de propiedades de los objetos vecinos. Así pues, por ejemplo un método de Data Mining como los árboles de decisión aplicados a la tarea de Clasificación pueden resultar en ramas del tipo "Si Tráfico en Ciudad=Alto entonces Ciudad Ruidosa = Sí"
- Reglas de asociación: Generalmente se utilizan para obtener pautas de comportamiento comunes, y en el caso de los GIS se pueden utilizar para encontrar relaciones entre objetos en función de relaciones topológicas (intersecta o se solapa) o informativas (está cerca o lejos) en modo de reglas del estilo "Si el objeto es un país y está cerca del Caribe Entonces es turístico con una cobertura y una confianza determinada"
- Clustering: Consiste en agrupar objetos lo más homogéneos entre sí según determinadas características, y formando grupos lo más heterogéneos entre sí. Este tipo de tarea es muy útil en geoMarketing y en investigación de mercado (pe. segmentación geográfica de clientes), aunque también en planeamiento (pe. para decidir dónde construir un colegio según la cantidad de niños a escolarizar con todas las características que sirven para la asignación de puntos)
Es cierto que la literatura en este sentido, así como las empresas dedicadas a la aplicación de Data Mining en GIS, es bastante escasa, lo que da que pensar, dado el indudable valor que brindan sus posibilidades, que es un área poco explorada por ser poco conocida, al menos en España, por lo que se anima a los lectores interesados a ampliar información y a compartirla con todos nosotros.
Hola;
ResponderEliminarsoy Francisco Ortega Morales, bloguer de:
http://geomarketingspain.blogspot.com
Encuentro muy interesante tu post sobre data mining aplicado a datos espaciales... una pregunta ¿qué software es el del pantallazo que aparece en la entrada?
Hola Francisco,
ResponderEliminarGracias por tu comentario y por tu referencia, seguiremos tu blog porque es un tema que nos interesa y en el cuál efectuamos una investigación activa, y aunque se escucha mucho sobre el tema, poco tiene realmente interés o relevancia.
Si te gustan los temas espaciales, te recomiendo nuestro blog especializado en ellos:
http://corexworld.blogspot.com
En cuanto al software del pantallazo es "VIS-STAMP", que permite efectuar análisis estadísticos avanzados con datos geoespaciales. Es interesante usarlo conjuntamente con "SOMVis", que no deja de ser un paquete para trabajar Self Organizing Maps, o mapas de Kohonen, pero que además permite la sencilla visualización geográfica cuando los datos así lo permiten.
Aquí te dejo un enlace a la página Web de dónde extraje la imagen, y de dónde se puede descargar el software:
http://www.spatialdatamining.org/software.htm
Un saludo