1. PLANTEAMIENTO DEL PROBLEMA
2.3.2 Minería de Datos Espaciales
La identificación de patrones comunes, asociaciones, reglas generales y nuevo conocimiento es una actividad investigativa de gran interés, a este proceso se le denomina también descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Data bases, KDD).
La minería de datos y la minería de datos espaciales son el núcleo matemático del proceso KDD son técnicas que hacen parte de este proceso, que comprende los algoritmos que exploran los datos, desarrollan modelos matemáticos y descubren patrones significativos (implícita o explícita), los cuales son la esencia del conocimiento útil (Rokach & Maimon, 2010). Se les denomina patrones a las relaciones que existen entre los elementos de los datos analizados. Los patrones son de interés, si son confiables, novedosos y útiles respecto al conocimiento que generan y el acoplamiento con los objetivos del análisis.
La minería de datos se define como “La técnica de extraer conocimiento útil y comprensible, previamente desconocido desde grandes cantidades de datos almacenados en distintos formatos. Es decir, la tarea fundamental de la minería de datos es encontrar modelos inteligibles a partir de los datos” (Witten, Frank, Hall, & Pal, 2016). Técnicamente, la minería de datos es el proceso de encontrar correlación o patrones entre la información almacenada en bases de datos relacionales.
El crecimiento de los datos espaciales y el uso generalizado de las bases de datos espaciales requieren de procesos automáticos que identifiquen patrones válidos. La minería de datos espaciales es la técnica de encontrar a través de diferentes métodos y herramientas patrones interesantes y previamente desconocidos, pero potencialmente útiles en bases de datos espaciales; este tipo de bases de datos no almacenan explícitamente patrones o reglas que determinan las relaciones espaciales entre los objetos y algunas características no espaciales (Shekhar, Wu, Ozesmi, & Chawla , 2001). La complejidad de los datos espaciales y las relaciones espaciales intrínsecas limita la utilidad de las técnicas convencionales de minería de datos.
Inicialmente se podría pensar que la minería de datos espacial comparte los mismos métodos utilizados en la minería de datos tradicional, sin embargo, debido a la complejidad de los datos espaciales, ya que los objetos espaciales están compuestos no sólo de atributos generales representados en forma numérica o de texto, sino también de atributos espaciales, tales como su geometría e información topológica
Aunque las técnicas y algoritmos de la minería de datos tradicional y espacial son similares, hay que recalcar que los últimos deben manejar características especiales debido a la complejidad de los datos (Yang, , Bai, & Gong,, 2008), las técnicas que se utilizan deben ser en completa concordancia con el problema a tratar; el enfoque tradicional difiere al enfoque espacial, por factores como: i) el hecho que la primera asume características como la independencia existente en la distribución de los datos, que viola la primera ley de la geografía enunciada por Tobler W. R (1970) (Rengert & Lockwood, 2009) todo se encuentra relacionado con todo lo demás, pero los objetos cercanos se encuentran mayormente relacionados que los objetos distantes), (ii) los tipos de datos complejos y (iii) la existencia de correlación entre características espaciales . Igualmente se debe tratar con información que ha sido almacenada cronológicamente en periodos de tiempos
constantes, o bien, presenta información que puede ser considerada como una secuencia de eventos, como por ejemplo la ocurrencia de un delito en un determinado rango de horas o días de la semana.
Un proceso de minería de datos espaciales es semejante al proceso de minería de datos tradicional figura 6.
Figura 6. Proceso de minería de datos.
Fuente: Tomado de (Olmos Pineda & González Bernal, 2007)
Un proceso típico de minería de datos consta de los siguientes pasos generales (Hernández, Ramírez , & Ferri, 2007):
Selección del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el cálculo o proceso), como posiblemente al muestreo de los registros disponibles.
Preparación de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).
Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema, a este paso también se le conoce como pre procesamiento de los datos.
Seleccionar y aplicar la técnica de minería de datos, se construye el modelo descriptivo o predictivo, de clasificación o segmentación.
Extracción de conocimiento, mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un pre procesado diferente de los datos.
Interpretación y evaluación de patrones, una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.