1. PLANTEAMIENTO DEL PROBLEMA
4.4.2 Tecnicas de Mineria de Datos
El objetivo de analizar datos mediante mineria de datos es extraer conocimiento, el cual puede ser en forma de relaciones, patrones o reglas de inferidas de los datos y y previamente desconocidos, o bien en forma de una descripcion más concisa. Estas relaciones o resumenes constituyen el modelo de los datos analizados.
Dado que el modelo a desarrollar es un modelo descrptivo, para realizar la tarea de agrupamiento de datos espaciales se hace uso de los algoritmos K-means y DBscan.
0 50 100 150 200 250 MARLY CHAPINERO CENTRAL PORCIUNCULA QUINTA CAMACHO CHICO NORTE SUCRE PARDO RUBIO LAGO GAITAN EL RETIRO CHAPINERO NORTE
Modelos.
De acuerdo con la definición del tipo de modelo página (26) la figura 22, identifica las fases de desarrollo del modelo de caracterización de los delitos contra el patrimonio que afectan a la ciudad de Bogotá.
Figura 22. Modelo Caracterización del Delito Elaboración: Propia
El modelo a desarrolar debe ubicar los sectores donde hay una cocentración mayor de hechos delictivos y caracterizar el delito de acuerdo con las siguientes variables:
¿ Cuál es la Ubicación del delito ? ¿ Cuál es la modalidad mas frecuente ? ¿ Qué armas son las mas utilizadas?
¿ Cuál día de la semana se presentan mas hechos delictivos?
¿Cuál es el rango horario en el que se presentan mas hechos delictivos? ¿Cuál es el mes de mayor ocurrencia de delitos?
Con la información almacenada en una base de datos en postgresql (sistema administrador de bases de datos), y utizando Quantum GIS (sistema de información geográfica) como herramienta para visualizar los datos, se procede a realizar el proceso de minería de datos.
La figura 23, se aprecia la localidad de chapinero; los puntos representan los delitos contra el patrimonio.
Figura 23. Delitos contra patrimonio Localidad de Chapinero. Elaboración Propia.
En el proceso de mineria de datos se aplican los algoritmos: K-means y DBScan.
Algoritmo K-means, Básicamente, es un algoritmo de aprendizaje no supervisado con varias aplicaciones de análisis de datos, ampliamente utilizado para la minería de datos y fines de aprendizaje de máquina, Su complejidad computaciona es de orden polinomial, El objetivo principal es particionar datos en K clusters (para un K dado).
Para aplicar el algoritmo se debe ingresar como parametro de entrada la cantidad de particiones (K). Para efectos de este proyecto se tiene en cuenta que la mayoria de delitos, son cometidos en el area urbana de la localidad figura 23, la cual se encuentra ubicada, entre las calles 39 y 100 y entre la carrera 14 con la diagonal 3 y tiene una extensión de 1.234.71 ha. Para calcular la cantidad de particiones, se experimenta con K igual a: 3, 8 y 5 particiones, buscando proporción entre la cantidad de particiones y cantidad de objetos por patición, figura 24.
Primer Modelo, K = 3 Segundo Modelo, K = 8
Tercer Modelo, K = 5
Figura 24. Algoritmo K-meas Elaboración: Propia
Las estrellas negras en cada modelo representan los centroides calculados por el algoritmo, cada una de las particiones se representa mediante un color, el valor entre paréntesis, hace referencia a la cantidad de objetos agrupados en cada partición o clúster. (Para un mejor detalle consultar anexo B)
Al analizar el comportamiento del algoritmo k-means en los tres modelos, se observa que se intersectan en la zona donde se agrupa la mayor cantidad de puntos por partición: en el primer modelo el grupo conformado por los puntos amarillos (grupo 0), es la de mayor cantidad de puntos, y se ubicada entre las calle 38 y calle 70, en el segundo modelo el grupo conformado por los puntos de color verde (grupo 2), esta ubicado la calles 40 y 65 y en el tercer modelo el grupo conformado por los puntos de color azul (grupo 0), esta ubicado entre las calles 38 y 55.
Los tres modelos se intersectan entre las calles 38 y 55, para hacer una aproximación exacta del sector donde ocurren mas delitos, se toma como muestra para aplicar una segunda iteración del algoritmo, el grupo correspondiente al tercer modelo, por coincidir exactamente con la intersección de los tres modelos.
Para la segunda iteración se experimenta con K igual a: 7 y 5, figura 25.
Cuarto Modelo K = 7 Quinto modelo Modelo K = 5
Figura 25. Algoritmos K-means Seguda Iteración
Al analizar el comportamiento del algoritmo en la segunda iteración figura 25. Se observa que en el cuarto modelo, el grupo conformado por los puntos de color verde (grupo 4), se intersecta con los puntos de color morado (grupo 0) del quinto modelo, esta intersección esta ubicada entre las calles 50 y 55. Luego de esta iteración se quiere tener una referencia mas exacta sobre la ubicación del delito en el sector. Se realiza una tercera iteración del algoritmo, tomando como muestra, el grupo conformado por los puntos morados (GRUPO 0) del quinto modelo, ya que agrupa la mayor cantidad de puntos (170), entre los grupos que conforman los dos modelos.
Para esta tercera iteración del algoritmo se experimenta K igual a 5, figura 26. Modelo Final, K= 5
Figura 26. Algoritmo K-means Tercera Iteración
En la tercera iteración, de los cinco grupos generados al aplicar el algoritmo, el grupo conformado por los puntos de color fucsia (grupo 1) es el que contiene más puntos (63), y se encuentra ubicado entre las calles 52 y 54, pero la mayor cantidad de puntos están ubicados entre las calles 52 a 53 y entre las carreras 14 y 10 Figura 27.
Igualmente se puede observar que alrededor de ese sector se encuentran tres puesto de policía (circulo azul): Estos puestos están distanciados con respecto al centroide de cada grupo, del siguiente modo: El CAI de Chapinero está ubicado a 640 metros lineales, la estación de Policía de Chapinero está ubicada a 810 metros lineales y el CAI Borde de Choachi se encuentra ubicado a 820 metro lineales.
BSCAN: Hace referencia a “Density based spatial clustering of applications with noise”, es un algoritmo que agrupa los registros por clústeres teniendo en cuenta los elementos ruido y modelando la densidad de puntos. El algoritmo DBSCAN requiere dos parámetros de entrada ε, Minpts; el primero define la distancia máxima entre dos elementos para considerarlos vecinos, y el segundo define el mínimo número de elementos que deben ser vecinos para formar un clúster . El algoritmo comienza por un punto arbitrario que no haya sido visitado. La e-vecindad de este punto es visitada, y si contiene suficientes puntos, se inicia un clúster sobre el mismo. De lo contrario, el punto es etiquetado como ruido. Si un punto se incluye en la parte densa de un clúster, su e-vecindad también forma parte del clúster. Así, todos los puntos de dicha vecindad se añaden al clúster, al igual que las e-vecindad de estos puntos que sean lo suficientemente densas. Este proceso continúa hasta construir completamente un clúster densamente conectado. Entonces, un nuevo punto no visitado se visita y procesa con el objetivo de descubrir otro clúster o ruido. Puede encontrar clusters de formas arbitrarias, es robusto al ruido, tiene una complejidad computacional de O(n log n).
Para aplicar el algoritmo, se estima como parametros de entrade para
ε: 100, 200 y 300
metros y como cantidad para
Minpts 40, estos valores se estiman despues de experimentarcon diferentes valores y observar el compotamiento del algoritmo; si el parametro
ε
es muy gradelos objetos pueden quedar agrupados en un solo grupo, igualmente debido al tamaño de la muestras si el parametro Minpts es muy pequeño, esto puede generar un numero grande cluster. Se aplicaron pruebas, combinando aleatoriamente la distancia entre puntos y la cantidad minima de puntos por grupo, con los siguientes pares de valores se obtiene mejores resultados: (
ε
= 100 m ,comportamiento presento fue el par (
ε
= 200, Minpts, = 40), por ser el modelo que menor cantidad de puntos marca como ruido.El algoritmo DBScan, tiene un comportamiento diferente, ya que puede encontrar clusters con formas geométricas arbitrarias. Puede incluso hallar un cluster completamente rodeado (pero no conectado) de otro cluster distinto. en el momento de construir los grupos
En el primer modelo genera cinco grupos con un total de 197 objetos agrupados entre los diferentes grupos y marca como ruido a 1.903 puntos; en el segudo modelo construye un grupo con 310 puntos y marca como ruido a 1.791 puntos, y en el tercer modelo genera cuatro grupos con un total 1.431 puntos agrupados entre los diferentes grupos y marca como ruido 669 puntos.
Como se puede observar el tercer modelo es donde menos puntos marca como ruido, el grupo conformado por los puntos verdes (grupo es el que contiene mayor cantidad de puntos (872), teniendo en cuenta los grupos que conforman cada modelo.
Como lo que se pretende es encontrar el sector con mayor densidad de puntos, a nivel de la localidad, se hace una segunda iteración; para esta iteración se toma como muestra, el grupo que conforman los puntos de color verde (grupo 1) del tercer modelo figura 28.
Primer Modelo,
ε = 100
, Minpts 40 Segundo Modelo,ε = 300
, Minpts 40Tercer Modelo,
ε = 200
, Minpts 40Para aplicar la segunda iteración, se toma como parametros de entrada: (
ε = 100 m
, Minpts 10)y (
ε = 100
, Minpts 20), figura 24, al observar los resultados de esta segunda iteración. En elcuarto modelo, el grupo compuesto por puntos verdes (grupo 7), ubicado entrelas calles 43 y 47, queda incluido dentro del grupo conformado por los puntos morados (grupo 0), ubicado entre las calles 38 y 54 del tercer modelo.
Para poder establecer el sector con mayor densidad de puntos en la zona de estudio, se aplica una tercera iteración del algoritmo, tomando como muestra el grupo 0 del tercer modelo, por ser el mayor cantidad de puntos (530) que tiene agrupados.
Tercer Modelo,
ε = 100
, Minpts 10 Cuarto Modelo,ε = 100
, Minpts 20Figura 29. Algoritmo DBSCAN Segunda Iteración
Para aplicar la tercera iteración del algoritmo, se define como parametros de entrada : (ε = 50 m, Minpts 10) figura 29. Como resultado de la tercera iteración se obtienen cinco grupos, de los cuales el grupo compuesto de puntos verdes (grupo 0) y el grupo compuesto de puntos azules
(grupo 3), contienen la mayor cantidad de puntos (34 c/u), con respecto a los demás grupos, igualmente marca 395 puntos como ruido.
Quinto Modelo,
ε = 50
, Minpts 10Figura 30. Algoritmo DBSCAN Tercera Iteración Elaboración Propia
El grupo 3 se ubica entre las calles 44 y 45 y entre la avenida caracas y la carrera 13, y el grupo 0 se ubica entre las calles 44 y 45 y entre la carrera 8 y carrera 6, figura 30. Llama la atención que los dos grupos se ubican practicamente sobre la misma calle y separdos por escazas dos cuadras, En cuanto a estaciones de policia, circulo azul en la figura 31, los puestos de policia mas cercanos mas cercanos son: la estación de policia de teusaquillo a 543 metros lineales del grupo cero (0) y a 531 metros lineales del grupo tres (3); el CAI Borde de Choachi esta ubicado a 950 metros lineles del grupo cero (0) y a 700 metros lineales del grupo tres (3).
Presentación de resultados
Una vez realizado el proceso de minería de datos para la caracterización del delito, se detalla a continuación los resultados obtenidos:
Figura 32A Figura 32B
Figura 32. Resultados Obtenidos K-means y DBScan
¿Cuál es la Ubicación del delito? Al unir los resultados de los modelos desarrollados con los dos algoritmos se pueden establecer, tres focos o grupos delictivos:
El primer punto se obtiene al aplicar el algoritmo DBSCAN y comprende el sector entre la calle cuarenta y tres y la calle cuarenta y cinco y entre la carrera sexta y carrera octava, la estación de policía más cercana es la Estación de Teusaquillo ubicada a 480 metros lineales.
El segundo punto se obtiene al aplicar el Algoritmo DBSCAN y comprende el sector entre la calle cuarenta y tres y la calle cuarenta y cinco y entre la carrera trece y la avenida caracas, la estación de policía más cercana es la Estación de Teusaquillo ubicada a 535 metros lineales.
El tercer punto se obtiene al aplicar el algoritmo K-MEANS y comprende el sector entre la calle cincuenta y dos y la calle cincuenta y cinco y entre la carrera novena y la avenida caracas, la estación de policía más cercana es la Estación de Chapinero ubicada a 607 metros lineales, figura 32A.
En este sector se encuentran ubicados sitios como: centros educativos, clínicas, hospitales, hoteles, supermercados, entidades financieras, la Alcaldía de Chapinero, entre otros, lo cual conlleva a una alta afluencia de personas, figura 32B.
A continuación, se caracteriza el delito, de acuerdo con variables como: la modalidad, el uso o empleo de armas, el rango horario, los días de la semana y los meses del período objeto de estudio y se cruzan con el análisis realizado a la información de los delitos antes de aplicar los respectivos algoritmos (página 54).
K-means DBScan
Figura 33. Comparativo Delitos Por Modalidad
¿Cuál es la modalidad más frecuente? De acuerdo con la modalidad del delito en el comparativo de los resultados obtenidos figura 33, luego de aplicar los algoritmos K-means y DBScan, la modalidad de atraco es la constante en los tres escenarios. En el sector comprendido entre las calles 44 y 45 y entre la avenida caracas y la carrera 13 (grupo 3) el cosquilleo es la modalidad más frecuente. 0 5 10 15 20 25 30 35
Delitos por modalidad K-means 0 2 4 6 8 10 12 14 16 18
Delitos por modalidad Grupo 0 DBscan 0 2 4 6 8 10 12 14 16 18
Delitos por modalidad Grupo 3 DBscan
Figura 34 Comparativo Tipo Arma Utilizada
Elaboración Propia
¿Qué armas son las más utilizadas? En relación del tipo de arma utilizada, el uso de armas blancas para cometer el delito, es el arma más utilizada en los tres sectores.
0 5 10 15 20 25 30 35 40
Tipo de arma utilizada K-means 0 5 10 15 20 25 OTRAS ARMA DE FUEGO ARMA BLANCA SIN EMPLEO DE ARMAS
Tipo de arma utilizada Grupo 0 DBscan 0 5 10 15 20 25
Tipo de arma utilizada Grupo 3 DBscan
Figura 35. Comparativo Delitos por Rango de Hora
¿Cuál es el rango horario en el que se presentan más hechos delictivos? En lo referente al rango horario para K-means y el grupo 3 de DBScan, la tendencia de los hechos delictivos es el horario entre las 10 am., y las 3 pm. Estos dos sectores están ubicados entre la carrera 13 y la avenida caracas y entre las calles 44 y 55, están separados por más o menos cuatro cuadras.
0 2 4 6 8 10 12 14 16 01 - 03 04 - 06 22 - 00 07 - 09 16 - 18 19 - 21 10 - 12 13 - 15
Delitos por Hora K-means 0 2 4 6 8 10 12 04 - 06 01 - 03 07 - 09 22 - 00 10 - 12 16 - 18 19 - 21 13 - 15
Delitos por rango de hora Grupo 0 DBscan 0 2 4 6 8 10 04 - 06 22 - 00 07 - 09 19 - 21 16 - 18 13 - 15 10 - 12 Delitos por rango de hora
Figura 36. Comparativo de Delitos por Día
¿Cuál día de la semana se presentan más hechos delictivos? Los días donde se presentan más hechos delictivos, son los jueves y martes para el grupo 3 de DBScan y el grupo de K-means, coincidiendo los jueves con el grupo 0 de DBScan.
0 5 10 15 20
Delitos por día K-means 0 2 4 6 8 10
Delitos por día Grupo 0 DBscan 0 2 4 6 8 10 12
14 Delitos por día
Figura 37. Comparativo de Delitos por Mes del Año
¿Cuál es el mes de mayor ocurrencia de delitos? En cuanto a los meses en los cuales se presentan más delitos, el grupo 0 y el grupo 3 generados por el algoritmo DBscan coinciden en el mes de marzo, mientras que para K-means el mes de mayo la actividad delictiva fue el mes de septiembre.
Como se puede observar al unir los resultados, muchos de los delitos ocurren en sectores de alta afluencia de público, las estaciones de policía están ubicadas a una distancia mayor de 400 metros lineales a cada uno puntos delictivos, causando demoras en la atención de una emergencia y falta de presencia en las zonas más peligrosas, permitiendo así que el accionar delictivo siga tranquilamente. 0 2 4 6 8 10 12
Delitos por mes K-means 0 2 4 6 8
Delitos por mes Grupo 0 DBscan 0 2 4 6 8 10
Delitos por mes Grupo 3
Con estos resultados y dada su interpretación y la relevancia de los modelos obtenidos, se establecen los siguientes criterios: Los sectores de la localidad donde se presenta la mayor cantidad de hecho delictivos, son sectores de alta afluencia publica y escaza presencia de la Policía, esto los convierte en campo de acción para el hurto a personas. Igualmente, entre más alejado de una estación de Policía se encuentre el delincuente, es más fácil efectuar el hurto. La ubicación de las estaciones de policía deja muchas zonas alejadas y sin presencia Policial. Los lugares cercanos a centros educativos, supermercados y clínicas son también zonas para el actuar delictivo, estos son puntos con gran afluencia de personas y en los alrededores los delincuentes están atentos para actuar. Una zona a más de 400 metros lineales de una estación de Policía, ya es un punto en donde fácilmente el delincuente puede actuar, los delincuentes prefieren actuar entre las diez de la mañana y tres de la tarde, los días más en los que se presentan más hechos delictivos son los jueves y martes, la modalidad más frecuente es el cosquilleó y debido a esta situación en la mayoría de los hechos no hay uso de armas.
Cada uno de los mapas delictivos contribuyó para poder establecer estos criterios, la unión de estos factores permite conocer y caracterizar el hurto a personas en la localidad de Chapinero, además establecer posibles zonas de riesgo con características similares a las encontradas mediante la minería de datos espaciales.
Discusión de Resultados.
En esta sección se discuten los siguientes elementos:
¿Qué se aprendió? Organizar y administrar la información espacial, en bases de datos espaciales de acuerdo con sus características (representación, relaciones y operaciones).
Igualmente, en estas bases de datos se puede realizar el proceso de preparar y transformar el conjunto de datos de entrada, para posteriormente aplicar las técnicas de minería de datos.
La minería de datos y la minería de datos espaciales son técnicas que hacen parte del proceso de descubrir conocimiento oculto en bases de datos (Knowledge Discovery in Data bases, KDD), mediante algoritmos que exploran los datos y descubren patrones significativos. Estos algoritmos de clasifican de acuerdo con la tarea de minería de datos a realizar (descriptiva o preventiva).
Los algoritmos de agrupamiento k_menas y DBscan, operan de una forma diferente mientras en K-means se especifica la cantidad de grupos o particiones a obtener y calcula aleatoriamente la distancia entre los objetos de cada grupo, en DBscan se debe especificar un radio de distancia entre los objetos y la cantidad mínima de objetos por cada grupo. Allí se comprendió la utilidad de los algoritmos de agrupamiento y la funcionalidad y aporte para este estudio, ya que permiten precisamente analizar espacialmente elementos aleatorios sin un patrón en común.
¿Cuál es la validez del modelo de caracterización? Caracterizar información referente a los delitos al patrimonio afectan la localidad de Chapinero de la ciudad de Bogotá, generando descripciones de la tendencia delictiva y este conocimiento puede ser utilizado por autoridades, empresarios y comunidad en general.
¿Qué implicaciones tienen los resultados obtenidos? El aporte específico es la implementación de técnicas de minería de datos espaciales en la caracterización del delito. Obtener resultados que no son un índice, un porcentaje, un valor o un número resultado de un proceso estadístico; sino un resultado que implica visualización del componente espacial a través de mapas. esto es un aporte tanto para este estudio como para estudios similares futuros.
¿Cuáles son las ventajas y limitaciones de este proyecto? Una de las principales limitaciones fue el acceso a los datos de los delitos al patrimonio. La Policía Metropolitana de Bogotá tiene una gran cantidad de información de todos los delitos denunciados, pero desafortunadamente no son de acceso público y a pesar que se logró una entrevista con personal de la institución, no fue posible tener acceso a esta información, así su uso fuera para fines académicos o investigativos. Así que finalmente se trabajó con los datos obtenidos por otras fuentes.
En cuanto a ventajas el uso del componente espacial, permite obtener resultados que facilitan su interpretación, análisis y son soporte para la toma de decisiones.