Propuesta de un modelo de predicción del Centro de un Hotspot de crimen identificado en la Ciudad de San Francisco, USA

(1)

CRIMEN IDENTIFICADO EN LA CIUDAD DE SAN FRANCISCO, USA.

DIEGO FELIPE MAYORGA GÓMEZ

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS Facultad de ingeniería

(2)

Diego Felipe Mayorga Gómez 20101005017

Director:

Miguel Alberto Melgarejo Rey

Profesor Asociado

Facultad de Ingeniería – Laboratorio de Automática e Inteligencia Computacional

Universidad Distrital Francisco José de Caldas

(3)

Nota de Aceptación: ______________________________ ______________________________ ______________________________ ______________________________

______________________________ Firma del Jurado

(4)

A mis padres, Aravi y Adriana

A mis hermanas, María y Camila,

Y a Juliana,

Por ese apoyo incondicional,

Su alegría y su amor.

(5)

Resumen

Este trabajo presenta una propuesta metodológica para la predicción de un centro de hotspot de crimen de la ciudad de San Francisco en dos contextos particulares utilizando un sistema difuso basado en la estructura ANFIS y sintonizado por un algoritmo memético. Todo esto con la información proveniente de la base de datos de crímenes de la ciudad de San Francisco.

El análisis de crimen ha sido estudiado de manera extensa pero el fenómeno del crimen permanece como una problemática mundial. Por esto, diferentes disciplinas y acercamientos se están uniendo para encontrar una solución al crecimiento de estos sucesos. La presencia de este fenómeno en todas las grandes ciudades del mundo ha impulsado a grandes avances y grandes formas de recopilación de datos para así tener más información con la que se puede llegar a entender mejor el crimen.

Dentro de los nuevos acercamientos se realiza esta propuesta que pretende sumergir la inteligencia computacional en un problema social donde el ser humano es el principal promotor de este fenómeno. Los métodos de inteligencia computacional que fueron utilizados en esta propuesta se basan en los sistemas difusos, las agrupaciones por medio de conjuntos difusos y los algoritmos meméticos. Estos algoritmos memético se usaron como técnicas de optimización para sintonizar el sistema difuso de la predicción.

Para el desarrollo de esta propuesta primero se hizo una recopilación de los datos. Estos fueron agrupados de diferentes maneras para generar series de tiempo que mostraran tendencias diferentes del mismo fenómeno. Por ejemplo, los dos contextos que fueron estudiados en este proyecto fueron, primero, una separación semanal de los sucesos de crimen con una diferencia diaria entre cada separación. Segundo se agruparon los datos mensualmente con una diferencia semana, incorporando así la variable tiempo a los datos y siendo así posible generar series de tiempo.

Para la generación de las series de tiempo se tomaron los datos que fueron separados por ventanas de tiempo y cada ventana de tiempo fue agrupada por medio del algoritmo Fuzzy C- Means (FCM, por sus siglas en inglés). Para mantener la consistencia espacio-temporal de las series de tiempo se creó el Clustering Reorganization Algorithm (CRA, por sus siglas en inglés). Una vez obtenidas las series se realizaron los experimentos para la sintonización de los parámetros de los sistemas difusos. Esto con el fin de realizar una predicción de las series de tiempo construidas

(6)

Agradecimientos

A Dios por darme la fortaleza de continuar durante toda la carrera.

A mi familia por el apoyo incondicional, los días de ayuda para mantener el camino que deseo.

Al profesor Miguel Melgarejo por su dedicación, su guía su apoyo y palabras de aliento durante todo el desarrollo del proyecto.

A la Universidad Distrital por ofrecerme una educación de alta calidad, que me permitió ampliar mi visión y tener un carácter critico frente a la vida.

A Juliana Vidales, por su amor, su apoyo y su constante compañía a través de todo este proceso.

(7)

Resumen………...v

3. Capítulo 3. Algoritmo de Reorganización (CRA)...………...………...11

3.1.Descripción de la Base de Datos……….……….11

3.5.Agrupamiento de ventanas de tiempo con el algoritmo de reorganización……...…..19

3.6.Construcción de las series de Tiempo………..20

(8)

5.2.2.1.Análisis de Resultados de Entrenamiento para Probabilidad de

Cruce………..41

5.2.2.2.Análisis de Resultados de Validación……….………...43

5.2.2.3.Análisis de Resultados de Entrenamiento para Probabilidad de Mutación………44

5.2.2.4.Análisis de Resultados de Validación………46

5.2.2.5.Análisis de Resultados de Entrenamiento del Tamaño de Población………47

5.2.2.6.Análisis de Resultados de Validación………...….49

5.2.3. Análisis de Entrenamiento de Número de Entradas………..50

5.2.3.1.Análisis de validación de experimentos de la variable X………..51

5.2.3.2.Análisis de validación de experimentos de la variable Y………..54

5.2.3.3.Análisis de validación de experimentos de la variable R………..56

5.3.Contexto II……….………..58

5.3.1. Comparación de Número de Reglas………...………...58

5.3.1.1.Análisis de Resultados de Entrenamiento……….………….58

5.3.2. Comparación de Variables del Algoritmo Memético………....60

5.3.2.1.Análisis de Entrenamiento para la Probabilidad de Cruce. …...…61

5.3.2.3.Análisis de Entrenamiento para la Probabilidad de Mutación…...64

5.3.2.5.Análisis de Entrenamiento para el Tamaño de la Población……..67

5.3.3. Análisis de Entrenamiento de Número de Entradas…………..…………70

5.3.3.1.Análisis de validación de experimentos de la variable X………..71

5.3.3.2.Análisis de validación de experimentos de la variable Y………..74

5.3.3.3.Análisis de validación de experimentos de la variable R………..76

5.4.Recopilación y Comparación de Resultados………79

6. Capítulo 6. Conclusiones y Trabajo Futuro…...………...………..81

6.1.Resumen……….………..81

6.2.Aportes Originales……….………..82

6.3.Trabajo Futuro……….………...……….83

7. Referencias...………...84

(9)

Tabla 1. Relación de estadísticos………..…26

Tabla 2. Resultados de prueba preliminar de variación de número de reglas………39

Tabla 3. Resultados de validación de Valor de Cruce………...42

Tabla 4. Resultados de validación de pruebas de probabilidad de mutación……….45

Tabla 5. Resultados de validación de experimento para el tamaño de población………..48

Tabla 6. Parámetros sintonizados del sistema propuesto………...49

Tabla 7 Resultados de variación de Número de Reglas……….58

Tabla 8. Resultados de validación de probabilidad de cruce……….62

Tabla 9. Resultados de validación para experimento de probabilidad de mutación………..65

Tabla 10. Variación del tamaño de población para (a) Variable X, (b) Variable Y (c) Variable R……….68

(10)

Figura 3. Hotspots representados por densidad………..………..………...…7

Figura 4. Análisis Getis-Ord (frec) de hotspots………...….………...7

Figura 5. Estructura de un sistema difuso……….…………...………9

Figura 6. Algoritmo del marco general de trabajo del MA ……….….………...…..10

Figura 7. División de la base de datos por ventanas de 7 días………….………..13

Figura 8. Ventanas de tiempo……….………...…13

Figura 17. Series de tiempo de semanas con un día de diferencia. ………...………21

Figura 17.1 Series de tiempo de semanas con un día de diferencia para 8 agrupaciones………..22

Figura 18. Series de tiempo de días de la semana por año………....22

Figura 19. Series de tiempo de noches de la semana por año………....22

Figura 20. Series de tiempo de horas por año………...…….22

Figura 21. Series de tiempo por semana por mes...………23

Figura 22. Método propuesto………...…………..24

Figura 23. Algoritmo Memético………....…25

Figura 24. Variación de F.O. en función de los diferentes estadísticos………...28

Figura 25. Construcción del meme………29

Figura 33 Función Objetivo de Probabilidad de Cruce para X (a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95………41

Figura 34 Función Objetivo de Probabilidad de Cruce para Y (a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95………42

Figura 35 Función Objetivo de Probabilidad de Cruce para R (a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95………42

Figura 36. Variación de probabilidad de cruce para (a) Variable X, (b) Variable Y y (c) Variable R………..………...44

(11)

Figura 38 Función Objetivo de Probabilidad de Mutación para Y .(a) Valor de Cruce de 0.01 a

0.05 (b) Valor de Cruce de 0.06 a 0.1………...……….45

Figura 39 Función Objetivo de Probabilidad de Mutación para R (a) Valor de Cruce de 0.01 a 0.05 (b) Valor de Cruce de 0.06 a 0.1………45

Figura 40. Variación de probabilidad de mutación para (a) Variable X, (b) Variable Y y (c) Variable R………..………46

Figura 41 Función Objetivo diferentes tamaños de población para X. (a) Tamaño de población entre 10 y 18 (b) Tamaño de población entre 20 y 28………...………..….47

Figura 42 Función Objetivo diferentes tamaños de población para Y (a)Tamaño de población entre 10 y 18 (b) Tamaño de población entre 20 y 28………..48

Figura 43. Función Objetivo diferentes tamaños de población para R. (a) Tamaño de población entre 10 y 18 (b) Tamaño de población entre 20 y 28………...48

Figura 44. Variación del tamaño de población para (a) Variable X, (b) Variable Y y (c) Variable R……….………....49

Figura 45. Histogramas de diferente número de regresores para X………...52

Figura 46. Serie de tiempo de variable X………...52

Figura 47. Diagrama de dispersión Real vs. Predicción………52

Figura 48. Base de reglas para la variable X……….…53

Figura 49. Histogramas de diferente número de regresores para Y………..…....54

Figura 50. Serie de tiempo de variable Y………...54

Figura 51. Diagrama de dispersión Real vs. Predicción………...55

Figura 52. Base de Reglas para la variable Y………....55

Figura 53. Histograma de diferente número de regresores para la variable R………….………..56

Figura 54. Serie de tiempo de variable Y………...56

Figura 55. Diagrama de dispersión Real vs. Predicción………...57

Figura 56 Base de reglas para la variable R………...57

Figura 57 Función Objetivo de Número de Reglas (a) Para X (b) Para Y (c) Para R………...…58

Figura 58 Variación de número de reglas para (a) Variable X, (b) Variable Y y (c) Variable R..59

Figura 59 Función Objetivo de Probabilidad de Cruce para X. .(a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95……….………...…61

Figura 60 Función Objetivo de Probabilidad de Cruce para Y. (a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95………61

Figura 61 Función Objetivo de Probabilidad de Cruce para R. (a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95………..………..62

Figura 62. Variación de probabilidad de cruce para (a) Variable X, (b) Variable Y y (c) Variable R……….63

Figura 63. Función Objetivo de Probabilidad de Mutación para X. (a)Valor de Cruce de 0.01 a 0.05 (b) Valor de Cruce de 0.06 a 0.1………....64

Figura 64. Función Objetivo de Probabilidad de Mutación para Y.(a) Valor de Cruce de 0.01 a 0.05 (b) Valor de Cruce de 0.06 a 0.1……….………...64

Figura 65. Función Objetivo de Probabilidad de Mutación para R. (a) Valor de Cruce de 0.01 a 0.05 (b) Valor de Cruce de 0.06 a 0.1……….………...65

(12)

Figura 69 Función Objetivo diferentes tamaños de población para R. (a)Tamaño de población

entre 10 y 18 (b) Tamaño de población entre 20 y 28………..68

Figura 70. Variación del tamaño de población para (a) Variable X, (b) Variable Y y (c) Variable R……….………....70

Figura 71. Histograma de número de regresores………...……71

Figura 72. Serie de tiempo para Variable X. Real (Azul), Predicción (Roja)……….………72

Figura 73. Diagrama de dispersión de variable X real y predicción………..73

Figura 74. Base de reglas resultante para X………...…73

Figura 75. Histogramas de diferente número de regresores para Y………...74

Figura 76. Serie de tiempo variable Y………...…75

Figura 77. Diagrama de dispersión Real vs Predicción para Y………...………..75

Figura 78. Base reglas para la variable Y………...76

Figura 79. Histogramas de la variable R………....77

Figura 80. Serie de tiempo de variable R………...77

Figura 81. Diagrama de dispersión de la variable R………..78

(13)

Capítulo 1

1.1. Planteamiento del problema

El crimen ha acompañado al ser humano y ha afectado su convivencia en comunidad durante toda la historia. Esta incidencia en la convivencia genera una problemática social, ya sea, por los costos o simplemente la seguridad en una ciudad o una nación. Este fenómeno ha crecido en los últimos tiempos debido al desplazamiento del hombre a las ciudades, y aunque se han tomado medidas de contingencia, la problemática es cada vez de mayor importancia. Según el FBI en el año 2013 se reportó un estimado de 1’163,146 de crímenes violentos y 8’632,512 crímenes de propiedad [1]. Estas estadísticas hacen solo referencia a los incidentes dentro de los Estados Unidos por lo que mundialmente la cifra es aún más alarmante, por ejemplo en Taiwán el volumen de crimen ha incrementado más de 71% en la última década [2].

Los gobiernos han decidido invertir no solo dinero sino también personal y fuerza pública para el estudio, análisis, prevención y toma de decisiones frente a este fenómeno. Aunque el estudio ha sido a fondo, este ha dado lugar a muchas interrogantes que aún hoy siguen siendo inciertas y discutidas como lo son las causas por las cuales se presenta el crimen y el motivo de la práctica tan regular en las ciudades modernas. Acerca de cuáles son las posibles causas del crimen, varios autores han trabajado en el planteamiento de algunas teorías como: 1) La teoría de actividades rutinarias de crimen [3] y 2) la teoría del crimen situacional [4].

Desde estas teorías podemos encontrarnos con el análisis del crimen. Este análisis que tiene como fin mejorar la calidad de vida de las comunidades [5] recolecta, prepara e interpreta información sobre los crímenes como apoyo a la fuerza pública para la prevención del mismo [5]. Este se basa en la teoría de actividades rutinarias y analiza y estudia espacialmente como se distribuyen los delitos en una zona. Agrupando los incidentes de acuerdo con sus características espaciales (distancia entre incidentes [6], [7], densidad regional y tasas de concentración [8]) por medio de métodos de agrupamiento como el FCM, EFCM, [6] GK y el EGK [7]. Algoritmos que por medio de funciones objetivo cuya variable principal es la distancia entre hechos criminales, identifican lo que conocemos como hotspots [5].

(14)

podrían abarcar toda el área de interés. Por tanto deben ser distribuidos de manera eficiente y así colaborar con la disminución en las tasas de crimen. Ya que habrá una mayor posibilidad de la presencia guardián capaz de proteger una víctima potencial si se toma como referencia el/los hotspots identificados.

Al observar el comportamiento espacio temporal de los hotspots es posible encontrar tendencias sobre las zonas de riesgo, lo cual implica que los incidentes de crimen no ocurren al azar. Como se plantea en [10], la ocurrencia del crimen tiende hacia zonas particulares por la interacción entre víctima y victimario y la posibilidad de cometer un crimen. Esto genera tendencias. Encontrar estas tendencias en las zonas donde es más frecuente el crimen y el comportamiento de los hotspots en el transcurso del tiempo facilita la predicción de las zonas de mayor riesgo y por lo tanto colabora a la mejoría en la efectividad de la distribución de los recursos policiales.

En general, las propuestas para modelar el comportamiento de los hotspots han sido de tipo probabilístico [8], [9], [11]. En [8] la toma de decisiones del enrutamiento de patrullas no se basa en una predicción, en vez, se tiene en cuenta solo las zonas de riesgo presentes y no las posibles emergentes, generando una posible zona de riesgo prioritaria errónea en las nuevas rutas. Aunque en [9] se tiene un modelo probabilístico de predicción de acuerdo con las tendencias anteriores de los crímenes, no se tiene en cuenta la incertidumbre de la toma de datos, por ejemplo en la ubicación (longitud y latitud) o la hora exacta en que ocurrió un crimen en particular. Por esto autores como [2], [12] han encontrado que agregar lógica difusa al análisis del crimen puede facilitar el modelamiento. Además, debido al conocimiento lingüístico que tiene la criminalística es posible que utilizando un sistema de inferencia difusa se puedan extraer reglas que soportan la toma de decisiones de la fuerza pública por medio de las tendencias del crimen [2].

Teniendo una visión sistémica del crimen como un fenómeno que emite señales y no solo como una problemática social entonces se pueden analizar e interpretar estas señales. Esto, con el fin de obtener un modelo de la dinámica del crimen, encontrando las propiedades no lineales[13], la incertidumbre y aleatoriedad [12] que presenta. Por lo tanto, en [2] y [12], una técnica de predicción no lineal como el entrenamiento de un sistema difuso por medio de métodos evolutivos podría mostrar mejores resultados en la toma de decisiones de la fuerza pública.

(15)

A parte de esclarecer la importancia en la toma de datos de los delitos en una ciudad como Bogotá, para facilitar el análisis de crimen, podría ser un escalón de apoyo para futuros trabajos enfocados al crimen en Colombia mejorando el bienestar y la seguridad de la ciudadanía colombiana. Desde un punto de vista académico, este trabajo podría dar paso a una nueva perspectiva de la dinámica de los hotspots dando herramientas para profundizar en el comportamiento, trabajo que se podrían llevar a cabo en grupos de investigación, como en la Universidad Distrital Francisco José de Caldas con el grupo de investigación LAMIC (Laboratorio de Automática e Inteligencia Computacional).

1.2. Objetivos.

1.2.1 Objetivo General.

Desarrollar un modelo de predicción de la dinámica espacio-temporal de los centros de uno de los hotspot con coordenadas x, y (longitud, latitud) en la ciudad de San Francisco, USA por medio de un sistema difuso sintonizado con el algoritmo evolutivo memético para el soporte en la toma de decisiones de prevención.

1.2.2 Objetivos Específicos.

 Implementar dos (2) métodos de agrupamiento para identificar los hotspot

semanales presentes en la ciudad de San Francisco.

 Generar secuencias asumiendo diferente número de hotspots en la ciudad de San Francisco para dos (2) casos.

 Entrenar un sistema de inferencia difusa mediante el algoritmo evolutivo memético por cada método de agrupamiento.

1.3. Solución Propuesta.

En este trabajo se presenta una propuesta metodológica que pretende dar una predicción de una serie de tiempo de la posición del centro por semana de uno de los hotspots que son localizados en la ciudad de San Francisco EE.UU. Estos hotspots o agrupamientos son los identificados de acuerdo a los métodos de agrupamiento (extrayendo características estacionales o lineales del tiempo).

(16)

características del crimen. La evolución social, ha sido fundamento para la creación de algoritmos como el algoritmo memético (MA). Aunque debido al NFL no es posible afirmar que este algoritmo sería el mejor para este problema [23], pero sus características son alentadoras debido a sus bases sociales.

1.4. Contenido del Libro.

La propuesta e implementación del método de reconocimiento de la dinámica espaciotemporal y el proceso para la predicción de esta dinámica se presenta en estos seis capítulos. En el segundo capítulo se exponen los conceptos y fundamentos teóricos utilizados para este problema. Este capítulo se divide en cuatro secciones. Como temas principales del segundo capítulo se introduce el análisis de crimen con antecedentes de algunos estudios realizados. Además, se explican los temas de métodos de agrupamiento como el EFCM y el GK. Adicionalmente, se presenta una introducción a sistemas de inferencia difusa y como estos pueden ser sintonizados por medio de la computación evolutiva y por ende de algoritmos meméticos.

En el capítulo tres se explica el acondicionamiento y división temporal de la base de datos. Adicionalmente, se presenta y se explica de manera detallada el algoritmo creado para extraer en variables sencillas la información espaciotemporal del crimen, para este caso el crimen de la ciudad de San Francisco. Finalmente se muestran las series de tiempo generadas por este algoritmo.

En el capítulo cuatro se presenta la metodología de predicción basada en sistemas difusos sintonizados por medio de un algoritmo memético. En este capítulo se explica la integración de la herramienta ANFIS a un algoritmo genético, aprovechando así, los algoritmos de optimización local de ANFIS y la búsqueda poblacional del algoritmo genético. Además, se expone la función objetivo escogida que fue construida de acuerdo a las características requeridas de la predicción a realizar.

(17)

Capítulo 2

Marco de Referencia

En esta sección se presentan los conceptos teóricos concernientes a la pregunta propuesta en el planteamiento del problema. Exponer estos conceptos tiene como finalidad brindar una contextualización del problema y tener una primera visión de una posible respuesta a la pregunta planteada.

Entonces, se abarca temas concernientes al análisis de crimen, métodos de agrupamiento, sistemas de inferencia difusa y computación evolutiva. Siendo estos temas el eje central del proyecto.

2.1.

Análisis de Crimen

(18)

Un cambio en las condiciones sociales requiere una reestructuración a largo plazo de la sociedad, pero la problemática exige una solución inmediata. El análisis espacio-temporal del crimen puede ayudar a atenuar las tasas de delincuencia en una ciudad en un corto plazo, y como se dijo antes, aprovechando los escasos recursos policiales. Principalmente el análisis espacio-temporal toma en cuenta lo que es conocido como hotspots, las regiones de mayor ocurrencia de crimen en una ciudad o un atractor de crimen [14].

2.2. Métodos de Agrupamientos.

Lo anterior muestra la gran importancia que tiene el estudio espacial del crimen (hotspots). Por lo tanto, haciendo una contextualización de cómo se agrupan los sucesos ocurridos en, por ejemplo, una ciudad podemos llegar a encontrarnos con algunos métodos de agrupamiento. Aunque en los últimos 30 años se ha avanzado de manera considerable el mapeo de eventos criminales por medio de sistemas de información geográfica (GIS, por sus siglas en inglés), inconvenientes para identificar los hotspots y la cantidad de estos se siguen presentando debido a la incertidumbre que está relacionada con el número de hotspots y la prioridad que se le debe dar a cada uno [15].

Existen diferentes visiones de la forma y tendencias de los hotpots y los algoritmos para agrupar eventos de crímenes individuales. Por ejemplo, aunque en [6] el tema en cuestión son los incendios en un bosque se puede hacer una analogía hacia el crimen, tomando los hotspots como circunferencias (Figura 1), o en [8] que se muestran como elipsoides y tienen grados de inclinación (Figura 2). Los enfoques anteriores tienen en cuenta que lo que relaciona a cada evento individual es la distancia y se agrupan los eventos en hotspots. La función objetivo (1) debe ser minimizada para ambos algoritmos.

(19)

Figura 3 Hotspots Circulares. Tomado de [5] Figura 4 Hotspots Elipsoidales. Tomado de [6]

Figura 3. Hotspots representados por densidad Figura 4. Análisis Getis-Ord (frec) de hotspots.

Siendo c el número de hotspots, n la cantidad de eventos individuales provenientes de los datos. Los valores de pertenencia de cada evento es u y d la distancia al centro de cada hotspot. Por último, r es el radio de cada hotspot.

La principal ventaja de [6] y [7]es que recursivamente determinan el número de

hotspots óptimos para el espacio en estudio, haciéndolos robustos a la presencia de ruido. Estos algoritmos son mejoras extendidas del FCM [16] y GK los cuales no tenían las ventajas de determinar el número de hotspots sino que este debía ser predeterminado [17] . Esto también ha dado pie para que varios autores den propuestas de mejoras a estos algoritmos [6], [7], [18].

(20)

series de tiempo permiten visualizar la posición en el tiempo y el espació, para nuestro caso teniendo en cuenta el centro del hotspot.

2.3. Sistemas de Inferencia Difusa.

Un sistema de inferencia difusa (FIS, por sus siglas en inglés), es un sistema basado declaraciones Si-Entonces de conocimiento de expertos, o en reglas encontradas por diferentes métodos de reconocimiento de patrones como la computación evolutiva [20][21][22]. Un ejemplo de una regla Si-Entonces sería: Si el precio es alto y el servicio es ineficiente entonces la calidad del establecimiento es malo. Las palabras alto, ineficiente y malo son representadas por funciones de pertenencia que representan las reglas. La combinación de estas reglas construye un sistema difuso.

Un sistema difuso está compuesto por: un fusificador para los datos de entrada, una base de reglas, un motor de inferencia difusa, y un defusificador para los datos de salida. La estructura de este tipo de sistema difuso se encuentra en la figura 5.

(21)

Figura 5. Estructura de un sistema difuso.

2.4. Computación Evolutiva.

La inteligencia computacional ha tomado a la evolución natural como inspiración para la creación de nuevos algoritmos buscando nuevos métodos para problemas complejos donde se busque una optimización global [24]. Estos algoritmos simulan la respuesta de individuos de una población a un ambiente donde el comportamiento más apropiado para el ambiente será el seleccionado para las siguientes generaciones. Este comportamiento no es pasado a generaciones intacto sino que también entra en juego una mutación aleatoria, similar a la reproducción en la naturaleza. La evolución optimiza los comportamientos de la población, donde la población se representa como las posibles soluciones que puede tener el problema [25].

Estas líneas son la línea incluida en la parte superior de la tabla, la línea entre el la cabecera de la tabla y el contenido y la línea debajo de la tabla.

La computación evolutiva se rige por estas reglas. Primero inicializando una población aleatoria que serían las soluciones iniciales. Luego, evaluando el desempeño de cada solución al problema (Individuo de la población) por medio de funciones objetivo que asignan una probabilidad de adaptación. Como paso siguiente, dos soluciones escogidas al azar se recombinan para crear una nueva generación de soluciones que será evaluada en la siguiente iteración. Esta nueva generación puede tener mutaciones, manteniendo una diversidad en la población para favorecer el proceso evolutivo ya que favorece el espacio de búsqueda [22].

(22)

Figura 6. Algoritmo del marco general de trabajo del MA tomado de [29]

(23)

Capítulo 3

Algoritmo de Reorganización (CRA).

En este capítulo se presenta el algoritmo creado para obtener series de tiempo consistentes con la evolución de centros de agrupamientos, considerando que solo la información espacio-temporal de los eventos criminales es conocida. Antes de presentar el algoritmo se muestra como se extrae la información temporal de la base de datos usada de la ciudad de San Francisco.

3.1. Descripción de la Base de Datos.

Se utilizó la base de datos de los incidentes reportados al SFPD (Departamento de Policía de San Francisco) [28] desde el primero de Enero del 2003 hasta el año 2016 como objeto de estudio. Esta base de datos cuenta con incidentes como robo armado, crueldad a niños, crímenes juveniles, entre otros. Para este caso se extrajo la información de los robos de casas debido a la poca incertidumbre de la ubicación de donde ocurrió el crimen.

3.2. Características Extraídas.

(24)

3.3. Organización de la Base de Datos.

Para los diferentes tipos de agrupamiento espacio-temporal se realizó una organización de la base de datos de la siguiente manera:

a. Se creó una ventana de tiempo de siete (7) días de incidentes. La diferencia de tiempo entre cada ventana es de un día.

b. Los datos fueron separados por años y se organizaron por días de la semana, (ej. Lunes, Martes, Miércoles, etc.) teniendo todos los crímenes que sucedieron en cada día durante todo el año. Además de esto los días fueron separado entre noche y mañana. Mañana siendo desde las 7 am a 5 pm y la noche desde las 5:01pm hasta las 6:59 am (Hora en que los ciudadanos de San Francisco salen y llegan del trabajo regularmente). Esto generó una serie de tiempo por año puede dar indicios de la ubicación de los patrones de crimen por día y noche de cada día de la semana en el año.

c. Al tener la división anual se subdividieron los datos en las 24 horas del día. Teniendo así, todos los crímenes de, por ejemplo, las siete (7) de la mañana que ocurrieron en el año. Agrupando está información puede mostrar patrones por horas de la ubicación de patrones dependiendo de la hora.

d. Por último, se crearon ventanas de tiempo con un total de 30 días de incidentes. Para crear la variable temporal se creó una diferencia entre cada ventana de tiempo de 7 días.

(25)

Figura 7. División de la base de datos por ventanas de 7 días

La figura 7 se muestra la forma en que los datos fueron organizados por ventanas de tiempo. Esto se realizó con el fin de mantener una memoria de los datos que fuera evolucionando con el tiempo. Al obtener esta organización de datos existe una correlación entre el pasado y el futuro y representando un sistema con memoria como lo es el crimen. Donde las acciones futuras de un criminal se ven reflejadas en el pasado y las rutinas que él y sus víctimas tienen. [29]

3.4. Algoritmo de Reorganización.

En este problema se realiza un agrupamiento para obtener series de tiempo de grupos, lo cual difiere de métodos reportados en donde se obtienen los grupos de series de tiempo conocidas. Por lo tanto, un problema diferente se configura: Series de tiempo del agrupamiento (TSC, por sus siglas en inglés). En este acercamiento, los grupos se delimitan por el algoritmo FCM. Sin embargo, los agrupamientos se pueden obtener por medio de métodos similares y más refinados, como el algoritmo Gustafson-Kessel o el Gath-Geva entre otros [30]. Ya que la familia de los algoritmos similares al FCM inicializa sus valores de pertenencia aleatoriamente al igual que la ubicación de los centros, un inconveniente de inconsistencia en el orden de los centros de los agrupamientos aparece al observar su evolución temporal.

Figura 8. Ventanas de tiempo.

(26)

Figura 9 Inicialización Aleatoria

Debido a la inicialización aleatoria de los valores de pertenencia de los agrupamientos del FCM no permanecen en la misma zona, el orden de las particiones difusas no se mantiene. Por lo tanto, si un estudio de n agrupamientos se lleva a cabo, se debe tener certeza de que en cada marco de tiempo la identificación de los agrupamientos mantiene el orden inicial de la partición. Considerando que las tendencias espaciotemporales de agrupamientos de crimen mantienen una regularidad debido al comportamiento habitual de la población [29] [31], si por cada ventana de tiempo la ubicación espacial de cada agrupamiento se observa, el agrupamiento resultante en la siguiente ventana se identificará cercano al agrupamiento en la ventana anterior [6]. Esto da una pista hacia la organización del orden de los grupos en las diferentes ventanas de tiempo.

Si las series de tiempo obtenidas del agrupamiento de los registros criminales son útiles para identificar la direccionalidad del crimen, debe haber confianza de que en cada ventana de tiempo los agrupamientos estén en el mismo orden. A través de las ventanas de tiempo el primer grupo de la primera ventana de tiempo debe ser siempre identificado como el primero en las ventanas posteriores. Si solo se utiliza el FCM esto no ocurrirá. Por lo tanto, un algoritmo de reorganización debe ser llevado a cabo. Las distancias entre el i-ésimo grupo encontrado por el FCM en la ventana de tiempo tN y los centros de los

grupos j-ésimos en la ventana de tiempo t0 son evaluados. El algoritmo reorganiza el

orden de los agrupamientos en tN dependiendo de las distancias medidas entre los centros.

En la figura 9 los agrupamientos en la ventana de tiempo 1 son asignado por un cierto orden del FCM pero en la siguiente ventana es posible que la asignación no se de en el mismo orden. Así, el agrupamiento más cercano a A debería ser A1 no C1 al igual que

(27)

3.4.1. Inicialización

El algoritmo propuesto requiere que la base de datos sea dividida en ventanas de tiempo como se describió anteriormente. De esta manera, los agrupamientos identificados se forman consecutivamente de acuerdo con esta división de tiempo. Para la etapa de inicialización el número de agrupamientos debe ser definido a priori, la i-ésima ventana de tiempo en donde están los datos y la guía de centros. La guía de centros determinará el orden en el cual el algoritmo de reorganización va a identificar los agrupamientos encontrados en las siguientes ventanas de tiempo. Sea c= {c1, c2,…, cn} los centros para la

evaluación de agrupamiento del FCM en la primera ventana donde los ci son el orden

i-ésimo de los agrupamientos y la guía de centros para las ventanas de tiempo siguientes.

3.4.2. Iteración.

(28)

Figura 10. Procedure of CRA in iteration

Figura 11. Agrupamientos repetidos

Sea x= {x1, x2,…, xn} la evaluación de agrupamientos en la ventana de tiempo tN,

donde tN, es la ventana de tiempo N-ésima. El dato xj es el j-ésimo orden resultante del

agrupamiento en las siguientes ventanas de tiempo. Como se muestra en la Figura 10, los centros de los agrupamientos son organizados en una matriz de n por 2. Una vez el algoritmo reorganiza el orden, este determina si se asignó varias veces el mismo agrupamiento. El método verifica si algún centro se repite, asegurando que las coordenadas, en este caso x y no se repitan.

(29)

hace falta. Asignando una zona que pertenece a dos grupos (en este caso en particular) a solamente un grupo es lo que puede generar discontinuidades. Esto afecta no solamente el tamaño del agrupamiento sino también la forma y como se ha afirmado anteriormente la continuidad de la serie de tiempo resultante que pertenece al grupo B.

3.4.3. Evaluación de distancia.

Los centros que retorna el FCM están en coordenadas(x, y). El proceso para medir la distancia entre los diferentes agrupamientos en las dos ventanas de tiempo (t1 y tN) es el

Donde dij es la distancia Euclidiana entre el centro ci= {c1, c2,…, cn} del i-ésimo

agrupamiento en la ventana de tiempo t1 y el centro xj= {x1, x2,…, xn} de j-ésimo

agrupamiento en la ventana de tiempo tN. La Figura 12 muestra los vectores de las

distancias medidas para cada uno de los agrupamientos de la ventana t1 a la ventana de

tiempo N. Una vez todas las distancias para todos los agrupamientos son calculadas, el algoritmo procede a determinar la mínima distancia desde el centro i-ésimo ci al centro

j-ésimo xj de la siguiente manera:

ℎ_𝑖 = 𝑚𝑖𝑛(𝑑_𝑖𝑗) (3)

(30)

3.4.4. Descartando el mínimo falso.

Aunque los agrupamientos tienden a ocupar las mismas zonas, en ciertas ventanas de tiempo pueden ser identificados más lejos de su ubicación habitual. Para prevenir que el algoritmo de reorganización confunda estos agrupamientos se asume que el centro j-ésimo más cercano en la ventana de tiempo tN al centro i-ésimo ci en la ventana de tiempo

t1 se le es asignado el orden en el cual el agrupamiento i-ésimo está organizado. La

Figura 13 muestra que dos agrupamientos en la ventana de tiempo tN a los cuales le puede

pertenecer un mínimo de distancia a un mismo centro en la ventana de tiempo t1 (matriz de centro guía).

Dos o más de los nuevos centros encontrados por el FCM en una ventana de tiempo N pueden tener su distancia mínima a solo un centro guía. Si esto ocurre, el centro seleccionado es el de menor distancia al centro guía entre los centros. Los otros centros son descartados para ese centro guía específico y sus distancias son reevaluadas en búsqueda de un nuevo mínimo.

La figura 13 también muestra el criterio de selección del algoritmo, los grupos A y A1 pertenecen al mismo grupo A pero en diferentes ventanas de tiempo y B1 es seleccionado para el grupo B. El algoritmo descarta la distancia entre A y B1 y reevalúa la distancia mínima. De este modo, asigna el orden de los agrupamientos adecuadamente. El proceso se realiza para el número de agrupamientos determinado por el usuario. Si en la reevaluación de las distancias un nuevo mínimo no es encontrado o si alguno de los centros es repetido, entonces el proceso reinicia corriendo una vez más el FCM y reorganizando los nuevos centros obtenidos.

(31)

3.4.5. Asignación

Esta etapa final se realiza una vez la condición en el proceso de iteración se cumple. Los centros y los valores de pertenencia ya tienen asignado el orden correcto, de acuerdo con la identificación de los agrupamientos en la primera ventana de tiempo. Esta etapa simplemente asigna el orden adecuado a las variables de los centros de los agrupamientos al igual que los valores de pertenencia correspondientes a cada evento.

3.5. Agrupamiento de ventanas de tiempo con el algoritmo de

reorganización

Una vez la base de datos ha sido organizada, los datos de las ventanas de tiempo son agrupados de manera secuencial utilizando el algoritmo de reorganización. Por simplicidad visual se muestran en la Figura 14 el agrupamiento de 4 grupos. El convex hull se computa de acuerdo a la partición difusa para identificar posibles patrones de cómo están distribuidos los datos. El polígono que conecta a los centros de los grupos también se muestra en la figura 14. Una muestra de las matrices de partición difusa se encuentra en la figura 15 y su evolución a través de cuatro ventanas de tiempo. Aunque los polígonos del convex hull tienen cambios notorios en su forma y tamaño, se puede observar que las matrices de partición difusa se mantienen relativamente constantes, lo cual soporta la suposición de que los patrones de crimen tienden a ser relativamente estables en la ciudad. También es esperado que las matrices de partición difusa se entiendan como una interpolación de la posibilidad de eventos criminales y que tanto estos pertenecen a los diferentes grupos.

Figura 14. Convex Hull1_{de agrupamientos Figura 15. Matrices de partición difusa}

(32)

Figura 16. Aproximación de agrupamientos a círculos.

Con el fin de obtener parámetros sencillos para la representación de los agrupamientos y que estos puedan ser a su vez representados en series de tiempo se optó por aproximar cada agrupamiento a un círculo. Siendo el agrupamiento un circulo tendremos solo tres parámetros, las coordenadas x y y y el radio del círculo, que caracterizarán el patrón y como es su comportamiento en el tiempo. El centro del círculo es el mismo centro del agrupamiento identificado y ordenado por el algoritmo de reorganización. El radio, es calculado como la distancia desde el centro hasta el evento criminal más lejano que pertenece al agrupamiento. En la figura 16 se muestra como estos agrupamientos son aproximados.

3.6. Construcción de las series de tiempo.

Para el análisis espaciotemporal del crimen se construyen series de tiempo. Esta construcción es de acuerdo a las diferentes organizaciones que se le dieron a la base de datos explicadas en la sección 3.3. Resultado de los diferentes tipos de agrupamientos que se desean. Esto, da la posibilidad de representar las tendencias criminales no solo de manera secuencial sino también de manera estacional.

(33)

Estos parámetros identificados permiten el análisis espaciotemporal de los agrupamientos. En cada ventana de tiempo se extraen estos parámetros. Entonces, para la creación de las series de tiempo se unen los parámetros por ventana de tiempo para crear tres series de tiempo diferentes por agrupamiento, dependiendo del número de agrupamientos que se determinó a priori. En este caso se muestran las series de tiempo para cada uno de los tipos de agrupamiento.

En las figuras 17-20 se pueden observar las series de tiempo obtenidas del algoritmo de reorganización con la organización de base de datos especificada. Es posible hacer una reconstrucción aproximada de los agrupamientos con las series de tiempo. Por lo tanto, una predicción de estos parámetros es pertinente para anticiparse a la dinámica espacial de los agrupamientos.

La figura 17 muestra la separación por semanas de la base de datos. La serie de tiempo abarco desde el año 2003 hasta el 2015. Ésta serie de la figura 17 es considerada secuencial ya que el tiempo es considerado lineal y no cíclico. En las figuras 18 y 19 se muestran las series de tiempo en las cuales sus datos fueron organizados de manera cíclica. Esto, implica entonces un periodo de tiempo que se repite a través de los años que para este caso en las noches y en los días es representado por los días de la semana desde lunes (primer día) hasta el domingo (séptimo día). Y por último, la figura 20 muestra las series de tiempo encontradas por año de las horas del día. Desde la 1:00 de la mañana hasta las 00:00 del siguiente día. En estos intervalos de tiempo se agruparon todos los crímenes de cada año y se realizó esto para cada año. La serie de tiempo representa la dinámica de los agrupamientos encontrados por hora por año.

(34)

Figura 17.1 Series de tiempo de semanas con un día de diferencia para 8 agrupaciones

Figura 18. Series de tiempo de días de la semana por año.

Figura 19. Series de tiempo de noches de la semana por año.

(35)

(36)

Propuesta para la sintonización de un sistema de

inferencia difusa por medio de un algoritmo

memético.

En este capítulo se presenta la propuesta para la predicción de un centro de un agrupamiento de crimen en la ciudad de San Francisco, USA. Primero, en la figura 17 se muestra el modelo propuesto del sistema difuso y cómo se implementa el MA para la sintonización del primero. Se presenta la función objetivo, la construcción de la misma y una breve explicación de los elementos que la componen. Luego, una descripción de los parámetros del tipo de sistema difuso escogido. Posteriormente, se presenta la implementación y ventajas del uso de la herramienta ANFIS para los sistemas difusos, y una descripción de este y sus métodos de optimización local. Por último se presenta la evaluación de soluciones y un factor de medida de la preservación de la diversidad para identificar una convergencia prematura en la población.

4.1. Modelo propuesto.

Para realizar la predicción del problema propuesto en este proyecto se toma un sistema de inferencia difusa, FIS, (por sus siglas en inglés) cuyos parámetros se sintonizan por medio de un MA. En la figura 22 se muestra el diagrama del modelo propuesto. Este modelo presenta cómo se implementa el MA para la sintonización de las reglas del FIS de acuerdo con una función objetivo.

(37)

En el diagrama propuesto se muestra el proceso llevado a cabo para la obtención de la predicción de uno de los centros y su área de acción respectiva. Desde la recopilación de la base de datos de los crímenes de robo de casa. Donde los datos fueron separados como se explicó en la sección 3.3. Al obtener las ventanas de tiempo se efectúa el método de agrupamiento para la generación de la series de tiempo de cada uno de los parámetros del grupo que se desea predecir.

La predicción de las series de tiempo generadas se hace por medio de un sistema difuso compuesto por unos antecedentes, unos consecuentes y una base de reglas. Los conjuntos del sistema difuso son sintonizados a través del MA el cual tiene una función objetivo explicada en la siguiente sección. Al realizar el proceso de sintonización de los conjuntos del FIS y al implementar este FIS final se puede generar la predicción de las variables de interés del centro de crimen.

En la figura 23 se muestra cómo se le agrega el MA al motor de inferencia para realizar la sintonización de las reglas. El proceso que se lleva a cabo en esta sintonización se muestra en la Figura 23 donde se especifican los pasos más importantes del MA. Posteriormente, se describe cada paso y su tarea en el funcionamiento completo del MA.

(38)

Se debe tener consideración especial a la función guía que se le dará al problema pues de esta depende la dirección de solución del algoritmo. La función objetivo está dentro de los parámetros que influencian la efectividad y la eficiencia de un algoritmo con búsqueda por población [32]. Ahí radica su importancia.

La construcción debe tener en cuenta los factores más importantes al momento de una predicción para este caso. La función objetivo escogida tiene en cuenta cuatro medidas

datos. Es importante que esta medida sea hecha con una buena cantidad de datos pues puede ser sensible al volumen de la información por el hecho de ser un porcentaje.

 RMSE: Esta medida muestra la desviación estándar entre un valor observado de una serie de tiempo y un valor de predicción hecho por un modelo. Se diferencia del MAPE en que no mira la predicción en precisión por porcentaje sino que da una medida de las diferencias entre la predicción y el valor real. El RMSE se variación toma un valor correspondiente de acuerdo a la serie de tiempo.

(39)

𝑃𝑂𝐶𝐼𝐷 =∑𝑁𝑡=1𝐷𝑡

 Coeficiente de correlación: Esta medida representa la covarianza existente entre dos variables relacionadas linealmente. Está definida como: resultante de la predicción y el promedio de la serie real, respectivamente.

Cabe resaltar que aunque el POCID y el coeficiente de correlación sean muy similares el primero toma una medida local de la dirección de la señal y el segundo toma una medida global que de manera implícita mide la relación entre las variaciones de las dos señales.

La estructura de la función objetivo teniendo en cuenta estas medidas es entonces: 𝐹_𝑜𝑏𝑗 =𝑀𝐴𝑃𝐸+𝑅𝑀𝑆𝐸 especial debido a que es de vital importancia en la predicción.

Para encontrar la relación entre los estadísticos de la función objetivo de la ecuación (9). Con el fin de observar el espacio de búsqueda de esta función objetivo se muestra la variación de esta con respecto a dos de los cuatro estadísticos en la tabla 1. Esta tabla representa el orden en el que se realizó la relación entre los estadísticos en la Figura 24.

(40)

Figura 24. Variación de F.O. en función de los diferentes estadísticos.

En la figura 24 se muestra el espacio de la función objetivo de acuerdo a la combinación de a par de los estadísticos escogidos. Como se puede observar el estadístico con mayor influencia en el espacio de búsqueda de la función objetivo es la correlación entre las dos señales (real y predicción). El cambio de la función objetivo a la variación del RMSE y el MAPE es de manera lineal a diferencia de los cambios por el POCID y la Correlación que son por multiplicativo inverso. Los cambios por el multiplicativo inverso tienen una ventaja, que la disminución de la función objetivo es mayor a medida que se esté alejado del valor deseado.

(41)

Figura 25. Construcción del meme.

4.3. Construcción del meme.

Un vector llamado meme en el caso del algoritmo memético representa a cada individuo de la población. Dentro del meme se le asigna una posición a los parámetros de los conjuntos difusos. Por medio de esta organización se representan las funciones de pertenencia de los antecedentes (i.e. media (m), desviaciones estándar (σ)) y la construcción de las rectas del consecuente para el caso de FIS Sugeno. La estructura del meme se muestra en la Figura 25. Si se define pa como el número de parámetros que caracterizan las funciones de pertenencia del antecedente y pc como el número de parámetros de las funciones lineales del consecuente, n se define como el vector de entrada que son los datos de centro en las ventanas de tiempo anteriores y M como el número de reglas. Por lo tanto la longitud del meme Lvestá definida como:

(42)

Figura 27. Inicialización del FIS

4.5. Inicialización del FIS

Una vez inicializada la población cada individuo o meme es optimizado localmente, para esta optimización se utilizó ANFIS [33]. Este método da la posibilidad de visualizar sistemas difusos con gran facilidad. Lo cual permite analizar e intentar una interpretación de las reglas que se sintonizaron con la búsqueda. Para la implementación de esta herramienta debe ser por medio de un FIS Takagi Sugeno. Este tipo de FIS aunque es muy similar al tipo Mamdani difiere principalmente en que los consecuentes se computan como pesos, similar a una red neuronal.

Debido a que se debe crear un FIS para el entrenamiento por medio de ANFIS es necesario hacer una inicialización de un FIS por cada individuo de la población. El proceso de inicialización del FIS se muestra en la Figura 27. Primero se crea un nuevo FIS tipo TSK (Takagi-Sugeno-Kang) con las siguientes características:

 Método de AND: producto  Método de OR: Or probabilística.  Implicación: Mínimo.

(43)

Con estas características establecidas se determina como el sistema de inferencia difusa realiza las operaciones de inferencia. Esto es determinado por defecto en los sistemas tipo TSK una vez se inicializa el sistema. Siguiendo estos métodos una regla de un TSK es de la forma:

Luego de crear el sistema se definen las funciones de pertenencia. Pero, ya que el MA tiene un método de búsqueda de soluciones por medio de poblaciones se extraen los parámetros para un meme de la población. Estos se extraen de los individuos o memes de la población inicializada aleatoriamente para la primera generación y ya los memes hijo en las siguientes generaciones. Ya que los individuos representan los conjuntos difusos, una vez extraídos se procede a hacer la construcción de estos últimos. En la figura 27 se muestra la organización de los diferentes parámetros de las funciones de pertenencia (medias, desviaciones y pesos de salida). El número de funciones de pertenencia es determinado a priori.

Una vez se obtienen los parámetros del meme se adicionan las variables de entrada y salida. Al agregar cada variable al sistema se hace también la agregación de las funciones de pertenencia correspondientes. Allí se determina el tipo de función de pertenencia y se le asigna a cada parámetro extraído anteriormente. Esto se trabaja de igual manera tanto para los antecedentes como para el consecuente. Al obtener las funciones de pertenencia de los antecedentes y el consecuente se genera la base de reglas.

4.6. Optimización Local.

(44)

x1 x1 x1 x1 z1

El proceso de optimización local se lleva a cabo ingresando los datos de entrada, que en este caso son llamados regresores, y los datos de salida. Estos datos son organizados en una matriz como se muestra en la Figura 28. Siendo n el número de entradas y l la cantidad de datos disponibles para el aprendizaje.

Con esta matriz de datos de entrada y el FIS difuso inicializado anteriormente se realiza un entrenamiento sintonizando los parámetros del FIS. Está sintonización se realiza por medio de la herramienta de optimización llamada ANFIS. La sintonización de todos los parámetros se realiza por medio de meme los cuales representan los parámetros del sistema difuso.

4.6.1. ANFIS (Adaptive neuro-fuzzy Inference System)

Esta herramienta traza un mapa de una interfaz de un sistema Sugeno de primer orden en una red neuronal adaptativa feed-forward. Esto con el fin de mejorar el desempeño en efectividad y precisión de aprendizaje sin afectar en gran medida la generalización. Gracias a esta combinación se permite que el sistema realice reconocimiento y análisis de conocimiento lingüístico y numérico implícito en los datos.

(45)

Figura 29. Estructura de red de ANFIS

Como se muestra en la figura 29 estas redes son de múltiples capas y nodos en cada capa. En algunas de las capas se encuentran nodos adaptativos cuya función se define como;

𝑂_𝑖𝑘= 𝑂_𝑖𝑘(𝑂₁𝑘−1, … , 𝑂_𝑛𝑘−1, 𝑎, 𝑏, 𝑐) (14)

Donde:

i: Es la posición del nodo en la capa k. k: Es la posición de la capa.

n: Es el número de nodos en la capa a, b, c: Son parámetros del nodo. O: Es la función de salida del nodo.

Ya con esta función de salida es posible encontrar el error de salida y según [33], [34]se calcula de la siguiente manera:

𝐸 = ∑𝑃 (𝑇_𝑝− 𝑂_𝑝𝐿)2

𝑝=1 (15)

Asumiendo la base de datos con P entradas, el error se mide por la p-ésima entrada de entrenamiento como la suma de errores cuadrados. Siendo 1 ≤ p ≤ P. Tp y Op son la

(46)

Debido a que la regla de aprendizaje es el descenso de gradiente en [33] se calcula así:

Asumiendo un solo parámetro para la red adaptativa α entonces: 𝜕𝐸

Donde S es el conjunto de nodos cuyas salidas dependen de α. Por lo tanto los nodos adaptativos y regidos por la regla de aprendizaje. Para actualizar α según [33] será:

∆α = −η𝜕𝐸

𝜕α (18)

Siendo η una tasa de aprendizaje, expresada de la siguiente manera:

η = 𝑡

Donde t es el tamaño de paso, la longitud de cada transición de gradiente en el espacio de parámetro. Usualmente ANFIS cambia el valor de t con el fin de mejorar la velocidad de convergencia. Estos cambios son regidos por dos reglas según [34]:

Regla 1: Si la medida del error sufre cuatro reducciones consecutivas, se aumenta t en un 10%.

Regla 2: Si la medida del error sufre dos combinaciones consecutivas de un incremento y un decremento, entonces se reduce t en un 10%.

(47)

Figura 30. Convergencia con reglas.

4.7. Factor Fano y diversidad de la población.

Con el fin de mantener un espacio de búsqueda amplio para el MA, se debe garantizar un mínimo de diversidad entre los individuos de la población. Según [35] se debe ser cuidadoso con la convergencia prematura en mínimos locales del espacio de búsqueda. Para identificar una convergencia prematura se debe definir si la población está o no degradada. Esto se hará por medio del monitoreo de la diversidad y para esto se escogió el factor fano. Este factor es una medida de dispersión y es usada por ejemplo para inferir la variabilidad de datos [36]. Este factor está definido como se muestra en ecuación (20). La diversidad se puede ver afectada por la optimización producida en la sintonización de parámetros de ANFIS. Por esta razón es necesario hacer un monitoreo sobre esta diversidad vigilando que las soluciones dadas por la herramienta de optimización local tengan diferencias que aporten a la búsqueda de una buena solución.

Para el monitoreo de la diversidad de la población se escogió el factor fano.

(48)

(49)

Capítulo 5

realizada la configuración de los parámetros se realizan las pruebas finales y se muestran los resultados que se comparan de acuerdo a la función de costo escogida. Adicionalmente, se muestra la relación entre la serie de tiempo real y la predicción hecha por el sistema de inferencia con los datos de validación del mejor sistema difuso sintonizado. Por último, se presenta un análisis de resultados en el que se comparan los diferentes experimentos realizados y como estos pueden aportar a la toma de decisiones de la fuerza pública para disminuir el número de crímenes.

5.1. Experimentos.

La figura 22 muestra la metodología propuesta para la sintonización de los parámetros del sistema difuso. Los antecedentes y consecuentes del FIS son modificados por el MA. Como en la sección 4.3 se muestra la construcción del individuo que representa el sistema difuso este es el individuo sintonizado. Esta sintonización de parámetros es guiada por medio de la función objetivo presentada en la sección 4.2.

(50)

generaciones en cada generación se hicieron cinco iteraciones de optimización local con mejores resultados de validación según la función objetivo escogida. Esto, con el fin de obtener la mejor configuración. A continuación se presenta cada experimento realizado, el análisis de los resultados de entrenamiento y los resultados de validación. En la tabla se muestran los parámetros que se varían en función del desempeño de los diferentes experimentos realizados.

Una vez se finalizan todos los experimentos se obtiene la configuración final del sistema propuesto. Y se da paso a la determinación de la cantidad de regresores. Esto, se realiza por medio de 50 pruebas con 300 generaciones. Con el fin de hacer una caracterización del error y la correlación de la señal resultante con la real.

5.2. Contexto I

En este punto se presentan todas las pruebas realizadas para la primera organización de la base de datos. Donde hay una agrupación semanal de datos con una diferencia de un día, esta organización es explicada en la sección 3.3. Además, en la figura 17 se muestra la serie de tiempo completa de este contexto. Esta serie de tiempo será, en esta sección, la serie de tiempo de estudio. Fue esta forma de agrupación a la que se le realizaron todas las pruebas para la predicción del centro y el radio del segundo hotspot de crimen.

(51)

Figura 31. Función Objetivo de Número de Reglas (a) Para X (b) para Y (c) para R

5.2.1.1. Análisis de resultados de entrenamiento.

En la las siguientes figuras se muestra la evolución de la función objetivo en 1000 generaciones del algoritmo memético. Esto, se realiza por cada uno de los experimentos de las configuraciones escogidas.

(52)

6 18.6703 23.1644 21.6902

8 17.0111 23.8583 21.3576

12 17.0635 23.1233 22.6394

16 18.0391 23.1283 22.6394

Tabla 2. Resultados de prueba preliminar de variación de número de reglas.

5.2.1.2. Análisis de Resultados de Validación.

En la Tabla 2 se muestran los valores obtenidos para cada uno de los estadísticos de la función objetivo. Estos estadísticos fueron medidos con los datos de validación. Se muestran los experimentos de 4, 6, 8, 12 y 16 reglas.

En la tabla 2 se muestran los resultados de validación de las pruebas realizadas de la variación del número de reglas por cada variable (X, Y, R) y se resaltó el mejor sistema. Para la variable X el sistema con mejor desempeño según la función objetivo es de cuatro reglas. Para la variable Y el mejor desempeño es del sistema de 12 reglas. Y por último para la variable R el sistema difuso con mejor desempeño es de cuatro reglas. En la figura 32 se muestra la relación entre el desempeño de los sistemas difusos con respecto a la variación del número de reglas

En la figura 32 (a) se puede observar que al aumentar el número de reglas de 8 a 16 el desempeño del sistema difuso sintonizado se deteriora. Para la variable Y el mejor sistema sintonizado es el de 12 reglas. Por último para la variable R a medida que aumenta el número de reglas se deteriora el desempeño del sistema sintonizado.

5.2.2. Comparación de Variables del Algoritmo Memético.

(53)

Figura 32. Variación de número de reglas para (a) Variable X, (b) Variable Y | (c) Variable R.

5.2.2.1. Análisis de Entrenamiento para Probabilidad de Cruce.

El conjunto de pruebas realizadas en esta sección conciernen a la variación del parámetro de probabilidad de cruce del algoritmo memético expuesto en el capítulo 4. Para este experimento se realizaron un total de 10 pruebas con 1000 generaciones por prueba. Cada prueba tiene un valor de probabilidad de cruce diferente y se les ha sido modificado el número de reglas para el FIS de acuerdo a los resultados de la sección 5.2.

En las figuras 33, 34 y 35 se muestra la evolución de la función objetivo a través de las 1000 generaciones para la variables X, Y y R respectivamente. Por cada figura se presentan dos secciones. La sección a muestra el desempeño del algoritmo con los valores de probabilidad de cruce desde 0.5 a 0.75. Y en la sección b con valores desde 0.75 a 0.95. Mostrando entonces un total de diez pruebas por variable de interés.

(54)

Figura 34 Función Objetivo de Probabilidad de Cruce para Y (a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95

Figura 35 Función Objetivo de Probabilidad de Cruce para R (a) Valor de Cruce de 0.5 a 0.7 (b) Valor de Cruce de 0.75 a 0.95

Para la variable X (figura 33) se puede observar que las pruebas con valores de probabilidad de cruce mayores a 0.75 (sección b de las imágenes) se obtuvo un mejor desempeño general donde se llegó a un valor de función objetivo menor a 15.05 para un valor de cruce de 0.75. La variable Y (figura 34) se puede observar que en la sección a la mayoría de las pruebas tienen a un valor cercano a 16.5. A diferencia de la sección b donde la mayoría de las pruebas se encuentran por encima de 16.6.

(55)

Valor Cruce X (f.Obj) Y(f.Obj) R(f.Obj)

Tabla 3. Resultados de validación de Valor de Cruce

5.2.2.2. Análisis de Resultados de Validación.

En la Tabla 3 se muestran los valores obtenidos para cada uno de los estadísticos de la función objetivo. Estos estadísticos fueron medidos con los datos de validación de cada una de las variables de interés. A continuación se muestran los experimentos para los valores de cruce entre 0.5 y 0.95.

Los resultados de las diez pruebas realizadas se muestran en la tabla 3 organizadas por variables (X, Y, R). Se muestra por cada valor de cruce el resultado de validación de la función objetivo escogida. El valor resaltado en la tabla es el mejor valor para la prueba con 1000 generaciones. Entonces para la variable X el mejor resultado se presenta en un valor de probabilidad de cruce de 0.75, al igual que para la variable Y. Sin embargo, para R el mejor desempeño del sistema resultó en una probabilidad de cruce de 0.8. En la figura 36 se muestra una relación entre el desempeño del sistema con respecto a la variación del valor de cruce para cada variable.

(56)

.

Figura 36. Variación de probabilidad de cruce para (a) Variable X, (b) Variable Y y (c) Variable R.

5.2.2.3. Análisis de Entrenamiento para la Probabilidad de

Mutación.

El conjunto de pruebas realizadas en esta sección conciernen a la variación del parámetro de probabilidad de cruce del algoritmo memético expuesto en el capítulo anterior. Para este experimento se realizaron un total de 10 pruebas con 1000 generaciones por prueba. Cada prueba tiene un valor de probabilidad de mutación diferente y se les ha sido modificado el número de reglas para el FIS de acuerdo a los resultados de la sección 5.2. Además de esto de acuerdo con los resultados de la sección 5.3 el valor asignado a la probabilidad de cruce fue modificado.

Las pruebas realizadas conciernen a los valores de mutación desde 0.01 hasta 0.1 con una diferencia entre cada variación de 0.01. Esto da como resultado del experimento un total de diez pruebas. En las figuras 37, 38 y 39 se muestra la evolución de la función objetivo con respecto a las 1000 generaciones para cada una de las variables (X, Y y R respectivamente). Cada figura consta de dos secciones y representa el total de diez pruebas. La primera sección (a) muestra la evolución de la función objetivo con respecto a los valores de probabilidad de mutación entre 0.01 y 0.05, al igual que la segunda sección (b) que abarca los valores de probabilidad de mutación entre 0.06 y 0.1.

(57)

Figura 38 Función Objetivo de Probabilidad de Mutación para Y (a) Valor de Cruce de 0.01 a 0.05 (b) Valor de Cruce de 0.06 a 0.1

Figura 39 Función Objetivo de Probabilidad de Mutación para R (a) Valor de Cruce de 0.01 a 0.05 (b) Valor de Cruce de 0.06 a 0.1