Análisis de accidentalidad vehicular usando técnicas de minería de datos

Texto completo

(1)Análisis de accidentalidad vehicular usando técnicas de minerı́a de datos. Diana Hasbleidy Calderón Dı́az 20182099027 Diego Felipe Sora Vargas 20182099047. UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS FACULTAD DE INGENIERÍA ESPECIALIZACIÓN DE INGENIERÍA DE SOFTWARE MAYO 2019.

(2) Análisis de accidentalidad vehicular usando técnicas de minerı́a de datos. Diana Hasbleidy Calderón Dı́az 20182099027 Diego Felipe Sora Vargas 20182099047 Trabajo de grado para optar el tı́tulo de Especialista en Ingenierı́a de Software Director: Alejandro Paolo Daza Revisor: Jhon Freddy Parra UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS FACULTAD DE INGENIERÍA ESPECIALIZACIÓN DE INGENIERÍA DE SOFTWARE MAYO 2019.

(3) Índice general. I. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. CONTEXTUALIZACIÓN DE LA INVESTIGACIÓN. 9. 1. DESCRIPCIÓN DE LA INVESTIGACIÓN 1.1. Planteamiento del problema . . . . . . . . . . 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . 1.2.1. Objetivo general . . . . . . . . . . . . 1.2.2. Objetivos especı́ficos . . . . . . . . . . 1.3. Justificación de la investigación . . . . . . . . 1.3.1. Justificación metodológica . . . . . . . 1.4. Hipótesis . . . . . . . . . . . . . . . . . . . . . 1.5. Marco referencial . . . . . . . . . . . . . . . . 1.5.1. Marco Teórico . . . . . . . . . . . . . . 1.5.2. Marco Conceptual . . . . . . . . . . . 1.5.3. Marco Espacial . . . . . . . . . . . . . 1.6. Metodologı́a de la investigación . . . . . . . . 1.7. Organización del trabajo de grado . . . . . . . 1.8. Estudios de sistemas previos . . . . . . . . . .. II. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. DESARROLLO DE LA INVESTIGACIÓN. 2. RECOPILACIÓN Y PREPROCESAMIENTO 2.1. Tecnologı́as de apoyo . . . . . . . . . . . . . . . 2.2. Fase I. Comprensión del negocio . . . . . . . . . 2.3. Fase II. Estudio y comprensión de los datos . . 2.4. Fase III. Preparación de los datos . . . . . . . . 3. DE DATOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 11 11 12 12 12 12 12 13 14 14 25 26 28 29 30. 31 . . . .. . . . .. . . . .. . . . .. 33 33 34 36 43.

(4) 4. ÍNDICE GENERAL. 3. DISEÑO Y CONSTRUCCIÓN DEL PROTOTIPO 3.1. Fase IV. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Fase V. Evaluación (obtención de resultados) . . . . . . . . . . . . . . 3.3. Fase VI. Validación . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 57 57 66 67. III. 69. CIERRE DE LA INVESTIGACIÓN. 4. RESULTADOS Y DISCUSIÓN. 71. 5. CONCLUSIONES 5.1. Verificación, contraste y evaluación de los 5.2. Sı́ntesis del modelo propuesto . . . . . . 5.3. Aportes originales . . . . . . . . . . . . . 5.4. Trabajos o Publicaciones derivadas . . .. . . . .. 75 75 76 76 76. 6. PROSPECTIVA DEL TRABAJO DE GRADO 6.1. Lı́neas de investigación futuras . . . . . . . . . . . . . . . . . . . . . . 6.2. Trabajos de Investigación futuros . . . . . . . . . . . . . . . . . . . .. 77 77 77. BIBLIOGRAFÍA. 79. REFERENCIAS WEB. 83. A. Módulos Python. 85. objetivos . . . . . . . . . . . . . . . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . ..

(5) Índice de figuras 1.1. 1.2. 1.3. 1.4.. Matriz de confusión . Proceso KDD. . . . . Modelo CRISP-DM. Modelo SEMMA. . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 18 21 22 24. 2.1. Accidentes registrados según la gravedad. . . . . . . . . . . . . 2.2. Registros de accidentes de tránsito en Bogotá (2015-2017). . . 2.3. Hallazgos en dataset de accidentes de tránsito en Bogotá 2015. 2.4. Accidentes Vs hora de ocurrencia. . . . . . . . . . . . . . . . . 2.5. Accidentes Vs hora de ocurrencia (Distribución por gravedad). 2.6. Distribución de accidentes por cuartiles. . . . . . . . . . . . . 2.7. Densidad sobre la distribución de accidentalidad. . . . . . . . 2.8. Dataset de accidentes de tránsito en Bogotá 2015 actualizado. 2.9. Job ETL para el tratamiento de datos. . . . . . . . . . . . . . 2.10. Transformación ‘AccidentesXMLTransformation’. . . . . . . . 2.11. Filtro por caracterı́sticas. . . . . . . . . . . . . . . . . . . . . . 2.12. Transformación ‘CSVConsolidado’. . . . . . . . . . . . . . . . 2.13. Archivos exportados por las transformaciones. . . . . . . . . . 2.14. Transformación ‘CargueBD’. . . . . . . . . . . . . . . . . . . . 2.15. Variables seleccionadas para el modelo. . . . . . . . . . . . . . 2.16. Registros cargados en MongoDB. . . . . . . . . . . . . . . . . 2.17. Registros con nuevas variables. . . . . . . . . . . . . . . . . . . 2.18. Distribución de accidentes entre semana. . . . . . . . . . . . . 2.19. Distribución de accidentes con muertos entre semana. . . . . . 2.20. Distribución de accidentes fin de semana. . . . . . . . . . . . . 2.21. Distribución de accidentes con muertos fin de semana. . . . . . 2.22. Distribución de accidentes semana completa. . . . . . . . . . . 2.23. Distribución accidentes tipo choque. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. 36 37 39 40 41 41 42 43 44 45 46 46 47 47 48 48 51 52 53 53 54 54 55. 5. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . ..

(6) 6. ÍNDICE DE FIGURAS 2.24. Distribución accidentes tipo volcamiento. . . . . . . . . . . . . . . . .. 56. 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8.. . . . . . . . .. 57 59 62 64 66 67 68 68. 4.1. Nodo raı́z del árbol construido. . . . . . . . . . . . . . . . . . . . . . 4.2. Accidentes Vs Zona de la vı́a. . . . . . . . . . . . . . . . . . . . . . . 4.3. Accidentes Vs Estado del tiempo. . . . . . . . . . . . . . . . . . . . .. 72 73 74. Variables del dataset construido. . . . . . . . . Dataset normalizado. . . . . . . . . . . . . . . Precisión Vs Profundidad. . . . . . . . . . . . Registros eliminados por la función dropna . . Árbol de Decisión generado. . . . . . . . . . . Formulario para el uso del modelo predictivo. Matriz de Confusión. . . . . . . . . . . . . . . Matriz de Confusión Normalizada. . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . ..

(7) INTRODUCCIÓN De acuerdo al Informe sobre la Situación Mundial de la Seguridad Vial (2013) realizado por la Organización Mundial de la Salud (OMS), los accidentes de tránsito se han convertido en una de las principales causas de muertes violentas de la población, y a su vez convirtiéndose en un problema de salud pública [1]. Los accidentes de tránsito se han catalogado como un problema social por el daño que produce en las personas, las familias y la comunidad; razón por la cual los investigadores, instituciones académicas y estatales anudan fuerzas en los estudios relacionados con la predicción de accidentes de tránsito y ası́ estabilizar y reducir las cifras de accidentalidad. Los avances que ha tenido el análisis de datos y los sistemas de minerı́a de datos han permitido la explotación de la información generada por las diferentes entidades públicas y privadas, para permitir la toma de decisiones a niveles administrativos y gerenciales. Además, han permitido el manejo de grandes volúmenes de información disponibles en las bases de datos y reduce el tiempo de análisis e interpretación de los datos. Dentro de las técnicas de minerı́a de datos para el análisis de información relacionada a temas de accidentes vehiculares, se encuentran las redes neuronales, redes bayesianas, árboles de decisión, entre otros. Esta propuesta de investigación pretende estudiar el comportamiento de los siniestros viales en función de las variables externas presentes en los mismos, el estudio se realizará sobre la localidad de Kennedy - Bogotá, utilizando árboles de decisión, dado que estos permiten tomar valores de entrada discretos o continuos, que, para el caso, las variables del conjunto de datos para la investigación representan el tipo de accidente, gravedad del accidente, tipo de diseño de la vı́a, clima, etc. La información base para el estudio se obtendrá del portal de datos públicos colombiano (https://www.datos.gov.co/ ) sobre los accidentes vehiculares registrados en la ciudad de Bogotá entre los años de 2015 y 2017.. 7.

(8) 8.

(9) Parte I CONTEXTUALIZACIÓN DE LA INVESTIGACIÓN. 9.

(10)

(11) Capı́tulo 1 DESCRIPCIÓN DE LA INVESTIGACIÓN 1.1.. Planteamiento del problema. La cantidad de accidentes vehiculares presentados en el paı́s cada vez va más en aumento, nada más en los primeros tres meses del año 2017 han muerto alrededor de 1547 personas en accidentes de tránsito según Medicina Legal. De acuerdo a un estudio sobre accidentalidad en Bogotá realizado por [7], para el periodo entre enero de 2008 a mayo de 2009, las localidades que encabezan el listado donde se presentan el mayor número de accidentes son la localidad de Usaquén y la localidad de Kennedy con un total de 5575 y 5538 accidentes de transito respectivamente. Para el año 2016, la Secretaria Distrital de Movilidad realiza un informe titulado Movilidad en cifras 2016, muestra que para ese año el numero de accidentes en Bogotá aumentaron en un 10.4 % respecto al año 2015, con un registro total de accidentes de 34.988 dentro de los cuales 566 fueron reportados como siniestros de tránsito con fallecidos [8]. Algunas de las causas que provocan estos accidentes son la imprudencia al conducir, realizar giros prohibidos, adelantar por la derecha, no mantener una distancia prudente entre vehı́culos, desobedecer las señales de tránsito, entre otras; de esta manera los accidentes de tránsito se han convertido en la octava causa mundial de muerte y pueden costar hasta el 3 % del PIB de un paı́s [9]. Lo anterior nos motivo a crear una herramienta que nos permita analizar dicho comportamiento, podrá servir de apoyo para la toma de decisiones relacionadas con la Seguridad vial, que puedan ayudar a disminuir dichos sucesos como lo pueden ser planes de acción, puntos de atención o mejoramiento de la misma infraestructura vial 11.

(12) 12. CAPÍTULO 1. DESCRIPCIÓN DE LA INVESTIGACIÓN. sobre los puntos más crı́ticos.. 1.2. 1.2.1.. Objetivos Objetivo general. Validar el modelo árboles de decisión como técnica de minerı́a de datos para el análisis de la incidencia de los factores externos en la ocurrencia de siniestros viales.. 1.2.2.. Objetivos especı́ficos. Construir una base de datos a partir de los datos públicos colombianos, con el propósito de ser la fuente de datos base para el estudio de investigación. Investigar sobre las principales técnicas de minerı́a de datos y sus caracterı́sticas con la finalidad de aplicar una de ellas al tema de investigación. Implementar la técnica de minerı́a de datos elegida para interpretar la incidencia de las distintas variables externas involucradas en los accidentes de tránsito, haciendo uso de recursos de software existentes.. 1.3. 1.3.1.. Justificación de la investigación Justificación metodológica. En la actualidad se han desarrollado diversas investigaciones en la predicción de accidentes de tránsito utilizando algoritmos de inteligencia artificial como redes neuronales, arboles de decisión, métodos bayesianos entre otros, en diferentes ciudades del mundo, y América Latina. Dentro de la literatura consultada, son escasos los trabajos de investigación realizados para la ciudad de Bogotá, relacionados al estudio de las variables presentes en accidentes de tránsito. De esta manera, aprovechando las ventajas que ofrece las diferentes técnicas de minerı́a de datos, entre estos los árboles de decisión, para predecir patrones y resolver problemas de distribución no lineal haciendo uso de variables con valores discretos o continuos, se pretende construir un prototipo de software que permita el análisis de causas de los accidentes de tránsito para grandes volúmenes de información, permitiendo apoyar la toma de decisiones frente a los accidentes de tránsito, como pueden ser implementando planes de prevención de accidentes vehiculares o rápidas acciones para el tratamiento oportuno de las vı́ctimas de los siniestros..

(13) 1.4. HIPÓTESIS. 1.4.. 13. Hipótesis. Construir una herramienta que analice el comportamiento de las variables externas presentes en los siniestros viales, ayudará a sustentar la toma de decisiones en cuanto a planes de acción para disminuir la cifra de vı́ctimas fatales en accidentes de tránsito presentados en la ciudad..

(14) 14. 1.5. 1.5.1.. CAPÍTULO 1. DESCRIPCIÓN DE LA INVESTIGACIÓN. Marco referencial Marco Teórico. De acuerdo con la literatura consultada, relacionada con el tema de ocurrencia de accidentes de tránsito se pueden dividir en tres grandes temas. En primer lugar, estudios asociados a la predicción de ocurrencia de accidentes, enfocados en la predicción de tasas de accidentes o la estimación de algunas medidas probabilı́sticas para cuantificar el riesgo de ocurrencia de accidentes viales. En segundo lugar, los estudios referidos a predecir posibles hotspots donde ocurran accidentes viales, y finalmente los estudios de severidad que estiman probabilidades de accidentes de distinto tipo, donde cada tipo se refiere a un nivel de severidad según lesión previamente definido, sin considerar la posibilidad de que un occidente ocurra. Accidentes de tránsito en Colombia y Bogotá D.C De acuerdo con el Concejo Colombiano de Seguridad CCS, las estadı́sticas reportadas por la Policı́a Nacional, el año 2013 presento un alto número de accidentes, se presentó 33621 accidentes con un aumento de 3.34 % con respecto al año anterior. Para el año 2014, disminuyeron un 2.32 % el número de accidentes viales en el paı́s. Reflejado en las estadı́sticas de los últimos cuatro años, donde en promedio mueren por año 5.610 personas, el Instituto Nacional de Medicina Legal calificó la accidentalidad vial como la segunda causa de muerte violenta en el paı́s. En los años 2013 y 2014 se reportaron el mayor número de fatalidades con 5.964 y 5.632 respectivamente, siendo 2013 el año con mayor reporte de accidentes viales, con un aumento del 7 % respecto al año anterior. En el 2014, 11,8 de cada 100.000 habitantes sufrieron un accidente vial. El año 2012 y 2013 presentan picos ascendentes, ya que sus tasas fueron de 11,9 y 12,7 respectivamente [10] Para la ciudad de Bogotá, las cifras parciales de enero a septiembre de 2018 reportadas por la Agencia Nacional de Seguridad Vial, han ocurrido 10242 siniestros donde las causas principales son no mantener distancia de seguridad, desobedecer señales o normas de tránsito, adelantar cerrando, entre otras. Minerı́a de datos La minerı́a de datos consiste en la extracción de información sensible que reside de manera implı́cita en los datos. Dicha información es previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minerı́a de datos prepara,.

(15) 1.5. MARCO REFERENCIAL. 15. sondea y explora los datos para sacar la información oculta de ellos, de modo que un pequeño hallazgo, una pequeña relación que se descubre, puede ser un hecho de gran impacto en las ventas de una compañı́a. [2] Otros términos relacionados pueden entenderse de manera similar al de la minerı́a de datos son: minerı́a de conocimiento de datos, extracción de conocimiento, análisis de datos y patrones, arqueologı́a de datos y dragado de datos. [3] Entonces, la minerı́a de datos consiste en un conjunto de metodologı́as estadı́sticas y computacionales que, junto a un enfoque desde las ciencias de la conducta, permite el análisis de datos y la elaboración de modelos matemáticos descriptivos y predictivos de la conducta del consumidor. [2] La gran aplicación de la minerı́a de datos hace que sea posible incorporar técnicas de otros campos de estudio, como por ejemplo la estadı́stica, sistemas de bases de datos, machine learning, reconocimiento de patrones, entre otros. Un proceso tı́pico de minerı́a de datos consta de los siguientes pasos generales: 1. Selección del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el cálculo o proceso), como posiblemente al muestreo de los registros disponibles. 2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atı́picos y ausencia de datos (valores nulos). 3. Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minerı́a de datos que mejor se adapte a los datos y al problema, a este paso también se le conoce como pre-procesamiento de los datos. 4. Seleccionar y aplicar la técnica de minerı́a de datos, se construye el modelo predictivo, de clasificación o segmentación. 5. Extracción de conocimiento, mediante una técnica de minerı́a de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un pre procesado diferente de los datos. 6. Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias [11]..

(16) 16. CAPÍTULO 1. DESCRIPCIÓN DE LA INVESTIGACIÓN. Técnicas de minerı́a de datos Dentro de las técnicas de minerı́a de datos se encuentran las técnicas predictivas como Regresión, Métodos Bayesianos, y de clasificación como el análisis de discriminación lineal, arboles de decisión y redes neuronales. A continuación se describirá algunos de ellos. Regresión logı́stica La regresión logı́stica es un procedimiento cuantitativo que puede usarse como método descriptivo, donde la variable dependiente tomas valores en un conjunto finito. Para construir un modelo de regresión logı́stica se requiere de [12]: Un conjunto de variables independientes o predictoras y una variable respuesta dicotómica. Los parámetros del modelo se calculan usando una estimación de máxima verosimilitud. No incluir variables innecesarias al modelo. Ninguna variable relevante debe ser excluida. La colinealidad es un problema como ocurre en la regresión lineal múltiple. El modelo de regresión logı́stica puede describirse como: p log = b0 + b1 x1 + ... + bn xn 1−p. (1.1). Donde, p es la probabilidad (riesgo) de que ocurra el evento de interés, x, las variables independientes b, los coeficientes asociados a cada variable. La regresión logı́stica puede usarse para fines explicativos, donde se busca explicar la relación de una variable con otras; o para fines predictivos, que es cuando se estima el comportamiento de una variable en función de las otras variables que influencian su comportamiento. Análisis de Discriminación lineal El análisis discriminante es una técnica de clasificación cuyo objetivo es obtener una función capaz de clasificar a un nuevo individuo a partir del conocimiento de los valores de ciertas variables discriminadoras, dentro de grupos previamente conocidos..

(17) 1.5. MARCO REFERENCIAL. 17. El análisis de discriminación lineal corresponde a un análisis de regresión donde la variable dependiente es una variable categórica y tiene como categorı́as la etiqueta de cada uno de los grupos, y las variables independientes son continuas y determinan a que grupos pertenecen los objetos [13]. Una vez identificadas las funciones discriminantes a partir de las variables explicativas, similares a las ecuaciones de regresión lineal múltiple, se puede realizar la clasificación en dos grupos o clasificación en mas de dos grupos (análisis discriminante múltiple). El modelo de análisis discriminante múltiple puede describirse como: Cada una de las funciones discriminantes Di se obtiene como función lineal de las k variables explicativas. Di = ui 1X1 + ui 2X2 + ... + ui kXk i = 1, ..., G − 1. (1.2). Donde, Los G − 1 ejes vienen definidos respectivamente por los vectores u1 , u2 , ..., uG−1    u1 =  . u11 u12 .. . u1k. . .      , u2 =   . u21 u22 .. . u2k. . .      ,..., uG−1 =   . uG−1,1 uG−1,2 .. ..     . uG−1,k. El número máximo de ejes discriminantes (G − 1, k) (G = número de categorı́as). Se obtiene G − 1 ejes discriminantes si el número de variables explicativas es mayor o igual que G − 1.. Árboles de decisión Los árboles de decisión son utilizados para representar y categorizar una serie de condiciones que ocurre de forma sucesiva para la resolución de problemas. Se pueden definir como un mapa de posibles resultados de una serie de decisiones relacionadas, que comienza con un único nodo y luego se ramifica en resultados posibles. Cada uno de esos resultados posibles crea nodos adicionales que se ramifican en otras posibilidades. Existe tres diferentes nodos: nodos de probabilidad, nodos de decisión y nodos terminales. Los nodos de probabilidad muestran las probabilidades de ciertos resultados. Un nodo de decisión muestra una decisión que se tomará y el nodo terminal muestra el resultado definitivo de una ruta de decisión [14]..

(18) 18. CAPÍTULO 1. DESCRIPCIÓN DE LA INVESTIGACIÓN. Los elementos que componen la estructura de un árbol de decisión y adicionalmente los pasos para la elaboración de este: Existen 4 tipos de nodos en un árbol de decisión. 1. Nodo raı́z: inicio del árbol de decisión, se plantea la decisión entre alternativas con resultados desconocidos. 2. Nodos de decisión: caminos de acción que pueden ser elegidos por el tomador de decisión después de haber analizado los resultados de decisiones previas. 3. Nodos de eventos: representan los posibles resultados en una decisión. Es necesario determinar los posibles resultados y la probabilidad de ocurrencia de cada uno basados en la información disponible al momento de plantear el árbol de decisión. Puede ocurrir que después de nodos de eventos continúe el proceso de selección entre alternativas probables. 4. Nodos finales: resultados finales generados por la serie de decisiones y resultados previos. Para determinar que tan correcta es la predicción o clasificación realizada por modelos como los arboles de decisión, se emplean métricas en el campo de la búsqueda y análisis de información para determinar la eficacia y si es correcto el resultado obtenido, como la exactitud y precisión, en donde la primera representa cuantos casos sobre el total han sido clasificados correctamente en la clase a la que pertenecen, y la segunda mide cuantos casos que han sido clasificados en una clase pertenecen realmente a esa clase [4]. Una forma de visualizar cuantos casos se clasifican correctamente es a través de la matriz de confusión, donde las columnas representa los datos predichos y las filas representa la clase a la que pertenece los datos.. Figura 1.1: Matriz de confusión Fuente: [15] De acuerdo a la matriz de confusión tenemos que:.

(19) 1.5. MARCO REFERENCIAL. 19. a es el número de predicciones correctas de clase negativa (negativos reales) b es el número de predicciones incorrectas de clase positiva (falsos positivos) c es el número de predicciones incorrectas de clase negativa (falsos negativos) d es el número de predicciones correctas de clase positiva (positivos reales) De acuerdo a los valores de la matriz de confusión se define las métricas de exactitud (P) y precisión (AC). La Precisión o “Accuracy” (AC) se refiere a la dispersión del conjunto de valores obtenidos a partir de mediciones repetidas de una magnitud. Cuanto menor es la dispersión mayor la precisión. Se representa por la proporción entre el número de predicciones correctas (tanto positivas como negativas) y el total de predicciones [15], y se calcula mediante la ecuación: AC =. a+d a+b+c+d. La Exactitud o, en inglés, “Precision” se refiere a lo cerca que está el resultado de una medición del valor verdadero. En términos estadı́sticos, la exactitud está relacionada con el sesgo de una estimación. También se conoce como Verdadero Positivo (o “True positive rate”). Se representa por la proporción entre los positivos reales predichos por el algoritmo y todos los casos positivos [15], y se calcula con la siguiente ecuación: P =. d b+d. Para la construcción del árbol de decisión se utilizó el algoritmo de clasificación y regresión de arboles CART, donde solo necesita datos de entrada, se ajustan parámetros y devuelve un árbol como resultado; este algoritmo se decide cual atributo es el que mejor divide los datos, ignoran los valores vacı́os y usan reglas de parada para terminar la ejecución [4]: Si todos los casos en un nodo tiene un valor idéntico, el nodo no se dividirá. Si se llega a la profundidad máxima del árbol o el tamaño del nodo a dividir es el mı́nimo entonces no se sigue dividiendo el nodo y se deja como hoja..

(20) 20. CAPÍTULO 1. DESCRIPCIÓN DE LA INVESTIGACIÓN. El algoritmo emplea unidades de medida de la entropı́a o ganancia de la información para determinar que atributo es mejor para dividir la información en cada nodo. La entropı́a se utiliza para medir la cantidad de información útil y se calcula como: H(S) = −. X. p(x) ∗ log2 p(x). xX. Donde, H(S) es la entropı́a del conjunto de datos S. X es el conjunto de clases en S. p(x) la proporción de elementos de la clase x sobre el cardinal de S. La ganancia de información determina cuanta información se gana escogiendo el atributo como candidato a ser el nodo del árbol, siendo la diferencia de la entropı́a calculada anterior y la entropı́a resultante de escoger un atributo concreto por tanto un valor grande de IG implica que la entropı́a habiendo escogido un atributo a que nos indica que el conjunto de datos está mejor clasificado con el atributo a [4], y se calcula como: IG(A, S) = H(S) −. X. p(t) ∗ H(t). tT. Donde, IG(A,S) es la Ganancia de la información del conjunto S dividiéndolo mediante el atributo A. H(S) es la entropı́a del conjunto de datos S. T son los subconjuntos de clases de S dividido por el atributo A. p(t) la proporción de elementos de la clase t sobre el cardinal de S. H(t) es la entropı́a del subconjunto t.. Metodologı́as usadas en minerı́a de datos En esta sección se describirán las caracterı́sticas de los principales métodos existentes para trabajar en los proyectos donde la minerı́a de datos se ve involucrada, los cuales son, el KDD (Knowledge Discovery in Databases) , CRISP-DM (Cross Industry Standard Process for Data Mining) y SEMMA (Sample, Explore, Modify, Model, and Assess)..

(21) 1.5. MARCO REFERENCIAL. 21. KDD (Knowledge Discovery in Databases) El KDD fue presentado por Fayyad en 1996, donde propone 5 fases secuenciales, las cuales deben llevarse a cabo para poder descubrir conocimiento sobre un conjunto de datos de estudio. Estas fases son las siguientes, selección, preprocesamiento, transformación, minerı́a de datos y evaluación e implantación.. Figura 1.2: Proceso KDD. Fuente: [16] A continuación, se describirán cada una de estas fases [5]: Selección: Esta etapa consiste en crear un conjunto de datos de destino, o centrarse en un subconjunto de variables o muestras de datos, en el que se va a realizar el descubrimiento. Preprocesamiento: Esta etapa consiste en la limpieza y preprocesamiento de los datos de destino para obtener datos consistentes. Transformación: Esta etapa consiste en la transformación de los datos utilizando métodos de reducción de la dimensionalidad o transformaciones sobre los mismos. Minerı́a de datos: Esta etapa consiste en la búsqueda de patrones de interés en.

(22) 22. CAPÍTULO 1. DESCRIPCIÓN DE LA INVESTIGACIÓN. una forma representacional particular, dependiendo del objetivo de la gestión de datos (generalmente, predicción). Interpretación/Evaluación: Esta etapa consiste en la interpretación y evaluación de los patrones minados. CRISP-DM (Cross Industry Standard Process for Data Mining) Esta metodologı́a está compuesta de 6 fases, las cuales se encuentran anidadas entre ellas manteniendo un orden lógico y cı́clico que permite la evolución constante al proceso de descubrimiento de información. La secuencia de las fases no es rı́gida: se permite movimiento hacia adelante y hacia atrás entre diferentes fases. El resultado de cada fase determina qué fase, o qué tarea particular de una fase, hay que hacer después. Las flechas indican las dependencias más importantes y frecuentes. El proyecto no se termina una vez que la solución se despliega. La información descubierta durante el proceso y la solución desplegada pueden producir nuevas iteraciones del modelo [17].. Figura 1.3: Modelo CRISP-DM. Fuente: [18] A continuación se describen brevemente cada una de las fases [17]. Fase I. Comprensión del negocio: Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto. Después se convierte este conocimiento de los datos.

(23) 1.5. MARCO REFERENCIAL. 23. en la definición de un problema de minerı́a de datos y en un plan preliminar diseñado para alcanzar los objetivos. Fase II. Estudio y comprensión de los datos: La fase de entendimiento de datos comienza con la colección de datos inicial y continúa con las actividades que permiten familiarizarse con los datos, identificar los problemas de calidad, descubrir conocimiento preliminar sobre los datos, y/o descubrir subconjuntos interesantes para formar hipótesis en cuanto a la información oculta. Fase III. Preparación de los datos: La fase de preparación de datos cubre todas las actividades necesarias para construir el conjunto final de datos (los datos que se utilizarán en las herramientas de modelado) a partir de los datos en bruto iniciales. Las tareas incluyen la selección de tablas, registros y atributos, ası́ como la transformación y la limpieza de datos para las herramientas que modelan. Fase IV. Modelado: En esta fase, se seleccionan y aplican las técnicas de modelado que sean pertinentes al problema (cuantas más mejor), y se calibran sus parámetros a valores óptimos. Tı́picamente hay varias técnicas para el mismo tipo de problema de minerı́a de datos. Algunas técnicas tienen requerimientos especı́ficos sobre la forma de los datos. Por lo tanto, casi siempre en cualquier proyecto se acaba volviendo a la fase de preparación de datos. Fase V. Evaluación (obtención de resultados): En esta etapa en el proyecto, se han construido uno o varios modelos que parecen alcanzar calidad suficiente desde la una perspectiva de análisis de datos. Antes de proceder al despliegue final del modelo, es importante evaluarlo a fondo y revisar los pasos ejecutados para crearlo, comparar el modelo obtenido con los objetivos de negocio. Un objetivo clave es determinar si hay alguna cuestión importante de negocio que no haya sido considerada suficientemente. Al final de esta fase, se deberı́a obtener una decisión sobre la aplicación de los resultados del proceso de análisis de datos. Fase VI. Despliegue (puesta en producción): Generalmente, la creación del modelo no es el final del proyecto. Incluso si el objetivo del modelo es de aumentar el conocimiento de los datos, el conocimiento obtenido tendrá que organizarse y presentarse para que el cliente pueda usarlo. Dependiendo de los requisitos, la fase de desarrollo puede ser tan simple como la generación de un informe o tan compleja como la realización periódica y quizás automatizada de un proceso de análisis de datos en la organización. SEMMA (Sample, Explore, Modify, Model, and Assess) Esta metodologı́a es propuesta por compañı́a SAS Institute Inc, la cual está.

(24) 24. CAPÍTULO 1. DESCRIPCIÓN DE LA INVESTIGACIÓN. compuesta por 5 fases, que son: Sample, Explore, Modify, Model, Assess (Muestreo, Exploración, Modificación, Modelado y Evaluación).. Figura 1.4: Modelo SEMMA. Fuente: Elaboración propia. A continuación, se describen estas fases [5]: Muestreo: Esta etapa consiste en muestrear los datos extrayendo una porción de un gran conjunto de datos lo suficientemente grande como para contener la información significativa, pero lo suficientemente pequeño como para manipularla rápidamente. Exploración: Esta etapa consiste en la exploración de los datos buscando tendencias y anomalı́as imprevistas con el fin de obtener comprensión e ideas. Modificación: Esta etapa consiste en la modificación de los datos creando, seleccionando y transformando las variables para enfocar el proceso de selección del modelo. Modelado: Esta etapa consiste en modelar los datos permitiendo que el software busque automáticamente una combinación de datos que prediga de manera confiable un resultado deseado. Evaluación: Esta etapa consiste en evaluar los datos, evaluando la utilidad y confiabilidad de los hallazgos del proceso de gestión de la movilidad y estimar qué tan bien se desempeña..

(25) 1.5. MARCO REFERENCIAL. 1.5.2.. 25. Marco Conceptual. Análisis de datos: el término corresponde al uso de métodos estadı́sticos para la extracción de información de un conjunto de datos [6]. Análisis descriptivo: Este análisis es usado cuando la organización tiene un gran conjunto de datos sobre eventos pasados o sucesos históricos. Para que estos datos sean útiles, deben simplificarse y resumirse con el fin de que sean entendibles para la audiencia a la que se quieren comunicar [19]. Análisis predictivo: El análisis predictivo es, la aplicación de técnicas y modelos matemáticos y estadı́sticos a los datos históricos que posee la organización [19]. Análisis prescriptivo: Este análisis recomienda rutas de acción que puede seguir una empresa. Además, cuantifica el efecto de cada una de estas acciones para ayudar a tomar las mejores decisiones en pro de buscar los objetivos de negocio de la organización, como por ejemplo incursionar en un nuevo mercado, ubicar un producto en áreas especı́ficas de un almacén con mejores probabilidades de venta o mitigar un riesgo que pueda enfrentar [19]. Big data: Big data es un término que describe el gran volumen de datos – estructurados y no estructurados – que inundan una empresa todos los dı́as. Pero no es la cantidad de datos lo importante. Lo que importa es lo que las organizaciones hacen con los datos [20]. Inteligencia artificial: La inteligencia artificial es la ciencia de construir máquinas para que hagan cosas que, si las hicieran los humanos, requerirı́an inteligencia ”Marvin Minsky”. Inteligencia computacional (IC): La Inteligencia Computacional (IC) es la teorı́a, diseño, aplicación y desarrollo de paradigmas computacionales motivados biológica y lingüı́sticamente. Tradicionalmente, los tres pilares principales de IC han sido las redes neuronales, los sistemas difusos y la computación evolutiva [21]. Minerı́a de datos: es el proceso de detectar la información procesable de los conjuntos grandes de datos, utiliza el análisis estadı́stico y computacional para deducir los patrones y tendencias que existen en los datos, elaborar modelos matemáticos descriptivos y predictivos [22]. Técnicas de minerı́a de datos: provienen de la Inteligencia artificial y de la estadı́stica, son algoritmos sofisticados que se aplican sobre un conjunto de datos para obtener resultados. Dentro de las técnicas más representativas son Redes neuronales, Regresión lineal, Árboles de decisión, Modelos estadı́sticos, Clustering o agrupamiento, Análisis de varianza, Prueba Chi- cuadrado, Análisis discriminante, Series de tiempo, Algoritmos genéticos, inteligencia artificial, sistemas expertos y sistemas inteligentes [23]..

(26) 26. CAPÍTULO 1. DESCRIPCIÓN DE LA INVESTIGACIÓN. 1.5.3.. Marco Espacial. La ciudad de Bogotá cuenta con una división administrativa de 20 localidades, dentro de ellas se encuentra la Localidad de Kennedy, objeto de la presente investigación. A continuación, se da una descripción general de la localidad. Descripción general de la Localidad de Kennedy La localidad de Kennedy es la localidad número de 8 de la ciudad, y según el Departamento Administrativo Nacional de Estadı́stica (DANE) tiene una proyección para el 2018 de la población de 1.230.539 habitantes. De acuerdo a datos publicado por el IDIGER [24], la localidad de Kennedy tiene una superficie de 3.859 hectáreas. Se encuentra ubicada al suroccidental de la ciudad de Bogotá, delimitada por el norte con la localidad de Fontibón, por el eje del Rı́o Fucha y el municipio de Mosquera por el eje del Rio Bogotá, al oriente con las localidades de Puente Aranda con la avenida del Congreso Eucarı́stico o Avenida KR 68 y Fontibón por el eje del rı́o Fucha; al sur por las localidades de Tunjuelito por la troncal Norte Quito Sur (NQS) tramo sur, Ciudad Bolı́var y Bosa por el eje del rı́o Tunjuelo y al occidente con la localidad de Bosa por el eje del rı́o Tunjuelo y el municipio de Mosquera por el eje del Rı́o Bogotá. La localidad de Kennedy es la octava localidad con mayor extensión total territorial y la segunda con mayor extensión de área urbana, el cual representa el 4.5 % del área de Bogotá. De acuerdo al Plan de Ordenamiento Territorial [25], la Localidad de Kennedy cuenta con la siguiente red vial: Principales Vı́as Subsistema Red Metropolitana - Avenida de las Américas. Hace parte del Sistema Transmilenio - Avenida Manuel Cepeda Vargas - Avenida Centenario (CL 13) - Avenida Ciudad de Quito - Avenida Cuidad de Villavicencio - Avenida Ciudad de Cali - Avenida Bosa - Avenida Primero de Mayo - Avenida Congreso Eucarı́stico (AK 68) - Avenida Ferrocarril del Sur Subsistema Ciudad – Región - Avenida Longitudinal de Occidente (ALO) - Avenida Boyacá.

(27) 1.5. MARCO REFERENCIAL - Autopista Sur Subsistema Malla Arterial Complementaria - Avenida Castilla (KR 78) - Avenida Poporo Quimbaya - Avenida del Rı́o - Avenida Agoberto Mejia Cifuentes (KR 80) - Avenida de la Constitución - Avenida Santa Fe - Avenida de los Muiscas - Avenida Alsacia - Avenida Tintal. 27.

(28) 28. 1.6.. CAPÍTULO 1. DESCRIPCIÓN DE LA INVESTIGACIÓN. Metodologı́a de la investigación. Para el desarrollo del proyecto se plantea usar la metodologı́a CRISP-DM, dado que es una de las metodologı́as más populares en los proyectos donde que se involucra la minerı́a de datos y en nuestro concepto describe de mejor manera todo el proceso de descubrimiento de información de los datos, basado en los objetivos que plantea la organización. Otra de las razones, es que al ser este un proyecto de investigación se deben realizar adaptaciones frecuentes sobre los datos de estudio y sobre modelo antes de su versión final. En este proyecto se implementarán las fases de la metodologı́a CRISP-DM de la siguiente manera: Fase I. Comprensión del negocio: Se tendrá en cuenta los objetivos del proyecto para identificar la mejor fuente de información para el mismo. Fase II. Estudio y comprensión de los datos: Una vez se tenga la fuente de datos, se descargarán y se estudiarán sus caracterı́sticas, esto con el fin de familiarizarse con los datos y su relevancia dentro del estudio. Fase III. Preparación de los datos: En esta fase, se empezará con el tratamiento de los datos, normalizando y unificándolos con el fin de tener una única fuente de información para el análisis. Fase IV. Modelado: Aquı́ se aplicará la técnica de árboles de decisión, para el estudio de las caracterı́sticas del set de datos construido. Al finalizar, se transformará dicho árbol en código para su fácil ejecución. Fase V. Evaluación: En esta fase se revisará el modelo obtenido, y se contrastará con los objetivos planteados. Fase VI. Despliegue: En esta fase se plantea llegar a la implementación del modelo elegido, debido al alcance del proyecto..

(29) 1.7. ORGANIZACIÓN DEL TRABAJO DE GRADO. 1.7.. 29. Organización del trabajo de grado. A continuación se describe la estructura de este proyecto:. PARTE I. CONTEXTUALIZACIÓN DE LA INVESTIGACIÓN CAPÍTULO 1. DESCRIPCIÓN DE LA INVESTIGACIÓN Este capı́tulo presenta el problema de investigación, junto con los objetivos que se platearon y su justificación. PARTE II. DESARROLLO DE LA INVESTIGACIÓN CAPÍTULO 2. RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS Este capı́tulo está compuesto por la comprensión de los objetivos, la búsqueda y recopilación de la información relevante para la investigación, el análisis inicial y procesamiento de los datos, y finalmente la construcción de la base de datos inicial para el desarrollo de la investigación. CAPÍTULO 3. DISEÑO Y CONSTRUCCIÓN DEL PROTOTIPO Este capı́tulo se compone del análisis realizado a los datos preparados en el capı́tulo previo, haciendo uso de la técnica de minerı́a de datos elegida. Se realiza la construcción del prototipo y el descubrimiento del conocimiento dentro de los datos. PARTE III. CIERRE DE LA INVESTIGACIÓN CAPÍTULO 4. RESULTADOS Y DISCUSIÓN Este capı́tulo presenta los resultados obtenidos una vez finalizada la aplicación de la técnica de minerı́a de datos, a su vez también se presenta el conocimiento generado. CAPÍTULO 5. CONCLUSIONES En este capı́tulo se expresan las conclusiones del trabajo de investigación. CAPÍTULO 6. PROSPECTIVA DEL TRABAJO DE GRADO En este capı́tulo se expresan los posibles trabajos que pueden derivarse de esta investigación..

(30) 30. 1.8.. CAPÍTULO 1. DESCRIPCIÓN DE LA INVESTIGACIÓN. Estudios de sistemas previos. En esta sección se presenta la revisión de algunos trabajos o investigaciones relacionados con el tema de accidentes de trafico en la ciudad Bogotá y el análisis de datos a través de los arboles de clasificación. Dentro del grupo de las investigaciones realizadas sobre accidentalidad en Bogotá, tenemos a [7] donde busca identificar, caracterizar y analizar los puntos más crı́ticos de accidentalidad en Bogotá a partir de tres aspectos: el diseño geométrico, el tránsito y la señalización, con el fin de determinar las causas de accidentalidad y proponer alternativas de solución. En el grupo de trabajos sobre el análisis de datos mediante técnica de minerı́a de datos, encontramos a [4] donde presenta una descripción sobre el concepto de arboles de decisión, sus métricas y algoritmos de construcción. También se reviso literatura relacionada a las diferentes metodologı́as requeridas en la minerı́a de datos, como se muestran en [16] y [5]..

(31) Parte II DESARROLLO DE LA INVESTIGACIÓN. 31.

(32)

(33) Capı́tulo 2 RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS 2.1.. Tecnologı́as de apoyo. Para los procesos de tratamiento, transformación de los datos, y la construcción de los modelos se utilizaron tecnologı́as de código abierto como Pentaho Data Integration Vesion 8.1, MongoDB y Anaconda. Para la realización de los procesos ETL se encuentran herramientas de código abierto como Pentaho Data Integration, que permite fácilmente el desarrollo de estos procesos; razón por la que se escogió, además de que se cuenta con experiencia en el manejo de la herramienta, lo que redujo la curva de aprendizaje en el desarrollo del trabajo de investigación. Las tecnologı́as a utilizar en el almacenamiento de los datos dependen del tipo de datos que se quieran tratar (estructurados, semi-estructurados o no estructurados), y la base de datos NoSQL MogoDB ofrece un almacenamiento de datos no estructurado basado en documentos. Para el proyecto se elige MongoDB, debido a que fácilmente las variables que forman parte del estudio pueden cambiar (es posible incorporar o eliminar variables) o ampliar su rango de categorización, y MongoDB permite adaptar los registros de manera sencilla, además de proveer una versión gratuita. Al comparar estas necesidades con una base de datos SQL, agregar una nueva variable al estudio o ampliar la categorización de la misma nos implica una modificación al modelo de datos construido. 33.

(34) 34. CAPÍTULO 2. RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS. Para la construcción de los modelos de análisis y minerı́a de datos, se utilizó un ambiente de desarrollo Python Anaconda, ya que es un lenguaje sencillo, rápido y fácil para aprender, y cuenta con librerı́as especializadas para la manipulación y tratamiento de datos, como lo son Pandas, Numpy y en el caso de machine learning, Scikit-learn, las cuales beneficiarán el proyecto en el tratamiento y la aplicación de técnicas de minerı́a de datos.. 2.2.. Fase I. Comprensión del negocio. Esta investigación se centra en el análisis del comportamiento de la accidentalidad vial y la incidencia que tienen las variables externas en la ocurrencia de estos sucesos, es por esta misma situación que se requiere que los datos de esta investigación sean verı́dicos.. Debido al motivo anteriormente expuesto, se recurren a los datos oficiales provistos por el gobierno de Colombia.. Según los datos recolectados, la zona de Bogotá donde se presentan el mayor número de accidentes vehiculares (registrados) es en la localidad de Usaquén, seguida por la localidad de Kennedy y Engativá, cuyos consolidados entre los años 2015 y 2017 superan los 9100 accidentes..

(35) 2.2. FASE I. COMPRENSIÓN DEL NEGOCIO Localidad. 35. Cantidad de accidentes. USAQUÉN 9601 KENNEDY 9469 ENGATIVÁ 9138 SUBA 8481 FONTIBON 7255 PUENTE ARANDA 6258 CHAPINERO 5777 BARRIOS UNIDOS 5164 TEUSAQUILLO 5075 BOSA 3590 CIUDAD BOLÍVAR 3029 LOS MÁRTIRES 2977 SANTA FE 2217 TUNJUELITO 2195 RAFAEL URIBE URI- 2020 BE SAN CRISTÓBAL 1829 ANTONIO NARIÑO 1651 USME 1457 CANDELARIA 494 SUMAPAZ 1 Fuente: Diseño propio.. La distribución de los accidentes según la gravedad de los mismos se puede observar en la siguiente tabla.. Gravedad del accidente Solo Daños Con Heridos Con Muertos. Cantidad de accidentes. 68136 18716 826 Fuente: Diseño propio..

(36) 36. CAPÍTULO 2. RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS. Figura 2.1: Accidentes registrados según la gravedad. Fuente: Diseño propio. Como se puede apreciar en la figura 2.1, de los accidentes registrados pocos presentan vı́ctimas fatales con un registro total de 826 siniestro, en segundo lugar se encuentran los accidentes donde se registran heridos, con un total de 18716, y para los accidentes donde se registran solo daños se observa un total de 68136 siniestros.. 2.3.. Fase II. Estudio y comprensión de los datos. Búsqueda de registros de accidentalidad vehicular Como se ha hablado en ocasiones anteriores, la búsqueda del conjunto de datos para el proyecto serán tomados de la página https://www.datos.gov.co/, el cual es un recurso de acceso libre suministrado por el Ministerio de Tecnologı́as de la Información y las Comunicaciones (MinTIC) del estado Colombiano. Los registros encontrados para la ciudad de Bogotá al inicio de este proyecto, corresponden a los años 2015, 2016 y 2017..

(37) 2.3. FASE II. ESTUDIO Y COMPRENSIÓN DE LOS DATOS. Figura 2.2: Registros de accidentes de tránsito en Bogotá (2015-2017). Fuente: [26].. 37.

(38) 38. CAPÍTULO 2. RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS De los registros recopilados podemos destacar los siguientes datos:. Caracterı́stica fecha gravedadnombre clasenombre choquenombre objetofijonombre direccion tipovia localidad horaocurrencia tipodiseño. tipotiempo totalmuertos totalheridos causaconductoridesc. causapeatonidesc causavehiculoidesc causapasajeroidesc. Descripción Fecha en la que se registra el accidente. Descripción de la gravedad del accidente. Clasificación del tipo de accidente. Identifica con que tipo de objeto se produjo el accidente. Identifica con que tipo de objeto fijo se produjo el accidente. Indica la dirección del accidente. Indica si el lugar donde se presentó el accidente es una calle, carrera, etc. Nombre de la localidad donde se presentó el accidente. Hora en la que se presentó el accidente. Nombre de la estructura vial donde se presentó el accidente (Glorienta, tramo via, intersección, etc.). Indica el tipo de tiempo o clima presente en el accidente. Número de muertos registrados en el accidente. Número de heridos registrados en el accidente. Descripción de la causa, si la autoridad de tránsito determina que pertenece al conductor. Descripción de la causa, si la autoridad de tránsito determina que pertenece al peatón. Descripción de la causa, si la autoridad de tránsito determina que pertenece al vehı́culo. Descripción de la causa, si la autoridad de tránsito determina que pertenece al pasajero. Fuente: Diseño propio..

(39) 2.3. FASE II. ESTUDIO Y COMPRENSIÓN DE LOS DATOS. 39. Identificación de problemas de calidad y conocimiento preliminar En un primer acercamiento a cada una de las caracterı́sticas que nos ofrecen los datos, podemos observar algunas de las particularidades con que cuentan los registros consultados. Por ejemplo, en los registros, los valores pertenecientes a los atributos de latitud y longitud son siempre ‘0’, razón por la cual no podrán formar parte del estudio.. Figura 2.3: Hallazgos en dataset de accidentes de tránsito en Bogotá 2015. Fuente: [26]. Al validar el formato del atributo fecha que posee el año 2017, se encuentra que difiere de los de los años 2015 y 2016, por lo que se hace necesario estandarizar estos valores. De igual modo, vemos que existen palabras que contienen letras como la ‘ñ’, y puede provocar algunos errores al momento de usar las herramientas de procesamiento, ası́ que se ha tomado la decisión de reemplazarlas por la letra ‘n’..

(40) 40. CAPÍTULO 2. RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS. De los datos reunidos hasta el momento es posible encontrar nuevo conocimiento, por ejemplo, las franjas horarias donde se presenta la mayor cantidad de accidentes durante el dı́a. En la figura 2.4, se puede observar una gran franja donde los accidentes vehiculares son más frecuentes, en esta franja se supera la cifra de 4000 siniestros la cual está comprendida entre las 6 de la mañana y las 8 de la noche.. Figura 2.4: Accidentes Vs hora de ocurrencia. Fuente: Diseño propio. En la figura 2.5, se puede observar esta misma tendencia en los datos, esta vez marcando la cantidad de accidentes distribuidos por la gravedad de los mismos. Como se observa, los accidentes marcados con la lı́nea naranja (accidentes registrados con muertes) está presente a lo largo de todas las horas del dı́a, pero su valor es muy pequeño en comparación a los demás accidentes registrados (826 casos, que equivalen al 0.942 % del total de datos del dataset)..

(41) 2.3. FASE II. ESTUDIO Y COMPRENSIÓN DE LOS DATOS. Figura 2.5: Accidentes Vs hora de ocurrencia (Distribución por gravedad). Fuente: Diseño propio. Figura 2.6: Distribución de accidentes por cuartiles. Fuente: Diseño propio. 41.

(42) 42. CAPÍTULO 2. RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS. En la figura 2.6 se observa la distribución de los accidentes por cuartiles con la ayuda del diagrama de cajas y bigotes, este diagrama nos muestra la relación de distribución de los accidentes de cada dı́a de la semana. Inicialmente, podemos dividir estos resultados en dos grupos con caracterı́sticas similares; uno de los grupos está compuesto por los dı́as Lunes, Martes y Sábados, y los dı́as Miércoles, Jueves, Viernes y Domingos formarán parte del segundo grupo. En el grupo uno, el primer cuartil está ubicado cerca de las nueve horas aproximadamente, mientras que en grupo número dos, este valor está cercano a las ocho de la mañana. Al ver la mediana de este conjunto de valores, encontramos que su valor está sobre las 13:00 horas (ó 1:00 p.m) para ambos grupos, y finalmente su tercer cuartil también coincide, marcado en el valor de las 17:00 horas o las 5:00 p.m aproximadamente.. Figura 2.7: Densidad sobre la distribución de accidentalidad. Fuente: Diseño propio En la figura 2.7, se muestra la densidad que muestran estos accidentes a lo largo de las horas del dı́a, mostrando una coincidencia entre los picos más altos en los accidentes registrados con heridos o muertos, los cuales se centran entre las cinco y las nueve de la mañana aproximadamente; en cambio, el pico más alto para los.

(43) 2.4. FASE III. PREPARACIÓN DE LOS DATOS. 43. accidentes donde sólo se registran daños a los vehı́culos, está al rededor de la una y las tres de la tarde.. 2.4.. Fase III. Preparación de los datos. Preparación inicial de los datasets Habiendo identificado en primera instancia algunas caracterı́sticas de los datos, procedemos a realizar una primera normalización para los puntos comentados previamente, teniendo como resultado nuestros conjuntos de datos base.. Figura 2.8: Dataset de accidentes de tránsito en Bogotá 2015 actualizado. Fuente: [26]..

(44) 44. CAPÍTULO 2. RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS. Proceso ETL Para manipular el gran conjunto de datos recopilado, nos apoyamos en el software de integración de datos, Pentaho Data Integration. Version 8.1, en donde se crearon diferentes transformaciones, enlazadas dentro de un job, para la consolidación de una única base de datos NoSQL.. Figura 2.9: Job ETL para el tratamiento de datos. Fuente: Diseño propio. En la imagen 2.9, podemos ver el Job creado para el tratamiento de los datos asociados a la accidentalidad en la ciudad de Bogotá, este está compuesto prin-.

(45) 2.4. FASE III. PREPARACIÓN DE LOS DATOS. 45. cipalmente por cuatro transformaciones (AccidentesXMLTransformation, Accidentes2017Transformation, CSVConsolidado y CargueBD), más objetos para la validación de la existencia de los datasets y control de errores. Las transformaciones fueron creadas para que cumplan cuatro tareas fundamentales: AccidentesXMLTransformation: En esta transformación se procesan los dataset descargados en formato XML, y se exporta un solo archivo de extensión csv. Accidentes2017Transformation: Esta transformación trabaja sobre el dataset en formato csv, exportando un archivo del mismo tipo. CSVConsolidado: Esta transformación es la encargada de generar un consolidado total de los datos relacionados al estudio. CargueBD: En esta transformación se toma el consolidado total de los registros trabajados y se cargan a una base de datos Mongo, para su posterior uso.. Figura 2.10: Transformación ‘AccidentesXMLTransformation’. Fuente: Diseño propio.. En la figura 2.10, se pueden apreciar el flujo desarrollado para el filtrado de registros en los archivos XML, para el caso del dataset correspondiente al año 2017 se crea un flujo similar con el tratamiento del archivo CSV..

(46) 46. CAPÍTULO 2. RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS. Figura 2.11: Filtro por caracterı́sticas. Fuente: Diseño propio. La figura 2.11 muestra las condiciones usadas para el filtrado de los registros, para este estudio se determinó trabajar con todas las localidades de la ciudad de Bogotá y cuyo tipo de accidente corresponda a choque o volcamiento.. Figura 2.12: Transformación ‘CSVConsolidado’. Fuente: Diseño propio..

(47) 2.4. FASE III. PREPARACIÓN DE LOS DATOS. 47. En la figura 2.12 se muestra la transformación ‘CSVConsolidado’, la cual es la encargada de tomar los resultados de las anteriores transformaciones y dejarlos en un solo archivo de extensión CSV, como se muestra en la figura 2.13.. Figura 2.13: Archivos exportados por las transformaciones. Fuente: Diseño propio. Finalmente, los resultados generados por las anteriores transformaciones son seleccionados y cargados en una base de datos Mongo, por medio de la transformación ‘CargueBD’, la cual se muestra en la figura 2.14. Las caracterı́sticas cargadas se muestran en la figura 2.15.. Figura 2.14: Transformación ‘CargueBD’. Fuente: Diseño propio..

(48) 48. CAPÍTULO 2. RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS. Figura 2.15: Variables seleccionadas para el modelo. Fuente: Diseño propio. En la figura 2.16, podemos observar las variables cargadas en la base de datos Mongo, con un total de 87678 documentos.. Figura 2.16: Registros cargados en MongoDB. Fuente: Diseño propio..

(49) 2.4. FASE III. PREPARACIÓN DE LOS DATOS. 49. Adición de nuevas variables al conjunto de datos En este momento ya contamos con una base de datos acotada para trabajar, pero antes de avanzar a la fase de modelado, se han incorporado tres nuevas variables dentro de ella. Estas variables son: 1. El dı́a de la semana. 2. Un valor para identificar si el dı́a de accidente fue festivo o no. 3. Un valor para indicar si el accidente ocurrió dentro de la franja de pico y placa que está determinada para la ciudad de Bogotá, cuyo horario es de 06:00 a 08:30 y de 15:00 - 19:30. Para calcular y actualizar estas variables dentro de la base de datos, se crean varios archivos, uno principal llamado “procesamientoDataSet.py”, que contiene la orquestación de las acciones necesarias para la actualización de variables y el archivo “Funciones.py”, que contiene la lógica de cálculo y actualización de las mismas. En el siguiente fragmento de código se observa la clase principal, la cual contiene la definición y llamado a las funciones de actualización de variables dentro del dataset. 1000. 1002. 1004. 1006. 1008. 1010. 1012. 1014. 1016. 1018. if. name == ’ m a i n ’ : try : #Se c r e a l a c o n e x i o n con e l s e r v i d o r de Base de Datos c l i e n t = MongoClient ( d b S e r v e r ) #Se i n d i c a e l Nombre de l a Base de Datos db = c l i e n t [ dbName ] #Se i n d i c a e l Nombre de l a C o l e c c i o n c o l l e c t i o n = db [ c o l l e c t i o n N a m e ] p r i n t ( ” Conexion e s t a b l e c i d a . ” ) # Se a c t u a l i z a n r e g i s t r o s d e n t r o d e l DataSet transformacionDeDatos ( c o l l e c t i o n ) # Se n o r m a l i z a n l o s a t r i b u t o s d e l DataSet normalizacion ( c o l l e c t i o n ) except : print ( ” Error : Fallo a l i n t e n t a r e s t a b l e c e r conexion . ” ) finally : #C i e r r e de l a c o n e x i o n a Base de Datos client . close () p r i n t ( ” Conexion c e r r a d a . ” ).

(50) 50. CAPÍTULO 2. RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS. La función transformacionDeDatos, se encarga de hacer los llamados a las funciones de actualización de cada una de las variables (Para ver en detalle la función dirigirse a los anexos). El archivo Funciones.py tiene toda la lógica del cálculo de las variables anteriormente descritas y almacenadas en la base de datos de trabajo. En el siguiente fragmento, se pueden ver algunas funciones de este archivo (Para ver en detalle las funciones del archivo, dirigirse a los anexos). 1000. 1002. 1004. c l a s s Funciones ( ) : # A c t u a l i z a l o s documentos con e l a t r i b u t o de d i a F e s t i v o d e f a c t u a l i z a D i a F e s t i v o ( s e l f , conn , d i a s L i s t ) : ””” ” A c t u a l i z a e l DataSet con l o s d i a s f e s t i v o s ””” #Se a c t u a l i z a n t o d o s l o s r e g i s t r o s con un nuevo campo llamado ’ F e s t i v o ’ su v a l o r i g u a l a ’No ’ conn . update many ( { } , {” $ s e t ” : { ” F e s t i v o ” : ”No” } } ). 1006. 1008. #A c t u a i l z a c i o n de l o s r e g i s t r o s de l a Base de Datos en f u n c i o n de l a s f e c h a s cargadas ( A c t u a l i z a c i o n a ” Festivo ”:” Si ”) for l i n e in diasList : conn . update many ( { ’ F e c h a O c u r r e n c i a ’ : l i n e . s t r i p ( ) } , {” $ s e t ” : { ” Festivo ” : ” Si ” }}). 1010. p r i n t ( ” Fin de l a a c t u a l i z a c i o n de r e g i s t r o s con d i a f e s t i v o . ” ) 1012. 1014. 1016. # A c t u a l i z a l o s documentos con e l a t r i b u t o d e l d i a de l a semana d e f a c t u a l i z a D i a S e m a n a ( s e l f , conn , ) : ””” ” A c t u a l i z a e l DataSet con e l d i a de l a semana ””” # Se buscan t o d a s l a s f e c h a s d e l data s e t l i n e s = conn . d i s t i n c t ( ” F e c h a O c u r r e n c i a ” ). 1018. 1020. 1022. for l i n e in l i n e s : sp = l i n e . s p l i t ( ”−” ) f e c h a = d a t e ( i n t ( sp [ 0 ] ) , i n t ( sp [ 1 ] ) , i n t ( sp [ 2 ] ) ) conn . update many ( { ’ F e c h a O c u r r e n c i a ’ : l i n e . s t r i p ( ) } , {” $ s e t ” : { ” DiaSemana” : diaSemana [ f e c h a . weekday ( ) ] } } ) p r i n t ( ” Fin de l a a c t u a l i z a c i o n de r e g i s t r o s con d i a de l a semana .. 1024. ”). Como se puede observar en los códigos anteriores, se requiere un archivo “diasFestivosYMD.txt”, que contiene las fechas que corresponden a los dı́as festivos según el calendario Colombiano. A continuación un fragmento de este archivo..

(51) 2.4. FASE III. PREPARACIÓN DE LOS DATOS. 1000. 1002. 1004. 1006. 1008. 1010. 51. 2015−01−01 2015−01−12 2015−03−23 2015−03−29 2015−04−02 2015−04−03 2015−04−05 2015−05−01 2015−05−18 2015−06−08 2015−06−15 .... En la figura 2.17, se puede observar el resultado de la ejecución de este código.. Figura 2.17: Registros con nuevas variables. Fuente: Diseño propio..

(52) 52. CAPÍTULO 2. RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS. En este punto, ahora con la identificación de los dı́as de la semana en la que ocurren los siniestros viales, es posible analizar el comportamiento de estos último a lo largo de cada uno de estos dı́as.. En el caso de los accidentes presentados entre semana, se observa un mayor número en el dı́a viernes, mientras que el dı́a lunes es donde menos se registran.. Figura 2.18: Distribución de accidentes entre semana. Fuente: Diseño propio.

(53) 2.4. FASE III. PREPARACIÓN DE LOS DATOS. 53. Figura 2.19: Distribución de accidentes con muertos entre semana. Fuente: Diseño propio En la figura 2.20, se observa la distribución de los accidentes durante los fines de semana, manteniendo el valor más alto registrado en los dı́as viernes, el cual empieza a decrecer hasta llegar al dı́a domingo.. Figura 2.20: Distribución de accidentes fin de semana. Fuente: Diseño propio.

(54) 54. CAPÍTULO 2. RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS. Figura 2.21: Distribución de accidentes con muertos fin de semana. Fuente: Diseño propio En una perspectiva más global, la figura 2.22 muestra la distribución de los accidentes a lo largo de la semana completa, siendo los dı́as Martes, Viernes y Sábados los que más registran accidentes.. Figura 2.22: Distribución de accidentes semana completa. Fuente: Diseño propio.

(55) 2.4. FASE III. PREPARACIÓN DE LOS DATOS. 55. En cuanto a la distribución de los accidentes por el tipo del mismo, se puede apreciar en la siguiente tabla. Tipo de accidente Choque. Volcamiento. Gravedad del accidente. Cantidad de accidentes. Con Heridos Con Muertos Solo Daños Con Heridos Con Muertos Solo Daños Fuente: Diseño propio.. 17991 699 67976 725 127 160. Como se observa en la figura 2.23, existe una mayor cantidad de accidentes de tipo “Choque” entre las siete de la mañana y las siete de la noche.. Figura 2.23: Distribución accidentes tipo choque. Fuente: Diseño propio.

(56) 56. CAPÍTULO 2. RECOPILACIÓN Y PREPROCESAMIENTO DE DATOS. En cuanto a los accidentes de tipo “Volcamiento”, la figura 2.24 muestra su pico más alto entre las cinco y las ocho de la mañana.. Figura 2.24: Distribución accidentes tipo volcamiento. Fuente: Diseño propio.

(57) Capı́tulo 3 DISEÑO Y CONSTRUCCIÓN DEL PROTOTIPO 3.1.. Fase IV. Modelado. Habiendo tratado los datos, y consolidado la información relevante para el estudio, se procede a evaluar la técnica de minerı́a de datos a aplicar, que para este caso es el Árbol de Decisión.. Tratamiento del Dataset Dando un vistazo a la figura 3.1, se puede identificar los tipos de variables existentes dentro del dataset. Estas son las variables numéricas discretas y las variables categóricas, también se puede observar al final del mismo la variable “GravedadAccidente”, la cual será variable objetivo para el modelo.. Figura 3.1: Variables del dataset construido. Fuente: Diseño propio. 57.

(58) 58. CAPÍTULO 3. DISEÑO Y CONSTRUCCIÓN DEL PROTOTIPO Tipo Variable Numérica Discreta Categórica. Objetivo. Variable del Dataset H, M TipoAccidente, Localidad, ZonaAccidente, TipoTiempo, Festivo, DiaSemana, FranjaPicoyPlaca GravedadAccidente Fuente: Diseño propio.. Como paso siguiente, es necesario normalizar estas variables, con la finalidad de ser aplicables a la técnica de árboles de decisión. Para lograr esto, se implementa una función en Python la cuál es la encargada de normalizar las variables categóricas asignandoles un valor numérico discreto. A continuación se describe esta función. 1000. 1002. 1004. 1006. 1008. #. I d e n t i f i c a l o s d i f e r e n t e s v a l o r e s que p o s e e cada a t r i b u t o y l e s a s i g n a un v a l o r numerico para n o r m a l i z a r l o d e f n o r m a l i z a c i o n D e A t r i b u t o s ( s e l f , conn , f i l e , v a r N o r m a l i z a c i o n ) : d i c t A t r b A c c i d e n t e s = {}. f = open ( f i l e , ’w+ ’ ) try : #Busca l o s v a l o r e s d i f e r e n t e s para cada uno de l o s a t r i b u t o s f o r atrb in varNormalizacion : d i c t A t r b A c c i d e n t e s [ a t r b ] = conn . d i s t i n c t ( a t r b ). 1010. #Se e s c r i b e a r c h i v o de p r o p i e d a d e s con l o s v a l o r e s de n o r m a l i z a c i o n a p l i c a d o s a l DataSet. 1012. f o r key , v a l i n d i c t A t r b A c c i d e n t e s . i t e m s ( ) : f o r idx , v i n enumerate ( v a l ) : data = ( key , ” : ” , v , ” : ” , s t r ( i d x ) , ”\n” ) # p r i n t ( data ) f . w r i t e l i n e s ( data ). 1014. 1016. 1018. 1020. except : p r i n t ( ” E r r o r : No s e pudo c r e a r e l a r c h i v o ” , f i l e ) finally : f . close (). Como resultado se obtiene un documento con la configuración de dicha normalización, a continuación se muestra un fragmento de dicho archivo..

(59) 3.1. FASE IV. MODELADO. 1000. 1002. 1004. 1006. 1008. 1010. 1012. 1014. 1016. 1018. 1020. 1022. 59. L o c a l i d a d :SANTA FE: 1 3 L o c a l i d a d :CHAPINERO: 1 4 L o c a l i d a d :FONTIBON: 1 5 L o c a l i d a d :CANDELARIA: 1 6 L o c a l i d a d :USME: 1 7 L o c a l i d a d :ANTONIO NARINO: 1 8 L o c a l i d a d :SUMAPAZ: 1 9 ZonaAccidente : Tramo de Via : 0 ZonaAccidente : I n t e r s e c c i o n : 1 ZonaAccidente : Lote o p r e d i o : 2 ZonaAccidente : G l o r i e t a : 3 ZonaAccidente : Tunel : 4 ZonaAccidente : Paso e l e v a d o : 5 ZonaAccidente : Paso i n f e r i o r : 6 ZonaAccidente : Paso a n i v e l : 7 ZonaAccidente : Puente : 8 ZonaAccidente : C i c l o r u t a : 9 ZonaAccidente : Via p e a t o n a l : 1 0 ZonaAccidente : Ponton : 1 1 ZonaAccidente : Via t r o n c a l : 1 2 TipoTiempo : Normal : 0 TipoTiempo : L l u v i a : 1 TipoTiempo : N i e b l a : 2 .... Una vez teniendo los valores para la normalización de cada una de las variables, son aplicadas al dataset. En la figura 3.2, se puede observar el resultado al aplicar la normalización anteriormente descrita.. Figura 3.2: Dataset normalizado. Fuente: Diseño propio..

(60) 60. CAPÍTULO 3. DISEÑO Y CONSTRUCCIÓN DEL PROTOTIPO. Elección del modelo Como se ha hablado anteriormente a lo largo del proyecto, y en el marco teórico, existe una preferencia al usar los árboles de decisión como técnica de minerı́a de datos para este trabajo, sin embargo, se realiza una evaluación de esta técnica frente a otras para comparar sus precisiones. Para esto, se implementa y ejecuta el siguiente código. 1000. 1002. 1004. 1006. d e f e v a l u a c i o n M o d e l o s (X, y , s e e d ) : # I n s t a n c i a de A l g o r i t m o s models = [ ] models . append ( ( ’ R e g r e s i o n l o g i s t i c a ’ , L o g i s t i c R e g r e s s i o n ( ) ) ) models . append ( ( ’ A n a l i s i s de D i s c r i m i n a c i o n L i n e a l ’ , LinearDiscriminantAnalysis () ) ) models . append ( ( ’ C l a s i f i c a d o r de V e c i n o s Cercanos ’ , KNeighborsClassifier () ) ) models . append ( ( ’ Arbol de D e c i s i o n ’ , D e c i s i o n T r e e C l a s s i f i e r ( c r i t e r i o n= ’ e n t r o p y ’ , max depth = 9 ) ) ) models . append ( ( ’ C l a s i f i c a d o r B ayesi ano ’ , GaussianNB ( ) ) ). 1008. scoring = ’ accuracy ’ 1010. 1012. 1014. 1016. 1018. 1020. # Evalua cada Modelo results = [] names = [ ] f o r name , model i n models : k f o l d = m o d e l s e l e c t i o n . KFold ( n s p l i t s =10 , r a n d o m s t a t e=s e e d ) c v r e s u l t s = m o d e l s e l e c t i o n . c r o s s v a l s c o r e ( model , X, y , cv= k f o l d , s c o r i n g=s c o r i n g ) r e s u l t s . append ( c v r e s u l t s ) names . append ( name ) msg = ” %s : %f ( %f ) ” % ( name , c v r e s u l t s . mean ( ) , c v r e s u l t s . s t d ( ) ) p r i n t ( msg ). Técnica. Precisión. Regresión logı́stica 0.782499 Análisis de Discriminación Lineal 0.775698 Clasificador de Vecinos Cercanos 0.743117 Árbol de Decisión 0.780246 Clasificador Bayesiano 0.764305 Fuente: Diseño propio..

(61) 3.1. FASE IV. MODELADO. 61. Como se puede apreciar en la tabla anterior, la precisión de las diferentes técnicas de minerı́a de datos aplicadas sobre el caso de estudio están en valores cercanos unas de otras, este valor va desde el 74 % hasta el 78 % aproximadamente. Las dos técnicas que presentan los mayores porcentajes de precisión son la Regresión logı́stica y el Árbol de Decisión respectivamente, pero aún hace falta evaluar la profundidad del árbol para obtener posiblemente mejores resultados. Para evaluar la profundidad ideal del árbol de decisión, se implemento el siguiente código en Python. Este usa la función model selection.cross val score de sklearn, la cual usa el método de validación cruzada para el entrenamiento del árbol de decisión en cada una de las posibles profundidades del mismo. 1000. 1002. 1004. 1006. 1008. 1010. d e f p r o f u n d i d a d A r b o l ( p r e d i c t o r s , X, y , s e e d ) : accuracies = l i s t () depth range = range (1 , len ( p r e d i c t o r s ) + 1) print ( depth range ) # I t e r a c i o n para cada una de l a s p o s i b l e s p r o f u n d i d a d e s d e l a r b o l , basado en l a s c a r a c t e r i s t i c a s d e l d a t a s e t f o r depth i n d e p t h r a n g e : model = D e c i s i o n T r e e C l a s s i f i e r ( c r i t e r i o n= ’ e n t r o p y ’ , m i n s a m p l e s s p l i t =10 , m i n s a m p l e s l e a f =5, max depth = depth ) k f o l d = m o d e l s e l e c t i o n . KFold ( n s p l i t s =10 , r a n d o m s t a t e=s e e d ). 1012. 1014. 1016. 1018. c v r e s u l t s = m o d e l s e l e c t i o n . c r o s s v a l s c o r e ( model , X, y , cv=k f o l d , s c o r i n g=s c o r i n g ) a c c u r a c i e s . append ( c v r e s u l t s . mean ( ) ) # Mostramos l o s r e s u l t a d o s o b t e n i d o s d f = pd . DataFrame ( { ” Profundidad Max” : d e p t h r a n g e , ” P r e c i s i o n Promedio ” : a c c u r a c i e s }) p r i n t ( d f . t o s t r i n g ( i n d e x=F a l s e ) ). Los resultados de la precisión para cada uno de los niveles de profundidad se muestran en la siguiente tabla, donde se puede observar que con niveles más bajos de profundidad la precisión alcanza a la obtenida por la Regresión logı́stica evaluada anteriormente..

(62) 62. CAPÍTULO 3. DISEÑO Y CONSTRUCCIÓN DEL PROTOTIPO Profundidad Max 1 2 3 4 5 6 7 8 9. Precisión Promedio. 0.782499 0.782499 0.782499 0.782499 0.782485 0.782242 0.781586 0.780631 0.780260 Fuente: Diseño propio.. Figura 3.3: Precisión Vs Profundidad. Fuente: Diseño propio. Como se observa en la figura 3.3, en cuanto los niveles de profundidad del árbol de decisión son más bajos, la precisión en más alta (alcanzando una precisión del 78.2499 %), y a medida que la profundidad aumenta, su precisión disminuye hasta.