Resultados de la comparación con otros algoritmos basado en árboles

Capítulo 6. Resultados y discusión

6.4 Resultados de la comparación con otros algoritmos basado en árboles

80 lesiones en un radio de 100 metros, donde hay entre 5 y 8 accidentes dentro del área de influencia de los accidentes sin lesionados, donde hay más de un accidentes dentro del área de influencia de accidentes con atropellados fatales y donde hay uno o menos accidentes dentro del área de influencia de otro tipo de accidentes.

Tomando en cuenta los resultados de nuestros experimentos, se resume que, de las características, las áreas de influencia alrededor de los accidentes con lesionados o sin lesionados tienen importancia, así como las intersecciones, estaciones de metrobus, cruces peligrosos, paradas de RTP, bares y clubes nocturnos.

6.4 Resultados de la comparación con otros algoritmos basado en

PRECISIÓN ROC_AUC KAPPA MCC DT C5.0 0.84350862 0.8915 0.50336981 0.5068785412

Cuadro 26. Resultados de la clasificación para el año 2019.

Fuente: Elaboración propia con información de los resultados del modelo generado.

En el mapa de la figura 12 se ve el resultado de la estimación de los hexágonos donde ocurrió al menos un accidente de tránsito.

Figura 12. Comparación entre lo real y predicho, Alcaldía Benito Juárez.

Fuente: Elaboración propia con información de los resultados del modelo generado

En los siguientes mapas de las figuras 13 y 14 podemos visualizar la comparación de los verdaderos positivos y los verdaderos negativos.

Figura 13. Comparación entre lo real y predicho, clase positiva 1.

Fuente: Elaboración propia con información de los resultados del modelo generado.

Figura 14. Comparación entre lo real y predicho, clase negativa 0.

Fuente: Elaboración propia con información de los resultados del modelo generado

Se pueden mencionar algunos estudios similares como el de (Fuentes &

Hernández , 2009) donde se explora la influencia de la estructura espacial en la ocurrencia de los accidentes de tránsito donde usan un modelo de regresión binomial negativo que resulta una relación positiva estadísticamente significativa

83 entre densidad de empleo terciario, el flujo vehicular e ingreso. Por otro lado, atributos como densidad de población y densidad de empleo manufacturero tienen una relación negativa con la probabilidad de sufrir un accidente. En (Lankarini, y otros, 2013) encontraron que iluminación de la vía pública, condiciones de clima, pendiente pronunciada de las calles, geometría de las calles y la condición de la superficie de la red vial son factores de importancia en la ocurrencia de los accidentes de tránsito. En (Potoglou, Carlucci, Cirá, & Restaino, 2018) usando un modelo de regresión logística sugiere que la severidad de los accidentes se incrementa cuando dos conductores jóvenes se ven involucrados en un accidente, cuando no hay muchos niveles de tráfico y en vialidades de ida y vuelta.

En (Chen, Ma, & Wang, 2019) llevan a cabo un análisis de accidentes peatonales para ver la correlación entre estos y puntos de interés como predictores, donde específicamente las paradas de autobuses, hospitales, farmacias, restaurantes y edificios de trabajo, tienen un impacto positivo, mientras que en hoteles tienen una correlación negativa. De este trabajo rescatamos la positiva correlación con paradas de autobuses similar a lo encontrado en este trabajo.

Respecto a la comparación con otros algoritmos existen trabajos como el de (Shanthi & Ramani, 2011) donde aplican minería de datos para descubrir patrones relacionados con la ocurrencia de los accidentes de tránsito, donde utilizan varios algoritmos basado en árboles para determinar cuál de ellos tiene un mejor desempeño, obteniendo que el algoritmo de Bosques Aleatorios son los que mejor lo hacen con 87.3% de precisión.

En (De Campos, Dos Santos, & Pitombo, 2018) se hace una caracterización de las municipalidades con altas tasas de fatalidades en accidentes de tránsito usando algoritmo de árboles de decisión CART con base en variables socioeconómicas como nivel de desarrollo, densidad poblacional, número de viaje por red vial y producto interno bruto obtiene una precisión de 61.2%, siendo el producto interno bruto la variable con mayor importancia. En este trabajo (Yuan , Zhou, Yang, Tamerius, & Mantilla, 2017) se formuló a un problema de clasificación.

Se evaluaron cuatro modelos de clasificación, maquinas vectoriales de soporte (SVM), arboles de decisión (DT), bosques aleatorios (RF) y redes neuronales

84 profundas (DNN). El desempeño Redes Neuronales profundas (DNN) tuvo mejor desempeño logra la mayor área bajo la curva (AUC) y la precisión de 0.9612 y 0.9512 respectivamente. En este trabajo (Taamneh, Alkheder, & Taamneh, 2016) se usan técnicas de minería de datos para crear un modelo predictivo para nivel de lesión en un accidente de tránsito. Fueron implementados cuatro algoritmos como son: DT, reglas de asociación (PART), Bayes Ingenuo (NB) y perceptrón multicapa (MLP). El árbol junto con el perceptrón multicapa tuvieron el mejor desempeño con 0.88 y 0.83 respectivamente. Los resultados mostraron que los principales factores asociados con lesiones de gravedad fueron edad, género, nacionalidad, número de lesionados, año del accidente y el tipo de colisión.

Cada trabajo tiene objetivos diferentes, algunos parecidos entre sí y otros no tanto, se utilizan diversas variables y metodologías, así como distintas métricas para definir los algoritmos con mejor desempeño. En este análisis usamos algoritmos basados en árboles y puntos de interés como variables para representar y descubrir patrones en los accidentes y poder predecir su riesgo en unidades territoriales como los hexágonos. Por otra parte, cada lugar donde se realizan los estudios, tienen dinámicas de movilidad distintas, influenciadas por la densidad poblacional y la red vial de cada uno.

Conclusiones

En esta tesis se hizo un análisis exploratorio de la temporalidad y ocurrencia de los datos extraídos del portal de datos abiertos de la ciudad de México del C5 de 2014 a 2019, estudiando las distintas metodologías propuestas en la literatura respecto a la minería de datos y los accidentes de tránsito.

Para ello, se planteó la generación de una malla hexagonal como unidad territorial de estudio para la agregación de puntos de interés y los tipos de accidentes, así como áreas de influencia de distintos radios a partir de los puntos donde ocurren los accidentes. Asimismo, se hizo uso de un árbol de decisión, específicamente el algoritmo C5.0 como generador de reglas de decisión que permitan representar patrones en la relación entre puntos de interés y la ocurrencia de los accidentes. Se estudia la influencia de cada una de las características clasificadoras en la creación de los árboles de decisión que deben de ser consideradas a la hora de plantear medidas de seguridad vial.

Adicionalmente, se comparó con otros algoritmos basados en árboles para determinar el mejor desempeño para clasificar si ocurrirá o no, un accidente de tránsito por unidad territorial o hexágono. Los algoritmos usados fueron: árbol de decisión (CART), bosques aleatorios, métodos de potenciación y métodos de potenciación de gradiente.

Partiendo de las diferentes métricas estudiadas, se ha seleccionado el Coeficiente de Correlación de Matthews (MCC) para elegir el de mejor desempeño, por considerar que ofrece una mejor evaluación del clasificador, dado que hay un desbalance en la variable objetivo; sin embargo, también se reportan precisión, coeficiente de cohen kappa y área bajo la curva ROC. Esto se logró a través de validación cruzada con 10 folds para tener una medida más estable del error real de la clasificación.

Con base a lo anterior, se destacan las principales aportaciones o contribuciones sobre los resultados obtenidos en esta tesis:

 De las 16 alcaldías de la Ciudad de México, 5 concentran el 54% de los accidentes ocurridos entre 2014 y 2019, éstas son: Iztapalapa 14.3%, Cuauhtémoc 12%, GAM 10.8%, Miguel Hidalgo 8.79% y Benito Juárez 8.32%.

 A partir de 2016, los reportes por accidentes de tránsito registrados por C5 se han mantenido constantes en un promedio diario de 200 que coincide con la aplicación del nuevo Reglamento de Tránsito que entró en vigor en diciembre de 2015.

 Los meses de marzo y octubre son los meses con mayor número de accidentes.

 Los viernes son los días con mayor número de accidentes.

 Las horas de mayor número de accidentes son las 15 y las 19 horas.

 Los accidentes fatales se dan los fines de semana entre las 0 y las 5 horas.

Dado que uno de los objetivos del presente trabajo es verificar si los puntos de interés tienen una influencia en la ocurrencia de los accidentes de tránsito, a partir de los resultados del análisis realizado, se encontraron los siguientes hallazgos:

 De entre los patrones encontrados, se destaca que tanto las intersecciones (en general) tanto como aquellas donde se encuentra un semáforo, juegan un papel importante en cada unidad territorial respecto a la ocurrencia de un accidente de tránsito. Esto puede deberse en principio, al tamaño del radio seleccionado de los hexágonos (100m); así como de que la raíz del árbol generado empieza con la variable intersección.

 Los cruces peligrosos tienen una relación significativa con la ocurrencia de accidentes.

 Las paradas de RTP, metrobus y trolebus también juegan un papel importante a la hora de la ocurrencia de los accidentes de tránsito.

 Las áreas de influencia de 100 y 200 metros de los accidentes con y sin lesión aparecen como las variables más importantes arrojadas por el

88 algoritmo, esto puede deberse a que son la mayoría de los tipos de accidentes y tienen mayor presencia en las unidades territoriales.

 Los puntos de interés como bares y el área de influencia de 300 metros de los clubes nocturnos, presentan una relación positiva en la ocurrencia de los accidentes de tránsito.

 A pesar de ser un algoritmo simple respecto a otros para este conjunto de datos, el C5.0 resultó ser el de mejor desempeño.

 La clasificación para el año 2019 arroja una precisión de 0.84, un área bajo la curva ROC de 0.891, coeficiente de cohen kappa de 0.5033 y un coeficiente de correlación de Matthews de 0.5068.

Bajo el supuesto establecido y desarrollado en esta tesis se puede proveer una ubicación geográfica sobre un posible accidente, lo que sería de utilidad para las autoridades que velan por la reducción de estos eventos, dando herramientas para la toma de decisiones, permitiendo respuestas más eficientes a la prevención de los mismos. Por otro lado, el establecimiento de soluciones con relación a la seguridad vial basadas en inteligencia artificial hasta ahora, no han sido muy exploradas por las autoridades a cargo. Sin embargo, las instituciones y autoridades poseen un amplio conocimiento e información acerca de los patrones relacionados con la ocurrencia de los accidentes de tránsito, por lo que propuestas como la de esta tesis podría ser funcional para empezar a explorar otro tipo de soluciones y medidas.

Otro punto a considerar, es la generación de información sobre los accidentes, los datos recogidos de la escena del accidente de tránsito deben ser los adecuados para que las autoridades cuenten con la información completa de la forma en que ocurren los accidentes, tal como el o los tipos de vehículos implicados, tipo de vialidad, la inclinación, la visibilidad, los obstáculos, la señalización o infraestructura urbana, las condiciones del pavimento, ancho de la vía, amplitud de los carriles, ubicación y estado de las luminarias de alumbrado público, el clima en el momento del accidente, huellas de frenado, rastros de derrape, ubicación de trozos de vidrio, evaluación de posibles maniobras realizadas por conductores, rastros de pintura ajena a la carrocería del vehículo, pormenores de los daños,

89 información personal de conductores, día del mes y semana, horario y cualquier otro tipo de información que los expertos consideren necesarios consignar en los reportes como información importante.

Es imposible abarcar todas las líneas de investigación que conllevan los eventos de accidentes de tránsito. Tal como se mostró anteriormente, existe una gran cantidad de estudios y análisis sobre esta problemática. Por tanto, esta investigación propone un análisis basado en una malla hexagonal con agregaciones discretas de puntos de interés y áreas de influencia para encontrar patrones y el mejor algoritmo basado en árboles para predecir el riesgo de ocurrencia en cada hexágono o unidad territorial, mismos que pueden ser una aportación para empezar a tomar acciones más puntuales que ayuden a la reducción de los accidentes de tránsito con base en la inteligencia artificial en México.

Para posibles futuras investigaciones, se puede enriquecer un poco más las celdas de la malla hexagonal con datos sobre Origen-Destino y datos sociodemográficos; es decir, se tendrían celdas que son destino de muchos viajes o que son origen de muchos viajes, celdas con una alta o baja densidad poblacional.

Otra puede ser la generación de un inventario de infraestructura vial o de señalamientos en la ciudad que permita inferir si debido a la completa o incompleta señalización vial ocurren o no, una determinada cantidad de accidentes de tránsito.

Algunas variables adicionales que se podrían incluir son:

 Promedio de velocidad por calle.

 Límites de velocidad por calle.

 Geometría de las calles (curvas, inclinación, forma de T, etc.).

 Número de carriles y ancho de las calles.

 Proximidad a carreteras o arterias principales.

 Datos del clima (lluvia por día, niebla, huracanes, etc.).

 Temporalidad (día de la semana, mes).

 Condición de las calles (baches, topes, etc.).

 Nivel de embotellamientos.

90 Otra opción podría ser probar otro tipo de algoritmos de aprendizaje de máquina o generar otro tipo de variable objetivo. Existe aún, un sinfín de mejoras de acuerdo a lo que se quiera lograr, para lo cual, la calidad de los datos son una parte fundamental en este proceso.

Bibliografía

Landis, R., & Koch, G. (1977). The Measurement of Observer Agreement for Categorical Data. Biometrics, 33(1), 159-174.

Lankarini, K., Heydari, S. T., Aghabeigi, M. R., Moafian, G., Hoseinzadeh, A., &

Vossoughi, M. (2013). The impact of environmental factors on traffic accidents in Iran. Injury & Violence.

Lantz, B. (2013). Machine Learning with R. Packt Publishing Ltd.

Chen, Y., Ma, J., & Wang, S. (2019). Spatial Regression Analysis of Pedestrian Crashes Based on Point-of-Interest Data. Journal of Data Analysis and Information Processing, 8(1).

Lin, Y.-L., Yen, M.-F., & Yu, L.-C. (2018). Grid-Based Crimen Prediction Using Geographical Features. International Journal of Geo-information.

Cohen, J. (1960). A Coefficient of Agreement for Nominal Data. Educational and Psychological Measurement, 37,46.

Academia Nacional de Medicina. (2014). Los accidentes como problema de salud pública en México. Retos y Oportunidades. Ciudad de México: Intersistemas,

S.A. de C.V. Obtenido de

https://www.anmm.org.mx/publicaciones/CAnivANM150/L9-Los-accidentes- como-problema-salud-publica.pdf

ADIP. (4 de Noviembre de 2019). Datos Abiertos Ciudad de México. Recuperado el 14 Enero de 2020, de https://datos.cdmx.gob.mx/explore/dataset/incidentes- viales-c5/information/

American Association of State Highway and Transportation Officials. (2010).

Highway safety Manual. Washington D.C.: AASHTO.

Birch, C., Oom, S., & Beecham, J. (2007). Rectangular and Hexagonal grids used for observation, experiment and simulation in ecology. Ecological Modelling, 347-359.

Breiman , L., Friedman, J., Stone, C., & Olshen, R. (1984). Classification and regression trees. Wadsworth, Pacific Grove, CA.

92 Dangeti, P. (2017). Statistics for Machine Learning. Birmingham, UK: Packt

Publishing.

Delgado, R., & Tibau, X. (2019). Why Cohen's kappa should be avoided as performance measure in classification. PLoS ONE.

doi:https://doi.org/10.1371/journal.pone.0222916

De Campos, C. I., Dos Santos, M. C., & Pitombo, C. S. (2018). Characterization of municipalities with high road traffic fatality rates using macro level data and the CART algorithm. Journal of Applied research and technology, 16(2).

Flight, L., & Julious, S. (2015). The disagreeable behaviour of the kappa statistic.

Pharm Stat(14), 74-8.

FH JOANNEUM-Graz University of Applied Sciences. (2005). ProClassify User's

Guide. Recuperado el febrero de 2020, de

http://genome.tugraz.at/proclassify/help/frameset.html

Freund, Y., & Schapire, R. (1996). Experiments with a New Boosting Algorithm.

Machine Learning: Proceedings of the Thirteenth International Conference, 148-156.

Friedman, J. (2001). Greedy Function Approximation: A Gradient Boosting Machine.

Ann. Stat. 2, 1189-1232. doi:10.1214/aos/1013203451

Fuentes, C., & Hernández , V. (2009). La estructura espacial urbana y la incidencia de accidentes de tránsito en Tijuana, Baja California (2003-2004). Frontera Norte, 21(42).

Geofabrik GmbH Karlsruhe. (2018). GEOFABRIK. Recuperado el 14 Enero de 2020, de http://download.geofabrik.de/north-america/mexico.html

González, D. (2017). Prediccion de la severidad de accidentes de tráfico en la red de carreteras de España y Reino Unido mediante modelos estadísticos basados en Random Forest y Regresión Logística (tesis doctoral). Elche,

España. Obtenido de

http://dspace.umh.es/bitstream/11000/4536/1/TD%20%C3%9Abeda%20Go nz%C3%A1lez,%20David.pdf

Gortari, F., Rovai, M., & Sacasa , M. (2019). Predictive Spatial Model for Car Crashes Gradient Boost aplication for the Santiago Study Case. Santiago.

93 Greibe, P. (2003). Accident prediction models for urban roads.. Accident Analysis

and Prevention, 273–285. doi:10.1016/S0001-4575(02)00005-2.

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Third ed.). (M.-K. U. Publishers, Ed.) The Morgan Kaufman Series in Data Management Systems.

Haworth, C. T. (1999). Vision Zero - An ethical approach to safety and mobility. 6th ITE International Conference Road Safety & Traffic Enforcement: Beyond

2000, 6-7. Obtenido de

https://pdfs.semanticscholar.org/91da/54403666df67a539b483451b038a0b 32733e.pdf

Hébert, A., Guédon, T., Glatard, T., & Jaumard, B. (2019). High-Resolution Road Vehicle Collision Prediction for the City of Montreal. IEEE International Conference on Big Data,, 5(08), 1804-1813.

INEGI. (2016). Síntesis metodológica de la estadística de accidentes de tránsito terrestre en zonas urbanas y suburbanas 2016. Recuperado el 11 marzo de

2020, de

http://internet.contenidos.inegi.org.mx/contenidos/Productos/prod_serv/cont enidos/espanol/bvinegi/productos/nueva_estruc/702825087999.pdf

James, G., Witten, D., Hastie , T., & Tibshirani, R. (2009). An Introduction to Statistical Learning. Springer.

Jia , R., Khadka , A., & Kim , I. (2018). Traffic crash analysis with point-of-interest spatial clustering. Accident Analysis and Prevention, 223-230.

Kantardzic, M. (2019). Data Mining: Concepts, Models, Methods and Algorithms (3 ed.). (J. W. Sons, Ed.)

Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.

Müller, A., & Guido, S. (2017). Introduction to Machine Learning with Python.

Sebastopol, CA: O'Reilly Media Inc.

Matthews, B. (1975). Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochim. Biophys Acta(405), 442-451.

Minn, M. (2019). MMQGIS. Obtenido de michaelminn.com/linux/mmqgis/

94 Nassiri, H., Najaf, P., & Amiri, M. A. (2014). Prediction of roadway accident frequencies: Count regressions versus machine learning models. Scientia Iranica. 21., 263-275.

Pérez López, R., Montejano Escamilla, J. A., Caudillo Cos, C. A., Viramontes Fabela, L. Y., Suárez Meaney, T., Morales Gama, A., . . . Sánchez Castañeda, M. (2019). Propuesta de un índice de seguridad de cruces peatonales para la Ciudad de México. Revista Panamericana de Salud Pública, 43:e6. doi:https://doi.org/10.26633/RPSP.2019.6

Potoglou, D., Carlucci, F., Cirá, A., & Restaino, M. (2018). Factors associated with urban non-fatal-road accident severity. International journal of Injury Control

and Safety Promotion, 25(3), 303-310.

doi:https://doi.org/10.1080/17457300.2018.1431945

Python Software Foundation. (s.f.). Python Language Reference. Recuperado el Marzo de 2020, de http://www.python.org

QGIS Development Team. (2019). QGIS Geographic Information System. Obtenido de https://qgis.org

Quinlan, R. (1986). Induction of Decision Trees. Machine Learning 1, 81-106.

Quinlan, R. (1993). C4.5: programs for machine learning.

R Development Core Team. (2008). R: A language and Environment for Statistical Computing., 3.6.1. Recuperado el 26 Marzo de 2020, de https://www.r- project.org

Ren, H., Song, Y., Liu, J., Hu, Y., & Lei, J. (2017). A deep learning Approach to the prediction of short-term traffic accident risk. arXiv:1710.09543.

Rodrigo, J. A. (Octubre de 2020). Ciencia de Datos, Estadística, Machine Learning y Programación. Recuperado el 2 Abril de 2020, de Ciencia de Datos,

Estadística, Machine Learning y Programación:

https://joaquinamatrodrigo.github.io/index.html

Sanchez, H., Chías, L., & Resendiz, H. (s.f.). Dinámica de los accidentes de tránsito en la Ciudad de México: un enfoque desde los sistemas complejos.

Recuperado de http://www.institutoivia.com/cisev- ponencias/analisis_accidentes_aa/harvey_spencer.pdf.

95 Sancho Caparrini, F. (2015). Fernando Sancho Caparrini. Recuperado el 30 Marzo

de 2020, de http://www.cs.us.es/~fsancho/?e=104

Secretaría de Salud/STCONAPRA. (2017). Informe sobre la situación de la seguridad vial. Ciudad de México. Obtenido de https://mapasin.org/wp- content/uploads/2018/10/Informe_SV_2017.pdf

Shanthi, S., & Ramani, R. G. (2011). Classification of vehicle collision patterns in Road Accidents using Data Mining algorithms. International Journal of Computer Applications, 35(12).

Shearer, C. (2000). The CRISP-DM Model: The New Blueprint for Data Mining.

Journal of Data Warehousing, 5(4). Obtenido de www.dw- institute.com/journal.htm

Singh. (Febrero de 2015). Critical reasons for crashes investigated in the national motor vehicle crash causation survey. National Highway Traffic Safety Administration. Washington, D.C.: NHTSA’s National Center for Statistics and

Analysis. Obtenido de

https://crashstats.nhtsa.dot.gov/Api/Public/ViewPublication/812115

Singh, H. (Noviembre de 2018). Towards Data Science. Recuperado el 7 Abril de 2020, de https://towardsdatascience.com/understanding-gradient-boosting- machines-9be756fe76ab

Sirsat, M. (Abril de 2019). Data Science and Machine Learning. Recuperado el 24 Marzo de 2020, de https://manisha-sirsat.blogspot.com/2019/04/confusion- matrix.html

Taamneh, M., Alkheder, S., & Taamneh, S. (2016). Data-mining techniques for traffic accident modeling and prediction in the United Arab Emirates. Journal of Transportation Safety & Security, 2(9), 146-166.

doi:10.1080/19439962.2016.1152338

Wang, Y., Xu, W., Zhang, Y., Qin, Y., Zhang, W., & Wu, X. (2017). Machine Learning Methods for Driving Risk Prediction. Proceedings of the 3rd ACM SIGSPATIAL Workshop on Emergency Management Using, 6.

Wikipedia. (05 de marzo de 2020). Validación cruzada. Recuperado el 05 marzo de 2020, de Wikipedia: https://es.wikipedia.org/wiki/Validación_cruzada

In document descubrimiento - Repositorio INFOTEC (página 92-110)