GENERO/ EDAD/
6.2.2. ETAPA DE CLASIFICACION BASE DE DATOS EMPRESAS DE TRANSPORTE ALLIANZ.
En esta etapa se trata de asignar etiquetas a la variable o variables de predicción, relacionadas con el conjunto de variables definidas como independientes o predictoras.
El algoritmo seleccionado en primer lugar es el de redes neuronales artificiales descrito anteriormente.
Una vez obtenido el data set minable de acuerdo con los objetivos del estudio, se procede a procesar los datos contenidos en el mismo con el algoritmo de perceptrón multicapas. Se realizaron varias corridas utilizando el algoritmo Perceptrón multicapas. Se seleccionaron las configuraciones de los clasificadores que presentaron un mejor desempeño de acuerdo con las métricas estudiadas anteriormente.
En la figura 15 se presentó un diagrama de proceso de la configuración y aplicación de la red neuronal artificial. Como se mencionó anteriormente como en cualquier algoritmo para minería de datos el primer paso es el preprocesamiento de los datos para obtener la vista minable. En segundo lugar, se selecciona la clase de red neuronal a utilizar. En este estudio se trata del perceptrón multicapas que por su estructura y funcionamiento se asimila a la estructura de datos disponible.
A continuación, se muestra la configuración del clasificador.
36 m Familiar particular Publico Otros carga Transporte mercancí bus/buseta/micro familiar herramientas otros pu blicos remolque transporte publico
130 El número de capas ocultas es a, que es igual a:
Número de atributos + número de clases /2 = 11+2/2 = 6.5 aproximadamente 7 capas ocultas. La tasa de aprendizaje es de 0.3, teniendo en cuenta que el valor no debe de ser muy pequeño porque el algoritmo se demora más ni muy grande porque puede saltar el valor óptimo que busca.
El momentum es de 0,2.
Entre los métodos utilizados por el programa para aumentar la precisión del clasificador están:
Selección de atributos. Ranker.
Aplicación de filtros-
Aplicación de envoltorios (wrapper).
Selección con principal componente análisis.
El entrenamiento de la red se realizó utilizando el data set minable y el procedimiento descrito en la sección 5.4.3.1.1.
Durante esta fase, y dependiendo de las características del dataset como ruido, pequeño número de datos y del clasificador como su complejidad, se pueden presentar algunas situaciones que disminuyen el rendimiento de la red. cuando las clases están desbalanceadas, es decir según Singh Maninder existen diferencias apreciables entre el número de instancias negativas y positivas, especialmente cuando las negativas sobrepasan a las positivas. Estas pueden ser;
Sobre aprendizaje y sub-aprendizaje.
La sobre adaptación o sobre aprendizaje puede ocurrir cuando el clasificador obtiene un alto porcentaje de aciertos en entrenamiento, pero pequeño en test, aprende los datos de memoria y no generaliza. Den la validación cruzada se obtienen porcentajes cercanos al azar, es decir la índice kappa es cercano a cero. De otro lado si la complejidad del clasificador no es suficiente de acuerdo con el problema, se produce su adaptación.
131 Para determinar la bondad del proceso de clasificación se utiliza la validación del modelo, el cual trata de determinar la capacidad de predicción del clasificador. Para ello se utilizan las métricas y criterios presentados en la sección 5.4.3.1.2. esta actividad es realizada por el programa Weka, se acuerdo con las opciones y los resultados presentados en la hoja para el efecto.
Después de correr el programa con la configuración seleccionada del clasificador, en este caso el perceptrón multicapas, se obtienen los resultados en forma de tablas y gráficas que resumen las características de desempeño del modelo de acuerdo con las métricas seleccionadas.
Los resultados obtenidos en Weka se presentan en cuatro bloques de información;
• Resumen.
• Precisión detallada por clase.
• Matriz de confusión.
Gráficas.
Instancias clasificadas correctamente.
La tabla muestra que el número de instancias clasificadas correctamente fue de 129 esto indica que el 68.2% se clasificaron de forma correcta. Hubo 48 instancias clasificadas incorrectamente. Al observar el valor del indicador Kappa, es mayor de 0 ( 0,543), esto significa que el número de aciertos es mayor al que se podría obtener aleatoriamente, lo cual significa un buen resultado para el algoritmo. Del análisis del error absoluto relativo se observa un valor de 45,66% que no es muy alto.
132 Figura 37 Configuración del perceptrón multicapas utilizado en la fase de clasificación de
causa de accidente. Fuente: elaboración propia programa Weka 3.8.
=== Stratified cross-validation ====== Summary === === Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 129 72.8814 % Incorrectly Classified Instances 48 27.1186 % Kappa statistic 0.5437
Mean absolute error 0.0118 Root mean squared error 0.0952 Relative absolute error 39.2143 % Root relative squared error 81.4138 % Total Number of Instances 177
133 En la tabla análisis detallado por clase, se muestran los valores de los indicadores Tasa de verdaderos positivos 0.0 que es un valor adecuado a lo esperado,729 , tasa de falsos positivos 0.093 bastante baja, recall 0.729, F mesure 0,925, área bajo la curva ROC 0.918 en promedio cercano a 1, área PRC 0.739. En esta tabla se incluyen todos los valores de la variable causa, aunque se mantuvieron solamente los dos con frecuencias más altas. Por esa razón en la tabla los indicadores figuran con un signo de interrogación. El treshold es 0.5 , el accuracy es la suma de predicciones verdaderas sobre la suma de todas las clasificaciones no figura en la
tabla , la medida F es 0.753 en promedio,
El valor de recall o cobertura indica que el 72.9% de las instancias han sido clasificadas correctamente.
La precisión indica que del total de términos clasificados, este porcentaje se hizo correctamente no está definida.
Para el indicador F no figura el promedio, sin embargo, para la clase mayoritaria reversa imprudente, su valor es de 0.943 los cual significa que este valor es 0,925 lo cual significa que la relación entre la tasa de verdaderos positivos y la suma de las predicciones sin tener en cuenta los verdaderos negativos, es relativamente alta, es decir la media armónica de la precisión y la cobertura.
En la tabla 18 se presenta la matriz de confusión, que muestra 99 aciertos para la clase reversa sin precaución, y 44 aciertos para la segunda clase que es no mantener distancia de seguridad. .
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
? 0,000 ? ? ? ? ? ? conducir sin precaución ? 0,000 ? ? ? ? ? ? Invasión de carril ? 0,000 ? ? ? ? ? ? Hurto en parquedero ? 0,000 ? ? ? ? ? ? impericia ? 0,000 ? ? ? ? ? ? no mantener distancia de seguridad ? 0,000 ? ? ? ? ? ? adelantamiento ? 0,000 ? ? ? ? ? ? Descuido conductores 0,000 0,006 0,000 0,000 0,000 -0,006 0,523 0,012 Falla Mécanica 0,000 0,000 ? 0,000 ? ? 0,906 0,243 Distancia Incadecuada 0,000 0,000 ? 0,000 ? ? 0,040 0,006 Exceso de Velocidad ? 0,000 ? ? ? ? ? ? Cruce imprudente ? 0,000 ? ? ? ? ? ? Imprudencia
134 0,000 0,000 ? 0,000 ? ? 0,769 0,212 impericia
0,609 0,104 0,467 0,609 0,528 0,452 0,893 0,496 conducir sin precaucion 0,000 0,006 0,000 0,000 0,000 -0,014 0,888 0,226 invadir carril
0,625 0,144 0,405 0,625 0,492 0,405 0,885 0,436 no mantener distancia de seguridad
0,000 0,000 ? 0,000 ? ? 0,534 0,012 semoviente en la via 0,971 0,108 0,926 0,971 0,948 0,873 0,978 0,987 reversa sin precaucion 0,000 0,000 ? 0,000 ? ? 0,880 0,079 desacato normas 0,000 0,000 ? 0,000 ? ? 0,589 0,020 ASEGURADO 0,000 0,000 ? 0,000 ? ? 0,714 0,029 Sin determinar ? 0,000 ? ? ? ? ? ? adelantar en curva ? 0,000 ? ? ? ? ? ? microsueño ? 0,000 ? ? ? ? ? ? DAÑO CONTRA ARBOL ? 0,000 ? ? ? ? ? ? llanta pinchada ? 0,000 ? ? ? ? ? ? sobrepaso sin precaucion ? 0,000 ? ? ? ? ? ? cruzar semaforo en rojo 0,000 0,000 ? 0,000 ? ? 0,525 0,031 girar sin precaucion ? 0,000 ? ? ? ? ? ? NO SE ASEGURA BIEN LA CARGA -REVISAR AMARRES
? 0,000 ? ? ? ? ? ? CONFIRMACION PTD ? 0,000 ? ? ? ? ? ? CODIFICACION 103 SEGÚN CROQUIS Y PARA EL TERCERO 102
? 0,000 ? ? ? ? ? ? giro prohibido ? 0,000 ? ? ? ? ? ? adelantar cerrando ? 0,000 ? ? ? ? ? ? frenar bruscamente ? 0,000 ? ? ? ? ? ? desobedecer señales ? 0,000 ? ? ? ? ? ? cierre de puertas ? 0,000 ? ? ? ? ? ? DAÑOS DE LA NATURALEZA ? 0,000 ? ? ? ? ? ? adelantar invadiendo carril ? 0,000 ? ? ? ? ? ? cruzar sin observar ? 0,000 ? ? ? ? ? ? PADRON
? 0,000 ? ? ? ? ? ? embriaguez evidente ? 0,000 ? ? ? ? ? ? ARTICULADO ? 0,000 ? ? ? ? ? ? COMPLEMENTARIO
? 0,000 ? ? ? ? ? ? MPRUDENCIA DEL ASEGURADO ? 0,000 ? ? ? ? ? ? DESCUIDO CONTRARIO
135 ? 0,000 ? ? ? ? ? ? HURTO PARQUEADERO
? 0,000 ? ? ? ? ? ? HURTO EN LA VIA Weighted Avg. 0,729 0,096 ? 0,729 ? ? 0,915 0,718
Tabla 18 resumen de resultados weka. Algoritmo perceptrón multicapas. Fuente: elaboración propia programa Weka 3.8.
=== Confusion Matrix === a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au <-- classified as 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | a = conducir sin precaución 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | b = Invasión de carril 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | c = Hurto en parquedero 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | d = impericia 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | e = no mantener distancia de seguridad 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | f = adelantamiento 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | g = Descuido conductores 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | h = Falla Mécanica 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | i = Distancia Incadecuada 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | j = Exceso de Velocidad 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | k = Cruce imprudente 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | l = Imprudencia 0 0 0 0 0 0 0 0 1 0 0 0 0 2 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | m = impericia 0 0 0 0 0 0 0 0 1 0 0 0 0 12 0 6 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | n = conducir sin precaucion 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | o = invadir carril
136 0 0 0 0 0 0 0 0 0 1 0 0 0 6 2 14 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | p = no mantener distancia de seguridad 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | q = semoviente en la via 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | r = reversa sin precaucion 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | s = desacato normas 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | t = ASEGURADO 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | u = Sin determinar 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | v = adelantar en curva 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | w = microsueño 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | x = DAÑO CONTRA ARBOL 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | y = llanta pinchada 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | z = sobrepaso sin precaucion 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | aa = cruzar semaforo en rojo 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 2 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ab = girar sin precaucion 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ac = NO SE ASEGURA BIEN LA CARGA -REVISAR AMARRES
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ad = CONFIRMACION PTD 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ae = CODIFICACION 103 SEGÚN CROQUIS Y PARA EL TERCERO 102
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | af = giro prohibido 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ag = adelantar cerrando 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ah = frenar bruscamente 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ai = desobedecer señales 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | aj = cierre de puertas 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ak = DAÑOS DE LA NATURALEZA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | al = adelantar invadiendo carril
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | am = cruzar sin observar 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | an = PADRON
137 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ao = embriaguez evidente 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ap = ARTICULADO 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | aq = COMPLEMENTARIO 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ar = MPRUDENCIA DEL ASEGURADO 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | as = DESCUIDO CONTRARIO 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | at = HURTO PARQUEADERO 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | au = HURTO EN LA VIA
138 Análisis de las gráficas.
En las figuras 30 a 34 se presenta en forma gráfica la información más representativa para evaluar el modelo clasificador.
Análisis de curva margen de predicción (margin curve).
Esta curva representa el margen de predicción, es decir la diferencia entre el valor de probabilidad para la clase predicha y el valor de la probabilidad más alta para las clases diferentes a la predicha. Entre más alto sea este valor hay mayor certeza de que la predicción sea correcta, ya que hay un mayor margen para equivocarse.
Un margen de 1 significa que la confiabilidad de la predicción es del 100% mientras un margen de -1 significa lo contrario, es decir que la confiabilidad es de predicción de una clase incorrecta es del 100%. Como el valor mínimo en la gráfica es de -0.33 para la instancia 1, y comienza a aumentar para las otras instancias, quiere decir que el margen va aumentando a medida que se aumenta el número de instancias y para 2651 instancias, que son las que se analizaron es de 0.33 que representa una confiabilidad de 33%, que, aunque no es el valor óptimo (100%) tampoco es un valor tan bajo. Esto significa que entre mayor sea el número de instancias analizadas, mayor el valor del margen de predicción y por lo tanto la confiabilidad de la predicción.
Análisis de curva PRC (Recall-Precisión).
El área bajo la curva RP (recall-precision) es de 0.794 que es un valor alto. Para el sistema bajo estudio resulta más útil considerar el valor ROC, ya que el RPC se utiliza más cuando es más importante acertar en una clase que en otras, por ejemplo “buscar una aguja en un pajar”. En e l caso bajo estudio, si la clase “no respetar distancia de seguridad” fuera más importante que la clase otras, o la clase adelantar cerrando, ò huecos, sería mejor aplicar la curva PRC ya que no debería dejarse por fuera del clasificador ningún caso, es decir el algoritmo clasificador no debería dejar de clasificar correctamente ningún caso de no respetar distancia de seguridad, pero esta no es la situación bajo estudio.
Análisis de curva de error.
Se muestran las instancias bien clasificadas con una cruz y las mal clasificadas con un cuadrado, para cada valor del atributo causa. Se observa una mayor cantidad de instancias bien clasificadas (cruces) para la clase no mantener distancia de seguridad en color azul y para la clase otra en color rojo.
Análisis de la curva ROC.
El área bajo la curva ROC es de 0.783. el rango de valores recomendado para un buen modelo según y está entre 0.75 y 1. En este caso el valor está por encima de 0.75. Esto
139 significa que puede clasificar correctamente los verdaderos positivos y los verdaderos negativos. La forma de la curva ROC está dentro de las que son aceptables. Este valor es mayor al encontrado en el perceptrón multicapas.
Análisis de la curva costo.
Se puede observar que la envolvente inferior tiene el punto más bajo en aproximadamente 0.3 que corresponde al máximo costo esperado y es sensiblemente menor que el encontrado para el perceptrón multicapas. Des de este punto de vista este algoritmo es más adecuado para la clasificación de las causas de accidentes.
140
Gráficas.
Figura 38 Margin curve. Fuente: elaboración propia programa Weka 3.8.
Figura 39 Treshold Recall Precision curve. Fuente: elaboración propia programa Weka 3.8.
141 Figura 40 Errores del clasificador. Fuente: elaboración propia programa Weka 3.8.
Figura 41 Curva ROC y curva Costo beneficio. Fuente: elaboración propia programa Weka 3.8.
142 Figura 42 Curva de costo. Fuente: elaboración propia programa Weka 3.8
143 6.3.MODELO DE CAUSA RAIZ.
La segunda parte del modelo consiste en construir un algoritmo para realizar una aproximación al análisis y determinación de la causa o causas básicas de los accidentes de tránsito. Siguiendo la metodología explicada, esta aproximación se realiza a partir de la causa básica o próxima.
En este caso, se dificulta utilizar técnicas de minería de datos por no disponer de los mismos y por constituir una característica de cada accidente en particular. Debido a que las categorías de causa raíz; factores humanos y factores del trabajo están relacionados estrechamente con las características particulares de las personas que participan en el accidente, ya sea conductor, peatón, pasajero, mecánicos de mantenimiento, supervisores de la flota de transporte, etc., y de la organización, es difícil obtener información con algún nivel de detalle para realizar este análisis.
Por estas razones construir un algoritmo que realice la predicción ò clasificación basándose en la causa básica no es lo más apropiado al problema bajo estudio. Esta fase se debe realizar utilizando la participación de expertos los cuales a partir de una información clasificada sistemáticamente pueda llegar a determinar la causa o causas más probables de los accidentes.
Se propone entonces con base en los conceptos presentados en el apartado y el método DREAM 3.0, la construcción de un algoritmo que proporcione reglas de decisión que sirvan como punto de partida para que los expertos puedan llegar a conclusiones acordes con las particularidades del caso, siguiendo el procedimiento de investigación de accidentes.
Este modelo no busca realizar una provisión de explicaciones de la causa del accidente, sino ser un organizador de las mismas, por lo tanto para que los factores contribuyentes a un accidente puedan ser aplicables al mismo, deben ser soportados por información empírica relevante obtenida a partir del accidente. Se trata de clasificar y organizar la información obtenida de los accidentes con el objetivo de identificar de forma estructurada las causas detrás del accidente expresadas en un conjunto de categorías formalmente definidas de los factores contribuyentes. Si no existe esta información, no es posible realizar la clasificación. Por esta razón se ha decidido utilizar un algoritmo cuya salida sean reglas de decisión con información que debe ser validada en el proceso de investigación de accidentes con la obtenida por el análisis particular del accidente.
El modelo proporciona pues un punto de partida, no de llegada para la determinación de la causa raíz del accidente.
144 Se ha diseñado entonces una base de datos con 20 campos, que corresponden a la causa próxima probable del accidente encontrada en la primera parte del modelo mediante la técnica de perceptrón multicapas, y a los factores coadyuvantes en la ocurrencia del mismo, clasificados en 19 categorías, que a su vez dentro del modelo de datos mostrado en la figura 17 corresponden a los niveles de atributos / variables con los respectivos valores que puede tomar cada atributo.
Para la elaboración de la base de datos se toma cada uno de los valores del atributo causa próxima y se establece una relación con los valores de la posible causa raíz expresados en los valores de los 19 atributos mencionados.
Al comparar el modelo de datos propuesto con el presentado en DREAM 3.0, se observan unas coincidencias y diferencias en la forma de clasificar los factores de riesgo expresados como atributos o como fenotipos y genotipos.
Mientras en el modelo propuesto en este trabajo se utilizan las 19 categorías o atributos para agrupar las posibles causa raíz, en el DREAM 3.0 se utilizan 23 categorías para agrupar genotipos generales.
Retomando los factores y variables asociadas a los mismos definidos en la tabla 5 y los criterios de clasificación de genotipos y su relación entre ellos y con los fenotipos definidos en el método DREAM 3.0, se ha realizado un arreglo para establecer las relaciones entre los mismos y la causa próxima identificada por el algoritmo obtenido en la primera parte del modelo.
Para que la base de datos sea representativa se deben establecer de forma clara los posibles valores de las categorías o atributos de causa raíz y de otro lado establecer las relaciones mencionadas.
Se debe mencionar que las combinaciones de valores pueden ser numerosas, sin embargo la clasificación realizada en DREAM 3.0 ayuda a definir las más probables.
La base de datos se elaboró con base a la experiencia, se tomó una causa inmediata como por ejemplo no mantener distancia de seguridad, y de las diferentes causas asociadas con factores humanos, se asignaron los más probables, por ejemplo esto puede ocurrir debido a temas relacionados con la seguridad como los mencionados anteriormente, o características humanas como reacción demorada o lentitud, percepción equivocada del riesgo, desatención como hablar por teléfono, actitud relajada, entre otras razones o debidas a comportamiento humano como carácter, cultura, faltas de disciplina, o en temas relacionados con la seguridad como actos inseguros o pasar por alto situaciones riesgosas, o con el vehículo como falla mecánica,
145 En DREAM 3.0 los genotipos relacionados pueden ser miedo, fatiga, conducir bajo la influencia de sustancias, discapacidad funcional súbita, limitación temporal de acceso, falla de equipo, mal juzgamiento de tiempo o distancia, viento lateral fuerte.
Para seleccionar las relaciones, se ha realizado primero una homologación de los genotipo con los atributos de la base de datos 3, y después se ha utilizado la tabla de relaciones entre fenotipos y genotipos de la tabla del anexo y la relación entre genotipos de la tabla . el resultado es la base de datos 3 utilizada para el algoritmo de clasificación PART.
Es de anotar que esta base de datos puede ser mejorada en la medida en que se tenga acceso a datos relacionados con el tema, y la participación de los expertos sea mayor.
Los factores de riesgo asociados a las causas básicas de accidentes de tránsito en empresas de transporte, se han clasificado en las siguientes categorías definidas en la tabla ,
• Características humanas.
• Comportamiento humano.
• Fatiga.
• Capacidad de estrés físico/fisiológico.
• Capacidad de estrés sicológico.
• Conocimiento/competencia/entrenamiento inadecuado.
• Problemas de comunicación.
• Cultura de equipo inadecuada.
• Temas relacionados con seguridad.
• Factores de falta de comunicación.
• Tripulación inadecuada.
• Falla mecánica.
• Mantenimiento inadecuado.
• Inadecuada selección del proveedor.
• Factores ambientales.
146
• Reglas estándares procedimientos.
• Gestión.
• Evaluación del riesgo.
• Causa próxima.
Los valores que pueden tomar estos atributos figuran en el anexo de la base de datos 3 y en la tabla 5.
6.3.2. Aplicación de la técnica PART para determinar la causa raíz de a accidentes de tránsito en empresas de transporte.
Partiendo de la causa próxima se utiliza la plantilla con las principales causas asociadas con ella, que figuran en la tabla 5.
La base de datos que se ha construido consta de 550 instancias. Para la construcción de esta base de datos se ha utilizado la experiencia de personas que han laborado en el sector transporte así como los documentos elaborados por Aslan y DREAM 3.0, así como
Se parte del principio de que los factores que participan en la materialización de un accidente no están necesariamente relacionados entre ellos ni jerarquizados. Esto significa que la red que incluye los factores que son coadyuvantes en la ocurrencia del accidente y no necesariamente determinantes del mismo.
Estos factores de acuerdo con numerosos estudios están relacionados con condiciones de las personas y en mucho menor cantidad con los vehículos o las vías. Por esta razón los factores relacionados con las personas son mucho más numerosos que los de los vehículos y vía.