Pruebas realizadas - Evaluación usuarios reales

Capítulo 5 Resultados Experimentales

5.3 Evaluación usuarios reales

5.3.2 Pruebas realizadas

Como se mencionó anteriormente para realizar las pruebas se evaluó la técnica de predicción frente a tres usuarios a los que se les instaló la aplicación durante tres meses.

132

Luego del período de prueba se les pidió a los usuarios que etiqueten sus puntos rutinarios para poder tener conocimiento de sus lugares frecuentes y darle una semántica a los mismos.

Las pruebas generadas se dividieron en semanas, para cada una de ellas se calcularon distintos indicadores:

 Precisión: Total de aciertos sobre las veces que se predijo.

 Precisión con lugares rutinarios: Precisión sin considerar como error un lugar mal predicho que no es rutinario para el usuario. (esto se realizó sólo para fines de evaluación de la herramienta)

 Aciertos intermedios: Se definió un acierto parcial, que se produce cuando se predice un lugar destino erróneo pero el siguiente lugar destino es el que se había predicho originalmente. Esto indica que el usuario realizó una parada intermedia.

Las pruebas consistieron en ir incrementando de a una semana la cantidad utilizada para entrenar y tomar la siguiente para evaluar. Esta forma de realizar las pruebas nos permite saber cómo se comporta la herramienta a medida que tiene mayor conocimiento, y también poder promediar la precisión de acierto.

Además se discrimino las predicciones por días de la semana. Es decir la cantidad de aciertos para los lunes (con las distintas cantidad de semanas de entrenamiento), martes, miércoles, etc.

Existen aspectos de configuración que hacen variar los resultados, por ejemplo los metros a la redonda que se considera que es un mismo punto de estadía, la cantidad de metros a desplazarse para ser considerado un movimiento. Si bien estos parámetros son configurables, las pruebas se realizaron con las siguientes configuraciones:

Tolerancia radio movimiento: 60 metros.

Tolerancia permanencia: 60 metros.

Tiempo detención mínima: 5 minutos.

DataSet Usuario1 (AG)

En la figura 5.21 se muestra un gráfico de barras con la comparativa de porcentaje de acierto y error que se obtuvo a lo largo de las distintas semanas de entrenamiento.

133

En la figura 5.21 se puede observar que en las primeras semanas de entrenamiento existe un mejora gradual en el porcentaje de aciertos, luego se nota una caída de en la cantidad de aciertos para la 7 y 8 de entrenamiento. Analizando los datos para esas semanas, se observa que la baja se debe a un cambio de rutina del usuario, tanto en un día “normal” y además concuerda con feriados en esa semana. En la semana 7 realizó un viaje a otra ciudad entre semana, y en la semana 8 hubo un feriado. Luego de estas semanas se observa que las predicciones vuelven a estabilizarse.

Fig. 5.21.Resultados experimentales sobre el dataset 1

En la figura 5.22 se presentan las diferentes precisiones calculadas en cada semana. Se incluyen: la precisión pura (línea azul), precisión rutinario (línea naranja) y precisión rutinario intermedio (línea gris).

134

En la figura 5.22 se puede apreciar como las precisiones se comportan a lo largo de las distintas semanas de entrenamiento. Las mismas presentan picos de altas y bajas que se corresponden a la precisión obtenida en la semana correspondiente. En el gráfico es posible determinar las semanas en las cuales la precisión aumento así como también en las que decayó. En este último caso se pudo corroborar que en dichas semanas hubo cambios significativos en el comportamiento del usuario.

Para tener una mejor visión del comportamiento del aprendizaje se calcularon los promedios incremental en cada una de las semanas y se plasmó en la siguiente figura. De esta forma es posible ver la tendencia que marca la precisión y no los resultados aislados por semana. Para el resto de los usuarios se decidió calcular solamente los promedios que es el indicador que muestra si el algoritmo tiende a la baja o alza a lo largo de su aprendizaje.

En la figura 5.23 se puede observar los promedios de las diferentes precisiones calculadas. Los cuales incluyen la precisión pura (línea azul), precisión rutinario (línea naranja) y precisión rutinario intermedio (línea gris). En este gráfico es posible ver como se denota una tendencia alcista de la precisión y ver como decae en las semanas 7 y 8 debido al cambio de comportamiento, para luego estabilizarse nuevamente.

Fig. 5.23. Promedios experimentales sobre el dataset 1

Como se mencionó anteriormente, para tener una mejor perspectiva del funcionamiento del algoritmo, se analizó el comportamiento de la predicción por días de la semana a medida que avanza el conocimiento. Por una cuestión práctica se supone semana laboral de Lunes a Viernes.

135

En la figura 5.24 se observa el porcentaje de aciertos para cada día de la semana laboral. Como se puede observar el día de mayor precisión para este usuario son los lunes, mientras que el menor porcentaje de acierto son los jueves. En el caso particular de este día, al analizar los datos se observa que existen días que no hubo registro de lugares (debido a errores de gps) y además coincide con cambios de rutina debido a días no laborables (feriados). Por ejemplo en el día jueves en el gráfico es posible ver cómo el faltante de un día de registro se refleja en que no se posee 11 semanas sino 10.

Fig. 5.24. Promedios experimentales sobre el dataset 1 por días laborales

Para los fines de semana se observa en la figura 5.25 una gran baja en la precisión, esto se debe principalmente a que en estos días el usuario realiza una serie de actividades distintas y en diferentes horarios cada fin de semana.

136

Fig. 5.25. Promedios experimentales sobre el dataset 1 por fines de semana

Luego de analizar los datos observamos por un lado que la precisión para el algoritmo en promedio ronda alrededor del 70% y 85% dependiendo la cantidad de semanas entrenadas y si hubo o no falta de datos. Por otro lado observamos que el “arranque en frío” tiene un valor de acierto que es del 75%, si bien esto puede diferir con otros usuarios ya que depende si la primer semana se realiza una rutina y la segunda se hace otra totalmente distinta.

En la figura 5.26 con el objetivo de analizar el comportamiento de la heurística, se muestran los porcentajes promedio por cual condición predijo el algoritmo por día de la semana. Podemos observar el comportamiento para los días laborales presentan mayor acierto por rutina mejor ponderada debido a que son días rutinarios. A diferencia de los días no laborales como son el sábado y domingo donde la mayor cantidad de predicciones se realizan por algún punto conocido. Esto se debe a que los fines de semana el usuario no se comporta de manera rutinaria.

137

Fig. 5.26. Promedios experimentales modo acierto del dataset 1 por días de la semana

En la figura 5.27 vemos el porcentaje de aciertos por modo de predicción, esta vez por cada semana de entrenamiento, se observa cómo a medida que transcurren las semanas de entrenamiento el algoritmo comienza a predecir con mayor tasa de acierto por el modo de rutina mejor ponderada. De manera inversa vemos como la tasa de predicción con respecto al modo rutina conocido del día decae debido a que se posee mayor información para tomar decisiones.

138

DataSet Usuario2 (SO)

En la figura 5.28 se muestra un gráfico de barras con la comparativa de porcentaje de acierto y error que se obtuvo a lo largo de las distintas semanas de entrenamiento.

En la figura 5.28 se puede observar que en las primer semana de entrenamiento existe tiene un buen porcentaje de aciertos cercano al 70%, luego se nota una caída de en la cantidad de aciertos para las siguientes tres semanas de entrenamiento. Analizando los datos para esas semanas, se observa que la baja se debe a un cambio de rutina del usuario, tanto en un día “normal” y además concuerda con feriados en esa semana.

Fig. 5.28. Resultados experimentales sobre el dataset 2

En la figura 5.29 se puede observar los promedios de las diferentes precisiones calculadas. Los cuales incluyen la precisión pura (línea naranja), precisión rutinario (línea azul) y precisión rutinario intermedio (línea gris). En este usuario es posible ver cómo la precisión promedio decae sobre las últimas semanas, esto se debe a que en el mes de Diciembre el usuario dejó de realizar actividades y el algoritmo requiere de un umbral temporal para adaptarse al cambio ya que esas actividades fueron realizadas en los primeros meses.

139

Fig. 5.29. Promedios experimentales sobre el dataset 2

En la figura 5.30 se observa el porcentaje de aciertos para cada día de la semana laboral. Como se puede observar el día de mayor precisión para este usuario son los lunes, mientras que el menor porcentaje de acierto, al igual que el usuario anterior, son los jueves (días en los que cayeron feriados). Al analizar los datos, se observa que existen días que no hubo registro de lugares (debido a errores de gps) y además coincide con cambios de rutina debido a días no laborables (feriados), es por esto que varios días no poseen las 11 semanas.

140

Para los fines de semana se observa en la figura 5.31 una gran baja en la precisión, esto se debe principalmente a que en estos días el usuario realiza una serie de actividades distintas y en diferentes horarios cada fin de semana.

Fig. 5.31. Promedios experimentales sobre el dataset 2 por fines de semana

Luego de analizar los datos observamos por un lado que la precisión para el algoritmo en promedio ronda alrededor del 60% y 70% dependiendo la cantidad de semanas entrenadas y si hubo o no falta de datos. Por otro lado observamos que el “arranque en frío” tiene un valor de acierto que es del 70%, si bien esto puede diferir con otros usuarios ya que depende si la primer semana se realiza una rutina y la segunda se hace otra totalmente distinta.

En la figura 5.32 con el objetivo de analizar el comportamiento de la heurística, se muestran los porcentajes promedio por cual condición predijo el algoritmo por dia de la semana. Podemos observar el comportamiento para los días laborales presentan una equidad en los modo de acierto. A diferencia de los días no laborales como son el sábado y domingo donde la mayor cantidad de predicciones se realizan por algún punto conocido. Esto se debe a que los fines de semana el usuario no se comporta de manera rutinaria.

141

Fig. 5.32. Promedios experimentales modo acierto sobre el dataset 2 por días de la semana

En la figura 5.33 vemos el porcentaje de aciertos por modo de predicción, esta vez por cada semana de entrenamiento, se observa cómo a medida que transcurren las semanas de entrenamiento el algoritmo comienza a predecir con mayor tasa de acierto por el modo de rutina mejor ponderada. De manera inversa vemos como la tasa de predicción con respecto al modo rutina conocido del día decae debido a que se posee mayor información para tomar decisiones.

Debido a los cambios en la rutina de este usuario (deja de hacer actividades) es posible ver cómo la precisión no termina de afianzarse y no se consiguen las diferencias entre las heurísticas que se lograron con el usuario 1.

142

DataSet Usuario3 (LU)

En la figura 5.34 se muestra un gráfico de barras con la comparativa de porcentaje de acierto y error que se obtuvo a lo largo de las distintas semanas de entrenamiento.

En la figura 5.34 se puede observar que en las primeras semanas de entrenamiento existe un mejora gradual en el porcentaje de aciertos, luego se nota una caída de en la cantidad de aciertos para la semana seis. Luego en las siguientes semanas se presenta una armonía en la cantidad de aciertos hasta la última semana donde el porcentaje baja a menos de 70%.

Fig. 5.34. Resultados experimentales sobre el dataset 3

En la figura 5.35 se puede observar los promedios de las diferentes precisiones calculadas. Los cuales incluyen la precisión pura (línea naranja), precisión rutinario (línea azul) y precisión rutinario intermedio (línea gris). En el gráfico es posible ver cómo la precisión muestra una tendencia alcista. Es necesario recordar, que en este caso el usuario incorpora actividades a su rutina. Esta incorporación no afecta negativamente y el algoritmo se adapta al cambio.

143

Fig. 5.35. Promedios experimentales sobre el dataset 3

En la figura 5.36 se observa el porcentaje de aciertos para cada día de la semana laboral. Como se puede observar el día de mayor precisión para este usuario son los miércoles. En la semana 3 se aprecia una caída en la precisión, en esta semana es donde los martes y jueves se incorpora una nueva actividad.

Fig. 5.36. Promedios experimentales sobre el dataset 2 por días laborales

Para los fines de semana se observa en la figura 5.37 una gran baja en la precisión particularmente para los días sábados, esto se debe principalmente a que en estos

144

días el usuario realiza una serie de actividades distintas y en diferentes horarios cada fin de semana. Los días domingos, a diferencia del resto de los usuarios se observa un buen porcentaje de acierto.

Fig. 5.37. Promedios experimentales sobre el dataset 3 por fines de semana

Luego de analizar los datos observamos por un lado que la precisión para el algoritmo en promedio ronda alrededor del 67% y 81% dependiendo la cantidad de semanas entrenadas y si hubo o no falta de datos. Por otro lado observamos que el “arranque en frío” tiene valor de acierto que es del 67%, si bien esto puede diferir con otros usuarios ya que depende si la primer semana se realiza una rutina y la segunda se hace otra totalmente distinta.

En la figura 5.38 con el objetivo de analizar el comportamiento de la heurística, se muestran los porcentajes promedio por cual condición predijo el algoritmo por día de la semana. Podemos observar el comportamiento para los días laborales presentan mayor acierto por rutina mejor ponderada debido a que son días rutinarios. A diferencia de los días no laborales como son el sábado y domingo donde la mayor cantidad de predicciones se realizan por algún punto conocido. Esto se debe a que los fines de semana el usuario no se comporta de manera rutinaria.

145

Fig. 5.38. Promedios experimentales modo acierto sobre el dataset 3 por días de la semana

En la figura 5.39 vemos el porcentaje de aciertos por modo de predicción , esta vez por cada semana de entrenamiento, se observa cómo a medida que transcurren las semanas de entrenamiento el algoritmo comienza a predecir con mayor tasa de acierto por el modo de rutina mejor ponderada. De manera inversa vemos como la tasa de predicción con respecto al modo rutina conocido del día decae debido a que se posee mayor información para tomar decisiones. Para este usuario y a diferencia del usuario 2 es posible ver claramente cómo se incrementa el aprendizaje en cada semana y como el incorporar una actividad no impacta negativamente salvo en la primer semana en la cual no se conocía la actividad.

146

In document Asistencia inteligente en la planificación personalizada de la movilidad urbana (página 131-146)