Evaluación zonas vecinas

Figura 5.11 Fórmula de cálculo de eficiencia

5.4.3. Resultados y análisis de experimentos

5.4.3.6. Evaluación zonas vecinas

Como se puede apreciar en la Figura 5.19, se realizó la prueba con las distintas variaciones del algoritmo de predicción y vemos que la eficiencia es mayor para los usuarios PASE en aproximadamente un 6%. Por lo tanto, podemos decir que los estudiantes son más predecibles que el resto de las personas. Esto tiene su lógica, ya que es probable que estos sean rutinarios y viajen diariamente en transporte público hasta el establecimiento educativo correspondiente.

Con respecto a los usuarios SUMO, puede ocurrir que gran parte de ellos sean rutinarios, viajando por ejemplo desde su casa al trabajo en colectivo. No obstante, es posible que utilicen el transporte público para también moverse a otros lugares que no sean parte de su rutina con más frecuencia, lo que los hace más impredecibles.

5.4.3.6. Evaluación zonas vecinas

A la hora de evaluar la eficiencia del algoritmo de predicción, es importante tener en cuenta y estudiar todos los casos puntualmente para decidir si la predicción fue correcta o no. En este caso, las zonas vecinas a la predicción cumplen un rol clave ya que muchas veces el usuario puede variar sus zonas de viajes entre zonas contiguas en el recorrido y, en muchos casos, puede ocurrir que el pasajero se suba justo en el límite entre las dos zonas y se presenten variaciones cuando en realidad la zona real es la misma. Es por lo mencionado que se llevó a cabo el estudio de las zonas vecinas a la predicción real, comparando la eficiencia presentada.

Vale aclarar que la evaluación realizada se basa en estudiar el comportamiento de las zonas vecinas a la predicción, es decir, analizar la cantidad de ocasiones en las que la predicción establecida falla, pero el error

presentado se produjo por la decisión de una zona vecina a la predicción. Como se dijo anteriormente, estos casos pueden llegar a ser vistos como un acierto, pero no se tiene la certeza.

Por último, una vez detallado el caso de estudio, se muestra la evaluación realizada, analizando los “hits vecinos” (casos en que la zona de predicción es contigua a la bajada real) con diferentes porcentajes de confianza. Es decir, se establece la comparación entre tomar un acierto vecino como un acierto normal (porcentaje de confianza 100%) y decidir el acierto vecino como la mitad de un acierto normal (porcentaje de confianza 50%).

Figura 5.20. - Gráfico ilustrativo de evaluaciones con 39 zonas estudiando las zonas vecinas a la predicción -

Como se ve en la Figura 5.20, tomando un “hit vecino” como un acierto común (100% de confianza) el porcentaje de eficiencia aumenta de manera considerable, llegando a un valor del 81,48% con el algoritmo original. En

cambio, si el “hit vecino” se estudia como la mitad de un acierto común (50%

de eficiencia), los resultados de eficiencia también mejoran pero se acercan

más al arrojado por el análisis inicial (sin estudiar las zonas vecinas), con un

73,78%. Vale aclarar que se sigue repitiendo el patrón de comportamiento entre

las variaciones del algoritmo. Es decir, agregando cuestiones como la hora y el

día al momento de predecir, el porcentaje de eficiencia baja con respecto al

algoritmo original.

5.4.3.7. Evaluación división de zonas enfocado en los

individuos (barrios de la ciudad, aspectos socio-económicos)

Otro experimento importante que se realizó, tiene como objetivo

evaluar la eficiencia del algoritmo de predicción analizando la movilidad de

los pasajeros entre los barrios de la ciudad. En esta prueba se realiza la

división de la ciudad de una forma diferente, teniendo en cuenta la

orientación geográfica, por lo que se establecen 16 zonas que corresponden a los barrios de la ciudad como se detalla en la Figura 5.5 de la sección 5.3.1.

Figura 5.21. - Gráfico ilustrativo de evaluaciones con 16 zonas (zonas barriales) comparando todas las variaciones del algoritmo -

Como se observa en la Figura 5.21, en esta prueba se obtiene el mayor

valor de eficiencia del algoritmo de predicción obteniendo un 73,14% de

aciertos en las predicciones de bajada de los pasajeros utilizando el algoritmo

original. Si bien todos los valores de eficiencia de las variaciones del algoritmo de

predicción mejoran con respecto a las otras divisiones de zonas, vemos que

ninguna de las variaciones mencionadas supera la eficiencia del algoritmo

original, cuestión que se repite en todas las pruebas realizadas. Si se tuviera

acceso a un dataset más completo es muy probable que el algoritmo pueda

aprender mejor (mayor cantidad de datos para entrenar) y las variaciones arrojen mejores resultados.

5.4.3.8. Comparación entre divisiones de zonas.

A continuación se muestra un gráfico donde se vé cómo varía el

porcentaje de eficiencia del algoritmo de predicción, utilizando todas las

divisiones en zonas de la ciudad de Tandil nombradas previamente. Figura 5.22. - Gráfico comparativo entre las diferentes divisiones de zonas - Como se ve en el gráfico de la Figura 5.22, a medida que la división

reduce las zonas, la eficiencia del algoritmo de predicción aumenta. En el caso

de la primer evaluación realizada (107 zonas) la eficiencia no alcanzaba el

50%, aunque vale aclarar que en dichas pruebas todavía no se había estudiado los diferentes sentidos de los colectivos (etiquetas).

Luego, con una división de zonas mucho más reducida (39 zonas) y con

la inclusión del sentido de los colectivos, la eficiencia llegó a un porcentaje de

66,08%, logrando una mejora considerable con respecto a la división anterior. Como último punto a analizar, se evaluó el algoritmo con una división

aún más reducida (16 zonas) teniendo en cuenta la orientación geográfica

(barrios), en donde arrojó el mejor valor de eficiencia presentado por el

algoritmo (sin tener en cuenta la evaluación de zonas vecinas), logrando una

eficiencia de 73,14%.

5.5. Aplicación de conteo de pasajeros

Como se mencionó anteriormente, se realizó una aplicación que cuenta

los pasajeros que están viajando en los diferentes colectivos en tiempo real.

Dicha aplicación muestra una de las variadas utilidades que tiene el algoritmo

de predicción realizado. Tener una noción de cuántas personas tienen los

colectivos en tiempo real brinda la posibilidad de estudiar cuestiones como

optimización de frecuencias, capacidad máxima de personas en los vehículos,

etc. A continuación, se describe la forma en la que se calcula la cantidad de

personas a través de un ejemplo ilustrativo. Básicamente, se determinan una

fecha y hora específicas para analizar, y se detallan los pasajeros candidatos a

estar arriba de una unidad seleccionada en la fecha y hora especificada

anteriormente. La fecha mencionada es necesaria ya que la implementación

realizada es en un entorno de simulación y no en tiempo real, como se

mencionó anteriormente. Vale aclarar que la fecha en que se desea conocer la

cantidad de pasajeros de los colectivos en una línea específica, debe pertenecer al conjunto de datos disponible para el estudio.

Instanciación del ejemplo para analizar el conteo:

● Linea: 503.

● Unidad: 05.

● Fecha: 01/11/2017

● Hora: 12:40.

● Zona de colectivo: Lunghi y Luis María Campos

● Etiqueta: B

En la siguiente tabla se puede observar el recorrido de la línea N° 503 para poder llevar a cabo la decisión de si un pasajero continúa arriba del colectivo o ya descendió del mismo.

Recorrido línea N°503

Zona Etiqueta

Campus A

Av. Reforma Universitaria y Los Aromos A

Country Sierras del Tandil A

Av. Falucho y Costa Rica A

Av. Avellaneda y Av. Bolívar A

Plaza Centro A

Uriburu y Rodríguez A

Lunghi y Luis Maria Campos A

Azucena y Paseo de los niños A

Lunghi y Luis Maria Campos B

Uriburu y Rodríguez B

Plaza Centro B

Av. Avellaneda y Av. Bolívar B

Av. Falucho y Costa Rica B

Av. Reforma Universitaria y Los Aromos B

Campus B

Teniendo toda la información necesaria para el estudio de cantidad de personas, se procede a realizar la selección de pasajeros válidos entre todos los candidatos, es decir, se estudia cada pasajero que se subió al colectivo para decidir cuáles de ellos son los que realmente continúan en el vehículo.

Tabla de pasajeros que se subieron a la unidad estudiada

ID tarjeta Zona de Subida Etiqueta Predicción Pasajero

Válido 1 Azucena y Paseo de los

Niños A Plaza Centro SÍ

2 Plaza Centro A Azucena y Paseo de los

Niños NO

3 Uriburu y Rodríguez A Plaza Centro SÍ

4 Country y Sierras del

Tandil A Plaza Centro NO

5 Av. Avellaneda y Av.

Bolívar

A Lunghi y Luis Maria

Campos

6 Lunghi y Luis Maria

Campos A Azucena y Paseo de los Niños NO

7 Lunghi y Luis Maria

Campos B Plaza Centro SÍ

8 Uriburu y Rodríguez A Lunghi y Luis Maria

Campos

9 Uriburu y Rodríguez A Azucena y Paseo de los

Niños NO

10 Azucena y Paseo de los

11 Lunghi y Luis Maria Campos

A Azucena y Paseo de los Niños

NO 12 Azucena y Paseo de los

Niños A Plaza Centro SÍ

13 Azucena y Paseo de los

Niños A Plaza Centro SÍ

14 Azucena y Paseo de los Niños

A Uriburu y Rodríguez SÍ

15 Azucena y Paseo de los

Niños A Plaza Centro SÍ

16 Azucena y Paseo de los

Niños A Plaza Centro SÍ

17 Lunghi y Luis Maria

Campos

B Plaza Centro SÍ

18 Azucena y Paseo de los

Niños A Plaza Centro SÍ

19 Azucena y Paseo de los

Niños A Plaza Centro SÍ

20 Azucena y Paseo de los Niños

A Plaza Centro SÍ

21 Azucena y Paseo de los

Niños A Uriburu y Rodríguez SÍ

22 Lunghi y Luis Maria

Campos B Plaza Centro SÍ

23 Lunghi y Luis Maria

Campos

B Uriburu y Rodríguez SÍ

TOTAL DE PASAJEROS VÁLIDOS 16

Como se puede observar en la tabla anterior, hay 23 pasajeros que se subieron al colectivo analizado en un horario cercano al consultado. Para que un pasajero sea candidato a estar arriba del colectivo en cuestión el mismo debe haber pasado su tarjeta en el recorrido previo del colectivo.

Una vez obtenidos los pasajeros que se subieron al micro, es necesario

saber cuales son los que siguen en el colectivo y cuales ya descendieron del

mismo, momento en el cual entra en juego el algoritmo de predicción

realizado. Para cada pasajero candidato, se consulta cuál fue la predicción

calculada para la correspondiente zona de subida. Luego, se compara la

predicción de cada persona con la zona en la que se encontraba el colectivo en

el momento de la consulta para, de esta manera, poder buscar en el recorrido

de la línea si el colectivo ya pasó por la zona de predicción (cuestión que

determinaría que el pasajero descendió del vehículo), o si el micro todavía no

llegó a la zona predicha (lo que significa que el pasajero continúa en el

colectivo). A modo de ejemplo para entender la forma en la que se decide si un

pasajero se encuentra dentro del colectivo o si ya descendió del mismo, se

muestra la Figura 5.23: Figura 5.23. - Ejemplo de decisión para saber si un pasajero candidato pasa a ser un pasajero válido - Como se puede observar en la Figura 5.23, se debe analizar el recorrido

de la línea estudiada, la zona de subida del pasajero, la predicción para esa

subida, y la zona en la que se encuentra el colectivo. Si la zona del colectivo es

bajó del vehículo ya que el colectivo ya pasó por la zona en la que el algoritmo

predijo que se iba a bajar la persona (en el ejemplo de la figura, cuando la

zona de predicción es Zona3). En el caso contrario, si la zona del colectivo está

antes en el recorrido que la zona predicha, la persona continúa arriba del

vehículo ya que el colectivo todavía no llegó a la zona de bajada (en el ejemplo,

cuando la predicción es Zona5). Figura 5.24. - Muestra del ejemplo anteriormente mencionado en la interfaz de la aplicación realizada - En la Figura 5.24 se muestra una captura de la interfaz de la aplicación

de conteo implementada, en donde se puede observar que la cantidad de

pasajeros (16 personas) se corresponde con la selección de pasajeros válidos

realizada en el ejemplo. En la aplicación se puede apreciar cómo este proceso de ejemplo se tiene

el mismo proceso para todos los colectivos y las líneas. Esta aplicación en

tiempo real permitirá predecir el número de personas que están en el

colectivo en un momento dado. Nuestra simulación se realizó sobre los datos

que se pudieron obtener, en la aplicación real sería conveniente cambiar la

predicción de cantidad de personas a estados del colectivo. Para poner un

ejemplo de lo mencionado, se podrían dividir 3 estados específicos, como

vacío, medio, o lleno.

5.6. Resumen

En la presente sección del capítulo se presenta un resumen de los

análisis experimentales realizados durante el proyecto de tesis. Con el correr

de los experimentos, se pueden observar el progreso en los resultados del

algoritmo de predicción realizado en términos de eficiencia. Como primer punto, se puede ver que a medida que la división de la

ciudad de estudio disminuye la cantidad de zonas, los valores de eficiencia

arrojados por el algoritmo aumentan considerablemente. La distancia entre

las zonas establecidas es un factor fundamental en el comportamiento

mencionado, ya que al tener la ciudad dividida en menos zonas, la distancia

entre las mismas es mayor, y hay más probabilidad de acierto a la hora de

predecir una bajada, es decir, se pierde precisión geográfica pero se aumenta

la eficiencia del algoritmo. Otro punto importante en los experimentos realizados se basa en

establecimiento de una dirección/sentido de las zonas de subida (etiqueta).

Además de saber la zona en la que se subió el pasajero, saber en qué sentido

pasó el colectivo por esa zona resulta primordial ya que la predicción seguramente varíe dependiendo de esta dirección.

El núcleo de los experimentos se centró en, una vez establecido el

algoritmo de predicción original, agregar otras variables al mismo con el fin

de mejorar la eficiencia de las predicciones. Como se dijo anteriormente,

cuestiones como la hora de viaje, el día de la semana en que se realizó el

mismo, y la combinación de estos aspectos, fueron las variables agregadas al

algoritmo. En ninguno de los casos se consiguió superar la eficiencia del

algoritmo original, aunque creemos firmemente que con una mayor cantidad

de datos para llevar a cabo el entrenamiento del algoritmo produciría un

mejor comportamiento en las variaciones mencionadas. Por último, es importante analizar el comportamiento de diferentes

tipos de usuarios con el fin de estudiar la predictibilidad de los mismos, como

así también analizar las zonas vecinas a las predicciones, ya que muchas veces

el usuario varía por unas pocas cuadras sus eventos de viaje y es probable que

existan casos en que las zonas contiguas a la predicción puedan también ser considerados aciertos.

CAPÍTULO 6

Conclusiones y trabajos futuros

6.1 Conclusiones

En la actualidad, existen diferentes estudios que analizan la movilidad

de las personas en el entorno del transporte público, pero bajo nuestro

conocimiento ninguno lo hace de forma automática aprovechando la

información que brindan los sistemas de pago electrónico utilizados en el

servicio mencionado. Lograr este cambio de paradigma significa un avance

importante en todo lo relacionado a estudios y análisis de movilidad. En el proyecto de tesis se realizó un algoritmo de predicción que

automatiza el conocido estudio de movilidad de origen/destino en el

transporte público, prediciendo de forma inteligente la zona de bajada de las

personas dependiendo de la zona en la que se suben a los colectivos. Teniendo en cuenta que, según la información y el conocimiento

adquirido durante la realización del proyecto, llevar a cabo estos estudios de

movilidad de forma automática (sin realizar cambios a los sistemas

tradicionales de registro) es algo nuevo y sin precedentes, los resultados de

eficiencia resultan más que aceptables, rondando valores cercanos a un 74%

de eficiencia. Esto se potencia aún más si tenemos en cuenta los

inconvenientes que se presentaron con la captura de información para el

armado del dataset. Una vez establecido el foco central del proyecto, es decir, la

aplicación de conteo de pasajeros en tiempo real que materializa el algoritmo

y ejemplifica uno de los tantos estudios que se pueden realizar a partir de las

predicciones realizadas. La precisión del cálculo de personas se ve afectada por el porcentaje de

eficiencia que presenta el algoritmo de predicción. No obstante, disponer de

un valor aproximado del flujo de personas que se encuentran en los colectivos

en tiempo real también resulta útil para estudiar cuestiones como la

optimización de frecuencias, las zonas de mayor congestión, y demás análisis

posibles, sin tener la necesidad de que el cálculo sea exacto. Vale aclarar que

en el caso puntual del proyecto, se seleccionaron solo 8.000 usuarios de

160.000 activos, por lo que el estudio de cantidad de personas en los colectivos

dista de la realidad. Para lograr una evaluación correcta, haría falta disponer

de la información de todos los usuarios activos. Puntualmente, el mejor comportamiento del algoritmo se presentó con

la evaluación del algoritmo original (sin tener en cuenta cuestiones como el

día, la hora, o el conjunto de ellas), en donde la mitad del dataset se utilizó

para entrenamiento (predicciones) y la otra mitad para la evaluación. La

eficiencia mencionada fue de un 73,14%. Vale aclarar que este dato

corresponde a la evaluación perteneciente a la división de la ciudad en zonas

barriales, en la cual no se tienen en cuenta los registros en que el usuario no

posee historial para la zona de subida interviniente, cuestión que sería mucho

menos frecuente en el caso de disponer de una mayor cantidad de datos

históricos para cada usuario y, de esta manera, evitar la falta de información

mencionada. En estos casos en los que para una subida no se presenta

historial, la decisión aplicada fue la de decidir cómo bajada predicha a la zona

más frecuente del usuario y, evaluando el comportamiento, el porcentaje de eficiencia resultó en un 68,50%.

En cuanto a los usuarios más predecibles, se evaluaron dos grandes

categorías denominadas “SUMO” y “PASE”, y ante dichas evaluaciones se

puede concluir que los usuarios pertenecientes a la categoría “PASE” son los

que mejor se comportan en sus predicciones. Este comportamiento podría

producirse ya que los estudiantes presentan una rutina más marcada que el

resto de los usuarios, utilizando el transporte público para concurrir a sus

establecimientos educativos. En el capítulo 5 se pudieron observar todos los

aspectos correspondientes a estas comparaciones.

6.2. Ventajas

● Innovación a través de la automatización del estudio

origen/destino en el transporte público: El estudio realizado posee

la ventaja de aprovechar la información disponible que aportan

los sistemas de pago electrónico en el transporte público, con el

fin de brindar información importante para estudios de

movilidad, mejorando la implementación manual del mismo. ● Bajo costo de implementación del sistema de conteo de pasajeros:

Debido a que no se requiere ningún hardware adicional

(sensores, cámaras, etc.) para realizar el análisis de aforos, se

reduce el costo a la hora de llevar a cabo la implementación del

sistema. ● Capacidad de expansión en diferentes urbes: Lograr un buen

desempeño en la instalación de una aplicación específica (en este

caso, conteo de pasajeros en tiempo real) que utiliza el algoritmo

de predicción inteligente en una ciudad determinada permite la

posibilidad de instanciar este mismo proyecto en escenarios

similares al utilizado. ● Posibilidad de realizar nuevos estudios a partir de la información

6.3. Limitaciones

A medida que se fue realizando el trabajo de tesis, se presentaron

diferentes problemáticas que resultaron ser limitaciones a la hora de la

In document Análisis comportamental de las personas mediante la predicción inteligente de movilidad en el transporte público (página 114-135)

Figura 5.11 ​ Fórmula de cálculo de eficiencia

5.4.3. Resultados y análisis de experimentos

5.4.3.6. Evaluación zonas vecinas

5.4.3.6. Evaluación zonas vecinas

5.4.3.7. Evaluación división de zonas enfocado en los

individuos (barrios de la ciudad, aspectos socio-económicos)

5.4.3.8. Comparación entre divisiones de zonas.

5.5. Aplicación de conteo de pasajeros

5.6. Resumen

CAPÍTULO 6

Conclusiones y trabajos futuros

6.1 Conclusiones

6.2. Ventajas

6.3. Limitaciones

Figura 5.11 Fórmula de cálculo de eficiencia