Figura 5.11 Fórmula de cálculo de eficiencia
5.4.3. Resultados y análisis de experimentos
5.4.3.6. Evaluación zonas vecinas
Como se puede apreciar en la Figura 5.19, se realizó la prueba con las distintas variaciones del algoritmo de predicción y vemos que la eficiencia es mayor para los usuarios PASE en aproximadamente un 6%. Por lo tanto, podemos decir que los estudiantes son más predecibles que el resto de las personas. Esto tiene su lógica, ya que es probable que estos sean rutinarios y viajen diariamente en transporte público hasta el establecimiento educativo correspondiente.
Con respecto a los usuarios SUMO, puede ocurrir que gran parte de ellos sean rutinarios, viajando por ejemplo desde su casa al trabajo en colectivo. No obstante, es posible que utilicen el transporte público para también moverse a otros lugares que no sean parte de su rutina con más frecuencia, lo que los hace más impredecibles.
5.4.3.6. Evaluación zonas vecinas
A la hora de evaluar la eficiencia del algoritmo de predicción, es importante tener en cuenta y estudiar todos los casos puntualmente para decidir si la predicción fue correcta o no. En este caso, las zonas vecinas a la predicción cumplen un rol clave ya que muchas veces el usuario puede variar sus zonas de viajes entre zonas contiguas en el recorrido y, en muchos casos, puede ocurrir que el pasajero se suba justo en el límite entre las dos zonas y se presenten variaciones cuando en realidad la zona real es la misma. Es por lo mencionado que se llevó a cabo el estudio de las zonas vecinas a la predicción real, comparando la eficiencia presentada.
Vale aclarar que la evaluación realizada se basa en estudiar el comportamiento de las zonas vecinas a la predicción, es decir, analizar la cantidad de ocasiones en las que la predicción establecida falla, pero el error
presentado se produjo por la decisión de una zona vecina a la predicción. Como se dijo anteriormente, estos casos pueden llegar a ser vistos como un acierto, pero no se tiene la certeza.
Por último, una vez detallado el caso de estudio, se muestra la evaluación realizada, analizando los “hits vecinos” (casos en que la zona de predicción es contigua a la bajada real) con diferentes porcentajes de confianza. Es decir, se establece la comparación entre tomar un acierto vecino como un acierto normal (porcentaje de confianza 100%) y decidir el acierto vecino como la mitad de un acierto normal (porcentaje de confianza 50%).
Figura 5.20. - Gráfico ilustrativo de evaluaciones con 39 zonas estudiando las zonas vecinas a la predicción -
Como se ve en la Figura 5.20, tomando un “hit vecino” como un acierto común (100% de confianza) el porcentaje de eficiencia aumenta de manera considerable, llegando a un valor del 81,48% con el algoritmo original. En
cambio, si el “hit vecino” se estudia como la mitad de un acierto común (50%
de eficiencia), los resultados de eficiencia también mejoran pero se acercan
más al arrojado por el análisis inicial (sin estudiar las zonas vecinas), con un
73,78%. Vale aclarar que se sigue repitiendo el patrón de comportamiento entre
las variaciones del algoritmo. Es decir, agregando cuestiones como la hora y el
día al momento de predecir, el porcentaje de eficiencia baja con respecto al
algoritmo original.
5.4.3.7. Evaluación división de zonas enfocado en los
individuos (barrios de la ciudad, aspectos socio-económicos)
Otro experimento importante que se realizó, tiene como objetivoevaluar la eficiencia del algoritmo de predicción analizando la movilidad de
los pasajeros entre los barrios de la ciudad. En esta prueba se realiza la
división de la ciudad de una forma diferente, teniendo en cuenta la
orientación geográfica, por lo que se establecen 16 zonas que corresponden a los barrios de la ciudad como se detalla en la Figura 5.5 de la sección 5.3.1.
Figura 5.21. - Gráfico ilustrativo de evaluaciones con 16 zonas (zonas barriales) comparando todas las variaciones del algoritmo -
Como se observa en la Figura 5.21, en esta prueba se obtiene el mayor
valor de eficiencia del algoritmo de predicción obteniendo un 73,14% de
aciertos en las predicciones de bajada de los pasajeros utilizando el algoritmo
original. Si bien todos los valores de eficiencia de las variaciones del algoritmo de
predicción mejoran con respecto a las otras divisiones de zonas, vemos que
ninguna de las variaciones mencionadas supera la eficiencia del algoritmo
original, cuestión que se repite en todas las pruebas realizadas. Si se tuviera
acceso a un dataset más completo es muy probable que el algoritmo pueda
aprender mejor (mayor cantidad de datos para entrenar) y las variaciones arrojen mejores resultados.
5.4.3.8. Comparación entre divisiones de zonas.
A continuación se muestra un gráfico donde se vé cómo varía el
porcentaje de eficiencia del algoritmo de predicción, utilizando todas las
divisiones en zonas de la ciudad de Tandil nombradas previamente. Figura 5.22. - Gráfico comparativo entre las diferentes divisiones de zonas - Como se ve en el gráfico de la Figura 5.22, a medida que la división
reduce las zonas, la eficiencia del algoritmo de predicción aumenta. En el caso
de la primer evaluación realizada (107 zonas) la eficiencia no alcanzaba el
50%, aunque vale aclarar que en dichas pruebas todavía no se había estudiado los diferentes sentidos de los colectivos (etiquetas).
Luego, con una división de zonas mucho más reducida (39 zonas) y con
la inclusión del sentido de los colectivos, la eficiencia llegó a un porcentaje de
66,08%, logrando una mejora considerable con respecto a la división anterior. Como último punto a analizar, se evaluó el algoritmo con una división
aún más reducida (16 zonas) teniendo en cuenta la orientación geográfica
(barrios), en donde arrojó el mejor valor de eficiencia presentado por el
algoritmo (sin tener en cuenta la evaluación de zonas vecinas), logrando una
eficiencia de 73,14%.
5.5. Aplicación de conteo de pasajeros
Como se mencionó anteriormente, se realizó una aplicación que cuentalos pasajeros que están viajando en los diferentes colectivos en tiempo real.
Dicha aplicación muestra una de las variadas utilidades que tiene el algoritmo
de predicción realizado. Tener una noción de cuántas personas tienen los
colectivos en tiempo real brinda la posibilidad de estudiar cuestiones como
optimización de frecuencias, capacidad máxima de personas en los vehículos,
etc. A continuación, se describe la forma en la que se calcula la cantidad de
personas a través de un ejemplo ilustrativo. Básicamente, se determinan una
fecha y hora específicas para analizar, y se detallan los pasajeros candidatos a
estar arriba de una unidad seleccionada en la fecha y hora especificada
anteriormente. La fecha mencionada es necesaria ya que la implementación
realizada es en un entorno de simulación y no en tiempo real, como se
mencionó anteriormente. Vale aclarar que la fecha en que se desea conocer la
cantidad de pasajeros de los colectivos en una línea específica, debe pertenecer al conjunto de datos disponible para el estudio.
Instanciación del ejemplo para analizar el conteo:
● Linea: 503.
● Unidad: 05.
● Fecha: 01/11/2017
● Hora: 12:40.
● Zona de colectivo: Lunghi y Luis María Campos
● Etiqueta: B
En la siguiente tabla se puede observar el recorrido de la línea N° 503 para poder llevar a cabo la decisión de si un pasajero continúa arriba del colectivo o ya descendió del mismo.
Recorrido línea N°503
Zona Etiqueta
Campus A
Av. Reforma Universitaria y Los Aromos A
Country Sierras del Tandil A
Av. Falucho y Costa Rica A
Av. Avellaneda y Av. Bolívar A
Plaza Centro A
Uriburu y Rodríguez A
Lunghi y Luis Maria Campos A
Azucena y Paseo de los niños A
Lunghi y Luis Maria Campos B
Uriburu y Rodríguez B
Plaza Centro B
Av. Avellaneda y Av. Bolívar B
Av. Falucho y Costa Rica B
Av. Reforma Universitaria y Los Aromos B
Campus B
Teniendo toda la información necesaria para el estudio de cantidad de personas, se procede a realizar la selección de pasajeros válidos entre todos los candidatos, es decir, se estudia cada pasajero que se subió al colectivo para decidir cuáles de ellos son los que realmente continúan en el vehículo.
Tabla de pasajeros que se subieron a la unidad estudiada
ID tarjeta Zona de Subida Etiqueta Predicción Pasajero
Válido 1 Azucena y Paseo de los
Niños A Plaza Centro SÍ
2 Plaza Centro A Azucena y Paseo de los
Niños NO
3 Uriburu y Rodríguez A Plaza Centro SÍ
4 Country y Sierras del
Tandil A Plaza Centro NO
5 Av. Avellaneda y Av.
Bolívar
A Lunghi y Luis Maria
Campos
NO
6 Lunghi y Luis Maria
Campos A Azucena y Paseo de los Niños NO
7 Lunghi y Luis Maria
Campos B Plaza Centro SÍ
8 Uriburu y Rodríguez A Lunghi y Luis Maria
Campos
NO
9 Uriburu y Rodríguez A Azucena y Paseo de los
Niños NO
10 Azucena y Paseo de los
11 Lunghi y Luis Maria Campos
A Azucena y Paseo de los Niños
NO 12 Azucena y Paseo de los
Niños A Plaza Centro SÍ
13 Azucena y Paseo de los
Niños A Plaza Centro SÍ
14 Azucena y Paseo de los Niños
A Uriburu y Rodríguez SÍ
15 Azucena y Paseo de los
Niños A Plaza Centro SÍ
16 Azucena y Paseo de los
Niños A Plaza Centro SÍ
17 Lunghi y Luis Maria
Campos
B Plaza Centro SÍ
18 Azucena y Paseo de los
Niños A Plaza Centro SÍ
19 Azucena y Paseo de los
Niños A Plaza Centro SÍ
20 Azucena y Paseo de los Niños
A Plaza Centro SÍ
21 Azucena y Paseo de los
Niños A Uriburu y Rodríguez SÍ
22 Lunghi y Luis Maria
Campos B Plaza Centro SÍ
23 Lunghi y Luis Maria
Campos
B Uriburu y Rodríguez SÍ
TOTAL DE PASAJEROS VÁLIDOS 16
Como se puede observar en la tabla anterior, hay 23 pasajeros que se subieron al colectivo analizado en un horario cercano al consultado. Para que un pasajero sea candidato a estar arriba del colectivo en cuestión el mismo debe haber pasado su tarjeta en el recorrido previo del colectivo.
Una vez obtenidos los pasajeros que se subieron al micro, es necesario
saber cuales son los que siguen en el colectivo y cuales ya descendieron del
mismo, momento en el cual entra en juego el algoritmo de predicción
realizado. Para cada pasajero candidato, se consulta cuál fue la predicción
calculada para la correspondiente zona de subida. Luego, se compara la
predicción de cada persona con la zona en la que se encontraba el colectivo en
el momento de la consulta para, de esta manera, poder buscar en el recorrido
de la línea si el colectivo ya pasó por la zona de predicción (cuestión que
determinaría que el pasajero descendió del vehículo), o si el micro todavía no
llegó a la zona predicha (lo que significa que el pasajero continúa en el
colectivo). A modo de ejemplo para entender la forma en la que se decide si un
pasajero se encuentra dentro del colectivo o si ya descendió del mismo, se
muestra la Figura 5.23: Figura 5.23. - Ejemplo de decisión para saber si un pasajero candidato pasa a ser un pasajero válido - Como se puede observar en la Figura 5.23, se debe analizar el recorrido
de la línea estudiada, la zona de subida del pasajero, la predicción para esa
subida, y la zona en la que se encuentra el colectivo. Si la zona del colectivo es
bajó del vehículo ya que el colectivo ya pasó por la zona en la que el algoritmo
predijo que se iba a bajar la persona (en el ejemplo de la figura, cuando la
zona de predicción es Zona3). En el caso contrario, si la zona del colectivo está
antes en el recorrido que la zona predicha, la persona continúa arriba del
vehículo ya que el colectivo todavía no llegó a la zona de bajada (en el ejemplo,
cuando la predicción es Zona5). Figura 5.24. - Muestra del ejemplo anteriormente mencionado en la interfaz de la aplicación realizada - En la Figura 5.24 se muestra una captura de la interfaz de la aplicación
de conteo implementada, en donde se puede observar que la cantidad de
pasajeros (16 personas) se corresponde con la selección de pasajeros válidos
realizada en el ejemplo. En la aplicación se puede apreciar cómo este proceso de ejemplo se tiene
el mismo proceso para todos los colectivos y las líneas. Esta aplicación en
tiempo real permitirá predecir el número de personas que están en el
colectivo en un momento dado. Nuestra simulación se realizó sobre los datos
que se pudieron obtener, en la aplicación real sería conveniente cambiar la
predicción de cantidad de personas a estados del colectivo. Para poner un
ejemplo de lo mencionado, se podrían dividir 3 estados específicos, como
vacío, medio, o lleno.
5.6. Resumen
En la presente sección del capítulo se presenta un resumen de losanálisis experimentales realizados durante el proyecto de tesis. Con el correr
de los experimentos, se pueden observar el progreso en los resultados del
algoritmo de predicción realizado en términos de eficiencia. Como primer punto, se puede ver que a medida que la división de la
ciudad de estudio disminuye la cantidad de zonas, los valores de eficiencia
arrojados por el algoritmo aumentan considerablemente. La distancia entre
las zonas establecidas es un factor fundamental en el comportamiento
mencionado, ya que al tener la ciudad dividida en menos zonas, la distancia
entre las mismas es mayor, y hay más probabilidad de acierto a la hora de
predecir una bajada, es decir, se pierde precisión geográfica pero se aumenta
la eficiencia del algoritmo. Otro punto importante en los experimentos realizados se basa en
establecimiento de una dirección/sentido de las zonas de subida (etiqueta).
Además de saber la zona en la que se subió el pasajero, saber en qué sentido
pasó el colectivo por esa zona resulta primordial ya que la predicción seguramente varíe dependiendo de esta dirección.
El núcleo de los experimentos se centró en, una vez establecido el
algoritmo de predicción original, agregar otras variables al mismo con el fin
de mejorar la eficiencia de las predicciones. Como se dijo anteriormente,
cuestiones como la hora de viaje, el día de la semana en que se realizó el
mismo, y la combinación de estos aspectos, fueron las variables agregadas al
algoritmo. En ninguno de los casos se consiguió superar la eficiencia del
algoritmo original, aunque creemos firmemente que con una mayor cantidad
de datos para llevar a cabo el entrenamiento del algoritmo produciría un
mejor comportamiento en las variaciones mencionadas. Por último, es importante analizar el comportamiento de diferentes
tipos de usuarios con el fin de estudiar la predictibilidad de los mismos, como
así también analizar las zonas vecinas a las predicciones, ya que muchas veces
el usuario varía por unas pocas cuadras sus eventos de viaje y es probable que
existan casos en que las zonas contiguas a la predicción puedan también ser considerados aciertos.
CAPÍTULO 6
Conclusiones y trabajos futuros
6.1 Conclusiones
En la actualidad, existen diferentes estudios que analizan la movilidad
de las personas en el entorno del transporte público, pero bajo nuestro
conocimiento ninguno lo hace de forma automática aprovechando la
información que brindan los sistemas de pago electrónico utilizados en el
servicio mencionado. Lograr este cambio de paradigma significa un avance
importante en todo lo relacionado a estudios y análisis de movilidad. En el proyecto de tesis se realizó un algoritmo de predicción que
automatiza el conocido estudio de movilidad de origen/destino en el
transporte público, prediciendo de forma inteligente la zona de bajada de las
personas dependiendo de la zona en la que se suben a los colectivos. Teniendo en cuenta que, según la información y el conocimiento
adquirido durante la realización del proyecto, llevar a cabo estos estudios de
movilidad de forma automática (sin realizar cambios a los sistemas
tradicionales de registro) es algo nuevo y sin precedentes, los resultados de
eficiencia resultan más que aceptables, rondando valores cercanos a un 74%
de eficiencia. Esto se potencia aún más si tenemos en cuenta los
inconvenientes que se presentaron con la captura de información para el
armado del dataset. Una vez establecido el foco central del proyecto, es decir, la
aplicación de conteo de pasajeros en tiempo real que materializa el algoritmo
y ejemplifica uno de los tantos estudios que se pueden realizar a partir de las
predicciones realizadas. La precisión del cálculo de personas se ve afectada por el porcentaje de
eficiencia que presenta el algoritmo de predicción. No obstante, disponer de
un valor aproximado del flujo de personas que se encuentran en los colectivos
en tiempo real también resulta útil para estudiar cuestiones como la
optimización de frecuencias, las zonas de mayor congestión, y demás análisis
posibles, sin tener la necesidad de que el cálculo sea exacto. Vale aclarar que
en el caso puntual del proyecto, se seleccionaron solo 8.000 usuarios de
160.000 activos, por lo que el estudio de cantidad de personas en los colectivos
dista de la realidad. Para lograr una evaluación correcta, haría falta disponer
de la información de todos los usuarios activos. Puntualmente, el mejor comportamiento del algoritmo se presentó con
la evaluación del algoritmo original (sin tener en cuenta cuestiones como el
día, la hora, o el conjunto de ellas), en donde la mitad del dataset se utilizó
para entrenamiento (predicciones) y la otra mitad para la evaluación. La
eficiencia mencionada fue de un 73,14%. Vale aclarar que este dato
corresponde a la evaluación perteneciente a la división de la ciudad en zonas
barriales, en la cual no se tienen en cuenta los registros en que el usuario no
posee historial para la zona de subida interviniente, cuestión que sería mucho
menos frecuente en el caso de disponer de una mayor cantidad de datos
históricos para cada usuario y, de esta manera, evitar la falta de información
mencionada. En estos casos en los que para una subida no se presenta
historial, la decisión aplicada fue la de decidir cómo bajada predicha a la zona
más frecuente del usuario y, evaluando el comportamiento, el porcentaje de eficiencia resultó en un 68,50%.
En cuanto a los usuarios más predecibles, se evaluaron dos grandes
categorías denominadas “SUMO” y “PASE”, y ante dichas evaluaciones se
puede concluir que los usuarios pertenecientes a la categoría “PASE” son los
que mejor se comportan en sus predicciones. Este comportamiento podría
producirse ya que los estudiantes presentan una rutina más marcada que el
resto de los usuarios, utilizando el transporte público para concurrir a sus
establecimientos educativos. En el capítulo 5 se pudieron observar todos los
aspectos correspondientes a estas comparaciones.
6.2. Ventajas
● Innovación a través de la automatización del estudioorigen/destino en el transporte público: El estudio realizado posee
la ventaja de aprovechar la información disponible que aportan
los sistemas de pago electrónico en el transporte público, con el
fin de brindar información importante para estudios de
movilidad, mejorando la implementación manual del mismo. ● Bajo costo de implementación del sistema de conteo de pasajeros:
Debido a que no se requiere ningún hardware adicional
(sensores, cámaras, etc.) para realizar el análisis de aforos, se
reduce el costo a la hora de llevar a cabo la implementación del
sistema. ● Capacidad de expansión en diferentes urbes: Lograr un buen
desempeño en la instalación de una aplicación específica (en este
caso, conteo de pasajeros en tiempo real) que utiliza el algoritmo
de predicción inteligente en una ciudad determinada permite la
posibilidad de instanciar este mismo proyecto en escenarios
similares al utilizado. ● Posibilidad de realizar nuevos estudios a partir de la información
6.3. Limitaciones
A medida que se fue realizando el trabajo de tesis, se presentaron
diferentes problemáticas que resultaron ser limitaciones a la hora de la