Mint: Model for location INference using Tracking

(1)

Sistema pervasive de recomendaci´

on de trayectorias basado en

localizaci´

on

Proyecto de Grado presentado al

Departamento de Ingenier´ıa de Sistemas y Computaci´on por

Andrea Carolina Buitrago

Asesora: Claudia Luc´ıa Jim´enez

Para optar al t´ıtulo de Ingeniera de Sistemas y Computaci´on

Universidad de los Andes Julio de 2014

(2)

´

_Indice

1. Introducci´on 5

1.1. Problema a resolver . . . 5

2. Objetivos 7 2.1. Objetivo General . . . 7

2.2. Objetivos Espec´ıficos . . . 7

2.3. Consideraciones y restricciones . . . 7

3. Contexto y Antecedentes 8 3.1. Contexto del proyecto . . . 8

3.1.1. MAGPIE . . . 8

3.1.2. Budgie . . . 8

3.2. Antecedentes . . . 9

3.2.1. Sistemas de recomendación móvil basados en localización . . . 10

3.2.2. Sistemas de predicci´on de movilidad . . . 11

3.3. Resumen . . . 11

4. Estrategia de soluci´on 13 4.1. Atributos de calidad . . . 13

4.2. Recolecci´on de datos . . . 15

4.2.1. Procesamiento del aceler´ometro . . . 16

4.2.2. Detecci´on de Movimiento . . . 18

4.2.3. Control del muestreo GPS . . . 20

4.3. Limpieza de datos . . . 21

4.3.1. Detecci´on de trayectorias y lugares visitados . . . 22

4.3.2. Filtro de trayectorias . . . 23

4.3.3. Detecci´on de lugares visitados . . . 23

4.3.4. Unificaci´on y enriquecimiento . . . 24

4.4. Procesamiento y an´alisis . . . 24

4.4.1. Inferencia del pr´oximo lugar . . . 24

4.4.2. Identificaci´on de tr´afico . . . 26

4.4.3. Generaci´on del cl´uster . . . 27

4.5. Alcance . . . 30

5. Descripci´on de la soluci´on 32 5.1. Contexto . . . 32

5.2. Despliegue . . . 32

5.3. Budgie MINT . . . 33

5.3.1. Controlador principal de la aplicaci´on . . . 34

5.3.2. Modelo de desplazamiento del usuario . . . 35

5.3.3. Constructor local de inferencias . . . 36

5.3.4. Comunicaciones externas . . . 38

5.3.5. Manejador de persistencia . . . 38

5.3.6. Monitoreo . . . 39

5.3.7. Diferencias con versiones anteriores de Budgie . . . 42

5.4. Main Processor . . . 43

5.4.1. Procesador de datos . . . 44

5.4.2. Administrador del cluster . . . 45

5.4.3. Constructor de inferencias . . . 47

5.4.4. Generador de alertas y recomendaciones . . . 47

5.4.5. Comunicaciones externas . . . 47

(3)

6. Implementaci´on 49

6.1. Budgie MINT . . . 49

6.2. Main Processor . . . 51

6.3. Web Server . . . 54

7. Pruebas y resultados 57 7.1. Dataset . . . 57

7.2. Recolecci´on de datos . . . 58

7.3. Limpieza de datos . . . 59

7.4. Procesamiento y an´alisis . . . 60

7.4.1. Predicci´on . . . 60

7.4.2. Generaci´on del cluster y recomendaciones . . . 61

8. Conclusiones y trabajo futuro 63

(4)

´

_{Indice de figuras}

1. Modelo principal de Budgie. . . 9

2. Variables relevantes en Budgie. . . 10

3. Diagrama de contexto. . . 13

4. Atributos de calidad aplicaci´on m´ovil Budgie MINT. . . 14

5. Atributos de calidad del back-end. . . 14

6. Flujo de procesamiento de datos. . . 14

7. Sistema de recolecci´on de datos. . . 15

8. Muestras del aceler´ometro para un dispositivo est´atico . . . 16

9. Mediciones del aceler´ometro para diferentes movimientos . . . 17

10. Diagrama de flujo del procesamiento de los datos del aceler´ometro . . . 19

11. Sistema de limpieza. . . 21

12. Gr´afico de una trayectoria y un lugar visitado . . . 22

13. Ejemplo de trayectoria con una medici´on anormal . . . 23

14. Ejemplos de trayectorias filtradas . . . 23

15. Etapa de procesamiento y an´alisis . . . 25

16. Modelo de aprendizaje de m´aquina. . . 25

17. Ejemplo de una trayectoria con tranc´on . . . 27

18. Proceso realizado para obtener una estructura con los lugares relevantes y las trayectorias. . 27

19. Conceptos de DBSCAN paraM inP ts= 4. . . 29

20. Ejemplos del modelo de similitud de trayectorias. . . 30

21. Diagrama de contexto. . . 32

22. Diagrama de despliegue. . . 32

23. Diagrama de componentes Budgie MINT. . . 33

24. Diagrama de clases orquestador. . . 34

25. Diagrama de clases del modelo de desplazamiento del usuario. . . 35

26. Componente constructor local de inferencias. . . 36

27. Diagrama de clases constructor local de inferencias. . . 37

28. Componente comunicaciones externas . . . 38

29. Estructura de archivos Budgie Tracker [10]. . . 39

30. Columnas de los registros de los sensores. . . 39

31. Componente de monitoreo. . . 40

32. Diagrama de clases del monitoreo. . . 42

33. Diagrama de componentes Main Processor. . . 43

34. Diagrama de clases procesador de datos. . . 44

35. Flujo de procesamiento para la realizaci´on del cluster. . . 45

36. Diagrama de componentes comunicaciones externas. . . 47

37. Diagrama de componentes del servidor web. . . 48

38. Vista de trayectorias realizadas por el usuario. . . 49

39. Ejemplos del modelo de similitud de trayectorias. . . 50

40. Ejemplos de trayectorias filtradas . . . 52

41. Diagrama de despliegue. . . 53

42. P´agina principal. . . 55

43. P´agina de un usuario. . . 55

44. Formulario para realizar la predicci´on del lugar a visitar por un usuario. . . 56

45. Resultados de las predicciones del lugar a visitar por un usuario. . . 56

46. Distribuci´on de los datos en los usuarios del dataset. . . 57

47. Distribuci´on de los datos de acuerdo a los sensores. . . 58

(5)

´

_{Indice de tablas}

1. Comparaci´on de proyectos evaluados y MINT . . . 12

2. Par´ametros de la etapa de recolecci´on de datos . . . 21

3. Par´ametros de la etapa de limpieza . . . 24

4. Par´ametros de la etapa de procesamiento y an´alisis . . . 31

5. Codificaci´on de las caracter´ısticas usadas en el algoritmo de aprendizaje . . . 36

6. Managers y Listener usados en Budgie MINT . . . 40

7. Discretizaci´on usada para las diferentes caracter´ısticas de un lugar visitado. . . 45

8. Discretizaci´on usada para las diferentes caracter´ısticas de un lugar visitado. . . 46

9. Matriz de adjacencia del grafo. . . 46

10. Valores para los par´ametros de la etapa de recolecci´on de datos . . . 51

11. Valores de par´ametros de la etapa de limpieza de datos . . . 51

12. Caracter´ısticas del dataset GeoLife [23]. . . 52

13. Especificaci´on de la infraestructura. . . 54

14. Valores de los par´ametros de la etapa de procesamiento y an´alisis . . . 54

15. Caracter´ısticas del dataset obtenido. . . 57

16. Pruebas de bater´ıa . . . 59

17. Caracter´ısticas del dataset obtenido. . . 59

18. Resultados de predicciones en BudgieMINT . . . 61

(6)

1. Introducci´

on

En la actualidad, la amplia adopción de los dispositivos móviles as´ı como el rápido y diverso crecimiento de la información disponible en la Web, han generado una serie de retos y oportunidades para el mundo de la computación que contienen requerimientos diferentes a aquellos propuestos por sistemas tradicionales.

En los últimos años la tecnolog´ıa de dispositivos móviles ha tenido una gran penetración a nivel mundial, donde en el 2013 se calculó que existen cerca de 6.8 billones de suscripciones móviles (al rededor del 96 % de la población mundial) [1]. Ésta tecnolog´ıa ha transformado la manera como vivimos y se ha convertido en una herramienta indispensable, ya que no solo nos ha permitido una rápida comunicación sino que se ha convertido en un punto de acceso a la información. Además, la inclusión de sensores embebidos en los dispositivos móviles como GPS, acelerómetro, cámara, micrófono y bluetooth, entre otros, ha permitido el desarrollo de aplicaciones enfocadas a la salud, turismo o el entretenimiento que antes no podr´ıan haber sido consideradas.

Debido a la ubicuidad de los dispositivos móviles y al hecho de que estos posean sensores, ha nacido el interés en desarrollar sistemas pervasive móviles que aprovechen éstas caracter´ısticas para percibir las acciones y el contexto del usuario de manera no invasiva. De esta manera, se podrán ofrecer servicios no intrusivos que mejoren la experiencia y calidad de la vida humana sin exigir una atención explicita o consciente [2][3]. Por lo tanto, es posible brindarle al usuario un ambiente inteligente que infiera a partir del contexto y el perfil del usuario la información que es relevante.

Entre los campos que han adquirido mayor importancia en los sistemas pervasive móviles, se encuentra el desarrollo de sistemas de información pervasive basados en localización, estos sistemas utilizan la posición, contexto y perfil del usuario para acceder o producir información relacionada con la ubicación en la que se encuentra [4]. La importancia que han adquirido estos sistemas se debe a la alta relación que existe entre la posición de un usuario, las actividades que realiza y los servicios que requiere. Además, la reciente ubiquidad de los dispositivos móviles en la vida de los usuarios, as´ı como a la posibilidad de acceder a la localización de éstos por medio de sus sensores, ha permitido un mayor desarrollo de este tipo de sistemas.

En particular, es relevante desarrollar sistemas pervasive de recomendación y generación de alertas basados en localización y hábitos del usuario, pues estos pueden responder al problema de obtención de la información de manera no intrusiva generándole alertas relevantes al usuario en momentos cr´ıticos. Los anteriores sistemas poseen múltiples aplicaciones en áreas de mercadeo, publicidad, y turismo, donde conocer los intereses de los usuarios en relación a su localización da la oportunidad de ofrecerles contenido relevante en el lugar adecuado para as´ı adquirir posibles clientes.

1.1. Problema a resolver

La problemática que se desea tratar ocurre en el contexto de movilidad de una ciudad, donde en muchas ocasiones es dif´ıcil predecir el tiempo de llegada a un lugar; lo anterior es causado porque dicho tiempo depende de la ruta que se tome, el momento del d´ıa, el medio de transporte e, incluso, en cierta medida del clima. Ésta problemática afecta a todas las personas que se movilizan en una ciudad, y, por ello mismo, se puede afirmar que cualquier persona con un dispositivo móvil ésta en capacidad de aportar información valiosa sobre el estado del tráfico en la ruta que está tomando/tomó para dirigirse a su casa, trabajo, reunión, . . . etc. Por lo tanto, si se conociera dicha información de todas las personas en una ciudad, ser´ıa posible tomar una decisión más acertada sobre qué ruta tomar para llegar a un lugar espec´ıfico.

El problema presentado no es desconocido y ha tenido múltiples aproximaciones, no obstante, es debido a los diferentes factores que afectan la movilidad de una ciudad que no ha sido resuelto por completo. Adicionalmente, se debe resaltar que en el presente proyecto no se desea solamente realizar una estimación de tiempos de llegada a un lugar en una ciudad, sino, ofrecerle un servicio invisible a un usuario que le brinde información relevante en momentos relevantes. En particular, deben resaltarse las diferencias entre la aplicación GoogleNow y el sistema que se desea desarrollar en este proyecto, ya que esta aplicación ha recibido especial atención recientemente por su utilidad para la movilización en una ciudad. Las diferencias

(7)

entre estos dos sistemas yacen en dos hechos, por un lado en este proyecto se desea realizar predicciones sobre el próximo lugar que el usuario visitará a partir de la información histórica que se posee y los datos del calendario, es decir, se incluyen muchos más lugares en las predicciones además de la casa y el trabajo de un usuario. Por otro lado, las recomendaciones no solo serán alertas de tráfico, sino sugerencias de rutas alternativas que son usadas por otros usuarios. Finalmente, se debe señalar que la aplicación GoogleNow no funciona si no existe una conexión a internet disponible en el dispositivo, mientras que se desea que la aplicación desarrollada en este proyecto funcione, aunque con márgenes de error más altos, en un contexto de poca conectividad.

Debido a que esta problem´atica afecta a todas las personas que se movilizan en una ciudad, son dichas personas los principales interesados en encontrar una posible soluci´on. Sin embargo, en la medida en que ´

este problema afecta el transporte público de una ciudad, pueden existir entidades interesadas en conocer y monitorear el tráfico, para as´ı tomar medidas de acuerdo con dicha información.

Teniendo en cuenta la anterior problemática, el presente proyecto tiene como principal objetivo desarrollar un sistema pervasive que permita la adquisición y recuperación de datos de movilidad de sus usuarios, para realizar la generación tanto de recomendaciones como de alertas relevantes para un usuario de acuerdo con su localización y a sus hábitos, en particular, a su calendario.

(8)

2. Objetivos

2.1. Objetivo General

Realizar el diseño e implementación de MINT (Model for location INference using Tracking), un sistema pervasive compuesto por una aplicación móvil Android y un back-end que permita:

- Adquirir y recuperar datos de movilidad de las personas que usen la aplicaci´on m´ovil.

- Generar alertas relevantes para la movilidad del usuario basadas en la localización actual de éste y la información de su calendario.

2.2. Objetivos Espec´ıficos

Desarrollar e integrar un componente a la arquitectura ya disponible del proyecto MagPie para el análisis y generación de alertas basadas en los datos de localización.

Definir y desarrollar un modelo de alertas que utilice los datos de localización del usuario y su calendario, as´ı como la información de localización adquirida para generar alertas relevantes.

Desarrollar e integrar un componente Android al proyecto Budgie que permita realizar la adquisición y procesamiento básico de los datos de localización.

Desarrollar un componente Android que permita geolocalizar los lugares a los cuales el usuario debe ir de acuerdo con su calendario personal.

2.3. Consideraciones y restricciones

Las principales consideraciones para el proyecto se encuentran en el desarrollo de la aplicación móvil, pues esta no debe consumir de manera excesiva e innecesaria los recursos del dispositivo móvil. En particular, se resaltan las siguientes consideraciones,

- Los dispositivos móviles poseen bater´ıa limitada que puede ser consumida fácilmente por la lectura de sensores o el excesivo procesamiento. Por lo tanto, se debe procurar usar adecuadamente los recursos del dispositivo para as´ı aprovecharlos sin degenerar el funcionamiento de éste para el usuario.

- Al realizar el análisis de los datos es necesario considerar el contexto de no conectividad, por ser este un recurso que no es constante en los dispositivos móviles. Adicionalmente, es necesario identificar los casos en los cuales el usuario apaga los sensores, cierra la aplicación o apaga por completo el dispositivo. Por otro lado, se busca desarrollar un sistema pervasive por lo cual la aplicación debe requerir poca interacción con el usuario, de tal manera que se le ofrezca un servicio invisible.

(9)

3. Contexto y Antecedentes

3.1. Contexto del proyecto

3.1.1. MAGPIE

El proyecto MagPie (ManaGing Pervasive Information Environment), realizado dentro del grupo de investigación COMIT, busca diseñar y desarrollar sistemas pervasive que respondan de manera efectiva al problema de inundación de la información a través del análisis del contexto, sentimiento, preferencias y perfil de un usuario [5]. En la actualidad, el proyecto posee sistemas de recomendación con dos enfoques: por un lado, se encuentran aquellos que funcionan en un contexto de consumo de contenido y, por lo tanto, son sistemas basados en la construcción de perfiles de usuario y su interés en ciertos temas. Por otro lado, se han desarrollado sistemas de recomendación que a partir de los sensores disponibles en dispositivos móviles realizan un reconocimiento de actividades y generan recomendaciones acordes a dichos datos.

De manera más espec´ıfica, en el contexto de consumo de contenido se han desarrollado tres sistemas de recomendación de contenidos correspondientes a Mag-E [5], MagPie Prompter [6] y MagPie DREAM[7]. En el primero, se desarrolló un sistema con conciencia emocional que permit´ıa predecir el interés de un usuario en un contenido basado en su postura y expresión facial, dicha información era usada posteriormente para realizar recomendaciones de contenido relevantes para el usuario. Por su parte, en MagPie Prompter[6] se realiza un monitoreo de la interacción del usuario con el sistema para establecer el interés que tiene un usuario en un contenido espec´ıfico. Adicionalmente, en este proyecto se propone un sistema de análisis de contenidos que permite por medio de múltiples heur´ısticas categorizar los documentos de acuerdo con los temas que son de interés para el usuario [6]. Finalmente, el proyecto MagPie DREAM[7] es un sistema de recomendación pervasive de contenidos dentro de una comunidad, este trabajo realiza una implementación de las arquitecturas propuestas en Mag-E y MagPie Prompter, con un énfasis en inferir los intereses del usuario de manera dinámica teniendo en cuenta los cambios de estos a lo largo del tiempo.

Adicionalmente, se han desarrollado múltiples proyectos en aplicaciones móviles que buscan consumir y/o extender los trabajos realizados en tanto en Mag-E como en MagPie Prompter, dichos trabajos corresponden a clientes Android [8] y iOS [9] que permiten tanto el monitoreo como la recomendación de contenido usando los sensores disponibles en un dispositivo móvil, en particular la pantalla táctil.

Con respecto a los sistemas de recomendación basados en dispositivos móviles, se han realizado dos proyectos: Budgie [10] y Destreza [11]. Destreza, busca ofrecer una solución adaptativa y dinámica al problema de identificación de patrones en diferentes individuos, ya que se encontró que no es válido usar las mismas heur´ısticas de tiempo en todos los usuarios para analizar sus patrones de comportamiento, pues existen individuos que poseen patrones que se repiten en periodos de tiempo más largos o cortos [11]. Por lo tanto, en Destreza se propone un modelo de análisis de flujos de datos adaptativo que permite de manera dinámica obtener patrones de comportamiento en escenarios pervasive.

3.1.2. Budgie

Budgie plantea un modelo para la inferencia de patrones de comportamiento a partir de los sensores de un dispositivo móvil. Posteriormente, se quieren usar dichos patrones para la generación de alertas y notificaciones pertinentes en una comunidad [10]. Por lo tanto, Budgie mejora la calidad del servicio de los dispositivos móviles al permitir que su comportamiento dependa de la actividad que el usuario está realizando. El proyecto MINT corresponde a una continuación del sistema Budgie.

El modelo general de Budgie se presenta en la figura 1, como se puede observar está compuesto por tres submodelos: el primero identifica y define la actividad que el usuario está realizando, esto lo hace por medio del procesamiento de los sensores y el calendario en los dispositivos móviles. A partir de las actividades identificadas, el segundo modelo realiza la detección de patrones de comportamiento. Finalmente, el último

(10)

modelo usa los patrones encontrados para generar alertas y notificaciones relevantes para los usuarios [10].

Figura 1: Modelo principal de Budgie.

En el primer modelo, se definen 5 tipos de actividades: shift activity (actividad asociada al transporte), labor activity (actividad asociada al trabajo), academic activity (actividad asociada a estudiar), leisure and hobbies (actividades deportivas o de ocio) y finalmente, basic activity que corresponde a aquellas actividades que no pueden ser clasificadas en ninguna de la anteriores [10]. Adicionalmente, en el modelo se plantea que una actividad se puede especificar a partir de la respuesta a las siguientes preguntas: ¿Dónde está ocurriendo? ¿Cómo está ocurriendo? ¿Con quién? ¿Cuándo? Donde cada una de estas preguntas utiliza diferentes sensores y variables para obtener una respuesta [10].

A partir del análisis de los diferentes tipos de actividades se realiza una definición de qué variables son relevantes en cada una de ellas, dicha definición se observa en la figura 2. La principal ventaja de esta identificación de variables relevantes se encuentra en poder caracterizar una actividad en términos de aquellos sensores que realmente permiten diferenciar o identificar dicha actividad. Adicionalmente, permite realizar un mejor seguimiento de la evolución de las actividades a lo largo del tiempo [10].

Con respecto al modelo de reconocimiento de patrones, en Budgie se proponen dos mecanismos para llevarlo a cabo: detección de tipos predefinidos de patrones con un margen de error y la construcción de wavelets para la predicción de posibles valores futuros. En particular, en [10] se implementa el primer mecanismo para tres tipos de patrones: constante, periódico y lineal.

Por su parte, el modelo de generación de alertas se desarrolla a partir de la siguiente lógica: se realiza una búsqueda de patrones en los datos del usuario, al encontrar alguno se comparan los valores esperados de acuerdo con el patrón y los valores generados en la realidad; a partir de las diferencias encontradas en la comparación se determinan las alertas y recomendaciones relevantes.

Es importante señalar que Budgie tiene entre sus objetivos desarrollar una aplicación pervasive escalable, por lo cual cada uno de estos modelos es realizado por medio de técnicas para el acceso y tratamiento de la información altamente escalables.

En MINT, al igual que en Budgie, se utilizan los datos de los sensores de un dispositivo móvil para establecer comportamientos del usuario y generar alertas relevantes. Sin embargo, el interés de éste proyecto se encuentra en la actividad “shift activity” definida en Budgie y el uso de esta información dentro de una comunidad para generar alertas relevantes de tráfico o rutas alternativas. Además, se utilizan ciertos sensores cuyo uso fue planteado en Budgie pero no implementado por completo.

3.2. Antecedentes

Se identificaron dos tipos de sistemas relevantes para el proyecto llevado a cabo, por un lado, los sistemas de recomendación móviles basados en localización y por otro lado, aquellos sistemas de predicción de movilidad a partir de datos históricos. Adicionalmente, existen ciertos proyectos que corresponden a h´ıbrido

(11)

Figura 2: Variables relevantes en Budgie.

entre estos dos tipos.

3.2.1. Sistemas de recomendación móvil basados en localización

La aplicación de turismo propuesta por Meehan et al. [12] hace recomendaciones de sitios de turismo a visitar a partir de datos del contexto del usuario, como lo son su localización, momento en el tiempo, clima y perfil demográfico. El sistema es un h´ıbrido que utiliza recomendaciones dadas por filtros colaborativos y por sistemas de recomendación basados en contenidos. Lo anterior es realizado por medio de un sistema inteligente que determina la importancia de los diferentes datos del contexto para tomar una correcta decisión sobre qué recomendarle al usuario. El sistema es desarrollado utilizando redes neuronales artificiales y análisis por componentes [12].

A diferencia del anterior trabajo, en MINT se da una menor importancia al perfil demográfico de una persona, en particular porque para determinar esta variable muchas veces es necesario ir en contra de los principios pervasive y pedirle al usuario que responda preguntas espec´ıficas sobre s´ı mismo. Por otro lado, en MINT se desea tener en cuenta la información histórica de los usuarios para realizar predicciones relevantes, lo cual no es analizado en [12].

La aplicación presentada en [13] busca hacer recomendaciones de restaurantes de acuerdo con la localización de los usuarios, esto es realizado a partir de un filtro colaborativo basado en localización. De esta manera, los diferentes usuarios dan calificaciones a los restaurantes y, a partir de estos datos, as´ı como de la localización de los usuarios se generan recomendaciones. La principal diferencia entre esta aplicación y la desarrollada en este proyecto es que se desean analizar tramas de GPS para ofrecer recomendaciones, no solo la localización actual del usuario. Por otro lado, en el presente proyecto se busca consumir la información dada por el calendario del usuario para realizar recomendaciones pertinentes.

I’m feeling LoCo [14] es un sistema pervasive de recomendación de sitios a visitar basado en localización. Este sistema parte de variables geoespaciales, el tipo de transporte del usuario, la inferencia de preferencias de este y su estado de ánimo para realizar recomendaciones pertinentes [14]. LoCo utiliza los datos del GPS y los cambios en el acelerómetro para establecer un contexto del usuario y para determinar su modo de transporte por medio de un modelo escondido de Markov; posteriormente, se usa esta información para para filtrar los lugares cercanos que pueden ser relevantes para el usuario de acuerdo con sus preferencias inferidas en la red social foursquare [14]. Adicionalmente, el sistema realizado se enfoca en conservar el contexto pervasive, donde la única información que da el usuario es su estado de ánimo.

(12)

Con respecto a la aplicaci´on desarrollada en [14], se observa nuevamente que en MINT se tienen en cuenta las trayectorias habituales del usuario para realizar las recomendaciones, as´ı como la informaci´on dada por su calendario. Por otro lado, en MINT se desea desarrollar un sistema escalable, lo cual no se tiene en cuenta en el desarrollo del sistema planteado en [14].

La aplicación CityVoyager [15] desarrollada por Takeuchi y Sugimoto es un sistema de recomendación de tiendas basado en los lugares que el usuario ha visitado anteriormente. CityVoyager tiene dos fases, en la primera realiza la identificación de los lugares visitados por el usuario analizando aquellas posiciones en las cuales las señales de GPS pierden su disponibilidad constantemente, pues se asume que en esos puntos el usuario entro a algún lugar; posteriormente, se usan las visitas pasadas para determinar si una tienda es preferida por un usuario, esto es realizado calculando la media de las visitas pasadas cercanas a la tienda y asumiendo que el usuario tiene una preferencia por dicho establecimiento si el valor de la media es similar a la posición real de la tienda [15]. El anterior procedimiento se ejecuta para todas las tiendas (de las cuales se dispone una base de datos) y, de esta manera se identifican las tiendas preferidas por cada uno de los usuarios. Finalmente, la segunda etapa de CityVoyager consiste en la recomendación de tiendas cercanas por medio del uso de filtros colaborativos y la posición del usuario. En particular, se implementa una función de similitud que selecciona a partir de una lista de tiendas preferidas otras tiendas similares [15]. Además, se realiza una división de la ciudad en áreas cuya caracter´ıstica principal es que es posible desplazarse fácilmente entre dos puntos que se encuentran en una misma área.

La aplicación CityVoyager tiene muchas caracter´ısticas en común con el presente proyecto, entre ellas el uso de la información histórica del usuario para realizar recomendaciones pertinentes. Sin embargo, la principal diferencia que se tiene con CityVoyager es que en MINT se busca analizar las trayectorias más recorridas por el usuario para darle recomendaciones relevantes con respecto su desplazamiento en la ciudad. Además, se desea implementar un sistema escalable.

3.2.2. Sistemas de predicci´on de movilidad

Entre las aplicaciones comerciales de recomendación móviles para desplazamiento en ciudades destacan Waze [16] y GoogleNow [17], la primera de estas es una aplicación basada en la información dada por una comunidad, que ofrece información de tráfico y recomendación de rutas de navegación. De esta manera, los usuarios pueden colaborar de dos maneras: activamente, informando eventos que ocurren en una cierta ruta o bien, navegando por la ciudad con la aplicación Waze abierta, permitiendo recopilar datos de tráfico. Adicionalmente, a medida que los usuarios contribuyen información, Waze establece niveles de confianza para ellos, lo cual causa que se pueda tener información ver´ıdica en todo momento. Ésta aplicación, a diferencia de MINT, requiere interacción directa del usuario para su correcto funcionamiento, lo cual va en contra de los sistemas pervasive. Por otro lado, aunque este sistema genera alertas, Waze no realiza predicciones sobre los lugares a donde se dirigirá el usuario de acuerdo con su calendario, y éste es un requerimiento fundamental en la aplicación a desarrollar en el presente proyecto. Finalmente, Waze consume de manera excesiva los recursos del dispositivo móvil, lo cual se desea evitar en la aplicación a desarrollar.

Con respecto a GoogleNow, es una aplicación que utiliza la información dada por Waze y otros servicios para generar recomendaciones pertinentes para el usuario en cualquier momento y sobre casi cualquier tema. Con respecto a las recomendaciones de movilidad, se observa que esta aplicación identifica la posición de la casa y el trabajo de sus usuarios, al igual que la ruta más frecuente tomada por el usuario para llegar a dichos lugares y genera recomendaciones si hay tráfico particularmente pesado en dicha ruta.

3.3. Resumen

La revisión del contexto y los antecedentes del proyecto permitió identificar aquellas caracter´ısticas que permiten resolver el problema planteado as´ı como las maneras en que algunas han sido implementadas en otros proyectos. Por lo tanto, en la tabla 1 se plantea una comparación entre los proyectos evaluados y el

(13)

proyecto a desarrollar con respecto a las caracter´ısticas mas relevantes identificadas. Tabla 1: Comparaci´on de proyectos evaluados y MINT

Requerimiento Trabajos presentados MINT

Consumo de datos de geolocalizaci´on [12][13][14] S´ı

Consumo de datos de red S´ı

Consumo de datos del calendario S´ı

Consumo de informaci´on del tiempo [12] Deseable

Uso de redes sociales [12][14] No

Identificaci´on del perfil del usuario [12][14] No

Estrategias de limpiado de datos S´ı

Estrategias de sensado eficiente S´ı

Identificación de hábitos de desplazamiento [15] S´ı Recomendación a partir de hábitos de desplazamiento [15] S´ı

Soluci´on escalable [12] S´ı

Identificación de lugares relevantes para un usuario [15] S´ı Identificación de trayectorias habituales para un usuario [16][17] S´ı Identificación de trayectorias posibles entre dos puntos S´ı

Predicci´on del siguiente lugar a visitar S´ı

Predicci´on de tiempo de viaje entre dos lugares [16][17] Deseable

Recomendaci´on de rutas alternativas S´ı

(14)

4. Estrategia de soluci´

on

El propósito de MINT es la obtención y modelado de datos de movilidad de usuarios a partir de dispositivos móviles para realizar predicciones sobre las posiciones futuras de un usuario y poder generar alertas relevantes para éste. Se plantea como solución para este problema un sistema compuesto por una aplicación móvil que permita registrar los datos de movilidad, un back-end de procesamiento que realice inferencias sobre los usuarios y genere las alertas pertinentes y, finalmente, una aplicación web para el acceso centralizado a la información de todos los usuarios. La arquitectura general se presenta en la figura 3 y posee el mismo diseño del sistema Budgie presentado en [10].

Figura 3: Diagrama de contexto.

Para cumplir sus objetivos MINT recoge datos de movilidad de los usuarios por medio de la aplicación móvil, estos datos son procesados en el back-end donde el sistema Main Processor busca detectar comportamientos anormales en las v´ıas de la ciudad, por ejemplo, si existe trancón. Adicionalmente, luego de extraer sus caracter´ısticas relevantes se consolidan estos datos con los obtenidos por otros usuarios del sistema, para as´ı generar un conocimiento unificado de la movilidad en la ciudad.

Por su parte, los datos recogidos en la aplicación móvil Budgie MINT también son procesados para as´ı inferir hábitos del usuario en términos de los lugares que más visita y los caminos que más toma. Esta información permite, en algunos casos, realizar predicciones sobre la movilidad de un usuario y, aprovechando la información consolidada del back-end, es posible generar alertas y recomendaciones relevantes para el usuario.

4.1. Atributos de calidad

A partir del problema planteado y la solución general anteriormente descrita se establecen los siguientes atributos de calidad que deben guiar el diseño de la solución tanto de la aplicación móvil como del backend. En las figuras 4 y 5 se describen los atributos de calidad que se manejan dentro de la aplicación móvil Budgie MINT y el back-end, respectivamente.

(15)

Figura 4: Atributos de calidad aplicaci´on m´ovil Budgie MINT.

Figura 5: Atributos de calidad del back-end.

A partir de la soluci´on presentada anteriormente y teniendo en cuenta los atributos de calidad, se realiza una descripci´on del flujo de procesamiento de datos a lo largo de MINT y la manera como estos son manejados en cada etapa. Los componentes del flujo se presentan en la figura 6.

Figura 6: Flujo de procesamiento de datos.

En el primer componente del flujo de procesamiento se atienden los principales problemas de la recolección de datos de movilidad, donde se busca hacer un buen uso de los recursos del dispositivo sin perder información relevante para la etapa de procesamiento y análisis. Por su parte, en el componente de limpieza se realiza el modelado de los datos en trayectorias y lugares visitados por un usuario, adicionalmente, se realiza el filtrado de datos anormales, donde se considera anormal aquel dato que claramente esté fuera del patrón del flujo inmediato. Finalmente, en el componente de procesamiento y análisis se utiliza el modelo de movilidad ya generado para un usuario para realizar predicciones del siguiente lugar que visitará. Adicionalmente, a partir de los datos de toda la comunidad se realiza el proceso de generación de alertas.

(16)

A continuaci´on se presenta en mayor profundidad la estrategia de soluci´on para cada una de las etapas del flujo de procesamiento de datos.

4.2. Recolecci´

on de datos

Este componente está basado en el sistema BudgieTracker desarrollado en [10] y BudgieTrackerV2 desarrollado en [11], de esta manera, se conservan los componentes que permiten adquirir los datos de los sensores de localización, redes Wi-Fi, perfil del usuario y calendario. As´ı mismo, permanecen en el sistema el componente encargado de orquestar la toma de datos y los componentes relacionados con la persistencia, envió de los datos y el administrador de notificaciones.

Sin embargo, con el objetivo de usar de manera adecuada los recursos del dispositivo se adiciona al sistema un componente que permite la obtención de los datos del acelerómetro y su procesamiento. Por su parte, se agregan dos componentes que permiten la detección de movimiento y el control del muestreo realizado por el GPS. Finalmente, se elimina el sensor de procesos del sistema pues no brinda información relevante para MINT.

La figura 7 muestra las relaciones entre los principales elementos de la etapa de recolecci´on de datos.

Figura 7: Sistema de recolecci´on de datos.

Adicionalmente, para mayor claridad a continuaci´on se presenta en la descripci´on de los sensores usados y el tipo de mediciones que se obtienen de estos.

Acelerómetro:Mide la aceleración aplicada al dispositivo en todos los ejes, de esta manera, las mediciones de este sensor corresponden a la aceleración en el ejex,y yz en un momento dado.

Calendario: Permite obtener los datos de eventos en el calendario del dispositivo móvil, en particular, es posible conocer el t´ıtulo, fecha de inicio y fin del evento, asi como su descripción y duración.

GPS: Permite conocer la latitud, longitud y altitud del dispositivo móvil. Adicionalmente, es posible conocer qué tan precisa es ésta medida. Es importante señalar que el API de Android para consumir datos del GPS permite también conocer cuál es la velocidad del dispositivo de acuerdo con las mediciones de GPS

(17)

realizadas. La anterior caracter´ıstica ser´a usada para determinar si el dispositivo est´a en movimiento.

Perfil del usuario:El perfil de recepci´on de llamadas que el usuario posee actualmente. El valor medido corresponde a una cadena de caracteres que indica el perfil en el cual se encuentra el usuario.

Redes Wi-Fi:Permite obtener una lista de las redes WiFi detectadas por el dispositivo móvil, además, para cada red se posee la dirección del access point, el nombre de la red y si el dispositivo está conectado o no a dicha red.

A continuación se explicarán los elementos adicionados para la recolección de los datos.

4.2.1. Procesamiento del aceler´ometro

El acelerómetro es un sensor que permite identificar rápidamente si un usuario está o no en movimiento ya que mide la fuerza de aceleración sobre el dispositivo y, por lo tanto, se ve afectado por cualquier acción que el usuario ejecute con este. Además, este sensor tiene como principal ventaja que su lectura gasta poca bater´ıa en los dispositivos móviles, por lo cual su uso es pertinente para establecer si un usuario se encuentra o no en movimiento.

Sin embargo, el procesamiento de los datos del acelerómetro puede ser complicado, ya que por cada muestra se obtiene un arreglo multidimensional de la fuerza de aceleración para cada uno de los ejes, por lo que es necesario implementar estrategias de análisis de la información que unifiquen los datos de los diferentes ejes. Por otro lado, el acelerómetro es un sensor bastante sensible, en particular, dos muestras consecutivas pueden tener valores bastante diferentes, causando que sea incorrecto tomar una decisión basada únicamente en una muestra. Adicionalmente, la velocidad de muestreo es dependiente del dispositivo móvil y puede tomar valores desde milisegundos hasta centenas de milisegundos, por lo que se pueden obtener muchos datos en un corto tiempo. Las anteriores problemáticas se observan más claramente en la figura 8 en la cual se presentan 5 muestras consecutivas del acelerómetro en cada uno de los ejes para un dispositivo quieto, donde la diferencia temporal entre la primera muestra y la quinta muestra tomada es menor a un segundo.

Figura 8: Muestras del aceler´ometro para un dispositivo est´atico

La figura 8 permite observar claramente que para un eje dos muestras consecutivas pueden tener cambios significativos de valores; adem´as, una misma muestra puede presentar valores distintos en diferentes ejes. En particular, se debe resaltar la diferencia entre la fuerza de gravedad para los ejes x, y y, que se encuentran entre 0.1 y 0.25, y los valores obtenidos para el ejez que oscilan en 9.8, lo cual es efecto de la gravedad.

A partir de estas observaciones se decide como primera estrategia de an´alisis trabajar sobre ventanas de datos del aceler´ometro, de esta manera, se analiza el comportamiento de un grupo de datos a lo largo de

(18)

una ventana de tiempo para as´ı poder inferir el comportamiento general durante dicho tiempo.

Por otro lado, se llevaron a cabo diferentes experimentos para encontrar caracter´ısticas diferenciadoras en los datos del acelerómetro para un dispositivo en movimiento (en diferentes posiciones) con respecto a uno quieto. Los resultados permitieron concluir que siempre que un eje está en movimiento hay un aumento en el promedio de la fuerza aceleración sobre dicho eje, sin embargo, este aumento depende del movimiento que se esté realizando y del dispositivo con el cual se está trabajando. Además, los experimentos permitieron concluir que los movimientos usuales de desplazamiento de una persona (una persona desplazándose con el móvil en la mano o en un bolsillo) suelen únicamente causar un aumento en el promedio de la fuerza de aceleración en dos de los tres ejes dados por el acelerómetro, pues el tercer eje suele ser afectado únicamente por la gravedad. Las anteriores conclusiones se pueden observar claramente en la figura 9, en la cual se comparan las mediciones en cada uno de los ejes para un dispositivo en movimiento (dentro del bolsillo de alguien) y un dispositivo quieto sobre una mesa durante alrededor de 5 minutos.

(a) Mediciones para un m´ovil quieto sobre una mesa con la pantalla hacia arriba.

(b) Mediciones para un m´ovil en el bolsillo de una persona mientras esta camina.

Figura 9: Mediciones del aceler´ometro para diferentes movimientos

Los experimentos realizados también permitieron establecer movimientos anormales que no brindan información relevante sobre si el dispositivo móvil se está desplazando o no, un ejemplo se observa en la figura 9. Los movimientos anormales se identifican cuando en muestras cercanas se presenta el efecto de la gravedad en diferentes ejes, es decir, inicialmente en algunas muestras el eje z presenta la fuerza de la gravedad, y posteriormente el ejey la presenta durante otras muestras. Estos movimientos usualmente están asociados con cambios abruptos de la posición del dispositivo, como cuando el usuario saca su móvil del bolsillo para leer una notificación.

Las conclusiones obtenidas por los experimentos permitieron establecer la aproximación a la identificación de movimiento a partir de una ventana de datos del acelerómetro. Inicialmente se busca el eje en el cual se está aplicando la fuerza de la gravedad en cada muestra de la ventana, si se encuentra que durante la ventana existen muchas muestras con diferentes ejes en los que se presentan la gravedad, entonces se elimina la ventana por estar asociada con un movimiento anormal. De lo contrario, se realiza un promedio

(19)

de las muestras en cada uno de los ejes en los cuales no se presenta la fuerza de la gravedad, pues como fue observado, estos presentan un aumento en su promedio si el dispositivo se encuentra en movimiento. Finalmente, se compara el promedio en cada uno de los ejes con un valor, el cual es altamente dependiente del dispositivo m´ovil y, de ser superior a ese valor s asume que hay una aceleraci´on en este eje.

La figura 10 presenta el flujo realizado para procesar el acelerómetro. Adicionalmente, a continuación se realizara una descripción del proceso.

Inicialmente (1) se tomann muestras consecutivas y se analizan para poder establecer el movimiento del usuario. El valor den tiene una gran importancia en el proceso ya que debe ser lo suficientemente grande para determinar un patrón dentro de la ventana, pero lo suficientemente pequeño como para que el sistema pueda reaccionar rápidamente si el usuario se mueve.

Posterior a la división en ventanas, en (2) se ejecuta un filtro pasa bajas sobre sobre cada muestra de cada ventana con el objetivo de conocer la fuerza de gravedad en cada eje. Esto es realizado por medio de un promedio de las muestras de la entrada, que suprime cualquier variación de los datos, permitiendo obtener la fuerza de gravedad [18][19]. Este filtro tiene un parámetro correspondiente aαque permite establecer qué tanto efecto tienen las mediciones pasadas en el valor actual de la gravedad.

La f´ormula asociada con el filtro para establecer la gravedad en un ejeeluego dekmuestras es,

gravedade,k=α∗gravedade,k−1+ (1−α)∗aceleracione,k (1)

Dondegravedade,kes la gravedad sobre el ejeepara la muestra n´umerok, yaceleracione,k es la medida de

la fuerza de aceleraci´on n´umerok sobre el ejee.

A continuación, en (3) se usa la fuerza de gravedad calculada en cada eje para identificar en qué dirección (x,y oz) se encuentra la fuerza de la gravedad en cada muestra. De manera espec´ıfica, el eje para el cual el valor absoluto de la gravedad sea superior a 6m/s2_{, es aquel que se considera como que est´}_{a siendo afectado}

por la gravedad.

Posteriormente, en (4) se evalúa si al menos un 20 % de las muestras dentro de la ventana presentan la fuerza de la gravedad en diferentes direcciones. De cumplirse esta condición, la ventana es descartada ya que se considera que el dispositivo móvil se está movimiento en muchos ejes, lo cual es un comportamiento abrupto de una persona jugando o moviéndose de manera anormal y no corresponde con el comportamiento normal de una persona desplazándose por la ciudad.

Finalmente, por cada ventana se calcula un promedio de todos los valores de aceleración en todos los ejes para aquellas muestras que tengan la dirección de la fuerza de la gravedad más común dentro de la ventana. Posteriormente, el promedio se compara con un valorthreshold y, de ser superior, se puede considerar que el dispositivo está en movimiento. De esta manera, el detector de movimiento recibe un valor booleano por cada ventana de datos válida que indica si hay o no movimiento.

4.2.2. Detecci´on de Movimiento

El elemento de detección de movimiento recibe como entradas los datos procesados del acelerómetro, las redes WiFi disponibles y la velocidad del dispositivo calculada por el GPS. A partir de estos valores y de los datos previamente obtenidos, genera una suma ponderada de la probabilidad de que el dispositivo esté en movimiento dada por cada sensor. Finalmente, se considera este valor como la probabilidad de que el dispositivo se encuentre en movimiento. Por lo tanto, la probabilidad de que el dispositivo se encuentre en movimiento se calcula de la siguiente manera,

pM ov=α1∗pM ovacc+α2∗pM ovW iF i+α3∗pM ovGP S (2)

Las probabilidades de movimiento de acuerdo con cada sensor son explicadas a continuaci´on.

La probabilidad de que el dispositivo se esté moviendo de acuerdo con el acelerómetro se calcula a partir de los resultados de movimiento de las últimas m ventanas, de esta manera la probabilidad pM ovacc es

(20)

(21)

movimiento) dividido enm.

SeaM el conjunto con los resultados del aceler´ometro para las ´ultimasmventanas,

pM ovacc=

|{m:m∈M∧m=true}|

|M| (3)

Con respecto a la probabilidad de que el dispositivo esté en movimiento de acuerdo con las redes WiFi, este valor se determina haciendo una comparación por similitud entre las últimas r listas de redes WiFi observadas, ya que si dos mediciones de WiFi cercanas en tiempo no son similares, es probable que el usuario se haya movido. De esta manera,pM ovW iF icorresponde al número de mediciones que no presenta similitud

con la medici´on WiFi anterior dividido enr.

Sea R el conjunto con los resultados de las ´ultimasrredes WiFi observadas y seasim(ri, rj) la funci´on

que evalua la similitud de dos listas de redesri, rj, donde la funci´on retorna un valor booleano true si las

dos listas de redes son similares, es decir, si hay una diferencia de menos de k redes en sus listas; por el contrario, si la anterior condici´on no se cumple la funci´onsim(ri, rj) retorna false.

pM ovW iF i=

|{ri−1, ri:ri−1∈R∧ri∈R∧sim(ri−1, ri) =f alse}|

|M| (4)

Finalmente, el cálculo de la probabilidad de que el dispositivo esté en movimiento de acuerdo con las mediciones del GPS se realiza haciendo un promedio de las últimass estimaciones de velocidad del GPS y estableciendo que siempre que la velocidad de dicho promedio sea superior a lostkm/hentonces se asume que el usuario está en movimiento. Por lo tanto, pM ovGP S tiene dos valores posibles correspondientes a 0

cuando el promedio calculado es menor atkm/hy 1 de lo contrario.

4.2.3. Control del muestreo GPS

La inclusión del elemento de detección de movimiento permite implementar una pol´ıtica de obtención de datos del GPS de acuerdo con los movimientos del usuario. De manera espec´ıfica, se usa el algoritmo de backoff exponencial el cual disminuye la frecuencia de las mediciones cada vez que se detecta que el usuario está quieto, dicho de otra manera, se aumenta el tiempo entre peticiones al GPS para evitar mediciones innecesarias.

La fórmula utilizada se presenta en 5, donde c corresponde al número de veces que el componente Detector de movimiento ha detectado que el usuario está quieto. Es importante señalar que el valor de c se reinicia cada vez que el usuario se encuentra nuevamente en movimiento.

tiempoM uestreo(c) =1 2 ∗(2

c₋₁₎ ₍₅₎

Además, en la pol´ıtica de obtención de datos se establece un l´ımite inferior y superior de frecuencia de mediciones, para que aún con el usuario completamente quieto se realice m´ınimo una medición cada media hora y de estar el usuario en constante movimiento, una medición cada medio minuto, ya que se consideran tiempos pertinentes para realizar un seguimiento adecuado del usuario. Es importante señalar que esta pol´ıtica de obtención de datos del GPS fue planteada en [10], aunque su implementación no se llevó a cabo en ese proyecto.

Para terminar esta etapa, en la siguiente tabla se presenta un resumen de los par´ametros que es necesario establecer para el funcionamiento del componente de recolecci´on de datos,

(22)

Tabla 2: Par´ametros de la etapa de recolecci´on de datos

Par´ametro Descripci´on

n Tamaño en número de muestras de una ventana de datos del acelerómetro threshold Valor con el cual se determina si hay una aceleración

m N´umero de ventanas que se comparan con el valor actual del aceler´ometro

r N´umero de listas de redes que se comparan con la lista actual de redes detectadas

k N´umero de redes de diferencia entre dos listas para que estas se consideren no similares

t Velocidad en km/h que permite determinar si un usuario se est´a movimiento

s Número de mediciones de la velocidad GPS que se comparan con la medición actual para determinar si un usuario está en movimiento

α1 Peso de las mediciones del aceler´ometro al determinar si el usuario est´a o no

en movimiento

α2 Peso de las mediciones de red al determinar si el usuario est´a o no en movimiento

α3 Peso de las mediciones del GPS al determinar si el usuario est´a o no en

movimiento

4.3. Limpieza de datos

Este componente recibe como entradas los datos de los sensores, los cuales son limpiados y procesados para obtener un modelo del historial de desplazamientos del usuario en t´erminos de dos objetos: trayectorias y lugares visitados. Un diagrama general del sistema de limpieza se presenta en la figura 11.

Figura 11: Sistema de limpieza.

A continuación se realizará una definición formal de estos objetos para posteriormente explicar los diferentes componentes de la etapa de limpieza.

Trayectoria

Se define una trayectoria como una serie de puntos P = (p1, p2, . . . , pn−1, pn) donde se asume que cada

punto posee tres atributos: latitud, longitud y una fecha. Adicionalmente, se deben cumplir las siguientes condiciones para que esta serie de puntos sea considerado una trayectoria,

pi+1.f echa > pi.f echa, para∀pi∈P (6)

(23)

Por otro lado, una trayectoria tiene asociados aquellos lugares visitados por el usuario que hacen parte de ella. En la figura 12a se presenta una trayectoria.

(a) Una trayectoria (b) Un lugar visitado

Figura 12: Gr´afico de una trayectoria y un lugar visitado

Lugar Visitado

Un lugar visitado es una regi´on en la cual el usuario se ha quedado durante un intervalo de tiempo espec´ıfico. De esta manera, corresponde a una serie de puntos consecutivos cercanos en espacio y en tiempo cumpliendo las siguientes caracter´ısticas,

Dados una serie de puntos consecutivosP = (pm, pm−1, . . . , pn−1, pn)

Distancia(pm, pi)6Dl, para∀pi∈P, m < i6n (8)

|pn.f echa−pm.f echa|>Tl, para∀pi∈P, m < i6n (9)

Un lugar visitado posee como atributos una latitud y longitud, correspondientes al promedio de los valores de los puntos consecutivos que define dicho lugar; adem´as, tambi´en se caracteriza por la hora de entrada y salida, el d´ıa de la semana en el que fue visitado, la cantidad de veces que ha sido visitado y la fecha de la ´

ultima visita. Por otro lado, posee dos atributos opcionales si estos se encuentran disponibles, estos son un evento de calendario asociado y una lista de redes detectadas por el dispositivo m´ovil desde el lugar visitado.

La anterior aproximaci´on para obtener un modelo del historial de desplazamiento del usuario es bastante sencilla e intuitiva, sin embargo, modelos similares ya han sido usados en otras investigaciones tales como [20] y [21], probando que es una representaci´on adecuada del problema.

4.3.1. Detecci´on de trayectorias y lugares visitados

Este componente realiza la extracci´on de las trayectorias y los lugares visitados de los datos de GPS, para ello se recorre cada uno de los datos de la trama buscando puntos sucesivos que cumplan las ecuaciones 6 y 7 para trayectorias, o bien las ecuaciones 8 y 9, para encontrar lugares visitados.

Adicionalmente, a medida que se recorren los datos del GPS se buscan aquellos puntos que presentan diferencias temporales menores a cierto valor t y diferencias espaciales superiores a un cierto valorDt con

respecto a la medici´on anterior, estos datos suelen verse como el punto p4 de la figura 13. Se asume que estos puntos son errores por ser desplazamientos grandes en corto tiempo, lo cual es un comportamiento anormal que no suele corresponder con la realidad sino es causado por errores del GPS al realizar la medici´on. Por lo tanto, estos puntos son eliminados de las trayectorias.

(24)

Figura 13: Ejemplo de trayectoria con una medici´on anormal

4.3.2. Filtro de trayectorias

Este componente elimina trayectorias que son poco informativas para la comunidad, ya que se encontró que suele ser muy común obtener trayectorias cortas o con un área muy pequeña (trayectorias tipo ovillo), como las mostradas en la figura 14. Estas trayectorias no ofrecen información para la comunidad pues son muy cortas, sin embargo se descartan en este punto pues son útiles para calcular los lugares relevantes de un usuario, ya que es probable que estén asociadas al lugar de trabajo o vivienda de la persona.

(a) (b)

(c) (d)

Figura 14: Ejemplos de trayectorias filtradas

Por lo tanto, se filtran aquellas trayectorias que tengan un n´umero de puntos menores a un par´ametron

o cuya ´area sea menor aa.

4.3.3. Detecci´on de lugares visitados

Este componente se encarga de generar lugares visitados para los eventos del calendario, pues se asume que estos siempre corresponderán a un lugar visitado, aunque no se posea información espacial asociada a estos. Posteriormente, en la etapa de unificación se buscara enriquecer estos lugares visitados con información del GPS o de las redes WiFi.

(25)

4.3.4. Unificaci´on y enriquecimiento

Finalmente, en este componente se realiza una búsqueda temporal por los lugares visitados identificados por el GPS para establecer si el tiempo en el cual el usuario permaneció en algún lugar corresponde también con algún evento o una lista de redes WiFi identificadas. Es decir, se buscan aquellos eventos en el calendario y datos de redes que sean similares temporalmente a los lugares visitados encontrados en la trama del GPS, donde la similitud temporal se da cuando la diferencia entre los tiempos de inicio o fin entre el lugar visitado y el evento o la medición de redes es menor a Tl. Lo anterior permite enriquecer los lugares con datos

adicionales para as´ı poder evaluar a partir de un mayor n´umero de variables si el usuario se encuentra o no en uno de estos lugares.

Las trayectorias y lugares visitados obtenidos en esta etapa de procesamiento conformaran un modelo del desplazamiento del usuario que permitirá inferir información sobre este, como sus hábitos, as´ı como generar recomendaciones relevantes para este.

Es importante se˜nalar que el anterior proceso es iterativo, es decir, constantemente se est´an analizando los datos de GPS, redes WiFi y calendario para construir el modelo de la historia de los desplazamientos del usuario.

Al igual que en la secci´on anterior, la tabla 3 presenta los par´ametros que hacen parte de esta etapa.

Tabla 3: Par´ametros de la etapa de limpieza

Par´ametro Descripci´on

4T M´axima diferencia temporal entre dos mediciones sucesivas GPS para ser considerados parte de la misma trayectoria

Tl M´ınima diferencia temporal entre mediciones GPS para ser considerados parte

de un lugar visitado

Dl M´axima diferencia espacial entre dos mediciones GPS para ser considerados

parte de un lugar visitado

Tt M´ınima diferencia temporal entre dos mediciones GPS sucesivas

Dt M´ınima diferencia espacial entre dos mediciones GPS sucesivas

n N´umero m´ınimo de puntos de localizaci´on que debe contener una trayectoria

a Area m´ınima que debe poseer una trayectoria´

4.4. Procesamiento y an´

alisis

Esta etapa posee dos componentes: en el primero se realizan inferencias sobre la información del usuario, mientras que el segundo está enfocado en utilizar la información de cada usuario del sistema para generar conocimiento unificado sobre la movilidad y usarlo para beneficio de los mismos usuarios. De esta manera, el primer componente tiene como entradas el modelo de desplazamiento de un usuario obtenido en la etapa de limpieza, y busca establecer a partir de este cual será el próximo lugar a visitar por un usuario; además, en este etapa se desean identificar alertas de tráfico en la v´ıa en la cual el usuario se encuentra.

Por su parte, el segundo componente recibe como entrada el modelo de desplazamiento de todos los usuarios del sistema as´ı como sus la inferencia del próximo lugar a visitar. A partir de los primeros datos se genera un clúster con información de la movilidad en la ciudad, el cual permite realizar recomendaciones de posibles trayectorias a tomar en caso de que el usuario lo requiera.

Un esquema general de esta etapa se muestra en la figura 15.

4.4.1. Inferencia del pr´oximo lugar

A partir de las condiciones espacio-temporales actuales del usuario se quiere predecir cuál será el próximo lugar visitado para as´ı dar recomendaciones relevantes a partir de esta información. El anterior requerimiento se puede observar como un problema en el cual se desea obtener un modeloSque prediga un valor de salida

y a partir de un vector de entradax, dondeycorresponde al pr´oximo lugar a visitar yxson las condiciones espacio-temporales actuales. Este tipo de problemas pueden ser resueltos por t´ecnicas de aprendizaje de

(26)

Figura 15: Etapa de procesamiento y an´alisis

m´aquina supervisadas siempre y cuando se posea un conjunto de datos{xi, yi} n

i=1que permitan entrenar un

modelo en este caso se utilizan los datos hist´oricos que se conocen del usuario como el conjunto de datos de entrenamiento.

Figura 16: Modelo de aprendizaje de m´aquina.

La aproximación al problema por medio de técnicas de aprendizaje de máquina supervisada requiere además de un conjunto de datos de entrenamiento, una representación apropiada de estos que corresponda a caracter´ısticas útiles y diferenciadoras, de tal manera que se pueda obtener un buen modelo con un algoritmo de aprendizaje. De esta manera, se seleccionaron las siguientes caracter´ısticas para representar un dato espacio-temporal del usuario:

- Posici´on geogr´afica - Hora del d´ıa - D´ıa de la semana

- Valor booleano indicando si es d´ıa de fin de semana o no. - Condiciones clim´aticas

(27)

Es importante se˜nalar que estas caracter´ısticas deben ser codificadas para que sea posible utilizarlas en un algoritmo de aprendizaje de m´aquina.

Se analizaron diferentes escenarios y se concluyó que es necesario plantear dos modelos de inferencia para conocer el próximo lugar a visitar, donde estos difieren en la cantidad de información espacio-temporal que se posea. Por lo tanto, se plantea un modelo sin memoria y un modelo con memoria.

El primer modelo, correspondiente al generado sin memoria, usa únicamente un dato espacio-temporal del usuario para realizar la predicción; este modelo es relevante en aquellos casos en los cuales no se ha podido hacer un seguimiento de la movilidad del usuario (sea porque este apagó los sensores o porque estos no estaban disponibles en el área en la que éste se encontraba), por lo cual, únicamente se pose un dato de la posición actual del usuario y se desea realizar una predicción a partir de dicha información. De esta manera, es posible tratar el problema de predecir el siguiente lugar como un problema de clasificación, en el cual se quiere clasificar el próximo lugar al que irá el usuario en alguno de los lugares visitados definidos por sus datos históricos. Por lo tanto, se seleccionan como algoritmos apropiados para resolver este problema: Naive Bayes y Random Tree Forest.

El segundo modelo tiene memoria, es decir, los datos a partir de los cuales genera la predicción corresponde a la trayectoria desde el último lugar que el usuario ha visitado. Al igual que en el anterior modelo, este problema se puede considerar como la clasificación del próximo lugar en alguno de los lugares que el usuario ha visitado previamente, sin embargo, a diferencia del modelo anterior, en este caso se posee más información sobre el contexto en el cual se encuentra el usuario. De manera más espec´ıfica, al tener una trayectoria del usuario es posible establecer si esta es similar a alguna trayectoria ya recorrida antes, por lo cual ser´ıa posible establecer con una mayor confianza el próximo lugar a visitar. Se seleccionaron como algoritmos apropiados para resolver este problema: Modelo de Markov Escondido y una red dinámica bayesiana.

4.4.2. Identificaci´on de tr´afico

Esta etapa tiene como entrada el modelo de desplazamiento del usuario, en este se busca la trayectoria actual o más reciente que se posea, pues a través de análisis sobre esta es posible obtener la velocidad promedio y establecer si existe un trancón o no, lo cual permite generar alertas en tiempo real relevantes para aquellos usuarios que tomen estas v´ıas.

Adicionalmente, a partir de los datos recientes de movilidad tambi´en se podr´ıan identificar comportamientos anormales en la ciudad, tales como manifestaciones y accidentes, sin embargo, este tipo de alertas requerir´ıan conocer los comportamientos usuales en las diferentes v´ıas para as´ı poder identificar un comportamiento anormal, lo cual requiere estudios adicionales por lo que no se tienen en cuenta en MINT.

Los datos de movilidad usados para identificar las caracter´ısticas de tráfico anteriormente mencionadas deben ser parte de una trayectoria, además, deben tener un m´ınimo de puntos k y un área superior a a. Las anteriores caracter´ısticas permiten seleccionar trayectorias relevantes, y eliminar aquellas corresponden a usuarios caminando en sus casas o en otros lugares.

Con respecto a la velocidad promedio de la trayectoria se calcula como la diferencia en distancia y tiempo del punto inicial de la trayectoria y el punto mas reciente de esta.

Por su parte, para establecer si hay trancón en una v´ıa se realiza un análisis de la trayectoria buscando “puntos trancón”, estos se definen de manera similar a los lugares visitados por un usuario, con la diferencia principal de que poseen un distancia m´ınima de menor tamaño que los lugares visitados. Por lo tanto, dados una serie de puntos consecutivosP = (pm, pm−1, . . . , pn−1, pn), se tiene un punto trancón si

Distancia(pm, pi)6Dt, para∀pi ∈P, m < i6n (10)

|pn.f echa−pm.f echa|>Tt, para∀pi∈P, m < i6n (11)

De esta manera, si se encuentran varios “puntos tranc´on” consecutivos con una diferencia temporal menor a T minutos entre ellos se considera que hay un tranc´on en estos puntos de la trayectoria. Esta heur´ıstica permite identificar los trancones en los cuales un usuario se mueve lentamente a lo largo de una trayectoria.

(28)

Figura 17: Ejemplo de una trayectoria con tranc´on

4.4.3. Generaci´on del cl´uster

Los datos históricos de desplazamiento de los usuarios pueden ser valiosos para una comunidad en la medida en que diferentes personas pueden tener lugares visitados en común, de ser as´ı, es posible que compartan o no trayectorias de llegada a dichos lugares; en el caso en que efectivamente compartan una trayectoria, estos usuarios pueden dar información relevante sobre el estado de tráfico de dicha trayectoria, lo cual puede ser usado para generar alertas. Por su parte, en el caso en el cual dos usuarios visiten un mismo lugar con trayectorias diferentes es posible usar dichas trayectorias como alternativas para llegar a dicho lugar en casos especiales.

Por lo tanto, se observa que para la miner´ıa de la información de desplazamiento es relevante generar una estructura que permita relacionar fácilmente los diferentes lugares que los usuarios visitan y las relaciones en términos de trayectorias entre estos. De esta manera, se realiza un clúster de lugares relevantes similares en condiciones espacio-temporales, y posteriormente, a partir de los clústers generados se forma un grafo dirigido donde cada arco corresponde a una trayectoria entre alguno de lugares que hace parte del clúster origen y alguno de los lugares que parte del cluster destino. Finalmente, se genera un ´ındice espacial que mejora el desempeño de operaciones de acceso a la información del grafo. El proceso descrito se presenta en la figura 18.

Figura 18: Proceso realizado para obtener una estructura con los lugares relevantes y las trayectorias.

Inicialmente se tienen los lugares visitados por los diferentes usuarios, a partir de estos se generan los clusters, posteriormente se realiza un grafo y finalmente, se realiza un ´ındice espacial.

Los clusters son realizados por medio del algoritmo de clustering basado en densidad DBSCAN (Density-Based Spatial Clustering of Applications with Noise), este es una especificación del algoritmo OPTICS (Ordering points to identify the clustering structure), el cual ha sido ampliamente usado para generar clusters espaciales, tal y como se observa en [20] y [21]. Entre las principales razones para usar dicho algoritmo están que este no requiere un conocimiento previo del número de clusters que se deben generar y que permite identificar clusters de tamaño irregular e ignorar puntos dispersos, pues son considerados como ruido.

(29)

estos consisten en objetos que deben contener un número m´ınimo de objetos (M inP ts) en una vecindad de tamañoε. De esta manera, los principales parámetros del algoritmo corresponden a M inP tsyε.

A continuación se presentaran las principales definiciones en las cuales se fundamenta el algoritmo DBSCAN. Posteriormente, se realizará una explicación de este.

Objeto central (Core Object)

Es un objeto en cuya vecindad de tama˜noεhay al menosM inP tsobjetos [24]. SeaD el conjunto de todos los objetos.

SeaNε(q) el subconjunto deDque contiene laε-vecindad de q.

Entonces, q es un objeto central si,

Nε(q)≥M inP ts (12)

Objeto directamente alcanzable por densidad (Directly Density Reachable)

Un objeto pes directamente alcanzable por densidad por un objetoq si pertenece a su vecindad yqes un objeto central.

Es decir, se deben cumplir las siguientes ecuaciones [24],

p∈Nε(q) (13)

Nε(q)≥M inP ts (14)

Objeto alcanzable por densidad (Density Reachable)

Un objetopes alcanzable por densidad por un objetoqsi hay una serie de objetosp1, ..., pn∈D donde

p1 =p, tal que se cumple que todopi+1 es directamente alcanzable por densidad porpi [24].

Objetos conectados por densidad (Density Connected)

Un objeto pestá conectado por densidad con un objeto qsi existe un objeto o ∈D que sea alcanzable por densidad por p y q [24]. La principal diferencia de la anterior relación con la definición de alcanzable por densidad yace en que la relación conectados por densidad es simétrica; mientras que alcanzables por densidad no lo es, ya que para serlo requerir´ıa necesariamente que tantoq comopsean objetos centrales, y esta es una condición que no siempre se cumple.

Los conceptos anteriores se presentan gr´aficamente en la figura 19.

Por lo tanto, el algoritmo DBSCAN busca formar clusters que consistan en conjuntos de objetos que est´en mutuamente conectados por densidad y donde se encuentren todos los objetos que pueden ser alcanzados por densidad desde cualquier objeto central que se encuentre en el cluster.

Con respecto al funcionamiento de DBSCAN, inicialmente se poseen todos los objetos que se desean agrupar sin procesar, para cada uno de estos objetos se buscan sus vecinos y se verifica si se posee un objeto central de acuerdo a los valores de épsilon y MinPts seleccionados. Si se encuentra un objeto central, se marca como procesado y se agregan sus vecinos a una lista para expandir el cluster. El proceso de expansión del cluster consiste en recorrer la lista generada y agregar cada objeto al cluster si este no pertenece a ningún otro cluster. Además, se verifica si el objeto corresponde a un objeto central, y de ser as´ı se agregan sus vecinos a la lista que se está recorriendo. El anterior proceso se ejecuta hasta que todos los objetos han sido procesados [24].

Relevancia de una alerta y recomendaci´on de trayectorias

A partir de una alerta asociada con una trayectoria es posible usar el cluster para identificar los usuarios para los cuales es relevante la alerta, as´ı como para generar recomendaciones de trayectorias alternativas.