CACIC 2015 . XXI Congreso Argentino de Ciencias de la Computación. Libro de actas

(1)

LIBRO DE ACTAS

Sede UNNOBA Junín

5 AL 9

DE OCTUBRE

(2)

XXI CONGRESO ARGENTINO

DE CIENCIAS DE LA COMPUTACIÓN

CACIC 2015: OCTUBRE 2015, JUNÍN, ARGENTINA

Organizadores:

Red de Universidades con Carreras en Informática RedUNCI

Universidad Nacional del Noroeste de la Provincia de Buenos Aires

Escuela de Tecnología.

Fecha de Catalogación: 17/11/2015

Libro de Actas CACIC 2015 / Claudia Cecilia Russo ... [et al.]. - 1a ed . -

Junín : Universidad Nacional del Noroeste de la Provincia de

Buenos Aires. UNNOBA ; La Plata : RedUNCI, 2015.

Libro digital, PDF

Archivo Digital: descarga y online

ISBN 978-987-3724-37-4

(3)

AUTORIDADES DE LA RED DE UNIVERSIDADES NACIONALES CON CARRERAS EN INFORMÁTICA

Coordinador Titular

De Giusti Armando (UNLP) 2014-2016

Coordinador Alterno

Feierherd Guillermo (UNTDF) 2014-2016

Junta Directiva

Horacio Kuna (UN Misiones) 2013-2015 Fernanda Carmona (UN Chilecito) 2013-2015 Jorge Finocchieto (U CAECE) 2013-2015 Raul Kantor (UN Rosario) 2013-2015 Estayno Marcelo (UNLZ) 2014-2016 Fabiana Piccoli (UNSL) 2014-2016 Dapozo Gladys (UNNE) 2014-2016 Padovani Hugo (UM) 2014-2016

SECRETARÍAS

Secretaría Administrativa Prof. Javier Balladini (UNCOMA) Secretaría Académica

Prof. Claudia Russo (UNNOBA) Secretaría de Congresos, Publicaciones y Difusión Prof. Patricia Pesado (UNLP)

Secretaría de Asuntos Reglamentarios Prof. Osvaldo Spositto (UNLaM)

(4)

RECTORADO Rector

Dr. Guillermo Tamarit Vicerrectora

Mg. Danya V. Tavela Guardasellos Ing. Luis J. Lima

SECRETARÍAS Secretaria General Abog. Diego Batalla Secretaria Académica Abog. María Florencia Castro Secretaría Económica Financiera Cdora. Mariela García

Secretaría Legal y Técnica Abog. Carlos Pérez Secretaría de Extensión Lic. Juan Pablo Itoiz

Secretaría de Investigación, Desarrollo y Transferencia Dr. Jerónimo Ainchil Secretaría de Cultura Lic. Laura Durán Instituto de Postgrado Lic. Silvina Sansarricq

PROSECRETARÍAS Prosecretaría General Abog. Pablo G. Petraglia

Prosecretaría Económico Financiero Cdor. Gustavo Bonet

Prosecretaría de Planeamiento y Coordinación Institucional Cdora. Natalia Toloza Prosecretaría de Tecnología

de la Información y la Comunicación Mg. Hugo Ramón

ESCUELA DE TECNOLOGÍA Directora

Mg. Claudia Russo Secretaría Académica Lic. Mónica Sarobe Prosecretaría Académica Área de Diseño

DCV Florencia Antonini Director del Departamento

de Asignaturas Afines y Complementarias DCV María de las Mercedes Ortín

Director del Departamento de Informática Ing. Oscar Spada

Coordinador de Carreras de Ingeniería Ing. Daniel Galli

(5)

Presidenta Mg. Claudia Russo

Ahmad, Tamara Anolles, Natalia Di Cicco, Carlos Gutierrez, Juan Pablo Lencina, Paula Mangold, Leonardo Pérez, Daniela

Picco, María Linda Trinidad Pompei, Sabrina

Rodríguez, Sabina Serrano, Eliana Spada, Oscar

XIX ESCUELA INTERNACIONAL DE INFORMÁTICA

Directora

Lic. Mónica Sarobe

INTEGRANTES DEL COMITÉ ACADÉMICO, REPRESENTANTES DE LAS UNIVERSIDADES MIEMBRO DE LA RED UNCI

Escuela Superior Técnica,

Facultad de Ingeniería del Ejército Castro Lechstaler, Antonio

Universidad Abierta Interamericana De Vicenzi, Marcelo

Universidad Adventista del Plata Bournissen, Juan

Universidad Argentina John F. Kennedy Panizzi, Marisa Daniela

Universidad Atlántida Argentina Rathmann, Liliana

Universidad Austral Robiolo, Gabriela

Universidad Autónoma de Entre Ríos Aranguren, Silvia

Universidad CAECE Finocchieto, Jorge

Universidad Católica Argentina Grieco, Sebastián

Universidad de Buenos Aires Echeverría, Adriana (Ingeniería) Fernández Slezak, Diego (Exactas) Universidad de Morón

(6)

Universidad del Aconcagua Giménez, Rosana

Universidad del CEMA Guglianone, Ariadna Universidad del Salvador Zanitti, Marcelo

Universidad Gastón Dachary Belloni, Edgardo

Universidad Nacional Arturo Jauretche Morales, Martin

Universidad Nacional de Catamarca Barrera, María Alejandra

Universidad Nacional de Chilecito Carmona, Fernanda

Universidad Nacional de Córdoba Brandán Briones, Laura

Universidad Nacional de Cuyo Forradelas, Raymundo

Universidad Nacional de Entre Ríos Tugnarelli, Mónica

Universidad Nacional de Jujuy Paganini, José

Universidad Nacional de La Matanza Spositto, Osvaldo Mario

Universidad Nacional de La Pampa Alfonso, Hugo

Universidad Nacional de la Patagonia Austral Márquez, María Eugenia Presidenta

Mg. Claudia Russo

Ahmad, Tamara Anolles, Natalia Di Cicco, Carlos Gutierrez, Juan Pablo Lencina, Paula Mangold, Leonardo Pérez, Daniela

Picco, María Linda Trinidad Pompei, Sabrina

Rodríguez, Sabina Serrano, Eliana Spada, Oscar

XIX ESCUELA INTERNACIONAL DE INFORMÁTICA

Directora

Lic. Mónica Sarobe

INTEGRANTES DEL COMITÉ ACADÉMICO, REPRESENTANTES DE LAS UNIVERSIDADES MIEMBRO DE LA RED UNCI

Escuela Superior Técnica,

Facultad de Ingeniería del Ejército Castro Lechstaler, Antonio

Universidad Abierta Interamericana De Vicenzi, Marcelo

Universidad Adventista del Plata Bournissen, Juan

Universidad Argentina John F. Kennedy Panizzi, Marisa Daniela

Universidad Atlántida Argentina Rathmann, Liliana

Universidad Austral Robiolo, Gabriela

Universidad Autónoma de Entre Ríos Aranguren, Silvia

Universidad CAECE Finocchieto, Jorge

Universidad Católica Argentina Grieco, Sebastián

Universidad de Buenos Aires Echeverría, Adriana (Ingeniería) Fernández Slezak, Diego (Exactas) Universidad de Morón

Padovani, Hugo René Universidad de Palermo Cuckierman, Uriel

Universidad Nacional de la Patagonia San Juan Bosco

Buckle, Carlos

Universidad Nacional de La Plata De Giusti, Armando

Universidad Nacional de La Rioja Nadal, Claudio

Universidad Nacional de Lanús García Martínez, Ramón

Universidad Nacional de Lomas de Zamora Estayno, Marcelo

Universidad Nacional de Lujan Scucimarri, Jorge

Universidad Nacional de Misiones Kuna, Horacio

Universidad Nacional de Río Cuarto Arroyo, Marcelo

Universidad Nacional de Río Negro Vivas, Luis

Universidad Nacional de Rosario Kantor, Raúl

Universidad Nacional de Salta Gil, Gustavo

Universidad Nacional de San Juan Otazú, Alejandra

Universidad Nacional de San Luis Esquivel, Susana

Universidad Nacional de Santiago del Estero Durán, Elena

(7)

Universidad Nacional de Tierra del Fuego, Antártida e Islas del Atlántico Sur

Feierherd, Guillermo

Universidad Nacional de Tres de Febrero Oliveros, Alejandro

Universidad Nacional de Tucumán Luccioni, Griselda

Universidad Nacional de Villa María Prato, Laura

Universidad Nacional del Centro de la Provincia de Buenos Aires Acosta, Nelson

Universidad Nacional del Chaco Austral Zachman, Patricia

Universidad Nacional del Comahue Vaucheret, Claudio

Universidad Nacional del Litoral Loyarte, Horacio

Universidad Nacional del Nordeste Greiner, Cristina

Universidad Nacional del Noroeste de la Provincia de Buenos Aires Russo, Claudia

Universidad Nacional del Oeste Foti, Antonio

Universidad Nacional del Sur Rueda, Sonia

Universidad Tecnológica Nacional Bursztyn, Andrés

Universidad Nacional de Tierra del Fuego, Antártida e Islas del Atlántico Sur

Feierherd, Guillermo

Universidad Nacional de Tres de Febrero Oliveros, Alejandro

Universidad Nacional de Tucumán Luccioni, Griselda

Universidad Nacional de Villa María Prato, Laura

Universidad Nacional del Centro de la Provincia de Buenos Aires Acosta, Nelson

Universidad Nacional del Chaco Austral Zachman, Patricia

Universidad Nacional del Comahue Vaucheret, Claudio

Universidad Nacional del Litoral Loyarte, Horacio

Universidad Nacional del Nordeste Greiner, Cristina

Universidad Nacional del Noroeste de la Provincia de Buenos Aires Russo, Claudia

Universidad Nacional del Oeste Foti, Antonio

Universidad Nacional del Sur Rueda, Sonia

Universidad Tecnológica Nacional Bursztyn, Andrés

Universidad del Aconcagua Giménez, Rosana

Universidad del CEMA Guglianone, Ariadna Universidad del Salvador Zanitti, Marcelo

Universidad Gastón Dachary Belloni, Edgardo

Universidad Nacional Arturo Jauretche Morales, Martin

Universidad Nacional de Catamarca Barrera, María Alejandra

Universidad Nacional de Chilecito Carmona, Fernanda

Universidad Nacional de Córdoba Brandán Briones, Laura

Universidad Nacional de Cuyo Forradelas, Raymundo

Universidad Nacional de Entre Ríos Tugnarelli, Mónica

Universidad Nacional de Jujuy Paganini, José

Universidad Nacional de La Matanza Spositto, Osvaldo Mario

Universidad Nacional de La Pampa Alfonso, Hugo

Universidad Nacional de la Patagonia Austral Márquez, María Eugenia

Universidad Nacional de la Patagonia San Juan Bosco

Buckle, Carlos

Universidad Nacional de La Plata De Giusti, Armando

Universidad Nacional de La Rioja Nadal, Claudio

Universidad Nacional de Lanús García Martínez, Ramón

Universidad Nacional de Lomas de Zamora Estayno, Marcelo

Universidad Nacional de Lujan Scucimarri, Jorge

Universidad Nacional de Misiones Kuna, Horacio

Universidad Nacional de Río Cuarto Arroyo, Marcelo

Universidad Nacional de Río Negro Vivas, Luis

Universidad Nacional de Rosario Kantor, Raúl

Universidad Nacional de Salta Gil, Gustavo

Universidad Nacional de San Juan Otazú, Alejandra

Universidad Nacional de San Luis Esquivel, Susana

Universidad Nacional de Santiago del Estero Durán, Elena

COMITÉ CIENTÍFICO

Abásolo, María José (Argentina) Acosta, Nelson (Argentina) Aguirre, Jorge Ramió (España) Alfonso, Hugo (Argentina) Ardenghi, Jorge (Argentina) Arroyo, Marcelo (Argentina) Baldasarri, Sandra (España) Balladini, Javier (Argentina) Bertone, Rodolfo (Argentina) Bría, Oscar (Argentina) Brisaboa, Nieves (España) Buckle, Carlos (Argentina) Cañas, Alberto (EE.UU) Casali, Ana (Argentina)

Castro Lechtaller, Antonio (Argentina) Castro, Silvia (Argentina)

(8)

COMITÉ CIENTÍFICO

Abásolo, María José (Argentina) Acosta, Nelson (Argentina) Aguirre, Jorge Ramió (España) Alfonso, Hugo (Argentina) Ardenghi, Jorge (Argentina) Arroyo, Marcelo (Argentina) Baldasarri, Sandra (España) Balladini, Javier (Argentina) Bertone, Rodolfo (Argentina) Bría, Oscar (Argentina) Brisaboa, Nieves (España) Buckle, Carlos (Argentina) Cañas, Alberto (EE.UU) Casali, Ana (Argentina)

Castro Lechtaller, Antonio (Argentina) Castro, Silvia (Argentina)

Cechich, Alejandra (Argentina) Chavez, Edgar (México) Coello Coello, Carlos (México) Constantini, Roberto (Argentina) Cuevas, Alfredo Simón (Cuba) Cukierman, Uriel (Argentina) De Giusti, Armando (Argentina) De Giusti, Laura (Argentina) De Vincenzi, Marcelo (Argentina) Deco, Claudia (Argentina) Depetris, Beatriz (Argentina) Díaz, Javier (Argentina)

Dix, Juerguen (Alemania) Doallo, Ramón (España) Docampo, Domingo (España) Echaiz, Javier (Argentina) Esquivel, Susana (Argentina) Estayno, Marcelo (Argentina) Estevez, Elsa (Argentina) Falappa, Marcelo (Argentina) Feierherd, Guillermo (Argentina) Fillottrani, Pablo (Argentina) Finocchietto, Jorge (Argentina) Fleischman, William (Argentina) García Garino, Carlos (Argentina) García Villalba, Javier (España) Género, Marcela (España) Giacomantone, Javier (Argentina) Gómez, Sergio (Argentina) Gröller, Eduard (Austria) Guerrero, Roberto (Argentina) Janowski, Tomasz (Naciones Unidas) Kantor,Raul (Argentina)

Kuna, Horacio (Argentina) Lanzarini, Laura (Argentina) Leguizamón, Guillermo (Argentina) López Gil, Fernando (España) Loui, Ronald Prescott (EEUU) Luque, Emilio (España) Madoz, Cristina (Argentina) Malberti, Alejandra (Argentina) Dix, Juerguen (Alemania) Doallo, Ramón (España) Docampo, Domingo (España) Echaiz, Javier (Argentina) Esquivel, Susana (Argentina) Estayno, Marcelo (Argentina) Estevez, Elsa (Argentina) Falappa, Marcelo (Argentina) Feierherd, Guillermo (Argentina) Fillottrani, Pablo (Argentina) Finocchietto, Jorge (Argentina) Fleischman, William (Argentina) García Garino, Carlos (Argentina) García Villalba, Javier (España) Género, Marcela (España) Giacomantone, Javier (Argentina) Gómez, Sergio (Argentina) Gröller, Eduard (Austria) Guerrero, Roberto (Argentina) Janowski, Tomasz (Naciones Unidas) Kantor,Raul (Argentina)

Kuna, Horacio (Argentina) Lanzarini, Laura (Argentina) Leguizamón, Guillermo (Argentina) López Gil, Fernando (España) Loui, Ronald Prescott (EEUU) Luque, Emilio (España) Madoz, Cristina (Argentina) Malberti, Alejandra (Argentina)

(9)

Malbran,María (Argentina) Manresa Yee, Cristina (España) Marín, Mauricio (Chile) Mas Sansó, Ramón (España) Mon, Alicia (Argentina) Motz, Regina (Uruguay) Naiouf, Marcelo (Argentina) Navarro Martín, Antonio (España) Olivas Varela, José Ángel (España)

(10)

XVI Workshop Agentes y Sistemas Inteligentes (WASI)

XV Workshop Procesamiento Distribuido y Paralelo (WPDP) XIII Workshop Computación Gráfica, Imágenes y Visualización (WCGIV)

XIII Workshop Tecnología Informática aplicada en Educación (WTIAE)

XII Workshop Ingeniería de Software (WIS)

XII Workshop Bases de Datos y Minería de datos (WBDDM)

X Workshop Arquitectura,

Redes y Sistemas Operativos (WARSO)

VII Workshop Innovación en Sistemas de Software (WISS)

VI Workshop Procesamiento de Señales y Sistemas de Tiempo Real (WPSTR)

IV Workshop de Seguridad Informática (WSI)

IV Workshop de Innovación en Educación en Informática (WIEI)

V ETHICOMP Latinoamérica

Actas del XXI Congreso Argentino

(11)

7432 | Clasificación automática de evoluciones médicas multiclases en español

Marcela Riccillo (HIBA), David Perez (HIBA), Daniel Luna (HIBA), Fernando Campos (HIBA), Carlos Otero (HIBA), María Laura Gambarte (HIBA), Sonia Benítez (HIBA)

7445 | Representing Traffic Congestions on Moving Objects Trajectories

Mariano S. Kohan S. (UBA), Juan María Ale (UBA) 7450 | Immune Algorithm for Solving the Smooth Economic Dispatch Problem Victoria Aragón (UNSL), Susana Esquivel (UNSL) 7520 | Predicción de Ingresos de Causas Penales utilizando Programación Genética Lineal Alberto David Garcete Rodríguez (UNE), Benjamín Barán (UNE)

7528 | Optimización Basada en Colonias de Hormigas: Una aplicación

a la distribución de sobres

Adrián Ojeda (UNI), Benjamín Barán (UNE), Horacio Kuna (UNaM)

7530 | Personalização de recursos com suporte à privacidade através de técnicas adaptativas Paulo Roberto Massa (POLI-USB),

João Jose Neto (POLI-USB)

7539 | Optimización basada en Colonias de Hormigas para el Problema del Vendedor Viajante con muchos objetivos contradictorios Francisco Riveros (UNA), Nestor Benítez (UNA), Julio Paciello (UNA), Benjamín Barán (UNA) 7432 | Clasificación automática de evoluciones médicas multiclases en español

Marcela Riccillo (HIBA), David Perez (HIBA), Daniel Luna (HIBA), Fernando Campos (HIBA), Carlos Otero (HIBA), María Laura Gambarte (HIBA), Sonia Benítez (HIBA)

7445 | Representing Traffic Congestions on Moving Objects Trajectories

Mariano S. Kohan S. (UBA), Juan María Ale (UBA)

7450 | Immune Algorithm for Solving the Smooth Economic Dispatch Problem Victoria Aragón (UNSL), Susana Esquivel (UNSL) 7520 | Predicción de Ingresos de Causas Penales utilizando Programación Genética Lineal Alberto David Garcete Rodríguez (UNE), Benjamín Barán (UNE)

7528 | Optimización Basada en Colonias de Hormigas: Una aplicación

a la distribución de sobres

Adrián Ojeda (UNI), Benjamín Barán (UNE), Horacio Kuna (UNaM)

7530 | Personalização de recursos com suporte à privacidade através de técnicas adaptativas Paulo Roberto Massa (POLI-USB),

João Jose Neto (POLI-USB)

7539 | Optimización basada en Colonias de Hormigas para el Problema del Vendedor Viajante con muchos objetivos contradictorios Francisco Riveros (UNA), Nestor Benítez(UNA), Julio Paciello (UNA), Benjamín Barán (UNA)

XVI Workshop Agentes

y Sistemas Inteligentes (WASI)

7543 | A Preliminary Framework for Reasoning with Inconsistent Possibilistic Description Logics Ontologies with Disjunctive Assertions Sergio Alejandro Gómez (UNS)

7574 | Imperialist Competitive Algorithm for the Flowshop Problem

Gabriela Minetti (UNLPAM), Carolina Salto (UNLPAM)

7611 | Integración de agentes inteligentes heterogéneos en el entorno T-World

Sergio Burdisso (UNSL), Guillermo Aguirre (UNSL), Marcelo Errecalde (UNSL)

7621 | A Desiderata for Modeling and Reasoning with Social Knowledge Fabio R. Gallo (UNS), Natalia Abad (UNS), Gerardo I. Simari (UNS), Marcelo A. Falappa (UNS) 7634 | Algoritmos de Inteligencia

de Enjambres Orientados a Map Reduce Silvia Marta Molina (UNSL),

Guillermo Leguizamón (UNSL)

7646 | Evaluación de dos nuevos algoritmos en el diseño de granjas eólicas

Fabricio Loor (UNSL), Guillermo Leguizamón (UNSL), Javier Apolloni (UNSL)

7658 | Clasificación de configuraciones de manos del Lenguaje de Señas Argentino con ProbSOM

Franco Ronchetti (UNLP), Facundo Quiroga (UNLP), César Estrebou (UNLP), Laura Lanzarini (UNLP) 7543 | A Preliminary Framework for Reasoning with Inconsistent Possibilistic Description Logics Ontologies with Disjunctive Assertions Sergio Alejandro Gómez (UNS)

7574 | Imperialist Competitive Algorithm for the Flowshop Problem

Gabriela Minetti (UNLPAM), Carolina Salto (UNLPAM)

7611 | Integración de agentes inteligentes heterogéneos en el entorno T-World

Sergio Burdisso (UNSL), Guillermo Aguirre (UNSL), Marcelo Errecalde (UNSL)

7621 | A Desiderata for Modeling and Reasoning with Social Knowledge Fabio R. Gallo (UNS), Natalia Abad (UNS), Gerardo I. Simari (UNS), Marcelo A. Falappa (UNS)

7634 | Algoritmos de Inteligencia de Enjambres Orientados a Map Reduce Silvia Marta Molina (UNSL),

Guillermo Leguizamón (UNSL)

7646 | Evaluación de dos nuevos algoritmos en el diseño de granjas eólicas

Fabricio Loor (UNSL), Guillermo Leguizamón (UNSL), Javier Apolloni (UNSL)

7658 | Clasificación de configuraciones de manos del Lenguaje de Señas Argentino con ProbSOM

(12)

Clasificación automática de evoluciones médicas

multiclases en español

Marcela Riccillo1_{, David Perez}1_{, Daniel Luna}1_{, Fernando Campos}1_, Carlos Otero1_{, María Laura Gambarte}1_{, Sonia Benítez}1

1_{Departamento de Informática en Salud, Hospital Italiano de Buenos Aires HIBA} mail: [email protected]

Abstract. En este trabajo presentamos una comparación de metodologías de clasificación para texto libre de narrativas médicas, en este caso evoluciones médicas multiclase. Comparamos el rendimiento de redes neuronales y máquinas de soporte vectorial con preprocesamientos para clasificar evoluciones de Diabetes, en Tipo 1, Tipo 2 y Otros (otro tipo de afección). Se compararon accuracy, sensitivity y specificity, mostrando beneficios en costos de entrenamiento y resultados de exactitud. Encontramos porcentajes mayores con redes neuronales sin preprocesamiento PCA y en el caso de SVM con dicho preprocesamiento (con menor costo de entrenamiento).

Keywords: Electronic Health Record, Support Vector Machine, Natural Language Processing, Neural Network, Diabetes Mellitus, Narrative Medicine, Principal Component Analyses

1 Introducción

En el Hospital Italiano de Buenos Aires [1], desde el año 1998 se ha implementado de manera gradual un Sistema de Información en Salud (SIS) a partir de un desarrollo “in house” que maneja la información médica y administrativa desde la captura hasta el análisis. Incluye una única Historia Clínica Electrónica (HCE) web, modular, orientada a problemas y centrada en el paciente. Conocida con el nombre de ITALICA, la HCE permite el registro de la atención en los ámbitos: ambulatorio, internación, emergencias y atención domiciliaria. ITALICA permite la solicitud de estudios complementarios, prescripción farmacológica y visualización de resultados que incluye un sistema de almacenamiento y transmisión de imágenes asociadas al paciente.

Dado que la HCE es orientada a problemas, cuenta con una lista estructurada de los problemas de los pacientes que posee un control terminológico [2] que normaliza el texto ingresado según ontologías de referencia. Luego, el médico evoluciona la situación de cada paciente asociando dicha evolución al problema correspondiente. La evolución es un campo que contiene textos libres de narrativa médica.

(13)

datos que aparecen en forma estructurada. Esto comprende por ejemplo [3] informes radiológicos, resúmenes de alta, reportes de patologías, historias de admisión, informes de exámenes físicos.

Los textos libres en general son complejos con datos de laboratorio (donde algunos son copiados de otros campos para enfatizar o ilustrar las indicaciones), comportamientos del paciente, sugerencias de tratamientos, interconsultas, entre otros. La complejidad lingüística dificulta la extracción automática de información, que luego podría utilizarse para reportes estadísticos o la correcta determinación de la patología presentada por el paciente.

El Procesamiento del Lenguaje Natural (NLP) [4] proporciona un medio para "desbloquear" esta importante fuente de datos, convirtiendo texto no estructurado en estructurado, en datos procesables para su uso en aplicaciones de soporte a las decisiones clínicas, control de calidad y monitoreo de la salud pública. Hay que tener en cuenta que los conceptos [5] pueden ser modificados por la negación (ej, “sin temblores significativos”), por la información temporal (ej, “admitido previamente por neumonía”), por el historial familiar (ej, “antecedentes familiares de enfermedades del corazón”), o modificadores que indican que el evento en realidad no ocurrió (ej, “expuesto a tuberculosis”).

Es por eso que en este trabajo utilizamos técnicas que tomen en cuenta el contexto de las narrativas más que palabras específicas, es decir métodos de aprendizaje automático como Redes Neuronales Artificiales (ANN) y Máquinas de Soporte Vectorial (SVM). El objetivo del estudio es la comparación de metodologías de clasificación para el análisis multiclase de evoluciones médicas. Para esto aplicamos las metodologías a evoluciones en las cuales identificamos si corresponden a Diabetes Tipo 1, Diabetes Tipo 2 o no se relacionan con esta afección.

Esto podría servir para levantar alarmas en el caso de que el problema asociado a la evolución no sea el correspondiente o cuando las características demarcaran una posible ocurrencia de un problema que no esté registrado en la HCE del paciente.

2 Antecedentes

No sólo es importante la detección temprana de la enfermedad sino también identificar correctamente el tipo que corresponde, ya que los tratamientos pueden diferir según la sintomatología presentada.

La Diabetes Mellitus [6] es un desorden metabólico crónico caracterizado por niveles persistentemente elevados de glucosa en la sangre, como consecuencia de una alteración en la secreción y/o acción de la insulina. La Diabetes Mellitus tipo 1 (DBT1) se caracteriza por la destrucción de las células beta pancreáticas, que se traduce en un déficit absoluto de insulina y dependencia vital a la insulina exógena. La Diabetes Mellitus tipo 2 (DBT2) se caracteriza por resistencia insulínica, que habitualmente se acompaña de un déficit relativo de insulina.

(14)

entrenan una red neuronal para el análisis de enfermedades renales a partir de la ocurrencia de síntomas (temperatura, sensación de náusea, dolores) para facilitar el diagnóstico del médico. En el estudio de Vassy et al. [9] utilizan variantes genómicas para la identificación de Diabetes Tipo 2 y en el de Yu et al. [10] aplican datos estructurados de contexto del paciente (como edad, peso, historial clínico) para detectar diabetes y pre-diabetes con la aplicación de técnicas de máquinas de soporte vectorial.

Sin embargo, en nuestro trabajo buscamos la detección de diabetes a partir de la información de contexto presente en la narrativa médica de las HCE. La narrativa médica siempre ha sido una parte vital de la medicina [11] y se puede entender como el puente entre la evidencia de estudios a gran escala y el arte de la medicina de la aplicación de este conocimiento al caso particular de cada paciente.

Existen varios trabajos donde se utilizan técnicas de procesamiento del lenguaje natural para la extracción de información en texto libre. Por ejemplo, en el de Chau, Xu y Chen [12] donde desarrollan un extractor basado en redes neuronales para diferenciar entidades en reportes policiales.

Pero si nos enfocamos en los trabajos con narrativas médicas, vemos por ejemplo que Breydo, Chu y Turchin [13] desarrollan un algoritmo para la detección de medicamentos inactivos para removerlos de la lista de las HCE. En Savoya et al. de Clínica Mayo [14] desarrollan un sistema llamado cTakes para Análisis de Texto y extracción del conocimiento, a partir de anotaciones semánticas de diversas estructuras de las oraciones que integran la narrativa.

Deng y Denecke [15] plantean la dificultad de los médicos de encontrar rápidamente la información del paciente siendo que la misma se encuentra distribuida en grandes cantidades de narrativa que se va incrementando a lo largo de su evolución. Para eso presentan una metodología de sumarización de la HCE a través de extracción de información, sentimental analysis, nubes de palabras y tecnologías aplicadas en creación de resúmenes.

Pero en el presente estudio no nos enfocamos en la extracción sino en la clasificación de documentos. En particular, clasificaciones de evoluciones médicas según si se relacionan con DBT Tipo 1, DBT Tipo 2 o representan casos de otras afecciones.

En el trabajo de Rodríguez, Calot y Merlino [16] el objetivo es la clasificación de texto médico en español. Los campos a clasificar son los de prescripciones médicas, que resultan campos de una oración o segmento de ésta. Para la representación de los tokens usan unigramas. Para resolver la clasificación comparan las metodologías de SVM y Naïve Bayes Multinomial.

(15)

3 Metodología

Nuestra metodología consistió en la comparación del entrenamiento de una Red Neuronal y una SVM multiclase para la detección y diferenciación de DBT Tipo 1, DBT Tipo 2 y Otros. Para esto formamos un conjunto de entrenamiento y uno de testeo a partir de evoluciones médicas.

En las HCE hay campos estructurados como por ejemplo los valores de laboratorio de estudios de pacientes. Pero se valora la posibilidad de que los médicos realicen anotaciones en texto libre. Uno de esos campos es de evoluciones.

Cada evolución es un texto complejo formado generalmente por varias oraciones. En cada una de ellas los médicos utilizan diferentes formas de expresión, nombran medicamentos, comportamientos de los pacientes, antecedentes propios o de familiares, frecuentemente con abreviaturas, comentarios y palabras escritas de diferentes maneras. Dependiendo de la patología y sintomatología, a veces los médicos vuelcan en las evoluciones información que ya está en otros campos. Pero muchas veces, expresan información que es valioso recuperar.

Es así que buscamos 340 ejemplos de evoluciones al azar donde el problema asociado fuera Diabetes Tipo 1 (130 casos), Diabetes Tipo 2 (130 casos) y Otros (es decir, casos que no fueran de diabetes) (80 casos).

En los casos de Diabetes, encontramos evoluciones referidas a controles de la enfermedad, cambios de medicación, complicaciones, sintomatología asociada, entre otros.

Fig. 1. Ejemplo de una evolución de DBT Tipo 1

(16)

Encontramos que los médicos no siempre asocian a la evolución el problema exacto, es decir, que vimos ejemplos donde el texto se refería a DBT T1 y el problema asociado era DBT T2 y viceversa. Esto incrementa la importancia de este trabajo, ya que una incorrecta clasificación al momento del registro del paciente puede interferir en el tratamiento adecuado.

Los casos que no son de Diabetes refieren a evoluciones que pueden deberse a fracturas, análisis oftalmológicos, controles oncológicos, etc.

Fig. 3. Ejemplo de una evolución de Otros

Con esta selección armamos 2 córpora con 250 evoluciones para entrenamiento (100 T1, 100 T2 y 50 otros) y 90 evoluciones para testeo (30 T1, 30 T2 y 30 otros).

3.1 Preprocesamiento

La representación que elegimos para modelar los datos fue la de Bag-of-Word (BOW bolsa de palabras). Para facilitar esta aproximación realizamos algunos preprocesamientos. Pasamos los textos a minúsculas (para evitar repeticiones de palabras), sacamos acentos (de la misma manera que en el caso de minúsculas, palabras acentuadas, sin acentos o mal acentuadas representan el mismo término).

También quitamos blancos extras, caracteres especiales como signos de puntuación, porcentajes (utilizados por ejemplo en la descripción de estudios) y números. Creamos una lista de "stopwords" a la cual exceptuamos conectores como "no" e "y". Esto es porque consideramos importante la información de negaciones y conjunciones, pero sacando las stopwords reducimos el tamaño de la BOW.

Otra técnica de reducción que probamos fue el "truncado" de palabras (stem en inglés), es decir dejar sólo la raíz de las mismas. Pero encontramos que esto afectaba los resultados disminuyendo la exactitud. Interpretamos que las palabras truncadas perdían información importante al entrenamiento.

3.2 Entrenamiento

Para la creación y entrenamiento de la Red Neuronal utilizamos el programa R [18] con la librería nnet. Para la realización de una salida multiclase codificamos los tipos de afección de la siguiente manera:

Tabla 1. Codificación multiclase para la red

Clase Salida 1 Salida 2

DBT Tipo 1 1 0

DBT Tipo 2 0 1

(17)

Para reducir el tamaño de la BOW o sea, la cantidad de entradas a la red hicimos algunas pruebas preprocesando los datos con un Análisis de Componentes Principales (PCA). Ésta es una transformación lineal que reduce la dimensionalidad de los datos. Al reducir el espacio bajamos notablemente el tiempo de entrenamiento, permitiendo hacer pruebas rápidas con más cantidad de neuronas en la capa oculta.

Dado que las redes neuronales dependen del tiempo de entrenamiento, comparamos los resultados con otra metodología de clasificación como lo son las Máquinas de Soporte Vectorial. En las SVM el entrenamiento es mucho menos costoso en tiempo y baja la probabilidad de sobre entrenamiento. Para la creación y entrenamiento de la SVM usamos el programa R con la librería e1071.

4 Resultados

Para medir los resultados del aprendizaje medimos accuracy, sensitivity y specificity [19] estas últimas por cada clase, ya sea Clase 0 para otros, Clase 1 para DBT Tipo 1 y Clase 2 para DBT Tipo 2.

4.1 Redes Neuronales

Uno de los parámetros variables fue la cantidad de neuronas de la capa intermedia de la red. A medida que probamos con córpora más grandes, el tamaño de la BOW resultante se incrementaba por la cantidad de palabras diferentes que se pueden ver en las frases a analizar (como decíamos antes, las evoluciones están formadas muchas veces por varias oraciones o conceptos continuos). Es así que el agregado de una o varias neuronas ocultas hace que la cantidad de las conexiones de la red crezca considerablemente como así también el tiempo de entrenamiento.

Probamos entonces con diferentes cantidades de neuronas ocultas, primero comenzamos con 2 neuronas que representaron 7700 pesos sinápticos, lográndose una accuracy del 75,5%

Tabla 2. Resultados ANN con 2 n-ocultas.

Clase Sensitivity Specificity

General Accuracy 0.755

Clase 0 0.7333 0.9666

Clase 1 0.7666 0.8666

Clase 2 0.7666 0.8000

(18)

Tabla 3. Resultados ANN con 4 n-ocultas.

Clase 0 0.8333 0.9833

Clase 1 0.8666 0.8666

Clase 2 0.8666 0.9333

Se obtuvo una mejora considerable con una accuracy del 85,5%.

Cuando subimos la cantidad de neuronas a 5, se produjo una mejora del aprendizaje del conjunto de entrenamiento cuya accuracy llegó al 100% pero disminuyó la del testeo al 76,6%. Esto resulta en una situación de sobre entrenamiento que puede ocurrir en el caso de las redes neuronales. Con 6 neuronas intermedias, obtuvimos una accuracy del 78,8% con un tiempo de 35 minutos de aprendizaje y unos 23000 pesos sinápticos.

4.2 Redes Neuronales con PCA

Para las pruebas con PCA, comenzamos con 2 neuronas intermedias. Sin PCA la cantidad de conexiones de la red era de 7700, con PCA estuvo en el orden significativamente menor de 400. Con 6 neuronas la cantidad era de 23000, con PCA registramos 1200. Entrenamos ejemplos de hasta 50 neuronas ocultas en cuestión de unos pocos minutos (con 50 neuronas, la cantidad de pesos fue del orden de 10000).

Sin embargo, la accuracy no fue tan alta como la obtenida sin PCA. Con PCA y 2 neuronas, vimos un 53,33% (contra 75,5% sin PCA), y con 4 neuronas ocultas un 63,3% (contra 85,5% obtenido sin PCA).

Valores altos de accuracy fueron encontrados recién a las 25 y 30 neuronas intermedias (cantidades más grandes de neuronas bajaban nuevamente el porcentaje).

Tabla 4. Resultados ANN con PCA y 25 n-ocultas.

Clase 0 0.6666 0.8500

Clase 1 0.7666 0.8333

Clase 2 0.6666 0.8666

Tabla 5. Resultados ANN con PCA y 30 n-ocultas.

Clase 0 0.7333 0.9000

Clase 1 0.8000 0.8500

Clase 2 0.8000 0.9166

(19)

4.3 Máquinas de Soporte Vectorial

Para el caso de SVM, luego de varias pruebas elegimos como una mejor respuesta un kernel sigmoide. No encontramos diferencias significativas cambiando el valor del costo, por lo que no describimos variaciones de ese parámetro en este trabajo.

Realizamos variaciones con respecto al parámetro gamma del kernel. Al ser una SVM multiclase pudimos comparar también los valores obtenidos con las técnicas de predicción. Esto es, por alternativas, donde la SVM elige la clase ganadora clasificando de a dos clases por vez. O por probabilidades donde la clase ganadora es la de mayor probabilidad obtenida [20].

Tabla 6. Algunos resultados de accuracy SVM con varios gamma.

Gamma Alternativas Probabilidades

0.1 0.6889 0.5222

0.05 0.6222 0.6222

0.01 0.5333 0.6889

0.001 0.7333 0.7333

Como en el caso de las redes neuronales, probamos preprocesar los datos con la técnica de PCA. Encontramos que los valores de accuracy se incrementaban. Los tiempos de entrenamiento no variaron significativamente porque ya eran cortos, pero podría reducir tiempos a futuro con córpora más grandes. Los gamma que resultaron con mejores valores para SVM con PCA fueron los de 0.015 y 0.016 con probabilidades.

Tabla 7. Resultados SVM PCA prob gamma 0.015.

Clase 0 0.9000 0.9500

Clase 1 0.7667 0.8833

Clase 2 0.8333 0.9167

Tabla 8. Resultados SVM PCA prob gamma 0.016.

Clase 0 0.9000 0.9500

Clase 1 0.7667 0.9000

Clase 2 0.8667 0.9167

(20)

5 Conclusiones y trabajos futuros

En este trabajo presentamos una comparación de metodologías de clasificación para evoluciones médicas multiclase. En particular, clasificamos evoluciones relacionadas con Diabetes Tipo 1, Tipo 2 u otro tipo de afección. En el caso de DBT, no sólo es importante la detección temprana de la enfermedad sino también identificar correctamente el tipo que corresponde, ya que los tratamientos pueden diferir según la sintomatología presentada.

Por lo que observamos, obtuvimos una mejor accuracy con la red neuronal sin PCA, pero en poca diferencia con SVM con PCA. Si tomamos en cuenta grandes volúmenes de datos, las SVM tienen un tiempo de entrenamiento más corto (las redes pueden llegar a utilizar horas de aprendizaje con relativamente conjuntos no tan grandes). Y además, vimos que también podrían influir casos en los que se prioriza detectar menor cantidad de falsos positivos (specificity mayor).

Las SVM [21] implementan un principio de minimización del riesgo estructural en vez del riesgo empírico. Eso hace que minimicen un límite superior a la generalización de error en lugar de minimizar el error de entrenamiento, evitándose el sobre entrenamiento. Y el tiempo de aprendizaje se reduce también por el hecho de que las ANN pueden tener varios mínimos locales y las SVM sólo un mínimo global a alcanzar. Como conclusión podemos decir que las SVM con un preprocesamiento de PCA sería un clasificador útil en el caso de evoluciones médicas, que representan texto libre con anotaciones complejas en longitud, términos y formato.

En este trabajo utilizamos córpora no tan grandes a los fines de la comparación (en particular por los tiempos de la red, y la complejidad y longitud de las evoluciones). En trabajos futuros la idea es colectar un conjunto grande de datos para la aplicación y ajuste del método seleccionado de modo que la clasificación obtenida por esta metodología sirviera como entrada a los servicios de terminología para levantar eventuales alarmas sobre el problema asociado a cada evolución. Otros aspectos a desarrollar podrían ser el uso de otras representaciones de datos como como n-gramas y extender este estudio para otros tipos de problemas.

Referencias

1. González Bernaldo de Quirós F., Luna D., Baum A., Plazzotta F., Otero C., Benítez S.: Incorporación de tecnologías de la información y de las comunicaciones en el Hospital Italiano de Buenos Aires. Com. Económica para América Latina y el Caribe CEPAL (2012) 2. Gambarte M.L., Lopez Osornio A., Martinez M., Reynoso G., Luna D., González Bernaldo

de Quirós F.: A Practical Approach to Advanced Terminology Services in Health Information Systems. Studies in Health Technology and Informatics Volume 129: MEDINFO 2007 Pages 621 – 625 (2007)

3. Jain N.L., Friedman C.: Identification of findings suspicious for breast cancer based on natural language processing of mammogram reports. Proceedings of the AMIA Annual Fall Symposium. 1997:829-833 (1997)

(21)

5. Friedman C., Shagina L., Lussier Y., Hripcsak G.: Automated Encoding of Clinical Documents Based on Natural Language Processing. Journal of the American Medical Informatics Association : JAMIA. 2004;11(5):392-402. doi:10.1197/jamia.M1552 (2004) 6. http://www.supersalud.gob.cl/difusion/572/w3-propertyvalue-3130.html Superintendencia de

Salud Chile (consultado en julio 2015)

7. Hera J.M., Vegas J.M., Hernández E., Lozano I., García-Ruiz J.M., Fernández-Cimadevilla O.C., Carro A., Avanzas P., Torres F., Bayón J., Menéndez T., Jiménez-Navarro M., Delgado E.: Rendimiento de la glucohemoglobina y un modelo de riesgo para la detección de diabetes desconocida en pacientes coronarios. Rev Esp Cardiol. 2011;64:759-65. - Vol. 64 Núm.09 DOI: 10.1016 (2011)

8. Khan I.Y., Zope P.H., Suralkar S.R.: Importance of Artificial Neural Network in Medical Diagnosis disease like acute nephritis disease and heart disease. International Journal of Engineering Science and Innovative Technology (IJESIT) Volume 2, Issue 2, March 2013 ISSN: 2319-5967 (2013)

9. Vassy J.L., Hivert M.F., Porneala B., Dauriz M., Florez J.C., Dupuis J., Siscovick D.S., Fornage M., Rasmussen-Torvik L.J., Bouchard C., Meigs J.B.: Polygenic type 2 diabetes prediction at the limit of common variant detection. American Diabetes Association 2014 Jun;63(6):2172-82. doi: 10.2337/db13-1663 (2014)

10. Yu W., Liu T., Valdez R., Gwinn M., Khoury M.J.: Application of support vector machine modeling for prediction of common diseases: the case of diabetes and pre-diabetes. BMC Medical Informatics and Decision Mak 2010 doi: 10.1186/1472-6947-10-16 (2010) 11. Kalitzkus V., Matthiessen P.F.: Narrative-Based Medicine: Potential, Pitfalls, and Practice.

The Permanente Journal. 2009;13(1):80-86 (2009)

12. Chau M., Xu J.J., Chen H.: Extracting Meaningful Entities from Police Narrative Reports. Proceeding Proceedings of the 2002 annual national conference on Digital government research Pages 1-5 Digital Government Society of North America (2002)

13. Breydo E.M., Chu J.T., Turchin A.: Identification of Inactive Medications in Narrative Medical Text. AMIA Annual Symposium Proceedings. 2008:66-70 (2008)

14. Savova G.K., Masanz J.J., Ogren P.V., et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. Journal of the American Medical Informatics Association : JAMIA. 2010;17(5):507-513. doi:10.1136/jamia.2009.001560 (2010)

15. Deng Y., Denecke K.: Summarization of EHR using information extraction, sentiment analysis and word clouds. Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie doi: 10.3205/14gmds067, urn:nbn:de:0183-14gmds0672 (2014) 16. Rodríguez J.M., Calot E., Merlino H.D.: Clasificación de Prescripciones Médicas en

Español. XV Workshop de Agentes y Sistemas Inteligentes Proceedings XX Congreso Argentino de Ciencias de la Computación ISBN 978-987-3806-05-6 (2014)

17. Wright A., McCoy A.B., Henkin S., Kale A., Sittig D.F.: Use of a support vector machine for categorizing free-text notes: assessment of accuracy across two institutions. Journal of the American Medical Informatics Association : JAMIA. 2013;20(5):887-890. doi:10.1136/amiajnl-2012-001576 (2013)

18. The R Project Statistical Computing http://www.r-project.org/ (consultado en julio 2015) 19. Parikh R, Mathai A, Parikh S, Chandra Sekhar G, Thomas R. Understanding and using

sensitivity, specificity and predictive values. Indian Journal of Ophthalmology. 2008;56(1):45-50 (2008)

20. LIBSVM: A Library for Support Vector Machines

http://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf (consultado en julio 2015)

(22)

Representing Traffic Congestions on Moving Objects

Trajectories

Mariano Kohan and Juan M. Ale

Facultad de Ingeniería, Universidad de Buenos Aires [email protected], [email protected]

Abstract. The discovery of moving objects trajectory patterns representing a high traffic density have been covered on different works using diverse approaches. These models are useful for the areas of transportation planning, traffic monitoring and advertising on public roads. Besides of the important utility, these type of patterns usually do not specify a difference between a high traffic and a traffic congestion. In this work, we propose a model for the discovery of high traffic flow patterns and traffic congestions, represented in the same pattern. Also, as a complement, we present a model that discovers alternative paths to the severe traffic on these patterns. These proposed patterns could help to improve traffic allowing the identification of problems and possible alternatives.

Keywords: Moving objects, trajectories, road network, traffic flow, traffic congestion

1 Introduction

In the last years, there has been a high presence of works related to the data mining of the trajectory data generated by moving objects ([16]). From these works, there has been a lot of attention to the discovery of different type of traffic flow patterns. These patterns can be discovered from trajectories moving inside a road network like [7], [6] and [9] or with a free movement ([5], [11], [4]). Related to the first case, the concept of traffic congestions as a limitation of the road network is considered on more recent papers ([14], [1]). These works are useful on different areas like transport planning, traffic monitoring, carpooling, store locations and advertising on public roads.

(23)

The rest of the paper is organized as follows. Next section comments the works related to this paper. Section 3 describes selected concepts considered from these works. The proposed models are introduced on Section 4. And Sections 5 and 6 gives the definitions and algorithms for each model. Finally, Section 7 concludes this paper with information about the next steps.

2 Related Work

Works about the discovery of traffic flow patterns are related to this paper. The model of hot routes ([7]) is used as the main inspiration for this work because of its balance between the aggregate information about the moving objects and theirs specific behavior (represented in the common traffic in a sequence of edges). Li and others on [7] comments about some alternative methods to discover traffic flow patterns. First, just the aggregate behavior of individuals can be considered connecting only edges in the graph with high traffic. [6] uses this method and complements it with the discovery of the temporal evolution of the patterns. Also, in [9] the model is oriented to the traffic analysis through edges clustering. Another method is to discover moving clusters formed by moving objects, where [5] and [8] are some examples. The third method is about the clustering of trajectories. In this group we can consider some patterns like hot motion paths ([11]), the discovery of the Most Popular Route (MPR) between two locations ([4]) and the distributed parallel clustering method MCR-ACA ([15]). Besides of representing these patterns a high traffic inside the road network, they usually do not consider the cases of traffic jams, where the traffic density is close to the network capacity.

Another group of papers are related to the analysis of traffic congestions. To discover this type of patterns, it is possible to consider the road network characteristics or the moving objects data. In the first case, we have works about representative patterns for the network segments ([2]), usage patterns of road networks ([14], [13]), and the visualization of traffic jams using a GIS map service ([12]). For the second case we can consider diverse patterns like slowly flocks ([10]), the transitions within regions ([17]) and Non-Recurrent Congestion events ([1]). Also, there is the work [3] that considers both types of data in the discovered patterns. The main difference with the current work is that this second group of papers only discover patterns related to traffic congestions, but without relation to patterns with lower levels of traffic.

3 Background Models

(24)

the set of vertices representing a street intersection. Also, T is the set of trajectories, with each element composed of an ID (tid) and a sequence of edges traveled through: (tid, <e1, …, ek>), where ei ϵ E. The hot routes are built up with a sequence of edges, near each other but not necessarily adjacent, that "...share a high amount of traffic between them." ([7]). The distance between the edges is based on the number of edges inside the road network graph, according to the metric ForwardNumHops, which represents the minimum number of edges between the end vertex of two edges. Using this metric, the Eps-neighborhood (NEps(r)) of an edge r defines the set of closed edges. The shared traffic considers the same trajectory identification made by each moving object. This model is used as a base for the development of patterns considering traffic congestions.

The work [10] is about the detection of potential traffic jams with slowly flock patterns. In this case, the velocity of each moving object is considered on the discovery of the flock patterns. This idea of using the velocity to identify a traffic jam is applied on the first proposed model.

The discovery of representative patterns for the network segments is proposed on [2]. On this work, the network segments are characterized according to presented network features like length, direction, capacity and density. This last concept of segment density D*(s) allows to identify alternative segments for an edge according to a bounding rectangle (BR) covering the segment, and the direction for the edges inside this BR. For the second model proposed, this concept is used to discover alternative paths to the traffic congestions.

[6] presents a more general pattern, called dense routes. These patterns are discovered using only the number of objects on each edge of the road network, and adjacent edges are linked if the difference on the number of moving objects is bellow a maximum threshold. A similar idea for the algorithm described on the second model is considered for the discovery of the alternative paths.

4 Models Description

We consider the model of hot routes ([7]) to be most appropriate to discover patterns with heavy traffic in a city road network, because it represents a balance between an aggregate analysis and the behaviors of the individuals. But besides of represent a high density of moving objects in a road network, it does not consider some characteristics of this road network causing the appearance of traffic jams:

 capacity: it is associated with the edges in the road network and represents the maximum number of vehicles that are allowed to circulate into a road segment.  velocity and time: related to the feature of capacity are the concepts of velocity and

time. When the density of objects in a road segment is close to its capacity, the velocity of the moving objects starts to be decreased and the travel time is extended.

(25)

In this paper, we propose two new models for the discovery of trajectory patterns considering these features:

1. the concept of velocity is considered in order to discover hot routes with jam sections: sections with a density close to its capacity. We call these patterns jam routes. This model is described on the next section.

2. the existence of paths that could be used as alternative to the traffic in a jam route, because of its location and low density values. These patterns are called cold routes. Section 6 presents this model.

5 Discovery of Jam Routes

The jam route pattern could be defined as a hot route with one or more subpaths identified as traffic jam. So, it is a path in a road network with heavy traffic (shared by the same objects inside a sliding window) and with one or more sectors having a traffic level close to its capacity.

In order to identify these subpaths the velocity is used. So, each trajectory is composed by its ID (tid) and a sequence of pairs representing each edge traveled with its respective mean velocity: (tid, <(e1, v1), (e2, v2), …, (ek, vk)>) , where ei ϵ E and vi is the mean velocity on ei.

We consider the use of the velocity to identify traffic congestions is better than compare the density with the road capacity for two reasons:

 the data about the velocity for each moving object on each edge of the trajectory is easier to obtain than the capacity of each edge of the road network

 considering the road segments are part of a network, there also additional factors that could lead to congestions ([14])

The first concept to present is speed. It complements the traffic definition from [7] to consider the velocity in each edge.

Definition 1 (speed). The speed(r) for a given edge r is the mean of velocities viof the edge r.

In order to identify the edges affected by the conditions of a traffic jam the concept directly traffic jam-reachable is used.

Definition 2 (directly traffic jam-reachable). An edge s is directly traffic jam-reachable from an edge r with respect to parameters Eps, MinTraffic and JamSpeed if

1. s ϵ NEps(r)

2. │traffic(r) ∩ traffic(s)│ ≥ MinTraffic

3. speed(s) ≤ JamSpeed or speed(r) ≤ JamSpeed

(26)

Definition 3 (route traffic jam-reachable). An edge s is route traffic jam-reachable from an edge r with respect to parameters Eps, MinTraffic and JamSpeed if 1. there is a chain of edges r1, r2, …, rn with r1=r and rn=s, where ri is directly traffic jam-reachable from ri-1 or ri is just directly traffic density-reachable from ri-1

2. for every Eps consecutive edges in the chain, │traffic(ri) ∩ traffic(ri+1) ∩ …∩ traffic(ri+Eps)│ ≥ MinTraffic

This definition augments the concept of route traffic density-reachable ([7]), allowing to propose a path that relates sections with heavy traffic and sections with traffic jams.

This concept is the base for the discovery of the jam routes.

5.1 Algorithm

The algorithm to discover the jam routes presents a structure of breadth-first search on the road network graph.

It starts out the discovery from the hot routes starts ([7]), verifying if the speed on each of these edges is below the JamSpeed threshold. In this case, the edge is marked as a jam. Next, these hot routes starts are extended recursively to form the jam routes. The extension is from the last edge, finding the edges inside the NEpsthat satisfy the definitions of directly traffic jam-reachable or directly traffic density-reachable. Then, on each of these possible split edge from the route, the definition of route traffic jam-reachable is evaluated (specifically the second condition). If this definition is validated, a new jam route is created with the new edge. And, if the added edge is directly traffic jam-reachable, it is marked as a jam.

The algorithm is called JamFlowScan and its pseudo-code is presented as follows:

Input: Road network G, object trajectory data T, Eps, MinTraffic, JamSpeed

Output: Jam routes R

1: Initialize R to {}

2: Let H be the set of hot route starts in G according to T

3: for every hot route start h in H do

4: r = new Jam Route initialized to <h> /*mark edge as "jam" if speed(h) <= JamSpeed */

5: Add Extend_Jam_Routes(r) to R 6: end for

(27)

Procedure Extend_Jam_Routes(jam route r) 1: Let p be the last edge in r

2: Let Q be the set of directly traffic jam-reachable neighbors of p U the set of directly traffic density-reachable neighbors of p

3: if Q is non-empty then 4: Initialize JR to {} 5: for every split in Q do

6: if route traffic jam-reachable condition is satisfied then

7: Let r' be a copy of r 8: Append split’s edges to r'

9: if directly traffic jam-reachable condition is satisfied then

10: mark split edge as "jam" 11: end if

12: Add Extend_Jam_Routes(r') to JR 13: end if

14: end for 15: return JR 16: else

17: Return {r} 18: end if

To verify the definitions used in the algorithm, the traffic set and speed for every edge is required. So, the object trajectory data T can be converted into table structure that relates each edge with the tid of the trajectories that belongs to, and the mean velocity on all the trajectories. The building of this table has linear complexity with respect to the trajectories data.

The jam routes are discovered applying the definitions from the model and identifying the traffic jams on the respective cases:

 initially after the identification of the hot routes starts (step 4)

 on the extension of the jam route for each split, following the identification of an edge as route traffic jam-reachable (steps 9-11 from Extend_Jam_Routes). So, if a traffic congestion is found during the route building, it will be properly identified on the results. Also, the order used to extend the routes adds efficiency to the search but does not omit edges. Therefore, the set of jam routes discovered is complete and correct.

6 Discovering Cold Routes

(28)

To allow the identification of the alternative routes the concept BR-neighborhood NBR(s) is used. It is the same concept segment density D*(s) from [2] (but using a name following the conventions applied to this work): considers the vicinity area of a segment (with a bounding rectangle) and the direction. So, each edge e ϵ E from the road network graph G(V,E) will be associated with a label representing its direction.

The first concept to present is cold traffic. It allows to identify edges with low traffic and that could be considered alternatives to edges with traffic jam (directly traffic jam-reachable).

Definition 4 (cold traffic). An edge s is considered cold traffic with respect to parameters BR and MaxTraffic if:

1. │traffic(s)│ ≤ MaxTraffic

2. s ϵ NBR(s) of directly traffic jam-reachable edge

Additionally the concept of directly cold traffic reachable is presented.

Definition 5 (directly cold traffic reachable). An edge s is considered directly cold traffic reachable from an edge r with respect to parameter MaxTraffic if:

1. s is adjacent to r: start(s) = end(r) or end(s) = start(r) 2. │traffic(r)│ ≤ MaxTraffic

3. │traffic(s)│ ≤ MaxTraffic

Both concepts are related on the definition of route cold traffic reachable.

Definition 6 (route cold traffic reachable). An edge s is considered routecold traffic reachable from an edge r with respect to parameters BR and MaxTraffic if there is a chain of edges r1, r2, …, rn with r1=r and rn=s, where:

1. each ri is directly cold traffic reachable from ri-1 2. there exists almost one edge ri that is cold traffic

The concept of route cold traffic reachable allows the discovery of the cold route patterns.

6.1 Algorithm

Considering that cold routes are formed by edges with low traffic, it is better to discover them using a simple aggregate method.

The proposed algorithm starts the discovery process from the jam routes discovered by JamFlowScan, finding the cold traffic edges according to the NBRof the directly traffic jam-reachable edges. Next, these edges are extended to both sides, evaluating the definition directly cold traffic reachable into the adjacent edges. With the two conditions of route cold traffic reachable satisfied, the new edge is added to the route, considering possible splits (representing different alternative paths).

(29)

Input: Road network G, object trajectory data T, MaxTraffic, BR, JamRoutes (from JamFlowScan) Output: Cold routes CR

1: Initialize CR to {}

2: Let CS the set of cold traffic edges in G according to T and discovered Jam Routes

3: for every cold traffic edge cs in CS do 4: cr = new Cold Route initialized to <cs> 5: Add Extend_Cold_Route_Forward(cs) to CRf

6: for every route (extended forward from cs) crf in CRf do

7: Add Extend_Cold_Route_Backward(crf) to CR 8: end for

9: end for 10: return CR

Procedure Extend_Cold_Route_Forward (cold route cr) 1: Let p be the last edge in cr

2: Let S be the set of directly cold traffic reachable edges from p with end(p) = start(s)

3: if S is non-empty then 4: Initialize CR to {} 5: for every edge s in S 6: Let cr' be a copy of cr

7: Append edge s to the end of cr'

8: Add Extend_Cold_Route_Forward(cr') to CR 9: end for

10: return CR 11: else

12: return {cr} 13: end if

Procedure Extend_Cold_Route_Backward (cold route cr) 1: Let p be the first edge in cr

2: Let S be the set of directly cold traffic reachable edges from p with start(p) = end(s)

3: if S is non-empty then 4: Initialize CR to {} 5: for every edge s in S 6: Let cr' be a copy of cr

7: Append edge s to the beginning of cr' 8: Add Extend_Cold_Route_Backward (cr') to CR 9: end for

10: return CR 11: else

(30)

The algorithm requires, to verify the definitions used, the traffic set for every edge. So, in this case a similar table structure built from the trajectories can be utilized, with a linear complexity with respect to the trajectory data.

ColdScan discovery process applies the definition of route cold traffic reachable, considering all the jam routes from JamFlowScan. Also, these routes are extended to both possible sides. So, the discovered set of cold routes is complete.

7 Conclusion and Future Work

In this paper we presented two models for the discovery of traffic flow patterns. The hot routes model for the discovery of high traffic routes is considered as a starting point for the development of patterns representing traffic jams and its alternative paths.

First, in the jam routes model the velocity of the moving objects is added in order to identify traffic jam sectors inside the patterns. The relation between these congestions and the high traffic density is according to the shared traffic in common. Next, starting with a vicinity concept the cold routes are presented as a path that could be used as an alternative to the traffic in the jam routes. These patterns are identified according to a low level of traffic and comparing its location in the road network graph with respect to the congestions in the jam routes. The algorithms for the discovery of the proposed models are presented in order to clarify further details.

This is a work in progress. The next step is the implementation of the presented models, in order to compare the discovered patterns with the obtained using some of the related models. This will allow to confirm the utility of these models.

References

1. Berk Anbaroglu, Benjamin Heydecker, and Tao Cheng. Spatio-temporal clustering for non-recurrent traffic congestion detection on urban road networks. Transportation Research Part C: Emerging Technologies, 48(0):47 – 65, 2014.

2. Farnoush Banaei-Kashani, Cyrus Shahabi, and Bei Pan. Discovering patterns in traffic sensor data. In: Proceedings of the 2Nd ACM SIGSPATIAL International Workshop on GeoStreaming, IWGS ’11, pp. 10–16, New York, USA, 2011. ACM.

3. Kyoung Soo Bok, He Li, Jong Tae Lim, and Jae Soo Yoo. Discovering congested routes using vehicle trajectories in road networks. Advances in Multimedia, 2014.

4. Zaiben Chen, Heng Tao Shen, and Xiaofang Zhou. Discovering popular routes from trajectories. In: Data Engineering (ICDE), 2011 IEEE 27th International Conference on, pp 900–911, 2011.

(31)

6. Ahmed Kharrat, Karine Zeitouni, Iulian Sandu-Popa, and Sami Faiz. Characterizing traffic density and its evolution through moving object trajectories. Fifth International IEEE Conference on Signal-Image Technologies and Internet-Based Systems, pp. 257–263, 2009. 7. Xiaolei Li, Jiawei Han, Jae-Gil Lee, and Hector Gonzalez. Traffic density-based discovery of

hot routes in road networks. In: SSTD’07 - Proceedings of the 10th international conference on Advances in spatial and temporal databases, pp. 441–459, Berlin, Heidelberg, 2007. Springer-Verlag.

8. Wenting Liu, Zhijian Wang, and Jun Feng. Continuous clustering of moving objects in spatial networks. In: Ignac Lovrek, Robert J. Howlett, and Lakhmi C. Jain, editors, Knowledge-Based Intelligent Information and Engineering Systems, volume 5178 of Lecture Notes in Computer Science, pp. 543–550. Springer Berlin Heidelberg, 2008. 9. Irene Ntoutsi, Nikos Mitsou, and Gerasimos Marketos. Traffic mining in a road-network:

How does the traffic flow? International Journal of Business Intelligence and Data Mining, 3:82–98(17), 2008.

10. Rebecca Ong, Fabio Pinelli, Roberto Trasarti, Mirco Nanni, Chiara Renso, Salvatore Rinzivillo, and Fosca Giannotti. Traffic jams detection using flock mining. In: Dimitrios Gunopulos, Thomas Hofmann, Donato Malerba, and Michalis Vazirgiannis, editors, Machine Learning and Knowledge Discovery in Databases, volume 6913 of Lecture Notes in Computer Science, pp. 650–653. Springer Berlin Heidelberg, 2011.

11. Dimitris Sacharidis, Kostas Patroumpas, Manolis Terrovitis, Verena Kantere, Michalis Potamias, Kyriakos Mouratidis, and Timos Sellis. On-line discovery of hot motion paths. In: Proceedings of the 11th International Conference on Extending Database Technology: Advances in Database Technology, EDBT ’08, pp. 392–403, New York, NY, USA, 2008. ACM.

12. Anna Izabel J. Tostes, Fátima de L. P. Duarte-Figueiredo, Renato Assunção, Juliana Salles, and Antonio A. F. Loureiro. From data to knowledge: City-wide traffic flows analysis and prediction using Bing maps. In: Proceedings of the 2Nd ACM SIGKDD International Workshop on Urban Computing, UrbComp ’13, pp. 12:1–12:8, New York, NY, USA, 2013. ACM.

13. Junjie Wang, Dong Wei, Kun M. He, Hang Gong, and Pu Wang. Encapsulating urban traffic rhythms into road networks. Scientific Reports, 4, 2014.

14. Pu Wang, Timothy Hunter, Alexandre M. Bayen, Katja Schechtner, and Marta C. Gonzalez. Understanding road usage patterns in urban areas. Scientific Reports, 2, 2012.

15. Jie Yang, Xiaoping Li, Dandan Wang, and Jia Wang. A group mining method for big data on distributed vehicle trajectories in wan. International Journal of Distributed Sensor Networks, 2014.

16. Yu Zheng. Trajectory data mining: An overview. ACM Transaction on Intelligent Systems and Technology, 2015.