Reconocimiento Automático de Actividades Humanas Basado en el Análisis de Secuencias de Imágenes

(1)

Universidad Rey Juan Carlos

TESIS DOCTORAL

Reconocimiento Autom´

atico de Actividades

Humanas Basado en el An´

alisis de Secuencias de

Im´

agenes

Directores:

Juan Jos´

e Pantrigo Fern´

andez

Antonio Sanz Montemayor

Doctorando:

Javier Eduardo Hern´

andez S´

anchez

(2)

(3)

i

El Dr. D. Juan José Pantrigo Fernández, Profesor Titular de Universidad, en el De-partamento de Ciencias de la Computación, Arquitectura de Computadores, Lenguajes y Sistemas Informáticos y Estad´ıstica e Investigación Operativa de la Universidad Rey Juan Carlos, y el Dr. D. Antonio Sanz Montemayor, Profesor Contratado Doctor, en el Departamento de Ciencias de la Computación, Arquitectura de Computadores, Lenguajes y Sistemas Informáticos y Estad´ıstica e Investigación Operativa de la Universidad Rey Juan Carlos, directores de la Tesis Doctoral Reconocimiento Automático de Actividades Humanas Basado en el Análisis de Secuencias de Imágenes” realizada por el doctorando D. Javier Eduardo Hernández Sánchez,

HACEN CONSTAR:

que esta Tesis Doctoral re´une los requisitos necesarios para su defensa y aprobaci´on.

En M´ostoles, a 14 de Mayo de 2015,

(4)

(5)

iii

(6)

(7)

Agradecimientos

El presente documento es la culminación de años de trabajo, estudio y esfuerzo en el que han colaborado directa o indirectamente muchas personas. En primer lugar querr´ıa expresar mi más sincera gratitud a mis directores Antonio y Juanjo por su sabidur´ıa, su apoyo y su infinita paciencia, pero sobre todo por haberme transmitido su pasión por la investigación y la enseñanza.

También estoy en deuda con el resto de compañeros del departamento, sus ideas y conversaciones me han influido más de lo que puedo expresar y guardo con especial cariño el tiempo que compartimos.

Mi familia siempre ha sido un pilar en mi vida, sobre todo mi padre que me animó a que aprendiese y a que siguiese adelante con mis estudios. Espero que algún d´ıa llegue a ser una gran persona como lo fue él. Mi madre me ha dedicado más tiempo del que ten´ıa y sus esfuerzos y apoyo han sido una inspiración para mi. Mi hermano también ha sido una poderosa influencia para mi, nuestras charlas me han inspirado y me han hecho reflexionar.

Diana, mi compa˜nera en la vida, a quien le debo tanto. Gracias por los momentos que me das y la alegr´ıa que transmites en todo lo que haces.

Finalmente a mis compañeros de laboratorio con los que tantas horas he pasado, en especial a David con el que he compartido muchas aventuras. A mis amigos que siempre están ah´ı, a mis compañeros de trabajo que me han ofrecido su ayuda y a tanta gente que de una forma u otra me ha ayudado o inspirado para seguir adelante.

(8)

(9)

´Indice general

1. Introducci´on 1

1.1. Motivaci´on, hip´otesis y objetivos . . . 1

1.1.1. Motivaci´on . . . 1

1.1.2. Hip´otesis . . . 4

1.1.3. Objetivos . . . 4

1.1.4. Estructura del documento . . . 6

2. Reconocimiento de actividades humanas 7 2.1. Clasificaci´on general de m´etodos de reconocimiento de actividades humanas 18 2.2. Preproceso de la imagen . . . 20

2.2.1. Normalizaci´on de la imagen . . . 20

2.2.2. Imagen integral e imagen integral restringida . . . 23

2.3. Optimizaci´on . . . 25

2.3.1. Metaheur´ısticas . . . 26

2.3.2. Algoritmos Mem´eticos . . . 27

2.3.3. Algoritmos de b´usqueda local . . . 29

2.4. Algoritmos de estimaci´on secuencial . . . 31

2.4.1. Espacio de estados . . . 32

2.4.2. El problema de la estimaci´on secuencial . . . 33

2.4.3. M´etodos aproximados . . . 34

2.5. Algoritmos de seguimiento visual . . . 39

2.5.1. Filtro de part´ıculas para el seguimiento visual . . . 39

2.5.2. Filtro de part´ıculas basado en memoria . . . 44

2.5.3. Filtro de part´ıculas con b´usqueda local . . . 47

2.5.4. Filtro de part´ıculas hibridado con algoritmos mem´eticos . . . 49

2.5.5. Seguimiento visual mediante análisis del flujo óptico por el método de Lucas-Kanade . . . 52

2.6. Extracci´on de caracter´ısticas para el reconocimiento de actividades . . . 56

(10)

2.6.1. Posici´on y tama˜no . . . 56

2.6.2. Vectores de desplazamiento de puntos caracter´ısticos . . . 57

2.6.3. Trayectoria . . . 59

2.6.4. Estad´ısticos muestrales . . . 60

2.7. Clasificaci´on de datos . . . 62

2.7.1. M´aquinas de vectores soporte . . . 62

2.7.2. Problema de la correspondencia . . . 66

2.8. Generación de la descripción textual de la acción . . . 70

2.9. Bases de datos de prueba . . . 71

3. Seguimiento de M´ultiples Objetos Utilizando Filtros de Part´ıculas y Algoritmos Mem´eticos 73 4. A Memory-Based Particle Filter for Visual Tracking through Occlusions 83 5. Multiple and variable target visual tracking for video-surveillance ap-plications 95 6. Differential optical flow applied to automatic facial expression recogni-tion 113 7. Human Action Recognition Based on Tracking Features 127 8. Human Activity Recognition based on Kinematic Features 139 9. Conclusiones y Aportaciones 151 9.1. Conclusiones . . . 151

9.2. Principales aportaciones . . . 152

9.3. Trabajos futuros . . . 153

A. Anexo Pseudoc´odigo 155

(11)

´Indice de figuras

2.1. Ejemplo de los estudios de Marey y Muybridge . . . 8

2.2. Esquematizaci´on del experimento de Johansson 1973 . . . 9

2.3. Seguimiento de una pierna humana . . . 10

2.4. Etapas iniciales del sistema presentado por Park y colaboradores . . . 12

2.5. Caracter´ısticas empleadas por Ali y colaboradores . . . 14

2.6. Puntos significativos y par´ametros primarios del modelo de Folgado y co-laboradores . . . 16

2.7. Informaci´on codificada en los descriptores del trabajo de Wang y colabo-radores . . . 16

2.8. Diagrama de etapas de un sistema de reconocimiento de actividades humanas 20 2.9. Normalizaci´on de la imagen . . . 23

2.10. Descripción visual de la pirámide de imágenes . . . 24

2.11. C´alculo de la suma de los valores contenidos en un ´area rectangular utili-zando una imagen integral . . . 25

2.12. Estructura general del algoritmo mem´etico . . . 27

2.13. Generación de la población inicial en un algoritmo memético. . . 29

2.14. Paso generacional b´asico en un algoritmo mem´etico . . . 30

2.15. Un algoritmo posible para el reinicio de la poblaci´on en un algoritmo mem´etico . . . 30

2.16. Ejemplo de b´usqueda local en tres dimensiones . . . 32

2.17. Representaci´on del espacio de estados de dos sistemas . . . 33

2.18. Diagrama algor´ıtmico del muestreo secuencial por importancia . . . 36

2.19. Diagrama algor´ıtmico del filtro de part´ıculas . . . 39

2.20. Etapas del filtro de part´ıculas . . . 40

2.21. Definici´on de una part´ıcula para el seguimiento visual . . . 41

2.22. Etapas del filtro de part´ıculas adaptadas para el seguimiento visual . . . . 43

2.23. Muestreo basado en memoria . . . 45

(12)

2.24. Etapas del filtro de part´ıculas basado en memoria . . . 46

2.25. Ejemplo de funcionamiento del filtro de part´ıculas basado en memoria . . . 48

2.26. Etapas del filtro de part´ıculas con b´usqueda local . . . 48

2.27. Ejemplo del funcionamiento del filtro de part´ıculas de part´ıculas con b´ usque-da local . . . 50

2.28. Etapas del filtro de part´ıculas con algoritmos mem´eticos . . . 51

2.29. Problema del registro para dos im´agenes . . . 53

2.30. Problema del registro en una dimensi´on . . . 54

2.31. Formaci´on y divisi´on de grupos . . . 57

2.32. Puntos caracter´ısticos propuestos por el est´andar MPEG4 . . . 58

2.33. Ejemplo de desplazamiento representado como vectores. . . 59

2.34. Estimaci´on de la posici´on de un objeto basado en la memoria . . . 60

2.35. Evoluci´on de anchura y altura durante la acci´on de caminar . . . 61

2.36. Estad´ısticos muestrales usados como caracter´ısticas . . . 63

2.37. Funcionamiento SVM lineal . . . 66

2.38. Ejemplos de estrategias para resolver el problema de la correspondencia . . 67

2.39. Informaci´on de posici´on y de color asociada a los sujetos seguidos . . . 68

2.40. Asignaci´on de identidades a los sujetos . . . 69

3.1. Esquema del sistema “Seguimiento de M´ultiples Objetos Utilizando Filtros de Part´ıculas y Algoritmos Mem´eticos” . . . 73

4.1. Esquema del sistema “A Memory-Based Particle Filter for Visual Tracking through Occlusions” . . . 84

5.1. Esquema del sistema “Multiple and variable target visual tracking for video-surveillance applications” . . . 97

6.1. Esquema del sistema “Differencial optical flow applied to automatic facial expression recognition” . . . 115

7.1. Esquema del sistema “Human Action Recognition Based on Tracking Fea-tures” . . . 128

(13)

Cap´ıtulo 1

Introducci´

on

1.1. Motivaci´

on, hip´

otesis y objetivos

1.1.1. Motivaci´

on

El seguimiento de personas en secuencias de imágenes y la interpretación automática de las actividades que desarrollan es una tarea que tiene una gran variedad de aplicaciones en campos como v´ıdeo vigilancia [1], interacción persona-ordenador [2], análisis de la técnica deportiva [3], etc. El desarrollo de sistemas computacionales capaces de interpretar una secuencia de imágenes y extraer de ella una información veraz, útil, compacta y cercana al lenguaje natural, es un área de conocimiento muy activa en la que se aúnan esfuerzos de investigadores de diferentes disciplinas [4].

El presente trabajo de Tesis Doctoral se enmarca en el desarrollo de sistemas para tratar este problema. Las siguientes secciones est´an dedicadas a presentar los conceptos fundamentales de la propuesta.

Seguimiento visual

El seguimiento de objetos en secuencias de imágenes es un área establecida dentro de la visión artificial, que consiste en la estimación de la posición de uno o varios objetivos (personas, veh´ıculos, etc.) que se mueven en la escena [5]. Históricamente, dentro de los problemas de seguimiento visual se han establecido diferentes categor´ıas en función del enfoque con el que se aborden. As´ı, es usual distinguir entre seguimiento de múltiples objetos, seguimiento de objetos deformables, puntos de interés, personas, etc., todos ellos de relevancia para esta Tesis Doctoral. La mayor´ıa de las aplicaciones potenciales de esta tarea requieren que los algoritmos de seguimiento sean robustos y eficientes y, por tanto, se han desarrollado gran cantidad de trabajos en la literatura que se enfrentan al

(14)

problema, utilizando diferentes técnicas algor´ıtmicas [6, 7]. En este trabajo, el problema del seguimiento visual se ha abordado desde dos puntos de vista. El primero es el de la estimación secuencial, que trata los problemas desde la óptica del modelado bayesiano secuencial y uno de sus representantes más populares es el filtro de part´ıculas (PF), propuesto por Gordon, Salmond y Smith [8]. El segundo punto de vista es el de los métodos de optimización que se especializan en la resolución aproximada de problemas y en la combinación de métodos probabil´ısticos y evolutivos [9]. El seguimiento visual obtiene información que es susceptible de ser tratada con técnicas de aprendizaje automático y conocimiento experto entre otras.

Estimaci´on secuencial

Para inferir acerca del estado de un sistema que evoluciona a lo largo del tiempo, se requieren al menos dos modelos: (i) el modelo del sistema, que describe la evolución del estado del sistema en el tiempo y (ii) el modelo de medida, que describe la relación que existe entre las medidas y el estado del sistema [10]. En el marco de trabajo bayesiano aplicado a la estimación dinámica del estado de un sistema, se intenta construir una es-timación de la función de densidad de probabilidad (pdf) posterior del estado. Una vez conocida la pdf, se puede calcular un estimado del estado del sistema de acuerdo con un criterio determinado, as´ı como una medida de la precisión del estimado. Cuando sea necesario calcular un estimado cada vez que se recibe una medida, la solución convenien-te es un filtro recursivo. Tal filtro consisconvenien-te, esencialmenconvenien-te, en las etapas de predicción y actualización. El problema descrito de este modo recibe el nombre de problema del filtra-do bayesiano [11]. Por norma general, es imposible determinar anal´ıticamente estas pdf, exceptuando casos contados. Por esta razón, existe un significativo número de trabajos dedicados a la obtención de modelos aproximados y métodos de integración numérica, como el filtro de part´ıculas [8].

Optimizaci´on

(15)

1.1. MOTIVACI ´ON, HIP ´OTESIS Y OBJETIVOS 3

un tiempo que pueda asumirse [12]. De entre todos los m´etodos aproximados destacan las metaheur´ısticas por su eficiencia, efectividad y flexibilidad. ´Estas se han aplicado con ´

exito a una gran variedad de problemas de optimizaci´on [13, 14, 15].

Aprendizaje autom´atico

El aprendizaje automático es una disciplina cient´ıfica que se ocupa del diseño y desa-rrollo de algoritmos que permiten a los ordenadores aprender comportamientos basados en una serie de ejemplos [16]. Un objetivo importante de estos algoritmos consiste en aprender a reconocer automáticamente patrones complejos y tomar decisiones inteligen-tes sobre una base de datos de ejemplos que se usa para entrenar y probar el sistema [17]. La dificultad radica en el hecho de que el conjunto de todos los posibles comportamientos suele ser demasiado grande para ser cubierto por el conjunto de ejemplos observados (da-tos de entrenamiento). Por lo tanto el algoritmo debe generalizar a partir de los ejemplos dados, con el fin de ser capaz de producir una salida útil en los casos nuevos. Este área es interdisciplinar y presenta conexiones en teor´ıa de la probabilidad, estad´ıstica, recono-cimiento de patrones, ciencias de la computación teórica, entre otras. Los algoritmos de reconocimiento de patrones tienen como uno de sus objetivos relacionar cada uno de los datos de entrada con la clase a la cual pertenecen [18]. En la literatura se puede encon-trar gran cantidad de sistemas que incluyen algoritmos de aprendizaje automático para el reconocimiento de actividades humanas [19, 20, 21], aunque se ha planteado también la necesidad de incluir en dichos sistemas una cierta cantidad de conocimiento del dominio.

Conocimiento experto

(16)

1.1.2. Hip´

otesis

A continuación se formulan las hipótesis que se establecen como base de la investigación desarrollada en este trabajo de Tesis:

1. La combinación de estrategias de optimización y adaptación aumenta la eficiencia en la búsqueda de soluciones de calidad para el problema del seguimiento visual.

2. Los algoritmos de estimaci´on secuencial permiten aproximar los estados futuros de un sistema din´amico a partir de un estado conocido.

3. Las metaheur´ısticas constituyen un método para resolver problemas de optimiza-ción que posibilita la adaptación mediante la combinación de soluciones entre otras técnicas.

4. La combinación de los métodos anteriores proporciona mecanismos para mejorar el rendimiento de un sistema para la resolución de problemas de seguimiento visual.

5. El uso de conocimiento experto sobre las actividades humanas y expresiones facia-les permite definir un conjunto de caracter´ısticas suficientes para discriminar un subconjunto de ´estas en un entorno parcialmente controlado.

6. Haciendo uso de informaci´on procedente de un m´etodo de seguimiento visual, lo suficientemente preciso, es posible definir un conjunto de caracter´ısticas suficientes para discriminar actividades humanas y expresiones faciales.

1.1.3. Objetivos

El objetivo principal de esta Tesis Doctoral se fundamenta en las hip´otesis y se puede enunciar como sigue:

“Avanzar en el desarrollo de estrategias basadas en información visual, orientadas al diseño y desarrollo de sistemas de visión artificial para el reconocimiento de activida-des humanas, haciendo uso de técnicas h´ıbridas de optimización dinámica y algoritmos heur´ısticos con el objetivo de obtener métodos eficientes y eficaces.”

Y haciendo uso de estos m´etodos:

(17)

1.1. MOTIVACI ´ON, HIP ´OTESIS Y OBJETIVOS 5

Este objetivo se divide en distintos subobjetivos que se enuncian a continuaci´on:

1. Realizar una revisión y estudio de los trabajos publicados en el área del reconoci-miento de actividades humanas, el seguireconoci-miento visual y las aplicaciones prácticas de las mismas.

2. Desarrollar distintos métodos que hibriden estrategias de estimación secuencial y op-timización heur´ıstica en el ámbito del seguimiento visual y estudiar su rendimiento, exactitud y precisión.

3. Estudiar el rendimiento cualitativo de diferentes caracter´ısticas en el reconocimiento de actividades humanas.

4. Dise˜nar e implementar diferentes sistemas aplicando los m´etodos y algoritmos pro-puestos.

5. Validar los modelos propuestos, aplicando los sistemas desarrollados a la resolución de problemas de reconocimiento de actividades humanas. En concreto, se pretende resolver los siguientes problemas de interés práctico:

a) Gesti´on de las situaciones de oclusi´on durante el seguimiento visual.

b) Seguimiento de m´ultiples objetos.

c) Seguimiento de personas y grupos (como caso especial del seguimiento de m´ ulti-ples objetos).

d) Reconocimiento de expresiones faciales.

e) Extracci´on de caracter´ısticas a partir del seguimiento visual para su uso en reconocimiento de actividades humanas.

f) Evaluar la adecuaci´on de distintos conjuntos de caracter´ısticas para el recono-cimiento de actividades humanas.

6. Comparar el rendimiento cualitativo de los sistemas desarrollados con otros similares descritos en la literatura.

7. Analizar los resultados obtenidos y extraer conclusiones sobre el trabajo de investi-gaci´on desarrollado.

(18)

9. Desarrollar una memoria de investigaci´on que exponga las aportaciones del trabajo realizado.

1.1.4. Estructura del documento

El presente documento está básicamente estructurado en dos partes. En la primera se presenta un resumen del estado del arte del reconocimiento de actividades humanas y las distintas etapas que la componen, tales como preproceso de la imagen, seguimiento visual, extracción de caracter´ısticas, asociación de datos y generación de la descripción textual. Finalmente se presentan las bases de datos estándar utilizadas en este trabajo (Cap´ıtulo 2).

La segunda parte corresponde a los art´ıculos en los que se basa este trabajo de tesis (Cap´ıtulos 3 al 8) y que se indican a continuaci´on: En el Cap´ıtulo 3 se incluye el art´ıculo

(19)

Cap´ıtulo 2

Reconocimiento de actividades

humanas

El objetivo de los sistemas de análisis del comportamiento humano consiste en detec-tar, reconocer y realizar seguimiento visual a sujetos de interés en secuencias de imágenes, as´ı como comprender y describir su comportamiento [26, 27, 28]. Se trata de un proble-ma arduo en el que se presentan patrones espacio-temporales generados por un sisteproble-ma dinámico complejo y no lineal: el ser humano. Una descripción completa de este siste-ma requiere la enumeración de todas las variables, sus interrelaciones, las ecuaciones que controlan su evolución y un conjunto de condiciones que debe satisfacer el sistema [29].

Históricamente, el reconocimiento de actividades humanas se ha dividido en distin-tas subareas tales como reconocimiento de gestos [30, 31], reconocimiento de expresiones faciales [32], reconocimiento de acciones e interacciones [33] y reconocimiento del com-portamiento [26]. Los métodos usados en estas subareas difieren aunque, en general, la aproximación al problema es similar.

Los or´ıgenes de este área se remontan a 1860, cuando los fotógrafos Etienne Jules Marey y Eadweard Muybridge empezaron los primeros estudios de los que se tiene noticia relacionados con la descripción visual de actividades humanas y animales. Dicho estudio consist´ıa en fotografiar sujetos en movimiento para estudiar principalmente los aspectos art´ısticos de la locomoción, y dieron lugar a la publicación del libro “La Machine Ani-male” en 1873 y “Le Mouvement” en 1894, donde se presentan secuencias detalladas de locomoción como la que aparece en la Figura 2.1 en la cual se muestra una secuencia de salto.

Los métodos de Marey y Muybridge dieron lugar a nuevas investigaciones, donde cabe destacar la presentada por Hubbard y Stetson en 1938 [34]. Se grababan acciones humanas usando un cinematógrafo y se relacionaba la acción con las deformaciones musculares

(20)

Figura 2.1: Secuencia de salto parte de los estudios de Marey y Muybridge parte del trabajo “Le Mouvement”.

presentes en el sujeto. En 1958 Barnes publica el libro Motion and Time Study [35] donde se describen mejoras para entornos industriales basadas en el estudio de actividades humanas en cadenas de montaje.

(21)

9

reconocimiento autom´atico de actividades humanas.

Figura 2.2: Esquematizaci´on del experimento de Johansson en 1973 [36] donde se presenta a un sujeto caminando (a) y corriendo (b) con las correspondientes configuraciones de puntos luminosos.

En 1977 Cutting y colaboradores presentaron trabajos ampliando las ideas de Johans-son, demostrando que un observador, en las mismas condiciones que en el experimento anterior, pod´ıa reconocer la identidad de la persona o el sexo [37, 38].

Con el paso del tiempo, los trabajos que se pueden encuadrar en ámbitos art´ısticos o del área de la psicolog´ıa dejan paso a otros más técnicos, como por ejemplo, el trabajo de Akita [39], publicado en 1984, en el cual se intenta realizar seguimiento visual de partes del cuerpo usando un modelo del mismo. Las partes que se reconocen son: piernas, cabeza, brazos y tronco. En este método se usa la correlación entre los movimientos de las distintas partes, para estimar la posición de cada una con respecto a las demás, y por último, se realizan simplificaciones tales como asumir que la segmentación se realiza correctamente o que el movimiento realizado se conoce de antemano.

A finales de los años 90 se presenta una serie de trabajos que sientan las bases necesarias para el reconocimiento de actividades humanas, bien por las técnicas que definen o por los conceptos que presentan. Algunos de los más relevantes se reportan a continuación.

(22)

proponen considerar la evolución de los parámetros del sistema como una curva y usar un método de ajuste de curvas para el reconocimiento de actividades. En la Figura 2.3 se observa el funcionamiento del sistema presentado durante el seguimiento de una pierna en distintas posiciones.

Figura 2.3: Seguimiento de una pierna humana, Ju y colaboradores [40].

En el trabajo de Haritaoglu, Harwood y Davis [41], se emplea una combinación de métodos de seguimiento y análisis, que incluyen el template matching y la predicción de movimiento, para localizar personas y segmentar algunas partes de interés (torso, cabeza y extremidades). Se extrae información global de la silueta del individuo, as´ı como local de las distintas partes del cuerpo, para crear modelos rectangulares de los sujetos y, posteriormente, se aplica el método de suma de diferencias absolutas para clasificar acciones de personas en categor´ıas conocidas, tales como estar de pie, sentado, gatear o estar tumbado.

(23)

11

Olson y Brill [43] describen un sistema de v´ıdeo vigilancia que cuenta con un método para detectar, seguir y reconocer el comportamiento de un único sujeto. Inicialmente se calcula la velocidad de las regiones móviles entre fotogramas y se propaga la región en el fotograma siguiente. A continuación, se aplica el criterio de vecinos más cercanos para decidir qué posición es la más veros´ımil para situar la nueva región de interés. Las relaciones y movimientos entre regiones de interés son las caracter´ısticas usadas para reconocer las distintas acciones. Con este sistema la tasa de detección de eventos es del 95 % y se obtiene un seguimiento plausible del sujeto en el 88 % de las ocasiones.

El área ha seguido creciendo y madurando, dando lugar a multitud de trabajos de ca-lidad. Por ejemplo, Ben-Arie y colaboradores [44] proponen un método de reconocimiento de actividades que hace uso de un conjunto reducido de fotogramas para identificar la ac-ción realizada en una secuencia de v´ıdeo. Se plantea que las acciones se pueden representar como conjuntos de poses y vectores de velocidad para las principales partes del cuerpo (manos, piernas y torso). La información se almacena en tablashash multidimensionales y el reconocimiento se produce indexando los datos adquiridos y comparándolos con datos protot´ıpicos de cada actividad. El sistema es capaz de identificar entre 8 distintas acciones (saltar, arrodillarse, recoger algo, dejar algo, correr, sentarse, estar de pie y caminar) sin cometer ningún error en las 40 secuencias estudiadas.

En el trabajo de Efros y colaboradores [45] se detalla un sistema de reconocimiento de acciones humanas a gran distancia, en el que se emplea el análisis de flujo óptico de los objetos seguidos. Para la clasificación se comparan los descriptores obtenidos con una base de datos de secuencias anotadas de acciones, usando una medida de similitud, basada en el marco de los vecinos más cercanos. En dicho trabajo, se consideran tres bancos de datos distintos: ballet, tenis y fútbol; obteniéndose resultados dispares que var´ıan entre un 65 % de reconocimiento, en el caso del tenis, y un 87 % en el caso del ballet.

Robertson y Reid [27] se inspiran en el estudio de Efros y colaboradores y modelan las acciones con vectores de caracter´ısticas que contienen información cinemática y codifican las reglas que definen acciones mediante Modelos Ocultos de Markov [46] (Hidden Markov Models, HMM). El reconocimiento se implementa calculando la similitud entre una acción detectada y el conjunto de acciones predefinidas representadas por un HMM. En este trabajo se obtiene un 81 % de acierto en la detección en la secuencia de tenis, lo cual, representa una mejora considerable con respecto al trabajo previamente descrito.

(24)

clasificar las acciones realizadas. Las caracter´ısticas propuestas se pueden adaptar al ta-maño, frecuencia y velocidad de los patrones de movimiento y, de esta forma, reconocer patrones de movimiento complejos. Para las acciones consideradas se obtiene un reconoci-miento correcto de un 71 %. El bajo porcentaje se debe, en parte, a que se consideran tres acciones muy similares: caminar, trotar y correr. La importancia de este trabajo no solo radica en el método propuesto, sino también en la base de datos que se propone, conocida como KTH1 _{y de gran relevancia en el ´}_{area de conocimiento.}

Park y Aggarwall [49] proponen un método para el reconocimiento de interacciones entre dos personas usando una red bayesiana jerárquica. Inicialmente se segmentan las partes del cuerpo y se modelan mediante elipses. Posteriormente, se hace seguimiento visual y, a continuación, la red bayesiana se encarga de estimar la posición de las mismas e integrarlo para registrar la posición corporal completa. Con esta estrategia se obtiene una tasa de acierto del 78 %, que se considera muy alta debido a que el reconocimiento de interacciones tiene gran complejidad. Las primeras etapas de este sistema se muestran en la Figura 2.4.

Figura 2.4: Extraido de [49] (a) imagen inicial, (b) imagen segmentada y (c) modelado con elipses.

En el art´ıculo de Dollar y colaboradores [50] se demuestra que la extensión directa de los puntos caracter´ısticos a tres dimensiones no es adecuada y se propone el uso de cuboides caracter´ısticos 2. Los descriptores de estos cuboides contienen información espacial (como valores de intensidad) y temporal (como el flujo óptico). En el trabajo se argumenta que el uso de este tipo de caracter´ısticas ayuda a mejorar la robustez frente al ruido y la variación en la pose. Basándose en estas caracter´ısticas, se crea un sistema de reconocimiento de actividades que trata la secuencia de v´ıdeo como un volumen tridimensional, del que se extraen cuboides caracter´ısticos que se clasifican antendiendo a actividades protot´ıpicas mediante dos clasificadores, uno de tipo SVM y otro de vecinos más cercanos. El sistema se aplica a un conjunto de datos de expresiones faciales, donde se consigue un 72 % de

(25)

13

acierto y, posteriormente, a un conjunto de datos de comportamiento de ratones con una tasa de acierto superior al 80 %.

Kellokumpu [51] presenta un sistema que es capaz de reconocer 15 actividades en tiempo real usando una cámara fija. El sistema se basa en la descripción de las actividades como una secuencia de posturas discretas, las cuales se derivan de descriptores afines invariantes. Esta representación tiene el efecto de hacer el reconocimiento más robusto con respecto a los cambios de dirección y la distancia obteniendo una tasa de acierto de un 83 % en el conjunto de datos considerado.

Más recientemente, Ryoo y Aggarwal [52] proponen un método basado en gramáticas independientes del contexto para representar y clasificar acciones e interacciones humanas compuestas de acciones simples. Este sistema procesa las secuencias de imágenes para extraer poses y gestos que permiten reconocer ocho tipos de interacciones de alto nivel entre dos sujetos. Las acciones reconocidas son: acercarse, alejarse, apuntar con el dedo, darse la mano, abrazar, dar un puño, dar una patada y empujar. Los autores reportan un porcentaje de acierto del 91 % mejorando significativamente los resultados obtenidos por los trabajos previos.

En el art´ıculo de Mart´ınez-Tomás y colaboradores [53] se define una arquitectura de niveles de descripción para resolver el problema de relacionar los descriptores a distintos niveles. Se consideran el nivel geométrico, de objetos y de actividades. Para ello usan un enfoque constructivista basado en técnicas de inteligencia artificial que pretende establecer una correspondencia entre las ontolog´ıas de los múltiples niveles. El sistema se prueba en el contexto de la v´ıdeo vigilancia y, en concreto, de la detección de objetos abandonados. Lu y colaboradores [54] presentan un sistema que permite seguir y reconocer las ac-ciones de múltiples jugadores de hockey. El sistema presenta varias contribuciones des-tacables: en primer lugar, se lidia con el movimiento de la cámara, en segundo lugar se representa a los jugadores con histogramas de gradientes orientados (Histogram of Oriented Gradients, HOG) [55], y usa un filtro de part´ıculas modificado llamado boosted particle filter [56] en el que la distribucióna posteriori se aproxima mediante una mezcla de gaussianas y la distribución propuesta se calcula utilizando Adaboost [57]. Finalmente, el reconocimiento de actividades humanas se lleva a cabo usando un clasificador disperso con una medida de similitud de movimiento que trabaja directamente sobre los descripto-res HOG. El sistema obtiene una tasa de aciertos del 76 %, considerada muy alta debido al nivel de complejidad del problema.

(26)

acciones cuando existe variación del punto de vista, iluminación, etc. Las caracter´ısticas empleadas son cuboides caracter´ısticos e imágenes rotadas que representan la posición y la deformación percibida del actor. La relación entre las caracter´ısticas se modela como un grafo, y la fortaleza de cada relación entre entidades se expresa mediante el valor del peso de las aristas. El conjunto de caracter´ısticas se convierte en un punto en un espacio k-dimensional y se clasifica por distancia eucl´ıdea con otras posiciones cuya clase es co-nocida. En el trabajo se presentan experimentos con dos bases de datos, Weizzman (89 % de acierto) e IXMAS (78 % de acierto), aunque estos resultados no son comparables entre s´ı debido a las diferencias entre las bases de datos.

Ali y Shah [59] presentan un método basado en la extracción de caracter´ısticas a partir del flujo óptico. Las caracter´ısticas empleadas incluyen magnitudes propias de la mecánica de fluidos, tales como la divergencia, vorticidad, simetr´ıa y antisimetr´ıa de los campos de flujo, el segundo y tercer invariante principal de los gradientes de flujo, el tensor de la velocidad de deformación y el tercer invariante del tensor del ratio de rotación. Algunas de estas caracter´ısticas se muestran en la Figura 2.5. Cada caracter´ıstica se computa una vez por cada fotograma generando un patrón espacio-temporal, que se reduce usando análisis de componentes principales para finalmente aplicar un clasificador de tipoMultiple instance learning [60]. El algoritmo se aplica a dos bases de datos distintas: Weizzman con un 96 % de acierto y KTH con un 88 % de acierto.

Figura 2.5: Algunas caracter´ısticas del movimiento de agacharse, tal como se muestran en el art´ıculo de Ali y Shah [59].

(27)

15

silueta a lo largo del tiempo en forma de invariantes geométricos y momentos de Zernike. Una acción se representa como una combinación de las caracter´ısticas extra´ıdas y la clasificación se lleva a cabo usando modelos ocultos de Markov sobre dicho conjunto. Los experimentos se realizan con la base de datos KTHDB y obtienen tasas de reconocimiento de entre 85 % y 90 %.

El algoritmo de SIFT (Scale-invariant feature transform) [62] tiene como objetivo detectar y describir caracter´ısticas locales en imágenes. Scovanner y colaboradores [63] proponen usar una variación de este algoritmo llamado 3D SIFT para reconocer activi-dades humanas. Tratando el v´ıdeo como un volumen de imágenes, se localizan puntos de interés y sobre éstos se calcula un descriptor SIFT que codifica información espacio temporal. Estos descriptores se introducen en una bolsa de palabras (Bag of Words o BoW), donde se agrupan por similitud y, finalmente, se entrena un clasificador SVM para reconocer nuevas acciones que se presenten al sistema. Los autores reportan una tasa de acierto del 83 % con la base de datos de Weizzman, por tanto, la contribución de este trabajo no es tanto obtener un buen rendimiento, sino adaptar los descriptores SIFT a la solución de este problema.

Yeffet y colaboradores [64] presentan un método que se basa en la combinación de patrones binarios locales (Local Binary Patterns o LBP [65]) con invariantes de apariencia. Las secuencias se dividen en partes de igual duración y se calculan histogramas acumulados para cada parte que servirán de entrada a un clasificador SVM. Este método ha probado ser extremadamente eficiente y ha sido probado con gran variedad de bases de datos entre ellas: HOHA donde obtiene tasas de acierto de hasta un 58 % de acierto, UCF (79 % de acierto) y KTH (90 % de acierto).

Usando el marco conceptual definido por Martinez-Tomás, Folgado y colaboradores [66] presentan un modelo de representación de humanos basado en bloques ideado expl´ıci-tamente para el reconocimiento de actividades humanas. Asociado al modelo se presenta un conjunto de caracter´ısticas que incluyen el punto superior e inferior del blob, los pun-tos extremos del blob en cada uno de los bloques, el centro de masas, el eje de simetr´ıa o los ángulos que forman brazos y piernas. El mecanismo es capaz de reconocer ciertas situaciones como acarrear un objeto, girar, levantar los brazos o agacharse, presentes en la base de datos CASIA [67] obteniendo tasas de acierto cercanas al 92 %.

(28)

Figura 2.6: Puntos significativos y par´ametros primarios del modelo de Folgado y colabo-radores [66].

de flujo óptico. Adicionalmente, se introduce el uso de un nuevo tipo de descriptores basados en histogramas de frontera de movimiento, los cuales mejoran el comportamiento del sistema en situaciones en que la cámara no es fija. En la Figura 2.7 se muestra una representación gráfica de la información que se codifica en dichos descriptores.

Figura 2.7: Informaci´on codificada en los descriptores del trabajo de Wang y colaboradores [69].

(29)

17

obtenidas mediante técnicas de aprendizaje profundo3, como el apilado4 o convolución, se combinan con representaciones jerárquicas y de esta forma se obtiene un descriptor que permite clasificar actividades incluso en situaciones no controladas. Por otra parte Ji y colaboradores [71] han extendido el modelo de redes neuronales convolucionales ( Convo-lutional Neural Networks, CNN) para trabajar con espacios tridimensionales y obtener caracter´ısticas automáticamente a partir de la secuencia de v´ıdeo.

Para mejorar los resultados de enfoques bien establecidos se ha optado por el uso de distintos tipos de sensores, como es el caso de Wang y colaboradores [69], en que se hace uso de sensores de profundidad para construir un modelo de representación de actividades humanas llamadoActionlet Ensemble Model. El modelo de representación descrito incluye dos tipos de caracter´ısticas: la posición tridimensional de ciertas articulaciones y patrones de ocupación local del espacio, con las cuales se pretende capturar la variación intraclase de las acciones, as´ı como gestionar el ruido inherente a los sensores utilizados.

El uso de información de profundidad ha aumentado recientemente, en parte, debido a la comercialización del sensor Kinect [72]. Se han presentado trabajos de relevancia relacionados con el reconocimiento de actividades humanas como el de Shotton y cola-boradores [73], que presenta un sistema de estimación de pose basado en imágenes con información de profundidad obtenidas por este sistema. Biswas y colaboradores [74] ex-ploran el reconocimiento de gestos y, posteriormente, Sung y colaboradores [75] se centran en el reconocimiento de actividades humanas.

Las novedades en el campo no se circunscriben únicamente a la construcción de nuevos algoritmos y técnicas. Como resultado del uso de nuevos sensores, se ha hecho cada vez más importante disponer de bases de datos estándar para comparar los trabajos de distintos investigadores (la Sección 2.9 está dedicada a la descripción de las bases de datos utilizadas en esta Tesis Doctoral). BingBing y colaboradores [76] presentaron una base de datos que combina información de color y profundidad llamada RGB-HuDaAct que contiene secuencias representando actividades cotidianas. La base de datos contiene además dos conjuntos de descriptores, en el primero se presentan puntos de interés espacio-temporales y en el segundo imágenes que representan el desarrollo del movimiento.

Se han presentando trabajos novedosos en que se emplean sensores ´opticos, entre ellos el de Guha y Ward [77]. Los autores proponen entrenar diccionarios sobrecompletos5

usan-3_{deep learning} 4_stacking

(30)

do caracter´ısticas espacio temporales extra´ıdas de los v´ıdeos. Estos diccionarios se basan en la idea de que un dato puede ser representado como una combinación de funciones base y se ha demostrado que pueden ser usados como un clasificador [78]. Usando los conceptos anteriores se propone un nuevo tipo de descriptores conocidos como Local Motion Pat-tern Descriptors, que se construyen modelando el v´ıdeo como un volumen y extrayendo regiones que contienen información significativa. Este dato se puede representar como una combinación lineal de un número reducido de elementos de los diccionarios. Para terminar presentan una nueva contribución que consiste en el uso de proyecciones aleatorias [79] para reducir la dimensionalidad del problema.

El desarrollo de nuevos descriptores es un campo en el que se han presentado muchos avances en los últimos tiempos. Wang y colaboradores [80] basan su sistema en descriptores de trayectoria y de frontera de movimiento para mejorar la representación del fondo de la escena y el contexto. Reddy y Shah [81] prefieren el uso de la información de p´ıxeles móviles y estacionarios en un marco probabilista.

Desde una perspectiva amplia, los sistemas de reconocimiento de actividades humanas, son un componente de sistemas mayores que buscan interpretar actividades, comporta-mientos y situaciones semánticamente en un escenario en el cual se cuenta con múltiples sensores. Un ejemplo de este tipo de sistemas es el presentado por Rivas-Casado y co-laboradores [82]. El sistema presenta un agente perceptivo que procesa la información sensorial, entre la que se incluye la información visual. Un agente de toma de decisio-nes que identifica cambios significativos en las señales de los sensores y los convierte en eventos simples. Finalmente, el agente de composición identifica patrones de eventos y los organiza como eventos compuestos. De esta forma, al combinar información de múltiples fuentes, se mejora el comportamiento del sistema en cuanto a la fiabilidad que presenta en entornos cr´ıticos como puede ser la v´ıdeo vigilancia.

2.1. Clasificaci´

on general de m´

etodos de

reconoci-miento de actividades humanas

En la literatura se pueden encontrar múltiples intentos de clasificar los métodos de reconocimiento de actividades humanas y crear taxonom´ıas que permitan ordenarlos. Una clasificación posible es aquélla que divide los trabajos según su campo de aplicación. A continuación, se describen brevemente algunas de las áreas en las cuales la aplicación del reconocimiento visual de actividades humanas ha sido más intenso:

(31)

2.1. CLASIFICACI ´ON GENERAL DE M´ETODOS DE RECONOCIMIENTO DE

ACTIVIDADES HUMANAS 19

permiten el reconocimiento de humanos basándose en caracter´ısticas f´ısicas o de su comportamiento. Uno de los métodos más usados es el análisis de la marcha humana (gait analysis) [83].

Análisis de contenido de v´ıdeo: Tiene por objetivo el procesamiento y etiquetado automático del contenido del v´ıdeo as´ı como la generación de un resumen textual del mismo [84].

V´ıdeo vigilancia: Persigue el reconocimiento de situaciones anómalas y la continua monitorización de espacios de interés. Estos sistemas pretenden reemplazar a los métodos de v´ıdeo vigilancia tradicionales, basados en la supervisión humana, que se han demostrado ineficaces cuando el número de cámaras excede las capacidades de los operadores humanos para monitorizarlas [7].

El estudio de la interacción humano-computadora, entendido como el diseño, eva-luación e implementación de sistemas computacionales interactivos para el uso de humanos [85], también es un campo de aplicación del reconocimiento visual de acti-vidades humanas en cuanto que incluye áreas tales como el reconocimiento de gestos [86], expresiones faciales [87], etc.

(32)

de reconocimiento de actividades humanas funcionan siguiendo un enfoque que incluye varias etapas y la comunicación entre ellas. Los sistemas de reconocimiento de actividades humanas se pueden describir atendiendo a las siguientes etapas: (1) preproceso de la imagen, (2) seguimiento visual, (3) extracción de caracter´ısticas, (4) clasificación de datos y finalmente (5) generación de la descripción textual [90, 24]6_{. En la Figura 2.8 se muestra}

un esquema de las etapas mencionadas y la Tabla 2.1 recoge una relaci´on de los trabajos citados en el estado del arte donde se detallan las etapas de acuerdo al esquema anterior.

Figura 2.8: Diagrama de etapas de un sistema de reconocimiento de actividades humanas.

2.2. Preproceso de la imagen

Gonzalez y Woods [94] define el preproceso de la imagen como un conjunto de proce-sos de bajo nivel que incluyen operaciones primitivas y cuyo objetivo es reducir el ruido, mejorar el contraste o los bordes de la imagen, etc. En esta secci´on, entenderemos por preproceso, la etapa que incluye los algoritmos que se ejecutan como paso previo al segui-miento visual y que tienen como objetivo mejorar el rendisegui-miento de las etapas posteriores.

2.2.1. Normalizaci´

on de la imagen

En algunas ocasiones, los datos con los que se trabaja tienen diferentes escalas debido a efectos de la perspectiva, de las condiciones de la adquisici´on o incluso debido a que los objetos representados tienen un tama˜no distinto, tal como puede suceder con los rostros de las personas. Este es el caso presentado en el trabajo “Differential optical flow applied to automatic facial expression recognition” (Cap´ıtulo 6) donde se describe un sistema que busca reconocer las expresiones faciales que realizan distintos individuos.

(33)

(34)

(35)

2.2. PREPROCESO DE LA IMAGEN 23

Utilizando estos puntos caracter´ısticos, se puede calcular el ángulo de inclinación de la cara con respecto a la vertical y obtener un recuadro que contenga la región central de la cara. Con estos datos es posible alinear y redimensionar la imagen con la transformación af´ın adecuada tal y como se muestra en la Figura 2.9.

En el primer fotograma se selecciona manualmente el punto correspondiente a la nariz del sujeto. Este punto será considerado por el algoritmo de seguimiento y su desplaza-miento se usa para detectar y, en su caso, corregir el movidesplaza-miento de la cabeza aplicando una transformación af´ın. Finalmente, se aplica un reescalado a la imagen haciendo uso de una pirámide Gaussiana en dos niveles. Esta transformación, descrita originalmente por Burt [95], produce una reducción en el tamaño de la imagen como se muestra en la Figura 2.10. El procesamiento de una imagen de menor tamaño implica que se deben tener en cuenta un menor número de p´ıxeles y, por tanto, se reduce la carga computacio-nal. Los métodos de pirámide han demostrado ser de gran valor en el reconocimiento de actividades humanas [96] y son la base de trabajos de la literatura [97, 98].

Figura 2.9: La imagen (a) es recortada, redimensionada y girada hasta convertirse en la imagen (b) usando los puntos caracter´ısticos mostrados en rojo.

2.2.2. Imagen integral e imagen integral restringida

Durante la etapa de seguimiento es común que se calcule el valor acumulado de áreas que por alguna razón revisten un interés especial. Este cálculo puede representar una carga considerable para el sistema. La imagen integral, también conocida como tabla de ´

(36)

Figura 2.10: Descripción visual de la pirámide de imágenes.

seguimiento. Este método fue originalmente propuesto en el contexto de la generación de gráficos por computador [99] y posteriormente fue aplicado por Viola y Jones para acelerar cómputos sobre regiones en el problema de la detección de objetos [100].

El algoritmo propone generar, a partir de la imagen original, otra imagen donde en cada p´ıxel I(m, n) se almacene la suma de los valores de todos los p´ıxeles anteriores incluyendo al p´ıxel en cuesti´on. Es decir, p´ıxeles p(i, j) tales que cumplan que 1 _≤i_≤n y 1_≤j _≤m:

I(n, m) = X

1≤i≤n

1≤j≤m p(i, j)

Usando esta imagen integral es posible calcular valor acumulado de un área rectangular dada en un tiempo constante. Tomando la nomenclatura de la Figura 2.11, se puede obtener el peso del rectángulo determinado por los vértices (A, B, C, D) de la siguiente forma:

X

Ax≤x≤Bx Ay≤y≤Dy

p(x, y) =I(Dx, Dy) +I(Ax, Ay)−I(Bx, By)−I(Cx, Cy)

(37)

2.3. OPTIMIZACI ´ON 25

Además, en el caso del seguimiento visual, se puede mejorar aún más la eficiencia de este algoritmo si el cálculo de la imagen integral se restringe a una zona de interés en lugar de considerar toda la imagen. Esta estrategia fue usada en el trabajo “Human Activity Recognition based on Kinematic Features” (ver Cap´ıtulo 8) consiguiendo realizar el cálculo de pesos hasta siete veces más rápido que usando el enfoque estándar. A este nuevo enfoque se le denomina imagen integral restringida (restricted integral image) que se considera una de las aportaciones relevantes y novedosas de este trabajo de Tesis Doctoral.

Figura 2.11: C´alculo de la suma de los valores contenidos en un ´area rectangular utilizando una imagen integral.

2.3. Optimizaci´

on

(38)

Habitualmente, un problema de optimizaci´on se formula de la siguiente manera: (

optimizar f(x)

s.t. x_∈F

donde, f : S _→ R es la funci´on objetivo que asigna a cada punto x en el espacio de soluciones S un valor, yF representa las restricciones aplicadas al problema, es decir, que determina el conjunto de soluciones factibles.

Para resolver un problema de optimización de forma algor´ıtmica es necesario definir tres elementos básicos, (1) Representación: se trata de codificar las soluciones factibles para su tratamiento en el algoritmo; (2) Objetivo: describe la tarea a realizar en forma de predicado matemático y (3) Función de evaluación o función objetivo: se encarga de asignar un valor a cada solución representando la calidad de la misma.

2.3.1. Metaheur´ısticas

Existe gran cantidad de problemas de optimizaci´on para los cuales no se conocen algoritmos que permitan su resoluci´on exacta en tiempos razonables. En algunos casos puede ser suficiente encontrar soluciones “de calidad”, aunque dichas soluciones no sean ´

optimas, siempre que el tiempo invertido en ello sea razonable [12]. Las metaheur´ısticas consituyen una familia de métodos para la resolución de problemas de optimización que siguen esta estrategia.

El término metaheur´ıstica fue usado por primera vez por Glover en 1986 [103] y hace referencia a un procedimiento genérico de alto nivel que gu´ıa a otras heur´ısticas para explorar eficientemente el espacio de soluciones o, en palabras del propio Glover, una metaheur´ıstica define un “procedimiento maestro de alto nivel que gu´ıa y modifica otras heur´ısticas para explorar soluciones mas allá de la optimalidad local”.

(39)

2.3.2. Algoritmos Mem´

eticos

Figura 2.12: Estructura general del algoritmo memético. También se puede encontrar la descripción del algoritmo en pseodocódigo en el Anexo A.

El término algoritmos meméticos (Memetic Algorithm, MA) fue acuñado por Pablo Moscato a finales de los años ochenta para denotar una serie de conceptos pertenecientes a diferentes familias, como por ejemplo, los algoritmos evolutivos o el recocido simulado [110]. Los algoritmos meméticos deben su nombre al concepto de “meme”, introducido por R. Dawkins en su libro “El gen ego´ısta” [111], para dar una explicación a la evolución cultural en analog´ıa con la genética. El principio en el que se basa esta metaheur´ıstica es la siguiente:

De la misma forma en que en una poblaci´on se trasmiten los genes de los padres a los hijos, los memes se transmiten de cerebro a cerebro de la poblaci´on.

Los MA son metaheur´ısticas poblacionales, ya que el algoritmo mantiene una po-blación de agentes que representan soluciones tentativas al problema. Los agentes pueden mejorar durante su vida mediante búsqueda local y establecen relaciones de cooperación y competición con otros agentes de la población. Este proceso de competición y cooperación se asemeja a los patrones de comportamiento de individuos de la misma especie [112].

(40)

Sin embargo, aunque se toman las ideas de ambos procedimientos, se introducen tram-bién otras nuevas ideas, que permiten considerarlos como diferentes e independientes [113]. Una de las caracter´ısticas diferenciadoras es que los MA incorporan todo el conocimiento del problema que se tenga disponible, en contraposición a los algoritmos genéticos, que evitan, en lo posible, considerar las caracter´ısticas particulares del problema [113, 110].

Los algoritmos meméticos también están ´ıntimamente relacionados con los algoritmos evolutivos, desde el punto de vista estructural, debido a su naturaleza poblacional [110]. Esto se ve reflejado en la similitud de los bloques de selección y mutación, siendo la diferencia su implementación. La competición viene determinada por los grandes bloques de selección, con su correspondiente reemplazo de agentes. La cooperación entre agentes puede llegar a sustituir la mutación y cruce en los algoritmos evolutivos. En la Figura 2.12 se muestra la estructura general de MA, que consta de los siguientes elementos:

1. Generación de población inicial: En los algoritmos evolutivos es habitual crear un conjunto de soluciones (una población) inicial al azar. La diferencia en algoritmos meméticos es que dichas soluciones se crean usando mecanismos más sofisticados (p. ej., una construcción heur´ıstica). Otra posibilidad es aplicar una búsqueda local a las soluciones iniciales. En la Figura 2.13 se encuentra un esquema que describe esta etapa.

2. Paso generacional: Este componente representa la parte principal del algoritmo en el que las soluciones van evolucionando. Hay tres componentes principales: selección, reproducción y actualización, tal como se aprecia en la Figura 2.14.

Selección: Esta etapa es la responsable de la competición entre los individuos de la población. Usando la información proveniente de una función de evaluación dependiente del problema (también conocida como función defittness) se valora la calidad de las soluciones y se elige una porción de las mismas para generar nuevas soluciones. Se considera que la probabilidad de selección de un individuo es proporcional a su calidad, aunque también se pueden usar funciones no proporcionales basadas en comparaciones cualitativas.

(41)

modificaciones en la soluci´on y s´olo se mantienen si el resultado presenta una mejora de la calidad.

Actualización: Este componente se encarga de reemplazar individuos de la po-blación inicial por otros generados en la etapa de reproducción. Existen m´ ulti-ples estrategias tales como reemplazar al peor individuo, al más antiguo o a uno elegido al azar [114].

3. Reinicio de la población: Este componente también está presente en los algoritmos evolutivos, pero su importancia es esencial en los meméticos debido a que conver-gen mucho más rápidamente. En el estado en que la mejora de una solución sea improbable debido a que todas las soluciones son muy similares, puede ser más con-veniente reiniciar la población que mantenerla en una región demasiado restringida del espacio de búsqueda. La importancia de este paso reside en que el conocimiento añadido al algoritmo acelera la convergencia de la población. Véase la Figura 2.15.

4. Terminación: Una vez que se ha alcanzado el número de iteraciones máximo o bien se ha conseguido una solución satisfactoria en términos de calidad, el algoritmo termina y devuelve la mejor solución encontrada.

Figura 2.13: Generación de la población inicial en un algoritmo memético.

2.3.3. Algoritmos de b´

usqueda local

(42)

Figura 2.14: Paso generacional básico en un algoritmo memético. Nótese el encadenamien-to de operadores reproductivos para crear las nuevas soluciones.

Figura 2.15: Reinicio de la poblaci´on, los mejores m individuos de la poblaci´on se man-tienen, mientras que los otros n₋m individuos son creados de nuevo.

un criterio dado. El proceso continúa hasta que ya no es posible mejorar la solución. Es decir, hasta que en la vecindad de la solución considerada no se puede encontrar ninguna solución vecina mejor [116].

(43)

2.4. ALGORITMOS DE ESTIMACI ´ON SECUENCIAL 31

el problema de la cobertura de v´ertices,k-medias, satisfacibilidad booleana, problema del viajante o la planificaci´on de enfermeras, entre otros.

Un algoritmo de búsqueda local necesita que se defina la estructura del espacio de búsqueda, la estructura de vecindad y la función objetivo. El espacio de búsqueda define el conjunto de las soluciones al problema, tanto factibles como no factibles. La vecindad define el subconjunto de soluciones que son accesibles desde una solución dada y finalmente la función objetivo define la calidad de una solución y está generalmente relacionada con el criterio de optimización.

Normalmente se definen varios vecinos para cada solución y la regla de p´ıvot determina cuál de ellos reemplazará a la solución actual [117]. Los criterios más usados son best improvement, donde la solución actual será reemplazada por la mejor entre sus vecinos y

first improvement, donde se elige al primer vecino que mejore el criterio considerado. Una instancia de un problema de optimización es un par (L, f) dondeL representa al conjunto de todas las soluciones posibles y f :L_{→ <} es una función que asigna un valor a cada solución. As´ı el objetivo de la optimización es encontrar una solución i _∈ L de tal forma que se cumpla f(i)_≥f(u) para todo u_∈L. Una descripción más detallada se encuentra en el libro de Hromkovi [118]. El algoritmo de búsqueda local se puede describir mediante la siguiente secuencia de pasos:

1. Determina una soluci´on inicial i_∈L

2. Define una vecindad de soluciones de la soluci´on inicial i

3. Busca en dicha vecindad o en una parte de ella para determinar si existe una soluci´on mejor que i

4. Si se ha encontrado una solución mejor, ésta sustituye a la solucióni y se continúa en el paso 2. En caso contrario se devuelve la solución actual

La naturaleza de una búsqueda local se determina por estos tres aspectos. Cómo se determina la solución inicial, la estructura de vecindad y cuáles son las condiciones de ter-minación del algoritmo. La Figura 2.16 muestra un ejemplo donde el espacio de búsqueda consiste en una malla tridimensional y la vecindad de un elemento está constituida por todos los elementos que están a una arista de distancia del mismo7.

2.4. Algoritmos de estimaci´

on secuencial

Una gran cantidad de problemas que se plantean en diferentes ´ambitos cient´ıficos requieren la estimaci´on del estado de un sistema que evoluciona en el tiempo utilizando

7_{En teor´ıa de grafos se considera la}_i

(44)

Figura 2.16: Representación gráfica de una iteración en un algoritmo de búsqueda local. Partiendo de la solución inicial representada por la esfera roja, se define una vecindad representada por las esferas azules y se selecciona la mejor de ellas (esfera verde) según un criterio dado.

una serie de medidas que se realizan sobre el sistema [120]. Se puede considerar que el seguimiento visual en secuencias de imágenes digitales es un caso particular de este problema donde tanto el espacio de estados como la formulación en el tiempo son discretos [120]. Los algoritmos de seguimiento visual han sido usados tradicionalmente como base de sistemas más complejos, en concreto para el reconocimiento de actividades humanas [121, 25]. A continuación, se describen el modelo de espacio de estados y el problema de la estimación secuencial como bases del filtro de part´ıculas y los algoritmos derivados presentados en este trabajo de Tesis Doctoral.

2.4.1. Espacio de estados

El estado de un sistema se puede definir como la m´ınima información necesaria pa-ra describir el comportamiento del sistema en un momento dado [122]. La cantidad de información necesaria var´ıa dependiendo de la complejidad del sistema. Por ejemplo, en la Figura 2.17 se representan gráficamente dos sistemas y la información necesaria para representar su estado en un momento dado. As´ı en (a) se representa la información ne-cesaria para conocer la posición de un tren en la v´ıa: el punto kilométrico, la dirección y la velocidad. Por otra parte en (b) se representa la información necesaria para ubicar el barco en el plano bidimensional: sus coordenadas actuales y el vector de velocidad.

(45)

-2.4. ALGORITMOS DE ESTIMACI ´ON SECUENCIAL 33

Figura 2.17: Representación del espacio de estados de dos sistemas. En (a) se representa un tren desplazándose por una v´ıa como ejemplo de un sistema en una dimensión espacial, mientras que en (b) se representa un barco en un plano como ejemplo de un sistema en un espacio bidimensional.

dimensional cuyos ejes coordenados sean x1, x2, . . . , xn. A este espacio se le conoce como espacio de estados o espacio de soluciones en el ámbito de la optimización. Análogamente el vector de observaciones z representa medidas que están relacionadas con el vector de estado a través del modelo de medida. Usando las definiciones anteriores, el modelo de espacio de estados es un conjunto determinado por la definición de un modelo de medida y un modelo de sistema que, en su formulación probabil´ıstica se puede expresar como:

1. modelo del sistema p(xt|xt−1), que describe la evoluci´on temporal del estado del

sistema

2. modelo de medida p(zt|xt), que cuantifica la relaci´on entre el estado del sistema y las medidas realizadas sobre ´el.

2.4.2. El problema de la estimaci´

on secuencial

El problema de la estimación secuencial consiste en el cálculo recursivo, con un cierto grado de confianza, del estado xt del sistema en el instante t, utilizando para ello las observaciones z1 :t = {z1, . . . , zt}. Por tanto, se calcula usando el teorema de Bayes, la función de densidad de probabilidad (en adelante pdf) p(xt|z1 :t), asumiendo que la pdf inicialp(x0|z0)≡p(x0) es conocida, ya que el vector de observaciones en el instante inicial

est´a vac´ıo. Lapdf a posteriori, p(xt|z1 :t), se calcula en dos etapas:

1. Predicción: dada lapdf en el instante t₋1, la etapa de predicción utiliza el modelo del sistema para obtener de manera recursiva lapdf a priori en el siguiente instante de tiempo. Para ello se usa la ecuación de Chapman-Kolmogorov:

p(xt|z1 :t−1) =

Z

(46)

2. Actualización: en el instantet, se dispone de una nueva medidazt que se utiliza en la actualización del estado del sistema a través del teorema de Bayes:

p(xt|z1 :t) =

p(zt|xt)p(xt|z1:t−1) p(zt|z1 :t−1)

donde la constante normalizadora

p(zt|z1 :t−1) =

Z

p(zt|xt)p(xt|z1 :t−1)dxt

depende dep(zt|xt), que representa la funci´on de verosimilitud definida en el modelo de medida.

Estas ecuaciones recurrentes conforman la base de la solución bayesiana óptima. Esta propagación recursiva de la densidad a posteriori es un resultado conceptual dado que, en general, no se puede determinar anal´ıticamente [122]. Por esta razón, existen en la literatura un número significativo de trabajos que presentan modelos aproximados de estas funciones de distribución, entre los que se encuentra el filtro de part´ıculas.

2.4.3. M´

etodos aproximados

A continuación se analizan las principales métodos que abordan la estimación secuen-cial usando métodos aproximados y que son las bases sobre las cuales se desarrolla el filtro de part´ıculas.

Estimaci´on de Montecarlo

El algoritmo de Montecarlo se atribuye a Fermi [123], pero parece tener sus or´ıgenes en el cálculo de los elementos de una matriz inversa desarrollados por von Neumann y colaboradores [124, 125]. La integración de Montecarlo es la base de todos los algoritmos secuenciales de Montecarlo y por tanto base del filtro de part´ıculas. Supóngase que se desea calcular el valor numérico de una integral multidimensional definida dada:

I = Z

q(x)dx (2.1)

(47)

I = Z

f(x)π(x)dx (2.2)

es la media muestreada:

IN = 1 N

N X

i=1

f(xi) (2.3)

Si las muestrasxi _{son independientes,}_I

N es un estimado no sesgado, de modo que por la ley de los grandes números convergerá a I. Si la varianza de f(x) es finita, el error de la estimación converge en la distribución:

l´ım N→∞

√

N(IN −I)∼ N(0, σ2) (2.4)

Este modo de proceder es válido para el cálculo de cualquier momento de una función de distribución. En el contexto de la estimación secuencial,π(x) es la densidada posteriori. En general, no es posible muestrear de forma efectiva la pdf a posteriori cuando no es gaussiana, tiene una alta dimensionalidad y no es lineal. Una posible aproximación es el método de muestreo por importancia [126].

Muestreo secuencial por importancia

El muestreo secuencial por importancia (Sequential Importance Sampling, SIS), fue propuesto inicialmente por Marshal [127]. Su idea fundamental es enfocar la atención del proceso de muestreo hacia regiones de “importancia”. Se busca con esto disminuir la cantidad de recursos que se usan en evaluar regiones del espacio que no contribuyen significativamente al resultado final. La idea de focalizar el análisis en regiones de impor-tancia es esencial para los métodos de Montecarlo cuando los modelos presentan una gran dimensionalidad [128].

La estrategia consiste en representar la función de distribucióna posteriori utilizando un conjunto de muestras con pesos asociados y estimar la situación del sistema basándose en estas muestras y pesos. Cuando el número de muestras es suficiente, esta caracterización se convierte en una representación equivalente a la descripción usual de lapdf a posteriori. En la Figura 2.18 se presenta la descripción algor´ıtmica del proceso.

Sup´ongase que se dispone de un conjunto de muestras _{xi_0:_t, w_ti, i = 1, . . . , N_} que caracteriza la pdf a posteriori p(x0:t|z1:t) donde {xit, i = 1, . . . , N} es un conjunto de muestras con pesos asociados _{wi

(48)

Figura 2.18: Diagrama algor´ıtmico del muestreo secuencial por importancia. V´ease tam-bi´en el Anexo A.

p(x0:t|z1:t)≈ N X

i=1

w_tiδ(x0:t−xi0:t) (2.5)

donde δ(_·) es la función delta de Dirac. De esta forma se obtiene una aproximación discreta de la pdf a posteriori. Los pesos se obtienen usando el principio del muestreo por importancia. En cada iteración se tienen muestras que son una aproximación de p(x0:t−1|z1:t−1) y se busca aproximar p(x0:t|z1:t) con un nuevo conjunto de muestras. Si la densidad de importancia factoriza de la siguiente forma:

p(x0:t|z1:t) =g(xt|x0:t−1, z1:t)g(x0:t|z1:t−1) (2.6)

se pueden obtener muestras xi_0:_t_∼g(x0:t|z1:t) propagando cada muestra existentex0:t−1 ∼ g(x0:t−1|z1:t−1) con el nuevo estado xti ∼g(xt|x0:t−1, z1:t).

La ecuación de actualización de los pesos expresap(x0:t|z1:t) en función dep(x0:t−1|z1:t−1), p(zt|xt) y p(xt xt−1). Utilizando la regla de Bayes, se obtiene:

p(x0:t|z1:t) =

p(zt|x0:t|z1:t−1)p(x0:t|z1:t−1) p(zt|z1:t−1) ∝

p(zt|xt)p(xt|xt−1)p(x0:t−1|z1:t−1) (2.7)

Se asume que el estado del sistema solo depende del ´ultimo estado conocido y de la ´

ultima observaci´on, es decir, g(xt|x0:t−1, z1:t) = g(xt|xt−1, zt). En este caso, es suficiente con almacenar xi

t−1 y descartar la trayectoria y el historial de observaciones. De esta

forma, el peso queda definido por:

wi_t_∝wi_t₋₁p(zt|x i

t)p(xit|xit−1) g(xi

t|xit−1, zt)

(49)

y la densidad a posteriori se aproxima como:

p(xt|z1:t)≈ N X

i=1

w_tiδ(xt−xit) (2.9)

Fen´omeno de la degeneraci´on

Para las funciones de importancia, tales como la representada en la ecuación 2.6, se ha probado que la varianza de los pesos solo puede crecer en el tiempo [122, 120]. El incremento de la varianza reduce la precisión del método y conduce al fenómeno conocido como fenómeno de la degeneración. Esto implica que, después de un cierto tiempo, se es-pera que todas las muestras tengan pesos despreciables salvo una. Por tanto, la evaluación de muestras que no afectan significativamente al resultado, consume buena parte de los recursos computacionales del sistema. Por otra parte, la representación de la pdf a pos-teriori resulta pobre. Para evaluar la degeneración se usa una medida llamada “tamaño efectivo de la muestra” o “diagnostico de supervivencia” [5, 129].

N = _PN 1

i=1(wit)2

(2.10)

donde w_ti son los pesos normalizados. La ecuación intenta estimar el número de muestras que contribuyen de forma significativa al cálculo del estimado. Se cumple que 1_{≤ N ≤}N, de forma que un valor reducido de _N indica una degeneración severa.

Filtro de part´ıculas

Los filtros de part´ıculas fueron propuestos originalmente por Gordon, Salmond y Smith en 1993 [5]. Además de por este nombre, son conocidos también como método secuencial de Montecarlo [130], filtro autosuficiente [8], algoritmo de propagación de la densidad condicional [131], supervivencia del más apto [132] o remuestreo secuencial por importan-cia (Sequential Importance Resampling, SIR) [133]. Dicho conjunto de algoritmos tiene por objetivo la estimación de la densidad de probabilidada posteriori de un sistema que evoluciona en el tiempo de forma dinámica.

El filtro de part´ıculas utiliza el mismo marco de trabajo del muestreo secuencial por importancia incluyendo además una etapa llamada remuestreo cuyo propósito es eliminar las part´ıculas con pesos menores para multiplicar aquéllas con pesos mayores. Como resul-tado del remuestreo, se parte de una población_{xi

t, wit} y se obtiene una nueva poblaci´on

(50)

proba-bilidad de elegir una part´ıcula en el remuestreo est´e directamente relacionada con el valor de su peso.

Una posible implementación de la etapa de remuestreo consiste en la generación de N variables independientes e idénticamente distribuidas a partir de una distribución uni-forme, y compararlas con las sumas acumuladas de los pesos normalizados. Este procedi-miento es conocido como método de la ruleta [134].

Descripci´on algor´ıtmica del filtro de part´ıculas

En este marco de trabajo, se puede describir el filtro de part´ıculas de forma algor´ıtmica tal como sigue:

1. Inicio: se generanN part´ıculas de forma aleatoria (o de acuerdo a unapdf conocida) en el espacio de estados considerado.

2. Cómputo de pesos o actualización: se define una función de ponderación, encargada de asignar pesos a las part´ıculas usando la observación del instante actual zt y el estado del sistema xt, como se indica en la ecuación 2.8. Además, se estima la pdf a posteriori como se indica en la ecuación 2.9.

3. Estimaci´on: a partir del conjunto de part´ıculas anterior se obtiene una estimaci´on del estado del sistema. Esto se puede hacer de diversas formas, por ejemplo, creando una nueva part´ıcula aplicando la media ponderada de los estados y pesos del conjunto de part´ıculas o tomando como estimado la part´ıcula con mayor peso del sistema.

4. Remuestreo: cuando se ha alcanzado un tama˜no efectivo de la muestra, _Nef, dema-siado bajo se genera un nuevo conjunto de part´ıculas, tal y como se mostraba en la Figura 2.18.

5. Difusi´on: con el fin de mantener la variabilidad de la muestra, se aplica una variaci´on aleatoria al estado de las part´ıculas.

6. Predicción: si se tiene algún tipo de información sobre la evolución temporal del sistema, se puede aplicar este conocimiento para que las part´ıculas aproximen más adecuadamente el estado del sistema en el siguiente instante.