Seguimiento de múltiples personas considerando oclusión parcial y total en escenarios estacionarios no controlados

(1)

Seguimiento de M´

ultiples Personas

considerando Oclusi´

on Parcial y Total

en Escenarios Estacionarios No Controlados

Por

Carolina Reta Castro

Tesis sometida como requisito parcial para obtener el grado de

DOCTORA EN CIENCIAS EN EL ´AREA DE

CIENCIAS COMPUTACIONALES

En el:

Instituto Nacional de Astrof´ısica, ´Optica y Electr´onica

Dirigida por:

Dr. Leopoldo Altamirano Robles

Puebla, M´exico Junio de 2014

c

El autor otorga al INAOE el permiso de reproducir y distribuir copias de esta tesis

(2)

(3)

Agradecimientos

A mi asesor, Dr. Leopoldo Altamirano Robles, por brindarme su apoyo en momentos

dif´ıciles y por dirigirme durante el desarrollo de la tesis.

Al Dr. Jes´us A. Gonz´alez Bernal, investigador del INAOE, y al Dr. Rafael Medina

Carnicer, investigador de la Universidad de Córdoba en España, por su colaboración

en los art´ıculos de investigaci´on derivados de la tesis.

A los Dres. Miguel O. Arias Estrada, Ren´e A. Cumplido Parra, Eduardo F. Morales

Manzanares y Luis E. Sucar Succar, investigadores del INAOE, y al Dr. Juan L´opez

Coronado, investigador de la Universidad Polit´ecnica de Cartagena en Espa˜na, por el

tiempo dedicado a la revisi´on de esta tesis y sus valiosos comentarios.

Al grupo de investigaci´on Aplicaciones de la Visi´on Artificial de la Universidad de

C´ordoba en Espa˜na, por todo el apoyo que me brindaron durante mi estancia y por el

conocimiento que me compartieron.

Al CONACyT por otorgarme la beca No. 46341 para realizar mis estudios de

Doc-torado en Ciencias y a la Coordinaci´on de Ciencias Computacionales del INAOE por

encaminarme en la investigaci´on cient´ıﬁca.

Carolina Reta Castro.

(4)

El seguimiento de m´ultiples personas en entornos reales es un problema desaﬁante,

principalmente porque la silueta deformable del cuerpo humano y la iluminaci´on

va-riable del entorno cambian con el tiempo la apariencia de las personas. Esta situaci´on

provoca una alta diﬁcultad en la asociaci´on temporal de la identidad de las personas.

El problema se acent´ua cuando los individuos se mueven cerca de otros, se ocluyen, o

cambian abruptamente su trayectoria.

En esta tesis se propone un nuevo algoritmo de asociaci´on temporal para el

segui-miento individual y secuencial de m´ultiples personas en escenarios no controlados a

partir de una c´amara estacionaria. El algoritmo de asociaci´on propuesto construye un

grafo de seguimiento a partir de un an´alisis de la interacci´on de las personas y de

me-diciones con ruido proporcionadas por un esquema de detecci´on de personas. El grafo

de seguimiento modela las relaciones espacio-temporales de las personas en la escena

para predecir y resolver oclusiones parciales y totales. Cuando se presenta un evento

de oclusión total, el algoritmo genera diversas hipótesis acerca de la ubicación de la

persona ocluida considerando 3 casos: a) la persona mantiene su misma direcci´on y

ve-locidad, b) la persona adopta la direcci´on y la velocidad de su oclusor, y c) la persona

permanece inmóvil durante la oclusión. Mediante el análisis del grafo de seguimiento

durante su construcci´on, el algoritmo propuesto es capaz de detectar falsos positivos y

falsos negativos en las mediciones de detección y también puede estimar la ubicación

de personas no detectadas u ocluidas.

El algoritmo propuesto funciona aceptablemente en condiciones complejas, tales

co-mo: visibilidad parcial de los individuos para entrar o salir de la escena, interacciones

y oclusiones persistentes entre las personas, informaci´on incorrecta o faltante en la

(5)

tecci´on de las personas, as´ı como la variaci´on de la apariencia de la persona debido a

cambios en la iluminaci´on y distractores del fondo. El algoritmo fue evaluado en

secuen-cias de pruebas en el ´ambito de la vigilancia inteligente alcanzando una precisi´on del

93 %. Los resultados obtenidos muestran que el algoritmo secuencial propuesto supera

a algoritmos de seguimiento basados en trayectorias.

Palabras claves: seguimiento de personas, oclusi´on, grafo de seguimiento,

genera-ci´on de hip´otesis, caracter´ısticas espacio-temporales, video vigilancia.

(6)

Multiple people tracking in real environments is a challenging problem. This

hap-pens because the deformable human silhouette and the varying illumination conditions

change the appearance of people over time. This situation causes a high diﬃculty in the

temporal association of people’s identity. The problem is emphasized when individuals

move close to each other, they are occluded, or they abruptly change their trajectories.

This work proposes a novel temporal association algorithm to sequentially and

indi-vidually track multiple people under uncontrolled sceneries from a single camera. Our

association algorithm builds a tracking graph from an analysis of the interaction of

people and from noisy measurements provided by a detection scheme. The tracking

graph models spatio-temporal relationships among attributes of interacting people to

predict and resolve partial and total occlusions. When a total occlusion event occurs,

the algorithm generates various hypotheses about the location of the occluded person

considering 3 cases: a) the person keeps the same direction and speed, b) the person

follows the direction and speed of the occluder, and c) the person remains motionless

during occlusion. By analyzing the graph while it is being built, the proposed algorithm

is able to detect trajectories produced by false positives in the detection measurements

and it can also estimate the location of missing or occluded people.

Our algorithm performs acceptably under complex conditions, such as: partial

visi-bility of individuals getting inside or outside the scene, continuous interactions and

oc-clusions among people, wrong or missing information on the detection of persons, as well

as variation of the person’s appearance due to illumination changes and

background-clutter distracters. Our algorithm was evaluated on test sequences from the intelligent

surveillance ﬁeld, achieving an overall precision of 93 %. Results show that our

(7)

tial algorithm outperforms trajectory-based state-of-the-art algorithms.

Keywords: people tracking, occlusion, tracking graph, hypothesis management,

spatio-temporal features, video surveillance.

(8)

Resumen I

Abstract III

1. Introducci´on 1

1.1. Motivaci´on . . . 1

1.2. Planteamiento del problema . . . 3

1.3. Preguntas de investigaci´on . . . 4

1.4. Objetivos . . . 5

1.5. Metodolog´ıa . . . 5

1.5.1. Detecci´on de regiones de inter´es . . . 6

1.5.2. Detecci´on de personas . . . 6

1.5.3. Representaci´on de las personas . . . 6

1.5.4. Seguimiento de individuos . . . 7

1.5.5. Prueba y evaluaci´on . . . 8

1.6. Contribuciones . . . 8

1.7. Organizaci´on del documento . . . 9

2. Marco Te´orico 11 2.1. Modelado adaptativo del fondo . . . 11

2.1.1. Descripci´on de las caracter´ısticas del modelo . . . 12

2.1.2. Algoritmo de modelado del fondo con m´ultiples capas . . . 13

(9)

2.2. Detecci´on de objetos mediante bases activas . . . 16

2.2.1. Representaci´on de bases activas . . . 16

2.2.2. Algoritmo de bosquejo compartido . . . 18

2.2.3. Arquitectura de inferencia de mapas SUM-MAX . . . 20

2.3. Problema de asociaci´on . . . 22

2.3.1. Formulaci´on del problema . . . 23

2.3.2. Algoritmo H´ungaro . . . 25

2.4. Resumen . . . 26

3. Revisión del trabajo previo 27 3.1. Introducción al problema de seguimiento de personas con oclusión . . . 27

3.2. Seguimiento con m´ultiples c´amaras . . . 28

3.3. Seguimiento con una c´amara . . . 29

3.3.1. Seguimiento colectivo . . . 29

3.3.2. Seguimiento individual . . . 31

3.4. Enfoques de detecci´on y representaci´on . . . 32

3.5. Enfoques de asociaci´on temporal . . . 37

3.5.1. M´etodos de asociaci´on basados en detecciones . . . 37

3.5.2. M´etodos de asociaci´on basados en trayectorias . . . 39

3.6. Discusi´on . . . 41

3.7. Resumen . . . 42

4. M´etodo propuesto 45 4.1. Detecci´on de personas . . . 46

4.2. Representaci´on de las personas . . . 50

4.2.1. Modelo de forma . . . 50

4.2.2. Modelo de apariencia . . . 50

4.2.3. Modelo de movimiento . . . 51

4.3. Seguimiento de personas . . . 52

4.3.1. Descripci´on del grafo de seguimiento . . . 52

(10)

4.3.3. Algoritmo de asociaci´on temporal . . . 56

4.3.4. Relaciones de oclusi´on . . . 60

4.3.5. Asociaci´on por similitud . . . 61

4.3.6. Actualizaci´on de atributos . . . 64

4.4. Resumen . . . 65

5. Experimentos 67 5.1. Secuencias de prueba . . . 68

5.2. Evaluaci´on del esquema de detecci´on . . . 69

5.3. Evaluaci´on del algoritmo de seguimiento . . . 76

5.4. Tiempos de procesamiento de los algoritmos . . . 82

5.5. Discusi´on . . . 82

5.6. Resumen . . . 84

6. Conclusiones 89 6.1. Conclusiones . . . 89

6.2. Contribuciones . . . 91

6.3. Trabajo futuro . . . 93

6.4. Art´ıculos de investigaci´on . . . 94

Bibliograf´ıa 94

(11)

(12)

2.1. Resultado de la detecci´on de regiones en movimiento a partir del m´etodo

de modelado de fondo adaptativo . . . 15

2.2. Representaci´on con bases activas . . . 17

2.3. Algoritmo de bosquejo compartido . . . 19

2.4. Algoritmo de mapas SUM-MAX . . . 21

2.5. Representación del problema de asociación mediante un grafo bipartito. 23 2.6. Formulación del problema de asociación mediante una matriz de costos. 24 4.1. Etapas que componen el método de seguimiento propuesto. . . 45

4.2. Esquema de detecci´on de personas . . . 48

4.3. Grafo de seguimiento . . . 54

5.1. Escenarios de prueba . . . 70

5.2. Comparación del esquema de detección propuesto con el método HOG-SVM . . . 72

5.3. Resultados del esquema de detecci´on de personas propuesto para el con-junto de datos USC 2005 . . . 74

5.4. Evaluaci´on del rendimiento de detecci´on para el conjunto de datos USC 2005 . . . 75

5.5. Resultados del algoritmo de asociaci´on temporal propuesto en la secuen-cia OneStopMoveEnter1 del conjunto de datos CAVIAR 2005 . . . 77

5.6. Resultados del algoritmo de asociaci´on temporal propuesto en la secuen-cia S2-L1-View 008 del conjunto de datos PETS 2009 . . . 78

(13)

5.7. Resultados del algoritmo de asociaci´on temporal propuesto en la

secuen-cia p3v1view1 del conjunto de datos UCO 2011 . . . 79

(14)

4.1. Variables y funciones del algoritmo de asociaci´on temporal. . . 58

5.1. Definición de los parámetros del algoritmo de asociación temporal. . . . 86

5.2. M´etricas de evaluaci´on para el seguimiento de objetos. . . 87

5.3. Comparaci´on de los algoritmos de seguimiento para el conjunto de datos

CAVIAR 2005 . . . 87

5.4. Evaluaci´on del algoritmo de seguimiento propuesto en distintos conjuntos

de datos de videovigilancia. . . 87

(15)

Cap´ıtulo 1

Introducci´

on

1.1. Motivaci´

on

El seguimiento de personas en secuencias de im´agenes es un tema de investigaci´on

muy activo en el área de visión por computadora. Su estudio está motivado por la

importancia que tiene el reconocimiento e interpretaci´on autom´atica del movimiento

humano en el desarrollo de la tecnolog´ıa de an´alisis de video. Existe un amplio rango

de aplicaciones donde el seguimiento de personas es de vital importancia, tales como:

vigilancia para la seguridad inteligente, an´alisis de la cinem´atica de los deportistas para

la planificación de técnicas deportivas, conteo de personas o pasajeros, cuidado de niños,

personas enfermas y adultos mayores, entre otras.

El seguimiento de personas permite obtener informaci´on sobre las actividades que

realizan los humanos a trav´es del an´alisis de las caracter´ısticas de sus trayectorias. El

análisis de la posición y/o trayectoria de un individuo permite determinar si éste se

encuentra caminando, corriendo, saltando, esperando algo, invadiendo un ´area no

per-mitida, o bien desarrollando una actividad sospechosa. Relacionando la informaci´on de

las trayectorias de dos o m´as individuos, es posible obtener informaci´on de sus

inter-acciones y determinar si las personas desarrollan actividades normales como caminar

en grupo, reunirse con otras personas, esperar a alguien; o si presentan una conducta

(16)

anormal como esconderse o alejarse fugazmente de otra persona.

El seguimiento de m´ultiples personas es un problema de investigaci´on abierto

cuan-do las personas se desenvuelven en escenarios reales, como: parques, escuelas, bancos,

museos, hospitales, centros comerciales, lobbies, aeropuertos, sitios tur´ısticos, paradas

del transporte público, fronteras, edificios de interés para la polic´ıa y el ejército, entre

otros. El seguimiento de personas en ambientes reales es un problema complejo por las

siguientes razones:

1. El n´umero de personas que interact´uan en la escena es desconocido y variable en

el tiempo, debido a que los individuos pueden entrar y salir del campo de visi´on

de la escena.

2. Las personas son objetos altamente articulados cuya forma presenta variaciones

como consecuencia de su propio movimiento. Adem´as, la trayectoria de los

indi-viduos es compleja y puede estar sujeta a cambios repentinos e imprevisibles.

3. La apariencia de las personas en la escena no puede ser deﬁnida de manera

antici-pada. ´Esta var´ıa con el tiempo a consecuencia de cambios en la iluminaci´on de la

escena y ruido en el ambiente. La variaci´on en la apariencia de la persona puede

causar la pérdida de la ubicación del individuo en un lapso de tiempo espec´ıfico

y por consecuencia, la fragmentaci´on de su trayectoria.

4. Las interacciones entre personas pueden bloquear de manera parcial o total la

vista de los objetos desde la perspectiva de la c´amara. Las oclusiones provocan

cambios en la apariencia del individuo y pueden llevar a la confusi´on o p´erdida

de las trayectorias de las personas involucradas.

En esta tesis se investiga el problema del seguimiento de personas aplicado a

secuen-cias reales de im´agenes de vigilancia inteligente adquiridas con una c´amara estacionaria.

En este trabajo se propone un algoritmo de seguimiento capaz de localizar y mantener

la identidad de varias personas que pueden ocluirse en escenarios no controlados. El

(17)

1.2. PLANTEAMIENTO DEL PROBLEMA 3

para predecir y resolver oclusiones parciales y totales. De igual forma, examina

distin-tas hipótesis sobre la ubicación de las personas ocluidas con el fin de evitar su pérdida

durante los eventos de oclusi´on total. El algoritmo propuesto afronta los problemas

inevitables en el seguimiento de m´ultiples personas como son los cambios en la

aparien-cia del individuo, las oclusiones entre los objetos y la confusi´on de las identidades de

los mismos.

1.2. Planteamiento del problema

En esta tesis se plantea el problema de rastrear a m´ultiples individuos en un escenario

estacionario no controlado. El problema consiste en estimar la ubicaci´on de cada persona

en cada fotograma de la secuencia y en determinar su trayectoria desde que ´esta entra

hasta que sale de la escena, a´un cuando se perturbe la apariencia de la persona durante la

secuencia, se obtengan falsos positivos y falsos negativos en la detecci´on de las personas,

y éstas sean ocluidas parcial o totalmente por otras personas u obstáculos fijos. La

formalizaci´on de este problema se presenta a continuaci´on.

Sea Z el conjunto de M personas part´ıcipes en una secuencia de imágenes I con duraciónT. La secuencia de imágenesI ={It⊂R2}var´ıa espacialmente en un conjunto de p´ıxeles {x} ⊂ It _{y temporalmente con} _t _{∈ {}_1;_T_}_{. Cada persona es representada} como Zm, donde m ∈ {1;M}. Suponiendo que K mediciones de personas están en la escena en el tiempo t, vamos a referirnos a la medición de la persona k ∈ {1;K}

como z_kt y a denotar su historia de seguimiento como el conjunto de sus instancias previas H_zt

k = (z

1

k′, z2k′, ..., z t−2

k′ , z t−1

k′ ), donde zk′ adquiere el valor que le corresponde a la medici´on de la persona en el instante de tiempo respectivo.

Vamos a denotar el estado de visibilidad de la persona k en el tiempo t por Vt k y vamos a considerar eventos de oclusi´on binarios entre las instancias de las personas

rastreadas Ot

ij ∈ {0,1}, donde Oijt = 0 indica que no hay oclusi´on entre las personasi y j. Para los objetos participantes en el evento de oclusi´onOt

ij = 1, vamos a deﬁnir la funci´on πt

(18)

πt

ij = 1 indica que la persona iocluye a la persona j.

En esta tesis se propone un algoritmo de seguimiento que permite relacionar a cada

representación de persona Zm con una medición zkt, a partir de la historia de segui-mientoHzm de la persona, la información del estado de visibilidad Vkt de la información observada en la imagen xt_k | x_kt−1, las relaciones de oclusión ∪O_kjt , y las funciones de oclusión∪πt

kj.

1.3. Preguntas de investigaci´

on

La pregunta de investigaci´on principal que respondemos en esta tesis es:

¿En qu´e medida es posible mantener el seguimiento personas ocluidas parcial o

totalmente a partir de informaci´on proporcionada por una c´amara utilizando la

evidencia de su detecci´on y la relaci´on espacio-temporal de su trayectoria con la

de las otras personas que participan en una escena real?

Las preguntas secundarias que nos permitieron dirigir la investigaci´on y contestar

la pregunta principal son:

¿Ayuda el modelado espacial de las trayectorias de las personas en la ubicaci´on de

los individuos en la escena que presentan oclusiones parciales severas o totales?

¿En qu´e grado ayuda la detecci´on basada en segmentos de forma a localizar a las

personas ocluidas parcialmente en un fotograma de la secuencia?

¿Qu´e caracter´ısticas de la apariencia y movimiento de las personas pueden ser

utilizadas para diferenciar a individuos ocluidos que presentan vestimenta similar

a su oclusor?

¿Qu´e caracter´ısticas del aspecto del fondo y de las personas se deben modelar

(19)

1.4. OBJETIVOS 5

1.4. Objetivos

Objetivo general

Dise˜nar un algoritmo de seguimiento capaz de ubicar y mantener la identidad

co-rrecta de m´ultiples personas que pueden ocluirse, parcial o totalmente, a partir de una

secuencia de im´agenes con escenarios no controlados adquirida por una c´amara

estacio-naria.

Objetivos particulares

1. Establecer un esquema de representaci´on de las personas que sea capaz de

adap-tarse a las variaciones en el aspecto de ´estas causadas por oclusiones parciales y

cambios en la iluminaci´on del ambiente.

2. Plantear un algoritmo que permita la detecci´on de las oclusiones parciales y totales

originadas por la interacci´on de las personas con otros elementos del ambiente.

3. Proponer un algoritmo que encuentre y efect´ue la correspondencia temporal de

personas ocluidas o no detectadas, a partir de un an´alisis de la informaci´on

espacio-temporal de la interacci´on de las personas.

4. Dise˜nar un algoritmo de seguimiento que a partir de mediciones de detecci´on y

reglas de interacci´on permita identiﬁcar y ubicar en cada instante de tiempo a las

personas que participan en un escenario estacionario no controlado.

1.5. Metodolog´ıa

A continuaci´on se describen las tareas principales de la metodolog´ıa propuesta en

(20)

1.5.1. Detecci´

on de regiones de inter´

es

Para simpliﬁcar la b´usqueda de personas en la escena, en este trabajo se propone

detectar regiones en movimiento y regiones estacionarias.

La detección de las regiones en movimiento se efectuó mediante la sustracción del

modelo del fondo de la escena en cada fotograma de la secuencia. La detecci´on de las

regiones estacionarias se realizó aprovechando la información temporal de la ubicación

y el ´area ocupada por los individuos en fotogramas previos.

El resultado del proceso de detecci´on de regiones de inter´es es una imagen binaria

compuesta por m´ultiples regiones, en la cual no existe necesariamente una

correspon-dencia entre las regiones en la imagen y los objetos en la escena.

1.5.2. Detecci´

on de personas

En esta tesis se propone un esquema de detecci´on de m´ultiples personas que restringe

la búsqueda del modelo del objeto a las regiones de interés de la imagen, con la finalidad

de disminuir la tasa de falsos positivos en las mediciones de detecci´on.

El modelo morfol´ogico de la persona se obtuvo a trav´es del entrenamiento de im´

age-nes con personas mediante el algoritmo planteado por [WSGZ10]. El esquema de

detec-ci´on propuesto realiza un ﬁltrado de este modelo en distintas escalas de la imagen para

encontrar el ajuste del modelo que representa a los objetos con distinto tama˜no. El ´area

de la regi´on de inter´es ocupada por el modelo del individuo encontrado es analizada

por el esquema de detecci´on propuesto para estimar la porci´on visible del objeto.

El esquema de detección propuesto permite la detección de múltiples personas en

los fotogramas de la secuencia, incluyendo situaciones donde las personas se encuentran

parcialmente ocluidas.

1.5.3. Representaci´

on de las personas

Las personas son modeladas empleando atributos que describen su apariencia, forma

(21)

1.5. METODOLOG´IA 7

La identiﬁcaci´on de los individuos se consigue cuando la similitud de apariencia y

movimiento espacial entre los atributos de las mediciones de detecci´on y los atributos

representados en los modelos de las personas rastreadas, es maximizada.

La m´etrica de similitud de apariencia sugerida en esta tesis es robusta ante la

altera-ci´on en las mediciones de detecci´on provocada por distractores del fondo e interacciones

entre las personas. La m´etrica de movimiento espacial propuesta permite la asociaci´on

de las identidades de personas que se ubican cerca cuando la apariencia de la persona

cambia a consecuencia de las variaciones en la iluminaci´on del escenario.

La representaci´on propuesta es adaptativa debido a que en cada instante de tiempo

se actualizan los atributos de apariencia, tama˜no y movimiento de los objetos rastreados

de acuerdo con el modo en que ´estos interact´uan con las otras personas y a los cambios

producidos en la iluminaci´on del escenario.

1.5.4. Seguimiento de individuos

En esta tesis se propone un algoritmo que permite el seguimiento individual de

m´ultiples personas en escenarios estacionarios.

El algoritmo de seguimiento propuesto construye un grafo de seguimiento para

mo-delar a las personas que participan en el escenario a partir de reglas de interacci´on y

de mediciones de detecci´on. Estas reglas controlan la entrada y salida de los objetivos,

vinculan las mediciones de detecci´on con las personas previamente rastreadas y dirigen

el seguimiento de ´estas cuando se encuentran ocluidas.

El algoritmo analiza las relaciones espacio-temporales de las personas rastreadas

para detectar eventos de oclusi´on parcial y total, y determina para cada evento cu´al es

el individuo oclusor y cu´al es el individuo ocluido. Esta informaci´on es utilizada para

actualizar correctamente los atributos de las personas durante las oclusiones.

Mediante el an´alisis del grafo de seguimiento, el algoritmo propuesto detecta falsos

positivos y falsos negativos en las mediciones de detección, y también estima la ubicación

(22)

1.5.5. Prueba y evaluaci´

on

El esquema de detecci´on y el algoritmo de seguimiento propuestos fueron

valida-dos en secuencias de referencia enfocadas a la vigilancia inteligente. Las secuencias de

prueba fueron seleccionadas de los repositorios CAVIAR 2005 [CAV05], PETS 2009

[PET09] y UCO 2011 [UCO11], las cuales presentan situaciones complejas de

interac-ciones y oclusiones entre las personas. Las secuencias de prueba permitieron evaluar el

funcionamiento del algoritmo de seguimiento en ambientes de interiores y exteriores.

La evaluación del esquema de detección y del algoritmo de seguimiento se llevó a

cabo mediante las m´etricas de evaluaci´on usadas en los trabajos previos. El esquema

de detecci´on propuesto fue evaluado en las secuencias de prueba del repositorio

CA-VIAR, alcanzando una precisi´on del 87 %. La evaluaci´on del algoritmo de seguimiento

se llevó a cabo mediante las métricas de evaluación usadas en los trabajos previos. El

algoritmo de seguimiento consigui´o una precisi´on global del 93 % en las secuencias de

los repositorios de evaluaci´on. En las secuencias de prueba del repositorio CAVIAR,

el algoritmo de seguimiento propuesto obtuvo una precisi´on del 88.9 %, superando los

resultados obtenidos por los algoritmos del trabajo previo de [ZLN08] y [SJSRC10].

1.6. Contribuciones

En este trabajo de investigaci´on se propone una soluci´on al problema de seguimiento

de m´ultiples personas en situaciones complejas con presencia de oclusi´on en escenarios

reales. Las contribuciones derivadas de esta tesis son:

1. Un esquema de detección de múltiples personas que pueden presentar oclusión

parcial (apartado 4.1).

2. Un modelo de la interacci´on de las personas que predice oclusiones parciales y

totales y establece el orden de las personas implicadas en la oclusi´on (apartado

(23)

1.7. ORGANIZACI ´ON DEL DOCUMENTO 9

3. Un algoritmo para efectuar la correspondencia temporal entre trayectorias

exis-tentes y personas ocluidas o no detectadas (apartado 4.3.3).

4. Un algoritmo de seguimiento que permite identiﬁcar a las personas que participan

en la escena y estimar su ubicaci´on en cada instante de tiempo, a´un cuando se

encuentren ocluidas (apartado 4.3.3).

Este trabajo aporta conocimiento al ´area de visi´on por computadora en el tema

de seguimiento de m´ultiples personas, pues los algoritmos aqu´ı propuestos permiten

determinar en todo momento qu´e individuos est´an visibles u ocluidos en la escena y en

d´onde se encuentran.

1.7. Organizaci´

on del documento

La tesis est´a organizada de la siguiente manera. En el cap´ıtulo 2 se describe el marco

te´orico. En el cap´ıtulo 3 se realiza un an´alisis de los trabajos previos que han sido

desa-rrollados para el seguimiento de personas, enfatizando las ventajas o limitaciones que

presentan para ser aplicados en situaciones reales. En el cap´ıtulo 4 se explican el

mode-lo propuesto para la representaci´on de las personas y el algoritmo de correspondencia

temporal que permiten mantener el seguimiento de personas ocluidas. En el cap´ıtulo

5 se presentan los conjuntos de prueba que fueron usados en la validaci´on del

siste-ma de seguimiento propuesto. De igual forsiste-ma se muestran los experimentos, resultados

alcanzados y la comparaci´on con trabajos previos. En el cap´ıtulo 6 se presentan las

conclusiones, el trabajo futuro propuesto y los art´ıculos derivados de este trabajo de

(24)

(25)

Cap´ıtulo 2

Marco Te´

orico

En este cap´ıtulo se explican los fundamentos de los algoritmos utilizados en este

trabajo de investigaci´on, los cuales permitieron el desarrollo del esquema de detecci´on

de múltiples personas y del método de asociación por similitud propuestos.

2.1. Modelado adaptativo del fondo

En esta tesis la b´usqueda de las personas en la escena se reduce a las regiones de la

imagen que indican movimiento. Estas regiones se obtienen mediante la comparaci´on

del modelo del fondo de la escena con cada fotograma de la secuencia.

El fondo de la escena es modelado empleando m´ultiples capas mediante el m´etodo

propuesto por [YO07]. La aplicaci´on de ´este es apropiada en escenarios estacionarios

porque permite la adaptaci´on del modelo de apariencia del fondo ante cambios locales

en la iluminaci´on del ambiente, y movimiento de los objetos del primer plano. Adem´as,

el método se adapta a la aparición y desaparición de objetos estacionarios de larga

duraci´on y a las variaciones en la apariencia de ´estos originadas por movimiento. Este

m´etodo permite remover los objetos fantasmas producidos por el cambio de fondo de la

escena. Sin embargo, no es robusto ante camuflaje y reflexión de la luz. La aplicación

del m´etodo busca un balance entre la velocidad a la cual el modelo se adapta a los

cambios en el fondo y la estabilidad del mismo, por lo que se evita olvidar el fondo que

(26)

está temporalmente ocluido. Por esta razón se eligió este método para modelar el fondo

de la escena.

2.1.1. Descripci´

on de las caracter´ısticas del modelo

El m´etodo propuesto por [YO07] analiza las caracter´ısticas de color y textura de las

im´agenes de una secuencia para construir y mantener una representaci´on estad´ıstica de

la escena en cada instante de tiempo.

El m´etodo utiliza el operador LBP (Local Binary Pattern) como una medida

in-variante de textura para im´agenes en escala de grises. El operador LBP consiste en

el etiquetado de un p´ıxel x en una imagen I mediante una funci´on de umbralizaci´on

entre la diferencia del valor de intensidad del p´ıxel y el valor de cada p´ıxel vecino. Este

operador se representa como:

LBPP,R(x) = {LBP

(p)

P,R(x)}p=1,...,P

LBP_P,R(p)(x) = s(Ig₍_v

p)−Ig(x)−n)

s(x) =

    

1 x≥0 0 x <0

(2.1)

dondeIg denota el valor de intensidad en la escala de grises en la imagenI y{vp}p=1,...,P es el conjunto de P p´ıxeles igualmente espaciados localizados dentro de un c´ırculo con

radioR y centro x. El par´ametron es un par´ametro de ruido que hace que el operador

LBP sea m´as estable en las areas uniformes, pues describe la m´ınima cantidad de

variaci´on del valor de intensidad que es considerada como signiﬁcativa.

El operador LBP es robusto a cambios en el valor de intensidad de los p´ıxeles

ocasionados por un cambio global o local en la iluminaci´on. El uso de este operador en

el modelado del fondo permite afrontar el problema de las sombras de los objetos en el

escenario. Sin embargo, el operador LBP no permite diferenciar entre los objetos del

primer plano y el fondo de la escena cuando ´estos comparten la misma informaci´on de

(27)

2.1. MODELADO ADAPTATIVO DEL FONDO 13

(IR_{, I}G_{, I}B_{) que representan el valor de intensidad de los p´ıxeles de la imagen} _I _{en el} espacio de colorRGB.

El modelo del fondo de la escena es representado porK capas independientes, donde

cada capa representa la moda mk aprendida para modelar la apariencia que puede adoptar cada p´ıxel a partir de los datos observados hasta el fotograma actual. La moda

mk consiste de 7 componentes

mk ={Ik,Iˆk,Iˇk, LP Bk, wk,wˆk, Lk} (2.2) dondeIk = (IkR, IkG, IkB) es el vector promedio en RGB de la moda. ˆIke ˇIkson los vectores m´aximo y m´ınimo, en RGB, que el p´ıxel asociado con la moda puede adquirir. LP Bk es el promedio del operador LBP aprendido a partir de todos los descriptores LBP

asignados a la misma moda.wk∈[0,1] es un factor de peso que indica la probabilidad de que la moda pertenezca al fondo. ˆwk representa el valor máximo adquirido por el peso en el pasado. Lk es el número de capa a la que pertenece la moda. Cuando este número es cero, significa que la moda no es confiable para el modelado del fondo.

2.1.2. Algoritmo de modelado del fondo con m´

ultiples capas

El modelado del fondo mediante m´ultiples capas facilita la detecci´on de los objetos

que contrastan con todos los fondos aprendidos a partir de las observaciones del pasado;

y permite que el fondo se adapte a cambios en la escena producidos por la inserci´on y

eliminaci´on de objetos estacionarios.

A continuaci´on se describen los pasos del algoritmo propuesto por [YO07] para

modelar el fondo de la escena.

Paso 1 B´usqueda de la moda m´as cercana

Dadas las caracter´ısticas LBPt _y _RGBt _{obtenidas en la imagen}_It _{en el instante} de tiempo actual t, se calcula la distancia entre estas caracter´ısticas y los datos

(28)

Paso 2 Actualizaci´on de modas

Si la distancia de la moda m´as cercana ˜k es mayor que un umbral establecido, se

crea una nueva moda con par´ametros

m_k˜ ={It, It, It, LBPt, winit, winit,0} (2.3) donde winit denota un valor muy peque˜no para el peso inicial de la moda. Esta nueva moda se agrega a la lista de modas si Kt−1 _{< K}_{, o remplaza la moda}

existente con el peso m´as peque˜no si Kt−1 =K.

De lo contrario, si la moda más cercana ˜k está lo suficientemente cerca de los

datos observados, la moda m˜_k se actualiza de la siguiente manera:

m_k˜

                                                 It ˜

k = (1−α)I t−1 ˜

k +αI t

LBPt

˜

k = (1−α)LBP t−1 ˜

k +αLBP t ˜ k ˆ It ˜

k = m´ax(I

t_,₍₁−_β_{) ˆ}_It−1 ˜

k ) ˇ

It

˜

k = m´ın(I

t_,_{(1 +}_β_{) ˇ}_It−1 ˜

k )

wt

˜

k = (1−γ i w)w

t−1 ˜

k +γ i w ˆ

wt

˜

k = m´ax( ˆw t−1 ˜

k ,wˆ t

˜

k)

L = 1 + m´ax{Lt_k−1}_k₌₁_,...,Kt−1_,k_̸_=˜_k, si Lt_˜−1

k = 0 y ˆw t

˜

k > Tbw

(2.4)

El resto de modas conserva sus atributos intactos, excepto el atributo de peso que

decrece de acuerdo con w_kt = (1−γ_wd)wt_k−1.

En las expresiones anteriores, el par´ametro α∈(0,1) es una tasa de aprendizaje que controla la actualizacion de la informacion de color y textura. El par´ametro

β ∈ [0,1) es una tasa de aprendizaje que evita que los valores máximos o m´ıni-mos de los valores de intensidad continúen incrementándose o decrementándose

durante el tiempo. El par´ametroγi

(29)

con-2.1. MODELADO ADAPTATIVO DEL FONDO 15

trola la actualizaci´on del atributo de peso. El par´ametro γd

w ∈ (0,1) es el factor decreciente de peso que controla la actualizaci´on del atributo de peso. El umbral

Tbwes utilizado para veriﬁcar si la moda actualizada es conﬁable para el modelado del fondo.

La ﬁgura 2.1 ilustra el resultado de la detecci´on de regiones en movimiento obtenido

para una imagen de prueba a partir del m´etodo de modelado de fondo adaptativo

propuesto por [YO07].

Figura 2.1: Resultado de la detecci´on de regiones en movimiento a partir del m´etodo de modelado de fondo adaptativo propuesto por [YO07].

La figura 2.1(a) presenta una imagen con personas en movimiento en el instante de tiempo actual de una secuencia. La figura 2.1(b) muestra el modelo del fondo de la escena aprendido a partir de las observaciones del pasado. La figura 2.1(c) presenta el mapa de distancia entre la apariencia de la imagen actual y el modelo del fondo. La figura 2.1(d) muestra la detección de las regiones en movimiento de la imagen obtenidas por el método de umbralización a partir del mapa de distancia. Note que la sombra de las personas en la escena no forma parte de las regiones en movimiento detectadas.

(30)

2.2. Detecci´

on de objetos mediante bases activas

En esta tesis las personas son detectadas a partir del modelo deformable de su silueta

representado por una base activa. Este modelo es tolerante a oclusiones parciales y

cambios en la silueta percibida de las personas. Esta representaci´on es adoptada en el

esquema de detecci´on de personas propuesto (ver apartado 4.1) porque es tolerante a los

cambios de forma de la silueta de las personas. Adem´as, no requiere de la fragmentaci´on

de las partes del cuerpo humano para hacer frente a las oclusiones parciales.

2.2.1. Representaci´

on de bases activas

Una base activa1_{consiste en un n´}_{umero peque˜}_{no de elementos de}_wavelets _{de Gabor}

en ubicaciones y orientaciones seleccionadas [WSGZ10]. Estos elementos tienen

permi-tido cambiar ligeramente sus ubicaciones y orientaciones antes de que sean linealmente

combinados para generar un modelo observado. La ﬁgura 2.2 ilustra la idea b´asica de

la representaci´on con bases activas. La mitad inferior muestra una base activa, donde

cada elemento es ilustrado por una elipse estrecha en una posici´on y orientaci´on

deter-minada. La mitad superior de la ﬁgura ilustra la deformaci´on de un elemento de la base

activa.

Formalmente, el filtro de Gabor está definido como:

G(x, y) =e−

(_σxx)2+(_σyy)2

2 eix, donde σ_x < σ_y (2.5)

G(x, y) puede ser trasladado, rotado y dilatado para obtener un elemento dewavelets

de Gabor expresado como:

Bx,y,s,α(x′, y′) =G

˜ x s,

˜ y s s2 ˜

x= (x′−x) cosα+ (y′ −y) sinα

˜

y= (x′−x) sinα+ (y′−y) cosα

(2.6)

(31)

2.2. DETECCI ´ON DE OBJETOS MEDIANTE BASES ACTIVAS 17

Figura 2.2: Representaci´on con bases activas [WSGZ10].

Cada elemento de la base activa se ilustra por una elipse estrecha con cierta ubicación y orientación. La parte superior de la figura muestra las deformaciones de un elemento de la base activa. Este elemento (elipse en color negro) puede cambiar a otro elemento de la base activa (elipse en color azul) si es trasladado o rotado dentro de un rango limitado.

donde (x, y) es la posición central del filtro, s es el parámetro de escala y α es el

par´ametro de orientaci´on.

Una imagen puede ser expresada mediante una base activa de la siguiente forma:

Im = n

∑

i=1

cm,iBm,i+ϵm (2.7)

donde n es el número de elementos que conforman la base activa, Bm,i son filtros de Gabor, {cm,i, i= 1, . . . , n} son coeficientes y ϵm es el residuo de la imagen Im.

A partir de esta representaci´on, se plantea seleccionar un conjunto de ﬁltros Bi que represente un conjunto de{Bm,i}deformados para constituir el modelo del objeto, mientras se considera que el fondo de la imagen queda representado en el residuo ϵm.

(32)

2.2.2. Algoritmo de bosquejo compartido

Dado un conjunto de im´agenes de entrenamiento {Im, m= 1, . . . , M}, el algoritmo de bosquejo compartido2 _{[WSGZ10] secuencialmente selecciona}_B

i y la deformaBm,i≈

Bi para ajustarla en cada imagenIm. La idea esencial es seleccionar Bi de manera que sus versiones deformadas{Bm,i, m= 1, ..., M}delineen tantos segmentos de borde como sea posible en las imágenes de entrenamiento {Im}. Para este propósito, se supone que se conoce la distribuciónq(Im) del fondo de las imágenes y que los filtros seleccionados no se traslapan entre s´ı. Para elegir los elementosBi de la base activa B, se maximiza la distancia entre las distribuciones q(Im) y p(Im|B). La figura 2.3 ejemplifica esta descripción.

A continuaci´on se describen los pasos del algoritmo de bosquejo compartido

pro-puesto por [WSGZ10].

Paso 1 Convoluci´on

Se obtienen las respuestas de los ﬁltros de Gabor en las diferentes orientaciones

α en todas las im´agenes de entrenamiento.

Paso 2 Maximizaci´on local

Se busca la mayor respuesta de los ﬁltros en cada p´ıxel de la imagen con respecto

a la vecindad de dicho p´ıxel para obtener Bi ≈Bm,i. De este modo, se le permite al modelo un cierto grado de deformaci´on.

Paso 3 Selecci´on

Se selecciona el elemento Bi cuya suma de las respuestas a los ﬁltros en todas las im´agenes sea mayor. Este paso elige el elemento de la base activa que representa

un borde destacado del objeto.

Paso 4 Supresi´on

Se eliminan las respuestas de los filtros en todas las imágenes cuya correlación

(33)

Figura 2.3: Algoritmo de bosquejo compartido [WSGZ10].

Un elemento seleccionado (elipse de color) es compartido por todas las imágenes de entrenamiento que contienen al objeto a modelar (imágenes con ciervos). Para cada imagen, una versión deformada del elemento busca bosquejar un segmento de borde del objeto cercano al elemento seleccionado. Los elementos de la base activa se seleccionan en orden de acuerdo con la divergencia de Kullback-Leibler entre las distribuciones pi de las respuestas de los filtros de Gabor aplicados en las imágenes de entrenamiento (curvas continuas en color) y la distribución q de las respuestas de estos filtros en las imágenes que modelan el fondo de la escena (curva discontinua en negro). El orden de selección favorece al elemento cuya distribución pi se aleja más de la distribución de referencia q. Este orden determina qué elementos se ajustan en mayor cantidad a los segmentos de borde de las imágenes de entrenamiento.

con el elemento seleccionado Bi sea mayor que cero. Esto se realiza para asegurar la independencia entre las distribuciones de las respuestas de los ﬁltros.

Paso 5 Repetir el algoritmo desde el paso 2 hasta que los n elementos que conforman

(34)

2.2.3. Arquitectura de inferencia de mapas SUM-MAX

Dada una imagen de pruebaI, el modelo del objetoB representado por los elementos

Bi ≈Bxi,yi,si,αipuede ser usado para detectar el objeto en la imagen y hacer un bosquejo del objeto encontrado. Para realizar el ajuste del modelo en la imagen se requiere

encontrar la posici´on de los elementos Bi. Esto se logra encontrando los par´ametros espaciales en el p´ıxel de la imagen en donde se maximice la verosimilitud deP(I|B).

La ecuaci´on 2.8 representa la medida de ajuste.

MATCH(I, B) = n

∑

i=1

λi⟨I, Bi⟩ −logZ(λi) (2.8) donde⟨I, Bi⟩ es la respuesta al filtro Bi en la imagenI,λi puede ser calculada a partir de∑n_m₌₁⟨Im, Bm,i⟩en el paso de selección del algoritmo de bosquejo compartido y Z es una función no lineal.

La figura 2.4 muestra gráficamente el algoritmo de inferencia de mapas SUM-MAX

que encuentra el modelo del objetoB en la imagen de pruebaI. El algoritmo construye

tres mapas: SUM1, MAX1 y SUM2. El mapa SUM1 contiene las respuestas de los ﬁltros

de Gabor, el mapa MAX1 contiene los m´aximos locales de las respuestas en cada p´ıxel

y el mapa SUM2 representa el ajuste del modelo en la imagen obtenido por la ecuaci´on

2.8.

A continuaci´on se describen los pasos del algoritmo de mapas SUM-MAX propuesto

por [WSGZ10].

Paso 1 Obtenci´on del mapa SUM1 (Convoluci´on)

Se obtienen las respuestas de los ﬁltros de Gabor en las diferentes orientaciones

α en la imagen de prueba.

Paso 2 Obtenci´on del mapa MAX1 (Maximizaci´on local)

Se busca la mayor respuesta de los ﬁltros en cada p´ıxel de la imagen con respecto

(35)

Figura 2.4: Algoritmo de mapas SUM-MAX [WSGZ10].

Los mapas SUM1 se obtienen mediante la convolución de la imagen de entrada con los filtros de Gabor en todas las ubicaciones y orientaciones. Las elipses en los mapas SUM1 ilustran la operación de suma o filtrado local. Los mapas MAX1 se obtienen mediante la aplicación de un operador de maximización local a los mapas SUM1. Las flechas en los mapas MAX1 ilustran las deformaciones sobre las cuales se obtiene la maximización local. Los mapas SUM2 se calculan mediante la aplicación de un operador de suma local a los mapas MAX1, donde la suma se realiza sobre los elementos de la base activa. Esta operación calcula el logaritmo de la verosimilitud del modelo deformable y se puede interpretar como un filtro de forma.

(36)

Paso 3 Obtenci´on del mapa SUM2 (Filtro de forma)

Se obtiene el valor del logaritmo de la verosimilitud de la plantilla en cada posici´on

del mapa MAX1 para representar qu´e tan bien se ajusta el modelo en la imagen.

A partir de este mapa, se puede obtener el mejor ajuste del modelo al encontrar

la posici´on con mayor valor en el mapa.

El algoritmo del modelado adaptativo del fondo, el algoritmo de bosquejo

compar-tido y la arquitectura de inferencia de mapas SUM-MAX permitieron el desarrollo del

esquema de detecci´on de m´ultiples personas propuesto en esta tesis (apartado 4.1).

2.3. Problema de asociaci´

on

Una de las mayores diﬁcultades del seguimiento de m´ultiples objetos radica en el

problema de la asociaci´on entre las mediciones de detecci´on con las trayectorias de

los objetos rastreados. El problema es complejo porque com´unmente el n´umero de

mediciones no corresponde con el número de objetos rastreados. Además, el número de

objetos es dif´ıcil de estimar ya que ´estos pueden entrar y salir del campo de visi´on de

la escena, estar temporalmente ocluidos, o ser un falso negativo o un falso positivo en

las mediciones de detecci´on.

La asociación de datos busca elegir la medición más probable para el objeto

ras-treado. Si se selecciona la medici´on incorrecta, la estimaci´on de su estado puede ser

dañada. Los algoritmos de asociación de datos más comunes para el seguimiento de

m´ultiples personas son:Nearest Neighbor (NN),Global Nearest Neighbor (GNN),Joint

Probability Data Association (JPDA) y Multiple Hypothesis Tracking (MHT) [YJS06,

HTWM04, Bla04]. Las caracter´ısticas de estos algoritmos se describen en el apartado

3.5.1 de la tesis. Estos m´etodos diﬁeren en complejidad as´ı como en su habilidad para

manejar incertidumbre y ambig¨uedades en las asociaciones. Los algoritmos incrementan

su complejidad en este orden NN(polinomial), GNN (polinomial), JPDA (NP-hard) y

(37)

2.3. PROBLEMA DE ASOCIACI ´ON 23

En esta tesis la asociaci´on de datos se formula mediante un algoritmo GNN como un

problema de optimizaci´on en el que una funci´on objetivo tiene que ser minimizada (ver

apartado 2.3.1). El método Húngaro plantea una solución a este problema en tiempo

polinomial de grado c´ubico (ver apartado 2.3.2).

2.3.1. Formulaci´

on del problema

El problema de asociaci´on consiste en crear parejas entre los elementos de un

con-juntoAy un conjuntoB con igual n´umero de elementos, minimizando el costo total de

la asignaci´on3_.

El problema de asociaci´on puede representarse mediante un grafo bipartito. Los

v´ertices del grafo pueden ser particionados en dos conjuntos disjuntos A y B. Las

aristas del grafo sólo pueden conectar vértices del conjuntoA con vértices del conjunto

B. Las aristas tienen un peso asociado cij que representa el costo de que al elemento

i∈A se le asigne el elementoj ∈B. La figura 2.5 describe gráficamente este problema.

Figura 2.5: Representaci´on del problema de asociaci´on mediante un grafo bipartito.

3_{En esta tesis,} _A _{representa a las personas que est´}_{an siendo rastreadas y} _B _{a las mediciones de}

detecci´on. Si los conjuntosAyBtienen tama˜no distinto, se agregan elementos al conjunto con menor

(38)

El problema puede formularse en forma de una matriz de costoscij como se presenta en la ﬁgura 2.6:

conjunto B

conjun

to

A

1 2 · · · j · · · n

1 c11 c12 · · · c1j · · · c1n 2 c21 c22 · · · c2j · · · c2n

.. . ...

i ci1 ci2 · · · cij · · · cin ..

. ...

n cn1 cn2 · · · cnj · · · cnn

Figura 2.6: Formulaci´on del problema de asociaci´on mediante una matriz de costos.

Vamos a denotar la asignaci´on del elementoi ∈A con el elementoj ∈B como xij, tal que:

xij =

    

1 si elemento i∈A puede asociarse con el elemento j ∈B

0 en caso contrario

(2.9)

Vamos a expresar el problema de asignaci´on como un problema de programaci´on

lineal mediante la funci´on objetivo:

Minimizarz = n ∑ i=1 n ∑ j=1

cijxij (2.10)

sujeto a las restricciones:

∑n

j=1xij = 1 ∀i∈ {1,2, . . . n} (1)

∑n

i=1xij = 1 ∀j ∈ {1,2, . . . n} (2) xij ∈ {0,1} ∀i, j ∈ {1,2, . . . n} (3)

(2.11)

Las restricciones 1 y 3 signiﬁcan que a cada elemento del conjunto A se le asigna

(39)

2.3. PROBLEMA DE ASOCIACI ´ON 25

ﬁla se le asigna un costo de diferente columna.

Las restricciones 2 y 3 signiﬁcan que cada elemento del conjuntoB debe ser asignado

a diferentes elementos del conjuntoA. Esto signiﬁca, en la matriz de costos, que a cada

columna se le asigna un peso de diferente ﬁla.

2.3.2. Algoritmo H´

ungaro

El algoritmo H´ungaro, publicado por Kuhn en 1955 [Kuh05] y mejorado por

Mun-kres en 1957 [Mun57], propone un algoritmo de asociaci´on de peso m´aximo para grafos

ponderados, bipartitos y completos. El algoritmo plantea una soluci´on ´optima al

pro-blema de asignaci´on en tiempo polinomial (O(n3_)).

A continuaci´on se describen los pasos de este algoritmo.

Paso 1 Obtenci´on de ceros

Encontrar el costo m´ınimo en cada ﬁla de la matriz de costos y restarlo a todos

los elementos del mismo renglón. Luego, encontrar el elemento más pequeño en

cada columna y restarlo a todos los elementos de la misma columna. La matriz

obtenida ser´a conocida como matriz de costos reducida.

Paso 2 Búsqueda de una solución óptima

Trazar el n´umero m´ınimo de l´ıneas horizontales y/o verticales que se requieren

para cubrir todos los ceros de la matriz de costos reducida. Si el n´umero de l´ıneas

es igual a la dimensión de la matriz, entonces el algoritmo encontró una solución

´

optima al problema. En este caso, terminar el algoritmo. De lo contrario, continuar

con el paso 3.

Paso 3 Obtenci´on y desplazamiento de ceros

Encontrar el elemento con menor valor en la matriz de costos reducida que no

est´e cubierto por las l´ıneas trazadas en el paso previo. Restar este costo en cada

elemento no cubierto de la matriz y sumar este costo en los elementos de la matriz

(40)

El algoritmo Húngaro es utilizado por el método de asociación por similitud

propues-to en la tesis para vincular las trayecpropues-torias de las personas que est´an siendo rastreadas

con las mediciones de las personas detectadas (apartado 4.3.5).

2.4. Resumen

En este cap´ıtulo se describieron los fundamentos te´oricos utilizados en esta tesis.

En la sección 2.1 se presentó un método para modelar el fondo de la escena, el cual

está basado en caracter´ısticas de color y textura. Este método permite la adaptación

del modelo de fondo a cambios en iluminaci´on, movimiento de objetos, e inserci´on y

eliminación de objetos estacionarios de larga duración. En la sección 2.2 se presentaron

algoritmos para construir el modelo de la silueta de la persona basado en la

representa-ci´on de bases activas y para encontrar este modelo en una imagen. Estos algoritmos son

utilizados por el esquema de detecci´on de m´ultiples personas propuesto en el apartado

4.1 de esta tesis. En la sección 2.3 se formuló el problema de asociación como un

proble-ma de optimizaci´on. En el apartado 4.3.5 de esta tesis se propone un m´etodo GNN de

asociaci´on por similitud para vincular las trayectorias de las personas que est´an siendo

rastreadas con las mediciones de las personas detectadas.

El cap´ıtulo 3 de la tesis presenta el trabajo previo desarrollado en la literatura.

Espec´ıﬁcamente, describe distintos enfoques de seguimiento y sus ventajas y desventajas

al ser aplicados en el seguimiento de m´ultiples personas. Como nuestra investigaci´on se

centr´o en abordar el problema de oclusi´on, los enfoques expuestos hacen referencia a

(41)

Cap´ıtulo 3

Revisi´

on del trabajo previo

En este trabajo de investigaci´on se estudia el problema de oclusi´on en el seguimiento

de m´ultiples personas utilizando una c´amara estacionaria. En el presente cap´ıtulo se

exponen los principales trabajos previos que proponen estrategias para tratar el

proble-ma de la oclusión en el seguimiento de múltiples objetos. Los métodos propuestos han

seguido diversos enfoques. Las ventajas y las desventajas de estos enfoques as´ı como

las diferencias con nuestro trabajo se describen a lo largo del cap´ıtulo.

3.1. Introducci´

on al problema de seguimiento de

personas con oclusi´

on

El proceso de seguimiento se compone de dos etapas:

1. La etapa dedetecci´on y representaci´on, en la cual se distinguen a las personas del

fondo en las im´agenes de la secuencia y se obtienen las caracter´ısticas y

propie-dades que las describen; y

2. La etapa de asociaci´on temporal, la cual se apoya en la representaci´on de las

personas detectadas para relacionar de manera coherente las personas presentes

en el fotograma actual con las existentes en fotogramas previos.

(42)

Cuando las personas se encuentran espacialmente separadas en la escena y son

f´acilmente distinguibles unas de otras, el proceso de seguimiento puede resolverse f´

acil-mente mediante la ejecuci´on de m´ultiples rastreadores independientes [WPZZ10], tales

como:bounding-box tracker [SHT+06],hybrid appearance-guided particle filter [ZTJ07],

y CamShift guided particle filter [WYXY09]. Sin embargo, en escenarios con

aplica-ciones reales, el proceso de seguimiento se diﬁculta al afrontar problemas producidos

tanto por la complejidad del movimiento de las personas y las condiciones variables del

ambiente, como por las interacciones y oclusiones frecuentes entre los individuos.

La oclusi´on, incluso manifestada parcialmente, es el problema que m´as perjudica

al proceso de seguimiento de m´ultiples personas. La oclusi´on puede inducir a errores

como la fragmentaci´on de la trayectoria de los objetos rastreados y el intercambio

de sus identidades. En este contexto, es deseable que los algoritmos de seguimiento

mantengan la identidad de las personas y una aproximaci´on razonable de su ubicaci´on

durante los eventos de oclusi´on. De este modo se podr´a determinar que el individuo

no est´a temporalmente perdido y se podr´a continuar su seguimiento cuando el evento

termine.

3.2. Seguimiento con m´

ultiples c´

amaras

Un enfoque com´unmente adoptado por los trabajos de la literatura para afrontar el

problema de oclusión consiste en colocar múltiples cámaras en distintos ángulos. En una

configuración de múltiples vistas, la ubicación de los objetos ocluidos en una vista se

determina con base en la informaci´on disponible en las otras vistas. Por ejemplo, Khan

y Shan [KS09] proponen la creaci´on de una rejilla de ocupaci´on utilizando

transforma-ciones homogr´aﬁcas para localizar a las personas en el plano del suelo. El seguimiento

se lleva a cabo mediante la minimizaci´on de una funci´on de energ´ıa que combina la

información de la rejilla de ocupación e información espacio-temporal de la cercan´ıa

de los objetos. Mu˜noz Salinas et al. [MSMCMCCP09] presentan una extensi´on de los

(43)

3.3. SEGUIMIENTO CON UNA C ´AMARA 29

detectar oclusiones entre los objetos, el trabajo propone calcular un mapa de ocupaci´on

para cada c´amara empleando un esquema de ordenamiento por profundidad. La

evi-dencia de las personas visibles reunida por todas las c´amaras es fusionada para obtener

la mejor estimaci´on de la ubicaci´on de los objetos. Kaucic et al. [KPB+05] proponen

un m´etodo para unir fragmentos de trayectorias entre brechas de sensores mediante

el agrupamiento espacial de pares cercanos de fragmentos con atributos similares de

apariencia y movimiento.

Aunque una configuración de múltiples vistas reduce el grado de oclusión, no resuelve

este problema en escenarios donde existe una gran cantidad de oclusiones causadas por

la interacción de múltiples personas. El trabajo de [RNCS09] aprueba esta afirmación

y propone un método para la colocación estratégica de las cámaras que minimiza las

oclusiones presentadas en los sistemas de seguimiento de objetos.

3.3. Seguimiento con una c´

amara

En esta tesis, el problema de oclusi´on de m´ultiples personas es afrontado con una

sola cámara. En esta configuración, dos distintos enfoques de seguimiento, el colectivo

y elindividual, han sido aplicados.

3.3.1. Seguimiento colectivo

El seguimiento colectivo consiste en agrupar objetos cuando inicia un evento de

oclusi´on parcial, seguirlos en conjunto mientras el evento persiste y separarlos cuando

éste finaliza. Para lograr este objetivo se debe conocer cuántos y cuáles objetos

parti-cipan en el evento. El problema se presenta cuando la oclusi´on concluye, pues se debe

identiﬁcar el subconjunto que abandona al grupo. Si el problema se resuelve y se

res-tablecen correctamente las entidades involucradas al ﬁnalizar la oclusi´on, entonces es

posible la estimaci´on de la trayectoria de los objetos rastreados a lo largo de la duraci´on

(44)

Existen diferentes atributos como color, textura, forma y velocidad, que han

si-do utilizasi-dos para restablecer la identidad de los individuos que abansi-donan el grupo

[GVPG03]. La ubicaci´on de los objetos en el grupo puede obtenerse de manera indirecta

mediante la interpolaci´on de las posiciones de los objetos detectados antes y despu´es de

la oclusión, como propone [FV06]. Sin embargo, este modo de ubicación sólo funciona

correctamente cuando los atributos de los objetos son distintos.

Existen situaciones en donde la interacción de las personas dificulta la distinción

de la identidades de los objetos durante los eventos de oclusi´on. Estos casos requieren

de estrategias de solución anal´ıticas que determinen el inicio y el fin de una oclusión,

restrinjan el etiquetado de las personas en el grupo con oclusi´on, y permitan la deducci´on

de su ubicaci´on.

Por ejemplo, el trabajo de [SNC09] propone un algoritmo de seguimiento colectivo

para rastrear individuos con apariencias indistintas en aplicaciones de f´utbol soccer. El

algoritmo requiere de un grafo de seguimiento que describa las interacciones (mezclas y

separaciones) entre las personas durante la secuencia. El algoritmo analiza el grafo de

seguimiento y la medici´on de la similitud del modelo de color y patrones de pose de los

objetos. Luego infiere la configuración más probable de las trayectorias seguidas por los

individuos utilizando una red de inferencia bayesiana.

De manera similar, el m´etodo de [AA06] construye un grafo de seguimiento para

el rastreo de objetos r´ıgidos con apariencia distinta. El grafo modela informaci´on de

la visibilidad de los objetos y de sus agrupaciones. El an´alisis del grafo de seguimiento

proporciona, adem´as de la estimaci´on de las trayectorias de los objetos, un razonamiento

del ordenamiento de los objetos que se est´an ocluyendo.

En esta tesis se propone un algoritmo de asociaci´on temporal que, mediante la

construcci´on de un grafo de seguimiento, permite llevar a cabo el rastreo de personas

ante falsos positivos y falsos negativos en las mediciones de detecci´on, y en presencia de

oclusiones parciales y totales. El grafo es construido a partir de mediciones de detecci´on

y de reglas de interacci´on que modelan los atributos de apariencia, forma y movimiento

(45)

3.3. SEGUIMIENTO CON UNA C ´AMARA 31

[AA06], nuestro m´etodo no modela las mezclas y las separaciones entre los objetos para

seguir colectivamente a las personas durante las oclusiones, sino que realiza el rastreo de

personas individualmente modelando en el grafo los atributos de ´estas y su asociaci´on

por similitud.

3.3.2. Seguimiento individual

El seguimiento individual efect´ua el rastreo de cada individuo que participa en la

oclusi´on de manera independiente. Este enfoque no permite la formaci´on de entidades

grupales. Sin embargo, el enfoque requiere distinguir a los objetos involucrados en la

oclusión tan pronto como ésta sea detectada y durante el tiempo que ésta persista.

El trabajo previo incluye métodos de clasificación para distinguir a los objetos

invo-lucrados en el evento de oclusión. Comúnmente, la clasificación de los p´ıxeles se efectúa

mediante la evaluaci´on de una funci´on de similitud entre el modelo a priori de la

apa-riencia de cada persona y la apaapa-riencia de los p´ıxeles que se disputan durante la oclusi´on

[KS00, ED01, SHT+_{02, HHT04, HZHM09, ZZS08].}

Una caracter´ıstica particularmente ´util que puede ser utilizada en este enfoque es la

profundidad relativa entre los objetos ocluidos. En conﬁguraciones de una sola c´amara,

la profundidad ha sido obtenida evaluando diferentes hip´otesis con respecto al

orde-namiento espacial de las personas [ED01]. Tambi´en, se ha determinado el orden de

los objetos durante la oclusión mediante la valoración de la proporción de p´ıxeles en

disputa que son asignados a cada objeto, de modo que los objetos que reciben en

me-nor proporci´on los p´ıxeles en disputa tienen mayor profundidad [SHT+_{02]. Incluso se}

han combinado las caracter´ısticas de similitud de apariencia y forma de la silueta de

las personas que se ocluyen para inferir la ubicaci´on de las personas mediante la mejor

combinaci´on de siluetas [YCHC10]. En esta tesis se propone una estrategia para ordenar

los objetos involucrados en eventos de oclusi´on, la cual est´a apoyada en las relaciones de

la interacci´on de las personas y en sus modelos de apariencia, forma y movimiento. Esta

(46)

oclusi´on perdure.

A diferencia de los trabajos de [ED01], [SHT+_{02] y [YCHC10], la estrategia}

propues-ta en espropues-ta tesis para ordenar a los objetos participantes en una oclusi´on considera la

alineaci´on global de sus modelos de forma, su visibilidad en la imagen y su ordenamiento

previo.

En este trabajo de investigaci´on, el seguimiento de m´ultiples personas se realiza

de manera individual utilizando una sola cámara. En esta configuración, el problema

de oclusi´on se ha abordado desde dos perspectivas distintas: 1) mejorando la etapa

de detección y representación y 2) fortaleciendo la etapa de asociación temporal. Las

secciones 3.4 y 3.5 presentan los m´etodos propuestos en el trabajo previo en cada etapa

del proceso de seguimiento.

3.4. Enfoques de detecci´

on y representaci´

on

La detecci´on de personas se ha realizado de 3 maneras: 1) encontrando unconjunto

de atributos que describen de manera expl´ıcita a las personas que est´an siendo

busca-das en la imagen, por ejemplo: color [ED01], textura [ZZS08] o puntos caracter´ısticos

[ARS08]; 2) empleando modelos morfol´ogicos del cuerpo humano o de sus partes que

puedan ajustarse a los contornos extra´ıdos en la imagen [LD10]; y 3) caracterizando

algoritmos de aprendizaje autom´atico para que reconozcan de manera impl´ıcita

patro-nes sobresalientes de las personas mediante el entrenamiento con ejemplos positivos y

negativos [WN07, WN09].

La representaci´on de las personas se ha efectuado utilizando caracter´ısticas locales

o distintos tipos de atributos, como geom´etricos, temporales y de apariencia.

Algunos trabajos han utilizado caracter´ısticas locales como: SIFT-Scale Invariant

Feature Transform [ZYS09] y Haar [BELR10] en la representaci´on de los objetos. Sin

embargo, esta representación sólo es efectiva cuando los objetos tienen suficientes

carac-ter´ısticas locales sobresalientes, puesto que los cambios de pose y las oclusiones de los