Seguimiento de M´
ultiples Personas
considerando Oclusi´
on Parcial y Total
en Escenarios Estacionarios No Controlados
Por
Carolina Reta Castro
Tesis sometida como requisito parcial para obtener el grado de
DOCTORA EN CIENCIAS EN EL ´AREA DE
CIENCIAS COMPUTACIONALES
En el:
Instituto Nacional de Astrof´ısica, ´Optica y Electr´onica
Dirigida por:
Dr. Leopoldo Altamirano Robles
Puebla, M´exico Junio de 2014
c
INAOE 2014 Derechos reservados
El autor otorga al INAOE el permiso de reproducir y distribuir copias de esta tesis
Agradecimientos
A mi asesor, Dr. Leopoldo Altamirano Robles, por brindarme su apoyo en momentos
dif´ıciles y por dirigirme durante el desarrollo de la tesis.
Al Dr. Jes´us A. Gonz´alez Bernal, investigador del INAOE, y al Dr. Rafael Medina
Carnicer, investigador de la Universidad de C´ordoba en Espa˜na, por su colaboraci´on
en los art´ıculos de investigaci´on derivados de la tesis.
A los Dres. Miguel O. Arias Estrada, Ren´e A. Cumplido Parra, Eduardo F. Morales
Manzanares y Luis E. Sucar Succar, investigadores del INAOE, y al Dr. Juan L´opez
Coronado, investigador de la Universidad Polit´ecnica de Cartagena en Espa˜na, por el
tiempo dedicado a la revisi´on de esta tesis y sus valiosos comentarios.
Al grupo de investigaci´on Aplicaciones de la Visi´on Artificial de la Universidad de
C´ordoba en Espa˜na, por todo el apoyo que me brindaron durante mi estancia y por el
conocimiento que me compartieron.
Al CONACyT por otorgarme la beca No. 46341 para realizar mis estudios de
Doc-torado en Ciencias y a la Coordinaci´on de Ciencias Computacionales del INAOE por
encaminarme en la investigaci´on cient´ıfica.
Carolina Reta Castro.
El seguimiento de m´ultiples personas en entornos reales es un problema desafiante,
principalmente porque la silueta deformable del cuerpo humano y la iluminaci´on
va-riable del entorno cambian con el tiempo la apariencia de las personas. Esta situaci´on
provoca una alta dificultad en la asociaci´on temporal de la identidad de las personas.
El problema se acent´ua cuando los individuos se mueven cerca de otros, se ocluyen, o
cambian abruptamente su trayectoria.
En esta tesis se propone un nuevo algoritmo de asociaci´on temporal para el
segui-miento individual y secuencial de m´ultiples personas en escenarios no controlados a
partir de una c´amara estacionaria. El algoritmo de asociaci´on propuesto construye un
grafo de seguimiento a partir de un an´alisis de la interacci´on de las personas y de
me-diciones con ruido proporcionadas por un esquema de detecci´on de personas. El grafo
de seguimiento modela las relaciones espacio-temporales de las personas en la escena
para predecir y resolver oclusiones parciales y totales. Cuando se presenta un evento
de oclusi´on total, el algoritmo genera diversas hip´otesis acerca de la ubicaci´on de la
persona ocluida considerando 3 casos: a) la persona mantiene su misma direcci´on y
ve-locidad, b) la persona adopta la direcci´on y la velocidad de su oclusor, y c) la persona
permanece inm´ovil durante la oclusi´on. Mediante el an´alisis del grafo de seguimiento
durante su construcci´on, el algoritmo propuesto es capaz de detectar falsos positivos y
falsos negativos en las mediciones de detecci´on y tambi´en puede estimar la ubicaci´on
de personas no detectadas u ocluidas.
El algoritmo propuesto funciona aceptablemente en condiciones complejas, tales
co-mo: visibilidad parcial de los individuos para entrar o salir de la escena, interacciones
y oclusiones persistentes entre las personas, informaci´on incorrecta o faltante en la
tecci´on de las personas, as´ı como la variaci´on de la apariencia de la persona debido a
cambios en la iluminaci´on y distractores del fondo. El algoritmo fue evaluado en
secuen-cias de pruebas en el ´ambito de la vigilancia inteligente alcanzando una precisi´on del
93 %. Los resultados obtenidos muestran que el algoritmo secuencial propuesto supera
a algoritmos de seguimiento basados en trayectorias.
Palabras claves: seguimiento de personas, oclusi´on, grafo de seguimiento,
genera-ci´on de hip´otesis, caracter´ısticas espacio-temporales, video vigilancia.
Multiple people tracking in real environments is a challenging problem. This
hap-pens because the deformable human silhouette and the varying illumination conditions
change the appearance of people over time. This situation causes a high difficulty in the
temporal association of people’s identity. The problem is emphasized when individuals
move close to each other, they are occluded, or they abruptly change their trajectories.
This work proposes a novel temporal association algorithm to sequentially and
indi-vidually track multiple people under uncontrolled sceneries from a single camera. Our
association algorithm builds a tracking graph from an analysis of the interaction of
people and from noisy measurements provided by a detection scheme. The tracking
graph models spatio-temporal relationships among attributes of interacting people to
predict and resolve partial and total occlusions. When a total occlusion event occurs,
the algorithm generates various hypotheses about the location of the occluded person
considering 3 cases: a) the person keeps the same direction and speed, b) the person
follows the direction and speed of the occluder, and c) the person remains motionless
during occlusion. By analyzing the graph while it is being built, the proposed algorithm
is able to detect trajectories produced by false positives in the detection measurements
and it can also estimate the location of missing or occluded people.
Our algorithm performs acceptably under complex conditions, such as: partial
visi-bility of individuals getting inside or outside the scene, continuous interactions and
oc-clusions among people, wrong or missing information on the detection of persons, as well
as variation of the person’s appearance due to illumination changes and
background-clutter distracters. Our algorithm was evaluated on test sequences from the intelligent
surveillance field, achieving an overall precision of 93 %. Results show that our
tial algorithm outperforms trajectory-based state-of-the-art algorithms.
Keywords: people tracking, occlusion, tracking graph, hypothesis management,
spatio-temporal features, video surveillance.
Resumen I
Abstract III
1. Introducci´on 1
1.1. Motivaci´on . . . 1
1.2. Planteamiento del problema . . . 3
1.3. Preguntas de investigaci´on . . . 4
1.4. Objetivos . . . 5
1.5. Metodolog´ıa . . . 5
1.5.1. Detecci´on de regiones de inter´es . . . 6
1.5.2. Detecci´on de personas . . . 6
1.5.3. Representaci´on de las personas . . . 6
1.5.4. Seguimiento de individuos . . . 7
1.5.5. Prueba y evaluaci´on . . . 8
1.6. Contribuciones . . . 8
1.7. Organizaci´on del documento . . . 9
2. Marco Te´orico 11 2.1. Modelado adaptativo del fondo . . . 11
2.1.1. Descripci´on de las caracter´ısticas del modelo . . . 12
2.1.2. Algoritmo de modelado del fondo con m´ultiples capas . . . 13
2.2. Detecci´on de objetos mediante bases activas . . . 16
2.2.1. Representaci´on de bases activas . . . 16
2.2.2. Algoritmo de bosquejo compartido . . . 18
2.2.3. Arquitectura de inferencia de mapas SUM-MAX . . . 20
2.3. Problema de asociaci´on . . . 22
2.3.1. Formulaci´on del problema . . . 23
2.3.2. Algoritmo H´ungaro . . . 25
2.4. Resumen . . . 26
3. Revisi´on del trabajo previo 27 3.1. Introducci´on al problema de seguimiento de personas con oclusi´on . . . 27
3.2. Seguimiento con m´ultiples c´amaras . . . 28
3.3. Seguimiento con una c´amara . . . 29
3.3.1. Seguimiento colectivo . . . 29
3.3.2. Seguimiento individual . . . 31
3.4. Enfoques de detecci´on y representaci´on . . . 32
3.5. Enfoques de asociaci´on temporal . . . 37
3.5.1. M´etodos de asociaci´on basados en detecciones . . . 37
3.5.2. M´etodos de asociaci´on basados en trayectorias . . . 39
3.6. Discusi´on . . . 41
3.7. Resumen . . . 42
4. M´etodo propuesto 45 4.1. Detecci´on de personas . . . 46
4.2. Representaci´on de las personas . . . 50
4.2.1. Modelo de forma . . . 50
4.2.2. Modelo de apariencia . . . 50
4.2.3. Modelo de movimiento . . . 51
4.3. Seguimiento de personas . . . 52
4.3.1. Descripci´on del grafo de seguimiento . . . 52
4.3.3. Algoritmo de asociaci´on temporal . . . 56
4.3.4. Relaciones de oclusi´on . . . 60
4.3.5. Asociaci´on por similitud . . . 61
4.3.6. Actualizaci´on de atributos . . . 64
4.4. Resumen . . . 65
5. Experimentos 67 5.1. Secuencias de prueba . . . 68
5.2. Evaluaci´on del esquema de detecci´on . . . 69
5.3. Evaluaci´on del algoritmo de seguimiento . . . 76
5.4. Tiempos de procesamiento de los algoritmos . . . 82
5.5. Discusi´on . . . 82
5.6. Resumen . . . 84
6. Conclusiones 89 6.1. Conclusiones . . . 89
6.2. Contribuciones . . . 91
6.3. Trabajo futuro . . . 93
6.4. Art´ıculos de investigaci´on . . . 94
Bibliograf´ıa 94
2.1. Resultado de la detecci´on de regiones en movimiento a partir del m´etodo
de modelado de fondo adaptativo . . . 15
2.2. Representaci´on con bases activas . . . 17
2.3. Algoritmo de bosquejo compartido . . . 19
2.4. Algoritmo de mapas SUM-MAX . . . 21
2.5. Representaci´on del problema de asociaci´on mediante un grafo bipartito. 23 2.6. Formulaci´on del problema de asociaci´on mediante una matriz de costos. 24 4.1. Etapas que componen el m´etodo de seguimiento propuesto. . . 45
4.2. Esquema de detecci´on de personas . . . 48
4.3. Grafo de seguimiento . . . 54
5.1. Escenarios de prueba . . . 70
5.2. Comparaci´on del esquema de detecci´on propuesto con el m´etodo HOG-SVM . . . 72
5.3. Resultados del esquema de detecci´on de personas propuesto para el con-junto de datos USC 2005 . . . 74
5.4. Evaluaci´on del rendimiento de detecci´on para el conjunto de datos USC 2005 . . . 75
5.5. Resultados del algoritmo de asociaci´on temporal propuesto en la secuen-cia OneStopMoveEnter1 del conjunto de datos CAVIAR 2005 . . . 77
5.6. Resultados del algoritmo de asociaci´on temporal propuesto en la secuen-cia S2-L1-View 008 del conjunto de datos PETS 2009 . . . 78
5.7. Resultados del algoritmo de asociaci´on temporal propuesto en la
secuen-cia p3v1view1 del conjunto de datos UCO 2011 . . . 79
4.1. Variables y funciones del algoritmo de asociaci´on temporal. . . 58
5.1. Definici´on de los par´ametros del algoritmo de asociaci´on temporal. . . . 86
5.2. M´etricas de evaluaci´on para el seguimiento de objetos. . . 87
5.3. Comparaci´on de los algoritmos de seguimiento para el conjunto de datos
CAVIAR 2005 . . . 87
5.4. Evaluaci´on del algoritmo de seguimiento propuesto en distintos conjuntos
de datos de videovigilancia. . . 87
Cap´ıtulo 1
Introducci´
on
1.1.
Motivaci´
on
El seguimiento de personas en secuencias de im´agenes es un tema de investigaci´on
muy activo en el ´area de visi´on por computadora. Su estudio est´a motivado por la
importancia que tiene el reconocimiento e interpretaci´on autom´atica del movimiento
humano en el desarrollo de la tecnolog´ıa de an´alisis de video. Existe un amplio rango
de aplicaciones donde el seguimiento de personas es de vital importancia, tales como:
vigilancia para la seguridad inteligente, an´alisis de la cinem´atica de los deportistas para
la planificaci´on de t´ecnicas deportivas, conteo de personas o pasajeros, cuidado de ni˜nos,
personas enfermas y adultos mayores, entre otras.
El seguimiento de personas permite obtener informaci´on sobre las actividades que
realizan los humanos a trav´es del an´alisis de las caracter´ısticas de sus trayectorias. El
an´alisis de la posici´on y/o trayectoria de un individuo permite determinar si ´este se
encuentra caminando, corriendo, saltando, esperando algo, invadiendo un ´area no
per-mitida, o bien desarrollando una actividad sospechosa. Relacionando la informaci´on de
las trayectorias de dos o m´as individuos, es posible obtener informaci´on de sus
inter-acciones y determinar si las personas desarrollan actividades normales como caminar
en grupo, reunirse con otras personas, esperar a alguien; o si presentan una conducta
anormal como esconderse o alejarse fugazmente de otra persona.
El seguimiento de m´ultiples personas es un problema de investigaci´on abierto
cuan-do las personas se desenvuelven en escenarios reales, como: parques, escuelas, bancos,
museos, hospitales, centros comerciales, lobbies, aeropuertos, sitios tur´ısticos, paradas
del transporte p´ublico, fronteras, edificios de inter´es para la polic´ıa y el ej´ercito, entre
otros. El seguimiento de personas en ambientes reales es un problema complejo por las
siguientes razones:
1. El n´umero de personas que interact´uan en la escena es desconocido y variable en
el tiempo, debido a que los individuos pueden entrar y salir del campo de visi´on
de la escena.
2. Las personas son objetos altamente articulados cuya forma presenta variaciones
como consecuencia de su propio movimiento. Adem´as, la trayectoria de los
indi-viduos es compleja y puede estar sujeta a cambios repentinos e imprevisibles.
3. La apariencia de las personas en la escena no puede ser definida de manera
antici-pada. ´Esta var´ıa con el tiempo a consecuencia de cambios en la iluminaci´on de la
escena y ruido en el ambiente. La variaci´on en la apariencia de la persona puede
causar la p´erdida de la ubicaci´on del individuo en un lapso de tiempo espec´ıfico
y por consecuencia, la fragmentaci´on de su trayectoria.
4. Las interacciones entre personas pueden bloquear de manera parcial o total la
vista de los objetos desde la perspectiva de la c´amara. Las oclusiones provocan
cambios en la apariencia del individuo y pueden llevar a la confusi´on o p´erdida
de las trayectorias de las personas involucradas.
En esta tesis se investiga el problema del seguimiento de personas aplicado a
secuen-cias reales de im´agenes de vigilancia inteligente adquiridas con una c´amara estacionaria.
En este trabajo se propone un algoritmo de seguimiento capaz de localizar y mantener
la identidad de varias personas que pueden ocluirse en escenarios no controlados. El
1.2. PLANTEAMIENTO DEL PROBLEMA 3
para predecir y resolver oclusiones parciales y totales. De igual forma, examina
distin-tas hip´otesis sobre la ubicaci´on de las personas ocluidas con el fin de evitar su p´erdida
durante los eventos de oclusi´on total. El algoritmo propuesto afronta los problemas
inevitables en el seguimiento de m´ultiples personas como son los cambios en la
aparien-cia del individuo, las oclusiones entre los objetos y la confusi´on de las identidades de
los mismos.
1.2.
Planteamiento del problema
En esta tesis se plantea el problema de rastrear a m´ultiples individuos en un escenario
estacionario no controlado. El problema consiste en estimar la ubicaci´on de cada persona
en cada fotograma de la secuencia y en determinar su trayectoria desde que ´esta entra
hasta que sale de la escena, a´un cuando se perturbe la apariencia de la persona durante la
secuencia, se obtengan falsos positivos y falsos negativos en la detecci´on de las personas,
y ´estas sean ocluidas parcial o totalmente por otras personas u obst´aculos fijos. La
formalizaci´on de este problema se presenta a continuaci´on.
Sea Z el conjunto de M personas part´ıcipes en una secuencia de im´agenes I con duraci´onT. La secuencia de im´agenesI ={It⊂R2}var´ıa espacialmente en un conjunto de p´ıxeles {x} ⊂ It y temporalmente con t ∈ {1;T}. Cada persona es representada como Zm, donde m ∈ {1;M}. Suponiendo que K mediciones de personas est´an en la escena en el tiempo t, vamos a referirnos a la medici´on de la persona k ∈ {1;K}
como zkt y a denotar su historia de seguimiento como el conjunto de sus instancias previas Hzt
k = (z
1
k′, z2k′, ..., z t−2
k′ , z t−1
k′ ), donde zk′ adquiere el valor que le corresponde a la medici´on de la persona en el instante de tiempo respectivo.
Vamos a denotar el estado de visibilidad de la persona k en el tiempo t por Vt k y vamos a considerar eventos de oclusi´on binarios entre las instancias de las personas
rastreadas Ot
ij ∈ {0,1}, donde Oijt = 0 indica que no hay oclusi´on entre las personasi y j. Para los objetos participantes en el evento de oclusi´onOt
ij = 1, vamos a definir la funci´on πt
πt
ij = 1 indica que la persona iocluye a la persona j.
En esta tesis se propone un algoritmo de seguimiento que permite relacionar a cada
representaci´on de persona Zm con una medici´on zkt, a partir de la historia de segui-mientoHzm de la persona, la informaci´on del estado de visibilidad Vkt de la informaci´on observada en la imagen xtk | xkt−1, las relaciones de oclusi´on ∪Okjt , y las funciones de oclusi´on∪πt
kj.
1.3.
Preguntas de investigaci´
on
La pregunta de investigaci´on principal que respondemos en esta tesis es:
¿En qu´e medida es posible mantener el seguimiento personas ocluidas parcial o
totalmente a partir de informaci´on proporcionada por una c´amara utilizando la
evidencia de su detecci´on y la relaci´on espacio-temporal de su trayectoria con la
de las otras personas que participan en una escena real?
Las preguntas secundarias que nos permitieron dirigir la investigaci´on y contestar
la pregunta principal son:
¿Ayuda el modelado espacial de las trayectorias de las personas en la ubicaci´on de
los individuos en la escena que presentan oclusiones parciales severas o totales?
¿En qu´e grado ayuda la detecci´on basada en segmentos de forma a localizar a las
personas ocluidas parcialmente en un fotograma de la secuencia?
¿Qu´e caracter´ısticas de la apariencia y movimiento de las personas pueden ser
utilizadas para diferenciar a individuos ocluidos que presentan vestimenta similar
a su oclusor?
¿Qu´e caracter´ısticas del aspecto del fondo y de las personas se deben modelar
1.4. OBJETIVOS 5
1.4.
Objetivos
Objetivo general
Dise˜nar un algoritmo de seguimiento capaz de ubicar y mantener la identidad
co-rrecta de m´ultiples personas que pueden ocluirse, parcial o totalmente, a partir de una
secuencia de im´agenes con escenarios no controlados adquirida por una c´amara
estacio-naria.
Objetivos particulares
1. Establecer un esquema de representaci´on de las personas que sea capaz de
adap-tarse a las variaciones en el aspecto de ´estas causadas por oclusiones parciales y
cambios en la iluminaci´on del ambiente.
2. Plantear un algoritmo que permita la detecci´on de las oclusiones parciales y totales
originadas por la interacci´on de las personas con otros elementos del ambiente.
3. Proponer un algoritmo que encuentre y efect´ue la correspondencia temporal de
personas ocluidas o no detectadas, a partir de un an´alisis de la informaci´on
espacio-temporal de la interacci´on de las personas.
4. Dise˜nar un algoritmo de seguimiento que a partir de mediciones de detecci´on y
reglas de interacci´on permita identificar y ubicar en cada instante de tiempo a las
personas que participan en un escenario estacionario no controlado.
1.5.
Metodolog´ıa
A continuaci´on se describen las tareas principales de la metodolog´ıa propuesta en
1.5.1.
Detecci´
on de regiones de inter´
es
Para simplificar la b´usqueda de personas en la escena, en este trabajo se propone
detectar regiones en movimiento y regiones estacionarias.
La detecci´on de las regiones en movimiento se efectu´o mediante la sustracci´on del
modelo del fondo de la escena en cada fotograma de la secuencia. La detecci´on de las
regiones estacionarias se realiz´o aprovechando la informaci´on temporal de la ubicaci´on
y el ´area ocupada por los individuos en fotogramas previos.
El resultado del proceso de detecci´on de regiones de inter´es es una imagen binaria
compuesta por m´ultiples regiones, en la cual no existe necesariamente una
correspon-dencia entre las regiones en la imagen y los objetos en la escena.
1.5.2.
Detecci´
on de personas
En esta tesis se propone un esquema de detecci´on de m´ultiples personas que restringe
la b´usqueda del modelo del objeto a las regiones de inter´es de la imagen, con la finalidad
de disminuir la tasa de falsos positivos en las mediciones de detecci´on.
El modelo morfol´ogico de la persona se obtuvo a trav´es del entrenamiento de im´
age-nes con personas mediante el algoritmo planteado por [WSGZ10]. El esquema de
detec-ci´on propuesto realiza un filtrado de este modelo en distintas escalas de la imagen para
encontrar el ajuste del modelo que representa a los objetos con distinto tama˜no. El ´area
de la regi´on de inter´es ocupada por el modelo del individuo encontrado es analizada
por el esquema de detecci´on propuesto para estimar la porci´on visible del objeto.
El esquema de detecci´on propuesto permite la detecci´on de m´ultiples personas en
los fotogramas de la secuencia, incluyendo situaciones donde las personas se encuentran
parcialmente ocluidas.
1.5.3.
Representaci´
on de las personas
Las personas son modeladas empleando atributos que describen su apariencia, forma
1.5. METODOLOG´IA 7
La identificaci´on de los individuos se consigue cuando la similitud de apariencia y
movimiento espacial entre los atributos de las mediciones de detecci´on y los atributos
representados en los modelos de las personas rastreadas, es maximizada.
La m´etrica de similitud de apariencia sugerida en esta tesis es robusta ante la
altera-ci´on en las mediciones de detecci´on provocada por distractores del fondo e interacciones
entre las personas. La m´etrica de movimiento espacial propuesta permite la asociaci´on
de las identidades de personas que se ubican cerca cuando la apariencia de la persona
cambia a consecuencia de las variaciones en la iluminaci´on del escenario.
La representaci´on propuesta es adaptativa debido a que en cada instante de tiempo
se actualizan los atributos de apariencia, tama˜no y movimiento de los objetos rastreados
de acuerdo con el modo en que ´estos interact´uan con las otras personas y a los cambios
producidos en la iluminaci´on del escenario.
1.5.4.
Seguimiento de individuos
En esta tesis se propone un algoritmo que permite el seguimiento individual de
m´ultiples personas en escenarios estacionarios.
El algoritmo de seguimiento propuesto construye un grafo de seguimiento para
mo-delar a las personas que participan en el escenario a partir de reglas de interacci´on y
de mediciones de detecci´on. Estas reglas controlan la entrada y salida de los objetivos,
vinculan las mediciones de detecci´on con las personas previamente rastreadas y dirigen
el seguimiento de ´estas cuando se encuentran ocluidas.
El algoritmo analiza las relaciones espacio-temporales de las personas rastreadas
para detectar eventos de oclusi´on parcial y total, y determina para cada evento cu´al es
el individuo oclusor y cu´al es el individuo ocluido. Esta informaci´on es utilizada para
actualizar correctamente los atributos de las personas durante las oclusiones.
Mediante el an´alisis del grafo de seguimiento, el algoritmo propuesto detecta falsos
positivos y falsos negativos en las mediciones de detecci´on, y tambi´en estima la ubicaci´on
1.5.5.
Prueba y evaluaci´
on
El esquema de detecci´on y el algoritmo de seguimiento propuestos fueron
valida-dos en secuencias de referencia enfocadas a la vigilancia inteligente. Las secuencias de
prueba fueron seleccionadas de los repositorios CAVIAR 2005 [CAV05], PETS 2009
[PET09] y UCO 2011 [UCO11], las cuales presentan situaciones complejas de
interac-ciones y oclusiones entre las personas. Las secuencias de prueba permitieron evaluar el
funcionamiento del algoritmo de seguimiento en ambientes de interiores y exteriores.
La evaluaci´on del esquema de detecci´on y del algoritmo de seguimiento se llev´o a
cabo mediante las m´etricas de evaluaci´on usadas en los trabajos previos. El esquema
de detecci´on propuesto fue evaluado en las secuencias de prueba del repositorio
CA-VIAR, alcanzando una precisi´on del 87 %. La evaluaci´on del algoritmo de seguimiento
se llev´o a cabo mediante las m´etricas de evaluaci´on usadas en los trabajos previos. El
algoritmo de seguimiento consigui´o una precisi´on global del 93 % en las secuencias de
los repositorios de evaluaci´on. En las secuencias de prueba del repositorio CAVIAR,
el algoritmo de seguimiento propuesto obtuvo una precisi´on del 88.9 %, superando los
resultados obtenidos por los algoritmos del trabajo previo de [ZLN08] y [SJSRC10].
1.6.
Contribuciones
En este trabajo de investigaci´on se propone una soluci´on al problema de seguimiento
de m´ultiples personas en situaciones complejas con presencia de oclusi´on en escenarios
reales. Las contribuciones derivadas de esta tesis son:
1. Un esquema de detecci´on de m´ultiples personas que pueden presentar oclusi´on
parcial (apartado 4.1).
2. Un modelo de la interacci´on de las personas que predice oclusiones parciales y
totales y establece el orden de las personas implicadas en la oclusi´on (apartado
1.7. ORGANIZACI ´ON DEL DOCUMENTO 9
3. Un algoritmo para efectuar la correspondencia temporal entre trayectorias
exis-tentes y personas ocluidas o no detectadas (apartado 4.3.3).
4. Un algoritmo de seguimiento que permite identificar a las personas que participan
en la escena y estimar su ubicaci´on en cada instante de tiempo, a´un cuando se
encuentren ocluidas (apartado 4.3.3).
Este trabajo aporta conocimiento al ´area de visi´on por computadora en el tema
de seguimiento de m´ultiples personas, pues los algoritmos aqu´ı propuestos permiten
determinar en todo momento qu´e individuos est´an visibles u ocluidos en la escena y en
d´onde se encuentran.
1.7.
Organizaci´
on del documento
La tesis est´a organizada de la siguiente manera. En el cap´ıtulo 2 se describe el marco
te´orico. En el cap´ıtulo 3 se realiza un an´alisis de los trabajos previos que han sido
desa-rrollados para el seguimiento de personas, enfatizando las ventajas o limitaciones que
presentan para ser aplicados en situaciones reales. En el cap´ıtulo 4 se explican el
mode-lo propuesto para la representaci´on de las personas y el algoritmo de correspondencia
temporal que permiten mantener el seguimiento de personas ocluidas. En el cap´ıtulo
5 se presentan los conjuntos de prueba que fueron usados en la validaci´on del
siste-ma de seguimiento propuesto. De igual forsiste-ma se muestran los experimentos, resultados
alcanzados y la comparaci´on con trabajos previos. En el cap´ıtulo 6 se presentan las
conclusiones, el trabajo futuro propuesto y los art´ıculos derivados de este trabajo de
Cap´ıtulo 2
Marco Te´
orico
En este cap´ıtulo se explican los fundamentos de los algoritmos utilizados en este
trabajo de investigaci´on, los cuales permitieron el desarrollo del esquema de detecci´on
de m´ultiples personas y del m´etodo de asociaci´on por similitud propuestos.
2.1.
Modelado adaptativo del fondo
En esta tesis la b´usqueda de las personas en la escena se reduce a las regiones de la
imagen que indican movimiento. Estas regiones se obtienen mediante la comparaci´on
del modelo del fondo de la escena con cada fotograma de la secuencia.
El fondo de la escena es modelado empleando m´ultiples capas mediante el m´etodo
propuesto por [YO07]. La aplicaci´on de ´este es apropiada en escenarios estacionarios
porque permite la adaptaci´on del modelo de apariencia del fondo ante cambios locales
en la iluminaci´on del ambiente, y movimiento de los objetos del primer plano. Adem´as,
el m´etodo se adapta a la aparici´on y desaparici´on de objetos estacionarios de larga
duraci´on y a las variaciones en la apariencia de ´estos originadas por movimiento. Este
m´etodo permite remover los objetos fantasmas producidos por el cambio de fondo de la
escena. Sin embargo, no es robusto ante camuflaje y reflexi´on de la luz. La aplicaci´on
del m´etodo busca un balance entre la velocidad a la cual el modelo se adapta a los
cambios en el fondo y la estabilidad del mismo, por lo que se evita olvidar el fondo que
est´a temporalmente ocluido. Por esta raz´on se eligi´o este m´etodo para modelar el fondo
de la escena.
2.1.1.
Descripci´
on de las caracter´ısticas del modelo
El m´etodo propuesto por [YO07] analiza las caracter´ısticas de color y textura de las
im´agenes de una secuencia para construir y mantener una representaci´on estad´ıstica de
la escena en cada instante de tiempo.
El m´etodo utiliza el operador LBP (Local Binary Pattern) como una medida
in-variante de textura para im´agenes en escala de grises. El operador LBP consiste en
el etiquetado de un p´ıxel x en una imagen I mediante una funci´on de umbralizaci´on
entre la diferencia del valor de intensidad del p´ıxel y el valor de cada p´ıxel vecino. Este
operador se representa como:
LBPP,R(x) = {LBP
(p)
P,R(x)}p=1,...,P
LBPP,R(p)(x) = s(Ig(v
p)−Ig(x)−n)
s(x) =
1 x≥0 0 x <0
(2.1)
dondeIg denota el valor de intensidad en la escala de grises en la imagenI y{vp}p=1,...,P es el conjunto de P p´ıxeles igualmente espaciados localizados dentro de un c´ırculo con
radioR y centro x. El par´ametron es un par´ametro de ruido que hace que el operador
LBP sea m´as estable en las areas uniformes, pues describe la m´ınima cantidad de
variaci´on del valor de intensidad que es considerada como significativa.
El operador LBP es robusto a cambios en el valor de intensidad de los p´ıxeles
ocasionados por un cambio global o local en la iluminaci´on. El uso de este operador en
el modelado del fondo permite afrontar el problema de las sombras de los objetos en el
escenario. Sin embargo, el operador LBP no permite diferenciar entre los objetos del
primer plano y el fondo de la escena cuando ´estos comparten la misma informaci´on de
2.1. MODELADO ADAPTATIVO DEL FONDO 13
(IR, IG, IB) que representan el valor de intensidad de los p´ıxeles de la imagen I en el espacio de colorRGB.
El modelo del fondo de la escena es representado porK capas independientes, donde
cada capa representa la moda mk aprendida para modelar la apariencia que puede adoptar cada p´ıxel a partir de los datos observados hasta el fotograma actual. La moda
mk consiste de 7 componentes
mk ={Ik,Iˆk,Iˇk, LP Bk, wk,wˆk, Lk} (2.2) dondeIk = (IkR, IkG, IkB) es el vector promedio en RGB de la moda. ˆIke ˇIkson los vectores m´aximo y m´ınimo, en RGB, que el p´ıxel asociado con la moda puede adquirir. LP Bk es el promedio del operador LBP aprendido a partir de todos los descriptores LBP
asignados a la misma moda.wk∈[0,1] es un factor de peso que indica la probabilidad de que la moda pertenezca al fondo. ˆwk representa el valor m´aximo adquirido por el peso en el pasado. Lk es el n´umero de capa a la que pertenece la moda. Cuando este n´umero es cero, significa que la moda no es confiable para el modelado del fondo.
2.1.2.
Algoritmo de modelado del fondo con m´
ultiples capas
El modelado del fondo mediante m´ultiples capas facilita la detecci´on de los objetos
que contrastan con todos los fondos aprendidos a partir de las observaciones del pasado;
y permite que el fondo se adapte a cambios en la escena producidos por la inserci´on y
eliminaci´on de objetos estacionarios.
A continuaci´on se describen los pasos del algoritmo propuesto por [YO07] para
modelar el fondo de la escena.
Paso 1 B´usqueda de la moda m´as cercana
Dadas las caracter´ısticas LBPt y RGBt obtenidas en la imagenIt en el instante de tiempo actual t, se calcula la distancia entre estas caracter´ısticas y los datos
Paso 2 Actualizaci´on de modas
Si la distancia de la moda m´as cercana ˜k es mayor que un umbral establecido, se
crea una nueva moda con par´ametros
mk˜ ={It, It, It, LBPt, winit, winit,0} (2.3) donde winit denota un valor muy peque˜no para el peso inicial de la moda. Esta nueva moda se agrega a la lista de modas si Kt−1 < K, o remplaza la moda
existente con el peso m´as peque˜no si Kt−1 =K.
De lo contrario, si la moda m´as cercana ˜k est´a lo suficientemente cerca de los
datos observados, la moda m˜k se actualiza de la siguiente manera:
mk˜
It ˜
k = (1−α)I t−1 ˜
k +αI t
LBPt
˜
k = (1−α)LBP t−1 ˜
k +αLBP t ˜ k ˆ It ˜
k = m´ax(I
t,(1−β) ˆIt−1 ˜
k ) ˇ
It
˜
k = m´ın(I
t,(1 +β) ˇIt−1 ˜
k )
wt
˜
k = (1−γ i w)w
t−1 ˜
k +γ i w ˆ
wt
˜
k = m´ax( ˆw t−1 ˜
k ,wˆ t
˜
k)
L = 1 + m´ax{Ltk−1}k=1,...,Kt−1,k̸=˜k, si Lt˜−1
k = 0 y ˆw t
˜
k > Tbw
(2.4)
El resto de modas conserva sus atributos intactos, excepto el atributo de peso que
decrece de acuerdo con wkt = (1−γwd)wtk−1.
En las expresiones anteriores, el par´ametro α∈(0,1) es una tasa de aprendizaje que controla la actualizacion de la informacion de color y textura. El par´ametro
β ∈ [0,1) es una tasa de aprendizaje que evita que los valores m´aximos o m´ıni-mos de los valores de intensidad contin´uen increment´andose o decrement´andose
durante el tiempo. El par´ametroγi
con-2.1. MODELADO ADAPTATIVO DEL FONDO 15
trola la actualizaci´on del atributo de peso. El par´ametro γd
w ∈ (0,1) es el factor decreciente de peso que controla la actualizaci´on del atributo de peso. El umbral
Tbwes utilizado para verificar si la moda actualizada es confiable para el modelado del fondo.
La figura 2.1 ilustra el resultado de la detecci´on de regiones en movimiento obtenido
para una imagen de prueba a partir del m´etodo de modelado de fondo adaptativo
propuesto por [YO07].
Figura 2.1: Resultado de la detecci´on de regiones en movimiento a partir del m´etodo de modelado de fondo adaptativo propuesto por [YO07].
La figura 2.1(a) presenta una imagen con personas en movimiento en el instante de tiempo actual de una secuencia. La figura 2.1(b) muestra el modelo del fondo de la escena aprendido a partir de las observaciones del pasado. La figura 2.1(c) presenta el mapa de distancia entre la apariencia de la imagen actual y el modelo del fondo. La figura 2.1(d) muestra la detecci´on de las regiones en movimiento de la imagen obtenidas por el m´etodo de umbralizaci´on a partir del mapa de distancia. Note que la sombra de las personas en la escena no forma parte de las regiones en movimiento detectadas.
2.2.
Detecci´
on de objetos mediante bases activas
En esta tesis las personas son detectadas a partir del modelo deformable de su silueta
representado por una base activa. Este modelo es tolerante a oclusiones parciales y
cambios en la silueta percibida de las personas. Esta representaci´on es adoptada en el
esquema de detecci´on de personas propuesto (ver apartado 4.1) porque es tolerante a los
cambios de forma de la silueta de las personas. Adem´as, no requiere de la fragmentaci´on
de las partes del cuerpo humano para hacer frente a las oclusiones parciales.
2.2.1.
Representaci´
on de bases activas
Una base activa1consiste en un n´umero peque˜no de elementos dewavelets de Gabor
en ubicaciones y orientaciones seleccionadas [WSGZ10]. Estos elementos tienen
permi-tido cambiar ligeramente sus ubicaciones y orientaciones antes de que sean linealmente
combinados para generar un modelo observado. La figura 2.2 ilustra la idea b´asica de
la representaci´on con bases activas. La mitad inferior muestra una base activa, donde
cada elemento es ilustrado por una elipse estrecha en una posici´on y orientaci´on
deter-minada. La mitad superior de la figura ilustra la deformaci´on de un elemento de la base
activa.
Formalmente, el filtro de Gabor est´a definido como:
G(x, y) =e−
(σxx)2+(σyy)2
2 eix, donde σx < σy (2.5)
G(x, y) puede ser trasladado, rotado y dilatado para obtener un elemento dewavelets
de Gabor expresado como:
Bx,y,s,α(x′, y′) =G
˜ x s,
˜ y s s2 ˜
x= (x′−x) cosα+ (y′ −y) sinα
˜
y= (x′−x) sinα+ (y′−y) cosα
(2.6)
2.2. DETECCI ´ON DE OBJETOS MEDIANTE BASES ACTIVAS 17
Figura 2.2: Representaci´on con bases activas [WSGZ10].
Cada elemento de la base activa se ilustra por una elipse estrecha con cierta ubicaci´on y orientaci´on. La parte superior de la figura muestra las deformaciones de un elemento de la base activa. Este elemento (elipse en color negro) puede cambiar a otro elemento de la base activa (elipse en color azul) si es trasladado o rotado dentro de un rango limitado.
donde (x, y) es la posici´on central del filtro, s es el par´ametro de escala y α es el
par´ametro de orientaci´on.
Una imagen puede ser expresada mediante una base activa de la siguiente forma:
Im = n
∑
i=1
cm,iBm,i+ϵm (2.7)
donde n es el n´umero de elementos que conforman la base activa, Bm,i son filtros de Gabor, {cm,i, i= 1, . . . , n} son coeficientes y ϵm es el residuo de la imagen Im.
A partir de esta representaci´on, se plantea seleccionar un conjunto de filtros Bi que represente un conjunto de{Bm,i}deformados para constituir el modelo del objeto, mientras se considera que el fondo de la imagen queda representado en el residuo ϵm.
2.2.2.
Algoritmo de bosquejo compartido
Dado un conjunto de im´agenes de entrenamiento {Im, m= 1, . . . , M}, el algoritmo de bosquejo compartido2 [WSGZ10] secuencialmente seleccionaB
i y la deformaBm,i≈
Bi para ajustarla en cada imagenIm. La idea esencial es seleccionar Bi de manera que sus versiones deformadas{Bm,i, m= 1, ..., M}delineen tantos segmentos de borde como sea posible en las im´agenes de entrenamiento {Im}. Para este prop´osito, se supone que se conoce la distribuci´onq(Im) del fondo de las im´agenes y que los filtros seleccionados no se traslapan entre s´ı. Para elegir los elementosBi de la base activa B, se maximiza la distancia entre las distribuciones q(Im) y p(Im|B). La figura 2.3 ejemplifica esta descripci´on.
A continuaci´on se describen los pasos del algoritmo de bosquejo compartido
pro-puesto por [WSGZ10].
Paso 1 Convoluci´on
Se obtienen las respuestas de los filtros de Gabor en las diferentes orientaciones
α en todas las im´agenes de entrenamiento.
Paso 2 Maximizaci´on local
Se busca la mayor respuesta de los filtros en cada p´ıxel de la imagen con respecto
a la vecindad de dicho p´ıxel para obtener Bi ≈Bm,i. De este modo, se le permite al modelo un cierto grado de deformaci´on.
Paso 3 Selecci´on
Se selecciona el elemento Bi cuya suma de las respuestas a los filtros en todas las im´agenes sea mayor. Este paso elige el elemento de la base activa que representa
un borde destacado del objeto.
Paso 4 Supresi´on
Se eliminan las respuestas de los filtros en todas las im´agenes cuya correlaci´on
2.2. DETECCI ´ON DE OBJETOS MEDIANTE BASES ACTIVAS 19
Figura 2.3: Algoritmo de bosquejo compartido [WSGZ10].
Un elemento seleccionado (elipse de color) es compartido por todas las im´agenes de entrenamiento que contienen al objeto a modelar (im´agenes con ciervos). Para cada imagen, una versi´on deformada del elemento busca bosquejar un segmento de borde del objeto cercano al elemento seleccionado. Los elementos de la base activa se seleccionan en orden de acuerdo con la divergencia de Kullback-Leibler entre las distribuciones pi de las respuestas de los filtros de Gabor aplicados en las im´agenes de entrenamiento (curvas continuas en color) y la distribuci´on q de las respuestas de estos filtros en las im´agenes que modelan el fondo de la escena (curva discontinua en negro). El orden de selecci´on favorece al elemento cuya distribuci´on pi se aleja m´as de la distribuci´on de referencia q. Este orden determina qu´e elementos se ajustan en mayor cantidad a los segmentos de borde de las im´agenes de entrenamiento.
con el elemento seleccionado Bi sea mayor que cero. Esto se realiza para asegurar la independencia entre las distribuciones de las respuestas de los filtros.
Paso 5 Repetir el algoritmo desde el paso 2 hasta que los n elementos que conforman
2.2.3.
Arquitectura de inferencia de mapas SUM-MAX
Dada una imagen de pruebaI, el modelo del objetoB representado por los elementos
Bi ≈Bxi,yi,si,αipuede ser usado para detectar el objeto en la imagen y hacer un bosquejo del objeto encontrado. Para realizar el ajuste del modelo en la imagen se requiere
encontrar la posici´on de los elementos Bi. Esto se logra encontrando los par´ametros espaciales en el p´ıxel de la imagen en donde se maximice la verosimilitud deP(I|B).
La ecuaci´on 2.8 representa la medida de ajuste.
MATCH(I, B) = n
∑
i=1
λi⟨I, Bi⟩ −logZ(λi) (2.8) donde⟨I, Bi⟩ es la respuesta al filtro Bi en la imagenI,λi puede ser calculada a partir de∑nm=1⟨Im, Bm,i⟩en el paso de selecci´on del algoritmo de bosquejo compartido y Z es una funci´on no lineal.
La figura 2.4 muestra gr´aficamente el algoritmo de inferencia de mapas SUM-MAX
que encuentra el modelo del objetoB en la imagen de pruebaI. El algoritmo construye
tres mapas: SUM1, MAX1 y SUM2. El mapa SUM1 contiene las respuestas de los filtros
de Gabor, el mapa MAX1 contiene los m´aximos locales de las respuestas en cada p´ıxel
y el mapa SUM2 representa el ajuste del modelo en la imagen obtenido por la ecuaci´on
2.8.
A continuaci´on se describen los pasos del algoritmo de mapas SUM-MAX propuesto
por [WSGZ10].
Paso 1 Obtenci´on del mapa SUM1 (Convoluci´on)
Se obtienen las respuestas de los filtros de Gabor en las diferentes orientaciones
α en la imagen de prueba.
Paso 2 Obtenci´on del mapa MAX1 (Maximizaci´on local)
Se busca la mayor respuesta de los filtros en cada p´ıxel de la imagen con respecto
2.2. DETECCI ´ON DE OBJETOS MEDIANTE BASES ACTIVAS 21
Figura 2.4: Algoritmo de mapas SUM-MAX [WSGZ10].
Los mapas SUM1 se obtienen mediante la convoluci´on de la imagen de entrada con los filtros de Gabor en todas las ubicaciones y orientaciones. Las elipses en los mapas SUM1 ilustran la operaci´on de suma o filtrado local. Los mapas MAX1 se obtienen mediante la aplicaci´on de un operador de maximizaci´on local a los mapas SUM1. Las flechas en los mapas MAX1 ilustran las deformaciones sobre las cuales se obtiene la maximizaci´on local. Los mapas SUM2 se calculan mediante la aplicaci´on de un operador de suma local a los mapas MAX1, donde la suma se realiza sobre los elementos de la base activa. Esta operaci´on calcula el logaritmo de la verosimilitud del modelo deformable y se puede interpretar como un filtro de forma.
Paso 3 Obtenci´on del mapa SUM2 (Filtro de forma)
Se obtiene el valor del logaritmo de la verosimilitud de la plantilla en cada posici´on
del mapa MAX1 para representar qu´e tan bien se ajusta el modelo en la imagen.
A partir de este mapa, se puede obtener el mejor ajuste del modelo al encontrar
la posici´on con mayor valor en el mapa.
El algoritmo del modelado adaptativo del fondo, el algoritmo de bosquejo
compar-tido y la arquitectura de inferencia de mapas SUM-MAX permitieron el desarrollo del
esquema de detecci´on de m´ultiples personas propuesto en esta tesis (apartado 4.1).
2.3.
Problema de asociaci´
on
Una de las mayores dificultades del seguimiento de m´ultiples objetos radica en el
problema de la asociaci´on entre las mediciones de detecci´on con las trayectorias de
los objetos rastreados. El problema es complejo porque com´unmente el n´umero de
mediciones no corresponde con el n´umero de objetos rastreados. Adem´as, el n´umero de
objetos es dif´ıcil de estimar ya que ´estos pueden entrar y salir del campo de visi´on de
la escena, estar temporalmente ocluidos, o ser un falso negativo o un falso positivo en
las mediciones de detecci´on.
La asociaci´on de datos busca elegir la medici´on m´as probable para el objeto
ras-treado. Si se selecciona la medici´on incorrecta, la estimaci´on de su estado puede ser
da˜nada. Los algoritmos de asociaci´on de datos m´as comunes para el seguimiento de
m´ultiples personas son:Nearest Neighbor (NN),Global Nearest Neighbor (GNN),Joint
Probability Data Association (JPDA) y Multiple Hypothesis Tracking (MHT) [YJS06,
HTWM04, Bla04]. Las caracter´ısticas de estos algoritmos se describen en el apartado
3.5.1 de la tesis. Estos m´etodos difieren en complejidad as´ı como en su habilidad para
manejar incertidumbre y ambig¨uedades en las asociaciones. Los algoritmos incrementan
su complejidad en este orden NN(polinomial), GNN (polinomial), JPDA (NP-hard) y
2.3. PROBLEMA DE ASOCIACI ´ON 23
En esta tesis la asociaci´on de datos se formula mediante un algoritmo GNN como un
problema de optimizaci´on en el que una funci´on objetivo tiene que ser minimizada (ver
apartado 2.3.1). El m´etodo H´ungaro plantea una soluci´on a este problema en tiempo
polinomial de grado c´ubico (ver apartado 2.3.2).
2.3.1.
Formulaci´
on del problema
El problema de asociaci´on consiste en crear parejas entre los elementos de un
con-juntoAy un conjuntoB con igual n´umero de elementos, minimizando el costo total de
la asignaci´on3.
El problema de asociaci´on puede representarse mediante un grafo bipartito. Los
v´ertices del grafo pueden ser particionados en dos conjuntos disjuntos A y B. Las
aristas del grafo s´olo pueden conectar v´ertices del conjuntoA con v´ertices del conjunto
B. Las aristas tienen un peso asociado cij que representa el costo de que al elemento
i∈A se le asigne el elementoj ∈B. La figura 2.5 describe gr´aficamente este problema.
Figura 2.5: Representaci´on del problema de asociaci´on mediante un grafo bipartito.
3En esta tesis, A representa a las personas que est´an siendo rastreadas y B a las mediciones de
detecci´on. Si los conjuntosAyBtienen tama˜no distinto, se agregan elementos al conjunto con menor
El problema puede formularse en forma de una matriz de costoscij como se presenta en la figura 2.6:
conjunto B
conjun
to
A
1 2 · · · j · · · n
1 c11 c12 · · · c1j · · · c1n 2 c21 c22 · · · c2j · · · c2n
.. . ...
i ci1 ci2 · · · cij · · · cin ..
. ...
n cn1 cn2 · · · cnj · · · cnn
Figura 2.6: Formulaci´on del problema de asociaci´on mediante una matriz de costos.
Vamos a denotar la asignaci´on del elementoi ∈A con el elementoj ∈B como xij, tal que:
xij =
1 si elemento i∈A puede asociarse con el elemento j ∈B
0 en caso contrario
(2.9)
Vamos a expresar el problema de asignaci´on como un problema de programaci´on
lineal mediante la funci´on objetivo:
Minimizarz = n ∑ i=1 n ∑ j=1
cijxij (2.10)
sujeto a las restricciones:
∑n
j=1xij = 1 ∀i∈ {1,2, . . . n} (1)
∑n
i=1xij = 1 ∀j ∈ {1,2, . . . n} (2) xij ∈ {0,1} ∀i, j ∈ {1,2, . . . n} (3)
(2.11)
Las restricciones 1 y 3 significan que a cada elemento del conjunto A se le asigna
2.3. PROBLEMA DE ASOCIACI ´ON 25
fila se le asigna un costo de diferente columna.
Las restricciones 2 y 3 significan que cada elemento del conjuntoB debe ser asignado
a diferentes elementos del conjuntoA. Esto significa, en la matriz de costos, que a cada
columna se le asigna un peso de diferente fila.
2.3.2.
Algoritmo H´
ungaro
El algoritmo H´ungaro, publicado por Kuhn en 1955 [Kuh05] y mejorado por
Mun-kres en 1957 [Mun57], propone un algoritmo de asociaci´on de peso m´aximo para grafos
ponderados, bipartitos y completos. El algoritmo plantea una soluci´on ´optima al
pro-blema de asignaci´on en tiempo polinomial (O(n3)).
A continuaci´on se describen los pasos de este algoritmo.
Paso 1 Obtenci´on de ceros
Encontrar el costo m´ınimo en cada fila de la matriz de costos y restarlo a todos
los elementos del mismo rengl´on. Luego, encontrar el elemento m´as peque˜no en
cada columna y restarlo a todos los elementos de la misma columna. La matriz
obtenida ser´a conocida como matriz de costos reducida.
Paso 2 B´usqueda de una soluci´on ´optima
Trazar el n´umero m´ınimo de l´ıneas horizontales y/o verticales que se requieren
para cubrir todos los ceros de la matriz de costos reducida. Si el n´umero de l´ıneas
es igual a la dimensi´on de la matriz, entonces el algoritmo encontr´o una soluci´on
´
optima al problema. En este caso, terminar el algoritmo. De lo contrario, continuar
con el paso 3.
Paso 3 Obtenci´on y desplazamiento de ceros
Encontrar el elemento con menor valor en la matriz de costos reducida que no
est´e cubierto por las l´ıneas trazadas en el paso previo. Restar este costo en cada
elemento no cubierto de la matriz y sumar este costo en los elementos de la matriz
El algoritmo H´ungaro es utilizado por el m´etodo de asociaci´on por similitud
propues-to en la tesis para vincular las trayecpropues-torias de las personas que est´an siendo rastreadas
con las mediciones de las personas detectadas (apartado 4.3.5).
2.4.
Resumen
En este cap´ıtulo se describieron los fundamentos te´oricos utilizados en esta tesis.
En la secci´on 2.1 se present´o un m´etodo para modelar el fondo de la escena, el cual
est´a basado en caracter´ısticas de color y textura. Este m´etodo permite la adaptaci´on
del modelo de fondo a cambios en iluminaci´on, movimiento de objetos, e inserci´on y
eliminaci´on de objetos estacionarios de larga duraci´on. En la secci´on 2.2 se presentaron
algoritmos para construir el modelo de la silueta de la persona basado en la
representa-ci´on de bases activas y para encontrar este modelo en una imagen. Estos algoritmos son
utilizados por el esquema de detecci´on de m´ultiples personas propuesto en el apartado
4.1 de esta tesis. En la secci´on 2.3 se formul´o el problema de asociaci´on como un
proble-ma de optimizaci´on. En el apartado 4.3.5 de esta tesis se propone un m´etodo GNN de
asociaci´on por similitud para vincular las trayectorias de las personas que est´an siendo
rastreadas con las mediciones de las personas detectadas.
El cap´ıtulo 3 de la tesis presenta el trabajo previo desarrollado en la literatura.
Espec´ıficamente, describe distintos enfoques de seguimiento y sus ventajas y desventajas
al ser aplicados en el seguimiento de m´ultiples personas. Como nuestra investigaci´on se
centr´o en abordar el problema de oclusi´on, los enfoques expuestos hacen referencia a
Cap´ıtulo 3
Revisi´
on del trabajo previo
En este trabajo de investigaci´on se estudia el problema de oclusi´on en el seguimiento
de m´ultiples personas utilizando una c´amara estacionaria. En el presente cap´ıtulo se
exponen los principales trabajos previos que proponen estrategias para tratar el
proble-ma de la oclusi´on en el seguimiento de m´ultiples objetos. Los m´etodos propuestos han
seguido diversos enfoques. Las ventajas y las desventajas de estos enfoques as´ı como
las diferencias con nuestro trabajo se describen a lo largo del cap´ıtulo.
3.1.
Introducci´
on al problema de seguimiento de
personas con oclusi´
on
El proceso de seguimiento se compone de dos etapas:
1. La etapa dedetecci´on y representaci´on, en la cual se distinguen a las personas del
fondo en las im´agenes de la secuencia y se obtienen las caracter´ısticas y
propie-dades que las describen; y
2. La etapa de asociaci´on temporal, la cual se apoya en la representaci´on de las
personas detectadas para relacionar de manera coherente las personas presentes
en el fotograma actual con las existentes en fotogramas previos.
Cuando las personas se encuentran espacialmente separadas en la escena y son
f´acilmente distinguibles unas de otras, el proceso de seguimiento puede resolverse f´
acil-mente mediante la ejecuci´on de m´ultiples rastreadores independientes [WPZZ10], tales
como:bounding-box tracker [SHT+06],hybrid appearance-guided particle filter [ZTJ07],
y CamShift guided particle filter [WYXY09]. Sin embargo, en escenarios con
aplica-ciones reales, el proceso de seguimiento se dificulta al afrontar problemas producidos
tanto por la complejidad del movimiento de las personas y las condiciones variables del
ambiente, como por las interacciones y oclusiones frecuentes entre los individuos.
La oclusi´on, incluso manifestada parcialmente, es el problema que m´as perjudica
al proceso de seguimiento de m´ultiples personas. La oclusi´on puede inducir a errores
como la fragmentaci´on de la trayectoria de los objetos rastreados y el intercambio
de sus identidades. En este contexto, es deseable que los algoritmos de seguimiento
mantengan la identidad de las personas y una aproximaci´on razonable de su ubicaci´on
durante los eventos de oclusi´on. De este modo se podr´a determinar que el individuo
no est´a temporalmente perdido y se podr´a continuar su seguimiento cuando el evento
termine.
3.2.
Seguimiento con m´
ultiples c´
amaras
Un enfoque com´unmente adoptado por los trabajos de la literatura para afrontar el
problema de oclusi´on consiste en colocar m´ultiples c´amaras en distintos ´angulos. En una
configuraci´on de m´ultiples vistas, la ubicaci´on de los objetos ocluidos en una vista se
determina con base en la informaci´on disponible en las otras vistas. Por ejemplo, Khan
y Shan [KS09] proponen la creaci´on de una rejilla de ocupaci´on utilizando
transforma-ciones homogr´aficas para localizar a las personas en el plano del suelo. El seguimiento
se lleva a cabo mediante la minimizaci´on de una funci´on de energ´ıa que combina la
informaci´on de la rejilla de ocupaci´on e informaci´on espacio-temporal de la cercan´ıa
de los objetos. Mu˜noz Salinas et al. [MSMCMCCP09] presentan una extensi´on de los
3.3. SEGUIMIENTO CON UNA C ´AMARA 29
detectar oclusiones entre los objetos, el trabajo propone calcular un mapa de ocupaci´on
para cada c´amara empleando un esquema de ordenamiento por profundidad. La
evi-dencia de las personas visibles reunida por todas las c´amaras es fusionada para obtener
la mejor estimaci´on de la ubicaci´on de los objetos. Kaucic et al. [KPB+05] proponen
un m´etodo para unir fragmentos de trayectorias entre brechas de sensores mediante
el agrupamiento espacial de pares cercanos de fragmentos con atributos similares de
apariencia y movimiento.
Aunque una configuraci´on de m´ultiples vistas reduce el grado de oclusi´on, no resuelve
este problema en escenarios donde existe una gran cantidad de oclusiones causadas por
la interacci´on de m´ultiples personas. El trabajo de [RNCS09] aprueba esta afirmaci´on
y propone un m´etodo para la colocaci´on estrat´egica de las c´amaras que minimiza las
oclusiones presentadas en los sistemas de seguimiento de objetos.
3.3.
Seguimiento con una c´
amara
En esta tesis, el problema de oclusi´on de m´ultiples personas es afrontado con una
sola c´amara. En esta configuraci´on, dos distintos enfoques de seguimiento, el colectivo
y elindividual, han sido aplicados.
3.3.1.
Seguimiento colectivo
El seguimiento colectivo consiste en agrupar objetos cuando inicia un evento de
oclusi´on parcial, seguirlos en conjunto mientras el evento persiste y separarlos cuando
´este finaliza. Para lograr este objetivo se debe conocer cu´antos y cu´ales objetos
parti-cipan en el evento. El problema se presenta cuando la oclusi´on concluye, pues se debe
identificar el subconjunto que abandona al grupo. Si el problema se resuelve y se
res-tablecen correctamente las entidades involucradas al finalizar la oclusi´on, entonces es
posible la estimaci´on de la trayectoria de los objetos rastreados a lo largo de la duraci´on
Existen diferentes atributos como color, textura, forma y velocidad, que han
si-do utilizasi-dos para restablecer la identidad de los individuos que abansi-donan el grupo
[GVPG03]. La ubicaci´on de los objetos en el grupo puede obtenerse de manera indirecta
mediante la interpolaci´on de las posiciones de los objetos detectados antes y despu´es de
la oclusi´on, como propone [FV06]. Sin embargo, este modo de ubicaci´on s´olo funciona
correctamente cuando los atributos de los objetos son distintos.
Existen situaciones en donde la interacci´on de las personas dificulta la distinci´on
de la identidades de los objetos durante los eventos de oclusi´on. Estos casos requieren
de estrategias de soluci´on anal´ıticas que determinen el inicio y el fin de una oclusi´on,
restrinjan el etiquetado de las personas en el grupo con oclusi´on, y permitan la deducci´on
de su ubicaci´on.
Por ejemplo, el trabajo de [SNC09] propone un algoritmo de seguimiento colectivo
para rastrear individuos con apariencias indistintas en aplicaciones de f´utbol soccer. El
algoritmo requiere de un grafo de seguimiento que describa las interacciones (mezclas y
separaciones) entre las personas durante la secuencia. El algoritmo analiza el grafo de
seguimiento y la medici´on de la similitud del modelo de color y patrones de pose de los
objetos. Luego infiere la configuraci´on m´as probable de las trayectorias seguidas por los
individuos utilizando una red de inferencia bayesiana.
De manera similar, el m´etodo de [AA06] construye un grafo de seguimiento para
el rastreo de objetos r´ıgidos con apariencia distinta. El grafo modela informaci´on de
la visibilidad de los objetos y de sus agrupaciones. El an´alisis del grafo de seguimiento
proporciona, adem´as de la estimaci´on de las trayectorias de los objetos, un razonamiento
del ordenamiento de los objetos que se est´an ocluyendo.
En esta tesis se propone un algoritmo de asociaci´on temporal que, mediante la
construcci´on de un grafo de seguimiento, permite llevar a cabo el rastreo de personas
ante falsos positivos y falsos negativos en las mediciones de detecci´on, y en presencia de
oclusiones parciales y totales. El grafo es construido a partir de mediciones de detecci´on
y de reglas de interacci´on que modelan los atributos de apariencia, forma y movimiento
3.3. SEGUIMIENTO CON UNA C ´AMARA 31
[AA06], nuestro m´etodo no modela las mezclas y las separaciones entre los objetos para
seguir colectivamente a las personas durante las oclusiones, sino que realiza el rastreo de
personas individualmente modelando en el grafo los atributos de ´estas y su asociaci´on
por similitud.
3.3.2.
Seguimiento individual
El seguimiento individual efect´ua el rastreo de cada individuo que participa en la
oclusi´on de manera independiente. Este enfoque no permite la formaci´on de entidades
grupales. Sin embargo, el enfoque requiere distinguir a los objetos involucrados en la
oclusi´on tan pronto como ´esta sea detectada y durante el tiempo que ´esta persista.
El trabajo previo incluye m´etodos de clasificaci´on para distinguir a los objetos
invo-lucrados en el evento de oclusi´on. Com´unmente, la clasificaci´on de los p´ıxeles se efect´ua
mediante la evaluaci´on de una funci´on de similitud entre el modelo a priori de la
apa-riencia de cada persona y la apaapa-riencia de los p´ıxeles que se disputan durante la oclusi´on
[KS00, ED01, SHT+02, HHT04, HZHM09, ZZS08].
Una caracter´ıstica particularmente ´util que puede ser utilizada en este enfoque es la
profundidad relativa entre los objetos ocluidos. En configuraciones de una sola c´amara,
la profundidad ha sido obtenida evaluando diferentes hip´otesis con respecto al
orde-namiento espacial de las personas [ED01]. Tambi´en, se ha determinado el orden de
los objetos durante la oclusi´on mediante la valoraci´on de la proporci´on de p´ıxeles en
disputa que son asignados a cada objeto, de modo que los objetos que reciben en
me-nor proporci´on los p´ıxeles en disputa tienen mayor profundidad [SHT+02]. Incluso se
han combinado las caracter´ısticas de similitud de apariencia y forma de la silueta de
las personas que se ocluyen para inferir la ubicaci´on de las personas mediante la mejor
combinaci´on de siluetas [YCHC10]. En esta tesis se propone una estrategia para ordenar
los objetos involucrados en eventos de oclusi´on, la cual est´a apoyada en las relaciones de
la interacci´on de las personas y en sus modelos de apariencia, forma y movimiento. Esta
oclusi´on perdure.
A diferencia de los trabajos de [ED01], [SHT+02] y [YCHC10], la estrategia
propues-ta en espropues-ta tesis para ordenar a los objetos participantes en una oclusi´on considera la
alineaci´on global de sus modelos de forma, su visibilidad en la imagen y su ordenamiento
previo.
En este trabajo de investigaci´on, el seguimiento de m´ultiples personas se realiza
de manera individual utilizando una sola c´amara. En esta configuraci´on, el problema
de oclusi´on se ha abordado desde dos perspectivas distintas: 1) mejorando la etapa
de detecci´on y representaci´on y 2) fortaleciendo la etapa de asociaci´on temporal. Las
secciones 3.4 y 3.5 presentan los m´etodos propuestos en el trabajo previo en cada etapa
del proceso de seguimiento.
3.4.
Enfoques de detecci´
on y representaci´
on
La detecci´on de personas se ha realizado de 3 maneras: 1) encontrando unconjunto
de atributos que describen de manera expl´ıcita a las personas que est´an siendo
busca-das en la imagen, por ejemplo: color [ED01], textura [ZZS08] o puntos caracter´ısticos
[ARS08]; 2) empleando modelos morfol´ogicos del cuerpo humano o de sus partes que
puedan ajustarse a los contornos extra´ıdos en la imagen [LD10]; y 3) caracterizando
algoritmos de aprendizaje autom´atico para que reconozcan de manera impl´ıcita
patro-nes sobresalientes de las personas mediante el entrenamiento con ejemplos positivos y
negativos [WN07, WN09].
La representaci´on de las personas se ha efectuado utilizando caracter´ısticas locales
o distintos tipos de atributos, como geom´etricos, temporales y de apariencia.
Algunos trabajos han utilizado caracter´ısticas locales como: SIFT-Scale Invariant
Feature Transform [ZYS09] y Haar [BELR10] en la representaci´on de los objetos. Sin
embargo, esta representaci´on s´olo es efectiva cuando los objetos tienen suficientes
carac-ter´ısticas locales sobresalientes, puesto que los cambios de pose y las oclusiones de los