Instituto Tecnológico y de Estudios Superiores de Monterrey
Monterrey, Nuevo León a
Lic. Arturo Azuara Flores:
Director de Asesoría Legal del Sistema
Por medio de la presente hago constar que soy autor y titular de la obra titulada
", en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto Tecnológico y de Estudios Superiores de Monterrey (EL INSTITUTO) para que efectúe la divulgación, publicación, comunicación pública, distribución y reproducción, así como la digitalización de la misma, con fines académicos o propios al objeto de EL INSTITUTO.
El Instituto se compromete a respetar en todo momento mi autoría y a otorgarme el crédito correspondiente en todas las actividades mencionadas anteriormente de la obra.
De la misma manera, desligo de toda responsabilidad a EL INSTITUTO por cualquier violación a los derechos de autor v propiedad intelectual que cometa el suscrito frente a terceros.
Campus Monterrey
Reconocimiento Visual de Ademanes Aplicado a Robots
Móviles
Title Reconocimiento Visual de Ademanes Aplicado a Robots Móviles
Authors Avilés Arriaga, Héctor H.
Abstract El reconocimiento visual de ademanes es un elemento clave en el éxito de una comunicacio ?n natural humano-robot mo ?vil. Los ademanes permiten a las personas instruir a los robots para que realicen tareas como abrir la puerta, traer el café o tirar la basura. La literatura describe muchos avances interesantes en este campo. Sin embargo, existen todav ??a muchos problemas que deben ser
resueltos, para aumentar la naturalidad y efectividad de este tipo de interfaces.
Esta tesis aborda dos problemas fundamentales en el desarrollo de interfaces hombre-máquina por medio de ademanes: los atributos necesarios para describir los
ademanes y los modelos para describir esta informacio ?n y clasificar los ademanes. Por más de 3 décadas los atributos que reflejan las sen ?ales de movimiento han sido
privilegiados como la informacio ?n más u ?til para describir los ademanes. En contraste, en este trabajo se propone el uso de una combinacio ?n de informacio ?n de postura y movimiento del representar los ademanes. Al mismo tiempo, se presentan dos nuevos modelos para clasificar los ademanes: los clasificadores Bayesianos simples dinámicos y las redes lo ?gico-probabilistas. En este trabajo se condujeron diversos experimentos para evaluar la importancia de la informa- cio ?n de postura-movimiento en comparacio ?n con una representacio ?n basada so ?lo en movimiento. Al mismo tiempo, se
compara el desempen ?o de clasificacio ?n y aprendizaje de los clasificadores Bayesianos simples dinámicos y las redes lo ?gico-probabilistas con los modelos ocultos de Markov. Las muestras de ademanes utilizadas en los experimentos se tomaron de 15 personas. Los exper- imentos incluyen el reconocimiento de ejemplos de ademanes de una persona de frente y a una distancia fija de la videocámara,
ademanes con variaciones de la distancia a la videocámara, con giros de la persona con respecto al plano horizontal y ejemplos de ademanes de mu ?ltiples usuarios. Por un lado, en todos los experimentos se observo ? una mejora
reconocimiento. Las ideas anteriores se aplicaron
eficazmente en la instruccio ?n a distancia de un robot mo ?vil dentro de un ambiente de laboratorio. Los resultados de este trabajo son una aportacio ?n al desarrollo de una teor ??a general del reconocimiento visual de ademanes.
Discipline Ingeniería y Ciencias Aplicadas / Engineering & Applied Sciences
Item type Tesis
???pdf.cover.sheet .thesis.degree.nam e???
Programa de Graduados en Informática y Computación
???pdf.cover.sheet .dc.contributor.adv isor???
Dr. Luis Enrique Sucar Succar
???pdf.cover.sheet .thesis.degree.disci pline???
Escuela de Graduados en Informática y Computación
???pdf.cover.sheet .thesis.degree.prog ram???
Campus Cuernavaca
Rights Open Access
Downloaded 18-Jan-2017 06:42:02
INSTITUTO TECNOL ´
OGICO Y DE
ESTUDIOS SUPERIORES DE MONTERREY
CAMPUS CUERNAVACA
Reconocimiento visual de ademanes aplicado
a robots m´oviles
H´ector Hugo Avil´es Arriaga
Tesis presentada al Programa de Graduados en Inform´atica y
Computaci´on como requisito parcial para obtener el grado de
Doctor en Ciencias Computacionales
Asesores:
Dr. Luis Enrique Sucar Succar
Dr. Carlos Eduardo Mendoza Dur´an
Dedico esta tesis...
...a mi mam´a.
Agradecimientos
En el tiempo en que se desarroll´o este trabajo, tuve la oportunidad de conocer a muchas personas a quienes quiero agradecer por compartir conmigo esta etapa de mi vida.
Al equipo administrativo del Tecnol´ogico de Monterrey Campus Cuernavaca y a la Divisi´on Acad´emi-ca de Inform´atiAcad´emi-ca y Sistemas de la Universidad Ju´arez Aut´onoma de Tabasco. En especial a Ran-ulfo Macedo, Carlos Gonz´alez, Dalila Jim´enez, Norma, To˜nita, Juanita Canul, Eric Ramos, Wilbert Colorado, Guillermo de los Santos y al C.P. Jos´e Antonio Garc´ıa Sastr´e. Gracias a todos ellos por otorgarme las facilidades necesarias para concluir este trabajo.
A mis profesores, Eduardo Morales, Fernando Ramos, Santiago Negrete, V´ıctor Z´arate y Jos´e Luis Li˜nan. Gracias por mostrarme el mundo de las ciencias computacionales desde diferentes persepecti-vas. A mis revisores, Juan Frausto, Homero R´ıos y Arturo Espinosa, por sus generosos comentarios y sugerencias y por leer r´apidamente mi documento.
A mis amigos y compa˜neros de posgrado: Alberto, Leonardo, Gildardo, Julieta, Blanca, Antonio, Michel, Cinthia, Vicky, Gaby, Jos´e Luis, V. J´aquez y V. Enr´ıquez, David G´omez, Carlos Miranda, Jackie, Sergio, Gilberto, Gerardo, Pamela, Vladimir, Sonia, Julio y Paty, Giovani, Marco, Lilian, Luis,
Claudia, Lutgardo y ´Angeles, Luis ´Angel, Mario, Mary Carmen Plasencia, Ana, Isabel, Sof´ıa,
De-nia, Martha Bennet, H´ector Buenabad, Adri´an y Elizabeth, Ver´onica, Karla, Rosy y Josu´e. Especial agradecimiento a la Sra. Coty Salgado y familia. Todos ellos estuvieron involucrados directa o indirec-tamente y voluntaria o involuntariamente en el desarrollo de este trabajo. Much´ısimas gracias a todos por su amistad y por su apoyo.
A mi co-asesor el Dr. Carlos Eduardo Mendoza Dur´an, por brindarme su tiempo en aquellas largas
explicaciones para mejorar mi entendimiento sobre los modelos ocultos de Markov y el algoritmoEM,
por formar parte de la experimentaci´on y tambi´en por el tiempo de sus estudiantes en la evaluaci´on del dise˜no de mis experimentos.
A mi mentor y mecenas, el Dr. Luis Enrique Sucar Succar. Hay una larga lista de razones por las cuales le estoy agradecido. Este trabajo no habr´ıa sido posible de no haber contado con el soporte, compro-miso, direcci´on y amistad de una persona como ´el. Dudo que pueda mostrar mi aprecio completamente, pero le ofrezco mi eterna gratitud.
Finalmente, pero en el primer lugar de mi coraz´on, a mi mam´a Esperanza y a mis hermanos. Ellos fueron la inspiraci´on para lograr este objetivo.
Estoy seguro que no he escrito el nombre de muchas personas importantes. Todos ellos pueden estar
Resumen
El reconocimiento visual de ademanes es un elemento clave en el ´exito de una comunicaci´on natural humano-robot m´ovil. Los ademanes permiten a las personas instruir a los robots para que realicen tareas como abrir la puerta, traer el caf´e o tirar la basura. La literatura describe muchos avances interesantes en este campo. Sin embargo, existen todav´ıa muchos problemas que deben ser resueltos, para aumentar la naturalidad y efectividad de este tipo de interfaces.
Esta tesis aborda dos problemas fundamentales en el desarrollo de interfaces hombre-m´aquina por medio de ademanes: los atributos necesarios para describir los ademanes y los modelos para describir esta informaci´on y clasificar los ademanes. Por m´as de 3 d´ecadas los atributos que reflejan las se˜nales de movimiento han sido privilegiados como la informaci´on m´as ´util para describir los ademanes. En contraste, en este trabajo se propone el uso de una combinaci´on de informaci´on de postura y movimiento del representar los ademanes. Al mismo tiempo, se presentan dos nuevos modelos para clasificar los ademanes: los clasificadores Bayesianos simples din´amicos y las redes l´ogico-probabilistas.
´Indice general
1. Introducci´on 1
1.1. ¿Ademanes para comunicarse con los robots? . . . 1
1.1.1. Etapas del reconocimiento visual de ademanes . . . 2
1.2. El problema: confusi´on en la clasificaci´on de ademanes similares . . . 3
1.3. Objetivo de la tesis . . . 5
1.3.1. Alcance del trabajo . . . 6
1.4. Metodolog´ıa . . . 6
1.5. Contribuciones . . . 9
1.6. Contenido del documento . . . 11
2. Comunicaci´on visual con robots por medio de ademanes 12 2.1. Interacci´on Humano-Computadora con ademanes . . . 12
2.2. Ademanes para instruir robots de servicio . . . 14
2.2.1. Robots m´oviles . . . 14
2.2.2. Robots humanoides . . . 18
2.3. Robots teleoperados con ademanes . . . 20
2.4. Conclusiones . . . 22
3. Redes Bayesianas din´amicas para el reconocimiento visual de ademanes 23 3.1. Redes Bayesianas . . . 23
3.2. Sistemas din´amicos . . . 25
3.3. Redes Bayesianas din´amicas para la descripci´on de sistemas din´amicos . . . 27
3.3.1. Inferencia . . . 29
3.3.2. Aprendizaje . . . 32
3.4. Redes Bayesianas din´amicas para el reconocimiento de ademanes . . . 33
3.5. Conclusiones . . . 35
4. Atributos para describir los ademanes 37 4.1. Descripciones con atributos de movimiento . . . 37
4.2. Descripciones basadas en la postura . . . 39
4.3. Combinaci´on de postura y movimiento . . . 40
4.4. Evaluaci´on de los atributos para los ademanes . . . 42
4.5. Atributos propuestos en esta tesis . . . 44
4.6. Conclusiones . . . 46
5. Clasificador Bayesiano simple din ´amico y las redes l ´ogico-probabilistas 48 5.1. El clasificador Bayesiano simple . . . 48
5.1.1. Definici´on . . . 48
5.1.2. An´alisis . . . 50
5.2. Clasificador Bayesiano simple din´amico . . . 51
5.2.1. Definici´on . . . 51
5.2.2. Inferencia . . . 51
5.2.3. Aprendizaje . . . 53
5.3. Redes l´ogico-probabilistas . . . 53
5.3.1. Definici´on . . . 54
5.3.2. Inferencia y aprendizaje . . . 55
5.4. Conclusiones . . . 55
6. Sistemas de an´alisis visual 57 6.1. El problema de detecci´on . . . 57
6.2. El problema de seguimiento . . . 58
6.3. Sistema No. 1 . . . 59
6.3.1. Detecci´on . . . 59
6.3.2. Seguimiento . . . 60
6.3.3. Ambiente de trabajo y plataforma de desarrollo . . . 61
6.3.4. Dificultades de operaci´on con el Sistema No. 1 . . . 62
6.4. Sistema No. 2 . . . 62
6.4.1. Detecci´on . . . 62
6.4.2. Seguimiento . . . 65
6.4.3. Ambiente de trabajo y plataforma de desarrollo . . . 67
6.5. Conclusiones . . . 68
7. Experimentos y resultados en el reconocimiento visual de ademanes 69 7.1. Procedimiento experimental . . . 69
7.1.1. Muestreo de los ademanes . . . 70
7.1.2. Arquitectura de los modelos de reconocimiento . . . 72
7.1.3. Selecci´on de los datos de entrenamiento y prueba . . . 73
7.1.4. Entrenamiento y prueba de los clasificadores . . . 74
7.2. Experimento 1: Reconocimiento de ademanes usando muestras de un usuario . . . 75
7.2.1. Discusi´on . . . 76
7.3. Experimento 2: Reconocimiento de ademanes con variaciones de distancia entre el usuario y la videc´amara . . . 78
7.3.1. Discusi´on . . . 78
7.4.1. Discusi´on . . . 81
7.5. Experimento 4: Reconocimiento de ademanes con muestras de diferentes usuarios . . . 82
7.5.1. Discusi´on . . . 82
7.6. Experimento 5: Reconocimiento de ademanes usando redes l´ogico-probabilistas . . . . 84
7.6.1. Discusi´on . . . 85
7.7. Aplicaci´on de los ademanes en la instrucci´on de un robot m´ovil . . . 87
7.7.1. Discusi´on . . . 89
7.8. Conclusiones . . . 91
8. Conclusiones y trabajo futuro 93 8.1. Resumen . . . 93
8.2. Aportaciones . . . 94
8.2.1. Atributos para describir los ademanes . . . 94
8.2.2. Modelos de reconocimiento . . . 95
8.2.3. Implementaci´on del sistema de an´alisis visual . . . 96
8.2.4. Aplicaci´on de los ademanes en la teleoperaci´on del robot m´ovil . . . 96
8.3. Trabajo futuro . . . 97
´Indice de figuras
1.1. Proceso del reconocimiento visual de ademanes implementado en un robot. . . 3
1.2. Ejemplo de ademanes con forma de ejecuci´on similar. . . 4
1.3. Ademanes considerados en estos experimentos. . . 7
2.1. Robot CHIP utilizado en el sistema Perseus. . . 15
2.2. Sistema Perseus. El cono de color negro que parte de la mano es la regi´on de la imagen donde se espera localizar la lata [Kahn, 1995]. . . 15
2.3. Posturas reconocidas por el sistema de Bonasso [Bonasso et al., 1995]. . . 16
2.4. Modelo del brazo compuesto por los espacios de proximidad EP1 a EP4, los vectores L1 a L4 y las articulaciones J1 a J3. Las flechas punteadas indican c´omo se busca el objeto si se pierde su seguimiento. La flecha sobre el rostro indica el ajuste del espacio de proximidad al rostro (imagen modificada de [Bonasso et al., 1995]). . . 17
2.5. Robot humanoide JINGANG (imagen modificada de [Guo et al., 1999]). . . 19
2.6. Ejemplo de un sistema de reconocimiento visual de ademanes que emula una palanca de control. . . 21
3.1. Ejemplo de una red Bayesiana con 6 variables o nodos en la red . . . 26
3.2. Ejemplo de una red Bayesiana din´amica desarrollada det 1✁✄✂☎✂✆✁3. . . 28
3.3. Ejemplo de transiciones v´alidas en una cadena de Markov. . . 29
3.4. Representaci´on gr´afica de un modelo oculto de Markov como una red Bayesiana din´amica. . . 30
3.5. Representaci´on gr´afica de un modelo oculto de Markov de Entrada-Salida. . . 34
3.6. Representaci´on gr´afica de los modelos ocultos de Markov acoplados. . . 34
3.7. Representaci´on gr´afica de un modelo oculto de Markov param´etrico. . . 35
4.1. Fen´omeno de movimiento biol´ogico. . . 38
4.2. Ejemplos de transformaciones: a) imagen original, b) cambio de escala; c) variaci´on de perspectiva de ✝ 45✞ y d) variaci´on de perspectiva de ✟ 45✞ aproximadamente con respecto al observador. . . 39
4.3. Ejemplos de plantillas temporales (Figura modificada de [Bobick, 1997]). . . 40
4.4. Descripci´on de un adem´an por medio de posturas (Figura modificada de [Waldherr, 1998]) . . . 41
4.5. Atributos de postura propuestos por [Corradini, 2001]. . . 42
4.6. Ejemplo de los atributos de movimiento basados en un sistema coordenado centrado en la imagen. . . 46
4.7. Atributos propuestos de la postura del individuo. . . 47
5.1. Representaci´on gr´afica de un clasificador Bayesiano simple. . . 50
5.2. Representaci´on gr´afica de un clasificador Bayesiano simple din´amico con 3 atributos desarrollado 3 tiempos. . . 52 5.3. Representaci´on gr´afica de una red l´ogico-probabilista. En esta representaci´on, la
vari-able l´ogicaZse representa por un rect´angulo (Imagen tomada de [Morales et al., 2000]). 55
6.1. Ejemplo de la detecci´on del rostro y la ventana de b´usqueda de la mano estimada a trav´es de proporciones antropom´etricas del rostro. . . 61 6.2. Secuencia de 3 im´agenes del seguimiento de la mano. . . 61 6.3. Medio ambiente de trabajo. . . 62 6.4. Ejemplo de la aplicaci´on de crecimiento de regiones: a) imagen original; b) resultado
del crecimiento conΛ 12 y c)Λ 25. . . 63
6.5. Estimaci´on de las regiones de la mano y del torso del usuario. . . 65
6.6. Ejemplo de la localizaci´on del rostro y seguimiento de la mano del usuario en el sis-tema No. 2. . . 67
7.1. Edad, estatura y longitud del brazo de las personas de las cuales se obtuvieron las muestras de ademanes. . . 71 7.2. Topolog´ıa lineal de 5 estados o clases utilizada en los modelos ocultos de Markov y
los clasificadores Bayesianos Simples din´amicos. . . 72 7.3. Representaci´on gr´afica de las suposiciones de independencia probababilista de los
atributos para los clasificadores Bayesianos simples din´amicos y los modelos ocultos de Markov . . . 73
7.4. Ejemplo de una matriz de confusi´on con dos clases,AyB. Cada rengl´on corresponde
a las muestras de un adem´an particular presentadas. Las columnas corresponden a la salida de la clasificaci´on. . . 75 7.5. Experimento 1: a) promedio de porcentajes de reconocimiento y b) promedio de
it-eraciones del algoritmo EM. . . 77 7.6. Promedio de las matrices de confusi´on del experimento 1 con los modelos entrenados
con 20 muestras de cada adem´an. . . 79 7.7. Experimento 2. Promedio de porcentajes de reconocimiento de 10 repeticiones del
experimento como una funci´on del n´umero de muestras de entrenamiento. . . 80 7.8. Experimento 3. Promedio del n´umero de iteraciones del algoritmo EM de 10
repeti-ciones del experimento como una funci´on del n´umero de muestras de entrenamiento. . 81 7.9. Experimento 4. Promedio de porcentajes de reconocimiento de 10 repeticiones del
experimento como una funci´on del n´umero de muestras de entrenamiento. . . 83 7.10. Representaci´on gr´afica de la topolog´ıa de las redes l´ogico-probabilistas . . . 85
7.11.Experimento 5. Resultados de clasificaci´on y entrenamiento usando las redes
7.12. Redes Bayesianas din´amicas 1 y 2. . . 87
7.13.Experimento 5. Resultados de clasificaci´on y entrenamiento usando las redes
Bayesianas din´amicas. . . 88 7.14. Ejemplo de la aplicaci´on del sistema de reconocimiento de ademanes para instruir un
´Indice de cuadros
4.1. Conjunto de atributos utilizado por [Campbell et al., 1996]. . . 43
6.1. Dimensiones f´ısicas del cuerpo humano [Azpeitia, 1987, Kahn, 1995]. . . 60
7.1. Relaci´on adem´an-acci´on para la instrucci´on del robot m´ovil. . . 89
Cap´ıtulo 1
Introducci´on
1.1.
¿Ademanes para comunicarse con los robots?
Imagine un futuro donde los robots preparen el caf´e, abran la puerta o recojan la basura por usted. Para realizar de forma efectiva esas tareas, dichos robots deben poseer habilidades de comunicaci´on
simi-lares a las utilizadas por los humanos en la vida diaria. Una de tales habilidades es la comunicaci´on por
ademanes. ´Estos conforman un medio visible para expresar sentimientos y actitudes, realizar ´ordenes,
indicar lugares y la duraci´on de alg´un suceso; tambi´en son un complemento para el lenguaje hablado
y pueden clarificarlo cuando es ambiguo o inaudible. La Enciclopedia Universal Ilustrada
Europeo-Americana [Enc, 1975] define un adem´an como:
Adem´an.(Etim. Del lat´ınad, a, ymanus, mano.)Acci ´on, signo, movimiento, se ˜nal exterior con que se manifiesta ´o expresa algo.
Seg´un esta definici´on, un adem´an puede involucrar cualquier parte del cuerpo. Sin embargo, una
idea generalmente aceptada es que son las manos y los brazos los elementos m´as usados en su
ejecu-ci´on. Estos miembros son los m´as expresivos despu´es del rostro; adem´as, con ellos es posible conocer
y manipular los objetos del mundo [Cadoz, 1994]. De acuerdo a lo anterior, cuando se hable de un
adem´an en esta tesis se querr´a decir que es un:
Acto o movimiento que comunica informaci ´on y que se realiza con la(s) mano(s) y/o brazo(s).
En unainteracci ´on directahumano-robot los ademanes pueden mostrar c´omo, d´onde y con qu´e objetos
debe ejecutar sus tareas el robot [Rybski and Voyles, 1999, Wasson et al., 1998]. De la misma forma,
se les puede operar a distancia, aunque ´esta es una aplicaci´on mucho menos explorada.
Espec´ıfica-mente, en este documento se le denominareconocimiento visual de ademanesa:
El proceso de an´alisis visual para asignar a un adem ´an un concepto o significado previamente
conocido.
1.1.1.
Etapas del reconocimiento visual de ademanes
La figura 1.1 muestra las etapas que conforman el reconocimiento visual de ademanes. En este caso el
proceso se encuentra implantado en un robot m´ovil. Inicialmente, una o m´as videoc´amaras capturan
una secuencia de im´agenes que registra la ejecuci´on de un adem´an. En estas im´agenes se realiza un
an´alisis visualpara aislar la figura del individio en cada imagen y describirla mediante alg´un
mode-lo predeterminado –e.g., representaciones con formas geom´etricas simples [Kortenkamp et al., 1996,
Starner, 1995], el contornoo lasilueta[Isard and Blake, 1998]. De estas descripciones se extraeuna
secuencia deobservacioneso valores deatributosrelevantes para caracterizar la evoluci´on del adem´an.
Finalmente, estas observaciones sonreconocidasoclasificadascomo un adem´an particular de acuerdo
a su similitud con alguno de los ademanes almacenados en una base de datos.
Los atributos de los ademanes pueden de ser de dos tipos: i) de movimiento, que describen el
desplazamiento del usuario entre dos o m´as im´agenes de la secuencia y ii) de posturao la pose del
usuario en una ´unica imagen. Algunos de los autores m´as influyentes en esta ´area [Johansson, 1973,
Webb and Aggarwal, 1982, Davis and Bobick, 1997, Giese and Poggio, 2000, Shah, 2003] han
privi-legiado los atributos de movimiento como la informaci´on b´asica en la descripci´on de los ademanes. En general, las observaciones de un adem´an suelen ser imprecisas por diversas razones: a) no siempre es
posible observar la trayectoria completa del adem´an por oclusi´on de la mano y brazo con otras partes
del cuerpo, b) los sistemas de an´alisis visual artificales o biol´ogicos no son exactos en la segmentaci´on
o seguimiento de la persona y m´as importante c) es muy dif´ıcil realizar un adem´an dos veces
exacta-mente de la misma manera a´un cuando se trate del mismo ejecutante. Los modelos probabilistas son
una forma conveniente para manejar la incertidumbre propia de la ejecuci´on de los ademanes.
Par-ticularmente, los modelos ocultos de Markov [Rabiner, 1990] que son un caso especial de las redes
Bayesianas din´amicas [Pavlovi´c, 1999] se han convertido en la t´ecnica est´andar en el reconocimiento
visual de ademanes [Starner, 1995].
El reconocimiento de ademanes es un elemento clave en el ´exito de una comunicaci´on natural
Robot
Ademán
observaciones Extracción de
visual Análisis
Clasificación
de ademanes las imágenesCaptura de
de video Cámara(s)
Base de datos
[image:18.612.191.455.74.294.2]Etapas del reconocimiento visual de ademanes
Figura 1.1: Proceso del reconocimiento visual de ademanes implementado en un robot. Una o m´as
videoc´amaras capturan las im´agenes que registran el adem´an. Mediante el an ´alisis visual se aisla
la figura del individuo en las im´agenes. Posteriormente se extraenlas observacionesrelevantes para
describir el adem´an. Finalmente, estas observaciones seclasificancomo correspondientes a uno de los
ademanes almacenados en una base de datos.
todav´ıa existen muchos problemas que deben ser resueltos para aumentar la naturalidad y efectividad
de este tipo de interfaces.
1.2.
El problema: confusi ´on en la clasificaci ´on de ademanes
simi-lares
En un trabajo previo, el autor desarroll´o una aplicaci´on para reconocer cinco ademanes ejecutados con
la mano derecha de frente y a 4m de una videoc´amara. Para caracterizar los ademanes se utilizaron
4 atributos simples similares a los propuestos por [Starner, 1995] que representan principalmente
in-formaci´on de movimiento de la mano: ∆xy ∆y que describen el cambio de posici´on de la mano en
el planoXY,∆area´ o el cambio en el ´area de la mano para estimar movimiento en profundidad –i.e.,
desplazamiento sobre el ejeZ– y un atributo de postura denominado f ormaque describe si la mano
se encuentra vertical, horizontal o inclinada hacia los costados en el planoXY. Estos atributos se
de-scriben a detalle en el cap´ıtulo 4. Para la clasificaci´on de los ademanes se utiliz´o un enfoque est´andar
b) a)
Figura 1.2: Ademanes de a) atenci ´on y b) detener. Estos ademanes fueron confundidos en
experi-mentos de reconocimiento realizados por el autor. Las flechas indican la forma de ejecuci´on de los ademanes.
En m´ultiples presentaciones de esta aplicaci´on se observ´o que la mayor parte de los errores de
clasi-ficaci´on de los ademanes se presentaron en aquellos con formas similares de ejecuci´on. Por ejemplo,
considere los ademanes deatenci ´onydetener(Figura 1.2). Ambos ademanes inician con el brazo en
una posici´on de descanso. El adem´an de atenci´on se ejecuta levantando la mano encima de la cabeza.
El adem´an de detener se realiza al llevar la mano a la altura del hombro y dirigiendo la palma extendida
hacia el frente. La principal diferencia entre ellos es el movimiento en el planoXY que es m´as largo
en el adem´an de atenci´on. Desafortunadamente, ni los atributos de movimiento ni los modelos ocultos
de Markov son capaces de reflejar esta diferencia. Por un lado, los atributos de movimiento
princi-palmente describen la trayectoria de la mano, que es muy similar en ambos casos. Por otro lado, los
modelos ocultos de Markov absorben algunas de estas variaciones temporales debido a laalineaci ´on
temporal din´amicainnherente en ellos [Rabiner, 1990].
Para evitar este problema frecuentemente se eligen ademanes que difieren diametralmente en su
forma de ejecuci´on. Sin embargo, esto limita el n´umero de ademanes posibles y podr´ıa hacer que
aquellos seleccionados resulten poco “naturales”. Una segunda alternativa es incluir exp´ıcitamente en
los modelos ocultos de Markov el n´umero esperado de observaciones [Rabiner, 1990]. Esta soluci´on
ha sido aplicada con ´exito para distinguir palabras del idioma ingl´es que difieren en la duraci´on de
alguno de sus fonemas –e.g. iceyeyes. No obstante, debe existir conocimientoa prioride la longitud
de las secuencias de observaciones. En el reconocimiento visual de ademanes esta es una restricci´on dif´ıcil de cumplir ya que la longitud percibida de un adem´an puede variar por diversas razones, como
la distancia de la persona a la videoc´amara, diferentes dimensiones f´ısicas entre diversos individuos y
Una tercera opci´on es seleccionar un conjunto de atributos que reflejen las diferencias entre los
ademanes considerados. Cuando existe un conjunto amplio de atributos, se pueden aplicar t´ecnicas
deminer´ıa de datospara extraer un subconjunto ´util de atributos para caracterizar los ademanes. Sin
embargo, ´este no es el caso del reconocimiento visual de ademanes, donde casi siempre se cuenta
s´olo con un conjunto reducido de atributos que es sugerido por observaci´on o por un conocimiento
intuitivo del proceso. Obs´ervese nuevamente la figura 1.2. Una diferencia visible entre estos ademanes
es la posici´on final de la mano con respecto a otras partes del cuerpo del individuo. Para discernir
entre ademanes similares es importante considera informaci´on expl´ıcita de la forma del individuo
al ejecutar el adem´an. Los atributos de postura ofrecen un medio eficaz y eficiente para incorporar esta informaci´on. De esta manera, es razonable pensar en la combinaci´on de atributos de
postura-movimiento para mejorar el reconocimiento de ademanes a´un cuando presentan formas de evoluci´on
similares.
1.3.
Objetivo de la tesis
En el reconocimiento visual de ademanes existen dos preguntas importantes que seg´un M. Turk
[Turk, 2004] es necesario contestar para el desarrollo de una teor´ıa general del reconocimiento de
ademanes: i) los atributos para describir los ademanes y ii) los modelos para representar y clasificar
estos atributos. Este trabajo es una aportaci´on en ambos problemas.
El objetivo de esta tesis es proponer la combinaci´on de atributos de postura y movimiento para
mejorar los porcentajes de reconocimiento de los ademanes. Adem´as, se presentan dos nuevos modelos
para representar esta informaci´on y clasificar los ademanes: los clasificadores Bayesianos simples
din´amicosy lasredes l ´ogico-probabilistas. Los ademanes est´an orientados a la instrucci´on de un robot
m´ovil.
Para evaluar la utilidad de la combinaci´on de postura-movimiento se realizaron diversos experi-mentos de clasificaci´on de ademanes. Los resultados de reconocimiento de esta combinaci´on se
com-paran con los obtenidos por una descripci´on basada s´olo en informaci´on de movimiento. En estos
mismos experimentos los dos modelos de clasificaci´on presentados en este trabajo se comparan con
1.3.1.
Alcance del trabajo
En este trabajo se considera el desarrollo de una aplicaci´on para el reconocimiento visual de nueve
ademanes. Los experimentos se realizar´an en un ambiente de laboratorio. Para el reconocimiento, el
usuario deber´a situarse de frente al campo de visi´on de una videoc´amara y se espera que el rostro y la
mano derecha del usuario no salgan de los l´ımites de cada imagen capturada. Aunque los ademanes
est´an dirigidos a la instrucci´on de un robot m´ovil, se considera que la videoc´amara se encuentra en una posici´on fija. No se permite el desplazamiento del usuario una vez iniciado el adem´an. Tampoco
se contemplan cambios bruscos de iluminaci´on ni oclusiones entre el usuario y la videoc´amara.
Una de las limitaciones de este trabajo es el uso de un sistema monocular para extraer las
obser-vaciones de los ademanes. Otra limitante es que se consideran s´olo ademanes ejecutados con la mano derecha del usuario.
1.4.
Metodolog´ıa
La metodolog´ıa que se sigui´o para alcanzar el objetivo de esta tesis se describe a continuaci´on:
a) Definici´on de los ademanes.
En este trabajo se consideran los siguientes ademanes ejecutados con la mano derecha. El primer
adem´an es el de acercarse, en el que el usuario mueve la palma de la mano hacia su torso (Figura
1.3a). El segundo adem´an es el de atenci ´on donde el usuario levanta su mano encima de su cabeza
(Figura 1.3b). El tercer adem´an se llamadetenery para realizarlo el usuario debe estirar su brazo hacia
el frente y dirige la palma de la mano hacia la videoc´amara (Figura 1.3c). El cuarto adem´an es el de
derechaque se ejecuta moviendo la mano del usuario hacia su derecha (Figura 1.3d). El quinto adem´an
es el deizquierdaque se realiza moviendo la mano hacia la izquierda (Figura 1.3e). El sexto adem´an
es el de girar hacia la izquierdaen el cual el usuario con el brazo extendido realiza un movimiento
circular en direcci´on de las manecillas del reloj (Figura 1.3f). El s´eptimo adem´an es el degirar hacia
la derecha que es similar al anterior, pero en este caso la mano se desplaza en direcci´on contraria a
las manecillas del reloj (Figura 1.3g). El siguiente adem´an se denomina desaludar; en este adem´an
el usuario levanta su mano a la altura de su hombro y la balancea de un lado a otro un par de veces
(Figura 1.3h). El ´ultimo adem´an es el deapuntardonde el usuario estira su brazo y mano sobre su torso
Figura 1.3: Ademanes considerados en estos experimentos. Las flechas indican la trayectoria de cada adem´an: a) acercar, b)atenci ´on, c)detener, d)derecha, e) izquierda, f)girar a la izquierda, g)girar
a la derecha, h)saludare i)apuntar. En el inciso j) se muestra la posici´on en la que inicia y termina
cada adem´an.
conocida denominada de “descanso” (Figura 1.3j). Estos ademanes est´an orientados a la instrucci´on
de un robot m´ovil.
b) An´alisis visual.
Para la extracci´on visual de las observaciones de los ademanes en una secuencia de im´agenes se
de-sarrollaron dos aplicaciones de an´alisis visual denominados sistema No. 1 y sistema No. 2. En ambos
sistemas el proceso general es similar. Primero, se localiza la posici´on del rostro de la persona en una
imagen; posteriormente, con proporciones atropom´etricas basadas en el rostro y suposiciones de la
postura de la persona se estima la posici´on de su mano derecha. La mano se localiza por color de piel.
Una vez localizada la mano comienza el seguimiento a trav´es del resto de la secuencia de im´agenes y
al mismo tiempo se extraen las observaciones del adem´an. La diferencia principal entre ambos es el
m´etodo de localizaci´on del rostro y los algoritmos de localizaci´on y seguimiento de la mano. El sistema
No. 1 se utiliz´o principalmente en los experimentospilotode esta investigaci´on y publicados hasta el
a˜no 2004 aproximadamente. El segundo sistema se utiliz´o en todos los experimentos presentados en
c) Definici´on de los atributos.
Este es un paso importante en cualquier sistema declasificaci ´on de patronesy es el principal objeto
de estudio de esta tesis. En este trabajo se propone el uso de la combinaci´on de atributos de
postura-movimiento. Por un lado, los atributos de movimiento permiten estimar el desplazamiento de la mano
derecha en el espacio ✠X✁Y✁ Z✡ y los atributos de postura corresponden a informaci´on de la pose de la
mano y de su posici´on con respecto al rostro y torso de la persona en una sola imagen. Estos atributos ofrecen una descripci´on simple, clara y efectiva de la evoluci´on de los ademanes.
d) Definici´on de los modelos de reconocimiento.
En esta tesis, para representar los atributos de postura-movimiento y construir los clasificadores se
utilizaron los modelos ocultos de Markov y se presentan dos nuevos modelos de reconocimiento:
los clasificadores Bayesianos simples din´amicos y las redes l´ogico-probabilistas. Para los modelos
ocultos de Markov y los clasificadores Bayesianos simples din´amicos se consideran 2 arquitecturas
diferentes: a) una arquitectura que considera los atributos de postura-movimiento y b) una arquitectura
que considera s´olo los atributos de movimiento. Las redes l´ogico-probabilistas consideran informaci´on
de postura-movimiento. La implementaci´on de estos modelos est´a derivada del software desarrollado
por Tapas Kanungo [Kanungo, 1999] para el manejo de los modelos ocultos de Markov.
e) Experimentaci´on.
En este trabajo se condujeron 5 experimentos para evaluar la importancia de la combinaci´on de la
infor-maci´on de postura-movimiento y al mismo tiempo comparar el desempe˜no en t´erminos de clasificaci´on y aprendizaje de los modelos ocultos de Markov, los clasificadores Bayesianos simples din´amicos y
las redes l´ogico-probabilistas. Estos experimentos se realizaron con muestras tomadas de 15 personas
diferentes para evaluar el desempe˜no en la clasificaci´on y el aprendizaje de los ademanes:
usando muestras de una persona de frente y a una distancia fija de la videoc´amara,
con variaciones de la distancia de un individuo a la videoc´amara,
con variaciones de la rotaci´on de una persona con respecto al plano horizontal (piso) y
f) Comunicaci´on del robot.
Se desarroll´o una aplicaci´on para demostrar el control a distancia de un robot m´ovil usando
ade-manes. La arquitectura general de esta aplicaci´on es de tipo cliente-servidor, donde el sistema de
reconocimiento visual de ademanes –o cliente– envia al robot el adem´an reconocido. El m´odulo de
comunicaci´on implantado sobre el robot –o servidor– recibe el adem´an y pide a los actuadores que
ejecuten la tarea de movimiento asignada al adem´an. El usuario es retroalimentado sobre la posici´on actual del robot y la ejecuci´on de las tareas a trav´es de im´agenes capturadas por una videoc´amara
montada sobre el robot.
1.5.
Contribuciones
A continuaci´on se describen brevemente las aportaciones principales de este trabajo:
Atributos de postura-movimiento para describir los ademanes. Se presentan resultados experimentales que muestran que la informaci´on de postura combinada con informaci´on de
movimiento mejora sensiblemente la clasificaci´on de los ademanes cuando se consideran:
☛
Ademanes de un ´unico individuo.
☛
Variaciones de la distancia entre el individuo y la videoc´amara.
☛
Variaci´on en el ´angulo de rotaci´on del individuo en el plano horizontal.
☛
Ademanes realizados por m´ultiples personas.
☛
Ademanes con formas de ejecuci´on similares.
La combinaci´on de postura-movimiento no s´olo es un factor crucial en el proceso de
re-conocimiento de ademanes; tambi´en promueve el desarrollo de una mejor comprensi´on de los
procesos f´ısicos y mentales involucrados en la generaci´on y entendimiento de los ademanes de
los seres humanos.
Clasificadores Bayesianos simples din ´amicos. Se presentan estos modelos probabilistas para representar los atributos de postura-movimiento y clasificar los ademanes. Con respecto al
mod-elo oculto de Markov, este modmod-elo presenta las siguientes caracter´ısticas:
☛
☛
Ofrece una descripci´on m´as clara de las relaciones entre los atributos de los ademanes.
☛
Ofrece resultados de clasificaci´on competitivos.
☛
Requiere un menor n´umero de iteraciones del algoritmo Expectaci ´on-Maximizaci´onpara
el entrenamiento de estos modelos.
La descripci´on que se presenta de este modelo es suficientemente general para aplicarse en otros
problemas que involucren el an´alisis de un conjunto de datos en secuencia.
Redes l´ogico-probabilistas. Se presentan los resultados iniciales del uso de las redes l´ogico-probabilistas en la clasificaci´on de ademanes. Estos modelos combinan variables l´ogicas
den-tro de las redes Bayesianas din´amicas para representar informaci´ondeterminista. En la
experi-mentaci´on de este trabajo, estas variables describen relaciones espaciales entre la mano, rostro
y torso. Las variables l´ogicas son programas l´ogicos en la forma de cl´ausulas de Horn. Aunque
los resultados de clasificaci´on con la arquitectura propuesta para estos modelos no fueron
satis-factorios, s´ı ofrecen nuevas perspectivas sobre la descripci´on de los ademanes usando este tipo
de representaciones h´ıbridas.
Implementaci´on de un enfoque adaptivo de color de piel.Se presenta la implementaci´on de un sistema adaptivo de color de piel para el manejo de m´ultiples usuarios y condiciones de
iluminaci´on variables. A´un en las condiciones de iluminaci´on blanca extrema del ambiente de
operaci´on, este sistema funcion´o correctamente en la localizaci´on y seguimiento de la mano de
m´as de 15 personas.
Implementaci´on de una aplicaci´on para el control a distancia de un robot m ´ovil. Las ideas presentadas en este trabajo se integraron y probaron con ´exito en la instrucci´on a distancia de
un robot m´ovil con ademanes, dentro del ambiente de laboratorio. Esta aplicaci´on ha sido
uti-lizada en m´ultiples visitas de estudiantes y profesores en el Laboratorio de Sistemas Inteligentes del Tecnol´ogico de Monterrey Campus Cuernavaca. Este es probablemente una de las primeras
aplicaciones desarrolladas en la operaci´on a distancia de un robot m´ovil por medio de ademanes.
Experimentaci´on y Base de datos de ademanes. Para realizar los experimentos presentados en este trabajo se muestrearon un total de 7920 ejemplos de los 9 ademanes considerados de
15 personas. El n´umero de ademanes, as´ı como las condiciones de variaci´on de la orientaci´on
y distancia del usuario con respecto a la videoc´amara hacen de este trabajo uno de los m´as
Uno de los resultados de esta investigaci´on es la construcci´on de una base de datos de ademanes
con un promedio de 40 muestras de los 9 ademanes ejecutados por 15 personas. Estas muestras
est´an almacenadas en video. Aunque las diferentes aplicaciones del reconocimiento visual de
ademanes hacen muy dif´ıcil crear una base de datos ´unica, estos videos pueden utilizarse en otros
problemas de reconocimiento visual como la detecci´on y reconocimiento de rostros, detecci´on
de piel y en el seguimiento de la mano.
1.6.
Contenido del documento
El resto del documento est´a organizado como sigue. Los cap´ıtulos 2, 3 y 4 contienen informaci´on
de trabajos previos relacionados a este trabajo. El cap´ıtulo 2 presenta diversas aproximaciones de la
interacci´on humano-robot m´ovil por medio de ademanes. El cap´ıtulo 3 presenta las redes Bayesianas
din´amicas y los modelos de probabilidad frecuentemente utilizados en el reconocimiento de ademanes.
En el cap´ıtulo 4 se presentan los atributos de postura-movimiento que se utilizaron en este trabajo
jun-to con una revisi´on de las tendencias actuales para describir los ademanes. El cap´ıtulo 5 presenta
los modelos de reconocimiento propuestos en este documento: los clasificadores Bayesianos
din´ami-cos simples y las redes l´ogico-probabilistas. En el cap´ıtulo 6 se describen los sistemas visuales que se utilizaron para capturar los ademanes. El cap´ıtulo 7 presenta los experimentos realizados en el
reconocimiento visual de ademanes y los resultados obtenidos. En el cap´ıtulo 8 se discuten las
conclu-siones y el trabajo futuro. En el anexo A se declaran los foros en que se han presentado partes de este
Cap´ıtulo 2
Comunicaci´on visual con robots por medio de
ademanes
Este cap´ıtulo est´a enfocado principalmente en la aplicaci´on del reconocimiento visual de ademanes
como medio de comunicaci´on con robots, haciendo ´enfasis en dos grandes l´ıneas de investigaci´on: a)
los llamadosrobots de servicio, ´utiles para apoyar al ser humano en tareas comunes de la vida diaria y
b) y los robotsteleoperadosu operados a distancia. Inicialmente, se discuten diversas aplicaciones del
reconocimiento visual de ademanes propuestos como medio de interacci´on hombre-m´aquina.
2.1.
Interacci ´on Humano-Computadora con ademanes
Dentro del ´area de Interfaces Humano-Computadora (HCIpor sus siglas en ingl´es) ha crecido el inter´es
por emular las formas de comunicaci´on utilizadas por los humanos en la vida diaria. Reducciones en
el tiempo de entrenamiento de un usuario, as´ı como mayor facilidad, comodidad y confianza en el
manejo de las m´aquinas o sistemas computarizados, son algunas de las ventajas al desarrollar medios
de interacci´on m´as “naturales”. Muchas personas prefieren una conversaci´on personal a una llamada telef´onica o correo electr´onico ya que la informaci´on visual disponible en una interacci´on directa puede
expresar incluso m´as de lo que se dice con las palabras [Morris, 1977, Knapp, 1988].
Este problema involucra diversas ´areas de estudio. En la elecci´on de los ademanes deben tomarse
en cuenta los aspectos sociales y culturales de su significado y ejecuci´on, en beneficio de una mayor
utilidad para el sistema. La localizaci´on y seguimiento de un usuario en una secuencia de im´agenes
as´ı como su representaci´on dentro del sistema son problemas de visi ´on computacional. Finalmente,
la extracci´on de caracter´ısticas de movimiento y el reconocimiento del adem´an son problemas
corre-spondientes al ´area delreconocimiento de patrones. Aunque estas ´areas no son del todo excluyentes
entre si, plantear cada elemento de forma separada ayuda a simplificar la comprensi´on del problema y
el proceso de desarrollo. A´un con avances significativos, no existe una soluci´on ´unica para cada etapa
y las alternativas que se eligen dependen de la aplicaci´on en la que ser´an utilizadas.
La lista de aplicaciones del reconocimiento visual de ademanes es tan larga como la imaginaci´on
pueda dictarla. Basta con pensar en el n´umero de situaciones donde los ademanes juegan un papel
importante de comunicaci´on. La siguiente revisi´on no pretende ser exhaustiva, sino mostrar las
princi-pales l´ıneas de trabajo en las que se ha utilizado.
Las aplicaciones m´edicas son un buen ejemplo de su utilidad. Becker [Becker, 1997] propuso un
sistema tutor para el aprendizaje de ademanes de T’ai Chi como terapia de relajaci´on. El
reconocimien-to del lenguaje de sordomudos [Starner, 1995, Liang and Ouhyoung, 1996, Takayoshi et al., 1997,
Holden, 1999] -que es una de las aplicaciones m´as exploradas- puede usarse junto con la s´ıntesis o
generaci´on autom´atica de vozcomo una opci´on para la gente con problemas del habla.
En la comunicaci´on de la vida diaria es muy com´un referirse a los objetos y lugares
se˜nal´ando-los con las manos. En ambientes de interfaz gr´afica el adem´an de apuntar se ha usado
co-mo sustituto del teclado y al rat´on en la selecci´on de opciones o men´us y para dibujar figuras
[Crowley and Coutaz, 1997]; en ambientes de realidad virtual y videoconferencias para seleccionar
objetos del mundo virtual [Starner et al., 2003] y de sitios remotos [Conway and Cohen, 1998],
re-spectivamente. Bolt [Bolt, 1980] us´o este adem´an en su sistema “Pon eso ahi”, la primera de m´ultiples
interfaces denominadasmultimodalesque integran informaci´on de lenguaje natural, ademanes y otros
medios de comunicaci´on [Billinghurst, 1998, Ko et al., 2003, Oviatt, 1999, Pavlovi´c, 1999]. Una
apli-caci´on de las interfaces multimodales es el KidsRoom [Bobick et al., 2000] un cuarto de juego para
ni˜nos con pantallas de video, luces y sonido en el que los usuarios interactuan por medio de sus
activi-dades con la historia que se les proyecta. Tales activiactivi-dades son controladas por la propia historia y por
lo tanto la flexibilidad de la interacci´on es limitada.
En realidad virtual los ademanes se utilizan para sintetizar movimientos de humanos
vir-tuales y avatares [Boulic et al., 1997]. En estas animaciones es com´un usar editores gr´aficos
[Yeates et al., 2003] y actores reales con sensores de postura/movimiento adheridos a su cuerpo
[Kaiser et al., 2003]. En t´erminos computacionales, estas interfaces “alambradas”son menos costosas y
complejas que los sistemas basados en visi´on. Sin embargo, un sistema visual incrementafacilidad de
uso, si se piensa por ejemplo, en un videojuego. Adem´as, con la misma c´amara de video puede
ademanes tambi´en pueden usarse en la s´ıntesis de movimiento [Lee et al., 2002] y para proporcionar
esta capacidad a entidades del mundo virtual, aumentando la experiencia social en la inmersi´on del
usuario.
Sucede lo mismo al interactuar con las computadoras. Con los ademanes es posible instruir a las m´aquinas al asignar a un adem´an un significado o tarea en particular, clarificando ideas en conjunto
con el lenguaje hablado [Cassell, 1998].
En los ´ultimos a˜nos el inter´es por dotar a los robots m´oviles con habilidades sociales ha crecido
considerablemente. El objetivo es desarrollar robots de serviciopara emplearlos en tareas de la vida
diaria, en ayuda a personas discapacitadas, como asistentes de personas de edad avanzada o gu´ıas
en recorridos [Rao et al., 2002, Roy et al., 2000, Thrun et al., 1999]. Una de dichas habilidades es la
comunicaci´on por ademanes. Con ellos se puede instruir al robot con informaci´on espacial del tipo
“Dame ese objeto” o “Mu´evete a este lugar” [Wasson et al., 1998]. Tambi´en sirven para mostrarle
c´omo realizar tareas simples [Rybski and Voyles, 1999] y en conjunto con instrucciones de voz para
ense˜narle informaci´on del mundo -por ejemplo, “Esto es un cubo”. De la misma manera, los ademanes
pueden ayudar a dirigir a los robots a distanciaen actividades potencialmente peligrosas para el ser
humano, como la exploraci´on y navegaci´on en ambientes hostiles o desconocidos.
2.2.
Ademanes para instruir robots de servicio
El desarrollo de robots de servicio que emulen conductas “sociales” para convivir con los seres
hu-manos y apoyarlos en tareas cotidianas ha sido el sue˜no de los investigadores desde hace muchos
a˜nos. Los dos tipos de robots m´as utilizados con este prop´osito son los robos m´oviles –cuyo objetivo
primario es el desplazamiento– y los robots humanoides –i.e., con forma humana.
Estos robots deben poseer habilidades que emulen las formas de comunicaci´on naturales humanas
para desempe˜nar sus tareas eficientemente. Una de estas habilidades es la de percibir y responder a los
ademanes. A continuaci´on se presentan diversas aplicaciones del reconocimiento visual de ademanes
como medio de comunicaci´on con los robots de servicio.
2.2.1.
Robots m ´oviles
Uno de los primeros intentos por desarrollar interfaces naturales humano-robot por medio de ademanes
Figura 2.1: Robot CHIP utilizado en el sistema Perseus.
binocular est´ereo y con una mano rob´otica de dos dedos. Este robot es capaz de localizar a una persona
en un ambiente de oficina, detectar una lata en el suelo a la que el usuario se˜nala y recogerla.
El ambiente se modela por la combinaci´on de la intensidad de los pixeles, de orillas de los objetos,
de color y de profundidad. Con esta informaci´on y suponiendo un ambiente est´atico, la regi´on donde se encuentra el individuo se segmenta del fondo de la imagen. Cuando el usuario separa alguna de sus
manos del cuerpo y permanece estacionaria por un corto tiempo, se considera que ejecuta un adem´an
de apuntar. La direcci´on a donde se se˜nala se obtiene al crear un cono alrededor de la l´ınea que cruza
el centro del rostro y de la mano (figura 2.2). La lata se busca siempre dentro de esta regi´on, por lo que
no es posible localizarla si el usuario no apunta al suelo. Con 10 personas y 8 intentos por cada una, el
sistema obtuvo un 98.8 % de reconocimiento del adem´an y un 91.5 % de detecci´on de la lata. La postura
no fue detectada cuando el brazo se coloc´o entre el torso del usuario y la videoc´amara, posiblemente
por problemas del sistema visual al seguir la mano. Este trabajo utiliza informaci´on y suposiciones propias de un ambiente de oficina por lo que es dif´ıcil considerar su aplicaci´on en ambientes exteriores
y/o din´amicos.
Uno de los sistemas que m´as han influido en los desarrollos la interacci´on humano-robot por medio
de ademanes es el sistema de Bonasso et al. [Bonasso et al., 1995]. Esta aplicaci´on reconoce seis pos-turas del brazo derecho (figura 2.3). Para el brazo se utiliza un modelo geom´etrico 3-D que utiliza
cuatro regiones de atenci´on llamadasespacios de proximidad(figura 2.4). Cada una de estas regiones
sigue el movimiento del rostro, hombro, codo y mano por correlaci´on de informaci´on detextura. Estos
espacios se etiquetan como EP1 a EP4 y est´an unidos por vectores L1 a L4 que parten del centro de
los espacios de proximidad y asemejan un modelado de tipo esqueleto para el brazo. Los puntos J1
Figura 2.2: Sistema Perseus. El cono de color negro que parte de la mano es la regi´on de la imagen donde se espera localizar la lata [Kahn, 1995].
Parar Arquear
Alzar
Apuntar Aventar Relajar
Figura 2.3: Posturas reconocidas por el sistema de Bonasso [Bonasso et al., 1995].
EP4 del codo y mano indican las direcciones de b´usqueda en caso de perder el seguimiento. La flecha
vertical indica la direcci´on de ajuste del espacio EP1 sobre la cabeza. Los ´angulos relativos entre estos
vectores determinan la postura ejecutada.
Los 2 experimentos reportados en este trabajo con el adem´an de apuntar plantean una de las
primeras evaluaciones de las interfaces humano-robot en la literatura. Los experimentos se
desarrol-laron como sigue. El primer experimento consiste en mover un robot se˜nalando el lugar objetivo con
el adem´an de apuntar. Para definir la posici´on objetivo ✠x✁ y✡ en el plano horizontal se crea un vector
3-D en la direcci´on del brazo y se determina su intersecci´on con el suelo. Los resultados mostraron
que el error del robot al posicionarse aumentaba al incrementarse la distancia del usuario al punto objetivo, posiblemente por errores odom´etricos del robot y del sistema visual. El segundo experimento
es el de compartir el control del robot entre dos usuarios. Cuando un usuario apunta a otro, el vector
3-D se extiende en un espacio cil´ındrico donde el robot busca texturas significativas, por ejemplo, del
rostro. En 10 repeticiones, el robot localiz´o correctamente a los usuarios. Este trabajo propone adem´as
[image:31.612.157.482.236.391.2]Figura 2.4: Modelo del brazo compuesto por los espacios de proximidad EP1 a EP4, los vectores L1 a L4 y las articulaciones J1 a J3. Las flechas punteadas indican c´omo se busca el objeto si se pierde su seguimiento. La flecha sobre el rostro indica el ajuste del espacio de proximidad al rostro (imagen modificada de [Bonasso et al., 1995]).
el robot pueda realizar diferentes tareas de acuerdo al historial de ademanes hasta el momento.
Stefan Waldherr [Waldherr, 1998] desarroll´o un sistema monocular de reconocimiento de cinco
ademanes del brazo derecho para instruir a un robot m´ovil en una tarea de limpieza. La posici´on
del rostro de la persona en la imagen se estima por color de piel. Con esta posici´on se obtiene el
color de su playera de manga larga que se supone dentro de una regi´on de tama˜no fijo. El sistema
se basa en el reconocimiento de posturas consecutivas del brazo. La caracterizaci´on de los ademanes y la motivaci´on de esta aproximaci´on se discuten en el cap´ıtulo 4. En cada imagen se ejecuta una
correlaci´on de la postura actual con un conjunto de plantillas de pose. El resultado de esta correlaci´on
con cada una de las R poses almacenadas es un vector de similitud de tama˜no R. Cada uno de los
´ındices del vector representa la semejanza de la postura observada con la correspondiente al ´ındice. El
reconocimiento se efectua mediante la comparaci´on de un flujo de estos vectores con los prototipos
de ademanes almancenados usando un algoritmo similar al Viterbi [Rabiner, 1990]. En los resultados
experimentales se obtuvo un 96 % de reconocimiento correcto en 261 ejecuciones de ademanes de un
a que ´esta es la estrategia para llevar al robot hasta el lugar de limpieza, el desplazamiento del usuario
y el robot aparece en videos demostrativos como lento y poco natural. Adem´as, los ademanes son
movimientos “sint´eticos”, poco naturales. Finalmente, debido a las suposiciones de color de la ropa,
este sistema est´a restringido a movimientos del brazo “f´acilmente distinguibles” a un costado del
usuario, lo que hace dif´ıcil el reconocimiento de movimientos en profundidad o sobre el torso del
usuario.
En [Perzanowski et al., 1998] se explora el uso del adem´an de apuntar para complementar
sen-tencias de voz del tipo “Mu´evete a la izquierda” o “Ve hacia all´a”. El robot percibe los movimientos
por medio de un sistema l´aser que emite su luz en un plano horizontal. Los puntos de intersecci´on de
los objetos con dicho plano se obtienen con una videoc´amara sensible a esta frecuencia. El grupo de
puntos con el tama˜no y distancia apropiados se supone que es la mano. La trayectoria de movimiento
define el adem´an ejecutado. Un problema de esta aproximaci´on es el n´umero de ademanes posibles
de-bido a las limitaciones perceptuales de la aplicaci´on. Otro problema es que el usuario debe permanecer
relativamente cerca del l´aser para instruir al robot.
2.2.2.
Robots humanoides
En muchas situaciones, adem´as de la funcionalidad, la apariencia es un factor importante en el
desar-rollo de los robots de servicio. Frecuentemente, el aspecto suele tener efectos sobre de la percepci´on
de los usuarios hacia el robot. Los robots humanoides, son aquellos cuyo dise˜no f´ısico emula el
aspec-to de la forma humana. Un ventaja de los humanoides sobre los robots m´oviles es que los primeros
permiten la exploraci´on de comportamientos sociales m´as cercanos a los comportamientos humanos.
JINGANG [Guo et al., 1999] es un robot humanoide (figura 2.5) que puede reconocer el adem´an
de apuntar. La mitad superior del cuerpo del usuario se representa mediante un modelo geom´etrico
3-D. La detecci´on del usuario en la imagen se realiza por el color de la piel y de la ropa. Un algoritmo
basado en regiones de atenci´on se emplea para seguir el movimiento del hombro, codo y mano. Cuando
los ´angulos del brazo y antebrazo son colineales y dentro un rango de valores preestablecidos se supone que el usuario est´a apuntando. Posteriormente se crea un cilindro 3-D en la direcci´on del brazo y dentro
de ese cilindro se intenta localizar un objeto. Si vez localizado el objeto, el robot puede dirigirse
hacia ´el y mover sus brazos simulando que lo toma. Un aspecto interesante es la similitud de estos
algoritmos con respecto al trabajo de [Bonasso et al., 1995]. Este sistema se restringe a ademanes de
apuntar ejecutados a los costados del usuario.
Brazo
modular
Brazo
modular
Cabeza
estéreo
[image:34.612.203.428.73.279.2]Base
móvil
Figura 2.5: Robot humanoide JINGANG (imagen modificada de [Guo et al., 1999]).
se utilizan para contestar s´ı/no al robot, para terminar la tarea actual, para se˜nalar objetos sobre una
mesa, para ordenarle al robot sujetar los objetos y las dos ´ultimas para iniciar diferentes programas. El
seguimiento de las manos del usuario y del rostro del usuario se realiza por color. El reconocimiento
de la postura se realiza mediante la representaci´on del contorno de la mano en t´erminos de descriptores
de Fourier, de forma similar a la propuesta en [D´ıaz de Le´on and Sucar, 2000] para el reconocimiento
de siluetas humanas. La distancia euclidiana entre el contorno observado y los almacenados definen la
postura ejecutada.
Strobel [Strobel et al., 2002] presenta una aproximaci´on para interpretar la tarea que debe realizar
un robot de acuerdo a elcontextoen que se ejecuta un adem´an. La tarea del humanoide es de limpieza.
La informaci´on de contexto y del movimiento se combinan como atributos en los modelos ocultos de Markov. Cuando un usuario realiza movimientos circulares o paralelos sobre una mesa o un pizarr´on,
entonces el robot puede determinar f´acilmente una tarea de limpieza sobre esas zonas. Si se apunta
sobre un estante y el robot tiene un objeto en su mano, entonces podr´ıa decidir poner el objeto en ese
lugar.
Como se puede ver, la mayor´ıa de los sistemas restringen la interacci´on a una comunicaci´on
uni-direccional con el robot, sin mayor retroalimentaci´on al usuario que la ejecuci´on de la tarea o
sen-tencias de voz acerca del estado del sistema. ROBITA [Tojo et al., 2000, Matsusaka et al., 1999] es un
humanoide que explora la comunicaci´on bidireccional usando voz y ademanes. Este robot puede
direcci´on en que mira el usuario, la respuesta a preguntas sobre personas en una oficina y apuntar de
lejos o aproximarse y se˜nalar a un lugar particular. El usuario puede se˜nalar con su brazo derecho. La
representaci´on del brazo es un modelo geom´etrico basado en el propuesto por [Bonasso et al., 1995].
Uno de los humanoides m´as impresionante hasta el momento debido a sus habilidades de locomo-ci´on y apariencia es ASIMO, desarrollado por la compa˜nia Honda. Aunque mucha de su informalocomo-ci´on
t´ecnica no est´a disponible, la metodolog´ıa general para lograr la interacci´on no parece ser muy
difer-ente a otros m´etodos discutidos anteriormdifer-ente. En videos demostrativos encontrados en Internet se
puede observar que ASIMO responde a ademanes similares a los ademanes de apuntar, saludar,
aten-ci´on y detener usados en este trabajo.
2.3.
Robots teleoperados con ademanes
La comunicaci´on con los robots operados a distancia ha sido realizado principalmente a trav´es de inter-faces gr´aficas, botones, palancas, teclados y dispositivos adheridos al usuario [Kuzuoka et al., 2000].
En la literatura existen pocos desarrollos recientes que enfaticen la instrucci´on de un robot a distancia
por medio de interfaces visuales de ademanes. Esto puede deberse a que el operador no tiene una
inter-acci´on f´ısica directa con el robot y en muchas ocasiones es s´olo una extensi´on f´ısica del mismo. Otra
raz´on es que bajo ciertas condiciones de operaci´on –como en ambientes controlados o con un conjunto
predefinido de ademanes– viene a ser un problema equivalente al reconocimiento visual de ademanes
en la interacci´on humano-computadora general. Lo anterior justifica que en algunas aplicaciones se
enfaticen las t´ecnicas visuales y de reconocimiento que se proponen obviando la interacci´on con el robot [Corradini and Gross, 2000, Nickel et al., 2004].
Sin embargo, la idea de aplicar los ademanes para operar a los robots a distancia se ha
men-cionado desde hace algunos a˜nos. Uno de los primeros trabajos que sugiere esta aplicaci´on es
[Yang and Xu, 1994]. En este trabajo se reconocen ademanes “de rat´on” con los que se dibujan n´umeros del 1 al 9. Este problema es equivalente al reconocimiento de la escritura. Para el
re-conocimiento de los n´umeros se utilizan los modelos ocultos de Markov. En [Fong et al., 2000] se
presenta una aplicaci´on para el control de robots por ademanes usando una interfaz visual est´ereo
basada en color. El reconocimiento se realiza a trav´es de plantillas de pose. En este trabajo la posici´on
de la mano derecha del usuario relativa al cuerpo controla la direcci´on del robot para movimientos de
derecha, izquierda, hacia adelante, reversa y parar, emulando una palanca de control. La mano
izquier-da sobre la cabeza indica la activaci´on del sistema de reconocimiento. La figura 2.6 muestra un ejemplo
Figura 2.6: Ejemplo de un sistema de reconocimiento visual de ademanes que emula una palanca de control. De derecha a izquierda, se ejecutan los ademanes para girar al robot a la derecha, a la izquierda, para moverlo hacia adelante, en reversa y pararlo (imagen modificada de [Fong et al., 2000]).
se reconocen 7 posturas o signos de la mano realizados sobre el torso del usuario para mover al robot
hacia adelante, hacia atr´as, girarlo hacia la derecha o izquierda incrementar o decrementar velocidad
y pararlo. El reconocimiento se realiza por diferenciaci´on entre la mano segmentada en una imagen y
plantillas binarias de las poses consideradas. La plantilla con menor diferencia absoluta corresponde a
la pose reconocida.
Si las interfaces naturales para los robots teleoperados no se justifican desde un punto de vista
estricto de comportamiento social, s´ı lo es en t´erminos de cooperaci´on para la ejecuci´on de las tareas.
Adem´as, la operaci´on a distancia tambi´en es ´util para comunicarse con los robots de servicio, el cual
ver´ıa reducida considerablemente su utilidad si el usuario debe estar siempre frente a ´el para indicarle
qu´e debe hacer. En [Matsumoto et al., 2003] se presenta un sistema con m´ultiples videoc´amaras para
dirigir con un PDA el desplazamiento de un robot. Con un esquema similar por medio de ademanes
un usuario discapacitado podr´ıa a un robot a´un desde otro cuarto. Otro ejemplo claro de la utilidad del
control a distancia es la exploraci´on de ambientes desconocidos u hostiles [Myers et al., 1998] donde
una interfaz por ademanes puede reducir la necesidad de operadores especializados en el control del robot.
2.4.
Conclusiones
Los ademanes son un medio de comunicaci´on que provee la flexibilidad necesaria para mostrar al robot
c´omo y cu´ando ejecutar una tarea. Con ellos es posible tambi´en ense˜nar al robot a sintetizar
movimien-tos [Calinon and Billard, 2004] y c´omo realizar nuevas tareas [Rybski and Voyles, 1999]. En general, las propuestas presentadas en este cap´ıtulo no tienen grandes diferencias de metodolog´ıa de
caracter´ısticas-reconocimiento-ejecuci´on de la tareaes b´asicamente el mismo que en otras ´areas de aplicaci´on de los ademanes. Esta
semejanza se extiende al tipo de ademanes considerados –por ejemplo, el adem´an de apuntar– y
tam-bi´en en las restricciones de operaci´on –por ejemplo, con los usuarios en una posici´on fija y de frente
al robot o en ambientes de operaci´on controlados. Aunque esto hace parecer a la aplicaci´on de los
ademanes en los robots como un caso especial del problema de reconocimiento de ademanes
gener-al, la capacidad del robot para interactuar con su medio ambiente y la informaci´on que ´este provee al
usuario por medio de sus sensores abre nuevas avenidas para la investigaci´on de este tipo de interfaces.
La necesidad de una aplicaci´on funcional que integre ademanes y la comunicaci´on con el robot
posi-bilita un punto de vista m´as completo a trav´es de la evaluaci´on del comportamiento del robot frente a los ademanes y de la percepci´on de los usuarios hacia el sistema. El trabajo presentado en esta tesis es
Cap´ıtulo 3
Redes Bayesianas din ´amicas para el
reconocimiento visual de ademanes
En este cap´ıtulo se presentan las redes Bayesianas din´amicas que m´as se han utilizado en el
re-conocimiento visual de ademanes. Inicialmente se describen las redes Bayesianas y su utilidad para
representar fen´omenos no deterministas. Posteriormente se describen los sistemas din´amicos y las
redes Bayesianas din´amicas para representar este tipo de procesos. Finalmente, se presentan las
topolog´ıas de redes Bayesianas din´amicas m´as frecuentes en el reconocimiento visual de ademanes.
3.1.
Redes Bayesianas
En muchas ocasiones es muy dif´ıcil determinara prioriel resultado o salida de un fen´omeno. Ejemplos
comunes son el pron´ostico del tiempo o el resultado de un partido de futbol. Aunque se han propuesto
diferentes formas del manejo de laincertidumbrepropia de estos sucesos –como la teor´ıa
Dempster-Shafer [Shafer, 1976] y la teor´ıa de la posibilidad [Zadeh, 1978]– son losmodelos de probabilidad
los m´as usados con este prop´osito. Unmodeloofunci ´on de probabilidad conjunta P✠A✡ es una
repre-sentaci´on matem´atica para estos fen´omenos denominadosaleatorios.A✌☞
A1✁✄✂☎✂✆✂☎✁ AM
✍ es un conjunto
deM variables aleatorias que representan los atributos o caracter´ısticas relevantes del fen´omeno en
cuesti´on. Sup´onganse que cada una de estas variables puede tomar s´olo un conjunto finito de
val-ores. Cuando los atributos son instanciados con valores observados1 del fen´omeno, P✠✏✎✑✡ establece
1En esta tesis, cuando se aluda a una instancia particular de un conjunto de variables aleatorias, se escribir´a en negritas,
por ejemploA✒✔✓ A1 ✕✗✖✘✖✙✖✘✕AM✚
✒✛✓ A1✒ a1 ✕✜✖✙✖✘✖✙✕AM
✒ aM
✚ . La instancia de una variable aleatoria particular se escribir´a
sim-plemente comoAi✒ ai.