Reconocimiento Visual de Ademanes Aplicado a Robots Móviles

(1)

Instituto Tecnológico y de Estudios Superiores de Monterrey

Monterrey, Nuevo León a

Lic. Arturo Azuara Flores:

Director de Asesoría Legal del Sistema

Por medio de la presente hago constar que soy autor y titular de la obra titulada

", en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto Tecnológico y de Estudios Superiores de Monterrey (EL INSTITUTO) para que efectúe la divulgación, publicación, comunicación pública, distribución y reproducción, así como la digitalización de la misma, con fines académicos o propios al objeto de EL INSTITUTO.

El Instituto se compromete a respetar en todo momento mi autoría y a otorgarme el crédito correspondiente en todas las actividades mencionadas anteriormente de la obra.

De la misma manera, desligo de toda responsabilidad a EL INSTITUTO por cualquier violación a los derechos de autor v propiedad intelectual que cometa el suscrito frente a terceros.

Campus Monterrey

(2)

Reconocimiento Visual de Ademanes Aplicado a Robots

Móviles

Title Reconocimiento Visual de Ademanes Aplicado a Robots Móviles

Authors Avilés Arriaga, Héctor H.

(3)

Abstract El reconocimiento visual de ademanes es un elemento clave en el éxito de una comunicacio ?n natural humano-robot mo ?vil. Los ademanes permiten a las personas instruir a los robots para que realicen tareas como abrir la puerta, traer el café o tirar la basura. La literatura describe muchos avances interesantes en este campo. Sin embargo, existen todav ??a muchos problemas que deben ser

resueltos, para aumentar la naturalidad y efectividad de este tipo de interfaces.

Esta tesis aborda dos problemas fundamentales en el desarrollo de interfaces hombre-máquina por medio de ademanes: los atributos necesarios para describir los

ademanes y los modelos para describir esta informacio ?n y clasificar los ademanes. Por más de 3 décadas los atributos que reflejan las sen ?ales de movimiento han sido

privilegiados como la informacio ?n más u ?til para describir los ademanes. En contraste, en este trabajo se propone el uso de una combinacio ?n de informacio ?n de postura y movimiento del representar los ademanes. Al mismo tiempo, se presentan dos nuevos modelos para clasificar los ademanes: los clasificadores Bayesianos simples dinámicos y las redes lo ?gico-probabilistas. En este trabajo se condujeron diversos experimentos para evaluar la importancia de la informacio ?n de postura-movimiento en comparacio ?n con una representacio ?n basada so ?lo en movimiento. Al mismo tiempo, se

compara el desempen ?o de clasificacio ?n y aprendizaje de los clasificadores Bayesianos simples dinámicos y las redes lo ?gico-probabilistas con los modelos ocultos de Markov. Las muestras de ademanes utilizadas en los experimentos se tomaron de 15 personas. Los experimentos incluyen el reconocimiento de ejemplos de ademanes de una persona de frente y a una distancia fija de la videocámara,

ademanes con variaciones de la distancia a la videocámara, con giros de la persona con respecto al plano horizontal y ejemplos de ademanes de mu ?ltiples usuarios. Por un lado, en todos los experimentos se observo ? una mejora

(4)

reconocimiento. Las ideas anteriores se aplicaron

eficazmente en la instruccio ?n a distancia de un robot mo ?vil dentro de un ambiente de laboratorio. Los resultados de este trabajo son una aportacio ?n al desarrollo de una teor ??a general del reconocimiento visual de ademanes.

Discipline Ingeniería y Ciencias Aplicadas / Engineering & Applied Sciences

Item type Tesis

???pdf.cover.sheet .thesis.degree.nam e???

Programa de Graduados en Informática y Computación

???pdf.cover.sheet .dc.contributor.adv isor???

Dr. Luis Enrique Sucar Succar

???pdf.cover.sheet .thesis.degree.disci pline???

Escuela de Graduados en Informática y Computación

???pdf.cover.sheet .thesis.degree.prog ram???

Campus Cuernavaca

Rights Open Access

Downloaded 18-Jan-2017 06:42:02

(5)

INSTITUTO TECNOL ´

OGICO Y DE

ESTUDIOS SUPERIORES DE MONTERREY

CAMPUS CUERNAVACA

Reconocimiento visual de ademanes aplicado

a robots m´oviles

H´ector Hugo Avil´es Arriaga

Tesis presentada al Programa de Graduados en Inform´atica y

Computaci´on como requisito parcial para obtener el grado de

Doctor en Ciencias Computacionales

Asesores:

Dr. Luis Enrique Sucar Succar

Dr. Carlos Eduardo Mendoza Dur´an

(6)

Dedico esta tesis...

...a mi mam´a.

(7)

Agradecimientos

En el tiempo en que se desarroll´o este trabajo, tuve la oportunidad de conocer a muchas personas a quienes quiero agradecer por compartir conmigo esta etapa de mi vida.

Al equipo administrativo del Tecnológico de Monterrey Campus Cuernavaca y a la División Académi-ca de InformátiAcadémi-ca y Sistemas de la Universidad Juárez Autónoma de Tabasco. En especial a Ran-ulfo Macedo, Carlos González, Dalila Jiménez, Norma, Toñita, Juanita Canul, Eric Ramos, Wilbert Colorado, Guillermo de los Santos y al C.P. José Antonio Garc´ıa Sastré. Gracias a todos ellos por otorgarme las facilidades necesarias para concluir este trabajo.

A mis profesores, Eduardo Morales, Fernando Ramos, Santiago Negrete, V´ıctor Zárate y José Luis Liñan. Gracias por mostrarme el mundo de las ciencias computacionales desde diferentes persepecti-vas. A mis revisores, Juan Frausto, Homero R´ıos y Arturo Espinosa, por sus generosos comentarios y sugerencias y por leer rápidamente mi documento.

A mis amigos y compañeros de posgrado: Alberto, Leonardo, Gildardo, Julieta, Blanca, Antonio, Michel, Cinthia, Vicky, Gaby, José Luis, V. Jáquez y V. Enr´ıquez, David Gómez, Carlos Miranda, Jackie, Sergio, Gilberto, Gerardo, Pamela, Vladimir, Sonia, Julio y Paty, Giovani, Marco, Lilian, Luis,

Claudia, Lutgardo y ´Angeles, Luis ´Angel, Mario, Mary Carmen Plasencia, Ana, Isabel, Sof´ıa,

De-nia, Martha Bennet, Héctor Buenabad, Adrián y Elizabeth, Verónica, Karla, Rosy y Josué. Especial agradecimiento a la Sra. Coty Salgado y familia. Todos ellos estuvieron involucrados directa o indirec-tamente y voluntaria o involuntariamente en el desarrollo de este trabajo. Much´ısimas gracias a todos por su amistad y por su apoyo.

A mi co-asesor el Dr. Carlos Eduardo Mendoza Dur´an, por brindarme su tiempo en aquellas largas

explicaciones para mejorar mi entendimiento sobre los modelos ocultos de Markov y el algoritmoEM,

por formar parte de la experimentación y también por el tiempo de sus estudiantes en la evaluación del diseño de mis experimentos.

A mi mentor y mecenas, el Dr. Luis Enrique Sucar Succar. Hay una larga lista de razones por las cuales le estoy agradecido. Este trabajo no habr´ıa sido posible de no haber contado con el soporte, compro-miso, direcci´on y amistad de una persona como ´el. Dudo que pueda mostrar mi aprecio completamente, pero le ofrezco mi eterna gratitud.

Finalmente, pero en el primer lugar de mi corazón, a mi mamá Esperanza y a mis hermanos. Ellos fueron la inspiración para lograr este objetivo.

Estoy seguro que no he escrito el nombre de muchas personas importantes. Todos ellos pueden estar

(8)

Resumen

El reconocimiento visual de ademanes es un elemento clave en el éxito de una comunicación natural humano-robot móvil. Los ademanes permiten a las personas instruir a los robots para que realicen tareas como abrir la puerta, traer el café o tirar la basura. La literatura describe muchos avances interesantes en este campo. Sin embargo, existen todav´ıa muchos problemas que deben ser resueltos, para aumentar la naturalidad y efectividad de este tipo de interfaces.

Esta tesis aborda dos problemas fundamentales en el desarrollo de interfaces hombre-máquina por medio de ademanes: los atributos necesarios para describir los ademanes y los modelos para describir esta información y clasificar los ademanes. Por más de 3 décadas los atributos que reflejan las señales de movimiento han sido privilegiados como la información más útil para describir los ademanes. En contraste, en este trabajo se propone el uso de una combinación de información de postura y movimiento del representar los ademanes. Al mismo tiempo, se presentan dos nuevos modelos para clasificar los ademanes: los clasificadores Bayesianos simples dinámicos y las redes lógico-probabilistas.

(9)

´Indice general

1. Introducci´on 1

1.1. ¿Ademanes para comunicarse con los robots? . . . 1

1.1.1. Etapas del reconocimiento visual de ademanes . . . 2

1.2. El problema: confusión en la clasificación de ademanes similares . . . 3

1.3. Objetivo de la tesis . . . 5

1.3.1. Alcance del trabajo . . . 6

1.4. Metodolog´ıa . . . 6

1.5. Contribuciones . . . 9

1.6. Contenido del documento . . . 11

2. Comunicaci´on visual con robots por medio de ademanes 12 2.1. Interacci´on Humano-Computadora con ademanes . . . 12

2.2. Ademanes para instruir robots de servicio . . . 14

2.2.1. Robots m´oviles . . . 14

2.2.2. Robots humanoides . . . 18

2.3. Robots teleoperados con ademanes . . . 20

2.4. Conclusiones . . . 22

3. Redes Bayesianas din´amicas para el reconocimiento visual de ademanes 23 3.1. Redes Bayesianas . . . 23

3.2. Sistemas din´amicos . . . 25

3.3. Redes Bayesianas dinámicas para la descripción de sistemas dinámicos . . . 27

3.3.1. Inferencia . . . 29

3.3.2. Aprendizaje . . . 32

3.4. Redes Bayesianas din´amicas para el reconocimiento de ademanes . . . 33

4. Atributos para describir los ademanes 37 4.1. Descripciones con atributos de movimiento . . . 37

4.2. Descripciones basadas en la postura . . . 39

4.3. Combinaci´on de postura y movimiento . . . 40

4.4. Evaluaci´on de los atributos para los ademanes . . . 42

(10)

4.5. Atributos propuestos en esta tesis . . . 44

5. Clasificador Bayesiano simple din ámico y las redes l ógico-probabilistas 48 5.1. El clasificador Bayesiano simple . . . 48

5.1.1. Deﬁnici´on . . . 48

5.1.2. An´alisis . . . 50

5.2. Clasiﬁcador Bayesiano simple din´amico . . . 51

5.2.1. Deﬁnici´on . . . 51

5.2.2. Inferencia . . . 51

5.2.3. Aprendizaje . . . 53

5.3. Redes l´ogico-probabilistas . . . 53

5.3.1. Deﬁnici´on . . . 54

5.3.2. Inferencia y aprendizaje . . . 55

6. Sistemas de an´alisis visual 57 6.1. El problema de detecci´on . . . 57

6.2. El problema de seguimiento . . . 58

6.3. Sistema No. 1 . . . 59

6.3.1. Detecci´on . . . 59

6.3.2. Seguimiento . . . 60

6.3.3. Ambiente de trabajo y plataforma de desarrollo . . . 61

6.3.4. Diﬁcultades de operaci´on con el Sistema No. 1 . . . 62

6.4. Sistema No. 2 . . . 62

6.4.1. Detecci´on . . . 62

6.4.2. Seguimiento . . . 65

6.4.3. Ambiente de trabajo y plataforma de desarrollo . . . 67

7. Experimentos y resultados en el reconocimiento visual de ademanes 69 7.1. Procedimiento experimental . . . 69

7.1.1. Muestreo de los ademanes . . . 70

7.1.2. Arquitectura de los modelos de reconocimiento . . . 72

7.1.3. Selecci´on de los datos de entrenamiento y prueba . . . 73

7.1.4. Entrenamiento y prueba de los clasiﬁcadores . . . 74

7.2. Experimento 1: Reconocimiento de ademanes usando muestras de un usuario . . . 75

7.2.1. Discusi´on . . . 76

7.3. Experimento 2: Reconocimiento de ademanes con variaciones de distancia entre el usuario y la videc´amara . . . 78

7.3.1. Discusi´on . . . 78

(11)

7.4.1. Discusi´on . . . 81

7.5. Experimento 4: Reconocimiento de ademanes con muestras de diferentes usuarios . . . 82

7.5.1. Discusi´on . . . 82

7.6. Experimento 5: Reconocimiento de ademanes usando redes l´ogico-probabilistas . . . . 84

7.6.1. Discusi´on . . . 85

7.7. Aplicación de los ademanes en la instrucción de un robot móvil . . . 87

7.7.1. Discusi´on . . . 89

8. Conclusiones y trabajo futuro 93 8.1. Resumen . . . 93

8.2. Aportaciones . . . 94

8.2.1. Atributos para describir los ademanes . . . 94

8.2.2. Modelos de reconocimiento . . . 95

8.2.3. Implementaci´on del sistema de an´alisis visual . . . 96

8.2.4. Aplicación de los ademanes en la teleoperación del robot móvil . . . 96

8.3. Trabajo futuro . . . 97

(12)

´Indice de figuras

1.1. Proceso del reconocimiento visual de ademanes implementado en un robot. . . 3

1.2. Ejemplo de ademanes con forma de ejecuci´on similar. . . 4

1.3. Ademanes considerados en estos experimentos. . . 7

2.1. Robot CHIP utilizado en el sistema Perseus. . . 15

2.2. Sistema Perseus. El cono de color negro que parte de la mano es la regi´on de la imagen donde se espera localizar la lata [Kahn, 1995]. . . 15

2.3. Posturas reconocidas por el sistema de Bonasso [Bonasso et al., 1995]. . . 16

2.4. Modelo del brazo compuesto por los espacios de proximidad EP1 a EP4, los vectores L1 a L4 y las articulaciones J1 a J3. Las flechas punteadas indican cómo se busca el objeto si se pierde su seguimiento. La flecha sobre el rostro indica el ajuste del espacio de proximidad al rostro (imagen modificada de [Bonasso et al., 1995]). . . 17

2.5. Robot humanoide JINGANG (imagen modiﬁcada de [Guo et al., 1999]). . . 19

2.6. Ejemplo de un sistema de reconocimiento visual de ademanes que emula una palanca de control. . . 21

3.1. Ejemplo de una red Bayesiana con 6 variables o nodos en la red . . . 26

3.2. Ejemplo de una red Bayesiana din´amica desarrollada det 1✁✄✂☎✂✆✁3. . . 28

3.3. Ejemplo de transiciones v´alidas en una cadena de Markov. . . 29

3.4. Representación gráfica de un modelo oculto de Markov como una red Bayesiana dinámica. . . 30

3.5. Representación gráfica de un modelo oculto de Markov de Entrada-Salida. . . 34

3.6. Representación gráfica de los modelos ocultos de Markov acoplados. . . 34

3.7. Representación gráfica de un modelo oculto de Markov paramétrico. . . 35

4.1. Fen´omeno de movimiento biol´ogico. . . 38

4.2. Ejemplos de transformaciones: a) imagen original, b) cambio de escala; c) variaci´on de perspectiva de ✝ 45✞ y d) variaci´on de perspectiva de ✟ 45✞ aproximadamente con respecto al observador. . . 39

4.3. Ejemplos de plantillas temporales (Figura modiﬁcada de [Bobick, 1997]). . . 40

4.4. Descripción de un ademán por medio de posturas (Figura modificada de [Waldherr, 1998]) . . . 41

4.5. Atributos de postura propuestos por [Corradini, 2001]. . . 42

(13)

4.6. Ejemplo de los atributos de movimiento basados en un sistema coordenado centrado en la imagen. . . 46

4.7. Atributos propuestos de la postura del individuo. . . 47

5.1. Representación gráfica de un clasificador Bayesiano simple. . . 50

5.2. Representación gráfica de un clasificador Bayesiano simple dinámico con 3 atributos desarrollado 3 tiempos. . . 52 5.3. Representación gráfica de una red lógico-probabilista. En esta representación, la

vari-able l´ogicaZse representa por un rect´angulo (Imagen tomada de [Morales et al., 2000]). 55

6.1. Ejemplo de la detección del rostro y la ventana de búsqueda de la mano estimada a través de proporciones antropométricas del rostro. . . 61 6.2. Secuencia de 3 imágenes del seguimiento de la mano. . . 61 6.3. Medio ambiente de trabajo. . . 62 6.4. Ejemplo de la aplicación de crecimiento de regiones: a) imagen original; b) resultado

del crecimiento conΛ 12 y c)Λ 25. . . 63

6.5. Estimaci´on de las regiones de la mano y del torso del usuario. . . 65

6.6. Ejemplo de la localizaci´on del rostro y seguimiento de la mano del usuario en el sis-tema No. 2. . . 67

7.1. Edad, estatura y longitud del brazo de las personas de las cuales se obtuvieron las muestras de ademanes. . . 71 7.2. Topolog´ıa lineal de 5 estados o clases utilizada en los modelos ocultos de Markov y

los clasificadores Bayesianos Simples dinámicos. . . 72 7.3. Representación gráfica de las suposiciones de independencia probababilista de los

atributos para los clasiﬁcadores Bayesianos simples din´amicos y los modelos ocultos de Markov . . . 73

7.4. Ejemplo de una matriz de confusi´on con dos clases,AyB. Cada rengl´on corresponde

a las muestras de un ademán particular presentadas. Las columnas corresponden a la salida de la clasificación. . . 75 7.5. Experimento 1: a) promedio de porcentajes de reconocimiento y b) promedio de

it-eraciones del algoritmo EM. . . 77 7.6. Promedio de las matrices de confusi´on del experimento 1 con los modelos entrenados

con 20 muestras de cada adem´an. . . 79 7.7. Experimento 2. Promedio de porcentajes de reconocimiento de 10 repeticiones del

experimento como una función del número de muestras de entrenamiento. . . 80 7.8. Experimento 3. Promedio del número de iteraciones del algoritmo EM de 10

repeti-ciones del experimento como una funci´on del n´umero de muestras de entrenamiento. . 81 7.9. Experimento 4. Promedio de porcentajes de reconocimiento de 10 repeticiones del

experimento como una función del número de muestras de entrenamiento. . . 83 7.10. Representación gráfica de la topolog´ıa de las redes lógico-probabilistas . . . 85

7.11.Experimento 5. Resultados de clasiﬁcaci´on y entrenamiento usando las redes

(14)

7.12. Redes Bayesianas din´amicas 1 y 2. . . 87

7.13.Experimento 5. Resultados de clasiﬁcaci´on y entrenamiento usando las redes

Bayesianas din´amicas. . . 88 7.14. Ejemplo de la aplicaci´on del sistema de reconocimiento de ademanes para instruir un

(15)

´Indice de cuadros

4.1. Conjunto de atributos utilizado por [Campbell et al., 1996]. . . 43

6.1. Dimensiones f´ısicas del cuerpo humano [Azpeitia, 1987, Kahn, 1995]. . . 60

7.1. Relación ademán-acción para la instrucción del robot móvil. . . 89

(16)

Cap´ıtulo 1

Introducci´on

1.1. ¿Ademanes para comunicarse con los robots?

Imagine un futuro donde los robots preparen el caf´e, abran la puerta o recojan la basura por usted. Para realizar de forma efectiva esas tareas, dichos robots deben poseer habilidades de comunicaci´on

simi-lares a las utilizadas por los humanos en la vida diaria. Una de tales habilidades es la comunicaci´on por

ademanes. ´Estos conforman un medio visible para expresar sentimientos y actitudes, realizar ´ordenes,

indicar lugares y la duración de algún suceso; también son un complemento para el lenguaje hablado

y pueden clariﬁcarlo cuando es ambiguo o inaudible. La Enciclopedia Universal Ilustrada

Europeo-Americana [Enc, 1975] deﬁne un adem´an como:

Ademán.(Etim. Del lat´ınad, a, ymanus, mano.)Acci ón, signo, movimiento, se ñal exterior con que se manifiesta ó expresa algo.

Según esta definición, un ademán puede involucrar cualquier parte del cuerpo. Sin embargo, una

idea generalmente aceptada es que son las manos y los brazos los elementos m´as usados en su

ejecu-ción. Estos miembros son los más expresivos después del rostro; además, con ellos es posible conocer

y manipular los objetos del mundo [Cadoz, 1994]. De acuerdo a lo anterior, cuando se hable de un

adem´an en esta tesis se querr´a decir que es un:

Acto o movimiento que comunica informaci ´on y que se realiza con la(s) mano(s) y/o brazo(s).

En unainteracci ón directahumano-robot los ademanes pueden mostrar cómo, dónde y con qué objetos

debe ejecutar sus tareas el robot [Rybski and Voyles, 1999, Wasson et al., 1998]. De la misma forma,

(17)

se les puede operar a distancia, aunque ´esta es una aplicaci´on mucho menos explorada.

Espec´ıﬁca-mente, en este documento se le denominareconocimiento visual de ademanesa:

El proceso de an´alisis visual para asignar a un adem ´an un concepto o significado previamente

conocido.

1.1.1. Etapas del reconocimiento visual de ademanes

La ﬁgura 1.1 muestra las etapas que conforman el reconocimiento visual de ademanes. En este caso el

proceso se encuentra implantado en un robot móvil. Inicialmente, una o más videocámaras capturan

una secuencia de imágenes que registra la ejecución de un ademán. En estas imágenes se realiza un

análisis visualpara aislar la figura del individio en cada imagen y describirla mediante algún

mode-lo predeterminado –e.g., representaciones con formas geom´etricas simples [Kortenkamp et al., 1996,

Starner, 1995], el contornoo lasilueta[Isard and Blake, 1998]. De estas descripciones se extraeuna

secuencia deobservacioneso valores deatributosrelevantes para caracterizar la evoluci´on del adem´an.

Finalmente, estas observaciones sonreconocidasoclasificadascomo un adem´an particular de acuerdo

a su similitud con alguno de los ademanes almacenados en una base de datos.

Los atributos de los ademanes pueden de ser de dos tipos: i) de movimiento, que describen el

desplazamiento del usuario entre dos o m´as im´agenes de la secuencia y ii) de posturao la pose del

usuario en una única imagen. Algunos de los autores más influyentes en esta área [Johansson, 1973,

Webb and Aggarwal, 1982, Davis and Bobick, 1997, Giese and Poggio, 2000, Shah, 2003] han

privi-legiado los atributos de movimiento como la información básica en la descripción de los ademanes. En general, las observaciones de un ademán suelen ser imprecisas por diversas razones: a) no siempre es

posible observar la trayectoria completa del adem´an por oclusi´on de la mano y brazo con otras partes

del cuerpo, b) los sistemas de análisis visual artificales o biológicos no son exactos en la segmentación

o seguimiento de la persona y m´as importante c) es muy dif´ıcil realizar un adem´an dos veces

exacta-mente de la misma manera a´un cuando se trate del mismo ejecutante. Los modelos probabilistas son

una forma conveniente para manejar la incertidumbre propia de la ejecuci´on de los ademanes.

Par-ticularmente, los modelos ocultos de Markov [Rabiner, 1990] que son un caso especial de las redes

Bayesianas dinámicas [Pavlović, 1999] se han convertido en la técnica estándar en el reconocimiento

visual de ademanes [Starner, 1995].

El reconocimiento de ademanes es un elemento clave en el ´exito de una comunicaci´on natural

(18)

Robot

Ademán

observaciones Extracción de

visual Análisis

Clasificación

de ademanes las imágenesCaptura de

de video Cámara(s)

Base de datos

[image:18.612.191.455.74.294.2]

Etapas del reconocimiento visual de ademanes

Figura 1.1: Proceso del reconocimiento visual de ademanes implementado en un robot. Una o m´as

videocámaras capturan las imágenes que registran el ademán. Mediante el an álisis visual se aisla

la ﬁgura del individuo en las im´agenes. Posteriormente se extraenlas observacionesrelevantes para

describir el adem´an. Finalmente, estas observaciones seclasificancomo correspondientes a uno de los

ademanes almacenados en una base de datos.

todav´ıa existen muchos problemas que deben ser resueltos para aumentar la naturalidad y efectividad

de este tipo de interfaces.

1.2. El problema: confusi ´on en la clasificaci ´on de ademanes

simi-lares

En un trabajo previo, el autor desarroll´o una aplicaci´on para reconocer cinco ademanes ejecutados con

la mano derecha de frente y a 4m de una videoc´amara. Para caracterizar los ademanes se utilizaron

4 atributos simples similares a los propuestos por [Starner, 1995] que representan principalmente

in-formaci´on de movimiento de la mano: ∆xy ∆y que describen el cambio de posici´on de la mano en

el planoXY,∆area´ o el cambio en el ´area de la mano para estimar movimiento en profundidad –i.e.,

desplazamiento sobre el ejeZ– y un atributo de postura denominado f ormaque describe si la mano

se encuentra vertical, horizontal o inclinada hacia los costados en el planoXY. Estos atributos se

de-scriben a detalle en el cap´ıtulo 4. Para la clasificación de los ademanes se utilizó un enfoque estándar

(19)

[image:19.612.245.393.79.202.2]

b) a)

Figura 1.2: Ademanes de a) atenci ´on y b) detener. Estos ademanes fueron confundidos en

experi-mentos de reconocimiento realizados por el autor. Las ﬂechas indican la forma de ejecuci´on de los ademanes.

En múltiples presentaciones de esta aplicación se observó que la mayor parte de los errores de

clasi-ficación de los ademanes se presentaron en aquellos con formas similares de ejecución. Por ejemplo,

considere los ademanes deatenci ´onydetener(Figura 1.2). Ambos ademanes inician con el brazo en

una posición de descanso. El ademán de atención se ejecuta levantando la mano encima de la cabeza.

El adem´an de detener se realiza al llevar la mano a la altura del hombro y dirigiendo la palma extendida

hacia el frente. La principal diferencia entre ellos es el movimiento en el planoXY que es m´as largo

en el adem´an de atenci´on. Desafortunadamente, ni los atributos de movimiento ni los modelos ocultos

de Markov son capaces de reﬂejar esta diferencia. Por un lado, los atributos de movimiento

princi-palmente describen la trayectoria de la mano, que es muy similar en ambos casos. Por otro lado, los

modelos ocultos de Markov absorben algunas de estas variaciones temporales debido a laalineaci ´on

temporal din´amicainnherente en ellos [Rabiner, 1990].

Para evitar este problema frecuentemente se eligen ademanes que diﬁeren diametralmente en su

forma de ejecuci´on. Sin embargo, esto limita el n´umero de ademanes posibles y podr´ıa hacer que

aquellos seleccionados resulten poco “naturales”. Una segunda alternativa es incluir exp´ıcitamente en

los modelos ocultos de Markov el n´umero esperado de observaciones [Rabiner, 1990]. Esta soluci´on

ha sido aplicada con éxito para distinguir palabras del idioma inglés que difieren en la duración de

alguno de sus fonemas –e.g. iceyeyes. No obstante, debe existir conocimientoa prioride la longitud

de las secuencias de observaciones. En el reconocimiento visual de ademanes esta es una restricci´on dif´ıcil de cumplir ya que la longitud percibida de un adem´an puede variar por diversas razones, como

la distancia de la persona a la videoc´amara, diferentes dimensiones f´ısicas entre diversos individuos y

(20)

Una tercera opci´on es seleccionar un conjunto de atributos que reﬂejen las diferencias entre los

ademanes considerados. Cuando existe un conjunto amplio de atributos, se pueden aplicar t´ecnicas

deminer´ıa de datospara extraer un subconjunto ´util de atributos para caracterizar los ademanes. Sin

embargo, ´este no es el caso del reconocimiento visual de ademanes, donde casi siempre se cuenta

s´olo con un conjunto reducido de atributos que es sugerido por observaci´on o por un conocimiento

intuitivo del proceso. Obs´ervese nuevamente la ﬁgura 1.2. Una diferencia visible entre estos ademanes

es la posici´on ﬁnal de la mano con respecto a otras partes del cuerpo del individuo. Para discernir

entre ademanes similares es importante considera informaci´on expl´ıcita de la forma del individuo

al ejecutar el ademán. Los atributos de postura ofrecen un medio eficaz y eficiente para incorporar esta información. De esta manera, es razonable pensar en la combinación de atributos de

postura-movimiento para mejorar el reconocimiento de ademanes a´un cuando presentan formas de evoluci´on

similares.

1.3. Objetivo de la tesis

En el reconocimiento visual de ademanes existen dos preguntas importantes que seg´un M. Turk

[Turk, 2004] es necesario contestar para el desarrollo de una teor´ıa general del reconocimiento de

ademanes: i) los atributos para describir los ademanes y ii) los modelos para representar y clasiﬁcar

estos atributos. Este trabajo es una aportaci´on en ambos problemas.

El objetivo de esta tesis es proponer la combinaci´on de atributos de postura y movimiento para

mejorar los porcentajes de reconocimiento de los ademanes. Adem´as, se presentan dos nuevos modelos

para representar esta informaci´on y clasiﬁcar los ademanes: los clasificadores Bayesianos simples

dinámicosy lasredes l ógico-probabilistas. Los ademanes están orientados a la instrucción de un robot

m´ovil.

Para evaluar la utilidad de la combinación de postura-movimiento se realizaron diversos experi-mentos de clasificación de ademanes. Los resultados de reconocimiento de esta combinación se

com-paran con los obtenidos por una descripción basada sólo en información de movimiento. En estos

mismos experimentos los dos modelos de clasiﬁcaci´on presentados en este trabajo se comparan con

(21)

1.3.1. Alcance del trabajo

En este trabajo se considera el desarrollo de una aplicaci´on para el reconocimiento visual de nueve

ademanes. Los experimentos se realizar´an en un ambiente de laboratorio. Para el reconocimiento, el

usuario deberá situarse de frente al campo de visión de una videocámara y se espera que el rostro y la

mano derecha del usuario no salgan de los l´ımites de cada imagen capturada. Aunque los ademanes

están dirigidos a la instrucción de un robot móvil, se considera que la videocámara se encuentra en una posición fija. No se permite el desplazamiento del usuario una vez iniciado el ademán. Tampoco

se contemplan cambios bruscos de iluminaci´on ni oclusiones entre el usuario y la videoc´amara.

Una de las limitaciones de este trabajo es el uso de un sistema monocular para extraer las

obser-vaciones de los ademanes. Otra limitante es que se consideran s´olo ademanes ejecutados con la mano derecha del usuario.

1.4. Metodolog´ıa

La metodolog´ıa que se sigui´o para alcanzar el objetivo de esta tesis se describe a continuaci´on:

a) Definici´on de los ademanes.

En este trabajo se consideran los siguientes ademanes ejecutados con la mano derecha. El primer

adem´an es el de acercarse, en el que el usuario mueve la palma de la mano hacia su torso (Figura

1.3a). El segundo adem´an es el de atenci ´on donde el usuario levanta su mano encima de su cabeza

(Figura 1.3b). El tercer adem´an se llamadetenery para realizarlo el usuario debe estirar su brazo hacia

el frente y dirige la palma de la mano hacia la videoc´amara (Figura 1.3c). El cuarto adem´an es el de

derechaque se ejecuta moviendo la mano del usuario hacia su derecha (Figura 1.3d). El quinto adem´an

es el deizquierdaque se realiza moviendo la mano hacia la izquierda (Figura 1.3e). El sexto adem´an

es el de girar hacia la izquierdaen el cual el usuario con el brazo extendido realiza un movimiento

circular en dirección de las manecillas del reloj (Figura 1.3f). El séptimo ademán es el degirar hacia

la derecha que es similar al anterior, pero en este caso la mano se desplaza en direcci´on contraria a

las manecillas del reloj (Figura 1.3g). El siguiente adem´an se denomina desaludar; en este adem´an

el usuario levanta su mano a la altura de su hombro y la balancea de un lado a otro un par de veces

(Figura 1.3h). El ´ultimo adem´an es el deapuntardonde el usuario estira su brazo y mano sobre su torso

(22)

[image:22.612.139.498.75.274.2]

Figura 1.3: Ademanes considerados en estos experimentos. Las flechas indican la trayectoria de cada ademán: a) acercar, b)atenci ón, c)detener, d)derecha, e) izquierda, f)girar a la izquierda, g)girar

a la derecha, h)saludare i)apuntar. En el inciso j) se muestra la posici´on en la que inicia y termina

cada adem´an.

conocida denominada de “descanso” (Figura 1.3j). Estos ademanes est´an orientados a la instrucci´on

de un robot m´ovil.

b) An´alisis visual.

Para la extracci´on visual de las observaciones de los ademanes en una secuencia de im´agenes se

de-sarrollaron dos aplicaciones de an´alisis visual denominados sistema No. 1 y sistema No. 2. En ambos

sistemas el proceso general es similar. Primero, se localiza la posici´on del rostro de la persona en una

imagen; posteriormente, con proporciones atropom´etricas basadas en el rostro y suposiciones de la

postura de la persona se estima la posici´on de su mano derecha. La mano se localiza por color de piel.

Una vez localizada la mano comienza el seguimiento a trav´es del resto de la secuencia de im´agenes y

al mismo tiempo se extraen las observaciones del adem´an. La diferencia principal entre ambos es el

método de localización del rostro y los algoritmos de localización y seguimiento de la mano. El sistema

No. 1 se utiliz´o principalmente en los experimentospilotode esta investigaci´on y publicados hasta el

a˜no 2004 aproximadamente. El segundo sistema se utiliz´o en todos los experimentos presentados en

(23)

c) Definici´on de los atributos.

Este es un paso importante en cualquier sistema declasificaci ´on de patronesy es el principal objeto

de estudio de esta tesis. En este trabajo se propone el uso de la combinaci´on de atributos de

postura-movimiento. Por un lado, los atributos de movimiento permiten estimar el desplazamiento de la mano

derecha en el espacio ✠X✁Y✁ Z✡ y los atributos de postura corresponden a informaci´on de la pose de la

mano y de su posición con respecto al rostro y torso de la persona en una sola imagen. Estos atributos ofrecen una descripción simple, clara y efectiva de la evolución de los ademanes.

d) Definici´on de los modelos de reconocimiento.

En esta tesis, para representar los atributos de postura-movimiento y construir los clasiﬁcadores se

utilizaron los modelos ocultos de Markov y se presentan dos nuevos modelos de reconocimiento:

los clasificadores Bayesianos simples dinámicos y las redes lógico-probabilistas. Para los modelos

ocultos de Markov y los clasiﬁcadores Bayesianos simples din´amicos se consideran 2 arquitecturas

diferentes: a) una arquitectura que considera los atributos de postura-movimiento y b) una arquitectura

que considera sólo los atributos de movimiento. Las redes lógico-probabilistas consideran información

de postura-movimiento. La implementaci´on de estos modelos est´a derivada del software desarrollado

por Tapas Kanungo [Kanungo, 1999] para el manejo de los modelos ocultos de Markov.

e) Experimentaci´on.

En este trabajo se condujeron 5 experimentos para evaluar la importancia de la combinaci´on de la

infor-mación de postura-movimiento y al mismo tiempo comparar el desempeño en términos de clasificación y aprendizaje de los modelos ocultos de Markov, los clasificadores Bayesianos simples dinámicos y

las redes l´ogico-probabilistas. Estos experimentos se realizaron con muestras tomadas de 15 personas

diferentes para evaluar el desempeño en la clasificación y el aprendizaje de los ademanes:

usando muestras de una persona de frente y a una distancia ﬁja de la videoc´amara,

con variaciones de la distancia de un individuo a la videoc´amara,

con variaciones de la rotaci´on de una persona con respecto al plano horizontal (piso) y

(24)

f) Comunicaci´on del robot.

Se desarrolló una aplicación para demostrar el control a distancia de un robot móvil usando

ade-manes. La arquitectura general de esta aplicaci´on es de tipo cliente-servidor, donde el sistema de

reconocimiento visual de ademanes –o cliente– envia al robot el adem´an reconocido. El m´odulo de

comunicaci´on implantado sobre el robot –o servidor– recibe el adem´an y pide a los actuadores que

ejecuten la tarea de movimiento asignada al ademán. El usuario es retroalimentado sobre la posición actual del robot y la ejecución de las tareas a través de imágenes capturadas por una videocámara

montada sobre el robot.

1.5. Contribuciones

A continuaci´on se describen brevemente las aportaciones principales de este trabajo:

Atributos de postura-movimiento para describir los ademanes. Se presentan resultados experimentales que muestran que la informaci´on de postura combinada con informaci´on de

movimiento mejora sensiblemente la clasiﬁcaci´on de los ademanes cuando se consideran:

☛

Ademanes de un ´unico individuo.

☛

Variaciones de la distancia entre el individuo y la videoc´amara.

☛

Variación en el ángulo de rotación del individuo en el plano horizontal.

☛

Ademanes realizados por m´ultiples personas.

☛

Ademanes con formas de ejecuci´on similares.

La combinaci´on de postura-movimiento no s´olo es un factor crucial en el proceso de

re-conocimiento de ademanes; tambi´en promueve el desarrollo de una mejor comprensi´on de los

procesos f´ısicos y mentales involucrados en la generaci´on y entendimiento de los ademanes de

los seres humanos.

Clasificadores Bayesianos simples din ´amicos. Se presentan estos modelos probabilistas para representar los atributos de postura-movimiento y clasiﬁcar los ademanes. Con respecto al

mod-elo oculto de Markov, este modmod-elo presenta las siguientes caracter´ısticas:

☛

(25)

☛

Ofrece una descripci´on m´as clara de las relaciones entre los atributos de los ademanes.

☛

Ofrece resultados de clasiﬁcaci´on competitivos.

☛

Requiere un menor número de iteraciones del algoritmo Expectaci ón-Maximizaciónpara

el entrenamiento de estos modelos.

La descripci´on que se presenta de este modelo es suﬁcientemente general para aplicarse en otros

problemas que involucren el an´alisis de un conjunto de datos en secuencia.

Redes lógico-probabilistas. Se presentan los resultados iniciales del uso de las redes lógico-probabilistas en la clasificación de ademanes. Estos modelos combinan variables lógicas

den-tro de las redes Bayesianas din´amicas para representar informaci´ondeterminista. En la

experi-mentaci´on de este trabajo, estas variables describen relaciones espaciales entre la mano, rostro

y torso. Las variables lógicas son programas lógicos en la forma de cláusulas de Horn. Aunque

los resultados de clasiﬁcaci´on con la arquitectura propuesta para estos modelos no fueron

satis-factorios, s´ı ofrecen nuevas perspectivas sobre la descripci´on de los ademanes usando este tipo

de representaciones h´ıbridas.

Implementación de un enfoque adaptivo de color de piel.Se presenta la implementación de un sistema adaptivo de color de piel para el manejo de múltiples usuarios y condiciones de

iluminación variables. Aún en las condiciones de iluminación blanca extrema del ambiente de

operación, este sistema funcionó correctamente en la localización y seguimiento de la mano de

m´as de 15 personas.

Implementación de una aplicación para el control a distancia de un robot m óvil. Las ideas presentadas en este trabajo se integraron y probaron con éxito en la instrucción a distancia de

un robot m´ovil con ademanes, dentro del ambiente de laboratorio. Esta aplicaci´on ha sido

uti-lizada en m´ultiples visitas de estudiantes y profesores en el Laboratorio de Sistemas Inteligentes del Tecnol´ogico de Monterrey Campus Cuernavaca. Este es probablemente una de las primeras

aplicaciones desarrolladas en la operaci´on a distancia de un robot m´ovil por medio de ademanes.

Experimentaci´on y Base de datos de ademanes. Para realizar los experimentos presentados en este trabajo se muestrearon un total de 7920 ejemplos de los 9 ademanes considerados de

15 personas. El número de ademanes, as´ı como las condiciones de variación de la orientación

y distancia del usuario con respecto a la videoc´amara hacen de este trabajo uno de los m´as

(26)

Uno de los resultados de esta investigaci´on es la construcci´on de una base de datos de ademanes

con un promedio de 40 muestras de los 9 ademanes ejecutados por 15 personas. Estas muestras

est´an almacenadas en video. Aunque las diferentes aplicaciones del reconocimiento visual de

ademanes hacen muy dif´ıcil crear una base de datos ´unica, estos videos pueden utilizarse en otros

problemas de reconocimiento visual como la detecci´on y reconocimiento de rostros, detecci´on

de piel y en el seguimiento de la mano.

1.6. Contenido del documento

El resto del documento est´a organizado como sigue. Los cap´ıtulos 2, 3 y 4 contienen informaci´on

de trabajos previos relacionados a este trabajo. El cap´ıtulo 2 presenta diversas aproximaciones de la

interacci´on humano-robot m´ovil por medio de ademanes. El cap´ıtulo 3 presenta las redes Bayesianas

din´amicas y los modelos de probabilidad frecuentemente utilizados en el reconocimiento de ademanes.

En el cap´ıtulo 4 se presentan los atributos de postura-movimiento que se utilizaron en este trabajo

jun-to con una revisi´on de las tendencias actuales para describir los ademanes. El cap´ıtulo 5 presenta

los modelos de reconocimiento propuestos en este documento: los clasiﬁcadores Bayesianos

din´ami-cos simples y las redes l´ogico-probabilistas. En el cap´ıtulo 6 se describen los sistemas visuales que se utilizaron para capturar los ademanes. El cap´ıtulo 7 presenta los experimentos realizados en el

reconocimiento visual de ademanes y los resultados obtenidos. En el cap´ıtulo 8 se discuten las

conclu-siones y el trabajo futuro. En el anexo A se declaran los foros en que se han presentado partes de este

(27)

Cap´ıtulo 2

Comunicaci´on visual con robots por medio de

ademanes

Este cap´ıtulo est´a enfocado principalmente en la aplicaci´on del reconocimiento visual de ademanes

como medio de comunicación con robots, haciendo énfasis en dos grandes l´ıneas de investigación: a)

los llamadosrobots de servicio, ´utiles para apoyar al ser humano en tareas comunes de la vida diaria y

b) y los robotsteleoperadosu operados a distancia. Inicialmente, se discuten diversas aplicaciones del

reconocimiento visual de ademanes propuestos como medio de interacci´on hombre-m´aquina.

2.1. Interacci ´on Humano-Computadora con ademanes

Dentro del área de Interfaces Humano-Computadora (HCIpor sus siglas en inglés) ha crecido el interés

por emular las formas de comunicaci´on utilizadas por los humanos en la vida diaria. Reducciones en

el tiempo de entrenamiento de un usuario, as´ı como mayor facilidad, comodidad y conﬁanza en el

manejo de las m´aquinas o sistemas computarizados, son algunas de las ventajas al desarrollar medios

de interacción más “naturales”. Muchas personas prefieren una conversación personal a una llamada telefónica o correo electrónico ya que la información visual disponible en una interacción directa puede

expresar incluso m´as de lo que se dice con las palabras [Morris, 1977, Knapp, 1988].

Este problema involucra diversas ´areas de estudio. En la elecci´on de los ademanes deben tomarse

en cuenta los aspectos sociales y culturales de su significado y ejecución, en beneficio de una mayor

utilidad para el sistema. La localizaci´on y seguimiento de un usuario en una secuencia de im´agenes

as´ı como su representaci´on dentro del sistema son problemas de visi ´on computacional. Finalmente,

(28)

la extracci´on de caracter´ısticas de movimiento y el reconocimiento del adem´an son problemas

corre-spondientes al ´area delreconocimiento de patrones. Aunque estas ´areas no son del todo excluyentes

entre si, plantear cada elemento de forma separada ayuda a simpliﬁcar la comprensi´on del problema y

el proceso de desarrollo. Aún con avances significativos, no existe una solución única para cada etapa

y las alternativas que se eligen dependen de la aplicaci´on en la que ser´an utilizadas.

La lista de aplicaciones del reconocimiento visual de ademanes es tan larga como la imaginaci´on

pueda dictarla. Basta con pensar en el n´umero de situaciones donde los ademanes juegan un papel

importante de comunicaci´on. La siguiente revisi´on no pretende ser exhaustiva, sino mostrar las

princi-pales l´ıneas de trabajo en las que se ha utilizado.

Las aplicaciones m´edicas son un buen ejemplo de su utilidad. Becker [Becker, 1997] propuso un

sistema tutor para el aprendizaje de ademanes de T’ai Chi como terapia de relajaci´on. El

reconocimien-to del lenguaje de sordomudos [Starner, 1995, Liang and Ouhyoung, 1996, Takayoshi et al., 1997,

Holden, 1999] -que es una de las aplicaciones m´as exploradas- puede usarse junto con la s´ıntesis o

generación automática de vozcomo una opción para la gente con problemas del habla.

En la comunicaci´on de la vida diaria es muy com´un referirse a los objetos y lugares

señalándo-los con las manos. En ambientes de interfaz gráfica el ademán de apuntar se ha usado

co-mo sustituto del teclado y al ratón en la selección de opciones o menús y para dibujar figuras

[Crowley and Coutaz, 1997]; en ambientes de realidad virtual y videoconferencias para seleccionar

objetos del mundo virtual [Starner et al., 2003] y de sitios remotos [Conway and Cohen, 1998],

re-spectivamente. Bolt [Bolt, 1980] usó este ademán en su sistema “Pon eso ahi”, la primera de múltiples

interfaces denominadasmultimodalesque integran informaci´on de lenguaje natural, ademanes y otros

medios de comunicaci´on [Billinghurst, 1998, Ko et al., 2003, Oviatt, 1999, Pavlovi´c, 1999]. Una

apli-caci´on de las interfaces multimodales es el KidsRoom [Bobick et al., 2000] un cuarto de juego para

ni˜nos con pantallas de video, luces y sonido en el que los usuarios interactuan por medio de sus

activi-dades con la historia que se les proyecta. Tales activiactivi-dades son controladas por la propia historia y por

lo tanto la ﬂexibilidad de la interacci´on es limitada.

En realidad virtual los ademanes se utilizan para sintetizar movimientos de humanos

vir-tuales y avatares [Boulic et al., 1997]. En estas animaciones es común usar editores gráficos

[Yeates et al., 2003] y actores reales con sensores de postura/movimiento adheridos a su cuerpo

[Kaiser et al., 2003]. En t´erminos computacionales, estas interfaces “alambradas”son menos costosas y

complejas que los sistemas basados en visi´on. Sin embargo, un sistema visual incrementafacilidad de

uso, si se piensa por ejemplo, en un videojuego. Adem´as, con la misma c´amara de video puede

(29)

ademanes tambi´en pueden usarse en la s´ıntesis de movimiento [Lee et al., 2002] y para proporcionar

esta capacidad a entidades del mundo virtual, aumentando la experiencia social en la inmersi´on del

usuario.

Sucede lo mismo al interactuar con las computadoras. Con los ademanes es posible instruir a las máquinas al asignar a un ademán un significado o tarea en particular, clarificando ideas en conjunto

con el lenguaje hablado [Cassell, 1998].

En los últimos años el interés por dotar a los robots móviles con habilidades sociales ha crecido

considerablemente. El objetivo es desarrollar robots de serviciopara emplearlos en tareas de la vida

diaria, en ayuda a personas discapacitadas, como asistentes de personas de edad avanzada o gu´ıas

en recorridos [Rao et al., 2002, Roy et al., 2000, Thrun et al., 1999]. Una de dichas habilidades es la

comunicaci´on por ademanes. Con ellos se puede instruir al robot con informaci´on espacial del tipo

“Dame ese objeto” o “Mu´evete a este lugar” [Wasson et al., 1998]. Tambi´en sirven para mostrarle

c´omo realizar tareas simples [Rybski and Voyles, 1999] y en conjunto con instrucciones de voz para

ense˜narle informaci´on del mundo -por ejemplo, “Esto es un cubo”. De la misma manera, los ademanes

pueden ayudar a dirigir a los robots a distanciaen actividades potencialmente peligrosas para el ser

humano, como la exploraci´on y navegaci´on en ambientes hostiles o desconocidos.

2.2. Ademanes para instruir robots de servicio

El desarrollo de robots de servicio que emulen conductas “sociales” para convivir con los seres

hu-manos y apoyarlos en tareas cotidianas ha sido el sue˜no de los investigadores desde hace muchos

años. Los dos tipos de robots más utilizados con este propósito son los robos móviles –cuyo objetivo

primario es el desplazamiento– y los robots humanoides –i.e., con forma humana.

Estos robots deben poseer habilidades que emulen las formas de comunicaci´on naturales humanas

para desempe˜nar sus tareas eﬁcientemente. Una de estas habilidades es la de percibir y responder a los

ademanes. A continuaci´on se presentan diversas aplicaciones del reconocimiento visual de ademanes

como medio de comunicaci´on con los robots de servicio.

2.2.1. Robots m ´oviles

Uno de los primeros intentos por desarrollar interfaces naturales humano-robot por medio de ademanes

(30)

[image:30.612.253.379.73.240.2]

Figura 2.1: Robot CHIP utilizado en el sistema Perseus.

binocular est´ereo y con una mano rob´otica de dos dedos. Este robot es capaz de localizar a una persona

en un ambiente de oﬁcina, detectar una lata en el suelo a la que el usuario se˜nala y recogerla.

El ambiente se modela por la combinaci´on de la intensidad de los pixeles, de orillas de los objetos,

de color y de profundidad. Con esta información y suponiendo un ambiente estático, la región donde se encuentra el individuo se segmenta del fondo de la imagen. Cuando el usuario separa alguna de sus

manos del cuerpo y permanece estacionaria por un corto tiempo, se considera que ejecuta un adem´an

de apuntar. La direcci´on a donde se se˜nala se obtiene al crear un cono alrededor de la l´ınea que cruza

el centro del rostro y de la mano (ﬁgura 2.2). La lata se busca siempre dentro de esta regi´on, por lo que

no es posible localizarla si el usuario no apunta al suelo. Con 10 personas y 8 intentos por cada una, el

sistema obtuvo un 98.8 % de reconocimiento del adem´an y un 91.5 % de detecci´on de la lata. La postura

no fue detectada cuando el brazo se coloc´o entre el torso del usuario y la videoc´amara, posiblemente

por problemas del sistema visual al seguir la mano. Este trabajo utiliza información y suposiciones propias de un ambiente de oficina por lo que es dif´ıcil considerar su aplicación en ambientes exteriores

y/o din´amicos.

Uno de los sistemas que más han influido en los desarrollos la interacción humano-robot por medio

de ademanes es el sistema de Bonasso et al. [Bonasso et al., 1995]. Esta aplicación reconoce seis pos-turas del brazo derecho (figura 2.3). Para el brazo se utiliza un modelo geométrico 3-D que utiliza

cuatro regiones de atenci´on llamadasespacios de proximidad(ﬁgura 2.4). Cada una de estas regiones

sigue el movimiento del rostro, hombro, codo y mano por correlaci´on de informaci´on detextura. Estos

espacios se etiquetan como EP1 a EP4 y est´an unidos por vectores L1 a L4 que parten del centro de

los espacios de proximidad y asemejan un modelado de tipo esqueleto para el brazo. Los puntos J1

(31)

[image:31.612.264.372.73.186.2]

Figura 2.2: Sistema Perseus. El cono de color negro que parte de la mano es la regi´on de la imagen donde se espera localizar la lata [Kahn, 1995].

Parar Arquear

Alzar

Apuntar Aventar Relajar

Figura 2.3: Posturas reconocidas por el sistema de Bonasso [Bonasso et al., 1995].

EP4 del codo y mano indican las direcciones de b´usqueda en caso de perder el seguimiento. La ﬂecha

vertical indica la direcci´on de ajuste del espacio EP1 sobre la cabeza. Los ´angulos relativos entre estos

vectores determinan la postura ejecutada.

Los 2 experimentos reportados en este trabajo con el adem´an de apuntar plantean una de las

primeras evaluaciones de las interfaces humano-robot en la literatura. Los experimentos se

desarrol-laron como sigue. El primer experimento consiste en mover un robot se˜nalando el lugar objetivo con

el ademán de apuntar. Para definir la posición objetivo ✠x✁ y✡ en el plano horizontal se crea un vector

3-D en la direcci´on del brazo y se determina su intersecci´on con el suelo. Los resultados mostraron

que el error del robot al posicionarse aumentaba al incrementarse la distancia del usuario al punto objetivo, posiblemente por errores odom´etricos del robot y del sistema visual. El segundo experimento

es el de compartir el control del robot entre dos usuarios. Cuando un usuario apunta a otro, el vector

3-D se extiende en un espacio cil´ındrico donde el robot busca texturas signiﬁcativas, por ejemplo, del

rostro. En 10 repeticiones, el robot localiz´o correctamente a los usuarios. Este trabajo propone adem´as

[image:31.612.157.482.236.391.2]

(32)

[image:32.612.186.448.74.332.2]

Figura 2.4: Modelo del brazo compuesto por los espacios de proximidad EP1 a EP4, los vectores L1 a L4 y las articulaciones J1 a J3. Las flechas punteadas indican cómo se busca el objeto si se pierde su seguimiento. La flecha sobre el rostro indica el ajuste del espacio de proximidad al rostro (imagen modificada de [Bonasso et al., 1995]).

el robot pueda realizar diferentes tareas de acuerdo al historial de ademanes hasta el momento.

Stefan Waldherr [Waldherr, 1998] desarroll´o un sistema monocular de reconocimiento de cinco

ademanes del brazo derecho para instruir a un robot m´ovil en una tarea de limpieza. La posici´on

del rostro de la persona en la imagen se estima por color de piel. Con esta posici´on se obtiene el

color de su playera de manga larga que se supone dentro de una región de tamaño fijo. El sistema

se basa en el reconocimiento de posturas consecutivas del brazo. La caracterización de los ademanes y la motivación de esta aproximación se discuten en el cap´ıtulo 4. En cada imagen se ejecuta una

correlaci´on de la postura actual con un conjunto de plantillas de pose. El resultado de esta correlaci´on

con cada una de las R poses almacenadas es un vector de similitud de tama˜no R. Cada uno de los

´ındices del vector representa la semejanza de la postura observada con la correspondiente al ´ındice. El

reconocimiento se efectua mediante la comparaci´on de un ﬂujo de estos vectores con los prototipos

de ademanes almancenados usando un algoritmo similar al Viterbi [Rabiner, 1990]. En los resultados

experimentales se obtuvo un 96 % de reconocimiento correcto en 261 ejecuciones de ademanes de un

(33)

a que ´esta es la estrategia para llevar al robot hasta el lugar de limpieza, el desplazamiento del usuario

y el robot aparece en videos demostrativos como lento y poco natural. Adem´as, los ademanes son

movimientos “sint´eticos”, poco naturales. Finalmente, debido a las suposiciones de color de la ropa,

este sistema est´a restringido a movimientos del brazo “f´acilmente distinguibles” a un costado del

usuario, lo que hace dif´ıcil el reconocimiento de movimientos en profundidad o sobre el torso del

usuario.

En [Perzanowski et al., 1998] se explora el uso del adem´an de apuntar para complementar

sen-tencias de voz del tipo “Mu´evete a la izquierda” o “Ve hacia all´a”. El robot percibe los movimientos

por medio de un sistema l´aser que emite su luz en un plano horizontal. Los puntos de intersecci´on de

los objetos con dicho plano se obtienen con una videoc´amara sensible a esta frecuencia. El grupo de

puntos con el tama˜no y distancia apropiados se supone que es la mano. La trayectoria de movimiento

define el ademán ejecutado. Un problema de esta aproximación es el número de ademanes posibles

de-bido a las limitaciones perceptuales de la aplicaci´on. Otro problema es que el usuario debe permanecer

relativamente cerca del l´aser para instruir al robot.

2.2.2. Robots humanoides

En muchas situaciones, adem´as de la funcionalidad, la apariencia es un factor importante en el

desar-rollo de los robots de servicio. Frecuentemente, el aspecto suele tener efectos sobre de la percepci´on

de los usuarios hacia el robot. Los robots humanoides, son aquellos cuyo dise˜no f´ısico emula el

aspec-to de la forma humana. Un ventaja de los humanoides sobre los robots m´oviles es que los primeros

permiten la exploraci´on de comportamientos sociales m´as cercanos a los comportamientos humanos.

JINGANG [Guo et al., 1999] es un robot humanoide (ﬁgura 2.5) que puede reconocer el adem´an

de apuntar. La mitad superior del cuerpo del usuario se representa mediante un modelo geom´etrico

3-D. La detecci´on del usuario en la imagen se realiza por el color de la piel y de la ropa. Un algoritmo

basado en regiones de atenci´on se emplea para seguir el movimiento del hombro, codo y mano. Cuando

los ángulos del brazo y antebrazo son colineales y dentro un rango de valores preestablecidos se supone que el usuario está apuntando. Posteriormente se crea un cilindro 3-D en la dirección del brazo y dentro

de ese cilindro se intenta localizar un objeto. Si vez localizado el objeto, el robot puede dirigirse

hacia ´el y mover sus brazos simulando que lo toma. Un aspecto interesante es la similitud de estos

algoritmos con respecto al trabajo de [Bonasso et al., 1995]. Este sistema se restringe a ademanes de

apuntar ejecutados a los costados del usuario.

(34)

Brazo

modular

Brazo

modular

Cabeza

estéreo

[image:34.612.203.428.73.279.2]

Base

móvil

Figura 2.5: Robot humanoide JINGANG (imagen modiﬁcada de [Guo et al., 1999]).

se utilizan para contestar s´ı/no al robot, para terminar la tarea actual, para se˜nalar objetos sobre una

mesa, para ordenarle al robot sujetar los objetos y las dos ´ultimas para iniciar diferentes programas. El

seguimiento de las manos del usuario y del rostro del usuario se realiza por color. El reconocimiento

de la postura se realiza mediante la representaci´on del contorno de la mano en t´erminos de descriptores

de Fourier, de forma similar a la propuesta en [D´ıaz de Le´on and Sucar, 2000] para el reconocimiento

de siluetas humanas. La distancia euclidiana entre el contorno observado y los almacenados deﬁnen la

postura ejecutada.

Strobel [Strobel et al., 2002] presenta una aproximaci´on para interpretar la tarea que debe realizar

un robot de acuerdo a elcontextoen que se ejecuta un adem´an. La tarea del humanoide es de limpieza.

La informaci´on de contexto y del movimiento se combinan como atributos en los modelos ocultos de Markov. Cuando un usuario realiza movimientos circulares o paralelos sobre una mesa o un pizarr´on,

entonces el robot puede determinar f´acilmente una tarea de limpieza sobre esas zonas. Si se apunta

sobre un estante y el robot tiene un objeto en su mano, entonces podr´ıa decidir poner el objeto en ese

lugar.

Como se puede ver, la mayor´ıa de los sistemas restringen la interacci´on a una comunicaci´on

uni-direccional con el robot, sin mayor retroalimentaci´on al usuario que la ejecuci´on de la tarea o

sen-tencias de voz acerca del estado del sistema. ROBITA [Tojo et al., 2000, Matsusaka et al., 1999] es un

humanoide que explora la comunicaci´on bidireccional usando voz y ademanes. Este robot puede

(35)

direcci´on en que mira el usuario, la respuesta a preguntas sobre personas en una oﬁcina y apuntar de

lejos o aproximarse y se˜nalar a un lugar particular. El usuario puede se˜nalar con su brazo derecho. La

representaci´on del brazo es un modelo geom´etrico basado en el propuesto por [Bonasso et al., 1995].

Uno de los humanoides más impresionante hasta el momento debido a sus habilidades de locomo-ción y apariencia es ASIMO, desarrollado por la compañia Honda. Aunque mucha de su informalocomo-ción

técnica no está disponible, la metodolog´ıa general para lograr la interacción no parece ser muy

difer-ente a otros m´etodos discutidos anteriormdifer-ente. En videos demostrativos encontrados en Internet se

puede observar que ASIMO responde a ademanes similares a los ademanes de apuntar, saludar,

aten-ci´on y detener usados en este trabajo.

2.3. Robots teleoperados con ademanes

La comunicación con los robots operados a distancia ha sido realizado principalmente a través de inter-faces gráficas, botones, palancas, teclados y dispositivos adheridos al usuario [Kuzuoka et al., 2000].

En la literatura existen pocos desarrollos recientes que enfaticen la instrucci´on de un robot a distancia

por medio de interfaces visuales de ademanes. Esto puede deberse a que el operador no tiene una

inter-acción f´ısica directa con el robot y en muchas ocasiones es sólo una extensión f´ısica del mismo. Otra

raz´on es que bajo ciertas condiciones de operaci´on –como en ambientes controlados o con un conjunto

predeﬁnido de ademanes– viene a ser un problema equivalente al reconocimiento visual de ademanes

en la interacci´on humano-computadora general. Lo anterior justiﬁca que en algunas aplicaciones se

enfaticen las t´ecnicas visuales y de reconocimiento que se proponen obviando la interacci´on con el robot [Corradini and Gross, 2000, Nickel et al., 2004].

Sin embargo, la idea de aplicar los ademanes para operar a los robots a distancia se ha

men-cionado desde hace algunos a˜nos. Uno de los primeros trabajos que sugiere esta aplicaci´on es

[Yang and Xu, 1994]. En este trabajo se reconocen ademanes “de rat´on” con los que se dibujan n´umeros del 1 al 9. Este problema es equivalente al reconocimiento de la escritura. Para el

re-conocimiento de los n´umeros se utilizan los modelos ocultos de Markov. En [Fong et al., 2000] se

presenta una aplicaci´on para el control de robots por ademanes usando una interfaz visual est´ereo

basada en color. El reconocimiento se realiza a trav´es de plantillas de pose. En este trabajo la posici´on

de la mano derecha del usuario relativa al cuerpo controla la direcci´on del robot para movimientos de

derecha, izquierda, hacia adelante, reversa y parar, emulando una palanca de control. La mano

izquier-da sobre la cabeza indica la activaci´on del sistema de reconocimiento. La ﬁgura 2.6 muestra un ejemplo

(36)

Figura 2.6: Ejemplo de un sistema de reconocimiento visual de ademanes que emula una palanca de control. De derecha a izquierda, se ejecutan los ademanes para girar al robot a la derecha, a la izquierda, para moverlo hacia adelante, en reversa y pararlo (imagen modiﬁcada de [Fong et al., 2000]).

se reconocen 7 posturas o signos de la mano realizados sobre el torso del usuario para mover al robot

hacia adelante, hacia atr´as, girarlo hacia la derecha o izquierda incrementar o decrementar velocidad

y pararlo. El reconocimiento se realiza por diferenciaci´on entre la mano segmentada en una imagen y

plantillas binarias de las poses consideradas. La plantilla con menor diferencia absoluta corresponde a

la pose reconocida.

Si las interfaces naturales para los robots teleoperados no se justiﬁcan desde un punto de vista

estricto de comportamiento social, s´ı lo es en términos de cooperación para la ejecución de las tareas.

Además, la operación a distancia también es útil para comunicarse con los robots de servicio, el cual

ver´ıa reducida considerablemente su utilidad si el usuario debe estar siempre frente a ´el para indicarle

qué debe hacer. En [Matsumoto et al., 2003] se presenta un sistema con múltiples videocámaras para

dirigir con un PDA el desplazamiento de un robot. Con un esquema similar por medio de ademanes

un usuario discapacitado podr´ıa a un robot a´un desde otro cuarto. Otro ejemplo claro de la utilidad del

control a distancia es la exploraci´on de ambientes desconocidos u hostiles [Myers et al., 1998] donde

una interfaz por ademanes puede reducir la necesidad de operadores especializados en el control del robot.

2.4. Conclusiones

Los ademanes son un medio de comunicaci´on que provee la ﬂexibilidad necesaria para mostrar al robot

cómo y cuándo ejecutar una tarea. Con ellos es posible también enseñar al robot a sintetizar

movimien-tos [Calinon and Billard, 2004] y c´omo realizar nuevas tareas [Rybski and Voyles, 1999]. En general, las propuestas presentadas en este cap´ıtulo no tienen grandes diferencias de metodolog´ıa de

(37)

caracter´ısticas-reconocimiento-ejecución de la tareaes básicamente el mismo que en otras áreas de aplicación de los ademanes. Esta

semejanza se extiende al tipo de ademanes considerados –por ejemplo, el adem´an de apuntar– y

tam-bién en las restricciones de operación –por ejemplo, con los usuarios en una posición fija y de frente

al robot o en ambientes de operaci´on controlados. Aunque esto hace parecer a la aplicaci´on de los

ademanes en los robots como un caso especial del problema de reconocimiento de ademanes

gener-al, la capacidad del robot para interactuar con su medio ambiente y la informaci´on que ´este provee al

usuario por medio de sus sensores abre nuevas avenidas para la investigaci´on de este tipo de interfaces.

La necesidad de una aplicaci´on funcional que integre ademanes y la comunicaci´on con el robot

posi-bilita un punto de vista más completo a través de la evaluación del comportamiento del robot frente a los ademanes y de la percepción de los usuarios hacia el sistema. El trabajo presentado en esta tesis es

(38)

Cap´ıtulo 3

Redes Bayesianas din ´amicas para el

reconocimiento visual de ademanes

En este cap´ıtulo se presentan las redes Bayesianas din´amicas que m´as se han utilizado en el

re-conocimiento visual de ademanes. Inicialmente se describen las redes Bayesianas y su utilidad para

representar fen´omenos no deterministas. Posteriormente se describen los sistemas din´amicos y las

redes Bayesianas din´amicas para representar este tipo de procesos. Finalmente, se presentan las

topolog´ıas de redes Bayesianas din´amicas m´as frecuentes en el reconocimiento visual de ademanes.

3.1. Redes Bayesianas

En muchas ocasiones es muy dif´ıcil determinara prioriel resultado o salida de un fen´omeno. Ejemplos

comunes son el pron´ostico del tiempo o el resultado de un partido de futbol. Aunque se han propuesto

diferentes formas del manejo de laincertidumbrepropia de estos sucesos –como la teor´ıa

Dempster-Shafer [Shafer, 1976] y la teor´ıa de la posibilidad [Zadeh, 1978]– son losmodelos de probabilidad

los más usados con este propósito. Unmodeloofunci ón de probabilidad conjunta P✠A✡ es una

repre-sentación matemática para estos fenómenos denominadosaleatorios.A✌☞

A1✁✄✂☎✂✆✂☎✁ AM

✍ es un conjunto

deM variables aleatorias que representan los atributos o caracter´ısticas relevantes del fen´omeno en

cuestión. Supónganse que cada una de estas variables puede tomar sólo un conjunto finito de

val-ores. Cuando los atributos son instanciados con valores observados1 del fen´omeno, P✠✏✎✑✡ establece

1_{En esta tesis, cuando se aluda a una instancia particular de un conjunto de variables aleatorias, se escribir´a en negritas,}

por ejemploA✒✔✓ A1 ✕✗✖✘✖✙✖✘✕AM✚

✒✛✓ A1✒ a1 ✕✜✖✙✖✘✖✙✕AM

✒ aM

✚ . La instancia de una variable aleatoria particular se escribir´a

sim-plemente comoAi✒ ai.