Seguimiento de pose del observador utilizando cámara web

(1)

CENTRO DE INFORM ´ATICA INDUSTRIAL

S EGUIMIENTO DE POSE DEL OBSERVADOR UTILIZANDO C AMARA WEB ´

Tesis presentada para optar por el T´ıtulo de Ingenier´ıa en Ciencias Inform ´aticas

Autor: Liudmila Cecilia Rodr´ıguez Ricardo

Tutor: MSc.Liudmila Pupo Pe ˜ na Co-tutor: MSc.Yoander Cabrera D´ıaz

La Habana, Junio de 2011

(2)

Yo, Liudmila Cecilia Rodr´ıguez Ricardo, declaro ser autor de la presente tesis y re- conozco a la Universidad de las Ciencias Inform ´aticas los derechos patrimoniales de la misma, con car ´acter exclusivo.

Para que as´ı conste, firmo la presente declaraci ´on de autor´ıa en La Habana a los d´ıas del mes de del a ˜no .

Firma del autor

Firma del Tutor MSc. Liudmila Pupo Pe ˜na

Firma del Co-Tutor MSc. Yoander Cabrera D´ıaz

(3)

Nombre y Apellidos: Liudmila Pupo Pe ˜na Edad: 26 a ˜nos

Ciudadan´ıa: cubana

Instituci ón: Universidad de las Ciencias Inform áticas (UCI) T´ıtulo: MSc en Inform ática Aplicada

Categor´ıa Docente: Instructor E-mail: [email protected]

Graduado de Ingener´ıa en Ciencias Inform áticas en la UCI en el a ño 2007, con 6 a ños de experiencia en los temas de Gr áficos por Computadora y Realidad Virtual.

Profesora del Dpto. de Visualizaci ´on y Realidad Virtual.

(4)

A mi familia

A todos los profesores que me ayudaron de una forma u otra en el desarrollo de la investigaci ´on especialmente a mi tutora Liudmila Pupo y el profesor Ernesto Guevara.

A la UCI, por haberme permitido conocer personas tan especiales como: mis amigas y compa ñeras Sandra, Irenna, Dayanis, principalmente a Yoana, Libeidy Liusba, que las considero m ás que mis amigas, mis hermanas blancas como yo les digo. No puedo dejar de mencionar a Adriel, Alexis, Adri án Fonseca Juan Carlos, personas que siempre me apoyaron mucho durante estos a ños de universidad.

(5)

Este trabajo est ´a dedicado a mi familia especialmente a mi abuela Virtudes y a mi mam ´a.

(6)

El seguimiento de pose del observador es el proceso que se realiza para obtener posici ón y orientaci ón del punto de vista de la persona que interact úa con un Sistema de Visualizaci ón Estereosc ópica utilizando una c ámara web. Los motores y bibliotecas gr áficas que utilizan t écnicas de visualizaci ón estereosc ópica, necesitan conocer la pose ¹ del usuario que observa la escena, para mostrar los objetos desde un punto de vista realista en el mundo virtual. Graphics Library Stereo Vision Engine (GLSVe) es una biblioteca gr áfica desarrollada en la facultad en conjunto con la Universidad de Oviedo, que permite la creaci ón de sistemas estereosc ópicos. El objetivo de este trabajo ha sido incorporarle a GLSVe el seguimiento de pose del observador utilizando c ámara web, para lograrlo se realiz ó un estudio de los m étodos y t écnicas existentes para la construcci ón de sistemas de este tipo. Como resultado del estudio se constru- y ó un m ódulo en C++ con interfaz para C Sharp utilizando la biblioteca Artoolkit, que realiza seguimiento de pose del observador utilizando c ámara web y un demo que demuestra la correcta integraci ón con GLSVe.

Palabras clave: GLSVe, observador, seguimiento de pose, visualizaci ´on estereosc ´opi- ca

1posici ´on y orientaci ´on

(7)

Introducci ´on 1

Estructura del documento . . . 3

1. Fundamentaci ón Te órica 4 1.1. Realidad virtual y visualizaci ón estereosc ópica . . . 4

1.2. Sistemas de seguimiento . . . 7

1.2.1. T ´ecnicas de seguimiento de pose con c ´amaras de video en tiempo real . . . 10

1.2.2. T écnicas de calibraci ón de c ámara . . . 13

1.2.3. Tipos de calibraci ´on de c ´amara . . . 15

1.3. Bibliotecas para el desarrollo de visi ´on por computadora . . . 15

1.3.1. OpenCv . . . 16

1.3.2. ArToolkit . . . 16

1.3.3. Touchless . . . 17

2. Soluci ´on Propuesta 19 2.1. Propuesta del sistema . . . 19

2.2. Calibraci ´on de c ´amara . . . 21

(8)

2.3. Descripci ´on del patr ´on utilizado . . . 23

2.4. Detecci ´on y reconocimiento de patrones . . . 24

2.5. Estimaci ón de la posici ón y orientaci ón del patr ón. . . 26

2.6. Metodolog´ıas y herramientas para el desarrollo de software . . . 31

2.6.1. Biblioteca gr ´afica . . . 31

2.6.2. Lenguajes de programaci ´on . . . 31

2.6.3. Framework de desarrollo . . . 32

2.6.4. Entorno integrado de desarrollo utilizado . . . 32

2.6.5. Herramienta de modelado . . . 32

2.6.6. Metodolog´ıa de software . . . 33

3. Dise ˜no de la soluci ´on 34 3.1. Caracter´ısticas del sistema . . . 34

3.1.1. Modelo de dominio . . . 34

3.1.2. Personal relacionado con el sistema . . . 35

3.1.3. Requisitos de Software . . . 35

3.1.4. Exploraci ´on. Historia de Usuario . . . 37

3.1.5. Planeaci ´on del sistema . . . 40

3.2. Construcci ´on de la soluci ´on . . . 42

3.2.1. Tarjetas Contenido, Responsabilidad y Colaboraci ´on (CRC) . . . 42

3.2.2. Diagrama de componentes . . . 45

3.2.3. Patrones de dise ˜no . . . 46

3.2.4. Est ´andares de codificaci ´on . . . 47

3.3. Desarrollo de las iteraciones . . . 48

(9)

3.3.1. Iteraci ón 1 . . . 49 3.3.2. Iteraci ón 2 . . . 50 3.3.3. Iteraci ón 3 . . . 51

4. An ´alisis de resultados 52

4.1. Pruebas de aceptaci ´on . . . 53

Conclusiones 55

Recomendaciones 56

Referencias bibliogr ´aficas 57

Acr ´onimos 59

(10)

1.1. Aplicaci ´on en la medicina, juegos y educaci ´on . . . 5

1.2. Visualizaci ón de los Sistemas Realidad Virtual (SRV) en monitores 2D . 5 1.3. Dispositivos de visualizaci ón estereosc ópica . . . 5

1.4. Formas de interacci ón con los Sistemas de Visualizaci ón Estere- osc ópica (SVE) . . . 6

1.5. Vista desde diferentes perspectivas . . . 6

1.6. Immersion’s CyberGlove . . . 8

1.7. Ascension Flock of Birdsun dispositivo de tracking magn ´etico . . . 9

1.8. Gafas (con led incorporados) utilizadas para el tracking infrarrojo . . . . 9

1.9. Controles del Nintendo Revolution . . . 10

1.10.T ´ecnicas de seguimiento . . . 11

2.1. Composici ´on del sistema propuesto . . . 20

2.2. Modelo geom ´etrico de la c ´amara . . . 21

2.3. Matriz de par ´ametros intr´ınsecos . . . 23

2.4. Patr ´on de ARtoolKit . . . 23

2.5. Morfolog´ıa del patr ´on . . . 24

2.6. Imagen capturada (a), imagen despu ´es de la umbralizaci ´on (b). . . 25

(11)

2.7. Conexi ´on de componentes (c), contornos (d). . . 25

2.8. Extracci ´on de bordes y esquinas del marcador (e), detecci ´on de coordenadas tridimensionales del marcador (f). . . 26

2.9. Sistemas de coordenadas de la c ´amara y el marcador . . . 27

2.10.Imagen antes de la normalizaci ón y despu és de la normalizaci ón . . . . 27

2.11.Vectores de direcci ´on unitaria . . . 29

2.12.Matriz de transformaci ´on obtenida . . . 30

3.1. Diagrama de dominio . . . 35

3.2. Diagrama de componentes . . . 46

4.1. Prueba con realidad aumentada . . . 52

4.2. Vista de la aplicaci ´on . . . 53

(12)

3.1. Personal relacionado con el sistema. . . 35

3.2. Historia de Usuario (HU) activar c ´amara web. . . 37

3.3. HU cargar el fichero del patr ´on. . . 38

3.4. HU detectar y reconocer un patr ´on. . . 38

3.5. HU posiciones en XYZ. . . 38

3.6. HU orientaci ´on del patr ´on. . . 39

3.7. HU vector orientaci ´on. . . 39

3.8. HU actualizaci ón de posici ón y orientaci ón. . . 39

3.9. HU cerrar video. . . 40

3.10.Esfuerzo de trabajo. . . 40

3.11.Estimaci ón del tiempo de construcci ón de cada iteraci ón. . . 42

3.12.Descripci ´on de la clase Tracking camara. . . 43

3.13.Clase Video de la biblioteca ARtoolKit . . . 43

3.14.Clase que contiene las principales funcionalidades de ARtoolKit . . . . 44

3.15.Descripci ´on de la clase C tracking. . . 44

3.16.Descripci ´on de la biblioteca gr ´afica. . . 45

3.17.Descripci ´on de la clase Tracking. . . 45

(13)

3.18.Estimaci ´on de tiempo de la iteraci ´on1 . . . 49

4.1. Pruebas de Aceptaci ´on realizadas al sistema . . . 54

(14)

Los SRV brindan una nueva interfaz que ayuda a crear la ilusi ón de que el usuario est á inmerso en un mundo generado por el ordenador, presupone una visualizaci ón avanzada de entornos tridimensionales [Tecnopeixe, 2008].

El desarrollo de los motores y bibliotecas gr ´aficas han propiciado el auge de los SRV.

Las aplicaciones de estos sistemas se ven reflejadas en diferentes sectores de la sociedad como: la medicina, los video-juegos, la educaci ´on y la investigaci ´on cient´ıfica.

En la actualidad las t écnicas de visualizaci ón estereosc ópica est án incluidas entre las funcionalidades que brindan los motores gr áficos. Estas t écnicas contribuyen a mejo- rar la visualizaci ón de aplicaciones tridimensionales (3D) en dispositivos 2D (monitores, televisores, pantallas de proyecci ón), aumentando la sensaci ón de profundidad en estas aplicaciones.

Aunque estas t écnicas mejoran la inmersi ón visual del observador que interact úa con los sistemas estereosc ópicos; presentan el inconveniente de que si éste cambia su posici ón relativa respecto a la pantalla, los objetos de la escena no son actualizados para ser observados desde el nuevo punto de vista.

La forma convencional de solucionar el problema, usada por los motores gr áficos, es permitir cambiar la posici ón y orientaci ón de los objetos a trav és de la interacci ón con mouse y teclado. De esta forma se obtienen aproximaciones pobres y poco realistas.

Una mejor forma ser´ıa estimar la posici ´on y orientaci ´on del observador respecto a la escena en tiempo real.

(15)

El seguimiento de pose es la t écnica que permite obtener posici ón y orientaci ón del observador en una escena mediante una c ámara en cada instante de tiempo².

Para la creaci ón de aplicaciones estereosc ópicas, nuestra universidad cuenta con una biblioteca llamada GLSVe. Esta biblioteca no tiene incorporada funcionalidades que permitan realizar un seguimiento de pose del observador, esto presupone que los usuarios siempre observan los objetos mostrados desde una perspectiva fija, aunque var´ıe de posici ón o ángulo de visi ón. Existe entonces la necesidad de incorporar a GLSVe esta funcionalidad.

Por lo tanto elproblema cient´ıfico que esta se ha propuesto resolver investigaci ´on es

¿C ´omo brindar seguimiento de pose del observador a la biblioteca GLSVe?

Elobjeto de estudio de este trabajo son los sistemas de seguimiento y el campo de acci ´on estar ´a sobre los sistemas de seguimiento de pose a usuario³.

El objetivo de la investigaci ´on es desarrollar un m ´odulo que permita realizar seguimiento de pose del observador para ser incorporado a la biblioteca GLSVe.

Para dar cumplimiento al objetivo propuesto se han definido las siguientes tareas de investigaci ´on:

Investigar los elementos a tener en cuenta en un sistema de seguimiento de pose, para definir el adecuado para un sistema de visi ´on estereosc ´opica.

Conciliar diferentes bibliotecas para el trabajo con la c ´amara y selecci ´on de una de ellas.

Investigar las t écnicas de calibraci ón extr´ınseca e intr´ınseca de la c ámara, para lograr seguimiento de pose del observador de forma m ás efectiva.

Elaborar soluciones t ´ecnicas que permitan realizar seguimiento de pose del observador para ser incorporado a la biblioteca GLSVe.

2Esto se conoce en la literatura cient´ıfica como tracking

3Esto se conoce en la literatura cient´ıfica como head-tracking

(16)

Realizar una aplicaci ´on de prueba que permita visualizar las nuevas funcionalidades incorporadas a la biblioteca GLSVe.

Con el cumplimiento de las tareas propuestas se podr á dotar a GLSVe de un m ódulo que permita realizar el seguimiento de la pose del observador. Pudi éndose obtener en las aplicaciones finales que se elaboren, un mayor realismo de las escenas simuladas.

Para mejor compresi ón del documento, se dividir á en cap´ıtulos los cuales contendr án todas las especificaciones de las tareas planteadas.

El Cap´ıtulo 1 “Fundamentaci ón Te órica” se analizaron los sistemas de seguimiento de pose, las t écnicas y m étodos para realizar seguimiento de pose utilizando c ámara web, las bibliotecas de visi ón por computadora utilizadas para este tipo de seguimiento y la calibraci ón de c ámara.

ElCap´ıtulo 2 “Soluciones T écnicas” se expone la propuesta de soluci ón al problema, adem ás de los m étodos, t écnicas, bibliotecas y herramientas utilizados.

ElCap´ıtulo 3 “Dise ño de la soluci ón” se exponen el an álisis, dise ño y construcci ón de la soluci ón propuesta.

ElCap´ıtulo 4 “An álisis de resultados” se exponen las pruebas de precisi ón, aceptaci ón e integraci ón del m ódulo de seguimiento de pose realizado.

(17)

Fundamentaci ´ on Te ´ orica

En este cap´ıtulo se realiza una descripci ón detallada de la situaci ón probl émica de la investigaci ón. Tambi én se exponen las t écnicas y bibliotecas de visi ón por computadora, que permiten realizar seguimiento de pose del observador utilizando c ámara web, en sistemas de visualizaci ón estereosc ópicos.

1.1. Realidad virtual y visualizaci ´ on estereosc ´ opica

Un SRV, es un sistema de visualizaci ón por computadora que se encarga de simular alg ún fen ómeno del mundo real vali éndose de varios dispositivos y recursos para la visualizaci ón e interacci ón. Estos sistemas tienen gran auge y desarrollo en la actualidad y su uso se extiende a diferentes campos de la sociedad como: la medicina, los video-juegos, la educaci ón y la investigaci ón cient´ıfica.

Los dispositivos en los que se muestran las aplicaciones de Realidad Virtual (RV) son planos (ver figura 1.2), esto dificulta en gran medida que una persona pueda percibir que est á observando un objeto u escena 3D. Por esta raz ón muchas personas no perciben la sensaci ón de inmersi ón en estos sistemas.

Lainmersi ón se logra tratando que la persona que interact úa con la aplicaci ón virtual

(18)

Figura 1.1: Aplicaci ´on en la medicina, juegos y educaci ´on

Figura 1.2: Visualizaci ´on de los SRV en monitores 2D

se sienta como si estuviera en el mundo real, para esto se act úa sobre algunos sen- tidos como el o´ıdo, el tacto y la vista. Para aumentar la inmersi ón visual surgen las t écnicas de Visualizaci ón Estereosc ópica (VE).

Los motores y bibliotecas gr áficas incluyen t écnicas de VE para desarrollar aplicaciones que permitan representar escenas 3D con mayor sensaci ón de profundidad visual y realismo a la vista del observador. Cada una de estas t écnicas tiene un forma- to asociado y cada formato utiliza un dispositivo (ver figura 1.3)para su visualizaci ón.

Figura 1.3: Dispositivos de visualizaci ´on estereosc ´opica

Lainteracci ´on es la capacidad que tienen los SRV y los SVE de poder introducir datos del mundo real al entorno virtual y poder sentir o percibir sus reacciones. Permitiendo

(19)

al espectador no s ´olo ver o sentir los objetos en el espacio, sino tambi ´en modificarlos o afectarlos de alguna manera [Tecnopeixe, 2008].

La interacci ón mejora sustancialmente la percepci ón espacial, porque el movimien- to es uno de los efectos visuales que m ás contribuye a la ilusi ón de profundidad [Vincent, 2006]. Existen varias formas de introducir datos en los SVE, las m ás conocidas a trav és de dispositivos como el mouse, teclado, mandos wii y el movimiento del observador que interact úa con la escena.

Figura 1.4: Formas de interacci ´on con los SVE

¿Porque es necesario el seguimiento de pose del observador en los SVE?

Un aspecto importante para lograr la correcta visualizaci ´on de los objetos en los SVE es el punto de vista desde el cual la persona los observa. Esto se fundamenta en que cuando miramos un objeto en el mundo real desde diferentes posiciones, se obtienen diferentes vista del objeto o sea la perspectiva del objeto tambi ´en cambia 1.5.

Figura 1.5: Vista desde diferentes perspectivas

Los motores gr áficos desarrollan aplicaciones desde un punto de vista est ático, de esta forma, si la persona que est á interactuando con la aplicaci ón cambia la posici ón u orientaci ón de su cabeza, no visualizar´ıa el objeto como si estuviera en el mundo real. Una forma de solucionar el problema ser´ıa conocer la posici ón y orientaci ón de

(20)

la cabeza del observador de la escena en tiempo real y as´ı actualizar el modo en que la escena muestra los objetos en cada momento.

La precisi ón y exactitud del seguimiento de pose del observador es fundamental para lograr una adecuada interacci ón e inmersi ón de los usuarios en los sistema de realidad virtual que usen VE, si el punto de vista del observador no se encuentra en la posici ón que el tracking reporta, el usuario ver á los objetos distorsionados o escalados (grande, peque ños, comprimidos) causando efectos y sensaciones no deseadas, que conllevan al fracaso de las aplicaciones.

1.2. Sistemas de seguimiento

Diferentes autores definen el tracking o seguimiento como:

La t écnica que permite conocer en cada momento la posici ón y orientaci ón del usuario en el mundo virtual [Tecnopeixe, 2008].

La localizaci ón autom ática del usuario y de su orientaci ón [Camacho, 2009].

El proceso de seguir un punto o una serie de puntos cuadro a cuadro en una secuencia de datos que var´ıan al transcurrir el tiempo, para obtener posici ón y orientaci ón en cada momento [L ópez, 2007].

En esta investigaci ón cuando se hable de seguimiento de pose del observador se estar á haciendo referencia al tracking de usuario para obtener posici ón y orientaci ón del punto de vista del usuario que interact úa con un SVE.

Entre las fuentes de datos m ás comunes que permiten seguir la pose del observador, para obtener informaci ón de sus movimientos, se encuentran: los campos electromagn éticos, los sistemas mec ánicos, las se ñales ultras ónicas, los leds infrarrojos y el procesamiento de video:

(21)

El tracking ultras ónico usualmente utiliza frecuencias de sonido alrededor de los 40 kHz. Mediante m étodos de triangulaci ón, se obtiene el tiempo y la localizaci ón del sonido que viaja desde un emisor a uno o varios receptores. La ventaja de esta t écnica se encuentra en la peque ña escala de transmisores que utiliza y la desventaja est á en la velocidad a la que viaja el sonido, lo cual convierte en lento el proceso de sincronizaci ón de sonido y la actualizaci ón de los valores del sistema, adem ás la velocidad puede variar dependiendo del entorno en que se encuentre, lo que provoca que el tracking no sea estable [Noris, 2005].

El tracking mec ánico es utilizado fundamentalmente para la captura de ángulos y rangos de movimiento mediante sensores flexibles. La ventaja de estos sistemas consiste en la exactitud y la velocidad con que se actualizan los datos y no son suscep- tibles a interferencias, pues los sensores son directamente cableados en la m áquina.

La principal desventaja del seguimiento mec ánico es el volumen de trabajo que es limitado por la instalaci ón el éctrica de la propia m áquina [Noris, 2005].

Figura 1.6: Immersion’s CyberGlove

El tracking electromagn ético usa los mismos principios que el seguimiento ul- tras ónico, env´ıa un campo magn ético el cual es inducido dentro de sensores que pueden medir la distancia desde el origen. La direcci ón del campo magn ético generado, permite al sensor extraer informaci ón de orientaci ón del impulso registrado. La desventaja de esta t écnica consiste en que el tama ño del volumen de trabajo va a estar limitado por la potencia que tenga el campo magn ético generado y la interferencia con cuerpos met álicos en la vecindad [Noris, 2005]. La figura 1.7 muestra algunos de

(22)

los dispositivos utilizados para generar un campo magn ´etico.

Figura 1.7: Ascension Flock of Birdsun dispositivo de tracking magn ´etico

El tracking infrarrojo es un tipo de tracking de video que resuelve el problema de la iluminaci ón del medio y el ruido en la imagen, pero la desventaja de esta tecnolog´ıa en comparaci ón con el seguimiento de video est ándar es el costo del equipamiento (ver figura 1.8) y la interferencia de cuerpos calientes en el campo de visi ón de la c ámara [Noris, 2005].

Figura 1.8: Gafas (con led incorporados) utilizadas para el tracking infrarrojo

El tracking de radio en la industria del entretenimiento, el Nintendo Revolution (ver figura 1.9) es controlado por varios jugadores al mismo tiempo. Dos sensores de radio permiten determinar la posici ón de los controles mediante m étodos de triangulaci ón y al inclinar los sensores que se encuentran dentro de los controles permite medir la orientaci ón.

Eltracking de video es la soluci ón m ás accesible, pues el equipamiento para realizar el seguimiento est á limitado solamente a un video o una c ámara de video. Una o m ás c ámaras permiten calcular posici ón y orientaci ón de un objeto o un patr ón proyectado dentro de la imagen. Es la mejor opci ón para el trabajo con aplicaciones en tiempo

(23)

Figura 1.9: Controles del Nintendo Revolution

real. Las principales desventajas de este tipo de tracking son: tienden a disminuir con la distancia, las condiciones del medio luminoso y el ruido influyen en la ejecuci ´on del seguimiento causando problema al reconocer el objeto se desea seguir [Noris, 2005].

El tracking de video tiene gran variedad de usos, algunos son: la interacci ón humano- computadora, la seguridad y la vigilancia, la comunicaci ón y compresi ón de v´ıdeo, la realidad aumentada, el control de tr áfico y en el cine.

1.2.1. T ´ecnicas de seguimiento de pose con c ´amaras de video en tiempo real

Siempre que se trabaja con v´ıdeo (tanto en tiempo real como pre-grabado) y se desea saber lo que sucede en la secuencia (movimiento de la c ´amara o de los objetos), parte del problema se basa en saber hacia d ´onde se mueven ciertos puntos caracter´ısticos en un fotograma con respecto a los siguientes o anteriores. En la captura de movimiento en v´ıdeo, debe estimarse el movimiento de ciertos bloques de p´ıxeles.

El proceso para hacer seguimiento de pose del observador mediante c ámara consta t écnicamente de dos fases: la detecci ón del usuario, para localizarlo dentro de la imagen en la secuencia de video y el reconocimiento, para identificarlo en cada secuencia de video.

(24)

Seg ún [Carlos P érez, 2003a], [Carlos P érez, 2003b] existen dos v´ıas para realizar el seguimiento de pose del observador: basadas en marcas y las no basadas en marcas, como se muestra en la figura 1.10.

Figura 1.10: T ´ecnicas de seguimiento

Seguimiento basado en marcas

El seguimiento basado en marcas es utilizado en casos en los que el espacio de la escena se encuentra bien definido y las caracter´ısticas del entorno donde se van a utilizar son bien conocidas. Los patrones deben ser únicos en el contexto que se vayan a utilizar y dif´ıcil de confundir con caracter´ısticas y colores que pueda poseer la persona que lo va a utilizar. Una mala selecci ón del patr ón, pueden incidir de forma negativa en la precisi ón de los valores del seguimiento.

Para la detecci ón y reconocimiento de patrones dentro de una imagen se utilizan t écni- cas de an álisis de im ágenes y m étodos de detecci ón de patrones, que utilizan Tem- plate Matching y bases de im ágenes de conocimiento.

Seguimiento no basado en marcas

Cada una de las t ´ecnicas no basadas en marcas emplea diferentes caracter´ısticas para realizar el seguimiento. Estas caracter´ısticas pueden ser del entorno en que se desarrolla el tracking o espec´ıficas del objeto a seguir.

(25)

El seguimiento basado en an ´alisis de estructuras planas, se refiere a elementos geo- m ´etricos presentes en la escena, que contengan superficies planas y puntos clave presentes en estas superficies.

El seguimiento basado en modelos como su nombre lo indica, emplean modelos geo- m étricos de tipo CAD o una proyecci ón del objeto, dependiendo del entorno sobre el que se va a ejecutar el seguimiento. Los seguimientos basados en modelos suelen ser robustos, precisos y f áciles de implementar.

El seguimiento basado en caracter´ısticas extra´ıdas de la imagen, se basa fundamentalmente en el planteamiento de la siguiente interrogante: ¿por qu é hacer seguimiento del objeto entero cuando se puede obtener el mismo resultado haciendo seguimiento solo de las caracter´ısticas? Este planteamiento suele ser computacionalmente m ás eficiente que el basado en modelo, pero es menos robusto [Carlos P érez, 2003a]. Las dos últimas t écnicas (basadas en geometr´ıa epipolar y seguimiento por detecci ón) usan diferentes tipos de restricciones geom étricas para la realizaci ón del seguimiento.

Seg ´un la bibliograf´ıa consultada [Guti ´errez, 2010] dependiendo de los grados de libertad que se quieran obtener con el sistema, se pueden definir 3 tipo de seguimiento de pose: seguimiento 2D ¹, 4D²y 3D³.

En la variante 2D solo se toma en consideraci ón la posici ón del usuario en el plano imagen, es decir, no tenemos en cuenta la distancia a la c ámara. Esta variante presenta la peculiaridad de que una misma traslaci ón del observador es interpretada de distinta forma en funci ón de la distancia de éste a la c ámara.

En la variante con 4D se considera la traslaci ón de la cabeza en los 3 ejes de coordenadas, es decir, se a ñade un nuevo grado de libertad determinado por la distancia de la cabeza a la pantalla y un segundo grado m ás definido por el movimiento de la cabeza hacia los lados del cuerpo.

12 grados de libertad, movimiento en los ejes x,y.

2Es un t ´ermino medio que se utiliza para referirse a los 4 grados de libertad, movimiento en los ejes (x,y,z) y rotaci ´on en (x,y)

36 grados de libertad, movimiento y rotaci ´on en los ejes x,y,z.

(26)

La variante 3D considera la traslaci ón en los 3 ejes, tambi én se considera el ángulo de la cabeza con respecto a los 3 ejes. Esta variante es la m ás compleja, pero permite reflejar todos los movimientos de la cabeza.

1.2.2. T ´ecnicas de calibraci ´ on de c ´amara

Otro de los aspectos importantes cuando se va a implementar un seguimiento de pose utilizando c ámara es la calibraci ón, pues tiene gran influencia en la precisi ón y exactitud del tracking. La calibraci ón de c ámara comprende dos aspectos distintos. En primer lugar es necesario determinar la relaci ón que existe entre la posici ón respecto a la c ámara de los puntos observados y la imagen que de ellos se obtiene.

La bibliograf´ıa [Rodr´ıguez, 2003], clasifica la calibraci ´on de c ´amara en:

T écnicas de optimizaci ón lineal. Su principal ventaja es la simplicidad del mode- lo empleado, que revierte en un algoritmo de c ómputo simple y r ápido. Mediante un proceso de ajuste por m´ınimos cuadrados se determina la matriz que relaciona las coordenadas tridimensionales de los puntos de control y las de sus im ágenes. En su contra tienen que no son aptos cuando introducimos la distorsi ón de la lente como un factor a calibrar, limitando por tanto la exactitud de las medidas realizadas, y la dificultad aparejada a la obtenci ón de los par ámetros a partir de la matriz calculada.

T écnicas de optimizaci ón no lineal. Cuando el modelo empleado para la c ámara se aleja del pin-hole b ásico y se introducen par ámetros que reflejan la distorsi ón causada por la presencia de lentes.

Otras bibliograf´ıas como [Garcia, 2007], aportan otras clasificaciones:

Computaci ´on lineal vs no lineal:

Lineal: usan t écnicas de resoluci ón de sistemas de ecuaciones lineales, son muy simples de implementar y muy r ápidos (como el DLT ⁴).

4Direct Linear Transform, algoritmo creado en 1971 para calibrar c ´amaras

(27)

No lineal: se basan en el uso de m étodos iterativos, como el algoritmo Gold Standard. Generalmente se requiere una buena aproximaci ón inicial obtenida de un m étodo lineal. Son mucho m ás lentos, pero permiten resolver modelos de c ámara m ás complejos (ej: modelar la distorsi ón) que incluyen un mayor n úmero de par ámetros.

Calibraci ´on expl´ıcita vs impl´ıcita:

Expl´ıcita: se obtienen los valores de cada uno de los par ´ametros que forman el modelo.

Impl´ıcita: se obtienen generalmente matrices de transformaci ón que contienen el conjunto de todos los par ámetros. No se puede conocer el valor exacto de algunos par ámetros.

Calibraci ´on en un paso vs multipaso

Un solo paso: en cada ciclo del proceso de resoluci ´on se actualizan todos los par ´ametros a la vez.

Multipaso: en cada fase se obtiene un conjunto distinto de par ámetros, us ándose aproximaciones en los primeros pasos para aquellos que a ún no se hayan cal- culado y aplic ándose los resultados que se van obteniendo en los siguientes pasos.

Patr ´on en un plano vs m ´ultiples planos

Todos los puntos del patr ón est án en el mismo plano. Por tanto, tienen la ventaja de reducir el ruido en las coordenadas del patr ón, ya que una de las coordenadas 3D es nula.

(28)

Multipaso y m ´ultiples planos: dentro de este grupo se pueden distinguir dos tipos.

Por un lado, aquellos que necesitan conocer la relaci ´on entre los planos, generalmente se opta por que formen un diedro, es decir, dos planos que forman un

´angulo de 90 grados.

Por otro lado, aquellos en los que no es necesario conocer la relaci ón entre las posiciones de los planos. Generalmente pueden ser adquisiciones sobre el mismo patr ón variando la colocaci ón del mismo o realizando movimientos de la c ámara.

1.2.3. Tipos de calibraci ´ on de c ´amara

Calibraci ón intr´ınseca de la c ámara, consiste en extraer de la matriz de calibraci ón obtenida de una imagen, las caracter´ısticas intr´ınsecas son: propiedades internas como la distancia focal, centro de proyecci ón, no cambian si se mueve la c ámara [Garcia, 2007].

Calibraci ón extr´ınseca de la c ámara consiste en extraer de la matriz de calibraci ón obtenida de una imagen, las propiedades siguientes: vectores de traslaci ón y rotaci ón relativos al movimiento [Garcia, 2007].

1.3. Bibliotecas para el desarrollo de visi ´ on por com- putadora

Conocer e identificar un objeto (incluida su posici ón relativa al observador), as´ı como recuperar algunas de sus caracter´ısticas, es una labor que normalmente recae sobre la disciplina conocida como visi ón por computadora. La realidad virtual se basa en gran medida en esta disciplina, y si bien la visi ón no es el único sentido para ser aumentado, s´ı que es uno de los m ás importante en lo que ata ñe a la misma [Camacho, 2009].

(29)

A continuaci ón se realiza una descripci ón de bibliotecas que sirven como base para desarrollar aplicaciones que utilizan t écnicas de visi ón por computadora.

1.3.1. OpenCv

OpenCv(Open Source Computer Vision Library)[Bary Gradsky, 2008]. Es una biblioteca de tratamiento de im ágenes, destinada principalmente a aplicaciones de visi ón por computadora en tiempo real. La biblioteca est á escrita en C y C++ corre bajo Linux, Windows y Mac OS X. Tiene un activo desarrollo para interfaces como: Python, Ruby, Matlab y otros lenguajes.

OpenCv se caracteriza por implementar una gran variedad de herramientas para la in- terpretaci ón de la imagen, siendo la Iplimage su principal estructura para el tratamiento de las mismas. Es compatible con Intel Image Processing Library (IPL) que implementa algunas operaciones en im ágenes digitales y permite optimizar las funcionalidades en m ás de la mitad de las estructuras. OpenCv es principalmente una biblioteca que implementa algoritmos para: la calibraci ón de c ámara, la detecci ón de rasgos, rastrear (Flujo Óptico), el an álisis de la forma (Geometr´ıa, Contorno que Procesa), el an álisis de movimientos (Plantillas del Movimiento, Estimadores), la reconstrucci ón 3D (Trans- formaci ón de vistas), la segmentaci ón de objetos y el reconocimiento (Histograma, etc.).

1.3.2. ArToolkit

Es una biblioteca para el desarrollo de aplicaciones de realidad aumentada en tiempo real. Es de libre uso para fines no comerciales y fue desarrollada por el Dr. Hirokazu Kato de la Universidad de Osaka en Jap ´on. El seguimiento del punto de vista del usuario se realiza siguiendo diversos patrones cuadrados. Principalmente incluye funciones de seguimiento y reconocimiento, aparte del render OpenGL para los objetos

(30)

sint ´eticos. Es una biblioteca originalmente en C++, aunque permite convertir c ´odigo a otros lenguajes como Java o Python.

ArToolkit utiliza t écnicas de visi ón por computadora para calcular la posici ón y orientaci ón de la c ámara respecto a un patr ón defino por la biblioteca, permitiendo al programador conocer donde se encuentra exactamente el mismo dentro de la escena.

Entre las funcionalidades que se pueden lograr con ArToolkit se encuentran:

Seguimiento y orientaci ´on individual de la c ´amara.

Utiliza c ´odigos de seguimiento sencillos y optimizados.

Detecta patrones cuadrados dentro de una imagen.

Sencillo c ódigo de calibraci ón de la c ámara.

Las funcionalidades de ArToolkit, adem ´as de permitir crear aplicaciones de realidad aumentada, son muy eficiente para desarrollar sistemas de seguimiento basado en marcas.

1.3.3. Touchless

Se trata de una biblioteca para la plataforma .NET que permite crear aplicaciones multi-touch con una c ámara web como interfaz. Touchless incluye una aplicaci ón de prueba que se puede descargar y capturar gestos que luego ser án reconocidos. Se caracteriza por[wittysparks, 2004]:

Disponible solo para Microsoft Windows.

Reconocimiento de gestos humanos a trav ´es de c ´amara web.

(31)

Touchless es un experimento no concluido y en pleno desarrollo que a ún no es na- da sofisticado. Es un motor sencillo que explota t écnicas no muy avanzadas de reconocimiento de im ágenes para buscar objetos llamativos en las im ágenes capturadas por la c ámara web y usarlos como marcadores que luego se utilizar án para interactuar con la aplicaci ón. [wittysparks, 2004].

Despu és de haber analizados las diferentes bibliotecas se puede concluir que la biblioteca OpenCv puede ser utilizada para realizar seguimiento basado en caracter´ısticas y marcas por la eficiencia de sus algoritmos para el tratamiento y an álisis de im ágenes. Para el seguimiento basado en marcas es mejor utilizar ARtoolKit, es una biblioteca orientada espec´ıficamente a la detecci ón de marcas, ahorra tiempo y tama ño de c ódigo en las aplicaciones. Ambas bibliotecas implementan algoritmos para realizar calibraci ón lineal y no lineal de c ámara. ARtoolKit adem ás posee un registro amplio de calibraciones de c ámara, de donde se pueden obtener los valores de distorsi ón de lente y matriz intr´ınseca sin necesidad de realizar el proceso de calibraci ón completo. Touchless no es muy recomendable pues no posee una estructura robusta y posee grandes desventajas con sus hom ólogas desde el punto de vista funcional.

(32)

Soluci ´ on Propuesta

En este cap´ıtulo se describe la propuesta de soluci ón para resolver el problema planteado en la investigaci ón, se proponen m étodos y algoritmos de detecci ón y reconocimiento de patrones, descripci ón de la geometr´ıa de c ámara y las herramientas seleccionadas para el desarrollo de la aplicaci ón.

2.1. Propuesta del sistema

El sistema estar á compuesto por una c ámara de video situada frente al observador de la escena. La c ámara captura los movimiento del observador mediante un patr ón situado en el dispositivo que se utilice para visualizar el formato de la escena estereos- c ópica, como muestra la figura 2.1.

El sistema debe capturar todos los movimientos que pueda realizar el observador de una escena mientras no pierda el contacto visual con la c ámara, por lo que se deci- di ó realizar un seguimiento 3D de la pose. El observador para visualizar el formato de las t écnicas mostradas en las escenas estereosc ópicas utiliza dispositivos de visualizaci ón, conociendo donde se encuentran posicionados y como est án orientados estos dispositivos en la escena, se pueden estimar la posici ón y orientaci ón del punto

(33)

Figura 2.1: Composici ´on del sistema propuesto

de vista del observador. Los dispositivos pueden variar su modelo, tama ño, color, en dependencia de la t écnica que se visualice o la fabricaci ón de los mismos, por lo que se descart ó la posibilidad de realizar un seguimiento basado en caracter´ısticas. Uti- lizar patrones en los dispositivos permite realizar un seguimiento independientemente de las caracter´ısticas que posean los mismos, por lo que se utilizar á un seguimien- to basado en marcas. La captura de las im ágenes en tiempo real se realiza a trav és de una sola c ámara, por este motivo se realiza la calibraci ón para obtener la matriz intr´ınseca, fundamental para realizar un seguimiento con mayor precisi ón.

Como el sistema de seguimiento es basado en marcas, se seleccion ´o la biblioteca ArToolkit[Hirokazu Kato, 2009] a la cual se hizo referencia en el cap´ıtulo anterior, es una biblioteca de procesamiento de im ´agenes en video, con amplias funcionalidades para el trabajo con marcadores.

Actualmente a los SVE creados en la facultad no brindan la funcionalidad de interactuar con los usuarios mediante el seguimiento del movimiento de la cabeza. La GLSVe tiene un sistema de seguimiento que utiliza colores como patr ón a seguir, lo que tiende a confundir muchas veces la zona de detecci ón y reconocimiento de la marca, adem ás de los problemas de iluminaci ón caracter´ısticos de estos sistemas, estos inconvenientes afectan considerablemente la precisi ón de los valores que se obtienen. En el seguimiento de marcas que se propone se usan patrones cuadrados que mejoran considerablemente la precisi ón y exactitud del seguimiento. Tambi én se

(34)

utiliza la t écnica de binarizaci ón de imagen dado un valor de intensidad de p´ıxel, que mejora sustancialmente los problemas que causa la iluminaci ón del medio en el que se desarrolle el seguimiento.

2.2. Calibraci ´ on de c ´amara

La calibraci ón es el primer paso que se realiza cuando se trabaja con una c ámara, pues garantiza mayor exactitud en la estimaci ón de los puntos. A continuaci ón se describe la geometr´ıa de c ámara, para ayudar a entender el origen de los valores de la matriz intr´ınseca de calibraci ón utilizada en la soluci ón. Esta descripci ón est á basada en: [Garcia, 2007] y [Bary Gradsky, 2008], documentos que pueden ser utilizados para profundizar en el contenido.

Se definen dos modelos de c ámaras: aquellas con un centro definido, y las que tienen su centro en el infinito. Respecto a estas últimas, hay una caracterizaci ón concreta llamada c ámara af´ın, que se usa como generalizaci ón de la proyecci ón paralela (sin perspectiva). La figura 2.2, muestra el modelo geom étrico de una c ámara con centro de proyecci ón definido (pin-hole model).

Figura 2.2: Modelo geom ´etrico de la c ´amara

Donde f es la distancia focal, P la distancia del objeto respecto al centro de proyecci ´on

(35)

y p es la proyecci ón del objeto en el plano de la imagen. A este modelo se le incluyen dos par ámetros nuevos cx y cy que se interpretan como el posible desplazamiento que pueda poseer el centro de proyecci ón de la imagen. El resultado es un modelo relativamente simple en el cual el punto P del mundo f´ısico cuyas coordenadas son (X,Y,Z), es proyectado en la pantalla en alg ún p´ıxel, dado por las siguientes ecuaciones 2.1, 2.2.

x_pantalla = f_x(X

Z) + c_x (2.1)

ypantalla = fy(Y

Z) + cy (2.2)

¿C ómo se puede entonces caracterizar una c ámara a partir de una imagen tomada con ella? La relaci ón de un objeto del mundo f´ısico denotado por un mapa de puntos P con coordenadas (X, Y, Z) a puntos en la imagen p=(x, y) es llamado transformaciones proyectivas. Si se dispone de las suficientes correspondencia Xi ←→ x_i, se puede estimar una matriz de c ámara P3x4(ver figura 2.12), de forma que x = PX . Cuando se rea- lizan transformaciones proyectivas, es conveniente utilizar coordenadas homog éneas.

Las coordenadas homog éneas asociadas a un punto en un espacio proyectivo de dimensi ón n, se expresa t´ıpicamente como (n + 1) - la dimensi ón del vector (por ejemplo, x, y, z se convierte en x, y, z, w), debe cumplirse tambi én, que si cualquiera de los dos puntos proporcionales son equivalentes. En este caso, el plano de la imagen representa el espacio proyectivo y tiene dos dimensiones, entonces los puntos en el plano se representaran como un vector tridimensional p=(p1, p2, p3) . Todo esto se formula de forma ideal, suponiendo que la lente de la c ámara es perfecta y no presenta distorsi ón.

El resultado final de este proceso es una matriz de 3x4, que contiene las propiedades f´ısicas de la c ámara utilizadas posteriormente en el proceso de estimaci ón de la posici ón y orientaci ón del patr ón a seguir en la pantalla.

(36)

Figura 2.3: Matriz de par ´ametros intr´ınsecos

La matriz intr´ınseca se obtuvo utilizando el fichero camera-para.dat de la biblioteca ARToolKit.

2.3. Descripci ´ on del patr ´ on utilizado

El patr ón utilizado es una imagen cuadrada, asim étrica, en blanco y negro, descrita por un cuadro negro que contiene uno blanco cuatro veces m ás peque ño que él, el cuadro blanco contiene figuras en el centro de color negro, como se muestra en la figura 2.4.

El material en que se imprime la plantilla conviene que no sea brillante y el tama ño de la marca debe ser suficiente como para que la c ámara capte el dibujo dentro del cuadro blanco y no tan grande como para que no quepa en el ángulo de visi ón de la c ámara. Este mismo tipo de marcador es utilizado tambi én por la biblioteca ARtoolKit.

Figura 2.4: Patr ´on de ARtoolKit

(37)

Las caracter´ısticas morfol ógicas del patr ón a seguir est án recogidas en un archivo que gestiona la biblioteca ARtoolKit llamado patt.name pattern. En la figura 2.5 puede verse parte del contenido del archivo patt. que caracteriza morfol ógicamente al patr ón.

La informaci ´on que brinda puede ser interpretada de la siguiente manera, las cifras indican el nivel de gris de los p´ıxeles del cuadro interior del marcador en un rango de 0 a 255, de modo que 255 representa al blanco puro y 0 al negro puro.

Figura 2.5: Morfolog´ıa del patr ´on

2.4. Detecci ´ on y reconocimiento de patrones

En en el desarrollo de esta aplicaci ón se ha necesitado usar algunas funciones exter- nas (de la biblioteca ARToolKit) de an álisis de im ágenes para detectar los marcadores de los dispositivos de seguimiento en cada frame del v´ıdeo de entrada. Estas funciones se basan en un enfoque de detecci ón de esquinas con un algoritmo de estimaci ón orientado a la rapidez.

Lo primero que se realiza es la captura de la imagen( como se muestra en la figura 2.6 inciso (a)) a trav és de la c ámara, la imagen es sometida a un proceso de um- bralizaci ón o binarizaci ón( ver figura 2.6 (b)). En este proceso se utiliza un valor de

(38)

umbral (de 0 a 255), de forma que los p´ıxeles cuya intensidad supere el valor del umbral definido, son transformados en p´ıxeles de color negro y el resto se transforman en p´ıxeles blancos.

Luego de este proceso la imagen a analizar queda completamente en blanco y negro, esto reducir á el campo de b úsqueda y agilizar á el proceso de detecci ón. Luego se buscan todas las regiones cuadrada(ver figuras 2.7 (c) y (d)) que se encuentren en la imagen binarizada, todas las regiones cuadradas puede que no sean marcadores, por eso para cada cuadro se captura el patr ón que contiene dentro y es comparado constantemente con plantillas de patrones definidas en archivos llamadospre-trained.

Cada patr ón posee un identificador asociado, despu és que se detecta el marcador se compara en la secuencia de video el identificador del nuevo patr ón encontrado con el anterior. Al finalizar este proceso se obtienen las coordenadas tridimensionales del marcador como se muestra en las im ágenes(2.8 (e) y (f)).

Figura 2.6: Imagen capturada (a), imagen despu ´es de la umbralizaci ´on (b).

Figura 2.7: Conexi ´on de componentes (c), contornos (d).

(39)

Figura 2.8: Extracci ´on de bordes y esquinas del marcador (e), detecci ´on de coordenadas tridimensionales del marcador (f).

2.5. Estimaci ´ on de la posici ´ on y orientaci ´ on del pa- tr ´ on.

La relaci ón entre las coordenadas del marcador y las coordenadas de la c ámara se estima mediante el an álisis de la imagen. Conociendo el tama ño del patr ón usado para estimar la posici ón y orientaci ón, se calcula la matriz de transformaci ón de las coordenadas del marcador a las coordenadas de la c ámara. Esta matriz de transformaci ón (Tcm) se puede ver representada en las siguientes ecuaciones 2.3 y 2.4.





 X_c

Y_c Z_c 1







=







V₁₁ V₁₂ V₁₃ W_x V₂₁ V₂₂ V₂₃ W_y V₃₁ V₃₂ V₃₃ W_z

0 0 0 1











 X_m

Y_m Z_m 1







(2.3)

=





V_3x3 W_3x1

0 0 0 1









 Xm

Y_m Zm

1







= T cm





 Xm

Y_m Zm

1







(2.4)

(40)

Figura 2.9: Sistemas de coordenadas de la c ´amara y el marcador

Despu és de tratar la imagen de entrada con una umbralizaci ón en blanco y negro, los cuadril áteros contorneados exteriormente pueden ser definidos por cuatro segmentos de l´ıneas que son extra´ıdos. Los par ámetros de estos cuatro segmentos de l´ıneas y las coordenadas de los cuatro v értices donde los segmentos de l´ıneas se intersectan son almacenados por un proceso posterior realizado por ARtoolKit.Los cuadril áteros formados por los segmentos de l´ıneas son normalizados (ver figura 2.10) y la sub- imagen interna al cuadril átero es comparada por emparejamiento con el patr ón que se le ha dado al sistema inicialmente.

Figura 2.10: Imagen antes de la normalizaci ón y despu és de la normalizaci ón

Para este proceso de normalizaci ón la siguiente ecuaci ón 2.5 representa la transformaci ón de la perspectiva que se usa. Todas las variables en la matriz de transformaci ón se determinan sustituyendo las coordenadas de la pantalla y las coordenadas de los cuatro v értices detectados en el marcador por (xc, yc) y (Xm, Ym) respectiva-

(41)

mente. Despu és el proceso de normalizaci ón se lleva a cabo usando esta matriz de transformaci ón.





 hx_c hy_c h







=







N₁₁ N₁₂ N₁₃ N₂₁ N₂₂ N₂₃ N₃₁ N₃₂ 1











 X_m

Y_m 1







(2.5)

Cuando dos lados paralelos de un marcador son proyectados en la imagen, las ecuaciones de estos segmentos lineales en las coordenadas de la pantalla de la c ´amara (camera screen) son las siguientes:

a_1x+ b_1y+ c₁ = 0 a_2x+ b_2y+ c₂ = 0

(2.6)

Para el patr ón el valor de estos par ámetros ha sido ya obtenido en el proceso de determinaci ón de l´ıneas. Dada la matriz de la perspectiva de la proyecci ón P obtenida mediante la calibraci ón de la c ámara en la ecuaci ón 2.7, las ecuaciones de los planos que incluyen los dos lados respectivamente pueden ser representadas como la 2.8 en el sistema de coordenadas de la c ámara sustituyendo X_C y Y_C en la 2.7 por x y y en las ecuaciones 2.6.

P =







P₁₁ P₁₂ P₁₃ 0 0 P₂₂ P₂₃ 0

0 0 1 0

0 0 0 1





 ,





 hx_c hy_c h 1







= P





 X_c

Y_c Z_c 1







(2.7)

a₁P₁₁X_c+ (a₁P₁₂+ b₁P₂₂)Y_c+ (a₁P₁₃+ b₁P₂₃+ c₁)Z_c = 0 a2P11Xc+ (a2P12+ b2P22)Yc+ (a2P13+ b2P23+ c2)Zc = 0

(2.8)

Dado que los vectores normales a estos planos son n1 y n2 respectivamente, el vector de direcci ´on de los dos lados paralelos del cuadril ´atero es dado por la salida del

(42)

producto n1 y n2.

Dados los dos vectores de direcci ón unitarios obtenidos a partir de los dos pares de lados paralelos del cuadril átero siendo estos u₁y u₂, estos vectores deben ser perpendiculares. Sin embargo los errores en el procesamiento de la imagen provocan que los vectores no sean exactamente perpendiculares. Para compensar esto dos vectores de direcci ón unitarios y esta vez s´ı perpendiculares son definidos como v1 y v2en le plano que contiene a u₁ y u₂ como se muestra en la siguiente figura(2.11).

Figura 2.11: Vectores de direcci ´on unitaria

Dado que el vector de direcci ón unitario perpendicular a v1 y v2 es v3, ya se tiene la componente V_3x3 de la matriz de trasformaci ón Tcm para pasar de las coordenadas del marcador a las coordenadas de la c ámara que ser´ıa [V1tV2tV3t], ver en 2.3.

A partir de la componente de rotaci ón V3x3de la matriz de transformaci ón, se pueden obtener usando las ecuaciones 2.3, 2.4 y 2.7 las coordenadas de los cuatro v értices del marcador en el sistema de coordenadas del marcador, y esas coordenadas en el sistema de coordenadas de la c ámara, ocho ecuaciones que contienen los componentes de la transformaci ón WxWy Wz son generados y el valor de esas componentes de transformaci ón Wx Wy Wz son obtenidos de esas ecuaciones.

La matriz de transformaci ´on encontrada por el m ´etodo anterior puede tener errores.

Sin embargo estos pueden reducirse mediante el siguiente proceso. Las coordenadas del v ´ertice del marcador en el sistema de coordenadas del marcador pueden ser transformadas en coordenadas del sistema de coordenadas de la c ´amara usando la matriz

(43)

de transformaci ón obtenida. Entonces la matriz de transformaci ón se optimiza hasta que la suma de las diferencias entre estas coordenadas transformadas y las coordenadas medidas directamente en la imagen sean m´ınimas. Aunque hay 6 variables independientes en la matriz de transformaci ón, solo los componentes de la rotaci ón ser án optimizados y despu és la transformaci ón de los componentes es reestimada usando el m étodo mencionado anteriormente. Mediante la iteraci ón de este proceso un n úmero de veces la matriz de transformaci ón es encontrada con m ás precisi ón. Es posible llevar a cabo la optimizaci ón con todas las seis variables independientes, no obstante el coste computacional ser´ıa considerable.

Mediante este proceso la funci ón arGetTransMat obtiene la matriz3x4 de transformaci ón (como muestra la figura 2.12) entre el sistema de coordenadas del marcador y el sistema de coordenadas de la c ámara, es decir la posici ón y orientaci ón relativa del marcador con respecto a sistema de referencia de la c ámara.

Figura 2.12: Matriz de transformaci ´on obtenida

(44)

2.6. Metodolog´ıas y herramientas para el desarrollo de software

2.6.1. Biblioteca gr ´afica

GLSVe (Graphics Library Stereo Vision Engine), est á escrita en C Sharp y programada sobre OpenGL. Es dise ñada para facilitarle principalmente a investigadores o estu- diantes la creaci ón de aplicaciones gr áficas y de realidad virtual incorporando t écnicas estereosc ópicas.

2.6.2. Lenguajes de programaci ´ on

El C++ es un lenguaje de programaci ón, dise ñado a mediados de los a ños 1980, por Bjarne Stroustrup, como extensi ón del lenguaje de programaci ón C. Las principales caracter´ısticas de C++ son el soporte para programaci ón orientada a objetos y el soporte de plantillas o programaci ón gen érica (templates). Se puede decir que C++ es un lenguaje que abarca tres paradigmas de la programaci ón: la programaci ón estructura- da, la programaci ón gen érica y la programaci ón orientada a objetos [Oduardo, 2009].

Se utiliza C++ para desarrollar una biblioteca de enlace din ámico (DLL) que realiza el seguimiento de pose del observador que interact úa, con un SVE mediante una c ámara web.

Como el objetivo general de esta investigaci ón es integrar a GLSVe la funcionalidad seguimiento de pose del observador, se utiliz ó el lenguaje de programaci ón C Sharp para desarrollar una interfaz que permitiera incorporar las funcionalidades del m ódulo hecho en C++ en GLSVe.

(45)

2.6.3. Framework de desarrollo

Un framework ¹ de desarrollo es una infraestructura de software que crea un entorno com ´un para integrar aplicaciones e informaci ´on compartida dentro de un dominio dado.

Es una aplicaci ón semi-completa que contiene componentes est áticos y din ámicos que pueden ser personalizados para obtener aplicaciones de usuario espec´ıficas.

Las aplicaci ón se desarrolla en Microsoft. Net, es un framework independiente de software, provee un extenso conjunto de soluciones predefinidas para necesidades ge- nerales de la programaci ón de aplicaciones, y administra la ejecuci ón de los programas escritos espec´ıficamente con la plataforma.

Se utilizaron las funciones de interoperabilidad que brinda el framework para importar funciones de C++ a C Sharp.

2.6.4. Entorno integrado de desarrollo utilizado

Un entorno de desarrollo integrado, en ingl és Integrated Development Environment (IDE), es un programa compuesto por un conjunto de herramientas para un programador. Un IDE es un entorno de programaci ón que ha sido empaquetado como un programa de aplicaci ón. Los IDEs pueden ser aplicaciones por s´ı solas o pueden ser parte de aplicaciones existentes.

Se utiliz ó Visual Studio 2008 con el framework. Net para desarrollar la interfaz del m ódulo desarrollado en C Sharp y su integraci ón a la biblioteca GLSVe.

2.6.5. Herramienta de modelado

El Lenguaje Unificado de Modelado(UML) es un lenguaje gr ´afico para visualizar, es- pecificar, construir y documentar cada una de las partes que comprende el desarrollo de software. Lenguaje Unificado de Modelado (UML) posee formas de modelar

1marco de trabajo para el desarrollo de software

(46)

conceptos como lo son procesos de negocio y funciones de sistema, adem ´as de aspectos concretos como lo son escribir clases en un lenguaje determinado, esquemas de base de datos y componentes de software reusables [Larman, 1999]. Se puede aplicar en el desarrollo de software entregando gran variedad de formas para dar soporte a una metodolog´ıa de desarrollo de software pero no especifica en s´ı mismo qu ´e metodolog´ıa o proceso usar.

Fue seleccionada la edici ón Community de Visual Paradigm que es gratuita, soporta la versi ón 2.0 de UML y permite su extensi ón mediante la conexi ón de m ódulos conecta- bles (plug-in) o usando plantillas (templates). Es una herramienta CASE que utiliza UML como lenguaje de modelado. Visual Paradigm Community es una herramienta UML profesional que soporta el ciclo de vida completo del desarrollo de software:

an álisis y dise ño orientados a objetos, construcci ón, pruebas y despliegue. El software de modelado UML ayuda a una m ás r ápida construcci ón de aplicaciones de calidad, y a un menor coste. Permite dibujar todos los tipos de diagramas de clases, c ódigo inverso, generar c ódigo desde diagramas y generar documentaci ón [Paradim, 2007].

2.6.6. Metodolog´ıa de software

Extreme Programming (XP) es una metodolog´ıa ágil centrada en potenciar las rela- ciones interpersonales como clave para el éxito en el desarrollo del software, pro- moviendo el trabajo en equipo, preocup ándose por el aprendizaje de los desarrolla- dores, y propiciando un buen clima de trabajo. XP se basa en la retroalimentaci ón continua entre el cliente y el equipo de desarrollo, comunicaci ón fluida entre todos los participantes, simplicidad en las soluciones implementadas y coraje para enfrentar los cambios. XP se define como especialmente adecuada para proyectos peque ños con requisitos imprecisos y muy cambiantes, y donde existe un alto riesgo t écnico [Beck, 2002]. Por las caracter´ısticas anteriormente mencionadas se seleccion ó esta metodolog´ıa.

(47)

Dise ˜ no de la soluci ´ on

En este cap´ıtulo se expone todo lo referente al dise ño e implementaci ón de la soluci ón propuesta. Se ilustran los aspectos fundamentales de la ingenier´ıa de software como: requisitos funcionales y no funcionales, historias de usuarios, planificaci ón del desarrollo de la aplicaci ón, descripci ón de las clases y est ándar de codificaci ón.

3.1. Caracter´ısticas del sistema

3.1.1. Modelo de dominio

Debido a que no se cuenta con una definici ón total de los procesos de negocio, se plantea confeccionar un modelo de dominio. Un modelo de dominio es una descripci ón gr áfica del contexto del sistema. Es un modelo conceptual que relaciona gr áficamente los t érminos m ás importantes que se manejan en el sistema.

(48)

Figura 3.1: Diagrama de dominio

3.1.2. Personal relacionado con el sistema

Se define como persona relacionada con el sistema a aquella que est á de una forma u otra vinculada al proceso de desarrollo de la aplicaci ón, y las que interact úan con el mismo.

Personal relacionado con el sistema Justificación

Desarrollador Persona encargada de implementar e integrar las funcionalidades de la aplicación.

Usuario Persona que va a interactuar con la aplicación.

Tabla 3.1: Personal relacionado con el sistema.

3.1.3. Requisitos de Software

Requisitos funcionales:

Activar la c ´amara de video Cargar fichero del patr ´on.

Detectar y reconocer el patr ´on dentro de la imagen.

(49)

Cerrar video

Obtener posici ´on en (x,y,z).

Obtener orientaci ´on.

Obtener Quat¹

Actualizar posici ´on y orientaci ´on.

Requisitos no funcionales:

Hardware:

C ´amara web CPU Pentium 4.

512 RAM

La aceleraci ón gr áfica debe estar en correspondencia con aplicaci ón gr áfica donde se utilice el sistema.

Software:

Sistema operativo Window XP / Window 7 Controlador de la c ´amara web.

Rendimiento:

La aplicaci ´on debe funcionar en tiempo real.

La aplicaci ´on debe tener un alto nivel de procesamiento y un buen manejo de la memoria de la m ´aquina.

1vector de 4 valores que contiene la rotaci ´on de un punto, se conoce como quaternion

(50)

3.1.4. Exploraci ´ on. Historia de Usuario

Uno de los artefactos m ás importantes que genera la metodolog´ıa XP son las historias de usuario HU. Estas tienen el mismo prop ósito que los casos de uso y son escritas por el propio cliente, tal y como ven ellos las necesidades del sistema, por tanto son descripciones cortas y escritas en el lenguaje del usuario sin terminolog´ıa t écnica.

Las HU conducen al proceso de creaci ón de las pruebas de aceptaci ón, los cuales servir án para verificar que estas historias se han implementado correctamente. Otra de sus caracter´ısticas es que solamente proporcionan los detalles sobre la estimaci ón del riesgo y cu ánto tiempo conllevar á su implementaci ón.

Durante el an álisis de exploraci ón se identificaron 8 HU, cada una de ellas respon- diendo a las diferentes funcionalidades solicitadas por el cliente y dando una idea de c ómo debe ser su posterior implementaci ón. Estas se describen a continuaci ón:

Historia de Usuario

No. 1 Nombre: Activar cámara

Usuario: usuario

Programador responsable: Liudmila Cecilia Rodríguez Ricardo.

Prioridad en el dominio: Alta. Nivel de Complejidad: Alta.

Tiempo de Estimación: 2 semanas. Iteración Asignada: 1

Descripción: Carga un archivo XML, que permite activar una cámara web conectada a la computadora y ajustar los parámetros de calibración.

Información adicional (Observaciones): La aplicación necesita conocer si existe conectada una cámara web para poder empezar la captura de imágenes.

Tabla 3.2: HU activar c ´amara web.

(51)

No. 2 Nombre: Cargar fichero del patrón

Tiempo de Estimación: 1 semana. Iteración Asignada: 1

Descripción: Permite cargar el patrón que se va a necesitar en el proceso de detección.

Información adicional (Observaciones): Para poder empezar la detección de un patrón es necesario cargar los datos del mismo.

Tabla 3.3: HU cargar el fichero del patr ´on.

No. 3 Nombre: Detectar y reconocer el patrón dentro de la imagen.

Usuario: usuario.

Tiempo de Estimación: 3 semanas. Iteración Asignada: 1

Descripción: En este proceso mediante métodos de detección se busca el patrón dentro de la imagen capturada del video. Devuelve la una matriz de transformación.

Información adicional (Observaciones): La aplicación necesita localizar el patrón en la imagen para poder ubicar su posición y orientación.

Tabla 3.4: HU detectar y reconocer un patr ´on.

No. 4 Nombre: Obtener posición en (x,y,z).

Prioridad en el dominio: Media. Nivel de Complejidad: Media.

Tiempo de Estimación: 2 semanas. Iteración Asignada: 2 Descripción: Obtiene la posición en X,Y,Z del patrón encontrado

Información adicional (Observaciones): Datos importantes para poder interactuar con los objetos en el mundo virtual.

Tabla 3.5: HU posiciones en XYZ.