Sistema de Estéreo-Visión para la Captura de Rostros Humanos

(1)

1

Sistema de Estéreo-Visión para la Captura de Rostros Humanos

Alfonso Gastélum Strozzi, Leticia del Pilar López Tabares, Jorge Marquez Flores Centro de Ciencias Aplicadas y Desarrollo Tecnológico, Universidad Nacional Autónoma de México

Circuito Exterior S/N, Ciudad Universitaria AP 70-186, C.P. 04510, México

[email protected]; [email protected]; [email protected] RESUMEN

En este trabajo se presenta un sistema de múltiples pares de estéreo–visión utilizado para la captura de rostros humanos a sesenta cuadros por segundo. El objetivo del desarrollo es tener un sistema con la capacidad de adquirir los 180° frontales del rostro humano con tres pares de sistemas estéreo, donde las seis cámaras están sincronizadas para la adquisición de cuadros mediante hardware.

Estos requerimientos se deben a que el rostro humano tiene zonas que no pueden ser proyectadas a un solo plano de adquisición 2D y son necesario múltiples planos para poder hacer un mapeo más completo de las proyecciones de los elementos en el universo real a nuestros planos de imagen 2D.

Existen dos posibles soluciones al problema de adquisición de múltiples planos, la primera es como el sistema presentado en este trabajo, un solo instante de adquisición con tres sistemas sincronizados generando un plano por sistema al mismo tiempo. La segunda solución es un solo sistema movible que adquiera los planos en diferentes tiempos.

La opción de un solo sistema de adquisición en el que cada plano se obtiene en un tiempo diferente tiene el problema que introducirá un error de alineación ya que los sujetos de estudio se moverán entre cada adquisición y el sistema no permite la adquisición de expresiones humanas por el tiempo prolongado de adquisición.

Para lograr el primer tipo de sistema de adquisición se decidió utilizar sensores omnivision OV7720 en la construcción del prototipo debido a su bajo costo y a que estos pueden ser modificados para poder recibir una señal de modulación por ancho de pulsos.

El sistema construido será utilizado para obtener medidas antropológicas de rostros humanos a partir de modelos tridimensionales reconstruidos mediante estéreo-visión.

PALABRAS CLAVE: estéreo–visión, antropometría.

1 INTRODUCCIÓN

El uso de sistemas para la adquisición del rostro humano en 2D/3D es un área de interés en ciencias de la computación; las aplicaciones de estos sistemas van desde aplicaciones en seguridad [1-3], estudio de avatares [4] y mediciones de las propiedades del rostro [5-6]. Una parte importante en todos estos sistemas es el método de adquisición.

Dependiendo del problema a resolver se pueden utilizar cámaras para estudios 2D [7], sistemas de estéreo–visión para la obtención de mapas de profundidad 3D [8], sistemas de multi–

visión para la reconstrucción de nubes de puntos a partir de múltiples adquisiciones [9] o sistemas de escaneo laser [10]. Cada uno de estos sistemas presenta ventajas y desventajas que deben de ser consideradas antes de iniciar el diseño y construcción del sistema de adquisición.

En el estudio del rostro humano el tipo de sistema a utilizar dependerá en muchas ocasiones de las medidas que se quieran obtener. Existen estudios de antropometría que se enfocan en adquisiciones fotográficas 2D del rostro en cuyo caso las mediciones obtenidas se restringen a aquellas que pueden relacionar el rostro con la proyección obtenida. En cuanto a sistemas de seguridad por lo general se busca utilizar cámaras de video 2D o 3D por la cantidad de información

(2)

que tienen que procesar por segundo, la distancia entre el sujeto y el sistema de adquisición y las condiciones de iluminación.

Los escáneres laser se utilizan en la adquisición del rostro para obtener resultados en alta resolución espacial pero si es necesario más de una toma el objeto tienen que moverse o se tiene que construir un sistema que mueva el escáner para obtener diferentes perspectivas del objeto, pero el tiempo de adquisición aumenta haciendo imposible la obtención de gestos y mediciones de desplazamiento de puntos de interés en los músculos del rostro.

Las seis cámaras del sistema presentado en este trabajo están formadas por sensores omnivision OV7720 [11] modificados para ser sincronizados por modulación por ancho de pulsos con ayuda de un microcontrolador Arduino One. El control de la adquisición se realiza por medio de un programa en C++ que mantiene la adquisición en tiempo real con ayuda de un anillo de buffers [12]. Para mejorar la textura en el rostro humano se introducen patrones producidos por dos proyectores.

2 PROCEDIMIENTO

Los sensores omnivision OV7720 se obtuvieron de cámaras comerciales ps3-eye de Sony [13]. Las cámaras se desarman para tener acceso al punto de control FSIN y poder modificar los sensores para que acepten señales externas como control de la adquisición de un cuadro, dado por el tiempo de integración y el tiempo de inicio de cada cuadro adquirido Figura 1.

Figura 1. Las cámaras ps3-eye son modificadas para obtener los sensores OV7720. Estos cuentan con un punto de control FSIN para el control externo de la adquisición de cuadros.

La señal de modulación por ancho de pulsos (PWM) se realiza con la salida pin 9 del microcontrolador Arduino el cual provee con una PWM de 8-bit. Con esta señal se sincronizan las seis cámaras para que estas tomen cuadros de imágenes al mismo tiempo con una velocidad de 60 cuadros por segundo. En la figura 2 se presenta el sistema construido con los 6 sensores controlados por el Arduino y el arreglo experimental que permite la adquisición de tres planos de proyección.

Punto de control FSIN donde se suelda el cable de entrada de la señal.

(3)

3

Figura 2. Sistema estéreo de adquisición sincronizado. Cada par de cámaras se utiliza para obtener uno de los planos de adquisición.

2.1 Par de sensores para estéreo-visión.

El objetivo del sistema es obtener tres planos de adquisición por medio de estéreo–visión . Para esto los seis sensores deben de tener un arreglo que nos permita utilizar un par de ellos para obtener un plano con información de profundidad. Para cada uno de los planos de adquisición se arregla un par de sensores como muestra la figura 3.

Figura 3. Sistema estéreo de adquisición sincronizado. Cada par de cámaras se utiliza para obtener uno de los planos de adquisición.

Como se puede ver en la Figura 2, en lugar del tradicional arreglo horizontal de las cámaras en el sistema presentado se tiene una configuración vertical, esto se debe a que en el caso del rostro humano se tiene un grado alto de simetría horizontal entre el lado derecho y el izquierdo. Por otro lado se observa que una de las cámaras esta girada 90° para obtener una línea base de 5 cm entre los centros de las cámaras ya que la distancia promedio a los rostros adquiridos será entre 20 cm a 40 cm y esto requiere que el campo de visión compartido por las cámaras sea cercano.

Las ecuaciones 1 y 2 nos indican el rango de profundidad mínimo y máximo con respecto a nuestra máxima disparidad que podemos obtener.

(1)

(4)

(2)

Donde y son las distancias mínima y máxima para nuestros objetos, es la distancia focal, es nuestra línea base, el numero máximo de pixeles de disparidad y medida del pixel del sensor. Para las cámaras del sistema presentado los valores son , , . Así la distancia mínima a la que un objeto puede estar del sistema son 20 cm.

2.2 Calibración del sistema y rectificación de las imágenes.

Las cámaras se calibran y se rectifica el error de estas utilizando el método de Zhang [14], con esto buscamos obtener la matriz fundamental que describe a cada par de cameras y sus propiedades intrínsecas y extrínsecas. En la figura 4 se muestran las imágenes de referencia tomadas y un par de imágenes antes y después de la rectificación.

Figura 4. A) imágenes de referencia utilizadas para la calibración. B) imágenes originales. C) imágenes rectificadas. D) visualización rojo-azul antes de rectificación. E) después de rectificación.

2.3 Proyección de textura

El proceso de estéreo–visión reduce la búsqueda de un mismo pixel en la imagen derecha y la imagen izquierda en un par rectificado de imágenes idealmente a una línea. Pero la solución exacta se obtiene buscando información que identifique a esos pixeles, por lo general la propiedad de color o intensidad de la textura del pixel.

La piel humana y las diferencias en tonalidades de esta dificultan la definición de los colores de textura y la diferenciación entre dos pixeles vecinos. Es por esto que el sistema hace uso de proyección de patrones texturados para mejorar la adquisición.

En la figura 5 se pueden ver una selección de estas texturas y el mapa de profundidad resultante de cada una de estas.

A B C D

E

(5)

5

Figura 5. Las texturas que mejoran el resultado de profundidad son las que presentan cambios de color en la misma dirección en la que el algoritmo busca los pixeles en ambas imágenes.

3 RESULTADOS

El sistema se utiliza para obtener imágenes de prueba con un maniquí para observar la capacidad de este al obtener mapas de profundidad con las cámaras VGA y la velocidad de adquisición.

La velocidad de adquisición se mantiene a 50 fps. En la figura 6 se muestran los mapas de profundidad obtenidos del sistema con el patrón producido por dos proyectores. Algunos problemas están presentes en detalles pequeños del maniquí debido a que el prototipo solo tiene acceso a imágenes con calidad VGA (480 x 640 pixeles).

Figura 6. Resultados del sistema de adquisición.

4 CONCLUSIONES

En este trabajo se presenta la construcción del sistema multi-estéreo basado en sensores Omnivision OV7720. Este sistema cumple con los requerimientos presentados para la obtención de datos antropológicos del rostro humano frontal y lateral e introduce la capacidad de mediciones tridimensionales como las relaciones de curvatura del rostro.

El sistema permite la medición de movimientos del rostro por debajo de los 50 cuadros por segundo y la introducción de textura mejora el mapa de profundidad obtenido, del cual se obtiene la reconstrucción 3D de la superficie craneofacial.

En trabajos futuros se buscara mejorar la calidad de los sensores para poder obtener imágenes por encima de los 1080 x 1920 pixeles y con esto reducir los errores de incertidumbres de búsqueda del sistema y mejorar la calidad de los detalles.

(6)

5 AGRADECIMIENTOS

Se agradece el apoyo del Maestro en Ingeniería Bartolome Reyes en la construcción del sistema y al Dr Patrice Delmas por la asesoría provista.

REFERENCIAS

[1] Inaba R, Watanabe E, Kodate K. Security Applications of Optical Face Recognition System: Access Control in E-Learning. Optical Review 2003; 10: 255-261.

[2] Chen C, Yao Y, Chang H, et al. Integration of multispectral face recognition and multi-PTZ camera automated surveillance for security applications. Central European Journal of Engineering 2013; 3: 253-266.

[3] Mazura J, Juluru K, Chen J, et al.Facial Recognition Software Success Rates for the Identification of 3D Surface Reconstructed Facial Images: Implications for Patient Privacy and Security. Journal of Digital Imaging 2012; 25: 347-351.

[4] Kang H, Yu S, Park M. In: Lee Y, Bien Z, Mokhtari M, Kim J, Park M, Kim J, Lee H, Khalil I, Lecture Notes in Computer Science. Berlin: Springer Berlin Heidelberg 2010: pp. 222-225.

[5] Loconsole C, Barbosa N, Frisoli A, et al. In: Perales F, Fisher R, Moeslund T, Lecture Notes in Computer Science. Berlin: Springer Berlin Heidelberg 2012: pp. 124-133.

[6] Gupta S, Markey M, Bovik A. Anthropometric 3D Face Recognition. International Journal of Computer Vision 2010; 90: 331-349.

[7] Piteri, S. A comparison between panoramic photography and conventional aerial photography in terms of mapping accuracy. Earth, Moon, and Planets 1988; 40: 295-302.

[8] Oh J, Lee S, Lee C. Stereo vision based automation for a bin-picking solution.

International Journal of Control, Automation and Systems 2012; 10: 362-373.

[9] Aliakbarpour H, Almeida L, Menezes P, and Dias, et al. Multi-sensor 3D volumetric reconstruction using CUDA. 3D Research 2011; 2.

[10] Liu C, Ward J. In: Zhao W, Gong S, Tang X, Lecture Notes in Computer Science. Berlin:

Springer Berlin Heidelberg 2005: pp. 244-254.

[11] Omnivision: OV7720. Available at: http://www.ovt.com/products/sensor.php?id=79 (Accessed on: Jun 10, 2014).

[12] Boost C++ libraries: Chapter 6. Boost.Circular Buffer. Available at:

http://www.boost.org/doc/libs/1_55_0/doc/html/circular_buffer.html (Accessed on: Jun 10, 2014).

[13] Sony Playstation: PlayStation®Eye Camera. Available at:

http://us.playstation.com/ps3/accessories/playstation-eye-camera-ps3.html (Accessed on: Jun 10, 2014).

[14] Zhang Z. Flexible camera calibration by viewing a plane from unknown orientations.

Proceedings of the 7^th IEEE International Conference on Computer Vision. Kerkyra, Greece, September 20-27, 1999.