Cabeza fuera del plano de rotaci´ on para la estimaci´ on de g´ enero

4. Dependencias entre atributos faciales

4.2. Reconocimiento de g´ enero robusto

4.3.4. Cabeza fuera del plano de rotaci´ on para la estimaci´ on de g´ enero

En la sección 4.2.2 analizamos las dependencias entre la pose 2-D (en el plano de desalineación) y el género. En esta sección mostraremos que el atributo de género y la orientación 3-D de la cara también son dependientes, permitiéndonos explotar estas relaciones para una estimación de género más robusta.

En nuestros experimentos utilizamos la base de datos Multi-PIE que contiene las im´agenes de 337 sujetos. Cada sujeto fue fotografiado desde 15 puntos de vista diferentes. Seleccionamos para los experimentos 11 puntos de vista en el plano de

94 Dependencias entre atributos faciales rotación 3-D descartando los dos perfiles más extremos y dos vistas tomadas sobre la cabeza. Como primer paso, obtuvimos todas las imágenes utilizando un detector de caras frontales y otro de perfil incluidos en las librer´ıas de OpenCV5_{. Utilizamos} ambos detectores al mismo tiempo para simular un detector de caras multi-vista. Después de la detección, las caras son cortadas y escaladas a imágenes de 25 ×

25 pixeles como en los otros experimentos. Para evaluar el clasificador agrupamos todas las imágenes de un solo sujeto en un fold y aplicamos Leave One Person Out (LOPO). Es decir, para el entrenamiento utilizamos todas las imágenes de todos los sujetos menos uno que es utilizado para la etapa de pruebas, esta operación la realizamos por cada uno de los sujetos que se encuentran en la base de datos.

12_0 09_0 08_0 13_0 14_0 05_1

05_0 04_1 19_0 20_0 01_0

Figura 4.7: Ejemplos de caras de la base de datos Multi-PIE, con diferentes orien- taciones, despu´es de la detecci´on.

Como Multi-PIE tiene un número relativamente grande de sujetos (337) para ejecutar el procedimiento de validación LOPO utilizamos un clasificador K-NN. En la Tabla 4.8 mostramos la tasa de acierto utilizando solo el atributo de Género y Powerset de atributos que considera el Género y la posición 3-D de la cabeza. El Powerset de atributos mejora el reconocimiento de género en un 4 % para este caso. Este resultado, junto con el resultado obtenido utilizando la pose 2-D, ver Sección 4.2.2, muestran claramente que es posible mejorar o hacer más robusta la estimación del género cuando se toman en cuenta las dependencias entre el género y otros atributos faciales.

4.4 Conclusiones 95

Multi-PIE Tasa de Acierto

G´enero 84,31 %

G´enero×Pose 3D 88,04 %

Tabla 4.8: Experimentos para género y pose 3D. La primera fila muestra los resultados para un clasificador de género y la segunda fila despliega los resultados para un clasificador AP que considera los atributos Género×3D.

4.4. Conclusiones

En este cap´ıtulo estudiamos el problema de reconocimiento de género desde una perspectiva de múltiples atributos. El reconocimiento de género en condiciones de laboratorio (p. ej. ColorFERET)6_{es un problema bien conocido y cuyo estado del arte} proporciona rendimientos superiores al 90 %. Sin embargo, cuando esos algoritmos han sido probados en escenarios reales o entornos no controlados su rendimiento cae significativamente. Hemos encontrado que la causa es la existencia de dependencias entre atributos faciales que no han sido consideradas en la construcción de los clasificadores. En este cap´ıtulo explotamos estas dependencias para mejorar el rendimiento en el reconocimiento de género.

Confirmamos los resultados previos encontrados en la literatura sobre la existencia de dependencias entre el género y la edad. Adicionalmente, mostramos otras dependencias relacionados con la alineación de la cara en el plano 2-D y 3-D. Nuestra aproximación explora la combinación de varias variables demográficas y demuestra el beneficio de explotar éstas para mejorar el rendimiento de un clasificador. De igual manera, para el aprendizaje de atributos no condicionados a la demograf´ıa, como es el caso de la pose, logramos evitar el uso de procedimientos de alineación automática de caras que en la práctica tienen un costo computacional elevado y, en ciertos escenarios, son poco robustos. En los experimentos confirmamos la existencia de dependencias condicionales entre los atributos faciales del género, la edad y la pose; y evidenciamos que podemos mejorar el rendimiento de los clasificadores de género explotando éstas relaciones.

Nuestra intención en este trabajo es probar que al considerar las dependencias del género con otros atributos faciales podemos mejorar la tasa de acierto y eficiencia de la estimación del género. Esto es especialmente útil cuando utilizamos bases de datos obtenidas en condiciones no controladas de adquisición como es el

96 Dependencias entre atributos faciales caso de GROUPS. Galagger y otros [GC09] logran un 69,6 % de tasa de acierto utilizando la totalidad de las caras de GROUPS sobre un clasificador K-NN. En los experimentos desarrollados obtenemos una tasa de acierto del 78,49 % usandoLDA y un clasificador K-NN, el cual est´a dentro del estado del arte para procedimientos de reconocimiento de g´enero [BCBB11].

En los clasificadores presentados utilizamos caracter´ısticas simples sobre la apariencia global de la cara, ya que la finalidad del cap´ıtulo no es obtener el mejor clasificador de g´enero sino mostrar como podemos mejorar el reconocimiento de g´enero.

Parte III

Conclusiones

Cap´ıtulo 5

Conclusiones

L

a presente tesis tuvo como objetivo desarrollar técnicas de análisis de imáge-

nes para estimar atributos faciales como el género, la edad y la orientación de la cara empleando métodos lineales. Nuestro esfuerzo se centró en el desarrollo de modelos simples y eficientes, robustos a cambios de iluminación, pose y condiciones de adquisición. Elementos relevantes para la implementación de algoritmos que funcionen en tiempo real y en dispositivos de bajo coste computacional. En esta investigación nuestro desaf´ıo fue comprobar que los modelos propuestos son capaces de funcionar en condiciones realistas de operación con una alta tasa de acierto. No nos preocupamos en utilizar descriptores de la cara sofisticados y, en cambio, em- pleamos los niveles de gris por ser un descriptor sencillo de la imagen. En resumen, nuestra principal preocupación fue dar una oportunidad a los clasificadores lineales. Para demostrarlo, primero desarrollamos un conjunto de experimentos orienta- dos a medir la eficiencia y el rendimiento de los estimadores (clasificador o regresor) utilizando métodos lineales. Hasta la publicación de los resultados de la presente tesis, los trabajos relacionados con la estimación de atributos faciales por medio de métodos lineales se hab´ıan subestimados debido al bajo rendimiento obtenido. En nuestros experimentos observamos que convenientemente entrenados, los estimadores lineales mejoran notablemente su rendimiento. Adicionalmente, encontramos que existen dependencias entre los atributos faciales que influyen en la tasa de acierto de los estimadores. A partir de esto, proponemos una técnica simple para poder explotar estas dependencias y mejorar su rendimiento además de ser robusto a cambios de pose.

En el Cap´ıtulo 2 analizamos que la mayor´ıa de los trabajos desarrollados sobre

100 Conclusiones reconocimiento de género se centraban en bases de datos adquiridas en condiciones de laboratorio (p.eg. Color FERET). A pesar de esto, muchos de los experimentos propuestos en la literatura no son comparables en igualdad de condiciones debido principalmente a que los autores seleccionan o utilizan las imágenes de las bases de datos de manera distinta. Esta condición no permite realizar un análisis consistente de los resultados y por lo tanto no se pueden obtener, en muchos casos, conclusiones definitivas. Como consecuencia de esto, en el Cap´ıtulo 2 proponemos un procedimiento para probar los clasificadores utilizando validación cruzada y cruces de bases de datos. Los resultados demuestran que los experimentos ejecutados sobre una base de datos (validación cruzada) son similares encontrados a la literatura. Sin embargo, ´

estos sufren una fuerte ca´ıda en su tasa de acierto cuando los modelos se entrenan sobre una base de datos y luego validados en otra. Esta disminución se debe a que cada base de datos tiene diferentes propiedades en cuanto a la distribución de sus atributos faciales etiquetados. Esto significa que podemos encontrar bases de datos con grupos homogéneos en edad, expresiones, etnia, etc; y por contra de otras bases de datos donde su distribución es más heterogénea. Esto nos demuestra que existen ciertas dependencias entre los atributos faciales, y que al no considerarlas impactan negativamente en nuestros resultados de clasificación. Adicionalmente, demostramos que el uso de modelos lineales (LDA) más un adecuado entrenamiento mejora considerablemente el rendimiento del clasificador. La conclusión del análisis realizado en este cap´ıtulo es que, si contamos con un número suficiente de datos y recursos computacionales, los clasificadores de género implementados con Máquinas de Soporte Vectorial son superiores al resto. Cuando los recursos computacionales son escasos pero hay suficientes datos, las aproximaciones de boosting y lineales son las adecuadas. Finalmente, si los datos de entrenamiento y recursos computacionales son muy escasos, entonces las aproximaciones lineales son la mejor opción.

En el Cap´ıtulo 3 aplicamos el mismo procedimiento de validación para la esti- mación de edad, al igual de lo que ocurr´ıa en el género. Observamos que cuando cruzamos las bases de datos los resultados obtenidos son peores que cuando se uti- liza una base de datos. Por otro lado, los experimentos muestran que la estimación de edad utilizando métodos lineales funciona mejor en ciertos rangos de edad debido a que la mayor´ıa de las bases de datos probadas no tiene una distribución similar para los diferentes grupos de edad.

De manera semejante, en los Cap´ıtulos 2 y 3 demostramos que es posible obtener resultados competitivos, con respecto al estado del arte, en cuanto a la tasa de acierto y sobre todo en términos de eficiencia computacional utilizando Análisis Discriminante Lineal (LDA) y buena selección de caracter´ısticas. Como consecuencia de esto, los estimadores lineales desarrollados utilizando PCA+LDA obtienen los

101 resultados mejores y un rendimiento superior cuando los recursos computacionales son escasos. Sin embargo, no se puede concluir si estos son robustos en condiciones reales debido a que los experimentos demuestran que existe una fuerte ca´ıda en su tasa de acierto cuando se utilizan diferentes bases de datos para su entrenamiento y prueba.

A partir del estudio anterior, proponemos una manera de aprovechar la informa- ción contenida en los diferentes grupos de atributos faciales (género, edad y pose de la cara). En el Cap´ıtulo 4 demostramos emp´ıricamente que al utilizar la información contenida en las distintas etiquetas de atributos faciales mejoramos de forma signifi- cativa los resultados obtenidos con respecto a su tasa de acierto. Lo que confirma los resultados previos encontrados en la literatura sobre la existencia de dependencias entre el género y la edad. Adicionalmente, encontramos otros tipos de dependencias relacionados a la alineación de la cara en el plano 2D y 3D. Hemos descubierto que al utilizar estas dependencias entre atributos de manera lineal podemos construir un clasificador de género que tenga en cuenta la posición de los ojos. De tal forma que no hace falta alinear de manera expl´ıcita la imagen de la cara. En resumen, confirmamos la existencia de dependencias entre atributos faciales demográficos y otros relacionados con la apariencia de la cara probando que es posible mejorar la clasificación del género explotándolas adecuadamente.

Finalmente, de los resultados obtenidos en la tesis (Ap´endice C) podemos resumir nuestra contribuci´on en:

Revisión del estado del arte en género y edad. Observamos que en el momen- to de realizar esta tesis los métodos utilizados para validar los resultados eran confusos y de dif´ıcil comparación. Especialmente aquellos obtenidos sobre una ´

unica base de datos utilizando validación cruzada con resultados demasiados optimistas y sesgados. Además, aquellos experimentos desarrollados sobre base de datos ideales (Apéndice A) no pueden ser extrapoladas a aplicaciones que funcionen en condiciones reales.

Desarrollo de una metodolog´ıa de validación. Como resultado de lo anterior se formula una estrategia de validación que considera el cruce de base de datos. El beneficio inmediato de este procedimiento es que entrega información adicional que no es posible encontrar en validaciones que utilizan una única base de datos. También, en nuestros experimentos utilizamos dos bases de datos que contienen imágenes capturadas en ambientes no controlados (GROUPS

y LFW). Este tipo de experimentos no eran habituales en las publicaciones estudiadas antes de la publicaci´on de nuestros resultados. Posteriormente otros

102 Conclusiones autores han adoptado el mismo esquema de evaluación [DCGJYAC11]. Implementación de una estimación simple y eficiente. En los experimentos

desarrollados quisimos dar una oportunidad a los métodos basados en una aproximación lineal. Nuestros resultados demuestran que para cierto tipo de problemas es posible obtener resultados comparables a los encontrados en el estado de género y edad. Podemos señalar que es posible construir estimadores competitivos basados en aproximaciones lineales con un fuerte impacto en la reducción del costo computacional.

Uso de las dependencias de los atributos faciales. Como consecuencia de los puntos anteriormente expuestos, fue posible detectar que existen dependencias entre los atributos asociados a imágenes de la cara y que pueden ser utilizados para mejorar la estimación del género y la edad.

Estimación de atributos sin alineación fuerte. A partir del uso de las dependencias entre los atributos faciales, diseñamos un método para poder entrenar un clasificador de género que tome en cuenta los cambios de orientación de la cara. Con esta simple técnica logramos eliminar el paso de alineación automáti- ca, y el coste computacional asociado, previo a la entrada del clasificador.

5.1. L´ıneas futuras

A partir de los resultados obtenidos en el desarrollo experimental de esta tesis identificamos las siguientes lineas de investigaci´on como trabajo futuro:

Aprovechar de mejor forma las dependencias de los atributos faciales. En el Cap´ıtulo 5 se demuestra emp´ıricamente que existe una sustancial mejora en la estimación del género cuando se consideran otros atributos faciales. Sin embargo, la metodolog´ıa seleccionada tiene como deficiencia que al introducir una cantidad mayor de atributos faciales la explosión combinatorial asocia- da a las nuevas etiquetas generadas hace que el problema sea prácticamente intratable. Por otro lado, la mayor´ıa las bases de datos de imágenes no cuen- tan con las instancias necesarias para cubrir todas las instancias necesarias asociadas a un tipo de combinación de atributos faciales, por ejemplo, para la combinaciónGenero´ ×Edadpuede ser que no existan instancias asociadas a la combinación de hombres que tienen cinco años. En la bibliograf´ıa este término se denomina un problema de cobertura. En Tsoumakas [TKV10] propone un solución multi-label que podr´ıa ser extrapolada a nuestra solución.

5.1 L´ıneas futuras 103 Construir clasificadores o regresores independientes de la pose.

Una de las aplicaciones encontradas en el desarrollo de este trabajo es poder estimar los atributos faciales de edad y género independientes de la pose. En el Cap´ıtulo 5 observamos que esto es posible debido a los buenos resultados encontrados utilizando la base de datos Multi-PIE, ver Apéndice A para más información. Creemos que es posible extender está solución a cualquier cambio de la pose.

Utilizar una aproximaci´on basada en caracter´ısticas locales.

En los experimentos desarrollados en la presente memoria encontramos que la aproximación basada en apariencia global tiene varias limitaciones con respecto a los cambios de iluminación, oclusiones y cambios bruscos en la pose. Creemos que es posible adaptar este trabajo para utilizar aproximaciones ba- sadas en caracter´ısticas locales. Existe un número emergente de publicaciones que estudian la forma de describir estas caracter´ısticas y su impacto en la mejora de la estimación de atributos faciales. Nosotros esperamos que se puedan construir estimadores lineales que utilicen como entradas estas caracter´ısti- cas y que permitan obtener mejores resultados que los modelos basados en la apariencia global estudiados en este trabajo de tesis.

Extender este estudio a base de datos realistas (no de laboratorio). A partir del estudio del arte realizado, constatamos que el problema del género está resuelto para condiciones de adquisición de laboratorio y con imágenes frontales. En estos últimos años notamos que existe un creciente esfuerzo en extender este tipo de aplicaciones a base de datos “in the wild” principalmente enfocadas a ambientes de trabajo reales no controlados. Este nuevo desaf´ıo nos lleva a buscar nuevas estrategias de desarrollo que permitan estimar atributos faciales sobre una gran cantidad de imágenes, en tiempo real y en condiciones de adquisición mucho más complicadas. Y aunque en esta tesis, Cap´ıtulo 4, utilizamos las bases de datos GROUPS y LFW para la validación de nuestros experimentos, creemos que la nueva tendencia es seguir trabajando en la cons- trucción de estimadores de atributos robustos y rápidos en cualquier condición de adquisición para el desarrollo de aplicaciones prácticas y de uso en entornos reales.

Ap´endice A

Bases de datos

U

node los principales componentes para la validaci´on de los modelos matem´ati-

cos propuestos es contar con un conjunto de imágenes y etiquetas adecuadas. En el estudio de esta tesis hemos observado que existe una cantidad suficiente de bases de datos para el desarrollo de experimentos en esta investigación. Sin embargo, su calidad y etiquetado no siempre es la mejor para desarrollar un trabajo adecuado de validación. Dentro de ese contexto, seleccionamos un conjunto de bases de datos que fueron separadas en dos grupos: Uno que contiene imágenes capturadas en condiciones ideales o controladas llamadas base de datos ideales. Por el contrario, el otro grupo considera imágenes sin restricciones de adquisición las cuales denominamos bases de datos en condiciones reales o ‘in the wild”.

In document Estimación eficiente de atributos demográficos del rostro humano en imágenes (página 123-135)