4. Dependencias entre atributos faciales
4.2. Reconocimiento de g´ enero robusto
4.3.4. Cabeza fuera del plano de rotaci´ on para la estimaci´ on de g´ enero
En la secci´on 4.2.2 analizamos las dependencias entre la pose 2-D (en el plano de desalineaci´on) y el g´enero. En esta secci´on mostraremos que el atributo de g´enero y la orientaci´on 3-D de la cara tambi´en son dependientes, permiti´endonos explotar estas relaciones para una estimaci´on de g´enero m´as robusta.
En nuestros experimentos utilizamos la base de datos Multi-PIE que contiene las im´agenes de 337 sujetos. Cada sujeto fue fotografiado desde 15 puntos de vista diferentes. Seleccionamos para los experimentos 11 puntos de vista en el plano de
94 Dependencias entre atributos faciales rotaci´on 3-D descartando los dos perfiles m´as extremos y dos vistas tomadas sobre la cabeza. Como primer paso, obtuvimos todas las im´agenes utilizando un detector de caras frontales y otro de perfil incluidos en las librer´ıas de OpenCV5. Utilizamos ambos detectores al mismo tiempo para simular un detector de caras multi-vista. Despu´es de la detecci´on, las caras son cortadas y escaladas a im´agenes de 25 ×
25 pixeles como en los otros experimentos. Para evaluar el clasificador agrupamos todas las im´agenes de un solo sujeto en un fold y aplicamos Leave One Person Out (LOPO). Es decir, para el entrenamiento utilizamos todas las im´agenes de todos los sujetos menos uno que es utilizado para la etapa de pruebas, esta operaci´on la realizamos por cada uno de los sujetos que se encuentran en la base de datos.
12_0 09_0 08_0 13_0 14_0 05_1
05_0 04_1 19_0 20_0 01_0
Figura 4.7: Ejemplos de caras de la base de datos Multi-PIE, con diferentes orien- taciones, despu´es de la detecci´on.
Como Multi-PIE tiene un n´umero relativamente grande de sujetos (337) para ejecutar el procedimiento de validaci´on LOPO utilizamos un clasificador K-NN. En la Tabla 4.8 mostramos la tasa de acierto utilizando solo el atributo de G´enero y Powerset de atributos que considera el G´enero y la posici´on 3-D de la cabeza. El Powerset de atributos mejora el reconocimiento de g´enero en un 4 % para este caso. Este resultado, junto con el resultado obtenido utilizando la pose 2-D, ver Secci´on 4.2.2, muestran claramente que es posible mejorar o hacer m´as robusta la estimaci´on del g´enero cuando se toman en cuenta las dependencias entre el g´enero y otros atributos faciales.
5
4.4 Conclusiones 95
Multi-PIE Tasa de Acierto
G´enero 84,31 %
G´enero×Pose 3D 88,04 %
Tabla 4.8: Experimentos para g´enero y pose 3D. La primera fila muestra los resul- tados para un clasificador de g´enero y la segunda fila despliega los resultados para un clasificador AP que considera los atributos G´enero×3D.
4.4.
Conclusiones
En este cap´ıtulo estudiamos el problema de reconocimiento de g´enero desde una perspectiva de m´ultiples atributos. El reconocimiento de g´enero en condiciones de laboratorio (p. ej. ColorFERET)6es un problema bien conocido y cuyo estado del arte proporciona rendimientos superiores al 90 %. Sin embargo, cuando esos algoritmos han sido probados en escenarios reales o entornos no controlados su rendimiento cae significativamente. Hemos encontrado que la causa es la existencia de depen- dencias entre atributos faciales que no han sido consideradas en la construcci´on de los clasificadores. En este cap´ıtulo explotamos estas dependencias para mejorar el rendimiento en el reconocimiento de g´enero.
Confirmamos los resultados previos encontrados en la literatura sobre la exis- tencia de dependencias entre el g´enero y la edad. Adicionalmente, mostramos otras dependencias relacionados con la alineaci´on de la cara en el plano 2-D y 3-D. Nuestra aproximaci´on explora la combinaci´on de varias variables demogr´aficas y demuestra el beneficio de explotar ´estas para mejorar el rendimiento de un clasificador. De igual manera, para el aprendizaje de atributos no condicionados a la demograf´ıa, como es el caso de la pose, logramos evitar el uso de procedimientos de alineaci´on autom´atica de caras que en la pr´actica tienen un costo computacional elevado y, en ciertos escenarios, son poco robustos. En los experimentos confirmamos la existencia de dependencias condicionales entre los atributos faciales del g´enero, la edad y la pose; y evidenciamos que podemos mejorar el rendimiento de los clasificadores de g´enero explotando ´estas relaciones.
Nuestra intenci´on en este trabajo es probar que al considerar las dependencias del g´enero con otros atributos faciales podemos mejorar la tasa de acierto y efi- ciencia de la estimaci´on del g´enero. Esto es especialmente ´util cuando utilizamos bases de datos obtenidas en condiciones no controladas de adquisici´on como es el
6
96 Dependencias entre atributos faciales caso de GROUPS. Galagger y otros [GC09] logran un 69,6 % de tasa de acierto uti- lizando la totalidad de las caras de GROUPS sobre un clasificador K-NN. En los experimentos desarrollados obtenemos una tasa de acierto del 78,49 % usandoLDA y un clasificador K-NN, el cual est´a dentro del estado del arte para procedimientos de reconocimiento de g´enero [BCBB11].
En los clasificadores presentados utilizamos caracter´ısticas simples sobre la apa- riencia global de la cara, ya que la finalidad del cap´ıtulo no es obtener el mejor clasificador de g´enero sino mostrar como podemos mejorar el reconocimiento de g´enero.
Parte III
Conclusiones
Cap´ıtulo 5
Conclusiones
L
a presente tesis tuvo como objetivo desarrollar t´ecnicas de an´alisis de im´age-nes para estimar atributos faciales como el g´enero, la edad y la orientaci´on de la cara empleando m´etodos lineales. Nuestro esfuerzo se centr´o en el desarrollo de modelos simples y eficientes, robustos a cambios de iluminaci´on, pose y condicio- nes de adquisici´on. Elementos relevantes para la implementaci´on de algoritmos que funcionen en tiempo real y en dispositivos de bajo coste computacional. En esta investigaci´on nuestro desaf´ıo fue comprobar que los modelos propuestos son capaces de funcionar en condiciones realistas de operaci´on con una alta tasa de acierto. No nos preocupamos en utilizar descriptores de la cara sofisticados y, en cambio, em- pleamos los niveles de gris por ser un descriptor sencillo de la imagen. En resumen, nuestra principal preocupaci´on fue dar una oportunidad a los clasificadores lineales. Para demostrarlo, primero desarrollamos un conjunto de experimentos orienta- dos a medir la eficiencia y el rendimiento de los estimadores (clasificador o regresor) utilizando m´etodos lineales. Hasta la publicaci´on de los resultados de la presente tesis, los trabajos relacionados con la estimaci´on de atributos faciales por medio de m´etodos lineales se hab´ıan subestimados debido al bajo rendimiento obtenido. En nuestros experimentos observamos que convenientemente entrenados, los estimado- res lineales mejoran notablemente su rendimiento. Adicionalmente, encontramos que existen dependencias entre los atributos faciales que influyen en la tasa de acierto de los estimadores. A partir de esto, proponemos una t´ecnica simple para poder explo- tar estas dependencias y mejorar su rendimiento adem´as de ser robusto a cambios de pose.
En el Cap´ıtulo 2 analizamos que la mayor´ıa de los trabajos desarrollados sobre
100 Conclusiones reconocimiento de g´enero se centraban en bases de datos adquiridas en condiciones de laboratorio (p.eg. Color FERET). A pesar de esto, muchos de los experimentos propuestos en la literatura no son comparables en igualdad de condiciones debido principalmente a que los autores seleccionan o utilizan las im´agenes de las bases de datos de manera distinta. Esta condici´on no permite realizar un an´alisis consistente de los resultados y por lo tanto no se pueden obtener, en muchos casos, conclusiones definitivas. Como consecuencia de esto, en el Cap´ıtulo 2 proponemos un procedi- miento para probar los clasificadores utilizando validaci´on cruzada y cruces de bases de datos. Los resultados demuestran que los experimentos ejecutados sobre una base de datos (validaci´on cruzada) son similares encontrados a la literatura. Sin embargo, ´
estos sufren una fuerte ca´ıda en su tasa de acierto cuando los modelos se entrenan sobre una base de datos y luego validados en otra. Esta disminuci´on se debe a que cada base de datos tiene diferentes propiedades en cuanto a la distribuci´on de sus atributos faciales etiquetados. Esto significa que podemos encontrar bases de da- tos con grupos homog´eneos en edad, expresiones, etnia, etc; y por contra de otras bases de datos donde su distribuci´on es m´as heterog´enea. Esto nos demuestra que existen ciertas dependencias entre los atributos faciales, y que al no considerarlas impactan negativamente en nuestros resultados de clasificaci´on. Adicionalmente, de- mostramos que el uso de modelos lineales (LDA) m´as un adecuado entrenamiento mejora considerablemente el rendimiento del clasificador. La conclusi´on del an´alisis realizado en este cap´ıtulo es que, si contamos con un n´umero suficiente de datos y recursos computacionales, los clasificadores de g´enero implementados con M´aquinas de Soporte Vectorial son superiores al resto. Cuando los recursos computacionales son escasos pero hay suficientes datos, las aproximaciones de boosting y lineales son las adecuadas. Finalmente, si los datos de entrenamiento y recursos computacionales son muy escasos, entonces las aproximaciones lineales son la mejor opci´on.
En el Cap´ıtulo 3 aplicamos el mismo procedimiento de validaci´on para la esti- maci´on de edad, al igual de lo que ocurr´ıa en el g´enero. Observamos que cuando cruzamos las bases de datos los resultados obtenidos son peores que cuando se uti- liza una base de datos. Por otro lado, los experimentos muestran que la estimaci´on de edad utilizando m´etodos lineales funciona mejor en ciertos rangos de edad debido a que la mayor´ıa de las bases de datos probadas no tiene una distribuci´on similar para los diferentes grupos de edad.
De manera semejante, en los Cap´ıtulos 2 y 3 demostramos que es posible obtener resultados competitivos, con respecto al estado del arte, en cuanto a la tasa de acierto y sobre todo en t´erminos de eficiencia computacional utilizando An´alisis Discriminante Lineal (LDA) y buena selecci´on de caracter´ısticas. Como consecuencia de esto, los estimadores lineales desarrollados utilizando PCA+LDA obtienen los
101 resultados mejores y un rendimiento superior cuando los recursos computacionales son escasos. Sin embargo, no se puede concluir si estos son robustos en condiciones reales debido a que los experimentos demuestran que existe una fuerte ca´ıda en su tasa de acierto cuando se utilizan diferentes bases de datos para su entrenamiento y prueba.
A partir del estudio anterior, proponemos una manera de aprovechar la informa- ci´on contenida en los diferentes grupos de atributos faciales (g´enero, edad y pose de la cara). En el Cap´ıtulo 4 demostramos emp´ıricamente que al utilizar la informaci´on contenida en las distintas etiquetas de atributos faciales mejoramos de forma signifi- cativa los resultados obtenidos con respecto a su tasa de acierto. Lo que confirma los resultados previos encontrados en la literatura sobre la existencia de dependencias entre el g´enero y la edad. Adicionalmente, encontramos otros tipos de dependencias relacionados a la alineaci´on de la cara en el plano 2D y 3D. Hemos descubierto que al utilizar estas dependencias entre atributos de manera lineal podemos construir un clasificador de g´enero que tenga en cuenta la posici´on de los ojos. De tal forma que no hace falta alinear de manera expl´ıcita la imagen de la cara. En resumen, confirmamos la existencia de dependencias entre atributos faciales demogr´aficos y otros relacionados con la apariencia de la cara probando que es posible mejorar la clasificaci´on del g´enero explot´andolas adecuadamente.
Finalmente, de los resultados obtenidos en la tesis (Ap´endice C) podemos resumir nuestra contribuci´on en:
Revisi´on del estado del arte en g´enero y edad. Observamos que en el momen- to de realizar esta tesis los m´etodos utilizados para validar los resultados eran confusos y de dif´ıcil comparaci´on. Especialmente aquellos obtenidos sobre una ´
unica base de datos utilizando validaci´on cruzada con resultados demasiados optimistas y sesgados. Adem´as, aquellos experimentos desarrollados sobre ba- se de datos ideales (Ap´endice A) no pueden ser extrapoladas a aplicaciones que funcionen en condiciones reales.
Desarrollo de una metodolog´ıa de validaci´on. Como resultado de lo anterior se formula una estrategia de validaci´on que considera el cruce de base de datos. El beneficio inmediato de este procedimiento es que entrega informaci´on adicional que no es posible encontrar en validaciones que utilizan una ´unica base de datos. Tambi´en, en nuestros experimentos utilizamos dos bases de datos que contienen im´agenes capturadas en ambientes no controlados (GROUPS
y LFW). Este tipo de experimentos no eran habituales en las publicaciones estudiadas antes de la publicaci´on de nuestros resultados. Posteriormente otros
102 Conclusiones autores han adoptado el mismo esquema de evaluaci´on [DCGJYAC11]. Implementaci´on de una estimaci´on simple y eficiente. En los experimentos
desarrollados quisimos dar una oportunidad a los m´etodos basados en una aproximaci´on lineal. Nuestros resultados demuestran que para cierto tipo de problemas es posible obtener resultados comparables a los encontrados en el estado de g´enero y edad. Podemos se˜nalar que es posible construir estimadores competitivos basados en aproximaciones lineales con un fuerte impacto en la reducci´on del costo computacional.
Uso de las dependencias de los atributos faciales. Como consecuencia de los puntos anteriormente expuestos, fue posible detectar que existen dependencias entre los atributos asociados a im´agenes de la cara y que pueden ser utilizados para mejorar la estimaci´on del g´enero y la edad.
Estimaci´on de atributos sin alineaci´on fuerte. A partir del uso de las depen- dencias entre los atributos faciales, dise˜namos un m´etodo para poder entrenar un clasificador de g´enero que tome en cuenta los cambios de orientaci´on de la cara. Con esta simple t´ecnica logramos eliminar el paso de alineaci´on autom´ati- ca, y el coste computacional asociado, previo a la entrada del clasificador.
5.1.
L´ıneas futuras
A partir de los resultados obtenidos en el desarrollo experimental de esta tesis identificamos las siguientes lineas de investigaci´on como trabajo futuro:
Aprovechar de mejor forma las dependencias de los atributos faciales. En el Cap´ıtulo 5 se demuestra emp´ıricamente que existe una sustancial mejora en la estimaci´on del g´enero cuando se consideran otros atributos faciales. Sin embargo, la metodolog´ıa seleccionada tiene como deficiencia que al introducir una cantidad mayor de atributos faciales la explosi´on combinatorial asocia- da a las nuevas etiquetas generadas hace que el problema sea pr´acticamente intratable. Por otro lado, la mayor´ıa las bases de datos de im´agenes no cuen- tan con las instancias necesarias para cubrir todas las instancias necesarias asociadas a un tipo de combinaci´on de atributos faciales, por ejemplo, para la combinaci´onGenero´ ×Edadpuede ser que no existan instancias asociadas a la combinaci´on de hombres que tienen cinco a˜nos. En la bibliograf´ıa este t´ermino se denomina un problema de cobertura. En Tsoumakas [TKV10] propone un soluci´on multi-label que podr´ıa ser extrapolada a nuestra soluci´on.
5.1 L´ıneas futuras 103 Construir clasificadores o regresores independientes de la pose.
Una de las aplicaciones encontradas en el desarrollo de este trabajo es poder estimar los atributos faciales de edad y g´enero independientes de la pose. En el Cap´ıtulo 5 observamos que esto es posible debido a los buenos resultados encontrados utilizando la base de datos Multi-PIE, ver Ap´endice A para m´as informaci´on. Creemos que es posible extender est´a soluci´on a cualquier cambio de la pose.
Utilizar una aproximaci´on basada en caracter´ısticas locales.
En los experimentos desarrollados en la presente memoria encontramos que la aproximaci´on basada en apariencia global tiene varias limitaciones con res- pecto a los cambios de iluminaci´on, oclusiones y cambios bruscos en la pose. Creemos que es posible adaptar este trabajo para utilizar aproximaciones ba- sadas en caracter´ısticas locales. Existe un n´umero emergente de publicaciones que estudian la forma de describir estas caracter´ısticas y su impacto en la me- jora de la estimaci´on de atributos faciales. Nosotros esperamos que se puedan construir estimadores lineales que utilicen como entradas estas caracter´ısti- cas y que permitan obtener mejores resultados que los modelos basados en la apariencia global estudiados en este trabajo de tesis.
Extender este estudio a base de datos realistas (no de laboratorio). A partir del estudio del arte realizado, constatamos que el problema del g´enero est´a resuelto para condiciones de adquisici´on de laboratorio y con im´agenes frontales. En estos ´ultimos a˜nos notamos que existe un creciente esfuerzo en extender este tipo de aplicaciones a base de datos “in the wild” principalmente enfocadas a ambientes de trabajo reales no controlados. Este nuevo desaf´ıo nos lleva a buscar nuevas estrategias de desarrollo que permitan estimar atributos faciales sobre una gran cantidad de im´agenes, en tiempo real y en condiciones de adquisici´on mucho m´as complicadas. Y aunque en esta tesis, Cap´ıtulo 4, utilizamos las bases de datos GROUPS y LFW para la validaci´on de nuestros experimentos, creemos que la nueva tendencia es seguir trabajando en la cons- trucci´on de estimadores de atributos robustos y r´apidos en cualquier condici´on de adquisici´on para el desarrollo de aplicaciones pr´acticas y de uso en entornos reales.
Ap´endice A
Bases de datos
U
node los principales componentes para la validaci´on de los modelos matem´ati-cos propuestos es contar con un conjunto de im´agenes y etiquetas adecuadas. En el estudio de esta tesis hemos observado que existe una cantidad suficiente de bases de datos para el desarrollo de experimentos en esta investigaci´on. Sin embargo, su calidad y etiquetado no siempre es la mejor para desarrollar un trabajo adecuado de validaci´on. Dentro de ese contexto, seleccionamos un conjunto de bases de datos que fueron separadas en dos grupos: Uno que contiene im´agenes capturadas en con- diciones ideales o controladas llamadas base de datos ideales. Por el contrario, el otro grupo considera im´agenes sin restricciones de adquisici´on las cuales denominamos bases de datos en condiciones reales o ‘in the wild”.