Estimación eficiente de atributos demográficos del rostro humano en imágenes

Texto completo

(1)UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INFORMÁTICOS. TESIS DOCTORAL Estimación eficiente de atributos demográficos del rostro humano en imágenes. presentada en el DEPARTAMENTO DE INTELIGENCIA ARTIFICAL de la UNIVERSIDAD POLITÉCNICA DE MADRID para la obtención del GRADO DE DOCTOR EN INTELIGENCIA ARTIFICIAL. AUTOR: DIRECTOR: CO-DIRECTOR:. Juan D. Bekios Calfa Luis Baumela Molina José Miguel Buenaposada Biencinto. Madrid, 2015.

(2)

(3) A mi familia. i.

(4)

(5) “No entiendes algo hasta que lo aprendes a hacer de más de una forma” Marvin Minsky. iii.

(6)

(7) Agradecimientos Cuando entré por primera vez al laboratorio de Percepción Computacional y Robótica (PCR) una de las cosas que más me llamó la atención fue la calidez y el apoyo con el que fui recibido. En el grupo PCR aprendı́, entre muchas cosas, la importancia del trabajo duro y riguroso que debe ser invertido para producir investigación seria. Agradezco a Luis Baumela y a José Miguel Buenaposada por tener la paciencia y el compromiso de mostrarme este camino y el apasionante mundo de la visión por computador. Además, de tutelar esta tesis. Sin embargo, este gran esfuerzo no lo hice solo. Agradezco enormemente a Ximena por acompañarme en este desafı́o y a mis hijos Nikolás y Constantino por entender que todo lo que vivimos involucró una gran cuota de sacrificio pero que a su vez fue un proceso interesante y digno de vivir. También agradezco a mis padres Juan y Elena, mis hermanas Elena y Ana Marı́a, quienes siempre confiaron en el buen término de este trabajo. Finalmente, quisiera expresar mi gratitud a todas las personas que colaboraron de alguna u otra forma. A mis amigos del “lab” como Antonio, Yadira, Pablo, Kike, Fede y Gonzalo ya que siempre me tendieron una mano cuando lo necesitaba y por las grandes conversaciones que tenı́amos a la hora del almuerzo. Agradezco especialmente a Antonio y Yadira por los cafés y dı́as de “patatus” (entre otros lugares) para conversar sobre el rock, el punk o cualquier tema que se nos cruzara por la cabeza. A Julio Garcı́a del Real por sus apasionadas conversaciones sobre la música clásica. También, quisiera agradecer a las personas que me apoyaron con diferentes becas cómo es el caso de Pedro Larrañaga, Jesús Cardeñosa y Jesús Barbero. A mis amigos de Visión Artificial Desarrollos I+D en especial a Jesús, Aday, Ángel y Santiago por su amistad y profesionalismo. Quisiera poder nombrar a todas las personas que fueron parte importante en el desarrollo de esta tesis pero que faltarı́an hojas para poder agregarlos a todos, a pesar de esto, mis más infinitas gracias.. v.

(8)

(9) Índice general. Agradecimientos. V. Resumen. XXI. Abstract. XXIII. Glosario. XXV. I. Introducción. 1. 1. Introducción y objetivos. 3. 1.1. Motivación de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.1.1. Aplicaciones y sistemas automáticos de análisis facial . . . . .. 7. 1.2. Problema a resolver . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3. Hipótesis de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4. Objetivos de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5. Contribución y estructura de la tesis . . . . . . . . . . . . . . . . . . 11 vii.

(10) II. Predicción de Atributos Faciales. 2. Clasificador Unidimensional de Atributos Faciales Demográficos 2.1. Clasificador de género. 13. 15. . . . . . . . . . . . . . . . . . . . . . . . . . . 17. 2.2. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3. Análisis Discriminante Lineal (LDA) . . . . . . . . . . . . . . . . . . 23 2.3.1. LDA en el subespacio transformado PCA (I), PCA+LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.3.2. LDA en el subespacio transformado PCA (II), PCA-M+LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3.3. LDA en el espacio transformado ICA (ICA+LDA) . . . . . . 28 2.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.4.1. Pruebas con una única base de datos . . . . . . . . . . . . . . 34 2.4.2. Pruebas con cruce de base de datos . . . . . . . . . . . . . . . 45 2.4.3. Análisis del coste computacional . . . . . . . . . . . . . . . . . 50 2.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51. 3. Regresores Demográficos Unidimensionales. 55. 3.1. Regresor de Edad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.2. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.3. Regresión de edad desde imágenes de caras . . . . . . . . . . . . . . . 62 3.3.1. Proyección PCA+LDA como una matriz métrica para la edad 3.3.2. Regresión K-NN. 62. . . . . . . . . . . . . . . . . . . . . . . . . . 64 viii.

(11) 3.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.4.1. Pruebas con una única base de datos . . . . . . . . . . . . . . 67 3.4.2. Pruebas con cruce de base de datos . . . . . . . . . . . . . . . 70 3.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72. 4. Dependencias entre atributos faciales. 75. 4.1. Powerset de atributos faciales para la clasificación . . . . . . . . . . . 78 4.2. Reconocimiento de género robusto . . . . . . . . . . . . . . . . . . . . 80 4.2.1. Sobre la dependencia entre los atributos de edad y género . . . 81 4.2.2. Sobre la dependencias entre los atributos género y pose . . . . 84 4.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.3.1. Base de datos de caras . . . . . . . . . . . . . . . . . . . . . . 89 4.3.2. Estimación de género y edad . . . . . . . . . . . . . . . . . . . 90 4.3.3. Clasificación de género no alineado . . . . . . . . . . . . . . . 91 4.3.4. Cabeza fuera del plano de rotación para la estimación de género 93 4.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95. III. Conclusiones. 97. 5. Conclusiones. 99. 5.1. Lı́neas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102. A. Bases de datos. 105 ix.

(12) A.1. Base de datos en condiciones ideales . . . . . . . . . . . . . . . . . . . 105 A.1.1. Base de datos Gray FERET . . . . . . . . . . . . . . . . . . . 106 A.1.2. Base de datos Color FERET . . . . . . . . . . . . . . . . . . . 106 A.1.3. Base de datos PAL . . . . . . . . . . . . . . . . . . . . . . . . 107 A.1.4. Bade de datos MULTI-PIE . . . . . . . . . . . . . . . . . . . . 108 A.2. Base de datos en condiciones semi-reales . . . . . . . . . . . . . . . . 108 A.2.1. Base de datos UCN . . . . . . . . . . . . . . . . . . . . . . . . 110 A.2.2. Base de datos MORPH-II . . . . . . . . . . . . . . . . . . . . 110 A.3. Base de datos en condiciones reales . . . . . . . . . . . . . . . . . . . 111 A.3.1. Base de datos FG-NET . . . . . . . . . . . . . . . . . . . . . . 112 A.3.2. Base de datos GROUPS . . . . . . . . . . . . . . . . . . . . . 112 A.3.3. Base de datos LFW . . . . . . . . . . . . . . . . . . . . . . . . 113. B. Caracterı́sticas visuales para caras. 115. B.1. Descriptores Globales . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 B.1.1. PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 B.1.2. ICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 B.1.3. LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 B.2. Descriptores Locales . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 B.2.1. Bancos de filtros de Gabor . . . . . . . . . . . . . . . . . . . . 118 B.2.2. Haar-Like . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 B.2.3. LBP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 x.

(13) B.2.4. SIFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 B.2.5. HOG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123. C. Resultados de la tesis. 125. C.1. Publicaciones Indexadas . . . . . . . . . . . . . . . . . . . . . . . . . 125 C.2. Congresos Indexados . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 C.3. Patente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126. Bibliografı́a. 139. Índice alfabético. 142. xi.

(14)

(15) Índice de figuras 1.1. Tres métodos de la visión por computador. . . . . . . . . . . . . . . .. 5. 1.2. Diferentes apariencias de la cara de una misma persona . . . . . . . .. 7. 1.3. Ejemplo simplificado de un sistema de análisis facial . . . . . . . . . .. 8. 1.4. Caricatura de futuros usos de indexación y búsqueda de contenidos por medio de análisis facial . . . . . . . . . . . . . . . . . . . . . . . .. 9. 2.1. Etapas para la clasificación automática de la cara utilizando atributos faciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2. Esquema que representa una aproximación basada en la apariencia . . 19 2.3. Ejemplo de una aproximación basada en caracterı́sticas . . . . . . . . 19 2.4. La información discriminante no está relacionada con la magnitud de los valores propios de la matriz Sm . En (a) los datos tienen una gran varianza sobre el eje Z . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.5. Algunas imágenes recortadas y redimensionadas, después de la detección: (a) Base de datos UCN, (b) Base de datos PAL y (c) base de datos Color FERET. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.6. La figura muestra imágenes de la base de datos UCN: La primera fila muestra las imágenes originales recortadas desde el detector de caras [VJ04] y la segunda fila muestra las imágenes ecualizadas y con la máscara ovalada que ayuda a eliminar el fondo. . . . . . . . . . . . 33 2.7. Los experimentos basados en LDA utilizan un clasificador Bayesiano. xiii. 34.

(16) 2.8. Pruebas sobre un clasificador SVM+RBF utilizando diferentes parámetros C y γ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.9. Coordenadas de ojos manualmente etiquetados utilizando FERET, Face Recognition Technology, fa y OpenCV . . . . . . . . . . . . . . . 36 2.10. Rendimiento de la clasificación a medida que el subespacio intermedio PCA incrementa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.11. Rendimiento de la clasificación (variable Rj en el Algoritmo 2.3) a medida que el subespacio intermedio ICA incrementa para ICA+LDA. 40 2.12. Comparación entre PCA+LDA y ICA+LDA utilizando las bases de datos FERET (a) y UCN (b). . . . . . . . . . . . . . . . . . . . . . . . . 42 2.13. Sensiblidad de los clasificadores para giros de la cara fuera del plano de rotación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.14. Los histogramas muestran la frecuencia de los valores proyectados de las imágenes de pruebas dentro del subespacio PCA+LDA calculadas desde el conjunto de imágenes de entrenamiento . . . . . . . . . . . . 46 2.15. Reconstrucción de la imagen de una cara a partir de su proyección LDA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.16. Algunos ejemplos de imágenes clasificadas erróneamente cuando se entrena con FERET y se prueba con las imágenes de PAL, (Productive Aging Lab Face) [MP04] . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.1. Imágenes que muestran el cambio en la apariencia de la edad cuando se utilizan drogas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.2. AAM aplicados a dos distintos planos de rotación [Mar08]. En ambas figuras se puede observar que el modelo de textura (Texture Model ) muestra una cara alineada a una pose canónica a pesar de los cambios de orientación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.3. Comparación de distancias euclı́deas entre diferentes individuos y edades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.4. Estimación de la edad por medio de un regresor K-NN . . . . . . . . 64 xiv.

(17) 3.5. Curvas de valores de porcentajes acumulados para experimentos sobre FG-NET, Face and Gesture Recognition Research Network, base de datos de imágenes de 1002 individuos con un promedio de 12 imágenes de diferentes edades por cada uno utilizando validación cruzada con imágenes de 25 × 25 pixeles de tamaño . . . . . . . . . . . . . . . . . 68 3.6. Curvas de valores de porcentajes acumulados para experimentos de cruce de base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . 71. 4.1. Powerset de Atributos es una extensión a la aproximación multilabel LP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.2. Experimentos previos que demuestran la dependencia del género y la edad dada la apariencia . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.3. Distribución de probabilidades de la apariencia dada la edad y el género sobre la base de datos GROUPS [GC09] . . . . . . . . . . . . 83 4.4. Ejemplo de imágenes capturadas desde PAL, GROUPS y LFW . . . . . . 84 4.5. Imagen canónica de 60 × 60 pixeles con la posición de todos los pares de ojos(Pl e, Pr e) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.6. Los clusters muestran las posiciones de los ojos dentro de una ventana canónica de detección de caras . . . . . . . . . . . . . . . . . . . . . . 87 4.7. Ejemplos de caras de la base de datos Multi-PIE después de la detección 94. A.1. Selección de imágenes obtenidas desde la base de datos Gray FERET. . 106 A.2. Selección de imágenes obtenidas desde la base de datos color FERET gallerı́a f a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 A.3. Imágenes obtenidas desde la base de datos color PAL con diferentes expresiones faciales, poses, etnias y género. . . . . . . . . . . . . . . . 108 A.4. La imagen muestra la posición de cada una de las cámaras. (Fuente: http://www.multipie.org/) . . . . . . . . . . . . . . . . . . . . . . 109 xv.

(18) A.5. Las imágenes muestran las vistas obtenidas de las 15 cámaras capturas con iluminación frontal. (Fuente: http://www.multipie.org/) . . 109 A.6. Imágenes obtenidas de la base de datos UCN. . . . . . . . . . . . . . . 110 A.7. Imágenes obtenidas de la base de datos MORPH-II. . . . . . . . . . . . 111 A.8. Imágenes obtenidas desde la base de datos FG-NET. Las imágenes son capturadas en diferentes condiciones ambientales y de adquisición. Por cada individuo se almacenan un grupo de imágenes de diferentes edades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 A.9. Imágenes obtenidas desde la base de datos color GROUPS. Las imágenes muestran que las condiciones de adquisición son diferentes para cada imagen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 A.10.Imágenes obtenidas desde la base de datos LFW. Las imágenes corresponden a diferentes personajes públicos obtenidos desde la Web. . . . 113 B.1. Representación gráfica de los nuevos ejes generados por PCA e ICA. (Fuente: http://meg.aalip.jp/ICA/) . . . . . . . . . . . . . . . . . 117 B.2. Ejemplos de diferentes filtros de Gabor aplicados a tres tipos de imágenes diferentes. (Fuente: http://scikit-image.org/docs/dev/ auto_examples/plot_gabor.html#example-plot-gabor-py) . . . . 119 B.3. Haar Wavelet: a) Representa la función Haar Wavelet b) Representa tres tipos de Haar wavelets no estándares: vertical, horizontal y diagonal [PP00]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 B.4. Cálculo del descriptor Locally Binary Patterns, LBP en la versión propuesta en [OPH96]. . . . . . . . . . . . . . . . . . . . . . . . . . . 121 B.5. Cálculo del descriptor LBP [MRH07]. . . . . . . . . . . . . . . . . . . 122 B.6. Diagrama que muestra como se obtiene un descriptor SIFT . . . . . . 123 B.7. Diagrama de bloque que muestra como calcular un descriptor basado en Histogram of Oriented Gradients, HoG [KKN12]. . . . . . . . . . . 124. xvi.

(19) Índice de tablas 2.1. Tasas de acierto para el conjunto de imágenes seleccionadas por Mäkinen y Raisamo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.2. Tasas de acierto y desviación estándar sobre una única base de datos para entrenamiento y pruebas utilizando validación cruzada 5-fold . . 44 2.3. Tasas de clasificación para experimentos con cruce de base de datos . 47. 3.1. Grupos discretos para entrenamiendo del subespacio PCA+LDA para las bases de datos FG-NET y PAL. . . . . . . . . . . . . . . . . . . . 67 3.2. Grupos y rangos de edad etiquetadas en la base de datos GROUPS. . 68 3.3. Se comparan los resultados de edad sobre FG-NET utilizando validación cruzada Leave-One-Person-Out: Técnica de validación cruzada que realiza una prueba por cada sujeto (persona) que existe en la base de datos para luego calcular una estimación global del clasificador. Para cada prueba se seleccionan todas las observaciones (imágenes) de un individuo como conjunto de pruebas y el resto de los individuos son utilizados para el entrenamiento del estimador . . . . . . . . . . . 69 3.4. MAE sobre cada rango de edad para experimentos realizados en cruce de base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70. 4.1. Dependencia entre género y edad . . . . . . . . . . . . . . . . . . . . 82 4.2. Número de imágenes por género y grupos de pose . . . . . . . . . . . 86 4.3. Dependencia entre el género y la pose . . . . . . . . . . . . . . . . . . 88 xvii.

(20) 4.4. Tasa de acierto para de los AP de Género × Edad para el experimento GROUPS/PAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.5. Tasa de acierto de los AP para Género×Pose con validación cruzada 5-fold y base de datos GROUPS . . . . . . . . . . . . . . . . . . . . . . 92 4.6. Experimentos de cruce de bases de datos sobre género y pose, entrenado sobre GROUPS y probado sobre LFW . . . . . . . . . . . . . . . . 92 4.7. Tasa de acierto para género utilizando validación cruzada 5-fold en experimentos sobre GROUPS sin niños con imágenes detectadas sin alinear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.8. Experimentos para género y pose 3D. La primera fila muestra los resultados para un clasificador de género y la segunda fila despliega los resultados para un clasificador AP que considera los atributos Género × 3D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95. xviii.

(21) Lista de algoritmos 2.1. Entrenamiento utilizado para seleccionar el mejor parámetro d para el clasificador basado en PCA+LDA. . . . . . . . . . . . . . . . . . 2.2. Entrenamiento utilizado para seleccionar el mejor parámetro d para el clasificador basado en PCA-M+LDA. . . . . . . . . . . . . . . . . 2.3. Entrenamiento utilizado para seleccionar el mejor parámetro d para el clasificador basado en ICA+LDA. . . . . . . . . . . . . . . . . . . 3.1. Entrenamiento utilizado para seleccionar el mejor parámetro d y k para el regresor de edad basado en PCA+LDA. . . . . . . . . . . .. xix. . 26 . 29 . 31 . 65.

(22)

(23) Resumen Sin duda, el rostro humano ofrece mucha más información de la que pensamos. La cara transmite sin nuestro consentimiento señales no verbales, a partir de las interacciones faciales, que dejan al descubierto nuestro estado afectivo, actividad cognitiva, personalidad y enfermedades. Estudios recientes [OFT14, TODMS15] demuestran que muchas de nuestras decisiones sociales e interpersonales derivan de un previo análisis facial de la cara que nos permite establecer si esa persona es confiable, trabajadora, inteligente, etc. Esta interpretación, propensa a errores, deriva de la capacidad innata de los seres humanas de encontrar estas señales e interpretarlas. Esta capacidad es motivo de estudio, con un especial interés en desarrollar métodos que tengan la habilidad de calcular de manera automática estas señales o atributos asociados a la cara. Ası́, el interés por la estimación de atributos faciales ha crecido rápidamente en los últimos años por las diversas aplicaciones en que estos métodos pueden ser utilizados: marketing dirigido, sistemas de seguridad, interacción hombre-máquina, etc. Sin embargo, éstos están lejos de ser perfectos y robustos en cualquier dominio de problemas. La principal dificultad encontrada es causada por la alta variabilidad intra-clase debida a los cambios en la condición de la imagen: cambios de iluminación, oclusiones, expresiones faciales, edad, género, etnia, etc.; encontradas frecuentemente en imágenes adquiridas en entornos no controlados. Este de trabajo de investigación estudia técnicas de análisis de imágenes para estimar atributos faciales como el género, la edad y la postura, empleando métodos lineales y explotando las dependencias estadı́sticas entre estos atributos. Adicionalmente, nuestra propuesta se centrará en la construcción de estimadores que tengan una fuerte relación entre rendimiento y coste computacional. Con respecto a éste último punto, estudiamos un conjunto de estrategias para la clasificación de género y las comparamos con una propuesta basada en un clasificador Bayesiano y una adecuada extracción de caracterı́sticas. Analizamos en profundidad el motivo de porqué las técnicas lineales no han logrado resultados competitivos hasta la fecha y xxi.

(24) mostramos cómo obtener rendimientos similares a las mejores técnicas no-lineales. Se propone un segundo algoritmo para la estimación de edad, basado en un regresor K-NN y una adecuada selección de caracterı́sticas tal como se propuso para la clasificación de género. A partir de los experimentos desarrollados, observamos que el rendimiento de los clasificadores se reduce significativamente si los éstos han sido entrenados y probados sobre diferentes bases de datos. Hemos encontrado que una de las causas es la existencia de dependencias entre atributos faciales que no han sido consideradas en la construcción de los clasificadores. Nuestro resultados demuestran que la variabilidad intra-clase puede ser reducida cuando se consideran las dependencias estadı́sticas entre los atributos faciales de el género, la edad y la pose; mejorando el rendimiento de nuestros clasificadores de atributos faciales con un coste computacional pequeño.. xxii.

(25) Abstract Surely the human face provides much more information than we think. The face provides without our consent nonverbal cues from facial interactions that reveal our emotional state, cognitive activity, personality and disease. Recent studies [OFT14, TODMS15] show that many of our social and interpersonal decisions derive from a previous facial analysis that allows us to establish whether that person is trustworthy, hardworking, intelligent, etc. This error-prone interpretation derives from the innate ability of human beings to find and interpret these signals. This capability is being studied, with a special interest in developing methods that have the ability to automatically calculate these signs or attributes associated with the face. Thus, the interest in the estimation of facial attributes has grown rapidly in recent years by the various applications in which these methods can be used: targeted marketing, security systems, human-computer interaction, etc. However, these are far from being perfect and robust in any domain of problems. The main difficulty encountered is caused by the high intra-class variability due to changes in the condition of the image: lighting changes, occlusions, facial expressions, age, gender, ethnicity, etc.; often found in images acquired in uncontrolled environments. This research work studies image analysis techniques to estimate facial attributes such as gender, age and pose, using linear methods, and exploiting the statistical dependencies between these attributes. In addition, our proposal will focus on the construction of classifiers that have a good balance between performance and computational cost. We studied a set of strategies for gender classification and we compare them with a proposal based on a Bayesian classifier and a suitable feature extraction based on Linear Discriminant Analysis. We study in depth why linear techniques have failed to provide competitive results to date and show how to obtain similar performances to the best non-linear techniques. A second algorithm is proposed for estimating age, which is based on a K-NN regressor and proper selection of features such as those proposed for the classification of gender. From our experiments we xxiii.

(26) note that performance estimates are significantly reduced if they have been trained and tested on different databases. We have found that one of the causes is the existence of dependencies between facial features that have not been considered in the construction of classifiers. Our results demonstrate that intra-class variability can be reduced when considering the statistical dependencies between facial attributes gender, age and pose, thus improving the performance of our classifiers with a reduced computational cost.. xxiv.

(27) Glosario C Número de clases. D Número de total de dimensiones. K Número de instancias cercanas a otra utilizada como referencia. N Número de instancias de la muestra. P Número total de pı́xeles de una imagen. R Tasa de acierto del clasificador. Ī Imagen media. T Conjunto de N atributos faciales. f Función matemática. h Clasificador representado como una función. D Matriz diagonal. M Matriz de métrica aprendida. PP CA Matriz base PCA donde los vectores propio se encuentran ordenados en orden decreciente con respecto a sus valores propios. SB Matriz de dispersión entre-clase. SW Matriz de dispersión intra-clase. Sm Matriz de dispersión total (SB +SW ). W Matriz de proyección (Matriz cuyas columnas son vectores propios). X Matriz formada por vectores columnas. xxv.

(28) Cx Producto Cartesiano de todos los conjuntos de valores Vi . L Vector de etiquetas, o valores clase, asociado a cada una de las instancias de entrada. Vi Vector con los posibles valores del atributo facial Vi . x Entrada. xi Entrada i-ésima del conjunto representado por x. z Entrada x proyecta sobre un nuevo subespacio. zi Entrada i-ésima del conjunto representado por z. {xi }N i=1 Conjunto de x con ı́ndice i. d Número de entradas (dimensionalidad de entrada). yi Salida o etiqueta asociada al vector de entrada xi . FastICA Es un popular algoritmo para Análisis de Componentes Independientes desarrollado por Aapo Hyvärinen de la Universidad Politécnica de Helsinki. (Implementación de FastICA para Matlab: http://research.ics.aalto.fi/ ica/fastica/). ICA+LDA Subespacio transformado LDA que utiliza como entrada de datos el subespacio ICA obtenido del conjunto original de datos. ICA Análisis de Componente Independiente (Independent Component Analysis, en inglés). LDA Análisis de discriminante lineal o análisis de discriminante de Fisher (Linear Discriminant Analysis, en inglés). PCA+LDA Subespacio transformado LDA que utiliza como entrada de datos el subespacio P CA obtenido del conjunto original de datos. PCA-M+LDA Subespacio transformado LDA que utiliza como entrada de datos el subespacio P CA obtenido del conjunto original de datos y cuyos vectores propios son ordenados en importancia según el criterio de Zhu y Martı́nez [ZM06a]. PCA Análisis de Componentes Principales (Principal Component Analysis, en inglés). AP Powerset de Atributos (Attributes Powerset), adaptación del método Label Powerset para el problema de atributos faciales (Capı́tulo 4). xxvi.

(29) LP Label Powerset, método de clasificación multi-label que transforma un problema de múltiples etiquetas en un problema multi-clase [TK07, AC09, TKV10]. AAM Modelos de Apariencia Activa (Active Appearance Models) [CET01]. BIF Caracterı́sticas de inspiración biológica (Bio-inspired Features, BIF) [GMFH09]. DCT Transformada discreta del coseno (Discrete Cosine Transform). FERET Base de datos de imágenes de caras con etiquetas de edad y raza principalmente. (Face Recognition Technology). FG-NET Base de datos de imágenes de caras con etiquetas de edad, género, entre otras. (Face and Gesture Recognition Research Network (FG-NET ) Aging Database). fold Término utilizado cuando se realiza validación cruzada de datos K-fold (K-fold cross-validation). Donde el conjunto de entrenamiento inicial se divide en K folds o K subconjunto de datos. Para cada subconjunto individual de datos se genera otro con el resto de los subconjuntos K − 1, el primero se utiliza como datos de prueba y el resto como datos de entrenamiento. Para cada par de subconjuntos se construye su modelo de predicción y se evalúa su rendimiento por medio de métricas. Finalmente, se hace una evaluación global de todos los resultados. GMM Modelo de mezcla de gaussianas (Gaussian Mixture Model ). GROUPS Base de datos de imágenes de caras con etiquetas de género y grupos de edad [GC09]. HoG Histograma de gradientes orientados (Histogram of Oriented Gradients). K-NN K vecinos más cercanos (K-Nearest Neighbor ), es un clasificador que utiliza un método de aprendizaje supervisado. LBP Patrones binarios locales (Locally Binary Patterns) [OPM02, OPH96]. LFW Labeled faces in the wild, es una base de datos utilizada para el estudio del reconocimiento de caras en condiciones no controladas [HRBLM07]. xxvii.

(30) LOPO Leave-One-Person-Out. Técnica de validación cruzada que realiza una prueba por cada sujeto (persona) que existe en la base de datos para luego calcular una estimación global del clasificador. Para cada prueba se seleccionan todas las observaciones (imágenes) de un individuo como conjunto de pruebas y el resto de los individuos son utilizados para el entrenamiento del estimador. MAE Error Absoluto Medio (Mean Absolute Error ). Multi-PIE CMU Multi-PIE, base de datos que contiene imágenes de caras adquiridas con diferentes condiciones de iluminación y orientacién de la cara sobre 337 individuos [GMC+ 10].. OpenCV Librerı́a libre para visión por computador. http://opencv.org/ . PAL Base de datos de imágenes de caras con etiquetas de edad, género y raza. Productive Aging Lab Face [MP04]. RBF Función de kernel de base radial (Radial Basis Function Kernel ). RPK Regression from Patch Kernel [YZL+ 08]. SVM Máquina de soporte vectorial (Support Vector Machine) [CV95]. SVM+RBF Máquina de soporte vectorial (Support Vector Machine) que utiliza una función de kernel de base radial (Radial Basis Function Kernel ) para la clasificación no lineal de datos. UCN Base de datos privada de imágenes de caras de propiedad de la Universidad Católica del Norte. Antogasta, Chile.. xxviii.

(31) Parte I Introducción. 1.

(32)

(33) Capı́tulo 1 Introducción y objetivos Si las puertas de la percepción se depurasen, todo aparecerı́a a los hombres como realmente es: infinito. Pues el hombre se ha encerrado en sı́ mismo hasta ver todas las cosas a través de las estrechas rendijas de su caverna. William Blake. RESUMEN: Una de las primeras habilidades que rápidamente aprendemos los seres humanos es la de reconocer los objetos que nos rodean. Desde que nacemos contamos con la capacidad para clasificar caras fácilmente y de manera robusta. Nuestra destreza para reconocer atributos faciales, como la edad y el género, en una persona particular es destacable. Ası́ mismo, existe un especial interés en estudiar métodos eficientes que logren automatizar estas capacidades y cuyas soluciones han surgido desde el área de la visión por computador, que es el propósito de esta tesis. El presente capı́tulo detalla el tema del trabajo de investigación.. 3.

(34) 4. Introducción y objetivos. C. onstruir máquinas inteligentes siempre ha sido un anhelo de soñadores, visionarios y cientı́ficos. El gran desafı́o consiste en construir máquinas que por una parte realicen las tareas repetitivas o peligrosas que nosotros no deseamos realizar y, por otra, que sean capaces de interactuar con nosotros tal como lo hacemos los seres humanos a diario. Es evidente que se han realizado importantes avances en este ámbito, sin embargo, falta un enorme camino por recorrer. Hoy en dı́a, la comunidad cientı́fica se ha concentrado en explotar distintos dominios del conocimiento para dar solución a tal iniciativa. Los aportes son diversos y vienen de diferentes áreas de especialización como la mecánica, la electrónica, la informática, etc. Dentro del área de la informática la inteligencia artificial cumple la labor de dotar de “inteligencia” a estas máquinas. La inteligencia artificial, al igual que cualquier rama del conocimiento, se especializa en diferentes áreas. Una de ellas es la percepción, la cual provee de información del mundo a las máquinas, o agentes, a través de la interpretación de los datos obtenidos por medio de sensores utilizados para este propósito. Los sensores simulan los cinco sentidos del ser humano: el tacto, la audición, el olfato, el gusto o la visión [RN09]. En el caso particular de la visión, visión por computador (en lengua española), el objetivo de ésta es poder entender el mundo que nos rodea por medio de imágenes. Los datos obtenidos a partir de las imágenes son excepcionalmente abundantes en comparación con otro tipo de sensores puesto que las imágenes contienen una gran cantidad implı́cita de elementos útiles [RN09] (texturas, aspectos geométricos, iluminación, color, profundidad, entre otros). Por ejemplo, una cámara web de vı́deo estándar puede capturar imágenes de 1920 × 1080 pixels a 30 frames por segundo. Si solo consideramos una imagen en escala de grises tenemos aproximadamente 1.9 Megabytes de datos por cada 0.033 segundos de vı́deo. El problema que busca resolver la visión por computador es transformar la gran cantidad de datos redundantes a un conjunto reducido de información útil. Según Russell y Norvig [RN09] el problema de visión por computador puede ser resuelto por medio de tres métodos: 1) extracción de caracterı́sticas: Técnica en la que a través de cálculos simples aplicados directamente sobre la imagen se obtiene un representación reducida de ésta, en general, su representación viene dada por un vector de caracterı́sticas compacto; 2) reconocimiento de objetos: Establece distinciones entre un conjunto de objetos, utilizando información visual u otra. En ese sentido, el reconocimiento puede ser utilizado para etiquetar imágenes, indicando si éstas poseen una cualidad particular o no; y 3) reconstrucción: A partir de una imagen o un conjunto de ellas se construye un modelo geométrico del mundo. Ver Figura 1.1..

(35) 1.1 Motivación de la tesis. 5. (a) Extracción de caracterı́sticas.. (b) Reconocimiento de objetos.. (c) Reconstrucción.. Figura 1.1: Tres métodos de la visión por computador. (Fuente: (a)SIFT aplicado a un individuo de la base de datos Multi-pie [GMC+ 10], (b)http://homes.cs.washington.edu/~bcr/ y (c)http://www.cs.cmu.edu/~hyunsoop/trajectory_reconstruction.html). 1.1.. Motivación de la tesis. Una de las primeras habilidades que rápidamente aprendemos los seres humanos es la de reconocer los objetos que nos rodean. Desde que nacemos, desarrollamos en pocos meses las habilidades necesarias para diferenciar cuales son aquellos objetos o formas que nos gustan e incluso advertimos aquéllos que pueden ser dañinos o perjudiciales. Desde el punto de vista afectivo, aprendemos a reconocer a las personas que nos dan confianza y rechazamos a las que no [EHSH93]. Al pasar los años, estas habilidades aumentan y se especializan cada vez más, lo que permite mejorar el entendimiento de los objetos, y su relación con el mundo. Dentro de las nuevas habilidades destaca la capacidad para reconocer individuos distintos, independiente de: sus cambios de apariencia generados por la edad, de oclusiones, del uso de accesorios, de enfermedades, etc. Para lograr este fin, sin duda el sentido más utilizado es el de la vista, en complemento con los otros sentidos. El ser humano utiliza toda la información que tiene disponible dentro del contexto de la observación, tal como la cara de la persona, la forma de moverse o la apariencia de todo el cuerpo.

(36) 6. Introducción y objetivos. para poder descubrir los atributos adecuados y determinar cualidades interesantes que logren deducir información sobre nosotros mismos [NTG12]. Los atributos en sı́ mismos, nos permiten caracterizar a una persona dentro de un contexto. En el caso demográfico podemos determinar el género o la edad de una persona. También estos atributos nos pueden servir para cualificar a las personas, determinando su identidad [KBBN09], o pueden ser usados para establecer contextos sociales que ayudan a complementar el desarrollo de otras tareas de predicción [GC09] o incluso para inferir nuevos patrones a través de atributos relacionados con su comportamiento psicológico [DGSA+ 10]. Algunos expertos [KCF14, EHSH93] señalan que esta habilidad nos permite conocer y entender nuestro entorno social por medio de atributos obtenidos directamente de la cara. Esta capacidad humana ha sido motivo de estudio con un especial interés en desarrollar métodos que tengan la habilidad de calcular de manera automática estos atributos y que no requieran la intervención humana o la ayuda del sujeto estudiado en cuestión [NTG12]. En los últimos años, se ha investigado mucho el problema de la percepción del rostro humano. Los atributos faciales, permiten transmitir una significativa cantidad de información y relacionan datos visuales relevantes para la estimación de la edad, la expresión facial, el género y origen étnico. Desempeñando un papel importante en el análisis automático de la cara. Sin embargo, los sistemas automáticos están lejos de contar con esta habilidad humana de funcionar correctamente en condiciones no controladas o de la vida diaria. Esto se debe principalmente a dos factores: 1) condiciones de captura que pueden afectar seriamente la estimación debido a factores ambientales, tales como, la iluminación, resolución de las imágenes, calidad de la cámara digital, oclusiones, etc; y 2) variabilidad inherente del rostro humano que considera los cambios dados por la expresión facial, pose, género, edad, etnia, entre otros factores. En la Figura 1.2, se muestra un conjunto de imágenes asociadas a una misma persona. En éstas se pueden ver distintos cambios de iluminación, pose, complexión de la cara, etc. Estas transformaciones en la apariencia de la cara, incluso, pueden confundir al ojo humano más experimentado cuando se trata de indentificar personas o estimar atributos, tales como, el género y la edad. Aún, cuando se trate de la misma persona. Las tecnologı́as aplicadas en la estimación de atributos faciales no dejan indiferentes a muchos empresarios que ven valor en su uso cotidiano. En un futuro no muy lejano, nuestro cuerpo, y en especial nuestra cara, nos ayudará a crear sistemas que se adaptarán a nuestras necesidades, dependiendo del análisis realizado a nuestros rostros de manera automática. Los profesores Brian Manneckea y Anicia Peters [MP13, HMP14], de la Universidad Estatal de Iowa, observan que las últimas.

(37) 1.1 Motivación de la tesis. 7. Figura 1.2: Diferentes apariencias de la cara de una misma persona. (Fuente: http://zombietime.com/really_truly_hillary_gallery/). tendencias en publicidad y medios de comunicación social unidas a las tecnologı́as de reconocimiento facial y corporal permitirán crear perfiles diferenciados, dependiendo de los tipos de atributos estimados. Ellos hablan de un nuevo tipo de avatar asociado a operaciones de marketing, denominados “mavatars” [MP13] y que pueden ser utilizados para la comercialización de productos y para el soporte de un sin número de nuevas aplicaciones, ver Figura 1.3.. 1.1.1.. Aplicaciones y sistemas automáticos de análisis facial. Dada la significativa expansión de las tecnologı́as y aplicaciones de análisis facial es importante delimitar y regular el uso de éstas en la vida diaria. En las publicaciones de [MP13, HMP14] se revisan las futuras implicancias del uso de estas tecnologı́as y se hace una separación entre aquéllas que utilizaremos de forma voluntaria, de otras que no. Además, de la forma como serán empleadas y distribuidas en caso de que las aplicaciones lo requieran. Esto, sin duda, cambiará la manera de comunicarnos no sólo en en el futuro, sino también en el presente inmediato. Entre las aplicaciones estudiadas, podemos listar las siguientes:.

(38) 8. Introducción y objetivos. Figura 1.3: Ejemplo simplificado de un sistema de análisis facial aplicado. Por ejemplo, en la industria de la publicidad dirigida. Biometrı́a y Vigilancia La biometrı́a es el conjunto de técnicas que nos permite reconocer personas, a través de rasgos conductuales o fı́sicos. En la actualidad, se está utilizando el término de rasgos biométricos blandos (softbiometric) [RSC+ 13] para mejorar el rendimiento de los sistemas biométricos tradicionales que sirvan para identificación de personas por medio de la descripción de atributos humanos. Los rasgos biométricos blandos incluyen caracterı́sticas, tales como, la altura, el peso, la geometrı́a del cuerpo, cicatrices, marcas y tatuajes, el género, la edad, la etnia, etc. [RSC+ 13][DGSA+ 10] Indexación y búsqueda de contenidos Desde el punto de vista de la seguridad, la estimación de atributos faciales permite buscar sujetos que cumplan ciertas caracterı́sticas fı́sicas generales para lograr ası́ un análisis más especı́fico. Estas técnicas permiten mejorar el rendimiento de sistemas de identificación o verificación de personas para dirigir la búsqueda sobre grupos de personas [NEC]. La principal idea es generar de manera automática los metadatos [Lew06, EG99] de una imagen, para poder realizar la búsqueda y/o indexación. A manera de ejemplo, Facebook utiliza esta tecnologı́a para que los usuarios puedan relacionar sus fotografı́as con los perfiles de otros usuarios. Ver Figura 1.4. Estudios demográficos Diferentes actores tanto polı́ticos como empresariales suelen combinar varias variables para definir un perfil demográfico. Un perfil demográfico, a menudo llamado “grupo demográfico”, proporciona suficiente información tı́pica para crear una imagen mental asociada a ese grupo [Wik14]. Por ejemplo, podemos asociar ciertos atributos como: hombre, clase media de 18 a 24 años a un buen comprador de vı́deo juegos o a un futuro estudiante universitario con pertenencia a una idea polı́tica, lo que se puede traducir en el futuro próximo como un potencial voto. Existen aplicaciones o sistemas que hacen esos tipos de estudios [Klo08, JH04, MR08b]..

(39) 1.1 Motivación de la tesis. 9. Figura 1.4: Caricatura de futuros usos de indexación y búsqueda de contenidos por medio de análisis facial. (Fuente: http://blogs-images.forbes.com/ kashmirhill/files/2011/10/Dating-in-the-Internet-age.png) Publicidad dirigida Una de las principales aplicaciones utilizada, a partir del análisis facial, es poder identificar los atributos necesarios para ofrecer productos o servicios ajustados al gusto de los usuarios [Sof, Qui, Tru, Mic, imr, HMP14]. Existen novedosas aplicaciones que utilizan los patrones demográficos y de conducta para mejorar el servicio de sus ofertas. La empresa Redpepper ad ha creado una aplicación llamada FaceDeals que ofrece cupones personalizados de compra, usando reconocimiento facial [ad]. SceneTap es una aplicación para teléfono móvil que permite explorar un bar con una cámara de vı́deo. Esta información es procesada para estimar atributos demográficos como: el género, la edad y la cantidad de personas detectadas en el bar. Luego, esta información es trasmitida a otros usuarios que quieran conocer el porcentaje de hombres y mujeres, su edad promedio y disponibilidad que existe en los bares de Chicago inscritos en el sistema [Sin11, Sce]. También existen máquinas que son capaces de distinguir la edad de un individuo y que suministran ciertos bocadillos gratis (Jello Temptations) sólo a adultos [Tre11] o máquinas suministradoras de bebidas que guı́an nuestra compra al estimar nuestros atributos faciales y asociarnos a un perfil demográfico [Sav10, ax314]. De todo esto se desprende que existe un mercado de explotación en expansión, donde nuevos productos, asociados al análisis facial, y de atributos faciales, serán.

(40) 10. Introducción y objetivos. desarrollados en el corto y mediano plazo lo que comprometerá un importante esfuerzo de nuevas investigaciones e innovaciones para crear productos robustos para su uso en la vida diaria. Actualmente, existen numerosas iniciativas dirigidas en ese sentido, como es el caso de [Mas13] donde podemos encontrar un extenso listado de plataformas, servicios y librerı́as para el desarrollo de aplicaciones de análisis facial que utilizan una variedad de técnicas de imágenes 2D, 3D o ambas. Dentro de estas aplicaciones se pueden encontrar algunas bastante básicas y otras para uso comercial. Cada una de ellas con sus ventajas o desventajas asociadas. Entre los sistemas ofrecidos (API) más destacados para la extracción de atributos faciales destacan Skybiometry [Sky] y Face++ [Fac].. 1.2.. Problema a resolver. El trabajo de esta tesis se concentra en analizar automáticamente el rostro humano en imágenes y descubrir atributos faciales, utilizando la apariencia completa de la cara. Existen numerosos atributos faciales interesantes que pueden obtenerse a partir de una inspección visual de la cara como el bigote, perilla, flequillo, boca (abierta, cerrada), forma de las cejas, tatuajes, pelo, expresión facial, etc. Pondremos especial atención en un subconjunto de atributos faciales que nosotros denominamos atributos faciales demográficos y que se refieren a aquellos atributos considerados, generalmente, en los estudios de tipo demográfico. Los atributos seleccionados para este estudio son el género, la edad y la orientación de la cara. Nuestro interés se concentra en diseñar y/o mejorar los modelos matemáticos que puedan predecir atributos faciales, bajo los siguientes requerimientos:. Altas tasas de acierto de los clasificadores. Clasificadores extremadamente rápidos y que funcionen en tiempo real en dispositivos de bajo coste computacional. (20/30 imágenes por segundo) Que funcionen correctamente en unas condiciones realistas de operación.. 1.3.. Hipótesis de trabajo. H1 Convenientemente entrenados, los métodos lineales proporcionan un compromiso excelente entre rendimiento y coste computacional para construir un buen.

(41) 1.4 Objetivos de la tesis. 11. clasificador de atributos faciales demográficos (género, edad, y etnia). H2 Existen dependencias entre los diferentes atributos faciales demográficos que cuando se tienen en cuenta influyen positivamente en las tasas de acierto de los estimadores.. 1.4.. Objetivos de la tesis. El objetivo general de la tesis, sobre la base de las hipótesis de trabajo planteadas, es desarrollar técnicas de análisis de imágenes para estimar atributos faciales como el género, la edad y la orientación de la cara, empleando métodos lineales, y explotando las dependencias estadı́sticas entre estos atributos. Los objetivos especı́ficos son:. Construir modelos de predicción de atributos faciales simples y de fácil cómputo. Construir modelos de predicción robustos, a cambios de iluminación, pose y condiciones de adquisición. Mejorar la predicción explotando las relaciones estadı́sticas entre las variables a predecir.. 1.5.. Contribución y estructura de la tesis. En el presente trabajo, exploraremos y probaremos diferentes técnicas de análisis del rostro con un especial énfasis en el uso de modelos de predicción lineal sobre atributos faciales, tales como el género, la edad y la raza. Para lograr este propósito la tesis ha sido dividida en seis capı́tulos. El Cápitulo I introduce al lector en el problema de visión por computador que se desea resolver. Además de motivar a valorar la importancia de la investigación desarrollada desde el punto de vista teórico y tecnológico. Al mismo tiempo, define los requisitos de la solución, hipótesis de trabajo y objetivos propuestos. En el Capı́tulo II se estudian modelos lineales y no lineales para establecer el estado del.

(42) 12. Introducción y objetivos. arte en estimación de género. Adicionalmente, se analiza en detalle la estimación del género en imágenes de caras y se propone una mejora al entrenamiento de modelos lineales sobre género, con resultados similares a los presentados en el estado del arte en términos de tasa de acierto. El Capı́tulo III se analiza el problema de estimación de la edad y se propone el estado del arte para éste. Al igual que el Capı́tulo II, se utilizan modelos lineales para construir el vector de caracterı́sticas y se propone un regresor no-lineal basado en K-NN . En el Capı́tulo IV, se estudia las dependencias entre las variables clase género, edad y pose, utilizando una aproximación similar a las usadas en la clasificación multi-label, confirmando una mejora en el rendimiento y robustez de la estimación en género. Finalmente, el Capı́tulo V, se exponen las conclusiones generales de la tesis, ası́ como también, las lı́neas de investigación abiertas y de trabajo a futuro que se generaron a partir de este tema de tesis..

(43) Parte II Predicción de Atributos Faciales. 13.

(44)

(45) Capı́tulo 2 Clasificador Unidimensional de Atributos Faciales Demográficos La cara es el espejo del alma, y los ojos son sus intérpretes. Marco Tulio Cicerón. RESUMEN: El aumento de aplicaciones de visión por computador y reconocimiento de patrones en dispositivos móviles requieren del desarrollo de algoritmos que funcionen sobre recursos computacionales limitados. Las técnicas de clasificación lineal tienen un importante papel que jugar en este contexto, debido a su simplicidad y bajos requerimientos computacionales. El presente capı́tulo revisa el estado del arte en clasificación de género, prestando especial atención en las técnicas lineales. Además, se analiza el motivo de porqué las técnicas lineales no han logrado resultados competitivos en el pasado y mostramos cómo obtener rendimientos similares a los encontrados en el estado del arte previos a la publicación de nuestros resultados. Adicionalmente, efectuamos experimentos cruzando bases de datos y probamos que aquéllos efectuados sobre una sola base de datos están sesgados de manera optimista. De los experimentos de este capı́tulo se desprende que, si contamos con un número suficiente de datos y recursos computacionales, los clasificadores de género implementados con Máquinas de Soporte Vectorial son superiores al resto. Cuando los recursos computacionales son escasos pero hay suficientes datos, las aproximaciones de boosting y lineales son las adecuadas. Finalmente, si los datos de entrenamiento y recursos computacionales son muy escasos, entonces las aproximaciones lineales son la mejor opción.. 15.

(46) 16. Clasificador Unidimensional de Atributos Faciales Demográficos. L. a facilidad con que nosotros reconocemos una cara, su expresión facial, el género, la raza y la edad, a la que pertenecen, oculta el proceso increı́blemente complejo que subyace detrás de estos actos de reconocimiento de patrones. Para nosotros, un patrón, en contraposición al caos, es una entidad, vagamente definida, a la que se le puede asignar un nombre [Wat85]. Entonces, dado un patrón, podemos reconocer y clasificar éste a través de las siguientes tareas de aprendizaje [JDM00, KR07]: 1) clasificación supervisada en la cual el patrón de entrada es identificado como un miembro de una clase predefinida, 2) clasificación no supervisada (clustering) donde el patrón se le asigna una clase hasta ese momento desconocida, y que tiene que ver con la semejanza que tienen estos. El trabajo desarrollado en este capı́tulo se orienta a la clasificación supervisada donde el patrón de entrada es un vector de caracterı́sticas obtenido a partir de una imagen de intensidades de la cara y su clase es una variable de tipo cualitativa (categórica o discreta) [HTF09] [Blu11]. En nuestro caso, y a modo de ejemplo, cada variable clase representa un atributo facial demográfico como el género, la raza y la edad. En general, un sistema automático de clasificación de caras está divido en cuatro etapas:. Detección de la cara. Dada una imagen detectamos y localizamos automáticamente una o varias caras. Usualmente, se utiliza un clasificador dicotómico que analiza diferentes subregiones de la imagen, a diferentes escalas y posiciones, para identificar o no la presencia de una cara. Procesamiento de la imagen. Se mejora el aspecto de la imagen y se hacen más evidentes los detalles que nos interesan estudiar. Extracción/Selección de caracterı́sticas. En esta etapa se utilizan técnicas de reducción de dimensionalidad con el propósito de evitar errores en la siguiente etapa de clasificación inducida por información redundante o ruido potencial que puedan contener los datos generados en el paso anterior. Clasificación. Finalmente, el nuevo espacio de caracterı́sticas se divide en regiones separadas por hiperplanos de decisión donde cada una estas representa una clase. Para cada nueva entrada es posible asignar automáticamente una categorı́a. Para esto se debe construir un modelo matemático, el clasificador, a partir de un conjunto de datos de entrenamiento utilizando un algoritmo de aprendizaje..

(47) 2.1 Clasificador de género. 17. En la Figura 2.1 se resume cada una de las etapas que involucran la fase de entrenamiento de un clasificador de atributos faciales. El proceso comienza a partir de un conjunto de imágenes obtenidas por medio de un detector automático de caras y etiquetadas con su atributo facial manualmente. A cada imagen aplicamos un pre-procesamiento para poder mejorarla. Luego, cada una de las imágenes se transforma a un vector para facilitar su empleo en la clasificación. Sin embargo, los vectores generados por cada imagen contienen información redundante debido a su alta dimensionalidad. Utilizamos algoritmos de extracción de caracterı́sticas para generar vectores más compactos que conservan la información contenida en los vectores originales. Finalmente, en la etapa de clasificación se construye el modelo matemático que ajusta una función, f , cuyo dominio son los vectores formados por el nuevo espacio de caracterı́sticas, y su recorrido es el atributo facial que deseamos estimar. Una vez entrenado el clasificador podemos utilizarlo para estimar atributos faciales a partir de una nueva imagen, donde ésta se debe transformar al nuevo espacio de caracterı́sticas antes de realizar la consulta. El presente capı́tulo centrará su estudio en las etapas de reducción de dimensionalidad y de clasificación. Se analizará particularmente el atributo facial demográfico de género con el objetivo de encontrar un marco de trabajo base para la clasificación de otros atributos faciales.. 2.1.. Clasificador de género. La clasificación demográfica, y en particular el reconocimiento de género, es un tema con alto potencial de aplicación en áreas como la vigilancia, reconocimiento de rostros, indexación de vı́deos, estudios de marketing dinámico, entre otras aplicaciones. Esto ha atraı́do el interés de investigadores en visión por computador y el reconocimiento de patrones en las últimas décadas [MY02, BR07, MR08a, MR08b, GLS90, SVM02, LMJV06] y siendo SEXNET [GLS90] uno de los primeros intentos para reconocer el género de una persona a partir de su rostro. En la literatura existen muchas soluciones propuestas a este problema [MY02, BR07, MR08a, MR08b, GLS90, SVM02, LMJV06, VRdsC06, ZY07], que pueden ser agrupadas, en general, dentro de dos aproximaciones: Basadas en apariencia global (appearance-based ). Este tipo de aproximaciones utilizan toda la imagen de una cara para la clasificación. La imagen original se obtiene por medio de un detector de caras o manualmente. Esta imagen se.

(48) 18. Clasificador Unidimensional de Atributos Faciales Demográficos. Figura 2.1: Etapas para la clasificación automática de la cara utilizando atributos faciales. Donde Ci representa una variable clase que corresponde a un atributo facial como el género (hombre, mujer). ajusta a un tamaño estándar para luego normalizar su textura en iluminación (ecualización de histograma, por ejemplo). En algunos casos, se agrega una máscara para eliminar el efecto que pueda tener el fondo que está detrás de la cara. Finalmente, se utiliza toda la información obtenida, del proceso antes descrito, como vector de entrada para la clasificación. Ver Figura 2.2. Basadas en caracterı́sticas (feature-based ). Por otro lado, esta aproximación extrae un conjunto de caracterı́sticas especı́ficas y discrimantes de la imagen de la cara que son utilizadas como entrada para el entrenamiento del clasificador, y su posterior uso. Ver Figura 2.3.. 2.2.. Estado del arte. Uno de los primeros trabajos importantes en el reconocimiento de género fue desarrollado por Moghaddam y Yang [MY02]. Adoptaron una aproximación basada en apariencia y utilizaron un clasificador para entrada de datos no lineales; denominado máquina de soporte vectorial (Support Vector Machine) con una fun-.

(49) 2.2 Estado del arte. 19. Figura 2.2: Esquema que representa una aproximación basada en la apariencia: Se detecta la cara, se reduce de tamaño y se normaliza en iluminación, finalmente se utiliza toda la información de la imagen resultante como entrada al clasificador.. Figura 2.3: La imagen muestra un ejemplo de una aproximación basada en caracterı́sticas. Para cada imagen mostrada en la figura se seleccionan diferentes regiones de ésta para la clasificación. La primera imagen a la izquierda, muestra las caracterı́sticas seleccionadas para un clasificador de género utilizando un algoritmo de boosting [ZY07]. Las imágenes siguientes, segunda, tercera y cuarta, muestran las regiones seleccionadas para estimar la etnia (Asiático/No Asiático), niñez (Niño/ No Niño) y vejez (Anciano/No Anciano). ción kernel de base radial (Radial Basis Function Kernel ), SVM+RBF [MY02]. Obtuvieron una tasa de acierto para reconocimiento de género del 96,6 % utilizando 1775 imágenes seleccionadas desde la base de datos FERET [PMRR00]. Las imágenes utilizadas fueron recortadas y alineadas automáticamente. Para las pruebas del clasificador utilizaron validación cruzada 5-fold . Baluja y Rowley [BR07], por otro lado, encontraron e informaron sobre un sesgo en el trabajo presentado por Moghaddam y Yang [MY02] causado por el uso de individuos con la misma identidad en diferentes fold s de la validación cruzada. En el.

(50) 20. Clasificador Unidimensional de Atributos Faciales Demográficos. mismo experimento Baluja y Rowley [BR07] lograron un 93,5 % de tasa de acierto utilizando SVM+RBF con alineación manual y una validación cruzada apropiada que considera diferentes sujetos para cada fold de entrenamiento y prueba. Para las aproximaciones basadas en caracterı́sticas se pueden encontrar trabajos que utilizan las diferencias de niveles de gris a partir de un par de pı́xeles [BR07], Haar-like wavelets [MR08a, SVM02], bancos de filtros multiescala (multiscale filter banks) [LMJV06] o LBP [MR08a, MR08b]. Shakhmarovich [SVM02] logró un 79 % y un 79,2 % de precisión en la clasificación de género y origen étnico respectivamente sobre un conjunto complicado de imágenes obtenidas desde la web. Utiliza caracterı́sticas Haar-like con una aproximación basada en el clasificador AdaBoost, este clasificador es varios órdenes de magnitud más rápido que el clasificador SVM . Baluja y Rowley [BR07] utilizaron comparaciones de parejas de pı́xeles en niveles de gris como clasificadores débiles (weak classifiers) sobre un esquema de aprendizaje basado en AdaBoost. Emplearon imágenes alineadas manualmente de la base de datos de Color FERET, especı́ficamente las galerı́as “fa” y “fb”, donde lograron una precisión del 94 %. Sus clasificadores son 50 veces más rápidos que la solución SVM propuesta por Moghaddam y Yang [MY02]. Mäkinen y Raisamo [MR08a] realizaron un conjunto de experimentos utilizando 411 imágenes (304 para entrenamiento y 107 para pruebas) de la base de datos FERET. Compararon las aproximaciones basadas en apariencia y caracterı́sticas, con imágenes alineadas y no alineadas. Obtuvieron resultados de rendimientos similares para las aproximaciones basadas en caracterı́sticas (AdaBoost) y las basadas en apariencia (utilizando clasificadores SVM+RBF ). El mejor resultado fue de 86 % y 82,62 % como tasas de acierto para imágenes de caras escaladas a un tamaño estándar de 36 × 36 y 24 × 24 pı́xeles respectivamente, utilizando una aproximación basada en apariencia y un clasificador SVM+RBF . En otro trabajo [MR08b], Mäkinen y Raisamo experimentaron con diferentes bases de datos, combinaciones de clasificadores y normalizaciones sobre la cara. La principal conclusión de su trabajo es que la alineación automática debe de ser muy precisa para que sea útil. Obtuvieron un 86 % de tasa acierto en imágenes de caras no alineadas utilizando SVM+RBF y una aproximación basada en apariencia. En un conjunto diferente de experimentos [MR08b] también estudiaron la importancia de considerar el pelo de la frente en su clasificación. En este trabajo, lograron un 84 % de tasa de acierto en el reconocimiento de género sobre un conjunto de 900 imágenes utilizando la base de datos FERET. Para este experimento emplearon nuevamente un clasificador SVM y una función kernel RBF , sin alineación de las imágenes. La principal conclusión de este segunda parte de experimentos es que la alineación geométrica (en este caso manual) es más importante que utilizar el pelo de la cabeza como una caracterı́stica.

(51) 2.2 Estado del arte. 21. visual. En contraste con Mäkinen [MR08a], Verschae y otros [VRdsC06] también realizaron varios experimentos con distintos tipos de caracterı́sticas y clasificadores. Obteniendo resultados similares a los encontrados por Mäkinen [MR08a] usando la base de datos de imágenes FERET, la mejor tasa de acierto corresponde a un experimento que utiliza una versión modificada de LBP y un clasificador AdaBoost [FSA99] con una tasa de acierto del 85,56 % para alineación manual y un 85,89 % de tasa de acierto para alineación automática de los ojos. También lograron tasas de reconocimiento similares utilizando SVM+RBF . Dago-Casas [DCGJYAC11] comparan la aproximación basada en apariencia con otros descriptores de la cara sobre dos conjuntos de imágenes capturadas en condiciones de adquisición no controladas (“in the wild ”), LFW [HRBLM07] y GROUPS [GC09], con imágenes escaladas a 105 × 90 y 120×105 pı́xeles. Los mejores resultados obtenidos fueron 79,16 % para la aproximación basada en apariencia y un 86,61 % utilizando otros descriptores de la cara sobre la base de datos GROUPS. En igual forma, obtienen sobre la base de datos LFW 89,24 % y 93,83 % respectivamente. Castrillón [CSLNRB13] utilizó diferentes descriptores de la cara y la fusión de diferentes clasificadores sobre las bases de datos de adquisición no controladas LFW, GROUPS y MORPH-II [RT06] con mejoras superiores al 3 % con respecto a [DCGJYAC11]. En el estudio del reconocimiento de género sobre imágenes con cambios bruscos en la pose de la cara [BCBB14] obtuvo una tasa de acierto entre el 84,31 % y el 88,04 % sobre la base de datos Multi-PIE [GMC+ 10]. Toews y Arbel [TA09] obtuvieron un 83,7 % de tasa de acierto sobre FERET, utilizando un novedoso método basado en caracterı́sticas que utiliza zonas especificas de las imágenes descritas con SIFT [Low04]. La principal conclusión obtenida de los resultados encontrados en la literatura, es que las aproximaciones basadas en apariencia que utilizan un clasificador SVM+RBF , y las basadas en caracterı́sticas locales que utilizan clasificadores basados en AdaBoost, eran los mejores clasificadores publicados para entornos contralados como en FERET y PAL . La primera aproximación es marginalmente superior en términos de tasas de aciertos en la clasificación, y la segunda es órdenes de magnitud más rápido que el primero. La mayorı́a de los resultados encontrados en la literatura se obtuvieron utilizando validación cruzada (cross-validation) sobre una única base de datos. En este capı́tulo se demuestra empı́ricamente que estas estimaciones son sesgadas y optimistas, puesto que las imágenes contenidas en una única base de datos tienden a poseer dependencias inherentes a las condiciones de adquisición y, en la mayorı́a de los casos, con condiciones similares de demografı́a. Trabajos posteriores al nuestro [BCBB11], como el de Dago-Casas [DCGJYAC11] han validado estos resultados. En resumen, de los resultados encontrados en la literatura.

(52) 22. Clasificador Unidimensional de Atributos Faciales Demográficos. se obtiene que las aproximaciones basadas en apariencia y caracterı́sticas tienen un comportamiento similar cuando se validan sobre bases de datos que fueron capturadas en condiciones controladas [BCBB11, MR08b]. Sin embargo, cuando la base de datos contiene imágenes capturadas en condiciones no controladas, o con cambios de apariencia bruscos, los rendimientos mejoran cuando se utiliza una aproximación basada en caracterı́sticas [DCGJYAC11, CSLNRB13, RBLNCS12]. Otra importante conclusión obtenida es que los resultados publicados no son fáciles de comparar debido a que en la mayorı́a de los casos los investigadores no utilizan las mismas bases de datos en sus estudios. Por el contrario, si las utilizan, no siempre seleccionan las mismas imágenes en sus experimentos. No obstante, Mäkinen y Raisamo [MR08a] desarrollaron un amplio conjunto de experimentos para el reconocimiento de género sometido a las mismas condiciones de validación. Desafortunadamente, utilizaron un conjunto reducido de imágenes (441) lo que no permite argüir conclusiones definitivas. Sin embargo, es posible deducir de su trabajo que el estado del arte en reconocimiento de género es aproximadamente un 93 % de tasa de acierto utilizando la base de datos FERET. Estos resultados también son coherentes con los obtenidos por Baluja y Rowley [BR07]. Por otro lado, el rendimiento del clasificador, aunque importante, no es sólo la única variable de nuestro interés. Con la notable excepción del trabajo de Baluja y Rowley [BR07], las aproximaciones existentes para el reconocimiento de género se han enfocado principalmente en sistemas de computación de alto rendimiento y no han considerado la eficiencia del clasificador como un factor relevante. El considerable aumento de las aplicaciones de visión por computador en dispositivos de bajas prestaciones (bajo poder de cómputo) como cámaras fotográficas digitales y móviles inteligentes (smart-phones) nos hace considerar que la eficiencia del clasificador como un aspecto importante. En este capı́tulo, y los próximos, nos concentraremos en la revisión y construcción de algoritmos cuya principal caracterı́stica sea su bajo coste computacional y un alto rendimiento en términos de tasa de acierto para la clasificación de género, entre otros atributos faciales. Hasta el momento, solo los algoritmos propuestos por Baluja et al [BR07] y Shakhmarovich et al [SVM02], ambos basados en el algoritmo de clasificación AdaBoost, cumplen con este requisito computacional. Para concluir, observamos que las propuestas estudiadas sobre clasificación de género han subestimado una de las técnicas de clasificación lineal más simples: Un clasificador Bayesiano cuyas variables de entrada son obtenidas a partir de un subespacio reducido por medio de un Análisis de Discriminante Lineal (LDA, Linear Discriminant Analysis). En la sección 2.3 revisaremos los conceptos básicos para la selección de carac-.

(53) 2.3 Análisis Discriminante Lineal (LDA). 23. terı́sticas por medio del análisis discriminante. Además se propondrá una forma sencilla, y lineal, para la selección de caracterı́sticas cuya aproximación logra resultados comparables a los mejores clasificadores de género encontrados en la literatura como los basados en SVM+RBF [MY02] y Boosting [BR07]. Finalmente, se comparan los resultados obtenidos con los encontrados en la literatura.. 2.3.. Análisis Discriminante Lineal (LDA). Dado un problema de clasificación multiclase con C clases y N número de instancias de entrada de x, {xi }N i=1 , el análisis discriminante lineal (LDA) proporciona una proyección lineal sobre los datos iniciales de la muestra dentro de un subespacio de a lo sumo d = C−1 dimensiones. Con la proyección se busca una medida que maximice la separación entre las diferentes clases (variabilidad entre-clase) y minimice variabilidad dentro de cada clase (variabilidad intra-clase). Es decir, la proyección de las instancias asociadas a una misma clase se encuentran lo más cerca posible unas de las otras, mı́nima dispersión intra-clase; de la misma manera se espera que las medias proyectadas de cada clase estén lo más lejos posible unas de las otras, máxima separación entre-clases. La base del nuevo subespacio transformado de d dimensiones, {wi }di=1 , se obtiene maximizando. d X w> i SB wi J(w) = , > wi SW wi i=1. (2.1). donde SB y SW son respectivamente las matrices de dispersión entre-clase e intraclase [Fuk90], que se definen como:. SB. c 1 X = nj (µj − µ)(µj − µ)> , N j=1. SW. c 1 X X = nj (xi − µj )(xi − µj )> , N j=1 i∈j. (2.2). Pc Siendo nj el número de elementos que pertenecen a la clase j, N = j=1 nj el número de elementos de toda la muestra, µj el promedio de los elementos de la muestra que pertenecen a la clase j, y µ el promedio de toda la muestra..

(54) 24. Clasificador Unidimensional de Atributos Faciales Demográficos. El valor máximo de J(W ) viene dado por los valores propios generalizados de SB W = SW WD, donde W es una matriz cuyas columnas son wi y D es la matriz diagonal de valores propios. El rango de la matriz SB es como máximo C−1 y será el rango de la matriz de proyección LDA, W. En el caso de que la matriz SW sea no singular, el problema de autovalores generalizados se puede convertir en un problema de autovalores:. S−1 W SB W = WD. (2.3). En las secciones 2.3.1, 2.3.2 y 2.3.3 describiremos tres técnicas de reducción de dimensiones que son utilizadas como paso previo para el cálculo del nuevo subespacio LDA. Cada uno de los resultados obtenidos son comparados en la sección de experimentos.. 2.3.1.. LDA en el subespacio transformado PCA (I), PCA+LDA. Cuando se trata con problemas de clasificación de imágenes, es común encontrar bases de datos que cuentan con un número limitado de imágenes. En algunos casos, la cantidad de imágenes puede ser menor que el espacio de caracterı́sticas (espacio d-dimensional) necesario para el buen funcionamiento del clasificador. Por ejemplo, si se trabaja bajo una aproximación basada en apariencia lo normal serı́a que las variables del vector de caracterı́sticas de entrada sean los pı́xeles de toda la imagen, si consideramos una imagen de 32×32 pı́xeles el tamaño del vector de caracterı́sticas serı́a de 1024 variables o dimensiones. En el caso en que el número de imágenes de la base de datos sea menor a la cantidad de variables de entrada, para el ejemplo serı́an menos de 1024 imágenes, la matriz de dispersión intra-clase, SW , no se puede utilizar para el cálculo de la ecuación 2.3. Sin embargo, una solución alternativa posible es utilizar la matriz de covarianza de toda la muestra, Sm :. Sm = SB + SW. (2.4). La matriz Sm , de la ecuación 2.4, reemplaza a la matriz de dispersión intra-clase, SW . La solución de valores propios de la ecuación 2.3 no cambiará si utilizamos la ma-.

(55) 2.3 Análisis Discriminante Lineal (LDA). 25. triz Sm [YY03, ZM06a]. Además, si realizamos Análisis de Componentes Principales (Pricipal Component Analysis, PCA) previo a la transformación LDA, y retenemos solo aquellos vectores propios cuyos valores propios asociados son distintos de cero, el nuevo subespacio LDA construido a partir del subespacio PCA es equivalente al calculado solo utilizando LDA, subespacio original [YY03]. No obstante, si en la construcción del subespacio PCA desechamos los vectores propios asociados a valores propios no nulos, el modelo PCA+LDA no será estrictamente equivalente al subespacio generado solo utilizando LDA. A partir de este momento denominaremos PCA+LDA al método que utiliza el subespacio transformado PCA como entrada previa para el cálculo del LDA, independiente de la forma de como sean elegidos los vectores propios en el paso PCA. Uno de los resultados más antiguos utilizando PCA+LDA aplicado a imágenes son los FisherFaces de Belhumeur [BHK97]. En el caso FisherFaces se asume que el número de imágenes de la muestra, N , es más bajo que el número de pı́xeles de la imagen, P , y el número de vectores propios PCA retenidos, antes de aplicar el método LDA, es P − C. Para el caso particular de esta tesis, la mayorı́a de los datos de entrada utilizados para el entrenamiento contarán con más imágenes que pı́xeles. Por lo tanto, gran parte de los valores propios obtenidos al transformar los datos de entrenamiento al subespacio PCA serán distintos de cero. Hemos comprobado empı́ricamente, que dependiendo de la cantidad de datos de entrenamiento el rendimiento del clasificador tiende a disminuir cuando utilizamos todos los vectores propios asociados a valores propios no nulos obtenidos al aplicar PCA (ver figuras 2.10 y 2.11). Como consecuencia de esto, y dentro de nuestras mejoras propuestas, un paso importante para obtener un rendimiento óptimo en la clasificación utilizando una aproximación lineal, es elegir de manera adecuada aquellos vectores propios PCA que contengan la mayor información discriminante posible. Para seleccionar las dimensiones adecuadas del subespacio PCA, proponemos un esquema de validación cruzada en vez de la aproximación tradicional de retener los vectores propios dependiendo de su porcentaje de varianza. Usualmente se seleccionan los vectores propios que están contenidos en la relación de valores propios con un porcentaje varianza del 95 % o 99 % [JW98]. El algoritmo de entrenamiento propuesto prueba diferentes conjuntos de vectores propios PCA. Los vectores propios PCA se ordenan de mayor a menor con respecto a su magnitud y se seleccionan secuencialmente. En el algoritmo 2.1 mostramos en detalle su funcionamiento, donde, P es el número de pı́xeles en una imagen, X es una matriz con los datos de entrenamiento donde cada imagen es un vector columna, L es el vector con las correspondientes etiquetas clase (Masculino o Femenino), PP CA es la matriz base PCA ordenada con los vectores propios en orden decreciente con respecto a su varianza, Ī es la imagen.