Instituto Tecnológico y de Estudios Superiores de Monterrey
Campus Monterrey
Monterrey, Nuevo León a
Por medio de la presente hago constar que soy autor y titular de la obra
titulada"
", en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto
Tecnológico y de Estudios Superiores de Monterrey (EL INSTITUTO) para que
efectúe la divulgación, publicación, comunicación pública, distribución y
reproducción, así como la digitalización de la misma, con fines académicos o
propios al objeto de EL INSTITUTO.
El Instituto se compromete a respetar en todo momento mi autoría y a
otorgarme el crédito correspondiente en todas las actividades mencionadas
anteriormente de la obra.
De la misma manera, desligo de toda responsabilidad a EL INSTITUTO
por cualquier violación a los derechos de autor y propiedad intelectual que
cometa el suscrito frente a terceros.
Nombre y Firma
AUTOR (A)
Lic. Arturo Azuara Flores:
Director de Asesoría Legal del Sistema
Reconocimiento Automático de Rostros Bajo Diferentes
Condiciones de Iluminación-Edición Única
Title
Reconocimiento Automático de Rostros Bajo Diferentes
Condiciones de Iluminación-Edición Única
Authors
Adriana Martínez Meza
Affiliation
ITESM-Campus Monterrey
Issue Date
2006-05-01
Item type
Tesis
Rights
Open Access
Downloaded
19-Jan-2017 12:33:56
SUPERIORES DE MONTERREY
CAMPUS MONTERREY
DIVISIÓN DE INGENIERÍA Y ARQUITECTURA
PROGRAMA DE GRADUADOS EN INGENIERÍA
TECNOLÓGICO
DE MONTERREY
RECONOCIMIENTO AUTOMÁTICO DE ROSTROS
BAJO DIFERENTES CONDICIONES DE ILUMINACIÓN
T E S I S
PRESENTADA COMO REQUISITO PARCIAL PARA
OBTENER EL GRADO ACADÉMICO DL:
MAESTRO (A) EN CIENCIAS EN AUTOMATIZACIÓN
POR:
ADRIANA MARTÍNEZ MEZA
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY
CAMPUS MONTERREY
DIVISIÓN DE INGENIERÍA Y ARQUITECTURA
PROGRAMA DE GRADUADOS EN INGENIERÍA
TECNOLÓGICO
DE MONTERREY.
Reconocimiento automático de rostros bajo diferentes
condiciones de iluminación
T E S I S
PRESENTADA COMO REQUISITO PARCIAL PARA OBTENER EL
GRADO ACADÉMICO DE:
MAESTRO(A) EN CIENCIAS EN AUTOMATIZACIÓN
POR:
ADRIANA MARTÍNEZ MEZA
Superiores de Monterrey
Campus Monterrey
División de Ingeniería y Arquitectura
Programa de Graduados en Ingeniería
Los miembros del comité de tesis recomendamos que el presente proyecto de tesis
presentado por (el) la Ing. Adriana Martínez Meza sea aceptado como requisito parcial
para obtener el grado académico de:
Maestro(a) en Ciencias en Automatización.
Comité de Tesis
Dr. Carlos F. Pfeiffer Celaya
Asesor principal
Dr. José de Jesús
Rodríguez Ortiz
Sinodal
Aprobado:
Dr. Federico Viramontes
Brown
Director del Programa de Graduados en Ingeniería
Mayo de 2006
Dr. Luis E. Garza
Castañón
Abstract
Esta tesis es para obtener el grado de Maestro en Ciencias en Automatización. El
reconocimiento y verificación del rostro bajo diferentes condiciones de iluminación ha
tomado importancia a partir de 1990, debido a que la variación en la iluminación es
más significativa en comparación con las características personales del rostro.
El objetivo de la presente tesis es comparar a través de los diferentes modelos de
iluminación los métodos análisis de componentes principales (PCA), Proyecciones y
Cociente de la Imagen: alineación global de la iluminación.
El método PCA se utilizó para demostrar que en condiciones de iluminación
diferente los resultados son bajos en comparación con los altos resultados cuando las
condiciones de iluminación son neutral.
El método de Proyecciones es aportación del autor de la presente tesis, y este
surgió de la idea de visualizar una imagen
Y
como un conjunto de vectores en el
espacio de iluminación
L,
en el cual se desea proyectar una imagen
X.
Por último, la finalidad del método Cociente de la Imagen: alineación global
de la iluminación se utilizó ya que los resultados bajo diferentes condiciones de
iluminación presentados en el artículo " Illumination modeling and normalization for
face recognition" son altos.
La implementación de los métodos se llevó a cabo en la base de datos de
domi-nio público Pose, Iluminación, Expresión (PIE) y local Condiciones de Iluminación
Martínez Meza (CIMM). La base de datos local CIMM fue creada para la presente
tesis con la finalidad de probar la efectividad de los métodos ante una base de datos
distinta a la de dominio público.
Dedicatoria
La presente tesis se la dedico en especial a mis padres Jorge y Martha, gracias
papas por haberme apoyado siempre en mi vida profesional, gracias por estar siempre
a mi lado, los quiero mucho y los admiro mucho.
También quisiera dedicar mi tesis a mis hermanos Jorge y Laura así como sus
respectivas familias, mi cuñada Marlen mis sobrinitos lindos Jorge Emilio y Vivían, y
mi cuñado Pedro, ya que siempre me han dado su apoyo incondicional.
Quiero dedicar esta tesis también a mis amigas Nilsa, Ariela, Sara y Cristina.
vii
Agradecimientos
Agradezco al Instituto Tecnológico y de Estudios Superiores de Monterrey el
ha-berme financiado mis estudios de maestría. También hago patente mi reconocimiento
al Departamento de Ciencias Computacionales, por el apoyo académico y las
facili-dades otorgadas en el uso del equipo computacional durante mis estudios de postgrado.
Le agradezco al Dr. Carlos Pfeiffer por haberme dirigido en la presente tesis.
También quisiera agradecer a los Doctores Jorge Olvera y Juan A. Nolazco ya
que me dieron la oportunidad de ser Becario de Docencia del Depto. de Ciencias
Computacionales.
Quiero agradecerles a mis amigos Ariela, Gerardo, Pedro Espinosa, Daniel
Kure-jwowski, Sara, Rubén, Octaviano, Pablo, Pedro Castro, David a mis compañeros de
trabajo y amigos Tere, Brenda, Maggy, Igmar, Isai, Alfonso, Said, Derick así como mis
compañeros y amigos que hice durante la maestría Miguel Flores, Miguel Román, Luis
Razo, Erendida, Ramón, Arturo ya que cada uno de ellos estuvo presente para aportar
sus ideas, conocimientos, compartieron mis alegrías, mis problemas, la solución de
estos problemas, les agradezco mucho.
1. Introducción, Antecedentes y Definición del problema 1
1.1. Introducción 1
1.1.1. Antecedentes 2
1.2. Definición del Problema 3
2. Estado del Arte 6
2.1. Modelos estadísticos en apariencia o aspecto 7
2.1.1. Análisis de Componentes Principales 7
2.1.2. Descomposición de valores singulares 8
2.1.3. Análisis de componentes Independientes 8
2.1.4. Análisis discriminante lineal 9
2.2. Métodos locales o acoplamiento de estructuras 9
2.2.1. Agrupación Gráfica 10
2.2.2. Agrupación gráfica elástica 11
2.2.3. Modelo de Apariencia Activa 11
2.2.4. Modelos Morfológicos 3D 12
2.3. Métodos Híbridos 12
2.4. Sistemas de Evaluación 12
3. Métodos y Clasificadores 14
3.1. Definiciones 14
3.1.1. Subespacio lineal dimensional 14
3.1.2. Modelo de Iluminación 15
3.1.3. Espacio de la Imagen 15
3.1.4. Espacio de iluminación del rostro 16
3.1.5. Alineación geométrica 16
3.2. Métodos 18
3.2.1. Análisis de Componentes Principales (PCA) 18
3.2.2. Proyección de las imágenes 20
3.2.3. Cociente de la Imagen 21
3.2.4. Cociente de la imagen: Alineación Global de la Iluminación ... 24
3.3. Reconocimiento del rostro 27
3.4. Verificación del rostro 27
ii
Contenido
4. Implementación 30
4.1. Pre-procesamiento de las imágenes originales 30
4.1.1. Conversión a niveles de gris 31
4.1.2. Alineación Geométrica 31
4.1.3. Reducción de la Imagen Original 31
4.1.4. Obtención del Rostro 31
4.2. Descripción Bases de Datos 32
4.2.1. Base de Datos PIE 32
4.2.2. Base de Datos CIMM 32
4.2.3. Configuración del sistema 33
5. Experimentos y Resultados 36
5.1. Reconocimiento del rostro 36
5.1.1. Análisis de componentes principales PCA 36
5.1.2. Proyección de las imágenes 43
5.1.3. Cociente de la imagen: alineación global de la iluminación ... 48
5.2. Verificación del rostro 58
5.3. Resultados 59
6. Conclusiones y Trabajo Futuro 62
6.1. Conclusiones 62
6.2. Trabajo Futuro 63
7. Bibliografía 64
A. Matrices de Confusión, Método PCA 66
B. Matrices de Confusión, Método Proyecciones
78
C. Matrices de Confusión, Método Cociente de la Imagen 92
4.1. Tabla de etiquetas, posición reflectores 34
5.1. Resultados PCA, base de Datos PIE 38
5.2. PCA, Conjuntos de prueba base de Datos PIE 39
5.3. PCA, Conjuntos de entrenamiento base de Datos PIE 40
5.4. Conjunto de entrenamiento, Base de Datos CIMM 41
5.5. Conjuntos de prueba Cl a C7, Base de Datos CIMM 41
5.6. Conjuntos de prueba C8 a C14, Base de Datos CIMM 41
5.7. Experimentos PCA, Base de datos CIMM 42
5.8. Resultados PCA, Base de datos CIMM 43
5.9. Proyección de las imágenes, base de datos PIE 45
5.10. Proyección de las imágenes.Conjuntos PIE 46
5.11. Resultados Proyecciones,base de Datos PIE 47
5.12. Experimentos Proyecciones, Base de datos CIMM 47
5.13. Resultados Proyecciones,base de Datos CIMM 49
5.14. Conjunto de entrenamiento, Base de Datos PIE 49
5.15. Conjunto de prueba, Base de Datos PIE 51
5.16. Experimentos Cociente de la imagen, PIE 52
5.17. Resultados Cociente de la imagen, PIE 52
5.18. Conjunto Estándar, Base de Datos CIMM 52
5.19. Conjunto de entrenamiento, Base de Datos CIMM 54
5.20. Experimentos, Base de Datos CIMM 55
5.21. Resultados Cociente de la imagen, Base de Datos CIMM 55
5.22. Resultados verificación del rostro,PIE 58
5.23. Resultados verificación del rostro,CIMM 59
A.l. Experimento 1 PCA 39 eigenrostros, parte 1, PIE 66
A.2. Experimento 1 PCA 39 eigenrostros, parte 2, PIE 67
A.3. Experimento 1 PCA 39 eigenrostros, parte 3, PIE 68
A.4. Experimento 2 PCA 39 eigenrostros, parte 1, PIE 69
A.5. Experimento 2 PCA 39 eigenrostros, parte 2, PIE 70
A.6. Experimento 2 PCA 39 eigenrostros, parte 3, PIE 71
A.7. Experimento 3 PCA 39 eigenrostros, parte 1, PIE 72
A.8. Experimento 3 PCA 39 eigenrostros, parte 2, PIE 73
iv
índice de tablas
A.9. Experimento 3 PCA 39 eigenrostros, parte 3, PIE 74
A. 10.Experimento 1 PCA 9 eigenrostros, Base de datos CIMM 75
A. 11.Experimento 2 PCA 9 eigenrostros, Base de datos CIMM 75
A. 12.Experimento 3 PCA 9 eigenrostros, Base de datos CIMM 75
A. 13.Experimento 4 PCA 9 eigenrostros, Base de datos CIMM 75
A. 14.Experimento 5 PCA 9 eigenrostros, Base de datos CIMM 76
A. 15.Experimento 6 PCA 9 eigenrostros, Base de datos CIMM 76
A. 16.Experimento 7 PCA 9 eigenrostros, Base de datos CIMM 76
A.17.Experimento 8 PCA 9 eigenrostros, Base de datos CIMM 76
A.lS.Experimento 9 PCA 9 eigenrostros. Base de datos CIMM 76
A.19.Experimento 10 PCA 9 eigenrostros, Base de datos CIMM 77
A.20.Experimento 11 PCA 9 eigenrostros, Base de datos CIMM 77
A.21.Experimento 12 PCA 9 eigenrostros, Base de datos CIMM 77
A.22.Experimento 13 PCA 9 eigenrostros, Base de datos CIMM 77
A.23.Experimento 14 PCA 9 eigenrostros, Base de datos CIMM 77
B.l. Parte l,Base de Datos PIE Experimento 1 78
B.2. Parte 2,Base de Datos PIE Experimento 1 79
B.3. Parte 3,Base de Datos PIE Experimento 1 80
B.4. Parte l,Base de Datos PIE Experimento 2 81
B.5. Parte 2,Base de Datos PIE Experimento 2 82
B.6. Parte 3,Base de Datos PIE Experimento 2 83
B.7. Parte l,Base de Datos PIE Experimento 3 84
B.8. Parte 2,Base de Datos PIE Experimento 3 85
B.9. Parte 3, Base de Datos PIE Experimento 3 86
B.l0.Base de Datos CIMM Experimento 1 86
B.ll.Base de Datos CIMM Experimento 2 86
B.12.Base de Datos CIMM Experimento 3 87
B.13.Base de Datos CIMM Experimento 4 87
B.14.Base de Datos CIMM Experimento 5 87
B.15.Base de Datos CIMM Experimento 6 87
B.16.Base de Datos CIMM Experimento 7 87
B.17.Base de Datos CIMM Experimento 8 88
B.lS.Base de Datos CIMM Experimento 9 89
B.19.Base de Datos CIMM Experimento 10 89
B.20.Base de Datos CIMM Experimento 11 89
B.21.Base de Datos CIMM Experimento 12 89
B.22.Base de Datos CIMM Experimento 13 90
B.23.Base de Datos CIMM Experimento 14 90
Índice de figuras
2.1. Sistema Reconocimiento/Verificación 6
2.2. Métodos de reconocimiento de rostro [10] 7
2.3. Vectores básicos ICA [10] 9
2.4. Vectores básicos LDA [10] 9
2.5. Agrupación gráfica [10] 10
2.6.
Jet
[10]
11
2.7. Gráfica etiquetada [10] 11
2.8. AAM, forma y textura normalizada [10] 12
3.1. Reconstrucción rostro sin alineación geométrica 17
3.2. Imágenes de un conjunto de entrenamiento, base de datos PIE 19
3.3. Rostro promedio del conjunto de entrenamiento, base de datos PIE . . 19
3.4. Proyección del vector x hacia el vector y 21
3.5. Proyección de la imagen
A
hacia el espacio de a imagen
B
22
3.6. Cociente de la imagen: alineación global de la iluminación [6] 26
3.7. Gráfica Falsos Positivos,Falsos Negativos 29
4.1. Imágenes Originales (a)PIE (b)CIMM 31
4.2. Obtención del rostro a partir de las imágenes originales (a)PIE (b)CIMM 32
4.3. Localización xyz en cm de la cabeza y de los reflectores, ilustrados en 3D 34
4.4. Posición reflectores (a) R4 y R2, (b) R7, (c) R5 y R3, (d) R8, (e) R6 . 35
5.1. Eigenrostros, base de datos PIE 37
5.2. Rostros reconstruidos, base de datos PIE 38
5.3. Eigenrostros, base de datos CIMM 42
5.4. Rostros reconstruidos, base de datos CIMM 43
5.5. Proyección de las imágenes, base de datos PIE 46
5.6. Proyección de las imágenes, base de datos CIMM 48
5.7. Resultado Cociente de la imagen, Base de datos PIE 53
5.8. Resultado Cociente de la imagen, Base de datos CIMM 57
5.9. Resultados en el reconocimiento del rostro, Base de datos PIE 60
5.10. Resultados en el reconocimiento del rostro, Base de datos CIMM . . . . 61
D.l. Proyecciones, Experimento 1 Base de datos PIE 104
D.2. Proyecciones, Experimento 2 Base de datos PIE 105
Capítulo 1
Introducción, Antecedentes y
Definición del problema
1.1 Introducción
Diariamente realizamos actividades en las que algún sistema de seguridad se
encuentra implícito sin que nos demos cuenta de ello. Por ejemplo, si nos encontramos
en un banco y deseamos realizar un retiro en efectivo de su cuenta de ahorros,
enton-ces el cajero o gerente nos pedirá mostrar una identificación personal con fotografía
para verificar que seamos la persona indicada y poder dar el acceso a dicho movimiento.
Así como esta actividad existen otras que han propiciado el desarrollo de sistemas
automáticos de verificación y acceso utilizando el rostro. Tales sistemas han contribuido
en las aplicaciones de seguridad, trámites comerciales,legales y forenses [4] [8] [10] [11] [14].
Algunos ejemplos de aplicación son:
• Identificación criminal.
• Seguridad en los sistemas.
• Pasaportes.
• Tarjetas de Identificación personal.
• Licencias para conducir.
• Fotografías policiales.
• Imágenes extraídas de videos de vigilancia.
• Control de acceso.
• Reconstrucción del rostro.
• Comunicación multimedia, entre otros.
1.1.1 Antecedentes
Las primeras investigaciones sobre el reconocimiento del rostro humano fueron
con-ducidas por psicólogos y neurólogos. Ambos coincidieron que las personas reconocen
los rostros debido a que:
• El rostro es único.
• Analizan el rostro con el uso de las expresiones faciales.
• Realizan una organización de rostros dentro de la memoria.
« Tienen la capacidad de reconocer rostros invertidos.
• Distinguen las imágenes, sea rostro u objeto.
• Se enfocan en rasgos característicos del rostro.
• Tienen un mejor reconocimiento de rostro con las personas de su misma raza.
Los temas anteriores fueron de relevancia para diseñar algoritmos o sistemas que
fueran útiles en el reconocimiento del rostro [14].
El primero que intentó crear un sistema de reconocimiento semiautomático con
un híbrido humano, fue Bledsoe(1966a,b) [11].El sistema consistía en introducir unas
marcas en las fotografías para poderlo guiar hacia la posición de los parámetros de
cla-sificación. Sus parámetros de clasificación eran normalizar las distancias y radios entre
puntos como las esquinas de los ojos, boca, orificios de la nariz y el punto de la barbilla.
Después los Laboratorios Bell (Goldstein, Harmon and Lesk. 1971) [11]
desarro-llaron un vector por encima de las 21 características y además reconocieron rostros
usando técnicas de clasificación con patrones estándares. Las características escogidas
fueron evaluaciones subjetivas hechas por humanos, las cuales fueron difíciles de
automatizar.
En 1973, se mostraron las técnicas para embonar imágenes al estrechar y contraer
sus partes: Fischler, Elschlager y Widrow.Fischler y Elschlager [11] [12] procuraron
medir características similares automáticamente a partir de un algoritmo lineal. Ellos
describieron al modelo (visto de manera frontal) como elástico, conformado por un
conjunto de características locales unidas por resortes a favor de cierta configuración.
Además, en él se modelaban los ojos,boca,nariz y los lados del rostro los cuales son
representados y conectados por los resortes.
1.2. Definición del Problema
de visión controladas y usando relaciones espaciales entre las características. Por otro
lado, el sistema calcula un conjunto de parámetros faciales provenientes de una imagen
(rostro simple) utilizando una técnica de clasificación de patrones para embonar
este rostro a un conjunto de rostros conocidos.El enfoque que se le da al sistema es
estadístico dependiendo principalmente de un histograma local y con valores de escala
gris.
Para los años ochenta, se incrementaron los artículos sobre visión computacional
trayendo consigo otra serie de investigaciones.
Haig (1984) [12] hizo experimentos en donde alteraba la posición de las
carac-terísticas faciales. Sus resultados mostraron que estos cambios son extremadamente
sensibles. Por ejemplo, realizó pequeños cambios en la distancia entre los ojos lo cual
fue suficiente para afectar el reconocimiento.
En el trabajo de Yuille, Cohén y Hallinan (1989) [11] se observa que su estrategia
está basada en plantillas deformables las cuales son modelos parametrizados del rostro
y sus características cuyos valores paramétricos son determinados por la iteración con
la imagen.
Kohonen (1989) y Lahtio (1981) [11] en su trabajo describen una red autoasociativa
con un algoritmo de simple aprendizaje que puede reconocer (clasificar) imágenes de
rostros y recordar una imagen de un rostro proveniente de una versión de entrada
incompleta o con ruido. Fleming y Cottrell (1990) extendieron éstas ideas usando
unidades no-lineales.
Otros enfoques en el reconocimiento del rostro automático, consiste en caracterizar
el rostro con el uso de parámetros geométricos e interpretar el reconocimiento basado
en los parámetros. Algunos investigadores de éstos enfoques son: Kaya and Kobayashi
(1972), Cannon, Jones, Campell y Morgan (1986), Craw, Ellis y Lishman (1987),
Wong, Law y Tsaug (1989).[11]
1.2 Definición del Problema
La variación en la iluminación es uno de los problemas más difíciles para el
reconocimiento de rostro y ha recibido mucha atención en años recientes. Se sabe que
la variación de la iluminación es más significativa a comparación de las diferentes
características personales que se presentan en el rostro [2] [6] [7].
Los cambios en la dirección de la luz en la imagen de un rostro, alteran
relativa-mente la distribución en la escala de gris (0-255). Haciendo uso del método tradicional
de equalización o histograma se obtiene una imagen en la que sólo se transfiere la
distribución en los niveles de gris ignorando información específica acerca del rostro [6].
Así como el método de equalización han existido otros métodos como los filtros de
Gabor en 2D, derivadas en la intensidad de la imagen, mapeo de los límites, relaciones
geométricas, los cuales fueron sometidos a cambios de iluminación cuyos resultados
mostraron falta de robustez ante estos cambios. El principal problema de esta clase
de métodos es que la mayoría de la información valiosa (niveles de gris) es descartada
Para resolver éste problema se han propuesto y desarrollado varios algoritmos por
ejemplo el método de iluminación del cono, cociente de la imagen, espacios armónicos
esféricos, análisis de componentes principales(PCA), método cociente de la imagen:
alineación global de la iluminación, entre otros [2] [6] [7] [12] .
El objetivo de la presente tesis, es comparar a través de los diferentes modelos de
iluminación los métodos de Análisis de Componentes Principales (PCA), Proyecciones
y el método Cociente de la Imagen: alineación global de la iluminación.
El método PCA [8] [10] [11] [13] [15] [16] es utilizado en la reconstrucción de rostros
a partir de un conjunto de vectores llamados "eigenrostros" los cuales proveen las
características principales de un conjunto de rostros. El objetivo de utilizar este método
es demostrar que en condiciones de iluminación diferente los resultados son bajos en
comparación con los altos resultados cuando las condiciones de iluminación son neutral.
El método de Proyecciones es aportación del autor de la presente tesis y este
surgió de la idea de visualizar una imagen
Y
como un conjunto de vectores en el
espacio de iluminación
L,
en el cual se desea proyectar una imagen
X.
La proyección
de la imagen
X
contendrá información de la iluminación
Y.
Por último, la finalidad del método Cociente de la Imagen: alineación global de la
iluminación [6] consiste en obtener las condiciones de iluminación de una imagen de
entrada y poder alinear esta iluminación hacia un conjunto de imágenes en la base de
datos. El objetivo de utilizar el método, es debido a que los resultados bajo diferentes
condiciones de iluminación presentados en [6] son altos.
La implementación de los métodos se llevo a cabo en la base de datos de dominio
público Pose,Iluminación y Expresión (PIE) y local Condiciones de Iluminación
Martínez Meza (CIMM). Se utilizó la base de datos PIE debido a que ha sido utilizada
en diferentes investigaciones [2] [6] [7], en cambio la base de datos CIMM fue creada
con el objetivo de probar la efectividad de los métodos ante una base de datos distinta
a las de dominio público.
1.2. Definición del Problema
Posteriormente, se procedió a obtener el método que mejor reconocimiento del rostro
presentara y comparar estos resultados con los presentados por el sistema de evaluación
FRVT 2002.
Estado del Arte
Un sistema general de reconocimiento y verificación consiste en detectar el rostro
dentro de la imagen, extraer las características del rostro, reconocer,identificar y
verificar que sea el rostro correcto. Otros sistemas incluyen un sistema de clasificación
posterior, por ejemplo decidir si es hombre o mujer, o a que raza pertenece. El sistema
general de reconocimiento y verificación se muestra en la figura 2.1.
Análisis de resuftados
Figura 2.1:
Sistema Reconocimiento/Verificación
Como se muestra en la figura 2.1 el sistema de reconocimiento consiste en identificar
a la persona buscándola en una base de datos, mientras que el sistema de verificación
se encarga de comprobar que la persona concuerde con la fotografía de quien se dice
ser, de no ser asi, es considerada como impostor.
Para los sistemas de reconocimiento se han desarrollado diferentes métodos, cuya
clasificación utiliza modelos de aspecto o apariencia así como de modelos basados en
las características locales. Para ésta clasificación, se tienen tres categorías:
• Modelos estadísticos en apariencia o aspecto.
• Métodos basados en las características locales o acoplamiento de estructuras y
• Métodos híbridos.
En la figura 2.2, se muestra la clasificación, categorización así como de algunos
métodos de reconocimiento.
2.1. Modelos estadísticos en apariencia o aspecto
Lineal—
PCA
ICA
LDA
.— Apariencia
Reconocimiento
del rostro
basado en la
imagen
Modelo
NoLineal
2D—
3D—
i
— Agrupación Gráfica
/— Agrupación Elástica Gráfica
11
— Modelo de apariencia activa
Modelos morfológicos 3D
Figura 2.2:
Métodos de reconocimiento de rostro [10]
2.1 Modelos estadísticos en apariencia o aspecto
Uno de los enfoques para el reconocimiento de objetos y gráficos computacionales,
esta basado en utilizar la imagen directamente sin hacer uso de modelos
tridimensio-nales. Este mismo enfoque se ha llevado a cabo para el reconocimiento de rostro.
Los métodos que obtienen el modelo del rostro a partir de la imagen, hacen uso de
la forma y textura del rostro representados en forma de vector. Algunos métodos son
PCA, ICA, LDA, entre otros.
2.1.1 Análisis de Componentes Principales
El método de análisis de componentes principales (PCA) [8] [10] [11] [13] [15] [16],
utiliza los eigenrostros
U
para encontrar los vectores que mejor se adapten a la
distribución de las imágenes de los rostros. Estos vectores definen el subespacio de las
imágenes de los rostros llamado espacio del rostro.
La proyección de los rostros del conjunto de prueba
P
hacia el espacio del rostro,
se realiza a través de un conjunto de pesos que describen la distribución de cada vector
en el espacio del rostro, dados por la ecuación 2.1.
W =
U
T
x P
(2.1)
Para identificar los rostros del conjunto de prueba se proyecta el conjunto de pesos
hacia los eigenrostros obteniendo
* =
W • U
(2.2)
donde $ es el conjunto de rostros de prueba reconstruidos.
Romdhani [16] reporta en promedio un 92 % en el reconocimiento del rostro. PCA
también es conocida como el método de transformación Karhunen-Loeve [14]. Siendo
PCA uno de los métodos a utilizar, se explica con más detalle en el capítulo 3.
2.1.2 Descomposición de valores singulares
El método de descomposición de valores singulares (SVD),utilizado comúnmente
para el procesamiento de imágenes, extrae las características principales de un conjunto
de rostros representados por la matriz $. La matriz <í> puede ser descompuesta en el
producto de otras tres:
$ =
UL
l/2
Z'
(2.3)
donde
U y Z
son matrices ortogonales y
L
contiene los valores singulares de la
matriz <í>.
En el capítulo 3 se describe con mayor detalle el método descomposición de valores
singulares.
2.1.3 Análisis de componentes Independientes
El método de análisis de componentes independientes (ICA) [10] es similar a
PCA excepto en que la distribución de sus componentes están diseñados para no
ser gaussianas. Bartlett[10] propuso dos arquitecturas basadas en ICA, las cuales
presentaban imágenes base estadísticamente independientes así como la representación
de un código factorial.
El objetivo de ICA es separar momentos de alto orden de la entrada, además de
los momentos de segundo orden utilizados en PCA. La obtención de los vectores base,
está basada en un algoritmo llamado "fast fixed-point" en el cual no existe un orden
específico para obtenerlos. La representación del código factorial se observa en la figura
2.3.
2.2. Métodos locales o acoplamiento de estructuras
Figura 2.3:
Vectores básicos ICA [10]
en ICA no existe un específico criterio para obtenerla.
2.1.4 Análisis discriminante lineal
El método de análisis discriminante lineal (LDA) representa el espacio vectorial
del rostro dividiéndolo en clases. Para los procesos de identificación, la información
que proveen las clases puede ser de utilidad.
Por ejemplo el método del discriminante lineal de Fisher (FLD), utiliza información
específica de las clases, ya sea definiendo diferentes clases con diferentes estadísticos
para las imágenes del conjunto de aprendizaje.
En la figura 2.4 se presenta un ejemplo de los vectores base del análisis discriminante
lineal.
Figura 2.4:
Vectores básicos LDA [10]
2.2 Métodos basados en las características locales
o acoplamiento de estructuras
Los métodos basados en el acoplamiento de estructuras buscan encontrar las
características locales que representan el rostro. Esto incluye desde localizar los
ojos,nariz,boca, hasta el tipo de geometría que éstos tienen para contruir un modelo
del rostro humano.
El primer sistema de reconocimiento de rostro automatizado fue realizado por
Kanade [10] [11] [12]. El sistema consitía en dar como entrada la imagen del rostro
localizando en forma automática las esquinas de los ojos, orificios de la nariz, etc.
gráfico. Después se desarrollaron otros sistemas donde se integraron los modelos 2D
(forma y textura) y 3D.
Para construir los modelos basados en las características locales o acoplamiento de
estructuras es necesario:
1. Contruir el modelo
2. Acoplar el modelo obtenido con el modelo del rostro
3. Utilizar los parámetros del modelo acoplado como vector característico para
cal-cular la similitud entre el rostro a reconocer así como de los rostros localizados
en la base de datos.
2.2.1 Agrupación Gráfica
Los rostros humanos compartirmos las mismas características, dos ojos, nariz,
boca. El método de agrupación gráfica consiste en conectar éstas características las
cuales representarán la unión de diferentes nodos acoplándose al rostro formando una
estructura como la que se muestra en la figura 2.5.
Figura 2.5:
Agrupación gráfica [10]
Cada nodo contiene un conjunto de 40 coeficientes de ondas complejas de Gabor
incluyendo fase y magnitud ver figura 2.6. Los coeficientes de onda son extraídos
usando la familia de kernels de Gabor con 5 diferentes frecuencias espaciales y 8
orientaciones. Todos los kernels están normalizados para tener media cero.
Los nodos están etiquetados como "jets", donde cada "jet" hace referencia a los
mismos puntos. Por ejemplo todos los ojos del lado derecho del rostro se
encuen-tran agrupados en el mismo "jet", por lo que éste "jet" puede contener diferentes
características para los ojos del lado derecho del rostro, como por ejemplo un ojo
de un hombre o mujer, el ojo abierto o cerrado, etc. Esto representa un conjunto de
alternativas para cada "jet".
2.2.
Métodos locales o acoplamiento de estructuras
11
Resultados Convolución
Ondas Oabor Parte imaginaria Magnitud
Imágenes Originales
Figura 2.6:
Jet [10]
jet
estructura jet objeto adaptado a la estructura (rostro)Figura 2.7:
Gráfica etiquetada [10]
2.2.2 Agrupación gráfica elástica
A partir del concepto de agrupación gráfica, el método de agrupación elástica gráfica
se define como la determinación de la identidad del rostro gráfico de entrada con
me-nor distancia en relación al modelo gráfico del rostro dado por una galería en particular.
Las estructuras de los gráficos pueden ser rotadas, escaladas y se pueden deformar
dependiendo de la variación entre las imágenes.
2.2.3 Modelo de Apariencia Activa
El modelo de apariencia activa (AAM) [10] está integrado de modelos estadísticos
los cuales combinan un modelo de variación de forma con un modelo de variación de
apariencia (textura) en un "frame" de forma normalizada. AAM contiene modelos
estadísticos del objeto de interés, forma y apariencia en niveles de gris.
•f •• «• í • «
Figura 2.8:
AAM, forma y textura normalizada [10]
La forma del rostro es representada como un vector de posiciones "landmarks" ver
figura
2.8.
2.2.4 Modelos Morfológicos 3D
La representación de los rostros en modelos de 3D tienen un mejor manejo de las
variaciones faciales, como lo son la pose e iluminación. El objetivo de éstos métodos es
separar los parámetros intrínsecos y extrínsecos del rostro. Lu presenta [10] un método
de contrucción y acoplamiento.
Epstein, Yuille y Belhumeur [12] han trabajado en desarrollar métodos para inferir
estructuras en 3D utilizando dos enfoques: utilizar múltiples imágenes del rostro bajo
diferentes condiciones de iluminación y usar una sola imagen adhiriéndole a esta
conocimiento a priori de la forma y textura del rostro.
Otra manera de obtener un modelo en 3D es a través del conocimiento de la
estructura geométrica de la cabeza, en donde este conocimiento puede adquirirse
utilizando un aparato láser. Este tipo de construcción de modelos del rostro en 3D es
utilizado en gráficos computacionales.
2.3 Métodos Híbridos
Por último la categoría de los métodos híbridos representa la percepción que tiene
el humano tanto de las características locales así como del rostro completo para poder
realizar el reconocimiento.
En la presente tesis ésta clase de métodos no son objeto de estudio.
2.4 Sistemas de Evaluación
2.4. Sistemas de Evaluación
13
es necesario considerar la verificación del mismo.
Las series de evaluación FERET [18] está compuesta por nueve instituciones y
compañías participantes. A esta le sigue la serie de pruebas Vendor FRVT.
Las pruebas de evaluación FERET están diseñadas para evaluar la eficiencia de
los algoritmos que automáticamente localizan, normalizan e identifican los rostros. Su
base de datos consiste en imágenes con expresión neutral, con diferentes expresiones
y diferentes condiciones de iluminación. La evaluación consiste en tres pruebas cada
una con diferente galería y conjunto de prueba.
El sistema de evaluación FRVT 2002 [18] es una tecnología administrativa
independiente en sistemas de reconocimiento del rostro. Muestra como resultados la
capacidad de los sistemas de reconocimiento del rostro y la verificación de los mismos.
Este sistema tiene una galería mayor que FERET.
Su objetivo es proveer las mediciones que evalúen la eficiencia de sistemas
au-tomáticos ante situaciones reales. Su base de datos consiste en imágenes con diferentes
condiciones de iluminación controladas (interior) y no controladas (exterior).
Métodos y Clasificadores
Uno de los principales problemas de los sistemas de verificación de rostro, ha sido
la iluminación [2] [6] [7]. Para resolver éste problema se han propuesto y desarrollado
varios métodos: Análisis de Componentes Principales (PCA), Proyecciones y el
Cociente de la Imagen: alineación global de la iluminación [2] [6] [7] [12] .
En éste capítulo se explicarán a detalle los métodos utilizados para resolver el
problema de iluminación en el reconocimiento y verificación del rostro.
3.1 Definiciones
La relación que existe entre los métodos análisis de componentes principales,
proyecciones y el método cociente de la imagen: alineación global de la iluminación,
es que pueden ser representados en un subespacio lineal dimensional bajo, sus
propiedades están basadas en el modelo de Lambert y además requieren que los rostros
se encuentren alineados geométricamente [2] [3] [9] [12] [13].
Para tener un mejor entendimiento de los métodos a implementar, se definirán los
conceptos espacio y subespacio lineal dimensional, el modelo de Lambert como modelo
de iluminación y la alineación geométrica de los rostros.
3.1.1 Subespacio lineal dimensional
Los espacios vectoriales están representados como
R
l
, R
2
,
fí
3
,... , donde el espacio
R"
consiste en todos los vectores columna con
n
componentes reales, siendo
n
la
dimensión del espacio. Por ejemplo, sea
R
2
el espacio dimensional en 2D cuyos ejes
coordenados son
x y y.
Otro espacio dimensional sería el definido por
R
3
en donde
cada componente del vector representa los ejes coordenados
x, y y z.
Los espacios vectoriales son subespacios que contienen otro espacio vectorial.
Los subespacios de un espacio vectorial son subconjunto del espacio si la suma
3.1. Definiciones
15
de dos vectores cualquiera en el subespacio se encuentra en éste subespacio y
cual-quier múltiplo escalar del vector en el subespacio se encuentra también en el subespacio.
3.1.2 Modelo de Iluminación
El modelo de Lambert se representa como:
/
(ar,
y)
= p
(x,
y)
n
(z,
y)
T
s
(3.1)
T
donde
p
es la textura de la superficie,
n (x, y)
es la superficie normal (forma en
3D) del objeto (la misma superficie para todos los objetos de la clase), y s que es el
punto de iluminación del que proviene.
La propiedad del modelo de Lambert consiste en que su resplandor depende
simplemente de la iluminación y no del punto de vista en que se observe. Cada
punto en la textura de la superficie brilla de igual forma en todas las
direc-ciones, y ésta sólo depende de la cantidad de luz incidente por unidad de área la
cual es proporcional al coseno del ángulo incidente para una sola fuente de luz distante.
En la textura de la superficie existen dos tipos de sombras: adjuntas y molde. Las
sombras adjuntas son definidas por las condiciones geométricas locales. El punto
P
se
define como una sombra adjunta si el ángulo entre la superficie normal y la dirección
de la luz fuente es obtusa, entonces
n (x, y) s <
0.
Sea el punto
P
una sombra molde si éste es obtruído por la luz debido a otras
partes del mismo objeto. Las sombras molde se presentan a causa de objetos con
partes cóncavas las cuales crean sombras moldes.
En las secciones siguientes se explicará como se aplicaron los conceptos espacio
(subespacio) lineal dimensional y el modelo de Lambert en una imagen.
3.1.3 Espacio de la Imagen
Una imagen
I(x, y)
es un arreglo de dos dimensiones
N
renglones por
B
columnas,
cuya intensidad de valores se encuentra en la escala de gris (0-255).
El rostro es una imagen la cual puede ser vista como un vector de dimensión
N * B.
La construcción del vector
N * B se
realiza al hacer una concatenación de pixel por
pixel, usualmente por renglón [16].
en el espacio de la imagen.
La ventaja de ésta representación es la reducción de la dimensión, preservar la
información de la imagen así como el tiempo computacional en el procesamiento.
Los métodos PCA, descomposición de valores singulares, proyecciones y cociente
de la imagen: alineación global de la iluminación han utilizado la técnica de reducción
de la dimensión. En la sección 3.2 se explicarán los métodos.
3.1.4 Espacio de iluminación del rostro
El rostro 7¿ con n pixeles cuyo subespacio se representa como
R".
Si / representa
ese espacio, entonces
/ C
fí"
(3.2)
Las imágenes con posición frontal y bajo diferentes condiciones de iluminación
for-marán parte del subespacio
I.
Si
F
representa éste espacio, entonces
Ti<n
(3.3)
El espacio de iluminación del rostro
L
es un subespacio dimensional
d
construido
por el espacio de imágenes del rostro
F
bajo diferentes condiciones de iluminación
L = T(F),LcF,LcH
d
,d<m
(3.4)
donde
T
es la función de transformación del espacio del rostro hacia el espacio de
iluminación del rostro.
Sea /i e
I¿
imágenes de dos rostros diferentes bajo la misma condición de iluminación
/ = T(/
1
)=T(/
2
) (3.5)
donde / es la proyección hacia el espacio de iluminación
I
6
L.
La representación anterior nos indica que es posible estimar las condiciones de
iluminación de una persona utilizando la representación del subespacio de otra persona
[6].
3.1.5 Alineación geométrica
3.1. Definiciones
17
Por ejemplo, si el conjunto de imágenes
A
no se encuentra en las mismas posiciones
geométricas y se aplica el método PCA se obtendrá como resultado la reconstrucción
de una imagen de un rostro como la que se muestra en la figura 3.1. Por consiguiente.
se debe de realizar la alineación geométrica antes de implementar los métodos PCA.
Proyecciones y Cociente de la imagen: alineación global de la iluminación.
Figura 3.1:
Reconstrucción rostro sin alineación geométrica
Es común el uso del centro de los ojos para fijar las coordenadas a las que se hará la
alineación. El método de alineación geométrica aplicado consistió en:
• Obtener manualmente las coordenadas del ojo izquierdo y derecho del rostro.
• Realizar la alineación y traslación del rostro a partir de las coordenadas de los
ojos.
• Rotación y escalamiento del rostro.
Alineación y traslación del rostro
La alineación del rostro en la imagen original consiste en posicionar el ojo derecho
en el mismo eje
y
del ojo izquierdo. Para llevar al ojo derecho del rostro a la misma
posición del ojo izquierdo se utilizan las coordenadas de ambos ojos y a partir de éstas
se obtiene la distancia en el eje
x
que existe entre ellos. Con ésta distancia se calculan
las nuevas posiciones a las que se encontrarán los ojos y por consiguiente toda la imagen.
Una vez alineado el rostro en la imagen original, se extrae el rostro de la imagen
original a partir de las coordenadas de ambos ojos.
Rotación y escalamiento
es ra x n se cambia al doble de sus dimensiones 2ra x 2n entonces la imagen ahora
contiene más pixeles. El proceso de interpolación entonces calcula los valores de los
pixeles adicionales.
El método de interpolación bilineal consiste en que el valor del pixel de salida es el
peso promedio de los pixeles aplicando el principio del vecino próximo 2 por 2.
3.2 Métodos
En la presente sección se describirán los métodos utilizados para obtener los
diferentes modelos de iluminación. Una vez obtenidos los modelos, se estimaron las
variaciones que existen entre el rostro reconstruido y el original a través del error
de reconstrucción conocido como distancia Euclideana. El error de reconstrucción
ayudará a estimar el porcentaje de aceptación de cada método.
3.2.1 Análisis de Componentes Principales (PCA)
El espacio de la imagen tiene la desventaja de no ser la mejor representación para
describir el rostro, por lo que se construyen unos vectores base llamados componentes
principales [16].
Para poder aplicar Análisis de Componentes Principales (PCA), es necesario
expresar la imagen en un vector de una dimensión a partir de un rostro de dos
dimensiones [8] [11] [12] [16] .
Supongamos que tenemos
S
vectores de tamaño .R(renglones*columnas de la
ima-gen) el cual representa un conjunto de imágenes, si pj's representa los valores en pixeles
entonces:
I\ =
\PJPK]
, * = 1,..-,
S j
= 1,...,
R
(3.6)
Considerando que se tiene un conjunto de imágenes de entrenamiento
Fi,r2,r3,..., FS, y la imagen promedio de este conjunto de entrenamiento se
encuentra definida por
t¡) = j¡
J^
n=1
F
n
. En la figura 3.2 se muestra un conjunto de
entrenamiento y en la figura 3.3 la imagen promedio de éste conjunto.
Las imágenes son centradas restándole la imagen promedio del conjunto de
entre-namiento, por lo que se define
*i = r< - ^
(3.7)
El conjunto de vectores obtenidos (*í>j) serán utilizados para el análisis de
3.2. Métodos
19
Figura 3.2:
Imágenes de un conjunto de entrenamiento, base de datos
PIE
Figura 3.3:
Rostro promedio del conjunto de entrenamiento, base de datos
PIE
que puedan describir la distribución del dato.
Una manera de obtener los componentes principales es mediante la descomposición
de los valores singulares (SVD) [12] [15].
Si <frj es una matriz
e*q
donde e >
q,
entonces $/$, es una matriz simétrica de
orden
q*q.
La descomposición de los valores singulares es
$¿ =
UL
l/2
Z'
(3.8)
donde L
1
/
2
es una matriz diagonal cuyas raíces son cuadradas positivas de los
q
eigenvalores de $fí>¿, por consiguiente L
1
/
2
/.,
1
/
2
=
L.
Los elementos de L
1
/
2
son los
valores singulares, los vectores columna en
U
y
Z
son los vectores singulares izquierdo
y derecho respectivamente.
U y Z
son matrices ortogonales.
S
para formar los eigenrostros
u¡.
(3.9)
fc=i
Los eigenrostros
u¡
deben de ser ortonormales.
Reconstrucción del Rostro utilizando Eigenrostros
Los eigenrostros M' definen un subespacio base resultado de reducir el espacio
original TV
2
. Los M' eigenvectores significantes de la matriz 3>, son escogidos como
aquellos cuyos eigenvalores son los más grandes.
Una nueva imagen de un rostro F es trazada hacia el espacio del rostro a través
de los coeficientes
ujk.
Los coeficientes se obtienen restando la imagen promedio ^ a la
nueva imagen F y proyectándola en el espacio del rostro a través de los eigenrostros
u^
u
k
= ul(TV)
(3.10)
para
k =
1,..., M'. Los coeficientes
ujk
son los pesos de los eigenrostros. El peso del
primer eigenface es muy grande, casi igual a la unidad, en cambio los valores de los
pesos siguientes van decrementando conforme el número de eigenfaces aumenta.
La reconstrucción del rostro es
(3.11)
1=1
Las variaciones que puedan existir entre el rostro reconstruido y el original, se
muestran a través del error de reconstrucción
e
(distancia Euclideana).
e = ||4 -
9
f
\\
(3.12)
donde
ti =
F
-3.2.2 Proyección de las imágenes
El método de proyección consiste en dado un vector a; y el punto definido por el
vector y, encontrar el punto
p
a lo largo de de la dirección definida por
x
que esté muy
cercano a
y
(ver figura 3.4).
La proyección
p
del punto
y
hacia el espacio de
x
esta dado por
3.2. Métodos
21
Figura 3.4:
Proyección del vector x hacia el vector y
Sean
x¡ y
r/, los vectores columna
i =
1,...,
n
de dos imágenes
A, B
con dimensiones
m
x n,(m renglones, n columnas) cuyas condiciones de iluminación son diferentes en
cada imagen, entonces los n vectores columna de la imagen
B
se trasladarán hacia el
espacio vectorial de los
n
vectores columna de
A.
La reconstrucción del rostro es
desde
i =
1, ...,n siendo
n
el número total de columnas de la imagen.
(3.14)
Existe otra manera de proyectar la imagen
B
hacia el espacio vectorial de la
imagen
A
siendo a través de los
m
vectores renglón de ambas imágenes. En la presente
tesis no se optó por esta forma ya que se observan mejores resultados en la proyección
de las imágenes a través de los vectores columna, ver figura 3.5. El primer renglón de
la figura 3.5 es la imagen
A
con condición de iluminación neutral y
B
cuya condición
de iluminación presenta sombra en la parte derecha del rostro. En el segundo renglón,
el primer rostro es el resultado de proyectar a través de los vectores columna la imagen
A
hacia el espacio vectorial de la imagen
B,
en cambio el segundo rostro muestra el
resultado de proyectar éstas mismas imágenes pero a través de los vectores renglón.
3.2.3 Cociente de la Imagen
Figura 3.5:
Prove-ccióu de la imagen .4 hacia el espacio de a imagen
B
de la imagen: alineación global de la iluminación.
El objetivo del método es obtener diferentes condiciones de iluminación
a
proyectar
en la imagen
y
s
a partir de un conjunto de imágenes de entrenamiento
A \.
Partiendo de la definición del modelo Lambert [3.lj.se puede definir una colección
de objetos en 3D con forma similar pero con diferentes texturas y superficies creando
el espacio de la imagen. Deseando abarcar el espacio de la imagen
pn
r
s
donde
p \
s
varían (textura e iluminación respectivamente), se define
si.s^.s^
(tres vectores
linealmente independientes) dando
s = ^2jXjSj
para los coeficientes
x =
(xi.x-2.X3)
y
pi,...,pff
como las funciones de textura base definiendo
p =
J^
¿
a
t
p
t
para los
a/y-3.2. Métodos
23
Si
y
s
es una nueva imagen
y
con una textura
p
y
e iluminación s. entonces
"
r
(I>r*¿) (3-15)
,»=!
/
\j=l
Dadas TV matrices ^4i,..., ^4¿v llamadas conjunto de entrenamiento, cuyo tamaño es
m
x 3 (donde
m
representa el número de pixeles de la imagen y cada matriz contiene
tres imágenes como sus columnas) se define
/
(x) = min
x
,
a
.
N
(3.16)
el cual es un problema bilineal con
N +
3 incógnitas x, a,-. Resolviendo éstas
incógnitas, es posible generar el espacio de la imagen del objeto y para cualquier
iluminación deseada manteniendo a¿ fija y variando
x.
Una consideración importante
es que el tamaño del conjunto de entrenamiento
AN
debe de ser grande según lo
planteado por [2].
Minimizando la función 3.16 se obtiene
TV
x = '52<XiVi
(3-17)
¿=i
donde
V
1
A
T
T
A
r
Ajy
s
(3.18)
vr=l /
y los coeficientes a¿ son determinados a partir de la solución del sistema de
ecuaciones lineal homogéneo
N
Tk