2. Detección y estimación de la pose de rostros humanos
2.4. Resultados
2.4.2. Resultados de la detección de cabeza y estimación de pose
estado del arte usando imágenes RGB y de profundidad.
Primero de todo, es importante mencionar que la estimación para la dirección, la ele- vación y el alabeo, reduce el error con respecto a [26], incluso para una tasa inferior de
2.4. RESULTADOS 21 Tabla 2.2: Resultados empleando la Biwi Kinect Head Pose Database.
Imágenes Modelo Posición Dirección Dirección Elevación Alabeo Perdidos Error (mm) Error Total (◦) (◦) (◦) (◦) ( %)
Profundidad [27] 8,1±5,3 9,8±8 333,,,888±±±333,,,777 6,7±6,6 4,3±4,9 1 [28] 10,8±6,1 12,2±9 5,5◦±5,8◦ 7,8◦±7,9◦ 5◦±4,4◦ 3 [26] 777,,,222±±±121212,,,111 7,3±5,9 4,1◦±6,9◦ 3,9◦±4◦ 3,2◦±3◦ 5 [9] 12,2±22,8 555,,,999±±±888,,,111 3,8±6,5◦ 333,,,555±±±555,,,888◦◦◦ 5,4±6,0◦ 6.6 [11] 14,7±22,5 – 9,2±13,7◦ 8,5±10,1◦ 8±8,3◦ 1
Imágenes Modelo Posición Dirección Dirección Elevación Alabeo Perdidos Error (píxeles) Error Total (◦) (◦) (◦) (◦) ( %)
RGB
[26] 3,2±1,4 9,8±6,8 5,8±5,9 5,8±4,8 3,5±3,4 2.4 Nuestro + KF 333±±±111,,,444 9,4±7,5 5,8±6,4 5,1±4,6 3,1±3,3 1.4 Nuestro + PF 333±±±111,,,444 9,1±6,9 5,3±6,3 5,2±4,4 222,,,888±±±222,,,999 1.4
fotogramas perdidos (1,4 %). Además, nuestro modelo, haciendo uso del mismo bosque entrenado que [26], y considerando que el tracking es realizado únicamente para las es- timaciones de pose (no para la localización de la cabeza), alcanza un rendimiento en la detección de rostro ligeramente superior que en [26]. Los resultados muestran que el KF es capaz de reducir en gran medida los errores en elevación y alabeo. El PF nos permite reducir todos los errores de pose, y especialmente aquellos asociados con el alabeo. Ex- perimentalmente, se ha observado que el PF consigue una precisión ligeramente superior a la lograda por el KF. En conclusión, nuestra aproximación supera el estado del arte reportado en [26], tanto en lo relativo a la detección de rostro como a la estimación de pose de cabeza, cuando además solo se han empleado imágenes RGB.
Notar que nuestro modelo emplea simples datos RGB, superando incluso los resulta- dos de métodos que necesitan imágenes de profundidad, como [26, 28, 27]. Es relevante apuntar que nuestro error para las estimaciones de alabeo es el mas bajo en ser reportado haciendo uso de este conjunto de datos. Atendiendo a los errores en dirección y elevación, el incremento de nuestro error es de1,5◦ y 1,7◦, respectivamente, comparado con los mé- todos ganadores que hacen uso de la profundidad. Para el error en la dirección de la nariz, nuestro método se encuentra lejos de [11], pero se debe notar que su ratio de fotogramas perdidos es mayor. Para un ratio comparable de fotogramas perdidos, p.ej. [27], nuestro método ofrece una estimación de la dirección de la nariz ligeramente mejor.
Como conclusión, se puede afirmar que nuestro modelo es capaz de mejorar los resul- tados del estado del arte para el problema de la estimación de pose de cabeza en imágenes RGB, lo que es una importante contribución. Los resultados cualitativos se proporcionan en la Figura 2.6.
Nuestro modelo ha sido diseñado para realizar una rápida estimación para el HCI, mientras que la precisión no se ve degradada. En el siguiente experimento, se evalúa el rendimiento de nuestra aproximación como función del parámetro de salto de píxeles. Recordar que este parámetro controla el muestreo espacial de los parches a ser extraídos en una región de entrada de un candidato identificada por el paso del detector de piel. Este parámetro se puede ajustar para definir el balance deseado entre precisión y velocidad de
22CAPÍTULO 2. DETECCIÓN Y ESTIMACIÓN DE LA POSE DE ROSTROS HUMANOS 0 2 4 6 8 10 8.5 9 9.5 10 10.5 Pixel stride Direction error PF
Estimation w/o tracking
(a) 0 2 4 6 8 10 0 1 2 3 4 5 6 Pixel stride FPS PF KF (b) 10 20 30 40 50 86 88 90 92 94 96 98 100
Head error threshold (mm)
Accuracy % (c) 10 15 20 25 30 65 70 75 80 85 90 95 100
Angle error threshold (degrees)
Accuracy %
PF
Estimation w/o tracking
(d)
Figura 2.5: (a) y (b) resultados cuantitativos como función del parámetro de salto de píxe- les. (a) Errores para la dirección de la nariz. (b) Fotogramas Por Segundo (FPS). Precisión de fotograma de nuestro método para diferentes umbrales de éxito. (c) La posición de la cabeza en mm y (d) La pose de la cabeza en grados.
2.4. RESULTADOS 23
Figura 2.6: Resultados cualitativos. Valor real en azul, estimaciones buenas en verde y estimaciones erróneas en rojo.
ejecución del proceso. La Figura 2.5(a) muestra como el error en la dirección varía con el salto de píxeles. Podemos observar como nuestro modelo con PF reporta sistemáticamente mejores resultados que nuestra implementación sin tracking. Esto revela que la solución de tracking implementada mejora realmente el rendimiento del sistema. La Figura 2.5(b) muestra los fotogramas por segundo de nuestra implementación para diferentes valores de salto de píxeles. Es relevante destacar que nuestra aproximación es capaz de procesar hasta 3 fotogramas por segundo, haciendo uso del PF, reportando un error de dirección inferior a 11◦.
Finalmente, se reporta la precisión como función del umbral de éxito para el error de la localización de la cabeza y el error en la estimación de pose en las Figuras 2.5(c) y 2.5(d), respectivamente. Podemos observar (ver Figura 2.5(c)) que nuestro modelo proporciona un buen rendimiento para todos los umbrales de éxito en la regresión de la posición de la cabeza. Alcanza un87,24 % para el umbral mas restrictivo, el de 10 mm. Con respecto al umbral del error de ángulo empleado para evaluar la estimación de pose, la Figura 2.5(d) muestra que el tracking con PF mejora la precisión del modelo. Es importante mencionar que para un umbral restrictivo de 10◦, nuestra implementación con tracking reporta un 68,2 % de precisión, comparado con el 65 % de nuestra aproximación sin la etapa de tracking.
Capítulo 3
Sistema de detección de carriles de
circulación mediante estimación de
pose de vehículos
3.1.
Modelo teórico de la estimación de pose en vehícu-
los
En este capítulo se van a analizar los experimentos realizados y los resultados obtenidos en lo relativo a la estimación de pose en vehículos, y en concreto a su aplicación a la estimación de carriles.
En este caso, el HF es empleado para la detección y estimación de pose, al igual que en el caso de estimación de pose en cabezas.
En cuanto a la etapa de entrenamiento, el proceso ha sido realizado de forma análoga al caso anterior, con la diferencia de que los árboles del HF han sido entrenados con imágenes de vehículos. En estas imágenes, el vehículo dispone de un amplio tamaño de píxeles, y la resolución de dichas imágenes es mayor que las habituales imágenes de tráfico, por lo que será posteriormente, antes de lanzar los parches de imágenes por los RF durante la etapa de test, cuando se realicen ajustes de resolución de cada fotograma de entrada al sistema. Además, cabe destacar que estas imágenes disponen de un vector de localización
θ1 = (θ
x, θy), por lo que se nota la eliminación de la componente z de dicho vector, ya que la información proporcionada por esta coordenada no se considera relevante para tareas de estimación. En cuanto al vector de orientación, θ2 = (θacimut, θzenit), se puede observar como las imágenes han sido anotadas con información de orientación relativa a los ángulos de zenit y acimut, los cuales van a describir la trayectoria que siguen dichos vehículos en la imagen. Además, de forma adicional, se ha anotado la anchura y altura medias de las cajas contenedoras de los vehículos en las imágenes de entrenamiento, para poder ser empleada durante la etapa de test en la diferenciación clara de los diferentes vehículos estimados.