Introducción: definiciones y estado del arte

Parte III: Inversión de la transformación y aplicaciones

9.1 Introducción: definiciones y estado del arte

Las métricas perceptuales constituyen métodos objetivos para determinar las diferencias perceptuales entre dos imágenes, por ejemplo entre una original y otra distorsionada, basados sobre todo en la cuantificación de la visibilidad de los errores (diferencias) entre la imagen distorsionada y una imagen de referencia, usando para ello propiedades conocidas del SVH. Estas métricas de calidad de imagen que utilizan la imagen original (sin distorsión) para compararla con la imagen distorsionada, se denominan con “referencia completa” (“full-reference”) y son las más frecuentes y de las que nos ocuparemos en este capítulo.

Las imágenes digitales están sujetas a una amplia variedad de distorsiones sufridas durante su adquisición, tratamiento, compresión, almacenamiento, transmisión y reproducción, que dan lugar a degradaciones de su calidad visual. En aquellas aplicaciones en las que las imágenes van a ser vistas por personas, el único método “correcto” de cuantificar la calidad visual de la imagen es la evaluación subjetiva. Sin embargo, en la práctica, la evaluación subjetiva requiere demasiado tiempo y es dificultosa y cara. De ahí que se investigue en métodos objetivos para obtener medidas cuantitativas que permitan predecir la calidad de imagen percibida, lo cual es una tarea bastante difícil, ya que la calidad percibida depende de múltiples factores tales como la distancia a la imagen, el tamaño de la pantalla, la resolución, el brillo, el contraste, el colorido y la naturalidad, entre otros.

Son numerosas las aplicaciones de adquisición y tratamiento de imágenes que pueden optimizarse utilizando una medida de la calidad visual, ya que muchas de estas aplicaciones se basan en medidas de distorsión. Algunos ejemplos son: compresión de imágenes, algoritmos de reducción de color (“dithering”), representación en pantalla plana y diseño de impresoras. En todas estas aplicaciones, el objetivo es reproducir fielmente la imagen, de forma que se parezca lo más posible al original.

Por otro lado, las herramientas de medida de la calidad visual de imagen dependen del estado del arte del modelado del SVH. Probablemente la medida de la calidad visual, esto es, la medida de la calidad percibida para una cierta imagen o secuencia de imágenes, sea la aplicación más directa de los modelos de visión el tratamiento de imágenes, puesto que las propiedades y limitaciones del SVH determinan la visibilidad de las distorsiones y por tanto, la calidad percibida.

Por todo lo expuesto, la medida de la calidad perceptual de la imagen no es una aplicación más, sino que tiene una especial relevancia en tratamiento de imágenes y modelado del SVH en general y, en particular, en el contexto de esta Tesis.

La métrica de calidad de imagen con “referencia completa” más sencilla y más extendida en tratamiento de imagen y vídeo, es el error cuadrático medio (Mean Squared Error o MSE), que es el valor medio de las diferencias de intensidad de los píxeles al cuadrado entre la imagen distorsionada I y la de referencia Ĩ. Si las imágenes tienen X x Y píxeles, entonces la expresión del MSE es la siguiente:

[

∑∑

− ⋅ ⋅ = x y y x I y x I Y X MSE 1 ( , ) ~( , )

]

2 (9.1)

Muy relacionada con el MSE, otra métrica es la relación señal a ruido pico (Peak Signal-to-Noise Ratio o PSNR), que en decibelios se define como:

      ⋅ = MSE m PSNR 2 10 log 10 (9.2)

donde m es el valor máximo que puede tomar un píxel (p.ej., 255, en imágenes de 8 bits). Nótese que el MSE y la PSNR están definidos para información de luminancia; en cuanto interviene el color, ya no existe acuerdo acerca de cómo calcular estas magnitudes.

El MSE y la PSNR son tan populares porque son sencillas de calcular, tienen un significado físico claro, y, matemáticamente hablando, son muy adecuadas en el contexto de la optimización. La principal ventaja de estas dos métricas es su facilidad de uso, ya que no requieren ninguna información acerca de las condiciones de visionado, no se adaptan al contenido local de la imagen y los cálculos son muy sencillos y rápidos. Por otro lado, minimizar el MSE es equivalente a hacer una estimación de máxima verosimilitud considerando que los errores son independientes y siguen una distribución gaussiana. Sin embargo, también tienen un serio inconveniente y es que no son una buena medida de la calidad visual percibida (ver p.ej. Girod, 1993; Teo y Heeger 1994; Eskicioglu y Fisher, 1995; Eckert y Bradley, 1998; Winkler, 1999; Wang et al., 2002). Como están basadas en una comparación píxel a píxel de las imágenes, son una aproximación excesivamente grosera de la distorsión o calidad percibida por observadores humanos. Así por ejemplo, en ciertas situaciones puede mejorarse la calidad de imagen subjetiva añadiendo ruido y por tanto reduciendo la PSNR. Además,

la visibilidad de las distorsiones depende en gran medida del contenido de la imagen, propiedad que se conoce como enmascaramiento. Las distorsiones son con frecuencia mucho más molestas en las regiones relativamente homogéneas de una imagen que en las regiones texturadas o con mucha “actividad”, efecto que no consideran las métricas basadas en diferencias de píxeles. Por lo tanto, la calidad percibida de dos imágenes con la misma PSNR puede ser de hecho muy diferente. Ni siquiera el MSE ponderado perceptualmente proporciona predicciones fiables de la calidad visual para diferentes imágenes, lo que demuestra que las medidas de error basadas en píxeles no son adecuadas para determinar dicha calidad cuando se trabaja con diferentes escenas y tipos de distorsión. Es por todo esto que para obtener métricas fiables es imprescindible tener en cuenta el modo en el que el SVH procesa la información visual y así, en las últimas tres décadas, se han realizado grandes esfuerzos para desarrollar métodos de determinación de la calidad de imagen basados en el SVH.

Al evaluar la calidad de una imagen, ésta última puede considerarse como la suma de una señal de referencia no-distorsionada y una señal de error. Una hipótesis ampliamente aceptada es que la pérdida de calidad perceptual está directamente relacionada con la visibilidad de la señal de error. La mayoría de los métodos de determinación de la calidad perceptual de las imágenes tratan de “pesar” los diferentes aspectos de la señal de error en función de su visibilidad, determinada ésta a partir de medidas psicofísicas en humanos o medidas fisiológicas en animales. Esta forma de abordar el problema fue propuesta inicialmente por Mannos y Sakrison (1974) y ha sido extendida posteriormente por muchos otros investigadores.

La Figura 9.1 muestra un sistema genérico de determinación de la calidad de imagen basado en la sensibilidad visual al error (Wang et al., 2004). La mayoría de las métricas perceptuales siguen un esquema similar, si bien difieren en los detalles. Las etapas del esquema son las siguientes:

1. Preprocesamiento. Esta etapa realiza típicamente una serie de operaciones

básicas para eliminar distorsiones conocidas de las imágenes que van a compararse. Primero, la imagen distorsionada y la de referencia se escalan y alinean adecuadamente. Segundo, a veces las imágenes se transforman a un espacio de color más adecuado para el SVH. Tercero, las métricas pueden necesitar convertir los valores digitales de los píxeles almacenados, en valores de luminancia de la pantalla de visualización, mediante transformaciones no- lineales puntuales. Cuarto, puede aplicarse un filtrado paso bajo que simule la PSF (Point Spread Function) de la óptica del ojo. Finalmente, la imagen de

referencia y la distorsionada deben convertirse a unidades de contraste para simular la adaptación a la luz.

Figura 9.1: Sistema genérico de determinación de la calidad de imagen basado en la sensibilidad al error. Nótese que el filtrado CSF puede implementarse en una etapa aparte (como se muestra) o bien dentro de la etapa de normalización del error. (Wang et al., 2004).

2. Filtrado CSF. Como ya vimos en el Capítulo 3, la CSF describe lo sensible que es el SVH a las diferentes frecuencias espaciales y temporales que están presentes en los estímulos visuales. Algunas métricas de la calidad de imagen incluyen una etapa que pondera la señal según esta función (típicamente implementada con un filtro lineal que aproxima la respuesta en frecuencia de la CSF). Recientemente, sin embargo, se tiende a implementar la CSF como un factor de normalización tras la descomposición en canales.

3. Descomposición en canales. Habitualmente, las imágenes se descomponen en

subbandas (conocidas como “canales” en la literatura de psicofísica) con diferentes frecuencias espaciales y temporales así como diferentes orientaciones. Mientras que algunas métricas implementan sofisticadas descomposiciones en canales relacionadas con las respuestas de las neuronas del córtex visual primario, muchas otras usan transformaciones más sencillas tales como la DCT o transformadas wavelet separables.

4. Normalización del error. En esta etapa, se calcula para cada canal el error

(diferencia) entre la descomposición de la imagen de referencia y la de la imagen distorsionada, y se normaliza según un cierto modelo de enmascaramiento, que tiene en cuenta el hecho de que la presencia de una componente en la imagen reduce la visibilidad de otras componentes próximas en espacio, tiempo, frecuencia espacial y orientación. Este mecanismo de normalización pondera la señal de error en cada canal según un umbral de visibilidad que varía espacialmente. El umbral de visibilidad en cada punto se obtiene a partir de la energía de los coeficientes de la imagen de referencia y/o

de la imagen distorsionada en un vecindario (que puede incluir coeficientes adyacentes en el espacio, del mismo canal o bien de otros canales) y la sensibilidad base para el canal. De este modo, el error queda expresado en términos de mínimas diferencias perceptibles (Just Noticeable Difference o JND). Algunos métodos consideran también el efecto de la saturación de la respuesta al contraste.

5. Suma de errores La última etapa combina las señales de error de toda la imagen a lo largo de las diferentes respuestas y canales, para obtener así un único valor. Típicamente, esto se realiza usando la norma de Minkowski:

β β 1 ,       =

∑∑

l k lk error M (9.3)

donde errorl,k es el error normalizado correspondiente al coeficiente k del canal l, y β es una constante normalmente entre 1 y 4. La suma de Minkowski puede realizarse primero en espacio (índice k) y luego en frecuencia (índice l) o a la inversa, con alguna no-linealidad entre ambas o con diferentes exponentes β. También puede usarse un mapa espacial que indique la importancia relativa de las diferentes regiones, para poder hacer así una ponderación espacialmente variante.

Revisemos ahora brevemente algunas de las métricas perceptuales propuestas en la literatura. Revisiones más exhaustivas pueden encontrarse en Ahumada (1993), Eckert y Bradley (1998), y Pappas y Safranek (2000).

Las primeras métricas perceptuales descomponían la imagen en un único canal, esto es, modelaban el SVH como un filtro espacial cuyas características estaban definidas por la CSF y la detectabilidad se determinaba aplicando un umbral a la imagen filtrada.

Mannos y Sakrison (1974) propusieron la primera métrica perceptual, en un intento de incorporar características del SVH a las métricas de calidad de imagen. En concreto estos autores consideraron dos aspectos bien conocidos de la percepción visual, a saber, la adaptación a la luminancia y la CSF, que caracterizaron a partir de experimentos psicofísicos de visibilidad de franjas sinusoidales. Así, tras una no-linealidad, las dos imágenes de entrada eran filtradas según la CSF, definiéndose la distorsión como el valor cuadrático medio de las diferencias entre las imágenes filtradas. Esta métrica, debido sobre todo a que utiliza un único canal y a que no incorpora enmascaramiento de contraste, no predice correctamente la calidad de imagen en muchas circunstancias, pero

fue la primera en reconocer la importancia de aplicar las ciencias de la visión al tratamiento de imágenes. Métricas más recientes con un solo canal son las de Saghri et al. (1989), Nill y Bouzas (1992) y Ahumada (1996). Gracias a una serie de extensiones y mejoras, este tipo de métricas se usa todavía hoy en día por su simplicidad y eficiencia computacional, a pesar de sus limitaciones a la hora de predecir la calidad de imagen. Por ejemplo, estas métricas no son adecuadas cuando se trabaja con imágenes más complejas y, a diferencia de las métricas multicanal que veremos a continuación, no son capaces de reproducir los resultados empíricos de los experimentos de enmascaramiento y adaptación a patrones.

Las métricas perceptuales multicanal están basadas en la teoría multirresolución de la visión y utilizan un conjunto de canales diferentes en lugar de uno sólo. De esta forma, cada banda de frecuencias espaciales es procesada por un canal independiente y la CSF viene a ser la envolvente de la sensibilidad en estos canales. La detección se produce cuando la señal contenida en cualquier banda alcanza un cierto valor umbral. El desarrollo de las métricas perceptuales multicanal culminó a principios de los 90, con la aparición de dos métricas basadas en datos psicofísicos y fisiológicos de la visión temprana: el Predictor de Diferencias Visuales (Visual Differences Predictor o VDP) de Daly (1993) y el Modelo Sarnoff de Discriminación Visual (Visual Discrimination

Model o VDM) de Lubin (1993). Estas métricas fueron las primeras en proporcionar

una adecuada predicción de la visibilidad de las distorsiones en torno al umbral visual. La estructura de las métricas de Daly y de Lubin es bastante similar, ya que ambas modelan el SVH como una serie de etapas lineales y no-lineales, entre las que se encuentran: un filtrado según la CSF, una descomposición en subbandas orientadas de frecuencia con un ancho de banda de una octava, enmascaramiento de contraste, cálculo de las distancias perceptuales entre las descomposiciones de las imágenes, y suma de errores a lo largo de las bandas de frecuencia. El resultado de ambas métricas es un mapa de diferencias visibles que indica, para cada píxel de las imágenes de entrada, la probabilidad de que una diferencia en ese píxel entre las dos imágenes, sea apreciable. Ninguna de estas dos métricas perceptuales incluye enmascaramiento entre orientaciones (para implementar el enmascaramiento de contraste sólo utilizan la energía contenida en una banda con una orientación dada) ni tampoco entre posiciones espaciales adyacentes. Del mismo modo, la suma de errores para obtener el mapa de diferencias visibles se realiza a lo largo de los canales de frecuencia y no a lo largo de la dimensión espacial.

Una métrica muy interesante, y en la que está basada la métrica que presentamos en este capítulo, es la de Teo y Heeger (1994). La métrica de Teo y Heeger está inspirada

en las propiedades de las respuestas de las neuronas del córtex visual primario (V1) así como en la psicofísica de la detección de patrones espaciales. Estos dos aspectos son muy relevantes para el desarrollo de métricas de la calidad perceptual de imágenes. Téngase en cuenta que, como sabemos, la región V1 es la encargada de transmitir la información visual al resto de regiones cerebrales implicadas en la visión, de modo que dos imágenes parecerán idénticas si dan lugar a respuestas idénticas en todas las neuronas de V1. Por otro lado, una métrica que pueda predecir correctamente la detección de patrones espaciales es muy útil para las aplicaciones de tratamiento de imágenes. En concreto, la métrica de Teo y Heeger está basada en el mecanismo de control de ganancia de contraste observado en las células simples del córtex visual (Albrecht y Geisler, 1991; Heeger, 1992a, 1992b), que hace que las respuestas neuronales estén dentro del rango dinámico permitido al mismo tiempo que conserva la información global sobre el patrón. En la métrica, este mecanismo está implementado con una normalización divisiva en la que, tras una no-linealidad expansiva, la respuesta de cada neurona se divide entre una suma inhibitoria de respuestas de otras neuronas. La medida de distorsión se calcula a partir de las respuestas normalizadas resultantes con una simple norma del error. Una característica importante de esta métrica es que el enmascaramiento no depende de la energía contenida en una única banda, sino también de la energía en bandas con diferentes orientaciones. Los modelos del control de ganancia de contraste han llegado a ser bastante populares y han sido generalizados en los últimos años (Watson y Solomon, 1997; Graham y Sutter, 2000). Estos modelos pueden predecir correctamente la elevación del umbral de detección de contraste, esto es, la discriminación de contraste para una señal, típicamente una sinusoide o una función de Gabor, en presencia de una máscara (señal enmascarante) del mismo tipo pero con diferente frecuencia, fase o contraste.

Una de las métricas perceptuales más recientes y completas es la propuesta por Westen et al. (1995). La métrica incorpora un filtrado según la CSF, adaptación a la luminancia similar a la de Peli (1990), una descomposición en múltiples bandas orientadas de frecuencia, enmascaramiento de contraste como Daly (1993), y suma de errores utilizando la métrica de Minkowski, primero a lo largo de bandas de frecuencia con la misma orientación, después a lo largo de bandas de frecuencia con distinta orientación y finalmente a lo largo del espacio. Una diferencia importante de esta métrica respecto a las métricas anteriores es que en la suma de errores utiliza exponentes diferentes para las diferentes orientaciones, lo que está en consonancia con los resultados de algunos experimentos de enmascaramiento de contraste. Más recientemente, Bradley (1999) propuso una métrica similar a la de Daly (1993) con la

diferencia de que utilizó transformadas wavelet sobrecompletas y también con muestreo crítico. De este modo, pudo comprobar que las transformadas wavelet sobrecompletas proporcionan predicciones más fiables que las transformadas wavelet con muestreo crítico y llegó a la conclusión de que los principales problemas de estas últimas son el solapamiento entre canales de frecuencia adyacentes, que da lugar a “aliasing” en las subbandas, y la falta de invarianza a traslación.

En resumen, las métricas perceptuales propuestas hasta la fecha tienen por lo general una serie de características comunes. Estas métricas incorporan un filtrado CSF y adaptación a la luminancia, con diferencias poco significativas. Luego implementan una descomposición en frecuencia multicanal con ancho de banda fijo o bien en octavas, que separa por completo las diferentes orientaciones o bien mezcla la información de las diagonales a 45º y 135º. En general estas métricas no tienen en cuenta las preferencias de los observadores por encima de los umbrales de visibilidad. Las diferencias fundamentales suelen estar en la implementación del enmascaramiento de contraste y en la forma de sumar los errores a lo largo del espacio y la frecuencia. Esta variedad de propuestas refleja el hecho de que no existe acuerdo acerca de cuál es el mejor modelo psicofísico para estos dos factores perceptuales. Decantarse por una u otra métrica es difícil, ya que existen pocos estudios comparativos que hayan investigado la capacidad de predicción de unas métricas en relación a la de las otras. Esto se debe a que la implementación de las métricas es a menudo compleja y además es muy costoso validarlas psicofísicamente.

En este capítulo, presentamos una métrica perceptual de la distorsión de imagen similar a la propuesta por Teo y Heeger (1994). Tres son las aportaciones (diferencias) más importantes de nuestra métrica con respecto a la de Teo y Heeger: primero, nuestra normalización divisiva considera no sólo respuestas vecinas en orientación sino también en espacio y escala; segundo, las respuestas vecinas, tras elevarse al cuadrado, no se suman directamente sino que primero se multiplican por unos ciertos pesos; y tercero, los parámetros libres de la normalización divisiva están adaptados a la estadística de las imágenes naturales en lugar de fijarse ad hoc mediante ajuste directo a datos psicofísicos de experimentos de enmascaramiento. A pesar de que nuestra normalización no es ad hoc, es decir, no está optimizada para reproducir estos resultados experimentales, es capaz de reproducir muy bien (ligeramente peor que la métrica de Teo y Heeger, y mucho mejor que otras métricas perceptuales más sencillas) datos psicofísicos relacionados con el enmascaramiento de una función de Gabor en

In document Representación no-lineal de imágenes basada en el sistema visual humano y adaptada a la estadística de imágenes naturales (página 168-176)