Análisis de la calidad perceptual de video utilizando el estándar de compresión H 265/HEVC

Texto completo

(1)Universidad Central “Marta Abreu” de Las Villas Facultad de Ingenierı́a Eléctrica Departamento de Electrónica y telecomunicaciones. TRABAJO DE DIPLOMA. Análisis de la calidad perceptual de video utilizando el estándar de compresión H.265/HEVC.. Tesis presentada en opción al grado de Ingeniero en Telecomunicaciones y Electrónica. Autor: Yazdani López Pérez Tutor: Msc. Rafael Alejandro Olivera Solı́s. Santa Clara 2017 “Año 59 de la Revolución”.

(2) Universidad Central “Marta Abreu” de Las Villas Facultad de Ingenierı́a Eléctrica Departamento de Electrónica y telecomunicaciones. TRABAJO DE DIPLOMA Análisis de la calidad perceptual de video utilizando el estándar de compresión H.265/HEVC. Tesis presentada en opción al grado de Ingeniero en Telecomunicaciones y Electrónica Autor: Yazdani López Pérez email: [email protected]. Tutor: Msc. Rafael Alejandro Olivera Solı́s Prof. Asistente Dpto. de Electrónica y Telecomunicaciones, Facultad de Ing. Eléctrica, UCLV email: [email protected]. Santa Clara 2017 “Año 59 de la Revolución”.

(3) Hago constar que el presente trabajo de diploma fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de estudios de Ingenierı́a en Telecomunicaciones y Electrónica, autorizando a que el mismo sea utilizado por la Institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos, ni publicados sin autorización de la Universidad.. Yazdani López Pérez Autor. Fecha. Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.. Yazdani López Pérez Autor. Fecha. , Jefe del Departamento. Fecha. Responsable ICT o J’ de Carrera, Responsable de Información Cientı́fico-Técnica. Fecha.

(4) PENSAMIENTO. “No basta dar pasos que un dı́a puedan conducir hasta la meta, sino que cada paso ha de ser una meta, sin dejar de ser un paso”. Johann Peter Eckermann.. i.

(5) DEDICATORIA. A mi madre, por estar siempre pendiente del desarrollo de mi carrera, por su paciencia y compromiso.. A mi padre por legarme su ejemplo e inspirarme a seguir su camino,por comprenderme siempre y darme los mejores consejos.. A mi hermano por su apoyo incondicional. A ellos, por ser los responsable de mi formación y educación, por confiar en mı́, y por su comprensión durante toda mi vida para la realización de mis metas.. ii.

(6) AGRADECIMIENTOS. Especialmente a mis padres, que me han apoyado en todo momento y han sabido guiarme hasta convertirme en quien soy hoy. A mi hermano y a Mónica, por sus apoyos incondicionales y por impulsarme en los momentos mas difı́ciles. A mi tutor Rafael por su apoyo desde los inicios de mi carrera, por confiar en mı́ siempre, y sobre todo por ser mi amigo. A mi novia Claudia por su comprensión, amor y apoyo, y a su familia por acompañarme prácticamente durante toda mi carrera , y convertirlos en alegrı́a. A mi tı́o Arnaldo por entenderme, ayudarme y preocuparse por mı́. A los amigos y compañeros de estudio, por compartir juntos estos cinco años de carrera, sobre todo a Rigo, Oscar, Julio, José y Félix, Carlos “El Pipo”, Edgar, Adriana y muchos más que en los en los últimos tiempos hemos compartido nuestras victorias y derrotas. A Diamir De Avila que siempre nos apoyo, no solo en los criollos si no en lo que nos hiciera falta, de verdad le agradezco su amistad. A Juanita por nunca decirme un no cada vez que le pedı́a agua frı́a. A todos los profesores que durante la carrera han intervenido en mi formación profesional. En general quisiera agradecer a todo aquel que de una forma u otra, ayudó a la realización de este trabajo de diploma y a mi formación. Santa Clara, Cuba, 2016. iii.

(7) RESUMEN. El desarrollo de la transmisión de la televisión digital en Cuba comenzó con el anuncio en el 2011 de que Cuba utilizarı́a la norma china (DTMB, del inglés Digital Terrestrial Multimedia Broadcast), para la difusión de la televisión digital. Sin embargo,el proceso migratorio está en marcha y se pretende lograr el “apagón analógico” en el 2021. Mundialmente el avance de la televisión digital ha impuesto retos a los desarrolladores de formatos de compresión de video pues los formatos Ultra Alta Definición requieren una buena calidad de imagen y de razones de bit elevadas pero que se ajusten a la razón de transmisión establecida para el canal. Es el códec HEVC/H.265 (High Efficiency Video Codification) el nuevo estándar de codificación de video que fue desarrollado conjuntamente por las organizaciones ITU-T VCEG (Video Coding Experts Group) e ISO/IEC MPEG (Moving Picture Experts Group). Su objetivo principal es mejorar la compresión de video, en relación a los anteriores estándares, manteniendo la misma calidad visual. En este trabajo se realizó una sı́ntesis de los formatos de compresión video más importantes desde sus inicios hasta la actualidad. Se analiza el códec H.265 y se evalúan las medidas objetivas de calidad visual PSNR (Peak Signal-to-Noise Ratio), SSIM (Structural Similarity) MSE(Mean Square Error ), VQM(Video Quality Metric) y MSAD(Mean Sum of Absolute Difference). Además, se codifican materiales audiovisuales utilizando herramientas de código abierto y utilizando el HPC de la Universidad Central Marta Abreu de Las Villas.. iv.

(8) TABLA DE CONTENIDO Página PENSAMIENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. i. DEDICATORIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ii. AGRADECIMIENTOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. iii. RESUMEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. iv. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.. 5. MODELOS DE CALIDAD PERCEPTUAL DE VIDEO . . . . . . . . . . 1.1.. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.2.. Calidad perceptual de video . . . . . . . . . . . . . . . . . . . . . .. 5. 1.3.. Métodos subjetivos de evaluación . . . . . . . . . . . . . . . . . . .. 5. 1.3.1. Métodos propuestos en ITU-R BT.500-11: . . . . . . . . . . .. 6. 1.3.2. Métodos propuestos en ITU-T P.910 . . . . . . . . . . . . . .. 8. 1.4.. Métodos objetivos de evaluación . . . . . . . . . . . . . . . . . . . .. 9. 1.5.. VQEG (Video Quality Expert Group) . . . . . . . . . . . . . . . . .. 11. 1.5.1. FR-TV (Full Reference TV ). . . . . . . . . . . . . . . . . .. 14. 1.5.2. RRNR-TV (Reduced Reference/No reference TV) . . . . . .. 16. 1.5.3. MM (MultiMedia). . . . . . . . . . . . . . . . . . . . . . . .. 17. 1.5.4. HD-TV (High Definition TV) . . . . . . . . . . . . . . . . .. 19. 1.5.5. Hybrid Perceptual / Bitstream . . . . . . . . . . . . . . . . .. 21. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 22. 1.6. 2.. Métricas existentes de estimación de calidad de video. . . . . . . . . . . .. 24. 2.1.. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. 2.2.. H.265/HEVC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. 2.2.1. Capa de codificación de video. . . . . . . . . . . . . . . . . .. 25. v.

(9) 2.3.. Métricas existentes de estimación de calidad de video . . . . . . . .. 28. 2.3.1. PSNR Y MSE . . . . . . . . . . . . . . . . . . . . . . . . . .. 28. 2.3.2. SSIM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 30. 2.4.. MSAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 33. 2.5.. VQM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 2.6.. FFmpeg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 36. 2.6.1. Descripción del Proyecto FFmpeg . . . . . . . . . . . . . . .. 36. 2.6.2. Descripción del funcionamiento de FFmpeg. . . . . . . . . .. 38. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 38. EVALUACIÓN DE LAS MÉTRICAS DE CALIDAD DE VIDEO EN FUNCIÓN DE LOS PARÁMETROS DE CODIFICACIÓN. . . . . . . . . . .. 39. 3.1.. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 39. 3.2.. Clúster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 39. 3.2.1. Clasificación de los clústeres . . . . . . . . . . . . . . . . . .. 39. 3.2.2. Componentes de un clúster . . . . . . . . . . . . . . . . . . .. 41. 3.2.3. Funcionamiento del gestor de recurso OpenPBS . . . . . . .. 42. 3.2.4. Colas del sistema . . . . . . . . . . . . . . . . . . . . . . . .. 43. 3.3.. MSU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44. 3.4.. Codificaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44. 3.4.1. Análisis de las muestras sin compresión . . . . . . . . . . . .. 45. 3.4.2. Escenarios de codificación. . . . . . . . . . . . . . . . . . . .. 46. 3.5.. Resultados de la codificación . . . . . . . . . . . . . . . . . . . . . .. 48. 3.6.. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 52. CONCLUSIONES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 53. RECOMENDACIONES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 54. REFERENCIAS BIBLIOGRÁFICAS . . . . . . . . . . . . . . . . . . . . . . . .. 55. REFERENCIAS BIBLIOGRÁFICAS . . . . . . . . . . . . . . . . . . . . . . . .. 58. A.. OPCIONES PRINCIPALES DEL PROYECTO FFMPEG . . . . . . . . .. 58. B.. CLASIFICACIÓN DE LOS CLÚSTER . . . . . . . . . . . . . . . . . . . .. 59. 2.7. 3.. vi.

(10) C.. OpenPBS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 61. D.. PERFILES DE DESEMPEÑO DE H.265. . . . . . . . . . . . . . . . . . .. 62. E.. CARACTERÍSTICAS DE LAS MUESTRAS SIN COMPRESIÓN . . . . .. 63. vii.

(11) INTRODUCCIÓN. La digitalización de la señal de televisión, que comenzó a realizarse en la década de los 80, abrió un abanico de aplicaciones que a dı́a de hoy resultan cotidianas, tales como la televisión de alta definición, el video bajo demanda, la televisión sobre IP, el video en terminales móviles o la televisión tridimensional [1] . Los medios más habituales de transmisión de videos son el internet y la televisión, principalmente la televisión digital. En la actualidad se está incrementando cada vez más la calidad de los contenidos multimedia que se producen, particularmente los relativos a video. Por ellos será fundamental la labor desempeñada por los códecs o compresión de video. Estos permitirán reducir el tamaño del video original de manera que se pueda adecuar al ancho de banda sin comprometer la calidad [2], ası́ como la necesidad de reducir el bit rate del video transmitido, y a su vez, mantener su calidad lo mayor posible, esto ha traı́do consigo la utilización de herramientas que permitan un proceso decodificación eficiente y con mayor calidad. El HEVC/H.265 asegura ofrecer una calidad de video idéntica a su antecesor, H.264, pero a la mitad de la tasa de bits. En general, HEVC tiene grandes ventajas con respecto a sus antecesores en cuanto a imagen, ahorro de ancho de banda e incluye una mejor compresión. Puedes reducir el tamaño de los videos HD sin dañar la calidad para liberar espacio, y también transformar videos SD (Standard Definition) a H.265 para mejorar los efectos visuales. Además cabe resaltar que soporta hasta 8K de resolución. HEVC permite un importante avance en la compresión con respecto a sus predecesores y su desarrollo fue un gran esfuerzo de colaboración que destiló el conocimiento colectivo de toda la industria y la comunidad académica en un único diseño coherente y extensible [3]. Las aplicaciones para HEVC no sólo cubrirán el espacio de los conocidos usos actuales y capacidades del video digital, sino que también incluirán el despliegue de nuevos servicios y la entrega de una calidad de video mejorada, como el despliegue de imágenes de Televisión de Ultra Alta Definición (UHDTV) y video con mayor rango dinámico, una gama más amplia de color representable y mayor precisión de representación de lo que se suele encontrar hoy en dı́a [3].. 1.

(12) INTRODUCCIÓN. 2. Los primeros trabajos en el tema estuvieron encaminados a la optimización del hardware y las plataformas computacionales que soportarı́an los procesos de codificación y decodificación de este estándar. En [4] se centran en la rápida implementación del codificador HEVC sobre los modernos procesadores Intel x86. Ya en 2013 y 2014 las publicaciones estuvieron enfocadas en la optimización de los procesos de codificación y decodificación, donde se dejaron definidas nuevas herramienta que permiten al estándar el salto cualitativo con respecto a sus predecesores. Posteriormente los estudios de esta norma giraron sobre su aplicación en las normas de video de UHD (4K y 8K) y cómo hacer este proceso de codificación lo más eficiente posible, con altas resoluciones, sin degradar la calidad visual. En [5]-[6] se realizan estudios que abarcan la propuesta de métodos de control de codificación de videos con resolución 8K con imágenes en movimiento. Además se realizan estudios de las nuevas tecnologı́as de UHD y las aplicaciones de este estándar. Se proponen métodos de compensación en videos 8K para mantener la calidad visual de las imágenes ante fenómenos como el zoomingglobal. Se realizan análisis de la razón de trasmisión optimizada para codificaciones con H.265 en aplicaciones de UHDTV [7]. La evaluación de la calidad de imágenes es un aspecto esencial dentro de las tareas de procesado. Para obtener una estimación precisa de la calidad de las imágenes se utilizan pruebas subjetivas. Sin embargo, éstas son generalmente costosas, tediosas y toman mucho tiempo. El objetivo es definir métricas cuantitativas que incorporen caracterı́sticas del Sistema Visual Humano (SVH) de manera que se pueda evaluar de forma automática la calidad de las imágenes. En [8] se analiza el códec H.265 y las métricas PSNR (Peak Signal-to-Noise Ratio) y SSIM (Structural Similarity) para medir la calidad de la codificación eficiente. Además, se codifican materiales audiovisuales utilizando herramientas de código abierto y utilizando el HPC de la Universidad Central Marta Abreu de Las Villas. En [9] se aborda la problemática de la eficiencia del códec H.265 para la codificación de video. Se realizó un análisis de los principales parámetros en los que se basa la compresión para medir la calidad del codificador. También se realiza un estudio de las herramientas usadas para la codificación como un clúster de computadoras y el software FFmpeg con las correspondientes librerı́as. Como se puede apreciar, en este campo, las investigaciones están realmente abiertas y con muchas oportunidades de aportes pues los avances en las diferentes tecnologı́as que aplican resoluciones de 4K y 8K en UHDTV son cada vez mayores y en constante.

(13) INTRODUCCIÓN. 3. desarrollo, por lo que darle respuesta a cada uno de los problemas, es un reto diario para los investigadores en el campo de HEVC/H.265. El auge de teléfonos inteligentes, computadoras portátiles o tabletas y otros dispositivos que incorporan funciones para la captura de imágenes y videos han inundado, de contenido multimedia de alta resolución, la Web. Dicho contenido presenta caracterı́sticas variables en cuanto a resolución, número de fotogramas por segundo, relación de aspecto, tasa de bit y formato contenedor multimedia de video. En muchas ocasiones, los inconvenientes con la transmisión, difusión, almacenamiento y/o reproducción del video digital de alta resolución encuentran solución en la compresión eficiente de datos. Pero no siempre la compresión eficiente se puede realizar. Los estándares de codificación imponen limitaciones en la precisión de las operaciones de muchos de los procesos internos del codificador. Ello provoca errores de redondeo que a su vez desembocan en una pérdida de eficiencia de codificación perceptible cuando se evalúan las medidas objetivas de calidad visual PSNR, SSIM, MSE(Mean Square Error ), VQM(Video Quality Metric) y MSAD(Mean Sum of Absolute Difference), de ahı́ que se formule la siguiente interrogante: ¿qué variaciones ocurren en las métricas de calidad perceptual de video modificando los parámetros de codificación en H.265/HEVC? Para darle respuesta a la interrogante anterior se plantean los siguientes objetivos: Objetivo general: Analizar el efecto de la variación de los parámetros de codificación sobre las métricas de calidad perceptual utilizando H.265/HEVC Objetivos especı́ficos: 1. Caracterizar los modelos de calidad perceptual de video. 2. Caracterizar las métricas de calidad para la compresión eficiente utilizando H.265/HEVC. 3. Evaluar las métricas de calidad de video en función de los parámetros de codificación. De los objetivos se generan las siguientes interrogantes cientı́ficas a las cuales se les dan respuesta en el desarrollo de la investigación: 1. ¿Cuál es el estado del arte con respecto a los modelos de calidad perceptual de video? 2. ¿Qué métricas de calidad se deben tener en cuenta para la compresión eficiente utilizando H.265/HEVC? 3. ¿Qué método de compresión es el idóneo para cada escenario de codificación? Con este proyecto se pretende contribuir al desarrollo de la TV Digital en Cuba, mediante un análisis de los diferentes formatos de compresión de video digital, ası́ como el estudio de las métricas de calidad que se deben tener en cuenta para la compresión eficiente utilizando H.265/HEVC, y con esto ofrecer una variante ante la problemática del procesamiento de video digital de alta calidad, con soluciones económicas factibles..

(14) INTRODUCCIÓN. 4. Contenido de la Tesis: El informe de la investigación se conformará de introducción, capitulario, conclusiones, recomendaciones, referencias bibliográficas y anexos. En el Capı́tulo I se realiza una análisis evolutivo de los modelos de calidad perceptual de video en función del desarrollo de la codificación de video. En el Capı́tulo II Se caracterizan el estándar H.265/HEVC y las tecnologı́as asociadas, se analiza el funcionamiento de la herramienta FFmpeg, especializada en el procesamiento de video y audio, en un clúster de alto rendimiento. Además se caracterizan las métricas de compresión eficiente de video que se utilizarán en los escenarios. En el Capı́tulo III se exponen las condiciones de codificación y se explican los escenarios implicados en las simulaciones. Al final se muestran los resultados del proceso de codificación. A partir de un análisis crı́tico de los resultados, se muestran las conclusiones de la investigación desarrollada, ası́ como también las recomendaciones en función de futuras investigaciones sobre el tema. Las referencias bibliográficas se relacionan posteriormente, mostrando que el tema es de actualidad y cuenta con marcada novedad. Concluyendo el trabajo aparecen los anexos..

(15) CAPÍTULO 1 MODELOS DE CALIDAD PERCEPTUAL DE VIDEO 1.1.. Introducción. En el presente capı́tulo se realiza un análisis de los modelos de calidad perceptual de video, haciendo enfasis en los modelos subjetivos y objetivos. Se caracterizan los modelos estandarizados según su aplicación. 1.2.. Calidad perceptual de video. En gran medida, la aceptación de una nueva tecnologı́a depende de la calidad de experiencia percibida (Quality of Experience - QoE) por parte del público. Poder contar con herramientas que permitan obtener esta información brinda a los operadores, la posibilidad de velar por la calidad de servicio que ofrecen a sus usuarios. De esta manera y siguiendo esta lı́nea de pensamiento se observó la necesidad de generar indicadores que permitan medir la calidad percibida por los usuarios[10]. Estimar la QoE no es una tarea sencilla, involucra un sinfı́n de factores que afectan la percepción global de la experiencia por parte del usuario. Por ello, se debió acotar el problema haciendo énfasis sólo en la calidad percibida de video, siendo uno de los principales factores que afectan la percepción global de la calidad. Existen dos métodos para medir la calidad percibida de video: 1. Métodos subjetivos de evaluación 2. Métodos objetivos de evaluación. 1.3.. Métodos subjetivos de evaluación. La manera más confiable de medir la calidad de una imagen o un video es la evaluación subjetiva, realizada por un conjunto de personas que opinan acerca de su percepción. La opinión media, obtenida mediante el “MOS” (Mean Opinion Score) es la métrica generalmente aceptada como medida de la calidad. Para ello, los experimentos subjetivos controlados continúan siendo actualmente los métodos de medida reconocidos en la estimación perceptual de la calidad del video. 5.

(16) 6. MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. Tabla 1–1: Categorı́as de valores de DMOS (DCR) La degradación es imperceptible La degradación es perceptible, pero no molesta La degradación es ligeramente molesta La degradación es molesta La degradación es muy molesta. 5 4 3 2 1. Diversos métodos subjetivos de evaluación de video son reconocidos, y están estandarizados en las recomendaciones ITU-R BT.500-11 [11], especialmente desarrollada para aplicaciones de televisión y ITU-T P.910 [12], para aplicaciones multimedia. En todos los métodos propuestos, los evaluadores son individuos que juzgan la calidad en base a su propia percepción y experiencia previa. Estos métodos tienen en común la dificultad y lo costoso de su implementación. La recomendación BT.500-11 detalla los métodos DSIS, DSCQS, SSCQE y SDSCE. La P.910 los métodos ACR, DCR y PR. Todos ellos se describen brevemente a continuación. 1.3.1.. Métodos propuestos en ITU-R BT.500-11:. Escala de degradación con doble estı́mulo (DSIS - Double Stimulus Impairment Scale) El método consiste en la comparación de dos estı́mulos, uno dado por la señal original (no degradada) y el otro por la señal degradada. En forma genérica, las señales pueden ser una imagen, una secuencia de imágenes o un video. Las condiciones de visualización, iluminación del ambiente, disposición de las personas respecto al monitor o televisor, etc. están controladas y detalladas en la recomendación[10]. Los participantes deben seleccionar una de entre cinco opciones, como se muestra en la Tabla 1–1: La estructura de la prueba consiste en mostrar la señal de referencia por unos segundos, y luego la señal degradada, por la misma cantidad de segundos. La misma secuencia se repite dos veces para cada prueba. Se solicita a los participantes que esperen hasta el final de cada secuencia de prueba para realizar su calificación (es decir, deben realizar la calificación luego de ver las dos secuencias de señal original / señal degradada)..

(17) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 7. Escala de calidad continua de doble estı́mulo (DSCQS - Double Stimulus Continuos Quality Scale) Al igual que en el método anterior, se presentan dos señales. Sin embargo, en este método se solicita a los participantes que califiquen la calidad de ambas señales, en lugar de la degradación. Se debe calificar tanto la señal de referencia (señal “A”)como la señal procesada o degradada (señal “B”). La calificación se realiza en base a una escala continua, utilizando una plantilla impresa de 10 cm de largo, donde se presentan las calificaciones indicadas en la Figura 1–1.. Figura 1–1: Escala DSCQS [10] La escala continua permite medir diferencias más precisas entre ambas señales, e incluso permite categorizar a la segunda señal con mejor calidad que la primera. Esto último podrı́a ser posible en el caso que se utilice este método para evaluar algoritmos de realce de video, o algoritmos que intenten mejorar la calidad (por ejemplo, compensar el “efecto de bloques”). Evaluación de calidad continua de estı́mulo único (SSCQE- Single Stimulus Continuous Quality Evaluation) A diferencia de los métodos anteriores, en este método, se presenta una única secuencia de video a ser evaluada. Este video puede o no tener degradaciones. También a diferencia de los otros métodos, se propone aquı́ una evaluación continua de la calidad del video, y no sólo una calificación global que integra las degradaciones de varios segundos. Para ello se utiliza un cursor móvil, conectado a una computadora, que permite registrar en forma continua las calificaciones. Se utiliza la misma escala presentada en la Figura 1–1. Dado que se toman muestras de la evaluación en forma continua, se puede asignar a cada instante del video su correspondiente calificación, lo que permite tener en forma mucho más detallada el efecto perceptual de cada una de las degradaciones[10]..

(18) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 8. Método de doble estı́mulo simultáneo para evaluación continua (SDSCE Simultaneous Double Stimulus for Continuous Evaluation) Cuando hay que evaluar la fidelidad, es necesario comparar una señal contra su referencia. El SDSCE ha sido elaborado a partir del SSCQE, con ligeras diferencias en cuanto a la manera de presentar las imágenes a los sujetos y con respecto a la escala de apreciación. El método fue propuesto a MPEG para evaluar el comportamiento frente a errores a velocidades de transmisión muy bajas, pero puede ser aplicado adecuadamente a todos los casos en los que hay que evaluar la fidelidad de la información visual afectada por la degradación que varı́a en función del tiempo. Con este método, el grupo de personas observa dos secuencias al mismo tiempo: una es la referencia, la otra es la señal degradada a evaluar. Ambas pueden ser presentadas dentro de un mismo monitor, o en dos monitores alineados. Se pide a los sujetos que comprueben las diferencias entre las dos secuencias y juzguen la fidelidad de la señal a calificar moviendo el cursor de un dispositivo de voto manual. Cuando la fidelidad es perfecta, el cursor debe estar en la parte superior de la escala (codificada con el valor 100), cuando la fidelidad es nula, el cursor debe estar en la parte inferior de la escala (codificada con el valor 0)[10]. 1.3.2.. Métodos propuestos en ITU-T P.910. Índices por categorı́as absolutas (ACR - Absolute Category Rating) El método ACR es un juicio de categorı́as en el que las secuencias de prueba se presentan una por vez y se califican independientemente en una escala de categorı́as. Se utiliza una escala de 5 niveles, como se presenta en la Tabla 1–2. Índices por categorı́as de degradación (DCR - Degradation Category Rating ) Es un método de doble estı́mulo, donde las secuencias se presentan por pares: el primer estı́mulo presentado en cada par es siempre la señal de referencia, mientras que el segundo estı́mulo es la señal degradada. Se pueden presentar las señales de referencia y la degradada en forma serial, una a continuación de la otra, o en forma conjunta, en el mismo monitor. La evaluación se realiza con la escala de 5 valores presentada en la Tabla 1–2. Método de comparación por pares (PC - Pair Comparison) El método se utiliza cuando se desean comparar degradaciones producidas por dos sistemas diferentes, sobre una misma señal de referencia. En el método PC se presenta una señal luego de pasar por un sistema, y a continuación la misma señal luego de.

(19) 9. MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. Tabla 1–2: Categorı́as de valores de MOS (ACR) Exelente Buena Mediana(Aceptable) Pobre Mala. 5 4 3 2 1. pasar por el otro sistema. Estos sistemas pueden ser simplemente codificadores, medios de transmisión, etc. Después de ver cada par de secuencias, se hace una apreciación sobre qué señal sufrió ”menos degradaciones”, en el contexto del escenario de prueba[10]. 1.4.. Métodos objetivos de evaluación. Los métodos subjetivos, presentados en la sección anterior, son costosos, difı́ciles de realizar, e impracticables en aplicaciones de tiempo real. Por esto se hace necesario el uso de métodos objetivos y automáticos, que puedan predecir con fiabilidad la calidad percibida, en base a medidas objetivas tomadas en algún punto del sistema. No existen hasta el momento métodos que permitan medir en forma objetiva la calidad percibida del video, que apliquen a todos los casos, incluyendo diversos codecs, formatos de pantalla, bitrates, framerates, ambientes de transmisión, etc. Sin embargo, existen varias propuestas de métodos o modelos de medida, aplicables únicamente en ciertas condiciones, y con diversa complejidad y precisión de sus resultados. Algunos de estos modelos han sido estandarizados, por ejemplo por la ITU-T. Otros han sido propuestos en publicaciones o congresos. En esta sección se realiza un análisis detallado de los diferentes métodos y modelos propuestos hasta el momento para estimar la calidad de video, indicando en cada caso sus limitaciones o rango de aplicación. Los métodos objetivos de medida de calidad pueden clasificarse según si lo que se analiza es el propio video (el medio o contenido) o si lo que se analiza son los parámetros de codificación y transmisión[10]. • Modelos basados en el análisis del contenido Estos modelos basan su funcionamiento en el análisis detallado del contenido del video. Este tipo de modelos realizan análisis completos del video, y tı́picamente buscan degradaciones de diversa ı́ndole (efectos de bloques, borrosidad, etc.). Dentro de esta categorı́a, los modelos a su vez se clasifican según la disponibilidad total, parcial o nula de la señal original, como se detalla a continuación. Métodos con disponibilidad total de la señal original (FR - Full Reference).

(20) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 10. Estos métodos se basan en la disponibilidad de la señal original, la que puede ser contrastada con la señal degradada, cuadro a cuadro. Esto presupone una severa restricción al uso práctico de este tipo de métodos, ya que en varias aplicaciones reales esto no es posible. Los métodos que utilizan métricas del tipo FR (Full Reference) pueden ser utilizados para categorizar en forma objetiva un sistema de transmisión, un codec, el efecto de un reducido ancho de banda, o de diversos factores que degraden una señal, en ambientes controlados. Sin embargo, no son adecuados para aplicaciones de tiempo real (TV, video conferencias, etc.), ya que no es posible tener las señales originales[10]. Métodos con disponibilidad parcial de la señal original (RR - Reduced Reference) Se trata de enviar, junto con el video codificado, algunos parámetros que caractericen a la señal, y que sirvan de referencia en el receptor para poder estimar la calidad percibida. Puede pensarse en la reserva de un pequeño ancho de banda (comparado con el del video) para el envı́o de este tipo de información adicional. Métodos sin disponibilidad de la señal original - NR (No Reference) Las personas no necesitan señales de referencia, ni información adicional para juzgar la calidad de una señal de video. Se basan en sus experiencias previas, y en las expectativas que tengan respecto al sistema. De igual manera, estos métodos intentan estimar la calidad percibida basándose únicamente en el análisis de la señal recibida. Son los métodos más complejos de implementar, pero no requieren de otra información que la propia señal de video. En la Figura 1–2 se esquematiza la forma en que trabajan los modelos FR, RR y NR. Se observa que los modelos del tipo FR toman como entrada la señal original completa y la señal degradada, los modelos RR toman como entrada la señal degradada y un conjunto resumido de caracterı́sticas de la señal original, a través de un canal auxiliar, y los modelos NR toman como entrada únicamente la señal degradada[10]. • Modelos basados en un conjunto reducido de parámetros Este tipo de modelos, conocidos como “Modelos Paramétricos”, se basan en estimar la calidad percibida del video tomando en cuenta únicamente los valores de un conjunto reducido de parámetros, como por ejemplo el bitrate, el frame rate, el porcentaje de pérdida de paquetes, etc. Con estos parámetros se implementa una fórmula, cuyo resultado es la estimación de la calidad de video. Las fórmulas utilizadas por este tipo de modelos pueden tener coeficientes o parámetros que dependan del tipo de contenido, por lo que en algunos casos, también es necesario realizar algún tipo de análisis del contenido. Sin embargo, este análisis generalmente es sencillo y está basado a su vez en el cálculo de parámetros que puedan modelar el tipo de contenido. Los parámetros.

(21) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 11. Figura 1–2: Esquema de modelos de FR, RR y NR pueden ser conocidos previamente, enviados por el transmisor, y/o medidos en el propio flujo de datos del video. Por ejemplo, la pérdida de paquetes es uno de los parámetros que tı́picamente puede ser medida sobre el propio flujo de datos[10]. 1.5.. VQEG (Video Quality Expert Group). Varios aspectos han de ser evaluados al momento de decidir la utilización de un modelo. Una es la capacidad efectiva del modelo de predecir en forma consistente la calidad percibida, para diversos tipos de videos, ya sea con poco o mucho movimiento, con imágenes naturales o animadas, y bajo diferentes niveles de compresión (por ejemplo, con diferentes bitrates y frame rates). Otros factores a tener en cuenta son la capacidad de procesamiento, memoria y recursos requeridos. El VQEG (Video Quality Expert Group) [13] lleva a cabo el trabajo sistemático y objetivo de comparación de modelos. El objetivo del VQEG es proporcionar evidencia para los organismos internacionales de estandarización acerca del desempeño o rendimiento de diversos modelos propuestos, a los efectos de definir métricas estándar y objetivas de calidad percibida de video digital (VQM - Video Quality Metric). Los proyectos de estudio del VQEG se dividen en: • FR-TV (Full Reference, Standard Definition TV ) • RRNR-TV (Reduced Reference, No Reference, Standard Definition TV ) • Multimedia.

(22) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 12. • HDTV (High Definition TV ) • Hybrid Perceptual / Bitstream • 3DTV Para cada aplicación, el VQEG ha trabajado en la evaluación de modelos especı́ficos, definiendo un proyecto también especı́fico. Algunos de los proyectos del VQEG han terminado en Recomendaciones aprobadas por el ITU-T. Otros se encuentran aún en proceso de evaluación o estudio. El desempeño o rendimiento de los diferentes modelos en cada uno de los proyectos, se realiza evaluado tres aspectos de su capacidad de estimar la calidad subjetiva: 1. Precisión de la predicción: La capacidad de predecir la calidad subjetiva con mı́nimo error. Se puede determinar numéricamente mediante el coeficiente de correlación lineal de Pearson, definido a continuación: P (xi − x̄)(yi − ȳ) rp = qP (1.1) pP (xi − x̄)2 (yi − ȳ)2 donde x̄ y ȳ son los valores medios de cada juego de datos (por ejemplo x puede representar los datos obtenidos como resultado del modelo a evaluar y y los datos obtenidos mediante las pruebas subjetivas). Si la relación entre los valores de x, y es lineal, rp toma el valor 1. A modo de ejemplo, en la Figura 1–3, se presentan dos posibles gráficas, donde se muestra el valor obtenido mediante la prueba subjetiva (DMOS) y el valor obtenido por el modelo (DMOSp). Idealmente, deberı́an estar todos los puntos sobre una recta a 45 grados. En el ejemplo, el modelo representado en la Figura 1–3 (a) se desempeña mejor que el de la Figura 1–3 (b), ya que los puntos de la gráfica (a) se aproximan mejor a una recta a 45 grados.. Figura 1–3: Ejemplo de Precisión.

(23) 13. MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 2. Monotonicidad: Mide si los incrementos (decrementos) en una variable están asociados a incrementos (decrementos) en la otra. Tı́picamente se mide con el coeficiente de correlación de Spearman. En la Figura 1–4 se presentan dos posibles gráficas, donde se muestran valores hipotéticos obtenidos mediante la prueba subjetiva (DMOS) y valores obtenidos por el modelo (DMOSp). Ambas tienen similar precisión, pero el modelo representado en la Figura 1–4 (a) presenta monotonicidad, mientras que el de la Figura 1–4 (b) no.. Figura 1–4: Ejemplo de Monotonicidad 3. Consistencia: Se corresponde con el grado en que el modelo mantiene la precisión a lo largo de las secuencias de pruebas. Se puede evaluar midiendo la cantidad de puntos para los que el error de la predicción es mayor a cierto umbral, por ejemplo, el doble de la desviación estándar, como se indica a continuación[10]: |xi − yi | > 2σyi. (1.2). El grado de consistencia se puede definir entonces, como el cociente entre los puntos alejados más de 2 σ (N0 ) respecto al total de puntos (N). Evidentemente, cuanto más próximo a 0 sea este coeficiente, mejor resultará el modelo: N0 (1.3) N En la Figura 1–5 se presentan dos posibles gráficas, donde se muestra el valor obtenido mediante la prueba subjetiva (DMOS) y el valor obtenido por el modelo (DMOSp). En el modelo representado en la Figura 1–5 (a) se puede ver que la mayorı́a de los puntos se encuentran razonablemente cerca de la recta, mientras que dos puntos (sobre el centro de la gráfica) están muy alejados. En la Figura 1–5 (b) todos los puntos se encuentran a distancias similares de la recta, sin aparecer puntos especialmente alejados. Ambas distribuciones pueden tener iguales valores de RMSE, pero el modelo (b) tendrá mayor consistencia, ya que los errores se distribuyen de manera más uniforme que en el r0 =.

(24) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 14. modelo de la Figura 1–5 (a), donde la predicción es mejor que el modelo (b) para la mayorı́a de los puntos, pero mucho peor en 2 de los puntos.. Figura 1–5: Ejemplo de Consistencia Otra métrica utilizada para medir la consistencia es el valor de Kurtosis, que es una cantidad adimensionada relacionada con la forma de la gráfica de la distribución de errores, en forma independiente del valor cuadrático medio del error. Valores altos de Kurtosis indican que existen desviaciones extremas infrecuentes en la distribución, mientras que valores bajos indican desviaciones más frecuentes pero de valores más pequeños. En las siguientes secciones se resume el estado de cada uno de los proyectos mencionados del VQEG, al momento de escribir la presente tesis. 1.5.1.. FR-TV (Full Reference TV ). El proyecto FR-TV evaluó modelos de estimación de calidad percibida de video para aplicaciones de TV en formato estándar (SDTV). En la fase I de FR-TV, llevada a cabo entre 1997 y 2000, se evaluaron 9 propuestas, además de la PSNR: • • • • • • • • •. Centro de Pesquisa e Desenvolvimento (CPqD, Brazil) Tektronix/Sarnoff (USA) NHK/Mitsubishi Electric Corporation (Japan) KDD (Japan) Ecole Polytechnique Féderal Lausanne (EPFL, Switzerland) TAPESTRIES (Europe) National Aeronautics and Space Administration (NASA, USA) Royal PTT Netherlands/Swisscom CT (KPN/Swisscom CT, The Netherlands) National Telecommunications and Information Administration (NTIA, USA). Las evaluaciones fueron realizadas con diversos tipos de material de video, incluyendo 20 tipos diferentes de contenidos (entre los que hay deportes, animaciones, escenas de.

(25) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 15. interiores y exteriores, etc.) y con velocidades de 768 kb/s hasta 50 Mb/s. Se utilizó el método DSCQS, y las pruebas se realizaron sobre una base de más de 26.000 opiniones subjetivas, tomadas en 8 laboratorios independientes en diferentes partes del mundo. Como resultado de la fase I de FR-TV, dependiendo de la métrica de comparación utilizada, siete u ocho de los modelos propuestos resultaron estadı́sticamente equivalentes entre sı́, y a su vez, equivalentes a los resultados obtenidos con el PSNR [14]. Este resultado fue realmente desalentador, ya que indica que no existen diferencias apreciables entre el sencillo cálculo del PSNR y los sofisticados métodos preceptuales propuestos. En base a estos resultados, el VQEG ha realizado una segunda fase de pruebas, llamando nuevamente a interesados en contrastar sus modelos. La denominada “fase II” para FR-TV fue realizada entre los años 2001 y 2003 y los resultados finales fueron publicados en agosto de 2003 [15]. El objetivo de esta segunda fase era obtener resultados más discriminatorios que los obtenidos en la fase I. Al igual que en la fase I, las evaluaciones fueron realizadas con diversos tipos de material de video, y en formato de 525 y 625 lı́neas por cuadro. Se evaluaron velocidades entre 768 kb/s y 5 Mb/s. Las pruebas fueron realizadas en 3 laboratorios independientes, en Canadá, Estados Unidos e Italia. En la fase II del proyecto FR-TV se evaluaron 6 proponentes, algunos de los cuales ya habı́an sido evaluados en la fase I: • • • • • •. NASA (USA) British Telecom (UK) Yonsei University / Radio Research Laboratory (Korea) CPqD (Brazil) Chiba University (Japan) NTIA (USA). En la Figura 1–6 se muestra la exactitud de las predicciones de cada uno de estos modelos, medidos con el coeficiente de correlación de Pearson, según los datos presentados en [15]. Puede verse que, en el formato de 525 lı́neas, los modelos de British Telecom y de NTIA se destacan del resto, y son estadı́sticamente equivalentes, según las conclusiones del informe del VQEG. Estos modelos presentan una mejora de un 17 % respecto al PSNR. Por otra parte, en el formato de 625 lı́neas, los modelos de NASA, Yonsei, CpQD y NTIA son los mejores, y también son estadı́sticamente equivalentes, según las conclusiones del informe. En promedio, presentan una mejora de un 21 % respecto al PSNR. Con otras métricas de comparación de los modelos (monotonicidad, consistencia) se obtienen resultados similares..

(26) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 16. Figura 1–6: Exactitud de las predicciones de los modelos FR-TV Sobre la base de estos resultados, ITU ha estandarizado, en la Recomendación ITU-R BT.1683 [16] y en la Recomendación ITU-T J.144 [17] de 2004, a los cuatro mejores algoritmos, definidos en el marco de esta recomendación como: • • • •. British Telecom BTFR (Reino Unido) Yonsei University/Radio Research Laboratory/SK Telecom (Corea) Centro de Investigación y Desarrollo en Telecomunicaciones (CPqD) (Brasil) National Telecommunications and Information Administration (NTIA)/Institute for Telecommunication Sciences (ITS) (Estados Unidos). 1.5.2.. RRNR-TV (Reduced Reference/No reference TV). El proyecto RRNR-TV evaluó modelos de estimación de calidad percibida de video para aplicaciones de TV en formato estándar (SDTV). En la fase I de RRNR-TV, llevada a cabo entre 2000 y 2009, se evaluaron 3 proponentes, cada uno con modelos RR y NR [18]: • NEC (Japón) • National Telecommunications and Information Administration (NTIA, USA) • Yonsei University/Radio Research Laboratory/SK Telecom (Corea) Las secuencias de prueba incluirán formatos de 525 y 626 lı́neas, en 50 Hz y 60 Hz, y se admitieron para los modelos RR canales de referencia de 15 kb/s, 80 kb/s y 256 kb/s. Los modelos NR no requieren canales de referencia, y basan sus medidas únicamente en la señal de video degradada. Se utilizaron codificaciones en MPEG-2 con tasas de bits entre 1.0 y 5.5 Mb/s y H.264/AVC con tasas de bits entre 1.0 y 3.98 Mb/s. Las degradaciones incluı́an tanto.

(27) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 17. las producidas por el proceso de codificación, como por errores en la transmisión del canal. En las pruebas subjetivas se utilizó el método ACR-HR (Absolute Category Rating with Hidden Reference). Los modelos RR fueron evaluados con las métricas del tipo DMOS y los NR con MOS. Todos los modelos del tipo NR fueron retirados de las pruebas, y de los informes finales, debido a su bajo rendimiento. De los modelos RR, algunos resultaron superiores a las métricas del tipo PSNR. En la Figura 1–7 se muestra la exactitud de las predicciones de cada uno de estos modelos, medidos con el coeficiente de correlación de Pearson, según los datos presentados en [18]. Puede verse que los primeros 4 modelos son superiores al resto (los tres modelos de Yonsei y el de 80k de NTIA), y presentan mejoras frente al PSNR.. Figura 1–7: Exactitud de las predicciones de los modelos RRNR-TV Sobre la base de estos resultados, en enero de 2010 ITU-T ha estandarizado la recomendación ITU-T J.249 [19], con los modelos propuestos por Yonsei University, Nec y NTIA, y en marzo de 2011 se ha estandarizado la Recomendación ITU-R BT.1885 [20], aplicando los modelos a SDTV para broadcasting. 1.5.3.. MM (MultiMedia). En este contexto, “Multimedia” se define como una aplicación que puede combinar texto, gráficos, video y sonido dentro de un mismo paquete. Estas aplicaciones incluyen, por ejemplo, sistemas de video conferencias, video a demanda y distribución de contenido multimedia a través de Internet. Sin embargo, en la primera fase de este proyecto del VQEG, se incluyeron modelos que evalúan únicamente la calidad de video..

(28) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 18. Los resultados y el foco de la evaluación de la fase I del proyecto MM de VQEG se centran en aplicaciones de video para dispositivos móviles o de tipo PDA y en servicios multimedia distribuidos a través de Internet, con tasas de bits menores a 4 Mb/s, vistos en pantallas de PC con una resolución máximo de 640x480 pixels (VGA). La fase I del proyecto MM [21] evaluó modelos de estimación de calidad percibida de video para aplicaciones multimedia en formatos VGA, CIF y QCIF de 25 y 30 fps, y en modalidades FR, RR y NR. Fueron utilizadas 346 clips de video, formando un total de 5320 secuencias degradadas. Los clips fueron evaluados por un total de 984 observadores. Los contenidos utilizados incluyeron videos hogareños, videoconferencias, deportes, propagandas, animación, música, cine e informativos. Los clips codificados en VGA utilizaron tasas de bits entre 128 kb/s y 4 Mb/s. Los codificados en CIF utilizaron tasas de bits entre 64 kb/s y 704 kb/s y los codificados en QCIF utilizaron tasas de bits entre 16 kb/s y 320 kb/s. Las degradaciones introducidas incluı́an las propias del sistema de codificación y también errores en la transmisión. Se incluyeren secuencias codificadas en Windows Media 9 (VC-1), H.264, Real Video, H.261, H.263, MPEG4, MPEG2, Cinepak, DivX, Sorenson3 y Theora. Se admitieron para los modelos RR canales de referencia de 1 kb/s y 10 kb/s para QCIF, 10 kb/s y 64 kb/s para CIF y 10 kb/s, 64 kb/s y 128 kb/s para VGA. Se evaluaron 5 proponentes, cada uno con diversos modelos FR, RR y NR: • • • • •. NTT (Japón) Opticom (Alemania) Psytechnics (Inglaterra) SwissQual (Suiza) Yonsei University (Corea). En la Figura 1–8 se muestra la exactitud de las predicciones de cada uno de los modelos FR, medidos con el coeficiente de correlación de Pearson, según los datos presentados en [21]. De forma similar, en la Figura 1–9 se muestra la exactitud de las predicciones de cada uno de los modelos RR y en la Figura 1–10 las correspondientes a los modelos NR. Como se ve en las figuras, no todos los proponentes presentaron modelos en todos los casos. Psytechnics, Opticom , Yonsei y NTT presentaron modelos del tipo FR. Los resultados obtenidos en todos estos modelos, para VGA, CIF y QCIF son estadı́sticamente mejores.

(29) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 19. Figura 1–8: Exactitud de las predicciones de los modelos FR MultiMedia al PSNR. VQEG ha sugerido a ITU la estandarización de estos modelos, la que ha sido realizada en la Recomendación ITU-T J.247 [22] en el año 2008. Únicamente la Universidad de Yonsei presentó modelos del tipo RR. En la Figura 1–9 se ve que todos sus modelos son estadı́sticamente mejores que el PSNR, aún siendo el PSNR una métrica del tipo FR. VQEG ha sugerido a ITU la estandarización de estos modelos, la que ha sido realizada en la Recomendación ITU-T J.246 [23]en el año 2008. Psytechnics y Swissqual propusieron modelos del tipo NR. Los resultados en general no han sido lo suficientemente buenos como para que VQEG sugiriera su estandarización, aunque los modelos para QCIF se comportaron estadı́sticamente mejor que los de CIF y VGA. 1.5.4.. HD-TV (High Definition TV). En este caso, el objetivo es evaluar modelos de calidad percibida de video enfocados en aplicaciones de televisión digital de alta definición (HD-TV). Esto incluye broadcasting, video a demanda y TV por cable o satélite.Las pruebas se limitaron a codecs MPEG2 y H.264, incluyendo eventuales errores de transmisión. La resolución de pantalla evaluada es 1080i @ 50 / 60 Hz y 1080p @ 25 / 30 fps. El proyecto evaluó 5 proponentes, cada uno presentando modelos FR, salvo Yonsei, que también presentó modelos RR: 1. 2. 3. 4. 5.. NTT (Japón) Opticom (Alemania) SwissQual (Suiza) Tektronix (USA) Yonsei University (Corea).

(30) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 20. Figura 1–9: Exactitud de las predicciones de los modelos RR MultiMedia El reporte final de VQEG fue aprobado en junio de 2010 [24]. El modelo del tipo FR que tuvo mejor rendimiento fue el propuesto por SwissQual, seguido por el de Tektronix. En la Figura 1–11 se muestra la exactitud de las predicciones de cada uno de los modelos FR, medidos con el coeficiente de correlación de Pearson, según los datos presentados en [24]. VQEG ha propuesto estandarizar por lo menos uno de estos modelos, y ITU-T ha estandarizado el modelo de SwissQual (comercialmente disponible como VQuadHD [25]) en la Recomendación ITU-T J.341 en enero de 2011 [26]..

(31) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 21. Figura 1–10: Exactitud de las predicciones de los modelos NR MultiMedia El único proponente que presentó modelos del tipo RR fue Yonsei con resultados aceptables (Pearson Correlation de 0.77), pero similares a los obtenidos con el PSNR (Pearson Correlation de 0.78). VQEG ha indicado que estos modelos podrı́an ser estandarizados. Finalmente no fueron presentados modelos del tipo NR.. Figura 1–11: Exactitud de las predicciones de los modelos FR HDTV 1.5.5.. Hybrid Perceptual / Bitstream. El objetivo del proyecto HBS (Hybrid Perceptual Bit-Stream) es la evaluación de modelos de estimación de la calidad percibida en servicios de video y multimedia entregados a través de redes IP. Las aplicaciones incluyen IPTV y distribución de contenido multimedia a través de Internet, tanto a terminales fijos como a dispositivos móviles. Está previsto en el proyecto la evaluación de la calidad de video, de audio, y del conjunto (audio más video). A diferencia de los otros proyectos, los modelos del proyecto HBS tienen como datos de entrada el flujo de bits de la red IP, tal como llega al decodificador. De esta manera, los modelos pueden hacer uso tanto del video decodificado, como de.

(32) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 22. los parámetros de red. Este tipo de modelos está alineado con las propuestas del grupo de estudio SG12 de ITU-T, donde se han diferenciado dos tipos de modelos, según el tipo de información del flujo de datos utilizada. Estos modelos se han llamado, provisionalmente, P.NAMS (Non-intrusive parametric model for Assessment of performance of Multimedia Streaming) y P.NBAMS (Non-intrusive Bit-stream model for Assessment of performance of Multimedia Streaming) [27]. Los modelos P.NAMS utilizan únicamente información del cabezal de los paquetes IP, sin considerar el contenido. Por el contrario, los modelos P.NBAMS pueden utilizar no solamente información del cabezal, sino también el contenido. En el caso de los modelos HBS, adicionalmente, pueden contar con la señal de video decodificada. El proyecto HBS admite modelos del tipo FR (Figura 1–12), RR (Figura 1–13) y NR (Figura 1–14) y se encuentra en curso al momento de escribir esta tesis.. Figura 1–12: Esquema de modelos FR en el proyecto Hybrid Perceptual / Bitstream 1.6.. Conclusiones. En este capı́tulo se presentaron los métodos subjetivos de medida de calidad de video más reconocidos, y las diferentes estandarizaciones de ITU al respecto. Por otro lado, se realizó un extensivo análisis de los métodos objetivos publicados hasta el momento llegando a la conclusión que los métodos subjetivos, presentados en él son costosos, difı́ciles de realizar, e impracticables en aplicaciones de tiempo real. Por esto se hace necesario el uso de métodos objetivos y automáticos, que puedan predecir con fiabilidad la calidad percibida, en base a medidas objetivas tomadas en algún punto del sistema..

(33) MODELOS DE CALIDAD PERCEPTUAL DE VIDEO. 23. Figura 1–13: Esquema de modelos RR en el proyecto Hybrid Perceptual / Bitstream. Figura 1–14: Esquema de modelos NR en el proyecto Hybrid Perceptual / Bitstream.

(34) CAPÍTULO 2 MÉTRICAS DE ESTIMACIÓN DE CALIDAD DE VIDEO 2.1.. Introducción. En este capı́tulo se realiza un análisis de las métricas objetivas basadas en el modelo FR. Se toma como referencia el estándar H.265/HEVC, el cual es caracterizado ampliamente. Se describe la plataforma de codificación utilizada. 2.2.. H.265/HEVC.. Como parte de los avances en el campo de la codificación de fuente llevados a cabo por la comunidad cientı́fica, los organismos ITU y del ISO (MPEG), responsables de la estandarización de esta tecnologı́a, se aprueba la primera fase del estándar de compresión H.265/HEVC (High Efficiency Video Coding) a inicios del 2013. Este se perfila como el sucesor natural del estándar de compresión H.264/AVC (Advanced Video Coding). En la Figura 2–1 se observa la evolución de las tecnologı́as de compresión de la información audiovisual desde 1988 hasta el surgimiento de la primera fase de HEVC en el 2013.. Figura 2–1: Evolución de las tecnologı́as de compresión de la información audiovisual [28]. 24.

(35) Métricas de estimación de calidad de video. 25. En la actualidad, la demanda de los usuarios por trabajar con formatos de mayor resolución superiores a los actuales formatos de HDTV es inminente, en este sentido, este estándar no solo integra nuevas herramientas para mejorar el proceso de codificación, sino que mejora las ya existentes en los estándares previos, especialmente en H.264, logrando una mejora en la calidad percibida y permitiendo una reducción de bitrate por encima del 50 % con respecto a H.264. H.265 tiene como objetivo ser altamente eficiente en dos sentidos: lograr eficiencia en formatos de muy alta resolución como UHDTV (Ultra High Definition Television), y hacerlo también en entornos de muy baja tasa binaria, como es el caso de servicios streaming, WebTV y OTT (Over the Top Content). H.265 también utiliza la estimación y la compensación de movimiento para aprovechar la similitud temporal de las secuencias, y además emplea la transformada discreta del coseno, con cierta variación, con el objetivo de aplicar la cuantificación en el dominio transformado, y codificar estadı́sticamente dichos coeficientes. 2.2.1.. Capa de codificación de video.. En la Figura 2–2 se puede observar un diagrama de bloques del codificador HEVC genérico. En dicha figura se aprecia cómo HEVC utiliza el mismo esquema de codificación hı́brida que H.264 (predicción inter/intra-imagen y codificación de la transformación 2-D). En este modelo siempre se trabaja con la información residual de la predicción (espacial y/otemporal), donde el codificador y el decodificador generan exactamente las mismas predicciones entre imágenes utilizando compensación de movimiento y decisión del modo de codificación, que se envı́a junto con el flujo de información del vı́deo codificado [29]. Un algoritmo de codificación capaz de producir un flujo de bits compatible a HEVC suele proceder de la siguiente manera. Cada imagen es dividida en regiones en forma de bloque, cuando los bloques son exactamente particionados se transmiten al decodificador. La primera imagen de una secuencia de vı́deo (la primera imagen en cada punto de acceso aleatorio limpio en una secuencia de vı́deo) se codificada utilizando predicción intrapicture (que utiliza un poco de predicción de datos espacialmente de región a región dentro de la misma imagen, sin dependencia alguna de otras imágenes). Para las imágenes restantes de una secuencia o entre puntos de acceso aleatorio, se utilizan interpicture como modos de codificación de predicción temporal para la mayorı́a de los bloques. Este proceso consiste en elegir los datos de movimiento que comprenden la selección de imágenes de referencia, ası́ como el vector de movimiento (MV) que se aplicará para la predicción de las muestras de cada bloque. El codificador y decodificador generan señales de predicción interpicture idénticos mediante la aplicación de la.

(36) Métricas de estimación de calidad de video. 26. Figura 2–2: Diagrama de bloques del codificador de video HEVC [29]. compensación de movimiento (MC) utilizando los MV y los datos de decisión de modo, que son transmitidos como información lateral [30]. El residuo de estas comparaciones se transforma mediante una transformación lineal y espacial, donde los coeficientes son escalados, cuantificados y codificados entrópicamente para ser transmitidos junto a la información de la predicción. El codificador duplica el lazo de procesamiento de la decodificación (véanse los recuadros sombreados en la Figura 2–2) de tal manera que ambos generan predicciones idénticas para los datos subsiguientes. Por lo tanto, los coeficientes de transformación cuantificados se construyen mediante la escala inversa y transformada inversa para lograr duplicar la aproximación decodificada de la señal residual. El residuo se añade entonces a la predicción, y el resultado de esa adición puede alimentarse entonces en uno o dos filtros de lazo para suavizar los artefactos inducidos por el procesamiento y la cuantificación en bloque. La representación de imagen final (que es un duplicado de la salida del decodificador) se almacena en un buffer de imagen decodificada que se utilizará para la predicción de las imágenes posteriores. En general, el orden de codificación o decodificación del procesamiento de imágenes a menudo difiere de la orden en que llegan de la fuente; que requiere una distinción entre el orden de decodificación (el orden de flujo de bits) y el orden de salida (el orden de visualización) para un decodificador [30]..

(37) Métricas de estimación de calidad de video. 27. Para ser codificado el material de vı́deo por HEVC, en general, se espera que la entrada sea con imágenes de barrido progresivo (ya sea debido a la fuente de origen de vı́deo en ese formato o como resultado del desentrelazado antes de la codificación). No hay caracterı́sticas de codificación explı́cita que estén presentes en el diseño HEVC para apoyar al uso de la exploración entrelazada. Sin embargo, una sintaxis de metadatos se proporciona en HEVC permitiendo a un codificador indicar que el vı́deo entrelazado escaneado ha sido enviado por la codificación de cada campo (es decir, las lı́neas pares o impares de cada fotograma de vı́deo) de vı́deo entrelazado como una imagen separada o que ha sido enviado por la codificación de cada cuadro entrelazado como una imagen HEVC codificada. Esto proporciona un método eficiente de codificación de vı́deo entrelazado sin sobrecargar decodificadores con una necesidad de apoyar un proceso de decodificación especial para ello [31]. Sin dudas, las mejoras de HEVC con respecto a AVC son notables, y vienen dadas por las pequeñas mejoras en cada una de las etapas originales que compone el codificador. A continuación se describen las principales mejoras y novedades que incorpora H.265 [32]: • Nueva unidad de codificación: define una nueva estructura de codificación que diverge de las anteriores unidades denominadas Macrobloques con dimensiones de 16x16 pı́xeles. En este estándar la unidad de codificación se denomina Coding Tree Block (CTB) y sus dimensiones pueden ser desde 8x8 hasta 64x64. Le permite en gran medida ser flexible y por un lado ser muy eficiente con amplias áreas homogéneas, además de adaptarse a áreas de la imagen muy complejas. • Unidad de Predicción: H.265 define una nueva unidad de predicción (PU) que pueden tener dimensiones desde 32x32 hasta 4x4, lo que representa la mitad que la menor de las unidades de codificación. Al igual que su antecesor H.264, pueden aplicarse de modo intra-frame o inter-frame, utilizando divisiones distintas. • Predicción Intra-Frame: HEVC introduce un nuevo método de predicción intraframe el cual define 33 predicciones direccionales para todos sus posibles tamaños de PU, a diferencia de los 2 predictores direccionales que define H.264 para tamaños de 16x16, y 8 predictores para 8x8 y 4x4. De modo adicional incorpora un modo de DC y un modo planar similares a los definidos en H.264. • Predicción Inter-Frame: la estimación de movimiento en H.265 se lleva a cabo con 1 la precisión de de pı́xel con filtros interpoladores de 7-taps y 8-taps, y se incorpora 4 además la AMVP (Advanced Motion Vector Prediction) para lograr la señalización de sus vectores de movimiento mediante el cálculo de los vectores de movimiento más probables obtenidos desde los bloques vecinos..

(38) Métricas de estimación de calidad de video. 28. • Unidades de Transformación: Se define una nueva TU (Transform Unit). Se aplica de igual forma la DCT entera con una ligera modificación con respecto a la utilizada en H.264, también permite bajo ciertas condiciones la utilización de la DST (Discrete Sine Transforme). En el caso de H.265 se amplı́an los tamaños de transformación desde 4x4 a 32x32. • Sample Adaptive Offset (SAO): Nueva herramienta aplicada luego del In-loop filter con el objetivo de lograr mejorar la calidad subjetiva de la imagen decodificada,aplicando pequeños offset a los pı́xeles decodificados, en función de la zona a la que pertenecen. H.265 mantiene grandes semejanzas estructurales con la trama de AVC en cuanto a NALs (Network Adapted Layer ), que encapsula la capa de codificación de video VCL (Video Coding Layer ). Además, continúa con el soporte para metadatos del tipo SEI (Supplemental Enhancement Information) y VUI (Video Usability Information), que permiten introducir información adicional sobre las caracterı́sticas del stream. Se introduce también un nuevo tipo de Metadata VPS (Video Parameter Set), que permite identificar las secuencias entrelazadas, y describir las distintas subcapas temporales y las distintas vistas para secuencias 3D. Debido a la alta complejidad de los algoritmos introducidos por H.265, el estándar integra novedosas herramientas con el objetivo de frenar la codificación de la imagen. En resumen, permite la codificación del frame en dos nuevos tipos adicionales al slice, que existı́a previamente en los anteriores estándares, denominados Tile y Frente de Ondas o WPP (Wavefront Parallel Processing). 2.3.. Métricas existentes de estimación de calidad de video. Varios modelos de estimación de la calidad percibida de video han sido desarrollados y publicados en la literatura técnica. Como se ha visto en la sección anterior, el VQEG ha evaluado una cantidad importante de estos modelos, para diferentes aplicaciones especı́ficas (SDTV, HDTV, Multimedia). Algunos de ellos han sido estandarizados por ITU. Por otra parte, diversos autores han propuesto modelos o métricas con mayor o menor complejidad y grado de aplicación. En esta sección se realizará un resumen de los métricas existentes, las que servirán como base para el desarrollo de la presente tesis. 2.3.1.. PSNR Y MSE. Las primeras medidas objetivas de la calidad del video utilizadas son del tipo “Full Reference” y están basadas en obtener las diferencias, pı́xel a pı́xel, entre las imágenes originales (previo a la compresión y transmisión) y las imágenes degradadas (luego de la recepción y reconstrucción). Las medidas más simples de este tipo son las de.

(39) 29. Métricas de estimación de calidad de video. error cuadrático medio (MSE - Mean Square Error ) y la relación señal a ruido de pico (PSNR Peak Signal to Noise Ratio), definidas en las ecuaciones 2.1 y 2.2. Como se mencionó, estas métricas son del tipo FR (Full Reference), ya que requieren de la referencia completa para poder ser calculadas. El PSNR es una de las medidas de calidad visual objetiva más utilizadas desde los comienzos de la codificación de video digital. Define la relación entre la máxima energı́a posible de una señal y el ruido que afecta a su representación fidedigna. Dado el gran rango dinámico de las señales de vı́deo, donde el valor de cada muestra puede ir desde 0 hasta 255 para videos de 8 bits por muestra y desde 0 hasta 1023 para videos de 10 bits por muestra, su valor se suele representar en escala logarı́tmica, con el decibel (dB) como su unidad. El PSNR se calcula mediante la siguiente expresión [8]: P SNR = 10 log. . MAX 2 MSE. . = 20 log. . MAX √ MSE. . (2.1). Donde MSE (Mean Squared Error, error cuadrático medio) de las dos imágenes a comparar se calcula mediante la expresión: M −1 N −1 1 XX |O(i, j) − D(i, j)|2 MSE = MN i=0 j=0. (2.2). En la cual M y N son el ancho y el alto de la imagen en pı́xeles, respectivamente, y donde O (i, j) y D (i, j) son cada pı́xel situado en la fila i y la columna j de la imagen original y distorsionada, respectivamente. MAX representa el valor máximo que puede tomar cada pı́xel. Este valor depende del número de bits por muestra de la señal, y como se trabaja con señales que poseen diferente número de bits por muestra B, se define como: MAX = 2B − 1. (2.3). Lo cual equivale a 255 para señales de 8 bits por muestra, y 1023 para señales de 10 bits por muestra. Los valores tı́picos de PSNR en una compresión con pérdidas de imagen y video oscilan entre 30 y 50 dB, para una profundidad de 8 bits, donde un mayor valor de PSNR es resultado de una mejor compresión. Para 16 bits de profundidad, el valor del PSNR oscila entre 60 y 80 dB. Sin embargo, los valores óptimos para transmisión inalámbrica se encuentran entre 20 y 25 dB..

(40) Métricas de estimación de calidad de video. 30. Estas métricas son fáciles de calcular, y tienen un claro significado. Por estas razones, han sido ampliamente usadas como métricas en la estimación de la calidad de video. Hay que poner especial énfasis en la alineación espacial y temporal de las imágenes a comparar, ya que la referencia y la imagen degradada pueden estar desfasadas en el tiempo o en el espacio. Sin embargo, también han sido ampliamente criticadas por no tener correlación directa con la calidad percibida. Por ejemplo, en la Figura 2–3, tomada de [10], se muestran tres ejemplos de imágenes comprimidas, donde se puede ver claramente que con similares valores de MSE, la calidad percibida puede ser esencialmente diferente (comparar, por ejemplo, “Tiffany” con “Mandril”, sobre el lado derecho de la figura), lo que pone en duda la utilidad de este tipo de métrica como indicador de calidad. En la Figura 2–4, presentada en [10], se puede ver como la misma imagen, con el mismo valor de PSNR, puede tener diferente calidad percibida, dependiendo del lugar en el que se presenten las degradaciones. En la Figura 2–4 (b), se nota claramente la degradación en el cielo (parte superior), mientras que en la Figura 2–4 (c), una degradación similar en la parte inferior prácticamente no es perceptible. Este fenómeno se conoce como enmascaramiento. En zonas texturadas o con gran actividad espacial, las degradaciones quedan enmascaradas y son menos percibidas por el sistema visual humano. El enmascaramiento también puede darse en video, donde cambios rápidos temporales pueden enmascarar cierta pérdida de calidad en cada cuadro. Debido a la baja correlación entre el MSE y PSNR con la calidad percibida, en los últimos tiempos, se ha realizado un gran esfuerzo para desarrollar nuevos modelos que tengan en cuenta las caracterı́sticas de percepción del sistema visual humano y que permitan calcular métricas objetivas que lo simulen. 2.3.2.. SSIM. Esta medida de calidad visual objetiva tambien es de tipo “Full Reference” y fue creada por Zhou Wang en 2004 [8], nace con la intensión de crear una medida objetiva más cercana al sistema visual humano que el PSNR. La manera más sencilla de entender esta medida es la siguiente: mientras que el PSNR es una medida basada en el error entre dos señales, SSIM es una medida de distorsión estructural. Para su desarrollo el autor se basó en el hecho de que una de las funciones principales del ojo humano es extraer información estructural del campo de visión, ya que los humanos tienen una tendencia muy desarrollada a visualizar formas y contornos de manera precisa. SSIM considera la degradación de la imagen como pérdida de la información estructural percibida. En la Figura 2–5 se puede ver un ejemplo en el cual para valores de MSE (y, por tanto, de PSNR) similares, la calidad de imagen.

(41) Métricas de estimación de calidad de video. 31. Figura 2–3: Evaluaciones de imágenes comprimidas con JPEG. Arriba: Imagen “Tiffany” original y comprimida, MSE = 165; Medio: Imagen “Lago” original y comprimida, MSE = 167; Abajo: Imagen “Mandril” original y comprimida, MSE = 163 subjetiva varı́a enormemente, estando SSIM mucho más cercano a la calidad subjetiva percibida por los humanos. Aun ası́, no debe olvidarse que SSIM sigue siendo una medida puramente matemática que nunca podrá llegar a representar de manera fiel al sistema visual humano [8]. • Imagen superior izquierda: imagen con cambio de media, MSE=225, SSIM=0.9894. • Imagen superior derecha: imagen con extensión de contraste, MSE=225, SSIM= 0.9372..

(42) 32. Métricas de estimación de calidad de video. Figura 2–4: Ejemplo del efecto de enmascaramiento • Imagen inferior izquierda: imagen desenfocada, MSE=225, SSIM=0.3461. • Imagen inferior derecha: imagen comprimida JPEG, MSE=215, SSIM=0.2876. El cálculo del SSIM de una imagen se realiza en ventanas de pequeño tamaño, normalmente de 8x8 pı́xeles, mediante la siguiente expresión: SSIM(X, Y ) =. (2µx µy + c1 )(2σxy + c2 ) + µ2y + c1)(σx2 + σy2 + c2 ). (µ2x. (2.4). Donde x e y son las ventanas original y distorsionada respectivamente del mismo tamaño NxN, µx la media de x, µy la media de y, σx2 la varianza de x, σy2 la varianza de y, σxy la covarianza de x e y, y c1 y c2 dos constantes para estabilizar la división en caso de que el denominador tienda a cero, con los valores: c1 = (0, 01 · MAX)2 y. (2.5). c2 = (0, 03 · MAX)2 ,. (2.6). siendo MAX el valor máximo que puede tomar cada pı́xel, 255 para señales de 8 bits por muestra y 1023 para señales de 10 bits por muestra. Una vez realizado el cálculo de n ventanas, cuyo número dependerá de la resolución de la imagen y del algoritmo.

(43) Métricas de estimación de calidad de video. 33. Figura 2–5: Imagen de Lena con distintas distorsiones [8] utilizado para el cálculo, el valor final de SSIM es la media aritmética de los valores de todas las ventanas. Los valores de SSIM pueden ir desde 0 hasta 1. Cuanto más se acerque el valor a 1 menos distorsión estructural habrá entre las dos imágenes, siendo el valor 1 solo obtenible en el caso de dos imágenes exactamente iguales. SSIM suele usarse solo con los planos de luminancia de cada fotograma, debido a la poca información estructural contenida en los planos de diferencia de color. 2.4.. MSAD. Esta medida se define según[33] como la diferencia máxima absoluta entre los componentes de color. Para MSAD, el valor absoluto de cada desviación es dividida entre el error estándar para cada media de datos. Este tipo de escalamiento es similar al realizado con los residuos estandarizados en una regresión estadı́stica y en el modelado estructural de ecuaciones. Ası́, las desviaciones entre lo modelado estadı́sticamente y los.

(44) Métricas de estimación de calidad de video. 34. datos (por ejemplo, los residuos) son divididos entre el error estándar de los datos.Esta medida de calidad visual es del tipo “Full Reference” y se define como[34]: MSAD =. X. X √ √ |mi − di|ksi niki = 1 = |mi − di| niksiki = 1. (2.7). Donde mi es la media modelada para cada punto i, di es la media de los datos para cada punto i, si es la desviación estándar para cada media de dato i, ni es el número de datos que contribuyen a cada media de datos, mientras que k es el número de puntos i. MSAD es invariante ante escala; esto quiere decir que, sin importar si los datos son medidos en términos del error, del tiempo de reacción, o del porcentaje de un parámetro determinado, un valor determinado MSAD tiene el mismo significado. Esta invariante a la escala hace que la evaluación general de la calidad de los datos escogidos resulte bastante fácil. Para poder obtener estos valores, se necesita tener información de la varianza de los datos, la cual puede no estar disponible en algunos antiguos set de datos [34]. Un problema potencial con MSAD es que un menor valor de n producirá un menor valor de MSAD, lo que aparentemente encaja con los estudios de bajos n. Sin embargo, al aumentar la precisión en las representaciones gráficas de los datos se hace evidente la baja fidelidad de los mismos, por lo que se reduce la exactitud del modelo. Aún más, cuando n es baja, los datos parecen como si hubieran sido sometidos a un alto nivel de ruido que luego resulta muy difı́cil de conciliar. De esta manera, el uso de MSAD para estudios con bajo n no brinda resultados tan exactos como los logrados con otras métricas [34]. 2.5.. VQM. VQM es una medida de calidad visual correspondiente a la familia de tipo “Full Reference” y de acuerdo con [35] y [36] VQM mide todos los fallos de la calidad de vı́deo como visión borrosa, movimientos espasmódicos/artificiales, ruido, distorsión de bloque o distorsión de color. Entre el 2003 y el 2004, la NTIA (National Telecommunications and Information Administration) de los EE.UU desarrolló dos modelos de calidad de video VQMs con RR: el primero llamado ancho de banda VQM bajo (Low Bandwidth VQM ) y el segundo conocido como rápido ancho de banda VQM bajo (Fast Low Bandwidth VQM ). El segundo de estos modelos, fue una versión computacionalmente eficiente del primer modelo y 4 veces más rápida que el mismo [19]. Según [19] el método VQM comprende tres áreas primarias:.