Compresión eficiente de materiales audiovisuales utilizando H 265 HEVC

Texto completo

(1)Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Departamento de Electrónica y Telecomunicaciones. TRABAJO DE DIPLOMA Compresión eficiente de materiales audiovisuales utilizando H.265-HEVC. Autor: Pedro Emilio Martínez Martínez. Tutor: MSc. Rafael Alejandro Olivera Solís. Santa Clara 2016 "Año 58 de la Revolución".

(2) Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Departamento de Electrónica y Telecomunicaciones. TRABAJO DE DIPLOMA. Compresión eficiente de materiales audiovisuales utilizando H.265-HEVC. Autor: Pedro Emilio Martínez Martínez E-mail: [email protected]. Tutor: MSc. Rafael Alejandro Olivera Solís E-mail: [email protected]. Santa Clara 2016 "Año 58 de la Revolución".

(3) Hago constar que el presente trabajo de diploma fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de estudios de la especialidad de Ingeniería en Telecomunicaciones y Electrónica, autorizando a que el mismo sea utilizado por la Institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos, ni publicados sin autorización de la Universidad.. Firma del Autor Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.. Firma del Tutor. Firma del Jefe de Departamento donde se defiende el trabajo. Firma del Responsable de Información Científico-Técnica.

(4) i. PENSAMIENTO. “No intentes convertirte en un hombre de éxito. Intenta convertirte en un hombre de valor” Albert Einstein.

(5) ii. DEDICATORIA. A mi mamá y a mi abuela materna: por su apoyo, paciencia y comprensión durante toda mi vida para la realización de mis metas..

(6) iii. AGRADECIMIENTOS. A mi mamá y mi abuela materna por apoyarme durante toda mi vida, encaminarme hacia la vida profesional y seguirme hasta el fin del mundo. A mi tío Pery por entenderme y preocuparse por mí, ayudarme y ser como un padre. A mis amigos Serafín y Joel por ser incondicionales durante los 5 años de la carrera; a mi amiga del aula Isabel por haberme soportado y apoyado durante estos últimos tiempos en la universidad; a mi prima Lili por nunca decirme “no”; a mi hermano Adrián por darme los mejores consejos durante mucho tiempo y ayudarme a ser mejor persona; a mi hermanita Dianelys por estar presente en la distancia y servirme de apoyo cuando nadie lo hacía. A mis compañeros del aula, mis compañeros de la universidad: los que ya no veo frecuentemente; a los profesores que con su ejemplo pudieron contribuir a mi superación profesional y personal; a todas las personas que me apoyaron y me fallaron, gracias por darme una gran lección en la vida, a todos, mis sinceros agradecimientos..

(7) iv. TAREA TÉCNICA. Las tareas de investigación están encaminadas a: 1. La revisión de la bibliografía técnico – especializada relacionada con las tecnologías de compresión de la información audiovisual. 2. La realización de un estudio sobre los elementos que forman parte de la codificación de alta eficiencia H.265/HEVC. 3. El análisis de la herramienta FFmpeg especializada en el procesamiento de audio y video. 4. El estudio del funcionamiento de un clúster de alto rendimiento. 5. El estudio de las medidas objetivas de calidad visual PSNR y SSIM. 6. La evaluación de los resultados de la compresión eficiente de materiales audiovisuales en un clúster de alto rendimiento en cuanto a las medidas objetivas de calidad visual.. Firma del Autor. Firma del Tutor.

(8) v. RESUMEN. HEVC es el nuevo estándar de codificación de vídeo que está siendo desarrollado conjuntamente por las organizaciones ITU-T VCEG (Video Coding Experts Group) e ISO/IEC MPEG (Moving Picture Experts Group). Su objetivo principal es mejorar la compresión de vídeo, en relación a los anteriores estándares. Los formatos de compresión de video han sido de vital importancia para el desarrollo de la televisión y específicamente en el caso de la televisión digital. La necesidad de reducir el bitrate del video transmitido, y a su vez, mantener su calidad lo mayor posible, ha traído consigo la utilización de herramientas que permitan un proceso de codificación eficiente y con mayor calidad. En este trabajo se realizó una síntesis de los formatos de compresión video más importantes desde sus inicios hasta la actualidad. Se analiza el códec H.265 y las métricas PSNR y SSIM para medir la calidad de la codificación eficiente. Además, se codifican materiales audiovisuales utilizando herramientas de código abierto y utilizando el HPC de la Universidad Central Marta Abreu de Las Villas..

(9) vi. TABLA DE CONTENIDOS. PENSAMIENTO .....................................................................................................................i DEDICATORIA .................................................................................................................... ii AGRADECIMIENTOS ........................................................................................................ iii TAREA TÉCNICA ................................................................................................................iv RESUMEN ............................................................................................................................. v INTRODUCCIÓN .................................................................................................................. 1 CAPÍTULO 1. 1.1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO...... 5. Señal de Video Digital. ............................................................................................ 5. 1.1.1. Códec. ............................................................................................................... 7. 1.1.2. Digitalización. ................................................................................................... 8. 1.2. Compresión de video................................................................................................ 9. 1.2.1. Análisis de la señal. ........................................................................................ 11. 1.2.2. Cuantificación. ................................................................................................ 11. 1.2.3. Codificación de longitud variable o codificación por entropía....................... 11. 1.3. Tecnologías de codificación de video. ................................................................... 12. 1.3.1. H.261............................................................................................................... 12. 1.3.2. H.263............................................................................................................... 13. 1.4. MPEG - X. ............................................................................................................. 14.

(10) vii 1.4.1. MPEG – 1. ...................................................................................................... 18. 1.4.2. MPEG – 2. ...................................................................................................... 18. 1.4.3. MPEG – 4 AVC/H.264. .................................................................................. 21. 1.5. H.265/HEVC. ......................................................................................................... 24. 1.5.1 1.6. Capa de codificación de video. ....................................................................... 25. Conclusiones parciales. .......................................................................................... 29. CAPÍTULO 2.. HERRAMIENTAS. EFICIENTE. ............................................................................................................... 30. 2.1. NECESARIAS. EN. LA. CODIFICACIÓN. FFmpeg. ................................................................................................................. 30. 2.1.1. Descripción del Proyecto FFmpeg. ................................................................. 31. 2.1.2. Descripción del funcionamiento de FFmpeg. ................................................. 32. 2.2. Proceso de codificación en H.265/HEVC. ............................................................. 33. 2.2.1. Representación de muestras de imágenes. ...................................................... 33. 2.2.2. Particionamiento de la imagen. ....................................................................... 34. Coding Units. ............................................................................................................ 34 Transform Units. ....................................................................................................... 37 Slices. ..................................................................................................................... 38 Tiles.. ..................................................................................................................... 40. WPP.. ..................................................................................................................... 40. 2.2.3. Predicción intrapicture en HEVC................................................................... 41. Modos de predicción intrapicture. ............................................................................ 42 2.2.4. Predicción interpicture en HEVC. .................................................................. 44. 2.2.5. Transformada y cuantificación. ...................................................................... 48. 2.2.6. Codificador de entropía. ................................................................................. 50. Modelado de Contexto. ............................................................................................. 51.

(11) viii Escaneo del Coeficiente de Adaptación.................................................................... 51 2.2.7. Filtros. ............................................................................................................. 52. Filtro anti bloques. .................................................................................................... 53 Filtro SAO................................................................................................................. 54 2.3. Medidas objetivas de calidad visual. ...................................................................... 56. 2.3.1. PSNR .............................................................................................................. 57. 2.3.2. SSIM ............................................................................................................... 58. 2.4. Conclusiones parciales. .......................................................................................... 60. CAPÍTULO 3.. EVALUACIÓN DE LAS MEDIDAS OBJETIVAS DE CALIDAD. VISUAL. ................................................................................................................. 61. 3.1. Clúster .................................................................................................................... 61. 3.1.1. Clasificación de los clústeres .......................................................................... 61. A.. Almacenamiento ......................................................................................... 62. B.. Alta Disponibilidad ..................................................................................... 62. C.. Balance de Carga......................................................................................... 62. D.. Alto Rendimiento ........................................................................................ 63. 3.1.2. Componentes de un clúster ............................................................................. 63. A.. Nodos .......................................................................................................... 63. B.. Almacenamiento ......................................................................................... 63. C.. Sistema Operativo ....................................................................................... 64. D.. Conexiones de Red ...................................................................................... 64. E.. Middleware ................................................................................................. 64. F.. Protocolos de Comunicación y Servicio ..................................................... 65. 3.1.3. Funcionamiento del gestor de recurso OpenPBS ........................................... 65. 3.1.4. Entorno del Usuario (Modules) ...................................................................... 66.

(12) ix 3.1.5. Envío de trabajos ............................................................................................ 67. 3.1.6. Colas del sistema ............................................................................................ 68. 3.2. Codificaciones ........................................................................................................ 69. 3.2.1. Análisis de las muestras sin compresión......................................................... 69. 3.2.2. Escenarios de codificación.............................................................................. 73. 3.2.3. Resultados de la codificación ......................................................................... 75. 3.3. Conclusiones parciales ........................................................................................... 78. CONCLUSIONES Y RECOMENDACIONES ................................................................... 79 Conclusiones ..................................................................................................................... 79 Recomendaciones ............................................................................................................. 80 REFERENCIAS BIBLIOGRÁFICAS ................................................................................. 81 ANEXOS .............................................................................................................................. 83 Anexo I. Opciones principales del Proyecto FFmpeg ................................................... 83. Anexo II. Matriz de transformación de 32x32 muestras ............................................. 84. Anexo III. Clúster de Almacenamiento ........................................................................ 85. Anexo IV. Clúster de Alta Disponibilidad .................................................................... 85. Anexo V. Clúster de Balance de Carga ....................................................................... 86. Anexo VI. Clúster de Alto Rendimiento ....................................................................... 86. Anexo VII. Comandos más útiles en la gestión de trabajos por parte del usuario para la. implementación de OpenPBS ........................................................................................... 86 Anexo VIII. Opciones como argumentos de qsub en la línea de comandos. ............... 87. Anexo IX. Scripts de instrucciones ............................................................................... 88. Anexo X. Perfiles de desempeño de H.265 ................................................................. 89. Anexo XI. Gráfico que muestra los valores de PSNR obtenidos para cada muestra en. los tres perfiles de desempeño de codificación de H.265/HEVC ..................................... 90.

(13) x Anexo XII. Gráfico que muestra los valores de SSIM obtenidos para cada muestra en. los tres perfiles de desempeño de codificación de H.265/HEVC ..................................... 90 Anexo XIII. Tipos de filtros SAO ................................................................................ 91.

(14) INTRODUCCIÓN. 1. INTRODUCCIÓN. En la sociedad actual es innegable la importancia que tiene el vídeo como soporte de información, tanto en ámbitos empresariales (videoconferencias, seguridad, etc.) como de ocio (cine, televisión, etc.). Es destacable que desde la invención del cinematógrafo por los hermanos Lumière, hace más de un siglo, ha habido grandes esfuerzos dirigidos a la búsqueda de la mayor calidad posible en el registro y posterior representación de las imágenes. Una importantísima mejora relativamente reciente (hace menos de 30 años) fue el paso del vídeo analógico al vídeo digital. Gracias a ella, la información de vídeo ha ganado en versatilidad. La digitalización de la señal de televisión, que comenzó a realizarse en la década de los 80, abrió un abanico de aplicaciones que a día de hoy resultan cotidianas, tales como la televisión de alta definición, el video bajo demanda, la televisión sobre IP, el video en terminales móviles o la televisión tridimensional [1]. El desarrollo de diversas aplicaciones en Internet ha desencadenado el surgimiento de un nuevo fenómeno social denominado Web 2.0. A partir de este momento, el usuario ha dejado de ser solo un espectador de los contenidos en la Web y se ha convertido en un generador activo de los mismos [2]. En este sentido, el usuario no solo depende de la información que posea en su computadora, sino que aprovecha el almacenamiento en la nube para acceder a los datos y aplicaciones personales. Redes sociales como Facebook, MySpace y servicios como YouTube están haciendo cada vez un mayor uso del video en su oferta; por otra parte, la difusión por satélite, la Televisión por Protocolo de Internet (IPTV) y la Televisión Digital Terrestre (TDT) se ven afectadas por el limitado ancho de banda, así como por el reducido espectro de la señal. Por tanto, es necesario emplear técnicas de.

(15) INTRODUCCIÓN. 2. comprensión que reduzcan de forma drástica el régimen binario de la señal de video codificada[1], manteniendo la misma calidad visual. En este sentido, el formato de compresión de video que se utiliza para la codificación de video de alta eficiencia es H.265/HEVC. Recientes investigaciones han demostrado las altas tasas de compresión que ofrece este formato, pudiendo duplicar la de su antecesor H.264/MPEG-4 AVC [3]. Los usuarios finales pueden aprovechar las ventajas de esta compresión de dos formas: 1. A un nivel aproximadamente idéntico de calidad visual, H.265 permite que el video sea comprimido a un archivo con la mitad del tamaño (o bitrate) que AVC. 2. Cuando se comprime al mismo tamaño de archivo (o bitrate) que AVC, H.265 entrega una mejora significativa en la calidad visual. La cantidad de volumen de información audiovisual que se maneja en un servidor web resulta ser tan elevada que es necesario emplear variantes que optimicen el procesamiento de toda esta información. Resulta engorroso almacenar, transmitir y reproducir video digital de alta resolución en cualquier escenario web, y si es necesario procesar este contenido con el objetivo de comprimirlo hay que aumentar considerablemente las prestaciones de los ordenadores que realicen este proceso. Por este motivo, el empleo de un clúster de alto rendimiento, en el que se distribuya el procesamiento entre todos los procesadores de un mismo nodo [4], constituye una solución ante la problemática del procesamiento de la señal de video en el proceso de codificación. Esta investigación constituye una motivación para incentivar el proceso migratorio de tecnología analógica a digital que se desarrolla en el país. Los resultados de este proyecto de tesis pueden demostrar las ventajas de comprimir materiales audiovisuales utilizando el estándar H.265 y la implementación de la herramienta FFmpeg dentro de un clúster de alto rendimiento, pudiendo optimizar los servicios de almacenamiento y reproducción de video, tanto a nivel de centro universitario, como a nivel de país, en redes sociales y otros servicios de la Web 2.0, así como también en la Televisión Digital Terrestre (TDT) bajo la norma china DTMB (Digital Terrestrial Multimedia Broadcast)..

(16) INTRODUCCIÓN. 3. El fenómeno de la Televisión Digital Terrestre se ha implementado en diferentes escenarios geográficos desde el 2000 [5]. Sin embargo, en Cuba, el proceso migratorio está en marcha y se pretende lograr el “apagón analógico” en el 2021. El auge de teléfonos inteligentes, computadoras portátiles o tabletas y otros dispositivos que incorporan funciones para la captura de imágenes y videos han inundado, de contenido multimedia de alta resolución, la Web. Dicho contenido presenta características variables en cuanto a resolución, número de fotogramas por segundo, relación de aspecto, tasa de bit y formato contenedor multimedia de video. En muchas ocasiones, los inconvenientes con la transmisión, difusión, almacenamiento y/o reproducción del video digital de alta resolución encuentran solución en la compresión eficiente de datos. Pero no siempre la compresión eficiente se puede realizar debido a que los estándares de codificación imponen limitaciones en la precisión de las operaciones de muchos de los procesos internos del codificador, lo que provoca errores de redondeo que a su vez desembocan en una pérdida de eficiencia de codificación perceptible cuando se evalúan las medidas objetivas de calidad visual PSNR (Peak Signal-to-Noise Ratio) y SSIM (Structural Similarity), de ahí que se formule la siguiente interrogante: ¿qué efecto ejerce la variación de los parámetros de codificación sobre las métricas de calidad de compresión eficiente? El objetivo general es: analizar el efecto que ejerce la variación de los parámetros de codificación sobre las métricas de calidad de compresión eficiente. Los objetivos específicos están encaminados a: 1. Fundamentar las tecnologías de compresión de la información audiovisual. 2. Definir las herramientas necesarias para la compresión eficiente en un clúster de alto rendimiento. 3. Evaluar las métricas de calidad visual para cada escenario de codificación. Las interrogantes científicas son: 1. ¿Cuáles son las tecnologías de compresión de información audiovisual? 2. ¿Qué herramientas son necesarias para lograr la compresión eficiente en un clúster de alto rendimiento? 3. ¿Qué método de compresión es el idóneo para cada escenario de codificación?.

(17) INTRODUCCIÓN. 4. El informe de la investigación se conformará de introducción, capitulario, conclusiones, recomendaciones, referencias bibliográficas y anexos. En el capítulo I se fundamentan las tecnologías de compresión de la información audiovisual. En el capítulo II se define el funcionamiento de las herramientas necesarias para la compresión eficiente en un clúster de alto rendimiento: la herramienta FFmpeg y el estándar H.265, así como también las métricas para evaluar los resultados de la codificación. En el capítulo III se muestran los resultados del proceso de codificación y se realiza una evaluación de estos resultados teniendo en cuenta las medidas objetivas de la calidad visual PSNR y SSIM. A partir de un análisis crítico de los resultados, se muestran las conclusiones de la investigación desarrollada, así como también las recomendaciones en función de futuras investigaciones sobre el tema. Las referencias bibliográficas se relacionan posteriormente, mostrando que el tema es de actualidad y cuenta con marcada novedad. Seguidamente se relacionan los anexos..

(18) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 5. CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. El presente capítulo tiene como objetivo realizar un análisis de los principales aspectos relacionados con las tecnologías de compresión de la información audiovisual, comenzando primeramente por los principales aspectos teóricos relacionados con la señal de video digital y el proceso de compresión. A continuación, se realiza una caracterización de cada uno de los estándares de compresión más utilizados y mundialmente reconocidos. 1.1. Señal de Video Digital.. Los problemas iniciales relacionados con el envío de mucha información a velocidad necesaria para sistemas de tiempo real o casi real, así como los de almacenamiento fueron resueltos, hasta cierto punto, con la implementación de los sistemas de codificación. Pero no fue hasta la década de los 90 cuando el campo audiovisual comienza a seguir varias líneas de desarrollo en el ámbito investigativo, tanto de iniciativa privada (Quicktime) como estandarizada MPEG (Moving Picture Experts Group). Los sistemas de transmisiones audiovisuales profesionales han adoptado en general los estándares MPEG derivados del estático JPEG (Joint Photographic Experts Group) y los H.26X, puesto que han probado su robustez y fiabilidad [6]. Con el objetivo de que los servicios que implican a una gran masa social puedan ser asequibles en cuanto a ventas y a adquisición, el precio de los receptores y decodificadores son cada vez más razonables ante esta demanda. La transmisión de la señal de video digital supone grandes ventajas por encima de la de video analógico:.

(19) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 6. 1. Empleo más eficiente y descongestión del espectro radioeléctrico, que es un recurso limitado, abriendo la posibilidad de introducir más canales de programación y nuevos servicios en el mismo espacio de frecuencia. 2. Reducción de la cantidad de transmisores. 3. Reducción del consumo energético en los centros transmisores, no solo por el consumo mismo de los transmisores, sino por la disminución de los recursos empleados en la optimización del funcionamiento de los transmisores. 4. Disminución de las pérdidas en el sistema de las antenas transmisoras, al eliminar una parte de los filtros, combinadores y divisores para compartir las líneas de transmisión y sistemas de antenas entre los transmisores de cada uno de los canales nacionales y de los canales regionales o provinciales. 5. Abre la posibilidad de incrementar los canales de programación televisiva, así como también ofrece la posibilidad de implementar una programación radial con calidad de audio digital, superior a la que es posible por FM (Frecuency Modulation) y muy superior a la de la Onda Media. 6. Permite al televidente acceder a la Guía de Programación a demanda. 7. Ofrece nuevos servicios relacionados con la capacidad de transmitir información en formato de texto e imágenes, adicional a la programación televisiva. 8. Permite nuevas formas de creación y enriquecimiento de la producción audiovisual al disponer no solo del video y del audio sino de texto e imágenes, a demanda del televidente, relacionadas con la programación en curso, por ejemplo, las estadísticas asociadas a un juego de pelota. Las redes de comunicaciones desarrolladas para manejar datos pueden llevar perfectamente video digital acompañado también de audio a distancias indefinidas sin pérdidas de calidad. La difusión de televisión digital emplea estas técnicas para eliminar las interferencias, así como los problemas de atenuación de señales y de recepción de camino múltiple propio de las emisiones análogas. Al mismo tiempo, se hace un uso más eficaz del ancho de banda disponible [7]..

(20) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 1.1.1. 7. Códec.. La compresión y la descompresión se realizan mediante un codificador y un decodificador respectivamente, que en la terminología del área suele denominarse Códec. Este elemento no es más que una función, que toma una secuencia de bits y da como salida una secuencia de datos es decir su finalidad es comprimir, codificar y cifrar la información con el fin de poderla almacenar o transmitir por la red [8]. El funcionamiento de los sistemas de compresión de video digital se basa en una estructura común: extraen la información redundante de las imágenes, de modo que en el envío de esa información puedan ser reconstruidas en el receptor; además, llevan a cabo aproximaciones de la señal, con el fin de reducir el bitrate de la señal al ser trasmitida. Finalmente, el sistema se encarga de encontrar el modo más eficiente para poder enviar todos los datos o información. Durante la compresión, la mayor parte de los códec provocan pérdidas de información para conseguir un tamaño más pequeño posible del archivo de destino. En las aplicaciones prácticas, para un aumento casi imperceptible de la calidad, no es recomendable un aumento considerable del tamaño de los datos.. Figura 1.1 Esquema general de la funcionalidad del códec [8].. El códec, al ser una función, no está limitado a ningún aspecto o dispositivo en particular. Puede ser implementado desde una simple tarjeta en una computadora personal o chip en una placa madre, hasta una función software que se ejecute en una computadora. Constituye especialmente útil, en el diseño de los códec, el uso de los conocimientos filosóficos sobre los sistemas de visión y audición humana. Con el fin de aprovechar las.

(21) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 8. facultades más relevantes de estos sistemas, la compresión genérica multimedia encuentra su fundamento principal. El sistema de visión humana se caracteriza por ser más sensible al brillo que a la variación de diferentes tonos de colores aproximados, de esta forma, durante la compresión de video, se presta mucha más atención a los elementos que tratan el brillo y mucho menos a los del color. Se conoce que el oído humano no puede oír algunas frecuencias y que otras no son agradables de escuchar. De ahí que las señales con estas frecuencias se digitalizan con menos precisión o incluso se eliminan completamente en el proceso de compresión [8]. Es indiscutible que la meta por excelencia de los códec es lograr la compresión cada vez más inteligente y eficiente, es decir, que sean capaces de adaptarse al tipo de contenido de las imágenes y generar una tasa de bit cada vez menor para ofrecer un mismo nivel de calidad. 1.1.2. Digitalización.. La digitalización es un proceso que parte de tener una señal analógica y se pretende obtener una representación de la misma en formato digital. Este proceso supone grandes ventajas: protección frente a ruidos, encriptación de señales, el procesamiento digital de los datos, así como robustez a la multigeneración; pero su implementación supone una desventaja a considerar: el gran aumento del ancho de banda. Haciendo un análisis del ancho de banda que consumirá la señal de video digitalizada se puede llegar a comprender el porqué de la compresión de video, a la hora de muestrear la señal de video conocida como de definición estándar, la cual está compuesta por 576 líneas, la luminancia se muestrea a 13,5MHz, y a 6,75MHz cada una de las señales de diferencia de color (formato 4:2:2). Multiplicando la frecuencia de muestreo por el número de bits por muestra se obtiene la tasa binaria resultante: Codificación con 8 bits: (13,5 x 8) + (6,75 x 8) + (6,75 x 8) = 216 Mbps. Codificación con 10 bits: (13,5 x 10) + (6,75 x 10) + (6,75 x 10) = 270 Mbps. Teniendo en cuenta el criterio de Nyquist que exige que la frecuencia de corte del filtro por el que ha de pasar la señal para transmitirse deba ser al menos la mitad del flujo binario de.

(22) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 9. la misma, se obtiene que el ancho de banda de transmisión para cada una de las codificaciones posibles sea: Codificación con 8 bits: 108 MHz. Codificación con 10 bits: 135 MHz. El resultado para cada una de las codificaciones muestra un ancho de banda extremadamente alto para considerarse viable en difusión de TV. Tanto el canal terrestre, como el canal de satélite no admiten estos anchos de banda, lo que trae consigo el uso necesario de la compresión de la señal, y así poder aproximarse a anchos de banda razonables utilizable en un servicio de difusión de TV. Para esto se utilizan las técnicas de codificación de fuente, conocidas como compresión de vídeo. Por lo que es necesario aplicar un proceso de reducción de la tasa de bits que permita la transmisión de las señales sin la percepción de pérdidas en la calidad de la misma [6]. 1.2. Compresión de video.. Para lograr una drástica reducción de la cantidad de información que hay q enviar, con mínimas pérdidas de la calidad de la imagen, se implementan las técnicas de compresión. Los pasos, de modo genérico, que realizan la totalidad de los codificadores de los distintos estándares durante el proceso de compresión son los siguientes: •. Pre-procesamiento de la imagen.. •. Estimación y compensación de movimiento.. •. Codificación. transformacional. del. residuo. por. la. DCT. (Discrete. Cosine. Transformation). •. Cuantificación de los coeficientes transformados.. •. Scanning zi –zag con utilización de técnicas de codificación especiales (Variable– Length Coding), para la reducción de la redundancia.. •. Codificación entrópica, como la codificación Huffman.. Pero hay que tener en cuenta un aspecto muy importante a la hora de comprimir: las pérdidas como consecuencia del propio proceso de compresión. Por tanto, los algoritmos de compresión se clasifican en dos ramas:.

(23) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 10. 1. Compresión sin pérdidas (lossless compression): el término “sin pérdidas” significa sin pérdida de datos. Cuando se comprime un archivo en el modo sin pérdidas, se conserva el 100% de los datos, de forma similar a cuando se comprime un documento en un archivo Zip (el archivo del documento se reduce de tamaño, pero todas las palabras siguen estando ahí cuando lo descomprime). Se puede guardar video sin pérdidas una y otra vez sin perder ningún dato, la compresión sólo concentra los datos en un espacio más pequeño. La compresión sin pérdidas ahorra menos espacio porque sólo se pueden comprimir los datos hasta que no le quede más remedio que desechar información. En otras palabras, al descomprimir los datos comprimidos, el resultado tiene que ser exactamente idéntico al original. (Relación de compresión 3:1). 2. Compresión con pérdidas (lossy): la compresión con pérdidas desecha los datos para conseguir una velocidad de bits inferior. La compresión psicoacústica y la compresión psicovisual son tecnologías con pérdidas que consiguen archivos más pequeños con menos datos que los archivos originales. Cada vez que guarda un archivo con un formato de archivo con pérdidas, se desechan más datos, incluso aunque lo guarde con el mismo formato. Una buena regla práctica es la de utilizar un formato con pérdidas sólo como paso final del proyecto. En otras palabras, al descomprimir los datos comprimidos, los resultados nunca serán idénticos a los originales, pero estarán a una distancia cercana al valor original. En la compresión de imágenes, audio y video se utilizan siempre algoritmos de compresión con pérdidas ya que estos tienen una tasa de compresión superior. Otra consideración para la compresión de video es la redundancia que pueda presentar, básicamente existen tres tipos de redundancia [9]: 1. Redundancia Espacial: Esta correlación puede ser percibida en dominio espacial y temporal. Por ejemplo, en el dominio espacial, existe redundancia cuando un conjunto de píxeles vecinos posee valores semejantes, para lo cual los formatos de compresión utilizan la codificación Intra-Cuadro. 2. Redundancia Temporal: Esta correlación puede ser percibida entre los cuadros que se encuentran próximos entre sí en el tiempo. Se puede llegar a conseguir altas tasas de compresión si se hace una exploración eficiente de la redundancia, al cual se le denomina codificación Inter-Cuadros..

(24) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 3. Redundancia Entrópica: Este tipo de redundancia está relacionada. 11 con las. probabilidades de ocurrencia de los símbolos de video codificados, es decir mientras mayor sea la cantidad de información nueva, disminuirá la probabilidad de aumento de la aparición de un símbolo. 1.2.1. Análisis de la señal.. El análisis de la señal de video se basa en la realización de medidas en cuanto a la secuencia de video de entrada, a continuación, se realizan cálculos de errores de predicción y posteriormente se efectúan las trasformadas u operaciones matemáticas que llevan del dominio temporal al dominio de la frecuencia, obteniéndose los coeficientes asociados a dicha transformada. Luego se procede a la compresión de datos mediante la elección de un algoritmo de procesamiento digital de señales. Seguidamente se divide la señal en subbandas y se realiza un análisis de la correlación. Los píxeles de entrada se transforman a otro formato, por ejemplo, a los coeficientes de la transformada discreta del coseno, DCT, donde mantienen toda la información de la señal salvo algunos errores de redondeo, por lo que no es necesario reducir los datos durante este análisis de la señal. 1.2.2. Cuantificación.. Este paso es el que ejecuta la mayoría de las técnicas de compresión dado que el cuantificador puede eliminar valores que representan información inútil. Este paso suele implicar pérdidas en la información para recuperar la señal, aunque también se pueden definir técnicas que no presenten pérdidas con razones de compresión menores [6]. 1.2.3. Codificación de longitud variable o codificación por entropía.. A cada evento que se realiza, se le asigna un código con un número de bits variable. En general suceden eventos que tienen códigos con pocos bits, sólo en eventos poco comunes se tienen códigos con muchos bits. Es de esperar que la longitud de código en promedio sea menor que la longitud de un código fijo que sería necesario sin esta disposición. Esto suele realizarse mediante el código de Huffman [6]..

(25) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 1.3. 12. Tecnologías de codificación de video.. Los estándares de compresión de video tienen a su favor el hecho de que facilitan la interoperabilidad, la cual permite que los riesgos de tener un sistema de poco uso, tanto para los consumidores, como para los fabricantes sean los menores posibles. Los estándares permiten una aceptación más rápida de los productos, así como un uso más amplio. Actualmente existen dos familias de estándares de compresión de vídeo por un lado la ITU-T (International Telecommunication Union-Telecommunication Standardization Sector) y en segundo lugar la ISO (International Standards Organization) [6]. En consecuencia, a estos estándares se derivan una gran cantidad de formatos de compresión de videos, especializados en diferentes áreas de las comunicaciones y originalmente pensados para determinadas especificaciones a la hora de su uso. A continuación, se muestran una serie de formatos, organizados por familias. 1.3.1. H.261.. Este estándar fue pensado y diseñado para el uso en aplicaciones como video conferencia, vigilancia y monitoreo, telemedicina y otros servicios audiovisuales. Pertenece al grupo de estándares H.320 empleado en comunicaciones audiovisuales. Ofrece una velocidad de transferencia de datos de múltiplos de 64 Kbit/s, lo que indica que coincide con las tasas de datos ofrecidas por los servicios ISDN (Integrated Services Digital Network). Tiene la característica de ofrecer el uso de entre 1 y 30 canales RDSI (64 Kbit/s a 1920 Kbit/s), facilitando las conexiones digitales de extremo a extremo para proporcionar una amplia gama de servicios. Solo es capaz de soportar dos resoluciones: CIF (Common Intermediate Format) con resolución de video de 352x288 píxeles y QCIF (Quarter Common Intermediate Format) con resolución de 176x144 píxeles, aplicable solo para formatos progresivos, con una tasa binaria máxima de 2 Mbit/s. Las imágenes presentan codificación en sus componentes de luminancia y crominancia (Y, Cr, Cb) conforme a la recomendación ITU-R BT. 601 [10]. Con el propósito de minimizar el retardo, H.261 utiliza únicamente frames I y P, no utiliza frames B. Emplea estimación de movimiento para obtener una precisión completa del píxel.

(26) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 13. y predicción de la compensación de movimiento en bloques de 16×16 pixeles y DCT por bloques de 8×8 pixeles. El rango de búsqueda es de ± 15 pixeles [8]. Una particularidad interesante es que el estándar H.261 ofrece la opción de aplicar un filtro paso bajo dentro del lazo de realimentación de la predicción de compensación del movimiento con el fin de suavizar el frame previamente reconstruido como parte del proceso de predicción. Este filtro no se utiliza en los estándares MPEG-1 y MPEG-2, ni en el H.263 ya que utilizan estimación del movimiento con precisión de medio píxel y la interpolación espacial resultante tiene un efecto similar al del filtro. En la actualidad su baja eficiencia está muy superada por estándares como el H.263 y el H.264, que lo han sustituido en la totalidad de aplicaciones [8]. Pero este estándar presenta determinados problemas a tener en cuenta: •. Estimación del vector de movimiento: este problema radica en la elección de un método rápido y con buenos resultados en cuanto a encontrar el vector de movimiento que minimice alguna función de costo, como el error medio absoluto por citar un ejemplo.. •. Propagación de errores: durante la decodificación se cometen errores al ejecutar la transformada inversa del coseno, para solucionar esto se fuerza al codificador a mandar un cuadro INTRA.. •. Control del bitrate: el manejo de un buffer que controla el paso de cuantificación, cuando éste se llena se aumenta el paso, cuando éste se vacía se vuelve a reducir el paso de cuantificación.. 1.3.2. H.263.. El códec de video H.263 fue desarrollado basándose en una mejora evolutiva con respecto a su antecesor H.261. Fue desarrollado por la ITU-T y establece las bases para el desarrollo de MPEG optimizado para tasas de bits más elevadas, enfocándose en video conferencias sobre circuitos telefónicos conmutados, empleando H.323 para Internet. Funciona preferiblemente en secuencias de videos que presentan cambios poco frecuentes entre imagen e imagen, debido a que contiene una componente para la compresión temporal más intensa. A pesar de utilizar algoritmos de codificación muy similares a los utilizados por H.261, presente una notable mejora en la eficiencia y la capacidad de recuperación de errores de codificación. Fue pensado en un inicio para una tasa de bits baja sobre los 64.

(27) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 14. Kbit/s, o sea, velocidad ISDN, empleándose años atrás en aplicaciones en internet: YouTube, Google Video, MySpace, como parte del contenido en flash video. Las principales diferencias con el estándar H.261 son [6]: •. Más formatos de imágenes y diferentes estructuras de bloques.. •. Compensación d e movimiento con precisión de medio píxel, lo que elimina la necesidad del Loop-filter.. •. Alternativas a la codificación de entropía (codificación aritmética). Incluye bloques de tipo B como en MPEG.. •. Mejora el rendimiento de 3 a 4 dB con respecto a bitrates menores de 64 Kbps.. •. Codificación predictiva del vector de movimiento usando los tres anteriores.. •. Cuatro vectores de movimiento por macrobloque.. •. Variedad de opciones negociables.. Una de sus aplicaciones más prácticas es que H.263 puede ser utilizado para codificar y decodificar videos aún sin patentes de software, bajo licencia libre LGPL (Lesser General Public License) presente en programas de software libre como ffdshow, VLC media player y MPlayer. 1.4. MPEG - X.. Serie que incluye a MPEG-1/2/4 y es desarrollada por MPEG, grupo encargado de la conformación de estándar para la compresión de imágenes en movimiento, video, y audio asociado a medios de almacenamiento digital, tales como el CD-ROM, formado por las organizaciones internacionales para el desarrollo de estándares: ISO e IEC (International Electrotechnical Commission). El MPEG utiliza códecs (codificadores-decodificadores) de compresión con bajas pérdidas de información usando códecs de transformación [8]. La señal de vídeo, no es más que una sucesión de imágenes fijas, reproducidas a una velocidad que provoca que el ojo las vea como una imagen en movimiento, sin ningún espacio entre e l l a s [6]. En el mundo existen gran variedad de estándares para la transmisión de imágenes de TV, en Europa se transmiten 25 imágenes por segundo, esto provoca que las variaciones entre una imagen y la siguiente sean casi nulas, existiendo mucha información redundante entre una imagen y la siguiente. Este fenómeno de.

(28) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 15. redundancia es aprovechado por la familia MPEG que se encarga de reducir aún más la cantidad de información a transmitir después del proceso de codificación, evitando transmitir la información casi exacta una y otra vez. La importancia de utilizar códecs de transformación con bajas perdidas radica en tomar muestras de imagen y sonido y fraccionarlas en pequeños fragmentos, y almacenar solamente las diferencias entre las imágenes reconstruidas y algún extra necesario para la predicción. Para realizar la eliminación de información, se emplea el método conocido como DPCM (Differential Pulse Code Modulation) el cual es el idóneo para minimizar las redundancias, puede suceder que existan porciones de la imagen que cambien su posición entre las diferentes imágenes o porciones de la imagen que no existían anteriormente ya que estas situaciones están previstas mediante el uso de las técnicas denominadas de Estimación y Compensación de movimiento (vectores de movimiento), y la codificación INTRA de los macrobloque, suponiendo que la predicción no obtenga buenos resultados [6]. La familia MPEG–X se especializa en codificar video separando en unidades jerárquicas el mismo: secuencias de video, grupos de imágenes, imágenes, slices, macrobloques y bloques DCT. La predicción de la compensación de movimiento se realiza sobre macrobloques de 16×16 píxeles codificados utilizando DCT de bloques de 8x8 píxeles, típicamente cuatro bloques de 8x8 píxeles para la luminancia, dos bloques para la crominancia y posiblemente un vector de movimiento hacia delante y/o hacia atrás [8]. Las capas en las que se codifica el video del estándar MPEG están organizadas jerárquicamente: una serie de macrobloques se denomina slice y todos los slices de un frame contienen una imagen, las imágenes contiguas forman un GOP (Group of Pictures), y todos los GOP forman una secuencia completa. En cada macrobloque se realiza un escaneo de cada bloque desde izquierda hacia la derecha y de arriba hacia abajo. La figura 1.2 representa la jerarquía de capas que utiliza el estándar MPEG para codificar el video..

(29) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 16. Figura 1.2 Jerarquía de capas que utiliza MPEG para codificar el video [8].. Como es necesario disponer de imágenes completas como referencia para poder hacer la estimación de movimiento de forma eficiente, se insertarán imágenes I cada cierto tiempo. El número de imágenes que existen entre dos imágenes I marcará el tamaño de GOP. Existen diferentes estructuras de GOP, pudiendo llegar a tener cualquier tamaño, pero lo habitual es que sea de 12 ó 15 imágenes, de forma que la codificación sea eficiente, empezando siempre por una imagen I. La relación entre los diferentes frames generados en la codificación se muestra a continuación en la figura 1.3.. Figura 1.3 Estructura de la GOP y representación de la predicción bidimensional utilizando imágenes I o P [11].. El uso de predicción bidimensional, junto con el objetivo de reducir al máximo posible la memoria del decodificador, impone que el orden en el que se transmiten las imágenes sea distinto del orden en el que deben visualizarse. Si no existieran estas restricciones sobre la memoria del decodificador, éste podría almacenar en un buffer las imágenes recibidas y decodificarlas cuando hubiera recibido toda la información necesaria. El MPEG establece que no se necesite almacenar más de dos imágenes de referencia en el decodificador, más una memoria adicional para la imagen que se esté codificando en cada momento. Para ello, es necesario cambiar el orden de transmisión de manera que las imágenes del tipo B se.

(30) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 17. reciban siempre después de haber recibido las referencias que se han utilizado en su codificación. Los DTS (Decoding Time Stamps), son las marcas de tiempo utilizada por el decodificador para saber en qué momento ha de decodificar cada una de las imágenes. Los PTS (Presentation Time Stamps), son las marcas de tiempo utilizada por el decodificador para saber en qué momento se ha de presentar cada una de las imágenes. Hay que tener en cuenta también que no todas las imágenes se decodifican y se presentan de la misma manera ya que para poder decodificar un frame P, es necesario disponer del frame I de referencia, así como para presentar un frame B, es necesario disponer de los frames P o I de referencia que se utilizaron en la generación. En el proceso de compresión temporal, por tanto, se trabajará con diferentes tipos de imágenes [8]: 1. Imágenes I (intracodificadas): estas imágenes son las referencias que se insertan cada cierto tiempo para que el mecanismo DPCM tenga referencias válidas ya que son las que contienen la información completa de la imagen, sin estimación de movimiento y únicamente se aplican los mecanismos de compresión espacial. 2. Imágenes P (Predictivas): estas imágenes son el resultado de aplicar los métodos de estimación de movimiento comparando con imágenes anteriores. Por tanto, estas imágenes contienen información de macrobloques con vectores de movimiento, y si fuera necesario también puede llevar macrobloques intracodificadas (no hay referencias anteriores). Para la obtención de un frame P, es necesario disponer del frame de referencia decodificado, por lo que su referencia solo podrá ser un frame I o uno P anterior. 3. Imágenes B (Bidireccionales): son el resultado de aplicar los métodos de estimación de movimiento comparando con imágenes anteriores y posteriores. En este caso, por tanto, existirán vectores de movimiento para estimación de movimiento según imágenes anteriores y posteriores.. Esto da lugar a los vectores de movimiento. forward y backward. Para generar este tipo de imágenes, es necesario disponer de imágenes de referencia con contenido suficiente para ser comparadas. Por ello, solo será posible utilizar frames I o P como referencias para generar los frames B..

(31) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 1.4.1. 18. MPEG – 1.. El estándar resultante proveniente de la primera fase de MPEG, conocido comúnmente como MPEG-1, fue completamente definido en 1991 capaz de proporcionar calidad de vídeo VHS (Video Home System) y audio de 1.5 Mbps. Su principal objetivo se basa en la compresión para medios de almacenamiento digitales, CD-ROM, además presenta una resolución de 352x240 (29.97 imágenes/s), 352x288 (25 imágenes/s) [8]. 1.4.2. MPEG – 2.. Es el resultado de una segunda fase de trabajo y es continuación del estándar MPEG–1, con aplicaciones fundamentalmente en el video entrelazado y la televisión convencional. Presta velocidades de bits superiores a 10 Mbps. La tercera fase se dirigía hacia aplicaciones con más altas velocidades de bits, tal como HDTV (High Definition Television), pero estas aplicaciones también podrían realizarse en el contexto del estándar MPEG-2. Por tanto, la tercera fase fue incorporada en el estándar MPEG-2 [8]. El MPEG-2 es una versión avanzada capaz de soportar velocidades de bit más altas, mayor resolución e imágenes entrelazadas para televisión. Para vídeo entrelazado los campos pares e impares pueden codificarse separadamente o tomar la opción de combinarse un par de campos pares e impares y codificarse como un frame. En cuanto a la codificación basada en campos, MPEG-2 brinda métodos basados en campos para la predicción de compensación de movimiento, DCT de bloques y escaneado alternado en zigzag, además de un gran número de mejoras incluyendo extensiones escalables [6]. El esquema en bloques de un codificador MPEG-2 se muestra en la figura 1.4..

(32) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 19. Figura 1.4 Esquema en bloques de un codificador MPEG-2 [6].. La primera etapa que se muestra es la etapa DPCM (Differential Pulse Code Modulation) basada en la predicción de las muestras de la señal. Primeramente, es necesario contar con imágenes de referencia de forma que se disponga de toda la información para realizar la comparación de imágenes adyacentes en la secuencia, proceso conocido como compresión temporal. Si en lugar de únicamente tener en cuenta las diferencias entre el mismo macrobloque, además, es predecible el desplazamiento de algunos macrobloques en la imagen, se obtendrá una estimación de movimiento en la codificación, que el decodificador será capaz de descifrar para mostrar la imagen de forma correcta. Esta estimación ayuda a su vez a reducir la tasa binaria en transmisión y da lugar a los vectores de movimiento. Para obtener los vectores de movimiento, el sistema busca en la imagen información en el entorno del macrobloque a ser codificado. Esto se hace utilizando el principio conocido como block matching en una determinada área alrededor del macrobloque. De esta manera, se determina el lugar donde existe información que encaja con la del macrobloque actual. Para asegurar una correcta decodificación de la señal de video, el estándar MPEG-2 establece que los intervalos de repetición de los PTS y DTS deben ser siempre menores de 700 ms. Se les conoce como Tramas Elementales (ES: Elementary Streams) al video y audio comprimidos en MPEG-2. Inmediatamente después de la compresión pueden ser ES de.

(33) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 20. video, audio o de forma más general, datos. Todas las ES, se dividen en paquetes de longitud variable. Para que el decodificador sepa interpretar la información contenida en la trama de bits, se insertan determinadas cabeceras que describen la trama de bits contenida. Para el proceso de creación de la trama elemental se emplea una estructura jerarquizada, que va desde el nivel más alto (secuencia) al nivel más bajo (bloque). Primero se cogerán los bloques de coeficientes, para así formar un macrobloque, añadiendo los vectores de movimiento para dicho bloque, posteriormente se agruparán en slices, incluyendo un patrón de sincronismo, éstos se integrarán a su vez en imágenes, donde se especificará el tipo de imagen y referencias de tiempo. El grupo de imágenes se agrupará para formar el GOP, y finalmente los GOP se agruparán formando secuencias, paso en el que se incluye la información válida para toda la secuencia: tasa de imágenes, matrices utilizadas, nivel, perfil, resolución de la imagen, relación de aspecto, imagen entrelazada o progresiva, y formato de croma (submuestreo de croma). Esta estructura previamente descrita se observa en la figura 1.5 a continuación.. Figura 1.5 Estructura de la trama elemental de video MPEG-2 [12]..

(34) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 1.4.3. 21. MPEG – 4 AVC/H.264.. El estándar MPEG-4 AVC/H.264 (también conocido como MPEG-4 AVC) no es más que una norma para el códec de vídeo desarrollada por ITU-T y el ISO/IEC con el objeto de crear un estándar que permita la obtención de una imagen de calidad con una tasa binaria menor a la que presenta el estándar MPEG-2 sin incrementar demasiado la complejidad de diseño. Para ello realiza un mejor uso de la información redundante y de las limitaciones psicovisuales para favorecer la eficiencia de codificación de video. Proporciona en gran medida una mejor integración con los protocolos actuales y arquitecturas múltiples, incluyendo así la transmisión de vídeo en redes fijas e inalámbricas con disímiles protocolos de transporte. MPEG-4 incluye un gran conjunto de herramientas para una gran variedad de aplicaciones, soportando codificación basada en objetos, basada en frames y codificación de video sintético. H.264 incluye además predicción intracuadro, transformación en bloques de 4x4 muestras, en cuanto a los macrobloques a comprimir pues presentan un tamaño variable, un cuarto de píxel de precisión para compensación de movimiento y codificador de entropía mejorado. Para el incremento de la protección contra errores emplea determinados algoritmos: el FMO (Flexible Macroblock Ordering) y la ASO (Arbitrary Slice Ordering) para reestructurar la representación de macrobloques, la DP (Data Partitioning) que proporciona la capacidad de separar los elementos de sintaxis más importantes de los menos importantes en paquetes de datos diferentes, y la RS (Redundant Slices) que permite a un codificador enviar una representación suplementaria de una región de imagen que puede ser usada si la representación primaria es corrompida o perdida. Al igual que sus antecesores, el H.264 define diferentes tipos de perfiles [13]: •. Baseline: Se utiliza en aplicaciones de vídeo en tiempo real. Permite la ordenación flexible de macrobloques, ordenamiento arbitrario de slices y posibilita el tratamiento de slices redundante.. •. Main: Se usa para aplicaciones de almacenamiento y transmisión de televisión. Incorpora codificación estadística avanzada CABAC (Context-based Adaptative.

(35) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 22. Binary Arithmetic Coding) para la codificación de entropía, y permite la codificación de slices tipo B con predicción INTER. •. Extended: Incluye todas las partes del perfil Baseline. S e utiliza para servicios multimedia en Internet. Añade el tipo de slice SP y SI que se usa para cambiar eficientemente de resoluciones entre tramas de vídeo codificadas. Son muy similares a las slices tipo P e I respectivamente. El perfil Extended permite particionar los datos para minimizar los errores ocurridos en el proceso de transmisión.. •. High: Incluye todas las partes del perfil Main. Se desarrolló para aplicaciones de distribución de vídeo y postproducción. Incorpora como mejora al perfil Main la transformación en bloques de tamaño 8x8 y la utilización de matrices de cuantificación perceptual.. Predicción Intracuadro (INTRA): El objetivo de utilizar predicción INTRA en H.264 es codificar bloques o macrobloques de referencia y reducir la cantidad de bits codificados. Para esto se forma un predictor basado en los píxeles frontera a dicho MB dentro del mismo cuadro y sin filtrar. Posteriormente, se codifica la señal residual (error) entre el bloque actual y la predicción, disminuyendo considerablemente la cantidad de bits que representan al bloque actual. El bloque de luminancia bajo predicción, puede formarse por subbloques de 4x4 muestras o por todo el bloque de 16x16 muestras. Para cada bloque de luminancia de 4x4, se selecciona un modo de predicción de 9 modos direccionales definidos en el estándar. Existen cuatro modos de predicción para bloques de luminancia de 16x16 muestras. En el caso de bloques de 8x8, se pueden emplear 9 modos de predicción diferentes para las componentes de luminancia, únicamente empleadas en el Perfil High. Predicción Intercuadro (INTER): La estimación del movimiento y la compensación del movimiento son factores que ayudan a reducir la redundancia o correlación temporal. En H.264, el cuadro actual puede particionarse en macrobloques o bloques más pequeños. La compensación de movimiento realizada con bloques más pequeños, incrementa la ganancia de la codificación, a costa de incrementar el número de datos necesarios para representar la compensación [14]..

(36) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 23. Codificación de video H.264. Para la codificación en H.264 se debe seleccionar primero el tipo de codificación, ya sea INTRA o INTER. Si se selecciona INTRA, se pueden usar varios modos de predicción direccional para la reducción de redundancia espacial intra-frame. Si se selecciona INTER, se gana en eficiencia. La figura 1.6 muestra el diagrama en bloques del codificador H.264.. Figura 1.6 Diagrama en bloques del codificador H.264 [14].. La codificación INTER utiliza vectores de movimiento para reducir la redundancia temporal entre cuadros. La predicción se obtiene después de filtrar el bloque anterior reconstruido. H.264 puede utilizar dos codificadores de entropía, CAVLC (ContextAdapatative Variable Lenght Codes) o CABAC [8]. Anteriormente, MPEG-2 utilizaba un método de división por bloques de 8x8 píxeles, sin embargo, H.264 establece una mejora notable en la estimación de movimiento y en la obtención de una mayor precisión del píxel, al asignar diferentes tamaños de bloque en función de la cantidad de movimiento de los distintos frames. En zonas con poco movimiento se le asignan macrobloques de tamaño 16x16 píxeles, y a las zonas con mucho movimiento los bloques se descomponen en subbloques de 8x16, 16x8 o 8x8 píxel. Para los sub-bloques de 8x8 es posible realizar otra subdivisión en tamaños de 4x8, 8x4 y 4x4 píxeles [9]..

(37) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 24. Filtro de anti-blocking. En el proceso de codificación existen macrobloques con diferentes características. Para mantener una determinada velocidad binaria los bloques INTER o INTRA se cuantifican utilizando diferentes cuantificadores que introducen distorsiones alrededor de los bloques reconstruidos. En H.264 existe un filtro anti-blocking que reduce la distorsión de los bordes y evita el ruido acumulado. Este filtrado se aplica a los bordes de las muestras de tamaño 4x4 [15]. En la figura 1.7 se muestra el filtrado anti-blocking a los bordes de muestras de 4x4.. Figura 1.7 Aplicación del filtro anti-blocking a los bordes de las muestras de tamaño 4x4 [15].. 1.5. H.265/HEVC.. Como parte de los avances en el campo de la codificación de fuente llevados a cabo por la comunidad científica, los organismos ITU y del ISO (MPEG), responsables de la estandarización de esta tecnología, se aprueba la primera fase del estándar de compresión H.265/HEVC (High Efficiency Video Coding) a inicios del 2013. Este se perfila como el sucesor natural del estándar de compresión H.264/AVC (Advanced Video Coding). En la figura 1.8 se observa la evolución de las tecnologías de compresión de la información audiovisual desde 1988 hasta el surgimiento de la primera fase de HEVC en el 2013..

(38) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 25. Figura 1.8 Evolución de las tecnologías de compresión de la información audiovisual [6].. En la actualidad, la demanda de los usuarios por trabajar con formatos de mayor resolución superiores a los actuales formatos de HDTV es inminente, en este sentido, este estándar no solo integra nuevas herramientas para mejorar el proceso de codificación, sino que mejora las ya existentes en los estándares previos, especialmente en H.264, logrando una mejora en la calidad percibida y permitiendo una reducción de bitrate por encima del 50% con respecto a H.264. H.265 pretende ser altamente eficiente en dos sentidos: lograr eficiencia en formatos de muy alta resolución como UHDTV (Ultra High Definition Television), y hacerlo también en entornos de muy baja tasa binaria, como es el caso de servicios streaming, WebTV y OTT (Over the Top Content). H.265 también utiliza la estimación y la compensación de movimiento para aprovechar la similitud temporal de las secuencias, y además emplea la transformada discreta del coseno, con cierta variación, con el objetivo de aplicar la cuantificación en el dominio transformado, y codificar estadísticamente dichos coeficientes. 1.5.1. Capa de codificación de video.. En la figura 1.9 se puede observar un diagrama de bloques del codificador HEVC genérico. En dicha figura se aprecia cómo HEVC utiliza el mismo esquema de codificación híbrida que H.264 (predicción inter/intra-imagen y codificación de la transformación 2-D). En este modelo siempre se trabaja con la información residual de la predicción (espacial y/o.

(39) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 26. temporal), donde el codificador y el decodificador generan exactamente las mismas predicciones entre imágenes utilizando compensación de movimiento y decisión del modo de codificación, que se envía junto con el flujo de información del vídeo codificado [16].. Figura 1.9 Diagrama de bloques del codificador de video HEVC [16].. Un algoritmo de codificación capaz de producir un flujo de bits compatible a HEVC suele proceder de la siguiente manera. Cada imagen es dividida en regiones en forma de bloque, cuando los bloques son exactamente particionados se transmiten al decodificador. La primera imagen de una secuencia de vídeo (la primera imagen en cada punto de acceso aleatorio limpio en una secuencia de vídeo) se codificada utilizando predicción intrapicture (que utiliza un poco de predicción de datos espacialmente de región a región dentro de la misma imagen, sin dependencia alguna de otras imágenes). Para las imágenes restantes de una secuencia o entre puntos de acceso aleatorio, se utilizan interpicture como modos de codificación de predicción temporal para la mayoría de los bloques. Este proceso consiste en elegir los datos de movimiento que comprenden la selección de imágenes de referencia, así como el vector de movimiento (MV) que se aplicará para la predicción de las muestras de cada bloque. El codificador y decodificador generan señales de predicción interpicture idénticos mediante la aplicación de la compensación.

(40) CAPÍTULO 1. FUNDAMENTOS DE LA CODIFICACIÓN DIGITAL DE VIDEO. 27. de movimiento (MC) utilizando los MV y los datos de decisión de modo, que son transmitidos como información lateral [17]. El residuo de estas comparaciones se transforma mediante una transformación lineal y espacial, donde los coeficientes son escalados, cuantificados y codificados entrópicamente para ser transmitidos junto a la información de la predicción. El codificador duplica el lazo de procesamiento de la decodificación (véanse los recuadros sombreados en la figura 1.9) de tal manera que ambos generan predicciones idénticas para los datos subsiguientes. Por lo tanto, los coeficientes de transformación cuantificados se construyen mediante la escala inversa y transformada inversa para lograr duplicar la aproximación decodificada de la señal residual.. El residuo se añade entonces a la. predicción, y el resultado de esa adición puede alimentarse entonces en uno o dos filtros de lazo para suavizar los artefactos inducidos por el procesamiento y la cuantificación en bloque. La representación de imagen final (que es un duplicado de la salida del decodificador) se almacena en un buffer de imagen decodificada que se utilizará para la predicción de las imágenes posteriores. En general, el orden de codificación o decodificación del procesamiento de imágenes a menudo difiere de la orden en que llegan de la fuente; que requiere una distinción entre el orden de decodificación (el orden de flujo de bits) y el orden de salida (el orden de visualización) para un decodificador [17]. Para ser codificado el material de vídeo por HEVC, en general, se espera que la entrada sea con imágenes de barrido progresivo (ya sea debido a la fuente de origen de vídeo en ese formato o como resultado del desentrelazado antes de la codificación). No hay características de codificación explícita que estén presentes en el diseño HEVC para apoyar al uso de la exploración entrelazada. Sin embargo, una sintaxis de metadatos se proporciona en HEVC permitiendo a un codificador indicar que el vídeo entrelazado escaneado ha sido enviado por la codificación de cada campo (es decir, las líneas pares o impares de cada fotograma de vídeo) de vídeo entrelazado como una imagen separada o que ha sido enviado por la codificación de cada cuadro entrelazado como una imagen HEVC codificada. Esto proporciona un método eficiente de codificación de vídeo entrelazado sin sobrecargar decodificadores con una necesidad de apoyar un proceso de decodificación especial para ello [18]..