CAPITULO 3 COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3

(1)

(2)

COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3

CAPITULO 3

COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3 3.1 INTRODUCCIÓN

En este capítulo se definen las características, los fundamentos de la compresión de video MPEG-2 y audio de 5.1 canales AC-3 de Dolby, así como la formación del flujo para el transporte de las señales comprimidas, estos usados por la norma ATSC. La compresión de video se aplico desde la televisión analógica de distintas formas. El barrido entrelazado es una forma de compresión, porque el ancho de banda que ocupa esa señal, se reduce a la mitad. En cambio, utilizando barrido progresivo, el ancho de banda que ocuparía esa señal, sería el doble.

Otra forma de compresión, es la debida a las señales diferencia de color (R-Y) y (B-Y). El ojo es poco sensible a los detalles de color, por ende estas señales necesitan un ancho de banda pequeño.

3.2 GENERALIDADES DE LA COMPRESIÓN

La necesidad de comprimir en un sistema digital HDTV es evidente si se considera el hecho que el régimen de datos de una señal HDTV sin comprimir es de aproximadamente 1 Gbps, y el régimen de bits que se puede transmitir confiablemente dentro de un canal común de 6 MHz es de 20 Mbps. Esto implica la necesidad de una compresión de 50:1 o más.

(3)

La compresión de video es una técnica de reducción de datos redundantes y en consecuencia, una disminución de la velocidad binaria de este flujo.

El estándar MPEG, especifica la representación codificada de video para medios de almacenamiento digital y especifica el proceso de decodificación. Una característica muy importante del sistema MPEG-2 es su enorme flexibilidad que conforma una parte integral del diseño del sistema.

Para lograr este tipo de compresión, depende principalmente de tres factores: la Estimación del Movimiento (la diferencia entre una imagen y la siguiente), la Transformada Discreta del Coseno (DCT) como instrumento matemático para realizar los cálculos complejos pertinentes, con una Codificación Ponderada y la Codificación de Longitud Variable (VLC).

La señal de entrada debe ser digital, este flujo de datos es comprimido y paquetizado. A la salida del compresor se tiene un tren de datos comprimidos en paquetes de Longitud Variable denominados PES (Packet Elementary Stream), cuya velocidad binaria será menor a la de entrada. La velocidad del Flujo de Datos de salida es directamente proporcional a la relación de compresión aplicada.

Esta relación esta dada por: Relación de Compresión = Vi / Vo Donde: Vi = Velocidad del tren de datos a la entrada del compresor Vo = Velocidad del tren de datos a la salida del compresor

(4)

3.3 EL ESTÁNDAR MPEG-2

El primer estándar de compresión, concebido para ser utilizado con imágenes estáticas, fué el JPEG (Joint Photographic Experts Group).

Posteriormente, se creó el grupo MPEG (Moving Picture Experts Group), cuyo fin era desarrollar un estándar de compresión para imágenes en movimiento. El primer estándar para esta aplicación fue el MPEG-1, utilizado para grabaciones en CD-ROM. Este estándar tenía algunas limitaciones como que no era de aplicación Broadcast.

Limitantes del MPEG-1:

• Flujo máximo de 1.5 Mbps, con calidad comparable al VHS.

• Resolución de 352x240, además de una operación solo con barrido progresivo.

Después se desarrollo el estándar de compresión de video MPEG-2, concebido para aplicaciones Broadcast. Este tiene como principales características el operar con velocidades de hasta 15 Mbps y utiliza las más altas resoluciones aceptando barrido entrelazado y progresivo.

La representación soporta la velocidad normal de reproducción así como también la función especial de acceso aleatorio, reproducción rápida, reproducción hacia atrás normal, procedimientos de pausa y congelamiento de imagen. Este estándar internacional es compatible con los formatos de televisión de 525 y 625 líneas, además provee la facilidad de utilización con monitores de computadoras personales y estaciones de trabajo.

(5)

video-COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3

telefonía en una pantalla de computadora a través de secuencias de imágenes animadas de un CD en baja definición hasta imágenes de TV estandarizadas de 525 líneas e imágenes de HDTV con sonido envolvente. Es por ello que este formato se usa en los sistemas para HDTV americano, europeo y japonés.

3.4 VENTAJAS DEL MPEG

Las mayores ventajas que derivan de la reducción del bit-rate de las imágenes de televisión y para combinar muchos de los programas en un solo flujo de bits digital para la transmisión, son que los broadcasters pueden ahorrar dinero y que los televidentes pueden acceder a una opción más amplia de programas dentro de los sistemas de transmisión actuales.

Cualquier medio de transmisión que previamente podía sólo emitir un programa podrá con la ayuda de las técnicas de compresión MPEG-2, ser capaz de transmitir 2, 4, 8 ó incluso 30 programas separadamente, dependiendo de que la calidad de la imagen sea aceptable para una aplicación en particular.

El ahorro de dinero que brinda el comprimir varias imágenes a través de un trasponder satelital, canal aéreo o de cable designado para transportar sólo un programa, es realmente muy atractivo debido a la posibilidad de multiplicar los canales de transmisión.

Las ventajas para el operador del servicio o broadcaster son: • Reducción de costos por canal de programa.

• Una mayor opción de programas que se brinda a los televidentes.

• Una mayor eficiencia de transmisión, superior a la de los sistemas analógicos. • Mejoramiento de la calidad del servicio.

• Mayor flexibilidad.

(6)

3.5 NIVELES Y PERFILES MPEG-2

Las especificaciones del MPEG-2 se organizan en un sistema denominado perfiles y niveles, para que las aplicaciones puedan asegurar interoperatividad al utilizar equipamientos y procesos con características comunes en sus parámetros de codificación .

Dentro del perfil principal, existen una gran variedad de desempeños, incluye tres tipos de cuadros predictivos (“I”, “P”, y “B”), con una organización de muestras de luminancia y crominancia (llamadas 4:2:0) dentro del cuadro. Por otra parte, el alto nivel son un conjunto de derivaciones impuestas para los perfiles, incluye formatos con hasta 1152 líneas activas y hasta 1920 muestras por línea activa. La combinación de un perfil y un nivel produce una arquitectura muy bien definida para una cadena particular de bit. Los perfiles limitan la sintáxis (por ejemplo: los algoritmos), mientras los niveles limitan los parámetros (velocidad de muestreo, dimensiones de las tramas, velocidad binaria codificada, etc.).

• Niveles: Proveen un rango de cualidades potenciales, definen los máximos y mínimos para la resolución de la imagen, muestras por segundo (luminancia), el número de capas de audio y video soportados por los perfiles escalados, la máxima velocidad binaria por perfil.

A continuación , una explicación resumida de cada uno de ellos:

• Nivel Bajo: Tiene un formato de entrada el cual es un cuarto de la imagen definida en el registro ITU-R 601.

• Nivel Principal: Tiene una trama de entrada completa definida en el registro ITU-R 601.

• Nivel Alto 1440: Tiene un formato de alta definición con 1440 muestras por línea.

(7)

• Perfiles: Son definidos subconjuntos con características de sintaxis (algoritmos), usados para converger la información. Hay cinco diferentes perfiles y cada uno es progresivamente más sofisticado y agrega herramientas adicionales (y por supuesto más costoso para el cliente) con la característica adicional de ser compatible con el anterior. Esto significa que un decodificador equipado con un alto perfil descodificará perfiles simples.

A continuación vermos características de los perfiles:

• Perfil Simple: Es el que ofrece pocas herramientas.

• Perfil Principal: Tiene herramientas extendidas o mejoradas del perfil simple y predicción bidireccional. Tendrá mejor calidad para la misma velocidad binaria que el perfil simple.

• Perfil Escalable SNR y Perfil Escalable Espacial: Estos dos niveles son llamados escalables porque permiten codificar datos de vídeo que sean particionados dentro de una capa base y una o más señales "Top-up". La señal Top-up puede tanto tratar la proporción S/N (SNR escalable) o la resolución (escalable espacial).

• Perfil Alto: Este incluye todas las herramientas de las versiones anteriores y mejoradas. Tiene la habilidad de codificar diferencias de color entre líneas simultáneamente. Este es un sistema diseñado para aplicaciones donde no están contraídas sobre las velocidades de los bits.

(8)

NIVELES LIMITES DE ENTRADA

ESTRUCTURA DE IMAGEN LIMITES MÁXIMOS VELOCIDAD DE DATOS NIVEL ALTO 1920 X 1152* 80 Mb/s** NIVEL ALTO 1440 1440 X 1152* 60 Mb/s** NIVEL PRINCIPAL 720 X 576* 15 Mb/s** NIVEL BAJO 352 X 288* 4 Mb/s**

*Hasta estos valores de pixeles por líneas activas. ** Velocidades máximas

Tabla 3.1 Características de los niveles para el MPEG-2

PERFILES CARACTERÍSTICAS LIMITES

MÁXIMOS

SIMPLE Sin cuadros bidireccionales B. 4:2:0 solamente

PRINCIPAL Sin extensiones de imagen. 4:2:0 solamente

SNR* Escalable. 4:2:0 solamente

ESPACIAL Espacial escalable. 4:2:0 solamente

ALTO Temporalmente escalable, puede utilizarse muestreo 4:2:0 ó 4:2:2 antes de la compresión.

*SNR. Relación Señal a Ruido.

Tabla 3.2 Características de los perfiles para el MPEG-2

Para muchas de las aplicaciones (incluyendo transmisión de satélites) el Perfil Principal, Nivel Principal (MP@ML, siglas en inglés) provee una buena relación entre calidad de imagen y la complejidad VLSI, como resultado el MP@ML es el punto de desarrollo para los actuales sistemas HDTV.

Parámetros MP@ML del MPEG-2:

(9)

• Estructuras de cuadros I, P y B con predicción de movimiento • Promedio máximo de codificación en 15 Mbit/seg.

• Codificación DCT

• Cuadro adaptivo y predicción de movimiento de campo

• Predicción inteligente de cuadros duales para imágenes de los cuadros no B

• Compatibilidad MPEG-1 anticipada (no reversible) 3.6 SCRAMBLING Y ACCESO CONDICIONAL

Una de las principales características que posee el sistema MPEG-2, a través de sus capas, es el multiplexado y encriptado selectivo de sus servicios. Dado que el estrato o capa de los sistemas, también llamado transportador es básicamente independiente de la capa de compresión, toda la información que contiene acerca de la encriptación o la distribución individual a los clientes puede ser separada de la información del programa. Esto les permite a los proveedores de servicios de satélite, cable o terrestre acceder a una lista electrónica de clientes y autorizar a clientes particulares a ver programas especiales, o a verse exceptuado de alguno de ellos, sin tener que recaer en “terceros”, tal como una compañía que controle el equipamiento multiplexado de enlace satelital. Los ingenieros del sistema MPEG usaron el término “scrambling” para describir lo que normalmente podría ser considerado como “encriptación”.

Han sido previstas todas las alternativas para el uso del scrambling, pero no son obligatorias, y ningún algoritmo de encriptación particular ha sido especificado; en vista de que esta información será transportada a la capa de los sistemas y cualquier sistema de encriptación apropiado podrá ser empleado.

(10)

transportador, puesto que este podría cerrarle el acceso a otros usuarios y tornar el sistema multiplexado inutilizable.

El sistema incluye varios modos de facilitar el scrambling proveyendo al paquete colector del flujo transportador de un campo de control de scrambling, que puede ser usado para indicar el modo de encriptación vigente y un campo de adaptación, que puede utilizarse para transportar claves de encriptación u otros mensajes de control de autorización. Estos son utilizados para regular el acceso de un usuario individual a servicios particulares. El sistema propone el uso de esa información como opcional pero ofrece áreas privadas de flujos de datos que pueden ser usados para transportar la misma información.

3.7 LA CALIDAD DE LA IMAGEN A DISTINTOS BIT-RATES

La naturaleza del proceso de compresión dificulta la formulación de afirmaciones categóricas respecto de la relación entre la calidad de la imagen y el bit-rate, ya que la calidad de las imágenes procesadas dependerá del contenido de la imagen, teniendo generalmente las partes más rápidas de una imagen una peor resolución que las partes estáticas o lentas.

Un sistema moderno de televisión es probable que tenga que lidiar también con la compresión de imágenes en el estudio. Allí es donde una reducción del bit-rate les permite a los sistemas de grabación aumentar el tiempo de almacenamiento.

(11)

enlace a 34 Mbit/s, usando un sistema de compresión diferente de 6:1. Resulta obviamente difícil predecir la calidad final de la salida de tan complejo sistema.

Las siguientes tablas 3.3 y 3.4, muestran las estimaciones de NDS acerca de la calidad de las imágenes a distintos bit-rates.

IMAGEN DEGRADACIONES BIT-RATE RELACIÓN DE

COMPRESIÓN

HDTV 1250 líneas Imagen perfecta. 1Gb/s* 1

HDTV 1250 líneas con compresión Degradaciones no perceptibles, calidad profesional. 32-40 Mb/s 30-25 HDTV 1250 líneas con compresión HDTV calidad doméstica. Algunas distorsiones sobre

escenas críticas

16-20 Mb/s 60-50

*Se toma como ejemplo una velocidad binaria de 1 Gb/s.

Tabla 3.3 Características de la imagen HDTV para el MPEG-2

(12)

IMAGEN DEGRADACIONES BIT-RATE RELACIÓN DE

COMPRESIÓN

Señal original en estudio

525/60

Calidad profesional. Imagen

perfecta. 270 Mb/s 1

Compresión en 525/60

Calidad de distribución profesional. Pocas degradaciones perceptibles, si la señal de entrada es broadcast, sin embargo, si la señal de entrada es ruidosa un movimiento rápido

puede crear problemas.

8-10

Mb/s 50-40 Mb/s

Compresión en 525/60

Calidad doméstica, algunas

distorsiones en escenas críticas 4-5 Mb/s

200-100 Mb/s

Tabla 3.4 Características de la imagen de 525 líneas para el MPEG-2

Como lo indica la tabla, las imágenes digitales de 525 líneas comprimidas por un factor de alrededor de 40:1 que necesitan un bit-rate de alrededor de 5 Mbit/s, son generalmente consideradas casi equivalentes a las imágenes NTSC standard que se ven en los hogares, con la condición de que muy ocasionalmente surgirá algún material expuesto que no responda bien a los algoritmos de compresión, sufriendo en la recepción de alguna distorsión

(13)

3.8 DEFINICIÓN DE LA IMAGEN Y PROMEDIOS DE COMPRESIÓN VARIABLE

Tests y pruebas de medición bien fundamentados han estado utilizándose durante muchos años para definir la calidad de las imágenes analógicas de televisión, en formas subjetiva y objetiva.

Los sistemas digitales presentan problemas distintos, y no resulta apropiado medir la calidad de las imágenes digitales usando los mismos tipos de accesorios y señales de tests que fueron utilizados para las imágenes analógicas.

Considerando que una definición subjetiva de una imagen analógica de televisión puede usualmente ser ajustada dentro de uno de los grados de la escala de cinco puntos del CCIR. Esta escala va desde “excelente” a “muy mala”, y los deterioros graduados entre “imperceptible” y “señal inutilizable”.

Las imágenes digitales que han padecido los distintos procesos de compresión serán todavía más difíciles de definir.

Una imagen digital con bajo bit-rate puede ser virtualmente perfecta durante la mayor parte de tiempo y hasta libre de ruidos, siempre que las señales de la imagen original sean “limpias”, sin considerar un tenue “ruido de cuantificación” del medio, debido a errores inevitables en el proceso de conversión analógico-digital.

(14)

Las técnicas de pre-procesamiento pueden permitir a las señales de la imagen ser automáticamente examinadas con anterioridad a la compresión aplicada para identificar aquellas partes en las cuales el proceso de compresión encontrará dificultades. El software de codificación podría entonces utilizarse para modificar o “cortar” esas partes de la señal de la imagen, para que puedan pasar a través del proceso de compresión sin los defectos mencionados.

A medida que la compresión digital de señales televisivas se consolide como norma y los broadcasters puedan comprimir diez o más servicios sobre el mismo ancho de banda usado para emitir solamente una imagen analógica, varias lecciones serán aprendidas acerca de cuáles son los diferentes tipos de material de imagen aceptables y los programas deportivos que contienen escenas de rápidos movimientos quizás terminen usando menos compresión que el tipo de películas que contienen moviemientos moderados.

Distintos promedios de compresión pueden ser aplicados a diferentes escenas en tiempo real y el ancho de banda del canal proporcionado para cada programa transmitido será variable.

Se pueden utilizar técnicas estadísticas de multiplexado, como en el equipamiento de NDS System 3000, para dividir la capacidad de datos disponibles entre trenes de diferentes programas que son transmitidos en un horario particular, manteniéndose fija la división durante una sesión particular de programas broadcast.

(15)

3.9 BLOQUES DE PIXELES

Los pixeles se organizan en bloques para su procesamiento posterior. Un bloque consiste de una matriz de valores de pixeles o una matriz que es una transformada de valores de pixeles. Un bloque en el sistema ATSC es una matriz de valores de 8x8 que representan información de luminancia o crominancia figura 3.1.

3.10 MACROBLOQUES

Los bloques de información se organizan en macrobloques. Este consiste en cuatro bloques de luminancia (o una región de valores de 16 pixeles por 16 líneas) y dos bloques de croma (Cb y Cr). El término macrobloque se usa para referirse directamente a datos de pixel o a la representación transformada y codificada de los pixeles. Como se muestra en la figura 3.1, esto produce 256 muestras de luminancia y 64 muestras de Cb y Cr (cada una), para un total de 384 muestras por

macrobloque.

(16)

Figura 3.1. (Tomada de la Norma ATSC A/54). Bloques y Macrobloques

3.11 Tiras (slices)

Uno o más macrobloques contiguos dentro de la misma fila se agrupan para formar tiras. El orden de los macrobloques dentro de una tira es la misma que el barrido convencional de televisión, de izquierda a derecha.

(17)

que ninguna combinación legal de palabras de código puede emular un código de inicio, éste puede usarse para retomar el alineamiento después de un error. Cuando hay un error en el flujo de datos, el decodificador puede saltar al comienzo de la nueva tira y recomenzar la decodificación correcta.

El número de tiras (slices) afecta la eficiencia de la compresión. Fraccionar el flujo de datos para tener más tiras ofrece una recuperación de errores mejor, pero usa bits que podrían servir para mejorar la calidad de imagen. La tira es la unidad menor para la resincronización tras un error.

3.12 IMÁGENES, GRUPOS DE IMÁGENES Y SECUENCIAS

La codificación primaria de una secuencia de video es el cuadro o imagen individual de video. Una imagen consiste de una colección de tiras que constituyen el área activa de imagen.

Una secuencia de video consiste de una colección de una o más imágenes consecutivas. Comienza con una cabecera de secuencia y se termina con un código de fin de secuencia en el flujo de datos. Una secuencia de video puede contener cabeceras de secuencia adicionales. Cualquier cabecera sirve como punto de entrada. Éste es un punto en el flujo de datos tras el cual el decodificador puede inicializarse y procesar correctamente la sintaxis del flujo de bits.

Una o más imágenes (frames) de la secuencia pueden combinarse en un Grupo de Imágenes (Group of Pictures, GOP) con límites para codificación entre imágenes y registración del código de tiempo.

(18)

Figura 3.2. (Tomada de la Norma ATSC A/54). Cuadros “I”, “P” y “B”. 3.13 CUADROS-I

Algunos elementos del proceso de compresión utilizan solamente la redundancia espacial dentro de una única imagen (cuadro o campo). Estos procesos se llaman codificación intra-cuadro, y no aprovechan la correlación provista por la predicción temporal, llamada codificación intercuadros. Los cuadros que no usan codificación intercuadros se conocen como cuadros-I (en que la “I” significa intra-cuadro). El sistema de compresión ATSC utiliza ambos modos de codificación.

El uso de cuadros-I periódicos facilitan la inicialización del receptor y la captura del canal (al encender el receptor o al cambiar de canales). El decodificador puede aprovechar el modo de codificación intra-cuadro cuando se presentan errores de canal no corregibles. Para la predicción de movimiento, debe haber un cuadro inicial disponible para que el decodificador inicie el bucle o lazo predictivo. Por lo tanto, debe haber un mecanismo por el cual si el decodificador pierde sincronismo por cualquier motivo, pueda readquirirlo rápidamente.

(19)

secuencia de video.

3.14 CUADROS-P

Los cuadros-P (en que “P” significa “predictivo” o “pronosticado”) son cuadros con predicción temporal sólo hacia delante (es decir, las predicciones para el cuadro-P se forma solamente mediante los pixeles en el cuadro “I” o “P” más recientemente decodificado). Estos cuadros proactivos permiten aprovechar las técnicas de codificación intercuadros para mejorar la eficiencia y calidad de imagen general. Los cuadros-P pueden incluir porciones que sólo tienen codificación intra-cuadro. Cada macrobloque del cuadro puede tener codificación proactiva o intra-cuadro.

3.15 Cuadros-B

El cuadro-B (donde “B” indica con predicción bidireccional) es un tipo de imagen que incluye predicción de un cuadro futuro, así como de uno previo. Los cuadros de referencia, anteriores o futuros, llamados a veces “cuadros ancla” son siempre cuadros “I” o “P”.

(20)

ambos cuadros ancla decodificados y disponibles para la predicción.

Los cuadros-B se usan para mejorar la eficiencia de compresión y la calidad de imagen percibida cuando la codificación no representa un factor importante. Su uso incrementa la eficiencia de codificación tanto para los materiales de barrido entrelazado como progresivo. Se incluyen en el sistema ATSC porque el aumento de eficiencia de compresión es notable especialmente en el barrido progresivo. La elección del número de imágenes bidireccionales entre cualquier par de cuadros de referencia (I o P) puede ser determinada en el codificador.

3.16 CODIFICACIÓN ENTRÓPICA DE LOS DATOS DE VIDEO

La cuantificación crea una representación discreta eficiente de los datos a transmitir. La asignación de palabras de código toma los valores cuantificados y produce un flujo digital de bits para la transmisión. Hipotéticamente, los valores cuantificados podrían ser representados simplemente usando palabras de código uniformes o de longitud fija. Con este método, cada valor cuantificado tendría el mismo número de bits. Pero se puede alcanzar mayor eficiencia, en el régimen de bits, usando la codificación entrópica. Esta codificación intenta aprovechar las propiedades estadísticas de la señal a codificar. Una señal, sea un valor de pixel o un coeficiente transformado, tiene cierta cantidad de información, o entropía, basada en la probabilidad de que ocurran diferentes valores o eventos. Por ejemplo, un evento que se da infrecuentemente tiene mucha más información nueva que uno que se da a menudo. Reconociendo que ciertos hechos ocurren más a menudo que otros, puede reducirse el régimen promedio de bits.

3.17 CODIFICACIÓN HUFFMAN

(21)

genera un libro de códigos que puede acercarse a la mínima longitud promedio de descripción en bits de cada evento, según su probabilidad de distribución. Se asignarán palabras de código más cortas a los eventos de ocurrencia más probable, y más largas a los más improbables.

3.18 CODIFICACIÓN RUN-LENGTH

En la compresión de video, la mayor parte de los coeficientes se cuantifican a cero. Puede haber unos pocos coeficientes de baja frecuencia no-cero, y una distribución ratificada de coeficientes de alta frecuencia no cero, pero la mayor parte son cuantificados a cero. Para aprovechar este fenómeno, la matriz bidimensional de coeficientes transformados se reformatea y prioriza en una secuencia unidimensional, sea mediante un proceso de barrido alterno o en zig zag. Esto causa que la mayoría de los coeficientes no-cero más importantes (en términos de energía y percepción visual) se agrupen al principio de la secuencia. Serán seguidos por largas hileras de coeficientes cuantificados a cero. Estos coeficientes pueden ser representados eficientemente mediante codificación Run-Length. En esta codificación, el número (run) de coeficientes cero consecutivos antes de un coeficiente no-cero se codifica, seguido por el valor del coeficiente no cero. Estos dos valores se pueden codificar entrópicamente, sea juntos o por separado. El barrido separa la mayor parte de los coeficientes cero y no-cero en grupos, lo que aumenta la eficiencia del proceso de codificación Run-Length. Además se añade un marcador especial de fin del bloque (EOB) para señalar que el resto de los coeficientes de la secuencia son iguales a cero. Esta técnica es extremadamente eficiente, y produce un grado significativo de compresión.

3.19 TÉCNICAS DE COMPRESIÓN

(22)

el tiempo, no posee relaciones o dimensiones temporales. En la figura 3.3 vemos un triángulo en cuya parte inferior se observan los parámetros espaciales de Ia imagen, representados por tres términos: Ia Transformada Discreta del Coseno (DCT), Ia Cuantificación y Ia Codificación de Longitud Variable (VLC). La conjugación de estos tres términos permite llegar a una compresión de imágenes detenidas. Se observa que se trata esencialmente de procesos matemáticos complejos.

Para expresar el movimiento de Ia imagen, debemos agregar una variante más, el tiempo. En la figura 3.3 se observa en Ia parte Superior este aspecto que comprende Ia detección del movimiento y su compensación corno componentes temporales.

MOTION COMPENSATION MOTION DETECTION DCT QUANTIZATION VLC MOTION PICTURE STILL PICTURE

Figura 3.3. (Tomada de Avances de la TV de Alta Definición). Parámetros espaciales de la imagen para llegar a la compresión de imágenes detenidas

Solo Ia conjunción de las relaciones espaciales y temporales permite llegar a Ia compresión de señales representativas de imágenes en movimiento.

(23)

una locomotora que es explorada en sentido horizontal y vertical para brindar un cuadro de 16 valores en su primer paso.

Al aplicar la función matemática DCT, este cuadro se transforma en otro más simple que se observa a la derecha de la figura y en el cual notarnos que los cambios grandes de valores tienen lugar solo en los cuatro pixels del comienzo del cuadro, los demás pixels conservan valores casi constantes y por lo tanto cambian poco o nada. Frequency coordinates 149 120 79 49 120 94 58 32 78 68 28 9 49 33 9 0 Horizontal Space coordinates Vertical 120 59 1 -1 58 16 -2 1 2 -2 1 -1 -1 0 -1 0 DCT Horizontal space frequency Vertical space frequency Data volume = 8 bits x 16 words =128 bits Data volume = 8 bits x 16 words =128 bits

Figura 3.4. (Tomada de Avances de la TV de Alta Definición). Detección del movimiento y su compensación como componentes temporales.

(24)

proceso involucra el uso de una matriz de cuantificación que se puede regular, y determina la calidad de Ia imagen final. Su resultado depende del tipo de matriz que se usa. 120 59 1 -1 59 15 -2 1 2 -2 1 -1 -1 0 -1 0 10 5 0 0 5 1 0 0 0 0 0 0 0 0 0 0 Horizontal frequency Horizontal frequency Quantizing (Step size of 12) Vertical frequency Data volume =4 bits x 16 words =64 bits Vertical frequency Data volume =8 bits x 16 words =128 bits

Figura 3.5. (Tomada de Avances de la TV de Alta Definición). Reducción de bits originales a 64 bits, debido a la cuantificación.

(25)

COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3 22 26 27 29 26 27 29 32 26 27 29 34 27 29 35 38 8 16 19 22 16 16 22 24 19 22 26 27 22 22 26 27 DC Vertical space frequency 26 27 29 34 27 29 34 37 29 34 34 38 29 34 37 40 32 35 40 48 35 40 48 58 38 46 56 69 46 56 69 83

Horizontal space frequency

Space frequency coordinates

Figura 3.6. (Tomada de Avances de la TV de Alta Definición). Valores de la matriz de cuantificación, estos son más bajos en la zona de las frecuencias bajas y más altos en el extremo opuesto.

(26)

COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3 10 5 0 0 5 1 0 0 0 0 0 0 0 0 0 0 10 5 5 0 1 0 …… 10 5 5 0 1 “0” x 11 1110 0 0 10 110 11110 Huffman coding

Run- Legth coding Zigzag scan 16 bits ¼ compression Data volume = 4 bits x 16 words = 64 bits 0

Figura 3.7. (Tomada de Avances de la TV de Alta Definición). Exploración en Zig zag para el transporte en forma de flujo digital.

Los pasos descritos e ilustrados en las figuras 3.4 a la 3.7, hasta ahora se refieren a las imágenes fijas, en reposo. Para introducir Ia compresión de señales en movimiento, es necesario agregar los pasos propios del movimiento, tanto de Ia detección del mismo, como de su compensación y lectura. En la figura 3.8 vernos los bloques circuitales involucrados en este paso. Se considera una imagen en movimiento en forma similar a Ia que se usa en cinematografía: una sucesión de imágenes fijas, donde cada imagen siguiente tiene solo pequeñas diferencias con respecto a Ia imagen anterior. Por lo tanto, no es necesario repetir cada una de las imágenes en forma total y por el contrario, solo se registra las diferencias existentes en cada imagen con respecto a la primera imagen fija y detallada.

(27)

P picture B picture

DCT Quantization VLC I picture

Large data volume Predictor error

Motion detection

Motion

compensation DCT Quantization VLC Small data volume Motion vector

Figura 3.8. (Tomada de Avances de la TV de Alta Definición).Bloques circuitales para la compresión de señales en movimiento.

Las imágenes “I” son del tipo de intracodificación. Se codifica cuadro por cuadro y por lo tanto son las que mayor cantidad de datos representan. Estas imágenes “I” se usan cada 15 páginas aproximadamente y su propósito es evitar la acumulación de errores predecibles. Este tipo de imagen “I” posee a su vez el grado de compresión más reducido. En la segunda categoría entran las imágenes ‘P” que resultan del cómputo y la codificación entre imágenes “I” de referencia y las imágenes “P”. Se utilizan además para lograr Ia predicción de las diferencias que se observan al crear los datos de imágenes “I” y “P” previas. En este tipo de imagen se logra una compresión mayor que con las imágenes “I”.

(28)

La compresión del volumen total de datos guarda entonces relación de 6:3:1 para las categorías l : P : B. Por cada imagen existen tres imágenes “P” y seis imágenes “B”. La figura 3.8 indica que Ia compensación del movimiento se basa en Ia predicción de errores y Ia creación de un vector de movimiento que es sometido Ia evaluación matemática de la DCT vista más arriba. A ello se suma el proceso de cuantificación y el paso del VLC.

En este proceso del MPEG existe Ia posibilidad que se produzcan errores en algunas de las imágenes “I”, “P” o “B”. La estructura propia de estas imágenes puede entonces producir una propagación de estos errores de la siguiente manera. Si el error ocurre en un dato de cuadro “I” puede propagarse durante varios cuadros. En forma similar un error en un cuadro P afectará los cuadros “P” y “B” relacionados, mientras que un error de un cuadro “B” quedará aislado. De ello surge que resulta conveniente desarrollar técnicas de “ocultación” (concealment) para prevenir esta propagación de errores y en consecuencia mejorar Ia calidad de imagen.

(29)

Para dar solución a este tipo de problemas fue desarrollada una técnica de ocultación adaptable de los errores. En este esquema, es necesario usar el reemplazo temporal o la interpolación espacial ya que se basan en medidas de Ia actividad de la imagen que se pueden obtener fácilmente a partir de macro-bloques vecinos, que toman en cuenta el movimiento local y los detalles espaciales de la imagen. Si el movimiento local es menor que el detalle espacial, los bloques corruptos pertenecen a una clase en la cual se aplica el reemplazo temporal. Cuando por otra parte el movimiento local es mayor que el detalle espacial local, los bloques corruptos pertenecen a una clase que será ocultada por medio de Ia interpolación espacial.

El proceso de ocultación general consiste entonces de dos etapas. Primero se aplica el reemplazo temporal a todos los bloques corruptos de esta clase en el cuadro completo. Después de este paso de reemplazo temporal, es más probable que los bloques dañados pero no ocultados, estén rodeados de bloques de imagen válidos. En este caso se somete a un paso de interpolación espacial. El resultado será una imagen menos borrosa o con áreas borrosas muy reducidas. Se logra así un buen compromiso entre distorsión y borrosidad. El algoritmo necesario usa algunas medidas simples que se logran en el decodificador y permiten una adaptación entre modos de ocultación espaciales y temporales. Se observa que este mismo método puede usarse también para los bloques de cuadros “P” y “B”, con solo modificaciones ligeras.

(30)

El segundo método está basado en vectores de imagen ”I”. La información del movimiento es muy útil para ocultar pérdidas en las imágenes “P” y “B”, pero no se encuentra disponible para imágenes “I”. Si se puede disponer de vectores de movimiento para todas las imágenes MPEG, incluidas imágenes “I”, como ayuda para la ocultación de errores, sería posible un funcionamiento adecuado de ocultación de errores sin Ia complejidad del proceso espacial adaptable. En consecuencia se adopta una extensión de la sintaxis en la cual los vectores del movimiento pueden transmitirse en una imagen “I” como redundancia para los fines de la ocultación de errores.

Un tercer algoritmo es Ia versión de refuerzo de un algoritmo adaptivo espacio-temporal. La idea básica de este algoritmo es el uso de un promedio ponderado de información espacial y temporal en lugar de esta información sola para ocultar bloques faltantes. La estimación del reemplazo temporal es aún más reforzado por el uso de vectores de movimiento de sub-macrobloques. En lugar de aplicar un solo vector estimado sobre un macrobloque completo, para crear un reemplazo temporal que puede producir efectos perniciosos, cada una de las regiones del sub-macrobloque (por ejemplo regiones de pixels de 2x2 o 4x4), es sometido a un reemplazo temporal, con sus propios vectores de movimiento estimados. Los vectores de movimiento asociados con cada una de las regiones del sub-macrobloque es obtenido por medio de una interpolación suave del campo del vector de movimiento, lo que resulta en un valor estimado de reemplazo temporal que es continuo en los bordes del macrobloque y se ajusta correctamente con los macrobloques vecinos.

3.12 EL AUDIO DIGITAL AC-3

(31)

Para comprimir una señal de audio en MPEG-2 o en Dolby AC-3, primero se debe digitalizar.

En general, los sistemas de compresión operan con señales digitales PCM (Pulse Code Modulation) en su entrada. También, en algunos Compresores, se puede ingresar con una señal analógica dentro del mismo equipo se efectúa Ia conversión analógica a digital. En otras ocasiones, se puede ingresar al Compresor con señales digitales AES/EBU.

3.12.1 DIGITALIZACIÓN DE LA SEÑAL DE AUDIO.

La digitalización de una señal de audio, consiste en efectuar una conversión de Ia señal Analógica a Digital, esto implica un muestreo de Ia señal y una cuantificación de los valores muestreados. A enseguida, Ia señal es codificada mediante una Modulación Codificada por Pulsos (PCM). En Ia figura 3.11, se muestra el proceso de digitalización de Ia señal con codificación PCM.

(32)

FILTRO PASA BAJO

MUESTREO CUANTIFICACIÓN CODIFICACION

Amplitud Amplitud

Tiempo Tiempo

Audio analógico Audio PCM

Figura 3.11. (Tomado de Televisión Avanzada) Codificación PCM. Figura 3.11. (Tomado de Televisión Avanzada) Codificación PCM.

Por ejemplo, para muestrear una señal de audio con un ancho de banda de 22 Khz, Ia frecuencia de muestreo debe ser por menos de 44 Khz, para evitar el aliasing. Por ejemplo, para muestrear una señal de audio con un ancho de banda de 22 Khz, Ia frecuencia de muestreo debe ser por menos de 44 Khz, para evitar el aliasing.

Una vez que Ia señal ha sido muestreada, se efectúa Ia cuantificación de los valores muestreados. En esta etapa, se le asignan palabras de bits los valores en amplitud muestreados.

A continuación, estas palabras de bits son codificadas en PCM (PuIse Code ModuIation), Modulación por Código de Pulsos. Esta señal es muy robusta y es utilizada para el transporte o transmisión de Ia señal digital.

Ahora observamos que esta señal se ingresa a los sistemas de compresión MPEG-2 y Dolby AC-3.

(33)

3.12.2 MUESTREO DE LA SEÑAL DE AUDIO

En la figura 3.12 se representa el espectro en el dominio de la frecuencia de una señal a muestrear fb y el espectro de muestreo fm y 2fm.

Amplitud

Espectro a la entrada del filtro

fb fm fm

Espectro a la salida del filtro

Frecuencia

Figura 3.12.(Tomado de Televisión Avanzada.) Espectro de la banda de la señal a muestrear fb y de la frecuencia de muestreo fm y 2fm.

Para muestrear una señal de 22 KHz de ancho de banda, habíamos dicho que la frecuencia de muestreo debería ser por lo menos el doble o sea 44 KHz.

(34)

COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3 Frecuencia (MHz) Frecuencia de muestreo Zona de aliasing 18 36 22 54 Amplitud

Figura 3.13.(Tomado de Televisión Avanzada). Zona de aliasing producida por una baja frecuencia de muestreo.

En la figura 3.14 se representa una señal de audio con una baja frecuencia de muestreo. En este ejemplo los puntos de muestra son ABCDEFGH. El período entre muestras es T. Uniendo todos los puntos de muestra, nos da una señal que dista lejos de la original. Evidentemente en este caso tenemos una baja frecuencia de muestreo H C B D E A F G T Amplitud Tiempo

Figura 3.14.(Tomado de Televisión Avanzada.) Señal con una baja frecuencia de muestreo.

En Ia Figura 3.15 analizamos el proceso de muestreo de una señal en el dominio del tiempo.

(35)

muestreo, ver parte (b) de Ia Figura. Esta frecuencia debe ser por lo menos eI doble de Ia frecuencia máxima de Ia señal a muestrear.

En (c) de Ia misma figura tenemos finalmente Ia señal muestreada. Obsérvese que aquí Ia velocidad de muestreo es correcta, debido a que las frecuencias con que se han tornado las muestras, permiten recomponer Ia señal original.

Figura 3.15.(Tomado de Televisión Avanzada.) Proceso de muestreo en el dominio del tiempo Amplitud Amplitud Amplitud a) b) c) Tiempo Tiempo Tiempo

a)Señal a Ia salida del Filtro Pasa, b)Frecuencia de muestreo, c)Señal muestreada.

3.13 CUANTIFICACIÓN

(36)

En Ia figura 3.16 se muestra Ia señal de Ia figura anterior, convertida en valores de tensión en (a) y cuantificada en (b).

Tiempo Tiempo 0111 0101 0110 0110 0101 0111 -2 -5 -7 2 5 7 Amplitud Tensión a) Valores binarios b)

Figura 3.16.(Tomado de Televisión Avanzada). Cuantificación de Ia señal muestreada.

La cuantificación convierte a Ia muestra analógica a un número binario. Ese numero o palabra binaria, en aplicaciones profesionales puede ser de 16, 20 024 bits por muestra de resolución.

(37)

COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3 Nº de bits por muestra 2 elevado a: Niveles de cuantificación 2 2.E+02 4 4 2.E+04 16 6 2.E+06 64 8 2.E+08 256 10 2.E+10 1.024 12 2.E+12 4.096 14 2.E+14 16.384 16 2.E+16 65.335 18 2.E+18 262.144 20 2.E+20 1.048.576 22 2.E+22 4.194.304 24 2.E+24 16.777.216

Tabla 1.(Tomado de Televisión Avanzada). Niveles de cuantificación.

3.5 COMPRESIÓN DE AUDIO DOLBY AC-3.

El sistema de compresión de audio AC-3 ha sido desarrollado por los Laboratorios Dolby de EE:UU. Este utiliza el algoritmo de compresión AC-3, para codificar hasta seis canales, cinco tienen una respuesta de 20 Hz a 20 Khz y el sexto canal es de baja frecuencia con una respuesta de 20 a 120 Hz. Estos seis canales digitales se denominan 5.1.

(38)

COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3 Canal de baja frecuencia Surround Derecho Surround Izquierdo Central Estéreo Derecho Estéreo Izquierdo

Figura 3.2. Representación de los seis canales a través de un compresor AC-3.

COMPRESOR AC-3 Seis canales de audio digitales Flujo comprimido AC-3

Figura 3.2 (Tomada de Televisión Digital Avanzada). Compresor AC-3.

Cada uno de estos canales tiene una velocidad binaria que viene dada por,

Velocidad binaria = Frecuencia de muestro x cantidad de bits por muestra de resolución.

Esta señal, ha sido muestreada con una frecuencia de muestreo de 48 KHz y cuantificada a una resolución de 20 bits por muestra. Entonces, la velocidad binaria será en este caso;

Velocidad binaria por canal = 48 KHz x 20 bits = 960 Kbps Velocidad binaria 6 canales = 960 KHz x 6 = 5,76 Mbps.

(39)

los seis canales comprimidos.La relación de Compresión (RC) aplicada en este caso es:

RC = Velocidad de entrada / Velocidad de salida (KHz) = 5.760 / 384 = 15 RC = 15:1

Para este ejemplo se ha aplicado una relación de compresión de 15:1

El objetivo primordial de la compresión de audio es representar una fuente de audio con la mínima cantidad posible de bits, mientras que se preserva el nivel de calidad requerido por la aplicación dada. La compresión de audio tiene dos aplicaciones principales. Una es la utilización eficiente del ancho de banda del canal para los sistemas de transmisión de video. La otra es reducir los requerimientos de almacenamiento. Ambos usos se aplican al sistema de televisión digital.

(40)

puede desempaquetar y “descuantificar” los coeficientes de frecuencia del flujo elemental de bits, que dan como resultado los coeficientes reconstruidos de frecuencia. El banco de filtros de síntesis es la inversa del banco de análisis, y convierte los coeficientes de frecuencia reconstruidos a una señal del dominio temporal.

3.5.1 BANCO DE FILTROS DE TRANSFORMACIÓN (AC-3).

El proceso de convertir el audio del dominio temporal al dominio de la frecuencia requiere que el audio se convierta en bloques superpuestos de 512 muestras. Por cada 256 muestras nuevas de audio, se forma un nuevo bloque con éstas y las 256 muestras previas. Cada muestra de audio se representa en dos bloques de audio, y así el número de muestras a procesar inicialmente se duplica. La superposición de las muestras es necesaria para prevenir efector audibles. Se forman nuevos bloques de audio cada 5.33 ms. Un grupo de seis bloques se codifica en un cuadro AC-3.

Fuente de Coeficiente

audio PCM de Flujo elemental de . frecuencia bits

Coeficiente Flujo elemental de de bits frecuencia ANÁLISIS BANCO DE FILTROS ASIGNACIÓN DE BITS CUANTIFICACIÓN CANAL ASIGNACIÓN DE BITS DE-CUANTIFICACIÓN SÍNTESIS BANCO DE FILTROS Audio PCM

(41)

3.5.2 FUNCIÓN DE VENTANA.

Anteriormente a la transformación en el dominio de la frecuencia, se hace una “ventana” con el bloque de 512 muestras temporales. Esta operación involucra una multiplicación vectorial del bloque de 512 puntos con una función de “ventana” de 512 puntos. Esta función tiene un valor de 1.0 en el centro, y va disminuyendo hasta casi cero en los extremos. El formato de la función de ventana es tal que el procesamiento de superposición/adición en el codificador producirá una reconstrucción libre de efectos colaterales indeseables. La forma de la función de ventana también determina la forma de cada filtro del banco de filtros.

3.5.3 CODIFICACIÓN DE LOS EXPONENTES Y LAS MANTISAS.

A efectos de reducir la cantidad de bits, se codifican los exponentes y las mantisas. Analizaremos primero el caso de los exponentes, el cual pueden tener distintas alternativas en el proceso.

En primer instancia, puede ocurrir que al examinar los seis bloques de audio del cuadro AC-3, se encuentren pequeñas diferencias entre los distintos exponentes. En este caso, habrá una reducción de la cantidad de datos a codificar por un factor de 6.

En segunda instancia, puede ocurrir que existan diferencias significativas entre los distintos exponentes de los bloques. En este caso, los exponentes se codifican en forma diferencial. Esto significa que el primer coeficiente se codifica como absoluto y luego se codifica la diferencia entre este exponentes y el siguiente. Esta técnica reduce la velocidad de datos por un factor de 2.

(42)

compartirse entre 2 ó 4 coeficientes de frecuencia. Esto genera un ahorro adicional de 2 ó 4 bits por coeficientes.

La precisión de los coeficientes de frecuencia, depende de la longitud en bits que tiene cada palabra. Esta puede ser de 16 a 24 bits.

Cada mantisa es cuantificada entre 0 y 16 bits. La cuantificación está determinada por la asignación de bits.

3.5.5 CUADRO DE SINCRONIZACIÓN AC-3.

El flujo de audio codificado o comprimido AC-3, está compuesto de cuadros de sincronización, se representa en la figura 3.4, cada cuadro de sincronización contiene 6 bloques de audio codificados, desde (AB 0) hasta (AB 5). Cada uno de estos bloques tiene 256 nuevas muestras de audio. De esta forma tenemos seis bloques con un total de 1536 muestras.

Cada uno de estos bloques transporta los exponentes, la asignación de bits y las mantisas, además de otros tipos de información.

S

S B AB AB AB AB AB AB C I S 0 1 2 3 4 5 Aux. R I C

Figura 3.4. (Tomada de Televisión Digital Avanzada). Cuadro de sincronización AC-3

(43)

El cuadro comienza con una cabecera de información (SI). Esta contiene la información necesaria para mantener la sincronización del cuadro.

A continuación, tenemos un bloque (BSI.). Este contiene los parámetros que describen los servicios de audio codificado.

Luego, tenemos los seis bloques de audio codificado con 256 muestras cada uno. Seguidamente, tenemos un bloque de datos auxiliares. Luego, le sigue un Chequeo de Redundancia Cíclica (CRC), que detecta los errores pero no los corrige.

3.7 RESUMEN DEL SISTEMA

Como lo ilustra la figura 3.5. El subsistema de audio comprende la función de codificación/decodificación y se ubica entre la entrada/salida de audio y el subsistema de transporte. El codificador de audio es responsable de generar el o los flujos elementales de audio el cual son representaciones codificadas de las señales de entrada de audio banda base. En el receptor, el subsistema de audio es responsable por decodificar el flujo elemental de audio de regreso a audio banda base.

La salida del codificador de audio es una cadena de bits que representan la fuente de audio, y se conoce como flujo elemental de audio. El subsistema de transporte empaqueta los datos de audio en paquetes PES que a su vez son reempacados en paquetes de transporte. El subsistema de transmisión convierte los paquetes de transporte en una señal modulada de RF para recibidos a un flujo elemental de audio que es decodificado por el decodificador transmitir al receptor. En éste, la señal recibida se de-modula por el subsistema de transmisión del receptor, que convierte los paquetes de audio de audio del televisor. Estas divisiones son conceptuales, y pueden variar en la implementación práctica

(44)

transporte.. O cierta funcionalidad del transporte puede incluirse en el codificador de audio o en el subsistema de transmisión.

Flujo elemental de audio Paquetes de transporte

Sub sistema de transporte TX Sub sistema de Transmisión CANAL Codificación Sub sistema de transporte RX De-codificador Sub sistema de recepción _RX-RF 8-VSB Sub sistema de audio Audio PCM Audio PCM TX-RF 8VSB Flujo elemental de audio Paquetes de transporte

Figura 3.5. (Tomada de Televisión Digital Avanzada). Sub sistema de audio en el estándar ATSC

3.7.1 INTERFAZ DEL CODIFICADOR DE AUDIO.

El sistema acepta entradas de audio base con hasta seis canales de audio por cada programa. Esta canalización es coherente con la Recomendación ITU-R BS-775 “Sistema de sonido estereofónico con o sin acompañamiento de imagen.”

Los seis canales son: Izquierda, Derecha, Centro, Envolvente Izquierdo, Envolvente Derecho y Acentuación de las Frecuencias Bajas (LFE.) El sistema de transporte puede llevar múltiples flujos elementales de audio.

(45)

mediante un filtro pasa-altos de bloqueo de continua. La eficiencia de la codificación de audio ( y su calidad) mejora quitando los desplazamientos por CC de las señales de audio antes de codificarlas.

3.8 RESTRICCIONES CON RESPECTO AL ESTÁNDAR ATSC A/52.

El sistema de codificación de audio de la televisión digital esta basado sobre el Estándar de Compresión de audio digital (AC-3) especificado en el cuerpo del documento ATSC A/52. Las Restricciones sobre el sistema son mostradas en la Tabla 3.2 la cual muestra los valores permitidos de ciertos elementos sintácticos.

Elemento

sintáctico AC-3 Comentario Valor permitido

fscod Indica la rate de muestreo. ‘00’ (indica 48

kHz) frmsizecod

Servicio de audio principal o asociado conteniendo todos los elementos de

programa necesarios.

‘00’ (indica 48 kHz) frmsizecod Servicio asociado a un canal particular

conteniendo un elemento de programa único.

≤ ‘010000’ (indica ≤ 128 kbps) frmsizecod Dos canales de servicio asociado de diálogo. ≤ ‘010100’ (indica

≤ 192 kbps) (frmsizecod) Bits rate de un servicio asociado y principal

dados a ser simultáneamente decodificado (total ≤ 512 kbps)

acmod Indica número de canales ≥ ‘001’

Tabla 3.2. (Tomada del libro Audio digital). Restricciones de audio.

3.8.1 FRECUENCIA DE MUESTREO.

El sistema transporta audio digital muestreado a la frecuencia de 48 Khz, amarrado al sistema de reloj de 27 Mhz. El reloj de muestreo de audio de 48 Khz esta definido como:

(46)

Si una señal análoga es empleada, el conversor A/D debe hacer un muestreo a 48 Khz. Si una señal de entrada digital es empleada, la rate de muestreo de entrada debe ser de 48 Khz, o el codificador de audio debe contener conversores de rata de muestreo el cual convierte la rata de muestreo a 48 Khz.

3.8.2 BITS RATE.

Un principal servicio de audio, o un servicio de audio asociado el cual es un servicio completo (conteniendo todos los elementos de programa necesarios) debe ser codificada a una bits rate menor o igual a 384 kbps. Un servicio asociado de canal particular conteniendo un elemento de programa particular debe ser codificado a una bits rate menor o igual a 128 kbps. Un servicio asociado de dos canales conteniendo únicamente diálogo debe ser codificado a una rata de bits menor o igual a 192 kbps. La bits rate combinada de un servicio principal y un servicio asociado la cual es propuesta para ser decodificada simultáneamente debe ser menor o igual a 512 kbps.

3.1 MULTIPLEX Y FLUJO DE TRANSPORTE MPEG-2

Ahora partimos del Flujo Elemental de datos (ES), que es el flujo comprimido a la salida del Codificador o Compresor. Este flujo comprimido puede ser de video, audio o datos, su característica es que su capacidad de datos es variable. En la figura 3.9 se observa la formación del Flujo de Transporte MPEG-2.

(47)

Este es un flujo de paquetes de datos que ha sido formado mediante la paquetización de los Flujos Elementales (ES). Los PES tienen una longitud variable, su máxima capacidad de datos es de 65,536 Kbytes.

Para esta paquetización del Flujo Elemental, se toman porciones ordenadas de la secuencia ES y de una capacidad determinada, cada parte que se extrae de la secuencia se identifica con una cabecera y esta es la que lleva toda la información de esa porción del paquete, de esta manera, se forman los paquetes PES, que constituyen la paquetización del Flujo Elemental de datos, de igual forma se realiza para el audio.

Imagen I Imagen B Imagen B Imagen P

Datos de I Datos de B Datos de B Datos de P

Paquete MPEG-2 Paquete MPEG-2 Paquete MPEG-2 Señal digital COMPRESOR PAQUETIZACIÓN MÚLTIPLEX DE TRANSPORTE Paquete MPEG-2 ES PES TS

Flujo de Transporte Final

(48)

El PES tiene una cabecera de 8 bytes (64 bits), en la figura 3.10 se representa la cabecera del PES, esta lleva toda la información inherente a ese paquete.

1 BYTE 1 BYTE 1 BYTE 1 BYTE 1 BYTE 1 BYTE 1 BYTE 8 bytes / 64 bits Identificación de flujo

Tamaño del buffer Longitud del paquete

Código de arranque

1 BYTE

Figura 3.10. (Tomada de Televisión Digital Avanzada). Cabecera del paquete PES.

Los primeros 3 bytes (24 bits), constituyen el código de arranque del paquete (SC, Start Code). El siguiente byte (8 bits), se utiliza para identificar el flujo de datos que transporta el mismo (SI, Stream Identification). Los 2 bytes siguientes (16 bits), son usados para indicar la longitud del paquete (PL, Packet Length). Los últimos 2 bytes (16 bits), se utilizan para indicar el tamaño del buffer (BS, Buffer Size).

Cada paquete del Flujo de Transporte posee un código de identificación de paquete (PID, Packet Identification). Los paquetes que son del mismo Flujo Elemental tienen el mismo PID, de esta manera el Decodificador puede seleccionar y reordenar los distintos flujos.

(49)

Al final de cada paquete se le agregan los bytes de paridad, para detectar y corregir errores, en el sistema ATSC se agregan 20 bytes al final de cada paquete, así el paquete tendrá un total de 208 bytes.

En el estándar MPEG-2, tiene dos tipos de Flujo de Transporte:

• SPTS (Single Program Transport Streams). Flujo de Transporte de un Programa Simple.

• MPTS (Multi Program Transport Streams). Flujo de Transporte de Múltiples Programas.

El SPTS contiene diferentes flujos de PES, pero estos corresponden a un programa simple, este flujo contiene un video y diferentes audios. En cambio el MPTS, transporta dos o más flujos SPTS o de programas simples.