Visión general

In document UNIÓN INTERNACIONAL DE TELECOMUNICACIONES (página 125-129)

Anexo I – Modo codificación INTRA avanzada

O.1 Visión general

La escalabilidad permite la decodificación de una secuencia con más de un nivel de calidad. Esto se efectúa utilizando una jerarquía de imágenes e imágenes de mejora divididas en una o más capas. En la escalabilidad se utilizan tres tipos de imágenes utilizadas: imágenes B, imágenes EI, e imágenes EP, como se explica más adelante. Cada imagen tiene un número de capa de mejora ELNUM que indica a qué capa pertenece, y un número de capa de referencia RLNUM que indica

qué capa se utiliza para su predicción. La capa más baja se llama capa básica y tiene el número de capa 1.

La escalabilidad se logra mediante tres métodos básicos: temporal, SNR y de mejora espacial.

O.1.1 Escalabilidad temporal

La escalabilidad temporal se consigue utilizando imágenes predichas bidireccionalmente, o imágenes B. Las imágenes B permiten la predicción a partir de una imagen reconstruida anterior o posterior o a partir de ambas en la capa de referencia. Esta propiedad suele dar como resultado una mejor eficacia de la compresión en comparación con la de las imágenes P. Las imágenes B difieren de la parte de imagen B de una trama PB (o trama PB mejorada) (véanse los anexos G y M) en el sentido de que son entidades separadas en el tren de bits: no se combinan entre sí sintácticamente con una imagen P (o EP) posterior.

Las imágenes B (y la parte B de una trama PB o trama PB mejorada) no se utilizan como imágenes de referencia para la predicción de ninguna otra imagen. Esta propiedad permite que las imágenes B sean descartadas si es necesario sin afectar de manera adversa a ninguna imagen subsiguiente, proporcionando así la escalabilidad temporal. La figura O.1 ilustra la estructura predictiva de las imágenes P y B.

T1602960-97

I1 B2 P3 B4 P5

Figura O.1/H.263 – Ilustración de las dependencias de la predicción de las imágenes B

La localización de las imágenes B en el tren de bits sigue un orden en dependencia de los datos en vez de un orden temporal estricto. (Esta regla es coherente con el ordenamiento de otras imágenes en el tren de bits, pero con todos los demás tipos de imágenes distintas de las imágenes B no se plantea esa contraposición entre el orden en dependencia de los datos y el orden temporal.) Por ejemplo, si las imágenes de una secuencia de vídeo se numerasen 1, 2, 3, …, el orden del tren de bits de las imágenes codificadas sería I1, P3, B2, P5, B4, …, en los subíndices se refieren al número de imagen original (como se ilustra en la figura O.1).

No hay un límite al número de imágenes B que pueden insertarse entre pares de imágenes de referencia en la capa de referencia (salvo el que se necesita para evitar la ambigüedad temporal a causa de los desbordamientos del campo de referencia temporal en el encabezamiento de la imagen). No obstante, un número máximo de esas imágenes puede ser señalizado por medios externos (por ejemplo, aplicando la Recomendación H.245).

La altura, anchura y relación de aspecto de píxel de una imagen B serán siempre iguales a las de su imagen de capa de referencia temporalmente subsiguiente.

O.1.2 Escalabilidad SNR

El otro método básico para lograr la escalabilidad es a través de la mejora espacial/SNR. La escalabilidad espacial y la escalabilidad SNR son equivalentes excepto por lo que se refiere a la utilización de la interpolación, que se describe brevemente. Dado que la compresión introduce perturbaciones y distorsiones, la diferencia entre una imagen reconstruida y su original en el codificador es (casi siempre) una imagen con un valor distinto de cero, que contiene lo que puede llamarse el error de codificación. Normalmente, el error de codificación se pierde en el codificador y nunca se recupera. Con la escalabilidad SNR, estas imágenes con error de codificación se pueden también codificar y enviar al decodificador, mejorando la imagen decodificada. Los datos adicionales sirven para incrementar la relación señal/ruido de la imagen de vídeo y, por lo tanto, el término escalabilidad SNR. En la figura O.2 se muestra el flujo de datos para la escalabilidad SNR. Las flechas verticales de la capa más baja ilustran la predicción de la imagen en la capa de mejora a partir de una aproximación reconstruida de esa imagen en la capa (más baja) de referencia.

Si la predicción se forma únicamente a partir de la capa más baja, la imagen de la capa de mejora se designa como imagen EI. Es posible, sin embargo, crear una imagen predicha modificada bidireccionalmente utilizando una imagen de capa de mejora anterior y una imagen de referencia de capa más baja temporalmente simultánea. Este tipo de imagen se designa como imagen EP o imagen P "de mejora". En la figura O.2 se muestra el flujo de predicción de imágenes EI y EP. (Aunque no se muestra específicamente en la figura O.2, una imagen EI en una capa de mejora puede tener una imagen P como imagen de referencia de capa más baja, y una imagen EP puede tener una imagen I como imagen de mejora de capa más baja.)

T1602970-97 EI EP EP I P P Capa de mejora Capa básica

Figura O.2/H.263 – Ilustración de la escalabilidad SNR

Tanto para las imágenes EI como para las imágenes EP, la predicción a partir de la capa de referencia no utiliza vectores de movimiento. No obstante, al igual que con las imágenes P normales, las imágenes EP utilizan vectores de movimiento cuando se efectúa la predicción a partir de sus imágenes de referencia temporalmente anteriores en la misma capa.

O.1.3 Escalabilidad espacial

El tercer y último método de escalabilidad del modo escalabilidad temporal, SNR y espacial es la escalabilidad espacial, que está estrechamente relacionada con la escalabilidad SNR. La única diferencia es que antes de utilizar la imagen de la capa de referencia para efectuar la predicción de la

imagen de la capa de mejora espacial, es interpolada por un factor de dos ya sea horizontal o verticalmente (escalabilidad espacial 1-D), o tanto horizontal como verticalmente (escalabilidad espacial 2-D). En O.6 se definen los filtros de interpolación para esta operación. Para que un decodificador pueda efectuar algunas formas de escalabilidad espacial, quizá sea necesario que acepte también formatos de imagen personalizados. Por ejemplo, si la capa básica es sub-cuarto de CIF (128 × 96), la imagen de la capa de mejora espacial 2-D podría ser 256 × 192, lo que no corresponde a un formato de imagen normalizado. Otro ejemplo sería el de una capa básica cuarto de CIF (176 × 144), con la relación de aspecto de píxel normalizado de 12:11. Una capa de mejora espacial horizontal 1-D correspondería entonces a un formato de imagen de 352 × 144 con una relación de aspecto de píxel de 6:11. En estos casos tendría que utilizarse, por tanto, un formato de imagen personalizado para la capa de mejora. Un caso en el que no se necesitaría formato de imagen personalizado sería aquel en que se utilizara una capa básica cuarto de CIF con una capa de mejora espacial 2-D CIF. En la figura O.3 se ilustra la escalabilidad espacial.

T1602980-97 I P P EP EP EI Capa de mejora Capa básica

Figura O.3/H.263 – Ilustración de la escalabilidad espacial

Aparte de requerir un proceso de muestreo a velocidad superior para incrementar el tamaño de la imagen de la capa de referencia antes de utilizarla como referencia en el proceso de codificación, el procedimiento y la sintaxis de una imagen de escalabilidad espacial son funcionalmente idénticos al de una imagen de escalabilidad SNR.

Puesto que hay muy pocas distinciones sintácticas entre imágenes con escalabilidad SNR e imágenes con escalabilidad espacial, las imágenes utilizadas con uno u otro fin se denominan imágenes EI e imágenes EP.

La imagen de la capa básica que se utiliza para la predicción hacia arriba en una imagen EI o EP puede ser una imagen I, una imagen P, o la parte P de una trama PB o PB mejorada (pero no una imagen B ni la parte B de una trama PB o PB mejorada).

O.1.4 Escalabilidad multicapa

Es posible insertar imágenes B temporalmente no sólo entre imágenes de tipo I, P, PB y PB mejorada, sino también entre imágenes de tipo EI y EP, tanto si éstas consisten en imágenes SNR como de mejora espacial. Es posible también tener más de una capa de SNR o de mejora espacial junto con una capa básica. Por ello, un tren de bits escalable multicapa puede ser una combinación de capas SNR, capas espaciales e imágenes B. No obstante, el tamaño de una imagen no puede

EI EP EI B I P EP EI P EP EP P T1602990-97 Capa de mejora 2 Capa de mejora 1 Capa básica

Figura O.4/H.263 – Ilustración de la escalabilidad multicapa

En el caso de la escalabilidad multicapa, la imagen de una capa de referencia que se utiliza para la predicción hacia arriba en una imagen EI o EP puede ser una imagen I, P, EI o EP, o puede ser la parte P de una trama PB o PB mejorada de la capa básica (pero no una imagen B ni la parte B de una trama PB o PB mejorada).

Como en el caso de dos capas, las imágenes B pueden aparecer en cualquier capa. Sin embargo, cualquier imagen de una capa de mejora que es temporalmente simultánea con una imagen B de su capa de referencia debe ser una imagen B o la parte de imagen B de una trama PB o PB mejorada. Se trata así de preservar el carácter disponible de las imágenes B. Cabe indicar, no obstante, que las imágenes B pueden aparecer en capas que no tienen ninguna imagen correspondiente en capas más bajas. Esto permite al codificador enviar imágenes vídeo mejoradas con una velocidad de imagen más alta que las capas más bajas.

El número de la capa de mejora y el número de la capa de referencia de cada imagen de mejora (B, EI o EP) se indican en los campos ELNUM y RLNUM, respectivamente, del encabezamiento de la imagen (cuando están presentes). Véanse las reglas de inferencia descritas en 5.1.4.4 para el caso en que estos campos no están presentes. Si una imagen B aparece en una capa de mejora en la que también aparecen imágenes con escalabilidad SNR o espacial temporalmente adyacentes, el número de la capa de referencia (RLNUM) de la imagen B será el mismo que el número de la capa de mejora (ELNUM).

La altura, anchura y relación de aspecto de píxel de una imagen B serán siempre iguales a las de su imagen de capa de referencia temporalmente subsiguiente.

In document UNIÓN INTERNACIONAL DE TELECOMUNICACIONES (página 125-129)