Marcas de agua en video MPEG

(1)

ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELÉCTRICA.

SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN.

UNIDAD CULHUACAN.

“MARCAS DE AGUA EN VIDEO MPEG”

T E S I S

QUE PARA OBTENER EL GRADO ACADÉMICO DE MAESTRO EN CIENCIAS DE INGENIERÍA EN

MICROELECTRÓNICA PRESENTA:

ANTONIO CEDILLO HERNÁNDEZ

DIRECTOR DE TESIS: DRA. MARIKO NAKANO MIYATAKE.

DR. LUIS MARTIN ROJAS CARDENAS

MÉXICO, D.F. FEBRERO 2007

(2)

(3)

(4)

R E S U M E N

La evolución en las telecomunicaciones ha hecho que exista un ilimitado número de réplicas de material de los datos multimedia, lo cual significa un gran problema para la protección de derechos de autor. Las marcas de agua han sido propuestas como una solución viable para resolver este problema, ya que mediante ellas es posible identificar el autor, el propietario, distribuidores o consumidores autorizados de algún documento.

La marca de agua digital es un código de identificación que se inserta directamente en el contenido de un archivo multimedia (imagen, audio, video), de manera que sea difícil de apreciar por el sistema de percepción humana, pero fácil de detectar usando un algoritmo dado y una clave, con ayuda de una computadora.

En este trabajo se presenta una técnica para insertar marca de agua en video de tipo MPEG. El método opera en el dominio de la frecuencia insertando una secuencia seudo-aleatoria de números reales en ciertos coeficientes DCT de las imágenes. Para lograr robustez e imperceptibilidad de la marca de agua se han tomado en cuenta diversas características propias del proceso de codificación de video así como características del Sistema Visual Humano (HVS). La extracción de la marca de agua es realizada sin necesidad de poseer el video original. Los resultados experimentales demuestran que la marca de agua sobrevive al proceso de compresión así como a los ataques conocidos contra este tipo de sistemas.

Por último, los resultados del sistema propuesto son comparados contra algunos obtenidos en sistemas de marcado de agua en video existentes, evidenciando de esta forma las contribuciones del mismo y las posibles áreas de oportunidad que genera.

(5)

A B S T R A C T

The telecommunications evolution has done that a limitless number of multimedia digital data copies exists what means a great problem for the copyright. Digital watermarking has been proposed as a viable solution for the need of copyright protection and authentication of multimedia data, since it makes possible to identify the author, owner, distributor or authorized consumer of a document.

Watermarking is an authentication code that is directly inserted in the content of a file multimedia (image, audio, video) so that it is difficult to appreciate by the system of human perception, but easy to detect using a algorithm and a key, with the help of a computer.

In this document, a video watermarking technique to add a watermarking to digital MPEG video is presented. The method operates in the frequency domain embedding a pseudo-random sequence of real numbers in a selected DCT coefficient. Watermark casting is performed by taking into account diverse own characteristic of the process of video codification and exploiting the masking characteristics of the Human Visual System, to ensure watermark invisibility and robustness. The embedded sequence is extracted without resorting to the original video. Experimental results demonstrate that the watermark is robust against MPEG compression process and known video watermarking attacks.

Finally, the results of the proposed system are compared against some obtained in existing systems of video watermarking, demonstrating of this form the contributions of same and the possible areas of opportunity that it generates.

(6)

P R E F A C I O

En la época actual, la posibilidad de digitalización de cualquier tipo de información, junto con la interconectividad global, permite realizar copias perfectas de la información digitalizada. Los procesos criptográficos permiten proteger la adquisición legal de la información, pero una vez obtenida la información se pueden revender copias exactas. Por lo tanto, surge la necesidad de un sistema de seguimiento de las copias para la protección de los Derechos de Autor, que también se utilice en el caso de adquisición legal para distribución fraudulenta (copias ilegales).

Por todo esto se ha expandido el concepto de marcas de aguas al mundo digital, incluyendo impresiones digitales en materiales utilizados para autentificar la propiedad de una información digital y servir en la defensa de los intereses de dicha propiedad. Las técnicas de marcas de agua son utilizadas para la autenticación de la información, así como para el seguimiento de copias, ya que permiten la identificación del autor, propietario, distribuidor y/o consumidor autorizado de un documento digital. La principal ventaja de los sistemas de marca de agua consiste en que la marca es inseparable del contenido del archivo. Sin embargo, existen algunos problemas que necesitan ser resueltos, antes que estas técnicas puedan ser eficazmente aplicadas en los escenarios de la vida real.

El desarrollo de un sistema de marcas de agua digitales requiere la particularización a un tipo de señal determinado ya sea audio, video o imágenes. En el caso especifico de ésta tesis, el tipo de señal es el video digital.

Las marcas de agua en video introducen algunos problemas que no se presentan dentro de las marcas de agua en imágenes. Debido a las grandes cantidades de datos y a la redundancia entre imágenes, las señales de video son altamente susceptibles a ataques, entre los cuales se incluyen el promedio e intercambio de imágenes, el cambio en la velocidad de codificación, etc. La mayoría de los algoritmos actuales no resuelven todos los ataques en forma satisfactoria. En el caso del sistema propuesto, se han considerado técnicas específicas pensando en resolver éstos ataques.

El sistema hace uso de cuatro técnicas para dar robustez al marcado del video: a) El sistema visual humano es utilizado, insertando la marca de agua dentro del espacio azul de las imágenes, ya que es el espacio de color que el ojo humano percibe con menor intensidad, b) Se realiza una clasificación de los bloques DCT de cada imagen, marcando con mayor intensidad aquellos bloques que constituyen texturas frente a los que representan figuras planas, c) El marcado de las imágenes no se realiza con la misma técnica en todas las imágenes, se hace una diferencia entre las imágenes de tipo I y las imágenes P, dicha diferencia consiste en el número de elementos que se insertan en las imágenes

(7)

y d) Se presenta una innovación dentro del marcado de video generando un archivo de información de la cantidad de movimiento entre una imagen y otra de referencia a lo largo de todo el video, con lo cual se marca con más intensidad aquellos bloques que contengan mayor cantidad de movimiento.

Esta innovación juega un papel importante ya que considera la característica propia del algoritmo de video MPEG, aprovechando las imágenes clasificadas como tipo P y el análisis de movimiento, para marcar con mayor intensidad aquellas en las cuales se presenta mayor movimiento, mostrando que el ojo humano es incapaz de percibir los cambios en la imagen.

J U S T I F I C A C I Ó N

Actualmente existen gran cantidad de propuestas sobre algoritmos para la inserción de marcas de agua para imágenes digitales. Muchos algoritmos estudiados visualizan al video como una secuencia de imágenes, por lo que emplean técnicas de marcado de agua para imágenes sin considerar características propias de alguna codificación de video, algunos otros consideran técnicas avanzadas propias de la codificación de video como el marcado de los vectores de movimiento en el caso de video MPEG, sin embargo se duda sobre la resistencia de dichos algoritmos contra los ataques más conocidos para el marcado de video, debido a sus características.

En general, para el estudio del marcado de agua en video se cuenta con poca información por tratarse de un campo relativamente joven dentro de la protección de los derechos de autor. Aunque existen varios estudios que realizan recomendaciones acerca de las características con las cuales deberá contar un sistema de marcado de agua en video, así como de los ataques mínimos que deberá soportar, son pocos los trabajos que han logrado finalmente cumplir con todas las recomendaciones.

Es por ello que surge la necesidad de realizar un estudio dentro del campo de las marcas de agua en video, para conocer si es posible realizar un sistema capaz de cumplir con las características mínimas recomendadas por la literatura, además de aportar alguna innovación interesante al mismo.

O B J E T I V O

Proponer y desarrollar un sistema para la protección de video de tipo MPEG, mediante la técnica de marcas de agua digitales. El sistema tomará en cuenta las características propias de la codificación de video, siendo robusto contra la

(8)

mayoría de los ataques conocidos en el campo, como lo son el promedio de imágenes, desecho de imágenes, intercambio de imágenes y el cambio en velocidad de codificación. Además la marca de agua deberá ser imperceptible a la vista.

M E T A S

Las metas que se llevarán a cabo en esta tesis son:

(1) Revisión bibliográfica sobre los algoritmos propuestos hasta el momento en materia de marcado de agua en video.

(2) Investigación sobre el protocolo de codificación de video MPEG.

(3) Selección y análisis de las técnicas adecuadas para desarrollar un sistema de marca de agua robusto e imperceptible para video MPEG.

(4) Analizar alguna contribución posible de acuerdo al estudio realizado.

(5) Desarrollar y evaluar el sistema propuesto.

E S T R U C T U R A D E L A T E S I S

El primer capítulo es una revisión del estado del conocimiento de las marcas de agua donde se menciona la definición de marca de agua, clasificación, características, aplicaciones, ataques, además de una revisión acerca de las marcas de agua aplicadas al video.

El capítulo dos está compuesto por el marco teórico, se realiza una revisión sobre los aspectos teóricos necesarios para comprender cada uno de los aspectos de la tesis, un resumen sobre el estándar de codificación de video MPEG, así como un estudio sobre el sistema visual humano.

EL tercer capítulo aborda a detalle cada uno de los elementos que conforman el sistema propuesto, una explicación a detalle sobre el funcionamiento del sistema en el cual está basado el desarrollo de la tesis así como la inserción y detección de la marca de agua.

El capítulo cuatro contiene un análisis de los resultados obtenidos en robustez contra ataques y una comparación del sistema propuesto contra algunos de los sistemas existentes dentro del campo, en cuanto a características y resultados obtenidos en los mismos. Aquí mismo se realizan las conclusiones y sugerencias para trabajos futuros.

(9)

C O N T E N I D O

C A P Í T U L O 1 Estado del conocimiento

Introducción 1

1.1 Marcas de agua 2

1.2 Clasificación 2

1.3 Aplicaciones 3

1.4 Características 4

1.5 Ataques 5

1.6 Marcas de agua en video 5

1.6.1 Clasificación 5

1.6.2 Consideraciones 6

1.6.3 Ataques 7

1.7 Conclusiones 7

1.8 Referencias 8

C A P Í T U L O 2 Marco Teórico

Introducción 11

2.1 El video MPEG 12

2.2 Compresión espacial 14

2.2.1 Muestreo 15

2.2.2 Transformada Discreta Coseno 16

2.2.3 Cuantización 18

2.2.4 Escaneo 18

2.2.5 Codificación entrópica 19 2.3 Compresión temporal 20 2.3.1 Compensación de movimiento 21 2.3.1.1 Búsqueda exhaustiva 24 2.3.1.2 Búsqueda en 3 pasos (3SS) 25 2.3.1.3 Búsqueda logarítmica en 2D 25 2.3.1.4 Búsqueda Ortogonal 26 2.3.1.5 Búsqueda Cruzada 27 2.3.2 Codificación bidireccional 28 2.3.3 Imágenes I, P y B 29 2.3.4 Grupo de imágenes (GOP) 30 2.4 El sistema visual humano 32 2.4.1 Captación de información 33

2.4.1.1 Orientación espacial de

receptores 33 2.4.1.2 Coordinación de receptores 35

2.4.1.3 Enfoque exacto de ondas 35 2.4.2 Conducción hacia centros de

análisis 35 2.4.2.1 Sistemas de transducción 35

2.4.2.2 Sistemas de transmisión 36 2.4.3 Procesamiento de datos y

compresión del entorno 36 2.4.4 Acción y control visuales 37 2.5 Percepción del color 37

2.5.1 El modelo HLS 39

2.5.2 El modelo RBG 40

2.5.3 El modelo CMYK 42

2.6 Percepción del movimiento 43

2.7 Conclusiones 44

2.8 Referencias 45

C A P Í T U L O 3 Sistema Propuesto

Introducción 47

3.1 Sistema Base 48

3.2 Codificación 48

3.2.1 Carga y conversión de video YUV 48 3.2.2 Elección de parámetros de

codificación 49 3.2.2.1 Estructura de grupo de

imágenes 49 3.2.2.2 Factor de calidad 50

3.2.2.3 Algoritmo de búsqueda 51 3.2.3 Procesamiento de cada imagen 51

3.2.3.1 Imágenes I 51

3.2.3.2 Imágenes P 53

3.3 Inserción de la marca de agua 58 3.3.1 Pre-procesamiento 58 3.3.2 Generación de la marca de agua 61 3.3.3 División de la imagen en

(10)

componentes de color 63 3.3.4 Clasificación de bloques DCT 65 3.3.5 Inserción de la marca de agua 69

3.3.5.1 Imágenes I 70

3.3.5.2 Imágenes P 72

3.4 Detección de la marca de agua 76 3.5 Evaluación de la calidad del video 79 3.5.1 Evaluación con PSNR 80 3.5.2 Evaluación con índice

universal de calidad 82

3.6 Conclusiones 83

3.7 Referencias 84

C A P Í T U L O 4 Resultados obtenidos

Introducción 85 4.1 Robustez contra ataques 86

4.1.1 Cambio en la velocidad de

codificación 86

4.1.2 Corte de video 88

4.1.3 Inserción de ruido 88

4.1.4 Frame dropping 90

4.1.5 Frame Swapping 91

4.1.6 Frame Averaging 82

4.1.7 Recorte de la imagen 94 4.2 Sistemas existentes 95 4.2.1 Algoritmo basado en la

transformada Wavelet 3D 96 4.2.2 Algoritmo basado en la marca de vectores de movimiento 97 4.2.3 El algoritmo Zhao-Koch 98 4.3 Conclusiones generales 100

4.4 Aportaciones 101

4.4 Trabajo futuro 102

4.5 Referencias 102

A N E X O A

Artículos Publicados 103

A N E X O B

Lista de figuras y tablas 108

A N E X O C

Glosario 112

A N E X O D

Videos Utilizados 114

A N E X O E

Programas 116

(11)

C A P I T U L O 1

E S T A D O D E L C O N O C I M I E N T O

I n t r o d u c c i ó n

Uno de los grandes eventos tecnológicos de las últimas dos décadas fue la invasión de los medios digitales dentro de todos los aspectos de la vida cotidiana. Documentos digitales como audio, imágenes y video han alcanzado una expansión muy rápidamente dentro de los consumidores, dominando campos como el entretenimiento, las artes, la educación, etc. Los datos digitales pueden ser almacenados a muy alta calidad y manipulados fácilmente con la ayuda de las computadoras. Además, pueden ser transmitidos a altas velocidades y bajo costo a través de las redes de comunicaciones.

La fácil manipulación y transmisión de los datos digitales constituye un problema real para los creadores y distribuidores de información como lo son las agencias, museos, librerías, artistas, científicos, autores, etc. Los dueños de los derechos de autor desean ser recompensados siempre que su trabajo es usado por algún otro.

Además, desean estar seguros de que su trabajo no es usado de forma incorrecta (por ejemplo, modificado sin su permiso). Una solución puede ser el restringir el acceso a los datos utilizando algún tipo de técnica de cifrado. Sin embargo el cifrado no provee una protección total, ya que una vez que los datos han sido descifrados, pueden ser libremente distribuidos y manipulados.

Durante los últimos cinco años significantes esfuerzos en materia de investigación han sido dirigidos a hacer frente a los desafíos que presentan las tecnologías digitales. La solución parece estar en técnicas que datan del antiguo Egipto y Grecia: las marcas de agua y la esteganografía.

Las técnicas de marcas de agua son utilizadas para la autenticación de la información, así como para el seguimiento de copias, su principal ventaja de los sistemas de marca de agua consiste en que la marca es inseparable del contenido del archivo. Sin embargo, existen algunos problemas que necesitan ser resueltos, antes que estas técnicas puedan ser eficazmente aplicadas en los escenarios de la vida real [1].

(12)

1 . 1 M A R C A S D E A G U A

La posibilidad de digitalización de cualquier tipo de información junto a la conectividad global permite realizar copias perfectas de la información digitalizada. Los procesos criptográficos permiten proteger la adquisición legal de la información, pero una vez obtenida la información se puede revender copias exactas. Por lo tanto, surge la necesidad de un sistema de seguimiento de las copias para la protección de los Derechos de Autor, que también se utilice en el caso de adquisición legal para distribución fraudulenta. La no disponibilidad de dichos sistemas ha frenado la implantación de servicios multimedia donde la información es muy valiosa.

Una marca de agua digital puede definirse como una señal digital que se introduce dentro de algún archivo digital de manera que posteriormente pueda utilizarse para probar quién es el propietario, quien es el comprador, el tipo de uso permitido, etc., en función de la aplicación [2]. Durante los últimos años las marcas de agua digitales han sido un campo de mucha actividad investigadora, y se han propuesto un número importante de métodos.

Figura 1.1

Una marca de agua consiste en una señal digital (1) que se introduce dentro de algún archivo (2) generando un archivo protegido (3).[12]

1 . 2 C L A S I F I C A C I Ó N

Las técnicas de marcas de agua pueden ser clasificadas en diferentes clases en base a sus distintas características. Algunas técnicas requieren que el archivo original este disponible durante la fase de detección, tales esquemas son en ocasiones referidos como privados. Aquí, la imagen original juega el papel de ruido para la fase de detección y su disponibilidad la facilitará y hará más robusta. Además, la imagen original puede ser usada

(13)

para registrar la imagen marcada con la idea de compensar distorsiones geométricas, como el escalamiento, la rotación, etc.

Los métodos de marcado que no requieren de la imagen original para la detección son llamados métodos ciegos o p’ublicos, y a pesar de contar con muchas más ventajas en comparación con los métodos privados, la robustez a la modificación de los archivos digitales y la resistencia a ataques es más limitada.

Otro esquema de clasificación para las técnicas de marcado de agua se puede realizar tomando en cuenta el dominio en el cual la marca es introducida. Ciertos métodos introducen la marca en el dominio espacial modulando la intensidad directamente sobre algunos píxeles, mientras que otras modifican la magnitud de coeficientes con la ayuda de alguna transformada de frecuencia como lo son la DCT, DFT o DWT. [1]

Algunos autores proponen otras clasificaciones, considerando métodos de marcado frágiles, donde la marca desaparece si se altera la imagen y robustos, en donde la marca persiste aunque la imagen sea alterada.

Finalmente existe una última clasificación en la cual se atiende la dependencia que tiene la marca de la imagen, es decir, marcas dependientes y marcas independientes del material digital [2].

1 . 3 A P L I C A C I O N E S

Las marcas de agua pueden ser utilizadas para diferentes propósitos, entre los cuales podemos encontrar:

Protección de derechos de autor: Para la protección de la protección intelectual, el propietario de los datos puede introducir una marca de agua representando la información de derechos de autor en esos datos. Esta marca de agua puede probar la propiedad en una corte cuando alguien ha infringido los derechos de autor.

Identificación (fingerprinting): Para trazar el origen de copias ilegales, el propietario puede utilizar una técnica de identificación. En este caso, el propietario puede introducir diferentes marcas de agua en copias de los datos originales que serán entregadas a los diferentes clientes. La técnica de identificación puede ser comparada con un número de serie que esta relacionado con la identidad de cada uno de los clientes. Esto asegura al propietario el conocer la identidad del cliente que en algún momento violara el acuerdo de legalidad entregando los datos a algún tercero.

Control de copias: La información almacenada en una marca de agua puede controlar directamente los dispositivos de copiado. En este caso la marca de agua representa un bit que prohíbe las copias ilegales de forma que los detectores de la marca de agua en el grabador determinen si los datos pueden ser copiados o no.

(14)

Monitoreo de difusión: Un sistema automatizado de monitoreo puede verificar si anuncios comerciales, a los cuales previamente se les insertó una marca de agua, han sido difundidos de la forma en que se contrato.

Autenticación: Las marcas de agua frágiles pueden ser usadas para corroborar la autenticación de los datos.

Ésta indica si los datos han sido alterados.

Clasificación: Las marcas de agua pueden ser usadas como clasificadoras de material digital, donde datos pueden ser insertados para decidir si algún material puede ser usado por motores de búsqueda o no [3].

1 . 4 C A R A C T E R Í S T I C A S

Cada aplicación en la que se utilice a las marcas de agua como método de protección, tiene sus propios requerimientos, por lo tanto, sus propias características. No hay una serie de características que se puedan aplicar en general a todas las técnicas. Sin embargo algunas características generales pueden ser dadas para la mayoría de las aplicaciones mencionadas arriba:

Transparencia: En la mayoría de las aplicaciones la marca de agua debe ser insertada la marca de tal forma que esto no afecte la calidad de los datos. Un procedimiento de inserción es verdaderamente imperceptible solo si los humanos no pueden distinguir entre los datos originales y aquellos que poseen la marca insertada.

Tamaño: La cantidad de información que puede ser almacenada dentro de la marca de agua depende de la aplicación. Para propósitos de copiado, una carga de un solo bit es usualmente suficiente.

Seguridad: La seguridad en las marcas de agua puede ser interpretada en la misma forma en que se interpreta la seguridad en un esquema de cifrado. La marca de agua es segura si el conocer el algoritmo de inserción y extracción de la marca no es de ayuda a un usuario no autorizado para detectar la presencia de la marca o removerla.

Ambigüedad: En la mayoría de los sistemas de marcas de agua es muy importante distinguir entre los archivos que han sido afectados por un algoritmo de inserción y los que no. Es muy importante que la probabilidad de error al detectar una marca de agua sea muy pequeña.

Robustez: Los archivos digitales están expuestos a varios tipos de modificaciones o ataques. La robustez se refiere a la capacidad de la marca de agua a sobrevivir a dichos ataques. Lo cual significa que la marca de agua debe estar presente y será posible que sea detectada después de dichas modificaciones. [4]

(15)

1 . 5 A T A Q U E S

Según la causa y el objetivo que originan los ataques, estos se pueden clasificar en [3]:

Ataques no intencionados: Se refiere a aquellos ataques que se realizan de forma involuntaria al momento de manipular la información con otros propósitos que no son el eliminar la marca de agua, como lo puede ser el comprimir o redimensionar los datos con fines de almacenamiento.

Ataques intencionados: En este tipo de ataques la intención es eliminar la marca de agua del material digital, o simplemente crear confusión acerca de la propiedad de la misma. Ejemplos de este tipo de ataque son los siguientes:

• Ataques a la robustez: Se logran reduciendo o eliminando completamente la presencia de la marca.

Por ejemplo, en una imagen, si la marca se haya en los LSB de algunos píxeles, cambiando dichos LSB en todos los píxeles de la imagen, la marca queda totalmente eliminada.

• Ataques a la presentación: modificando el objeto digital de forma que no se pueda detectar la marca.

Como indica su nombre, dicha marca será visible.

• Ataques a la interpretación: crear una situación, mediante una modificación de la marca, en la cual la propiedad del objeto no pueda ser reclamada por nadie. Por ejemplo, si a un objeto digital que ya tenía una marca, le añadimos otra nueva, será imposible interpretar cuál se añadió antes y por tanto, a quién pertenece el copyright del objeto digital [5].

1 . 6 M A R C A S D E A G U A E N V I D E O

Las marcas de agua digitales estuvieron enfocadas durante largo tiempo principalmente a las imágenes. En la actualidad, esta tendencia parece estar desapareciendo ya que muchos algoritmos han sido propuestos para otros tipos de datos multimedia en particular para el video [6]. En sus inicios las técnicas de marcado de agua en video fueron propuestas como una extensión de las técnicas utilizadas para imágenes, marcando cada imagen de forma independiente. Sin embargo se debe tener en cuenta que el video no es meramente una secuencia de imágenes desplegadas en un intervalo de tiempo regular.

1.6.1 Clasificación

Los algoritmos de marcado de agua en video pueden ser divididos en tres clases: marcado de video en banda base, marcado de video durante el proceso de codificación, y marcado de video en el flujo de video codificado. El

(16)

marcado de video en banda base puede usar algunos algoritmos para marcado de imágenes, por lo que requiere de gran tiempo de cálculo, además de que muchos datos de la marca de agua se pierden al momento de codificar el video.

En el caso de el marcado en el flujo codificado se realizan pocos cálculos por lo que se puede implementar para escenarios en tiempo real, sin embargo tiene la desventaja de que la cantidad de datos a insertar son muy pocos y dependen de la velocidad de codificación a la que esta codificado el video. Por último, los algoritmos que se enfocan en el marcado de video durante el proceso de codificación son robustos contra el proceso de codificación y no incrementan la velocidad a la que el video esta siendo codificado, la principal desventaja que se encuentra en este tipo de algoritmos es su complejidad [7].

1.6.2 Consideraciones

Algunas consideraciones que deben ser tomadas en cuenta al momento de diseñar un sistema de marcado de video son:

El momento de marcado: Este puede ser antes, durante o después de la codificación del video y depende exclusivamente de la aplicación a desarrollar.

Correlación espacial entre imágenes sucesivas: En la mayoría de los casos, las imágenes sucesivas de video no son independientes una de la otra ya que guardan un alto grado de similitud. Si la marca de agua es insertada en cada imagen de forma independiente, bastará con realizar un promedio de las mismas para remover en forma significante la marca.

Selección de imágenes a marcar: Insertar la misma marca de agua en todas las imágenes puede ser inseguro ya que proporciona mucha información acerca de la estructura de la marca para que llagase a ser removida.

Tiempo de cálculo: Algunas aplicaciones, tales como el control de copiado y permisos de transmisión en vivo, requieren que el sistema de marcado de agua en video funcione en tiempo real [8].

Fidelidad: La marca de agua debe ser imperceptible a la vista entre el video marcado comparado con el video original [9].

Tamaño de los datos: Insertar la marca de agua no debe incrementar significativamente el tamaño de los datos.

(17)

1.6.3 Ataques

Las marcas de agua en video, a diferencia de las marcas de agua en imágenes y debido a la naturaleza propia del video, se enfrentan a nuevos tipos de ataques ya sean intencionales o no, que pueden llegar a eliminar la marca de agua, entre los cuales podemos encontrar [10]:

Cambios de velocidad en la codificación de video: Uno de los ataques más conocidos y básicos para cualquier sistema de marcado en video.

Inserción de ruido: Con la finalidad de hacer menos perceptible la marca de agua, se puede adherir ruido dentro del video.

Recorte del video: Un ataque similar al encontrado para los sistemas de marcado de agua en imágenes, que consiste en recortar una parte de cada imagen del video.

Intercambio de imágenes (frame swapping): Debido a la alta redundancia dentro de las secuencias de video, se puede realizar un intercambio entre algunas imágenes del mismo.

Promedio de imágenes (frame averaging): Uno de los ataques más significativos para las marcas de agua en video, en donde se promedian imágenes consecutivas con el objetivo de que la marca de agua sea destruida.

Corte de imágenes (frame dropping): En este ataque algunas imágenes son desechadas siendo imperceptible a la vista debido a la alta redundancia que existe dentro del video [11].

1 . 7 C O N C L U S I O N E S

Durante largo tiempo el estudio de las marcas de agua estuvo enfocado principalmente a las imágenes, sin embargo en los últimos años se han desarrollado varios algoritmos aplicados a otro tipo de materiales digitales, como lo son el audio y el video. En el campo del marcado de agua en video se han realizado diversos trabajos, muchos de ellos con resultados positivos, sin embargo aún existe un largo camino por recorrer antes que dichos resultados puedan dirigirse hacia la estandarización, debido a que la gama de aplicaciones, consideraciones y características propias de dichos sistemas es aún muy amplia.

A pesar de la gran diversidad dentro de los algoritmos propuestos para marcas de agua en video, se han realizado esfuerzos para estudiar el estado actual del conocimiento en el área [1], [3], [6], [8], [9], que han llevado a

(18)

reconocer cuales con los ataques más comunes y requerimientos mínimos con los que debe cumplir un sistema de este tipo. Es aún largo el camino por recorrer dentro del campo, sin embargo se continúa trabajando al respecto en investigaciones como la presentada en esta tesis, teniendo en mente como principal idea el presentar nuevas propuestas que ayuden al desarrollo del mismo.

1 . 8 R E F E R E N C I A S

[1] G. Voyatzis, N. Nikolaidis y I. Pitas, “Digital Watermarking: An Overview”, IX European Signal Processing Conference (EUSIPCO'98), Rhodes, Greece, vol. I, pp. 9-12, 8-11 Septiembre 1998

[2] I. Goiriselaia, JJ. Unzilla, E. Jacob, A. Ferro, “Nuevo Método de marcas de agua en imágenes digitales en el dominio del espacio basado en cadenas de segmentos lineales”, Revista Electrónica de Visión por Computador, pp.

3-13, enero 2000.

[3] G. Langellar, I. Setyawan and R. Lagendijk, “Watermarking Digital Image and Video Data A State-of-the-Art- Overview”, IEEE Signal Processing Magazine, pp 20-46, 2001.

[4] J. J. Eggers, J. K. Su, and B. Girod, "Robustness of a Blind Image Watermarking Scheme," in Proceedings of IEEE International Conference on Image Processing (ICIP 2000), Vancouver, Canada, September 2000.

[5] http://es.wikipedia.org/wiki/Marca_de_agua_digital

[6] Doërr, Gwenaël J;Dugelay, Jean-Luc “A guide tour of video watermarking”, Signal Processing: Image Communication Volume 18 N°4, , pp 263–282. April 2003

[7] Zina Liu, Huaqing Liang, Xinxin Niu, Yixian Yang, “A Robust Video Watermarking in Motion Vectors”, 7^th International Conference on Signal Processing, 2004 (ICSP ’04), Volume 3, pp. 2358-2361, Agosto 2004.

[8] E. Lin, C. Podilchuk, T. Kalker, and E. Delp, "Streaming video and rate scalable compression: What are the challenges for watermarking?", Proceedings of the SPIE Security and Watermarking of Multimedia Contents III, vol. 4314, pp. 116-127, San Jose, January 22-25, 2001.

[9] “Digital Video Watermarking”, Technical overview, Microsoft Corporation, 2005.

(19)

[10] J. Dittmann, M. Stabenau, R. Steinmetz, “Robust MPEG Video Watermarking Technologies”, Proceedings of ACM Multimedia ’98, the 6^th ACM International Conference, Bristol England, pp. 71-80, 1998

[11] Zhuang Huai-Yu, LI Ying Wu Cheng-ke, “A blind Spatial-temporal algorithm on 3D Wavelet for video Watermarking”, Multimedia and Expo ICSP ’04, Volume 3, pp. 1727-1730, Junio 2004.

[12] http://www.iec.csic.es/criptonomicon/articulos/expertos64.htm

(20)

(21)

C A P I T U L O 2

M A R C O T E Ó R I C O

I n t r o d u c c i ó n

El objetivo de las marcas de agua es introducir una señal dentro del material digital de tal forma que constituya un método confiable de protección contra el uso ilegal del mismo. La marca de agua debe ser introducida de una manera tal que el material marcado sea percibido lo más similarmente posible al original; además el sistema debe ser diseñado para resistir todos los ataques a los cuales sea sometido, guardando fidelidad al desempeño del material original [1].

La prioridad de los esfuerzos en el marcado de agua en video incluye típicamente extensiones directas de los esquemas de marcado de imágenes aplicándolas a todo el flujo de imágenes. Sin embargo, existen significantes correlaciones temporales dentro del video digital que crean nuevos problemas y ataques. En está tesis se aborda el estudio del marcado de agua en video de tipo MPEG, explotando las características propias del mismo.

Es desde el año de 1988 que el Grupo de Expertos en Movimiento de Imágenes (Motion Picture Expert Group) comienza los trabajos en vistas de lograr estandarizar las técnicas de codificación de señales digitales para audio y video, logrando uno de los estándares más populares que existe debido a que no va más allá de un simple estándar: constituye un rango de estándares disponibles para diferentes aplicaciones, pero basados en principios similares. La compresión de video MPEG tiene como una de sus características principales el que saca partido tanto a la redundancia espacial como a la temporal. La redundancia temporal es extraída usando similitudes entre imágenes sucesivas. Tanto como sea posible, la imagen actual es estimada a partir de imágenes recientemente enviadas. Cuando se usa esta técnica, solo se necesita enviar la diferencia entre la imagen estimada y la actual. La imagen diferencia es entonces sujeta a codificación espacial. La compresión espacial se relaciona con las similitudes entre píxeles adyacentes en áreas planas de la imagen y en frecuencias espaciales dominantes. Este tipo de codificaciones da como resultado la clasificación del flujo de imágenes de acuerdo al tipo de redundancia que se eliminará en ellas.

Además de explotar las características propias de la codificación de video MPEG para desarrollar el sistema propuesto en esta tesis, el Sistema Visual Humano (HVS) es también abordado para dar robustez a la marca de agua. De esta manera, el objetivo de este capítulo es el explicar las bases teóricas necesarias para comprender cada uno de los aspectos utilizados dentro del desarrollo del sistema de marcado.

(22)

2 . 1 E L V I D E O M P E G

MPEG es uno de los más populares estándares de compresión de video y audio debido a que no es un simple estándar. En vez de eso, es un rango de estándares disponibles para diferentes aplicaciones, pero basados en principios similares. MPEG es el acrónimo de Moving Pictures Experts Group, establecido por la ISO para trabajar en compresión.

En todo material, ya sea de audio o video, hay dos tipos de componentes de señal: aquellos componentes que son nuevos o impredecibles y aquellos que pueden ser anticipados. Los componentes nuevos son llamados entrópicos y corresponden a la verdadera información en la señal. Los restantes son llamados redundancia ya que no son esenciales. La redundancia puede ser espacial tal como un área plana de una imagen, en donde los píxeles cercanos tienen el mismo valor, o temporal, en donde se explota la similitud de imágenes sucesivas. En sistemas de codificación sin pérdidas, se intenta que el codificador extraiga la redundancia de la señal y envíe solo la entropía al decodificador. En sistemas con pérdidas, se elimina cierta información irrelevante o no tan crítica para el observador antes de analizar los componentes importantes en la señal. Solo la entropía es almacenada o transmitida y el decodificador calcula la redundancia con la señal recibida.

Un codificador ideal debería transmitir solo la entropía y un decodificador ideal debería reconstruir la señal completa con esa información. En la práctica sin embargo, no se puede alcanzar la idealidad. Un codificador ideal requeriría de un retardo muy grande para poder extraer solo la redundancia de la señal, retardo que es inconcebible para determinadas aplicaciones en tiempo real. En algunos casos, un codificador ideal sería muy caro. Se sabe entonces que no hay un sistema de compresión ideal. En la práctica se necesita de un rango de codificadores con diferentes grados de retardo y complejidad. La potencia de MPEG es que no es solo un formato de compresión, sino un rango de herramientas de compresión que pueden ser combinadas eficazmente para diferentes necesidades. Hay diferentes formatos de video digital y cada uno tiene su velocidad. Por ejemplo, un sistema de alta definición podría tener 6 veces la velocidad de un sistema de definición estándar.

Consecuentemente, conocer solo la velocidad a la salida del codificador no es muy útil. Lo que importa es la razón de compresión, que es la relación entre la velocidad a la entrada del codificador y la velocidad a la salida del mismo. Desafortunadamente, el número de variables involucradas, hace difícil determinar el factor de compresión adecuado. Si toda la entropía es enviada, la calidad es buena [2].

Sin embargo, si el factor de compresión es incrementado con el fin de reducir la velocidad, la calidad decae.

Para identificar la entropía completamente, un codificador debería ser muy complejo. Un compresor práctico, deberá enviar más datos generalmente, para asegurarse de llevar la entropía en ellos. A un nivel de calidad dado, se requiere de un compresor mas sofisticado para lograr altas razones de compresión. La entropía en señales de video varía. En el proceso de codificación, algunas imágenes tendrán más entropía que otras y por lo

(23)

tanto requerirán de más datos para ser representadas, si lo que queremos es mantener la calidad de la codificación constante. Bajo este esquema de codificación, tendremos calidad constante pero velocidad variable, con lo cual se introduce un buffer a la salida del codificador que absorba dichas variaciones de entropía y produzca una velocidad constante a la salida.

En la codificación de video bajo el estándar MPEG, aparecen dos conceptos importantes y claramente diferenciados: la codificación Intra (Intra Coding) y la codificación Inter (Inter Coding). Codificación Intra es una técnica que explota la redundancia espacial o dentro de una imagen y codificación Inter explota la redundancia temporal. La Intra Coding puede ser usada sola como en JPEG, o puede ser combinada con Inter Coding, como en MPEG. Intra coding relaciona dos propiedades de las imágenes típicas. Primero, no todas las frecuencias espaciales están simultáneamente presentes y segundo, los componentes de frecuencias espaciales altas son de mas baja amplitud que las bajas. Intra coding requiere del análisis de frecuencias espaciales en una imagen.

Este análisis es el propósito de transformadas como wavelets o la DCT. Las trasformadas producen coeficientes que describen la magnitud de cada componente espacial frecuencial. Típicamente, muchos coeficientes serán cero, con lo que se omitirán, y se lograra por lo tanto una reducción en la velocidad. Más adelante se trata en detalle la codificación Intra, o codificación espacial. Inter coding, relaciona las similitudes entre imágenes sucesivas. Si una imagen esta disponible en el codificador, la siguiente imagen puede ser reconstruida enviando solo la imagen diferencia. Esta diferencia se incrementa con el movimiento, pero esto puede ser compensado con la estimación de movimiento, ya que un objeto en una imagen generalmente solo cambiará de posición, no de apariencia. Si el movimiento puede ser medido, puede ser creada una aproximación a la imagen actual, corriendo parte de la imagen previa a una nueva localidad. El proceso de movimiento es controlado por un vector que es transmitido al decodificador.

Más adelante dentro de este capítulo se trata a detalle la codificación Inter conjuntamente con la compensación de movimiento y la codificación bidireccional. La compensación de movimiento minimiza pero no elimina la diferencia entre imágenes sucesivas. Además, las imágenes codificadas temporalmente son difíciles de editar, ya que su contenido depende de alguna imagen quizás ya trasmitida tiempo atrás.

Al final, una secuencia de video MPEG es básicamente la salida del material en bruto de un codificador y contiene no más de lo necesario para que un decodificador reestablezca la imagen original. La sintaxis de la señal comprimida es definida de manera rigurosa por MPEG, así se asegura que el decodificador cumpla con esta [3]. La figura 2.1 muestra la construcción de una secuencia de video MPEG constituida por capas bien definidas.

(24)

Figura 2.1

Capas del video MPEG [12]

Bloque. Es la unidad fundamental de la información y esta representada por un bloque de coeficientes DCT, que tienen un tamaño de 8x8 píxeles, los cuales representan datos.

Macrobloque. Es la unidad fundamental de la imagen, y esta formado por cuatro bloques, por lo que tiene un tamaño de 16x16 píxeles.

Rebanada. Los macrobloques son agrupados en rebanadas y éstas siempre deben representar una fila horizontal que está ordenada de izquierda a derecha.

Imagen. Cuando un número de rebanadas se combinan, construyen una imagen, la cual es la parte activa de un campo o un cuadro.

Grupo de imágenes. Las imágenes son combinadas para producir un grupo de imágenes (GOP). El GOP es la unidad fundamental de la codificación temporal.

Secuencia. Cuando varias GOP son combinadas se produce una secuencia de video con un código de inicio, y luego termina con un código final.

2 . 2 C O M P R E S I Ó N E S P A C I A L

La compresión espacial consiste en eliminar de una imagen la redundancia debida a la “similitud” entre píxeles adyacentes y aquellas componentes menos importantes desde el punto de vista del ojo humano. EL proceso consta de los siguientes pasos:

(25)

2.2.1 Muestreo

El primer paso en la compresión espacial es el muestreo del canal. Hoy la mayoría de las imágenes electrónicas son grabadas en color, en el dominio RGB (Rojo, Verde, Azul). MPEG transforma las imágenes RGB al espacio luminancia-crominancia, generalmente referido como Y-Cr-Cb, definido como:

(1)

Es sabido que el sistema visual humano no responde de la misma manera a todas las frecuencias de la imagen ni a los diferentes canales de color. La figura 2.2 ilustra la sensibilidad al contraste del ojo humano en función de la frecuencia espacial de la imagen para la luminancia y los dos canales de crominancia.

Figura 2.2

Sensibilidad del ojo humano al contraste [2]

Se observa que la sensibilidad al contraste decae con la frecuencia espacial de la imagen, y que este decaimiento es más pronunciado para los canales de crominancia que para el de luminancia. Debido a esto, se puede realizar un muestreo de ambos canales de croma, por ejemplo 2:1 que se muestra en la figura 2.3, sin perder percepción en la imagen. El tipo de muestreo usado depende de la aplicación, fijando un compromiso

(26)

entre calidad y al velocidad. La siguiente tabla ilustra los diferentes modos de muestreo para una imagen típica de 720 píxeles por línea y 480 líneas por cuadro:

Tabla 2.1

Modos de muestreo [12]

Figura 2.3

Muestreo 4:2:0 en una imagen de 640 x 480 píxeles [2]

2.2.2 Transformada Discreta de Coseno

El segundo paso en la codificación espacial, es desarrollar un análisis de frecuencias espaciales mediante una transformada. Una transformada es una forma de expresar una forma de onda en un dominio diferente, en este caso, el de la frecuencia. La salida de la trasformada es un conjunto de coeficientes que indican cuanto de una determinada frecuencia esta presente. La Transformada utilizada por MPEG para reducir la redundancia espacial es la Transformada Discreta de Coseno (DCT).

(27)

La DCT es la versión muestreada de la transformada del coseno, y es usada ampliamente en dos dimensiones.

Un bloque de 8x8 píxeles es transformado en un bloque de 8x8 coeficientes. La definición matemática de la DCT esta dada por [4]:

(2)

Ya que la operación requiere la multiplicación por fracciones, algunos coeficientes tendrán longitud de palabra más larga que los valores de los píxeles. Típicamente, un bloque de píxeles de 8 bits, incurrirá en un bloque de coeficientes de 11 bits. Por lo tanto, la DCT no produce una compresión, sino lo contrario. No obstante, la DCT convierte la fuente de píxeles en una forma en donde es más fácil la compresión. La figura 2.4 muestra los coeficientes de la DCT para un bloque 8x8. Para un bloque de luminancia, el coeficiente DC indica el nivel medio de brillo en la imagen. Moviéndonos a lo largo de las filas, se incrementa la frecuencia horizontal, y a lo largo de las columnas se incrementa la frecuencia vertical.

Figura 2.4

Coeficientes DCT, moviéndonos a lo largo de las columnas se incrementa la frecuencia vertical [4]

(28)

Los datos Y, Cr y Cb son tratados individualmente en la codificación. En material real, muchos coeficientes tendrán valor cero o cerca de cero, y no serán transmitidos. Esto resulta en una significante compresión que resulta virtualmente sin pérdidas. Si se necesita una compresión mayor, se tendrá que reducir la longitud de palabra de los coeficientes distintos de cero, introduciendo una pérdida en el proceso. Esto se lleva a cabo a través del proceso de cuantización.

2.2.3 Cuantización

Dado que el ojo humano es menos sensitivo a cambios en las altas frecuencias, se eliminan los coeficientes DCT menos importantes, es decir, los correspondientes a altas frecuencias. Para ello, se divide la matriz de coeficientes por unos pesos crecientes con la frecuencia, obteniendo así muchos más valores casi nulos. MPEG define unas matrices de pesos estándares, aunque estas pueden ser elegidas libremente.

En el decodificador, los coeficientes se multiplicarán por sus valores correspondientes de forma tal que se recuperarán los coeficientes de la DCT con ruido de cuantización. Por supuesto, este ruido será mayor en las altas frecuencias, un ejemplo de lo anterior se muestra en la figura 2.5

Figura 2.5

Ejemplo de cuantización en una matriz de coeficientes DCT [13].

2.2.4 Escaneo

En material de video típico, los coeficientes significativos de la DCT se encuentran en la esquina superior del bloque de coeficientes. Después de la cuantización, los coeficientes de más alta frecuencia posiblemente se habrán reducido a cero. Podría ser obtenida una forma de codificación mas eficiente si primero se trasmitieran los coeficientes distintos de cero y luego un código indicando que los restantes coeficientes son cero.

(29)

El escaneo es una técnica que permite llevar a cabo esto último, ya que envía los coeficientes en orden decreciente de probabilidad de magnitud. La matriz resultante después de la cuantización se convierte en un vector de 64 componentes, que comienza por la componente de frecuencia cero (componente DC) y sigue con el orden creciente de frecuencia, es decir, en orden decreciente de intensidad e importancia. La figura 2.6 muestra la secuencia de escaneo que utiliza comúnmente un codificador MPEG.

Figura 2.6

Escaneo clásico para la codificación MPEG. En él, se recorren los coeficientes en orden creciente de frecuencia [5].

2.2.5 Codificación entrópica

En un material de video, no todas las frecuencias espaciales aparecen simultáneamente. Por lo tanto, muchos coeficientes de la DCT serán cero. A pesar del escaneo, pueden aparecer coeficientes cero entre valores distintos de cero. Los códigos de longitud variable (Run Length Encoding) permiten que estos coeficientes sean manejados de forma eficiente. Cuando se presenta una cadena de ceros, un RLC simplemente transmite la cantidad de ceros en la carrera en vez de cada bit individualmente. La probabilidad de ocurrencia de ciertos valores de coeficientes en un material de video real puede ser estudiada. En la práctica, algunos valores ocurren más frecuentemente que otros. Esta información estadística puede utilizarse para llevar a cabo una mejora en la compresión con códigos de longitud variable. Los valores que ocurren más frecuentemente son codificados con palabras mas cortas que los que ocurren menos a menudo. No se permite que una palabra sea prefijo de otra por lo que este tipo de codificación recibe el nombre de código instantáneo.

Aunque una ventaja de tener coeficientes nulos es el ahorro computacional y de recursos en el cálculo de la DCT inversa en recepción, la principal se halla en el proceso final de codificación.

(30)

2 . 3 C O M P R E S I Ó N T E M P O R A L

La compresión temporal se refiere a la reducción obtenida tras eliminar la redundancia existente entre imágenes consecutivas, explotando el hecho de que los píxeles varían poco habitualmente, por ejemplo con una relación 1/25, es decir 40 microsegundos, hasta que se produce un cambio de escena cada 3 ó 4 segundos en promedio.

La figura 2.7 muestra que un retardo de una imagen combinada con un restador puede llevar a cabo esta operación.

Figura 2.7

Modelo básico para reducción espacial [2]

La imagen diferencia es una imagen más, y puede ser codificada espacialmente después. El decodificador revierte la codificación espacial y le suma la diferencia para obtener la siguiente imagen.

Hay algunas desventajas en este modelo. Primero, ya que solo son enviadas las imágenes diferencia, se hace imposible la decodificación de la secuencia una vez comenzada la transmisión. Segundo, si alguna imagen diferencia contiene algún error, este se propagará indefinidamente. La solución a este problema es usar un sistema que no es completamente diferencial. La figura 2.6 muestra que periódicamente se envían imágenes de referencia, que son codificadas solo espacialmente. Si ocurre un error o hay un cambio de canal, se podrá resumir la decodificación en la próxima imagen de referencia. La figura 2.8 solo generaliza el concepto, más adelante se detalla la estructura de la secuencia de imágenes.

Figura 2.8

Con la finalidad de mejorar el modelo para reducción espacial, periódicamente se envían imágenes de referencia.[2]

(31)

2.3.1 Compensación de movimiento

Es un proceso mediante el cual se mide eficazmente el movimiento de los objetos de una imagen a otra. De este modo se consigue medir qué tipos de movimientos redundan entre imágenes. La figura 2.9 muestra que la imagen en movimiento puede ser expresada en un espacio de tres dimensiones que resulta de mover a lo largo del eje del tiempo dos imágenes consecutivas [6].

Figura 2.9

Objetos viajando en un espacio de tres dimensiones [12]

En el caso de un objeto que permanezca estático, el movimiento de este solo se ve en el eje del tiempo. Sin embargo, cuando un objeto está en movimiento, este se mueve en el eje de trayecto óptico (eje horizontal y vertical en el tiempo) que no es paralelo al eje del tiempo.

El eje de trayecto óptico une los puntos de movimiento de un objeto a medida que este se mueve a través de varias imágenes. Este trayecto puede ser nulo en valores que representen un objeto en movimiento que solo cambia con respecto al eje del tiempo. De igual manera, al mirar un objeto en movimiento que cambia su apariencia; uno de estos movimientos es el de rotación.

(32)

Para un simple movimiento de traslación los datos que representan un objeto son altamente redundantes con respecto al eje de trayecto óptico. Así que de este modo, el eje de trayecto óptico puede ser hallado, generando un código de ganancia cada vez que se observa la presencia de un mismo objeto en movimiento.

La predicción de movimiento significa predecir un bloque de valores de los píxeles en el cuadro siguiente usando un bloque en cuadro actual. La diferencia de la localización entre estos bloques se llama Vector Movimiento, y la diferencia entre dos bloques se llama error de la predicción. En MPEG, el codificador debe calcular los vectores de movimiento y el error en la predicción de los mismos. Cuando el decodificador obtiene esta información, puede utilizarla junto cuadro actual para reconstruir el cuadro siguiente. Llamamos generalmente este proceso como Compensación de Movimiento. En general, la compensación de movimiento es el proceso inverso de la estimación de movimiento. La figura 2.10 ilustra un ejemplo de estimación de movimiento:

Figura 2.10

Estimación de movimiento [12]

El codificador de compensación de movimiento trabaja comparando los macrobloques de luminancia de dos imágenes sucesivas. La figura 2.11 (a) muestra que en un sistema 4:2:0, el espaciamiento vertical de las muestras de croma es exactamente el doble que las muestras de luminancia. Un simple bloque 8x8 de muestras de crominancia se extiende sobre la misma área que 4 bloques 8x8 de luminancia. Por lo tanto, esta es la mínima área que puede ser desplazada por un vector. Un macrobloque 4:2:0 contiene cuatro bloques de luminancia, uno de croma Cr y una de croma Cb. En el perfil 4:2:2, el color es muestreado solo en la dirección horizontal. La figura 2.11 (b) muestra que un bloque de crominancia se extiende sobre la misma área que dos bloques de luminancia. Un macrobloque 4:2:2 contiene 4 bloques de luminancia, dos bloques de Cr y dos bloques de Cb.

(33)

Figura 2.11

a) 4:2:0 tiene 1/4 de información de crominancia en comparación a la luminancia. b) 4:2:2 tiene el doble de información de crominancia que 4:2:0 [2]

Un codificador de compensación de movimiento trabaja de la siguiente forma: Una imagen de referencia es enviada, pero esta es almacenada de tal modo que pueda ser comparada con la siguiente imagen de entrada para encontrar así varios vectores de movimiento, los cuales pueden ser utilizados en diferentes áreas de la imagen. Luego la imagen de referencia es combinada de acuerdo a estos vectores o cancelada a una codificación espacial debido a su no conveniencia. La imagen prevista resultante es comparada con la imagen actual para producir una predicción de error también llamada residual. La predicción de error es transmitida con los vectores de movimiento. En el receptor la imagen de referencia original es también retenida en la memoria, esta es cambiada de acuerdo con los vectores de movimiento transmitidos para crear la imagen prevista y luego la predicción de error es adicionada recreando la imagen original [7].

La predicción basada compensación de movimiento explota la redundancia temporal. Debido a los marcos se relacionan de cerca, es posible representar exactamente o "predecir" los datos de un bloque basado en los datos de la imagen de referencia, con tal que se estime el desplazamiento. El proceso de la predicción ayuda a una reducción de importante de bits.

En los cuadros a predecir, cada macrobloque de 16x16 es calculado por un macrobloque de un cuadro de referencia previamente codificado. En un objeto móvil, los macrobloque en los dos cuadros sucesivos generalmente corresponden a una misma localización espacial. Por lo tanto, una búsqueda se realiza en el cuadro de referencia para encontrar el macrobloque que empareja de cerca el macrobloque bajo consideración en el cuadro a predecir. La diferencia entre los macrobloque es el error de la predicción. Este error se puede

(34)

cifrar en el dominio de la DCT. El DCT del error da lugar a pocos coeficientes de alta frecuencia, que luego del proceso de cuantización requieren un número pequeño de bits para su representación. Las matrices de cuantización para los bloques de predicción de error son diferentes las usadas en el bloque de referencia debido a la naturaleza distinta de su espectro de frecuencia. A los desplazamientos en las direcciones horizontal y vertical del macrobloque que se adaptan mejor se les llama vectores del movimiento. Finalmente se utiliza codificación RLE.

Figura 2.12

Codificador de compensación de movimiento [12]

Existen diferentes algoritmos de búsqueda para estimar el movimiento, éstos varían en función de los cálculos y complejidad requeridos, entre los cuales están [8]:

2.3.1.1 Búsqueda exhaustiva

Es el mejor y más simple procedimiento de búsqueda. Realiza una comparación exhaustiva con todos los bloques que se hallan en el interior del macrobloque, encontrando así los vectores de movimiento óptimos.

Debido al alto coste computacional requerido por este método (demasiado elevado para aplicaciones en tiempo real), a lo largo de las últimas dos décadas se han desarrollado una gran variedad de algoritmos para obtener una estimación mucho más rápida con una distorsión de bloque similar.

(35)

Para reducir el número de operaciones, se puede optar tanto por disminuir el número de posibles candidatos como reducir los cálculos necesarios para cada uno de ellos.

2.3.1.2 Búsqueda en tres pasos (3SS)

Aunque fue diseñado en 1981, se ha convertido en uno de los métodos más populares por su simplicidad y su alto rendimiento. Desde el centro, se comparan los ocho bloques situados en los puntos cardinales a la distancia de un paso y se escoge uno en función del criterio establecido. A continuación, se reduce la longitud del paso a la mitad, y desde el nuevo centro se vuelven a cotejar ocho bloques. Por último, se reduce de nuevo el paso (hasta valer 1 píxel) y se repite el proceso de nuevo.

Figura 2.13

Algoritmo de búsqueda en tres pasos (3SS) [8]

2.3.1.3 Búsqueda logarítmica en 2D (TDL)

Algoritmo diseñado en 1981 y muy parecido al anterior. Consiste en una búsqueda distribuida en etapas donde se va reduciendo la ventana sucesivamente hasta alcanzar el caso trivial. Aunque requiere más pasos que el

(36)

3SS, suele proporcionar mayor precisión. El bloque en el centro de la región de exploración y los cuatro candidatos a un paso de distancia situados en los ejes vertical y horizontal, son comparados con el bloque actual para determinar la mejor coincidencia. Si el bloque escogido es el del centro, la longitud del paso se reduce a la mitad; sino es así, el otro bloque escogido es el nuevo centro y se vuelve a iniciar el proceso.

Cuando la longitud del paso llega a ser 1, los nueve bloques alrededor del centro son cotejados para hallar el requerido.

Figura 2.14

Algoritmo de búsqueda logarítmica en 2D [8]

2.3.1.4 Búsqueda ortogonal (OSA)

Método híbrido basado en los dos anteriores e introducido en 1987. Se inicia el análisis del bloque central y los dos candidatos a ambos lados del eje x, y el que obtiene un valor de distorsión menor se convierte en el centro de la siguiente fase vertical.

Ahora son los dos bloques de encima y debajo, situados en el eje y, los que juntamente con el central son comparados, eligiendo de nuevo el centro de la etapa siguiente. Después de las iteraciones horizontal y vertical, la longitud del paso se reduce a la mitad (siempre que sea mayor que 1) y se repite el proceso nuevamente. Si fuera 1, se detiene y declara a una de las tres posiciones de la fase vertical como el bloque óptimo.

(37)

Figura 2.15

Algoritmo de búsqueda ortogonal [8]

2.3.1.5 Búsqueda cruzada (CSA)

Este algoritmo, introducido en 1990, guarda una cierta similitud con el TDL. El proceso de exploración inicial es casi idéntico; la única diferencia es que los candidatos escogidos constituyen una cruz en forma de ‘x’ en lugar de ‘+’.

La longitud del paso de búsqueda se reduce a la mitad en cada iteración hasta que es igual a 1. En esa última etapa, si el candidato con mínima distorsión se halla en la posición inferior izquierda o superior derecha, la evaluación de los cuatro nuevos bloques seguirá una distribución en cruz ‘+’. De lo contrario, si el escogido se encuentra en el punto superior izquierdo o inferior derecho, la exploración será en forma de ‘x’.

(38)

Figura 2.16

Algoritmo de búsqueda cruzada [8]

2.3.2 Codificación bidireccional

Cuando un objeto se mueve, va ocultando el fondo delante suyo y revelando el fondo que tiene detrás. El fondo revelado, requiere que sean trasmitidos nuevos datos ya que no hay información previa de ese fondo.

MPEG ayuda a minimizar este problema introduciendo la codificación bidireccional, que permite que la imagen actual sea codificada teniendo en cuenta la información de imágenes antes y después de la actual. Sobre una base de macrobloques individuales, una imagen codificada bidireccionalmente puede obtener compensación de movimiento de una imagen anterior o posterior, o aún de un promedio de ambas. La codificación bidireccional reduce la cantidad de datos diferencia, mejorando el grado de predicción posible.

Figura 2.17

Cuando un objeto se mueve oculta el fondo delante suyo y revelando el que tiene detrás [12]

(39)

La figura 2.18 muestra como se referencia la imagen a predecir con los vectores movimiento de los cuadros anterior y posterior, promediando el resultado.

Figura 2.18

Codificación bidireccional [12]

2.3.3 Imágenes I, P y B

En MPEG se hacen necesarios tres tipos de imágenes para soportar la codificación diferencial y bidireccional, mientras se minimiza la propagación del error.

Las imágenes I son codificadas espacialmente y no requieren información adicional para la decodificación. Éstas imágenes generan mucho más cantidad de información que las demás imágenes al ser codificadas y por lo tanto solo se transmiten la cantidad estrictamente necesarias. Consisten primariamente de coeficientes transformados y no tienen vectores. Estas imágenes permiten la conmutación de canales y detienen la propagación del error.

Las imágenes P son predichas hacia delante a partir de una imagen previa que puede ser una imagen I o una P.

Los datos de estas imágenes contienen vectores que indican en que posición de la imagen estaba cada macrobloque y la diferencia que debe ser sumada para reconstruir ese macrobloque. Las imágenes P requieren más o menos la cantidad de datos de las imágenes I.

(40)

Las imágenes B son predichas bidireccionalmente a partir de imágenes anteriores o posteriores I o P. Los datos en éstas imágenes consisten de vectores que indican en que posición de la imagen anterior o posterior deberían ser tomados los datos. También contienen los coeficientes transformados de la diferencia que debe ser sumada para reconstruir el macrobloque. Estas imágenes son las que requieren menos datos para ser creadas.

2.3.4 Grupo de Imágenes (GOP)

Un Grupo de imágenes comienza con una imagen I y tiene imágenes P espaciadas regularmente. Los restantes son imágenes B. El GOP esta definido hasta la última imagen antes de la siguiente imagen I. Un GOP puede tener longitud variable, pero 12 y 15 son los valores más comunes. La configuración del GOP dentro de MPEG esta dada por dos parámetros M y N:

• M es la distancia (en número de imágenes) entre dos imágenes P sucesivas.

• N es la distancia entre dos imágenes I sucesivas.

Figura 2.19

Ejemplo de grupo de imágenes para M=3, N=12 [12]

En este caso, una secuencia de video se compone de 1/12 (8.33%) de imágenes I, 1/4 (25%) de imágenes P y de 2/3 (66.66%) de imágenes B. El factor de compresión global se ve favorecida por el hecho de que son las imágenes más frecuentes las que tienen un factor de compresión más alto.

En la visualización, tras la codificación y decodificación, es evidente que las imágenes de la secuencia de video deben ser reproducidas en el mismo orden en que se captaron. Para codificar o decodificar una imagen B, el codificador y el decodificador necesitarán la imagen I o P que la precede y la imagen P o I que la sigue.

(41)

El orden de las imágenes será, por tanto, modificado antes de la codificación, de forma que el codificador y el decodificador dispongan, antes que las imágenes B, de las imágenes I y/o P necesarias para su tratamiento, como se ve en la figura 2.20.

Figura 2.20

Comparación de las imágenes antes y después de la compresión, mostrando un cambio de secuencia [12]

El aumento del factor de compresión facilitado por las imágenes B se paga, con un tiempo de codificación/decodificación más largo (duración de dos imágenes) y un aumento en el tamaño de la memoria necesaria tanto en el codificador como en el decodificador (hay que almacenar una imagen suplementaria).

La figura 2.21 muestra una curva de calidad constante donde la tasa de bits cambia con el tiempo de codificación. A la izquierda, solamente se utilizan imágenes I o codificación espacial, mientras que a la derecha solo se utilizan imágenes sucesivas IBBP. Esto significa que hay una codificación bidireccional de imágenes entre imágenes de codificación espacial (I) e imágenes previstas (P) [2].

Figura 2.21

Curva de calidad constante [12]

(42)

2 . 4 E L S I S T E M A V I S U A L H U M A N O

La percepción es el primer proceso cognoscitivo, a través del cual los sujetos captan información del entorno. La captación de esta información usa la que está implícita en las energías que llegan a los sistemas sensoriales y que permiten al individuo animal (incluyendo al hombre) formar una representación de la realidad en su entorno. La luz, por ejemplo codifica la información sobre la distribución de la materia-energía en el espacio- tiempo, permitiendo una representación de los objetos en el espacio, su movimiento y la emisión de energía luminosa.

El proceso de la percepción, es de carácter inferencial y constructivo, generando una representación interna de lo que sucede en el exterior al modo de hipótesis. Para ello se usa la información que llega a los receptores y se va analizando paulatinamente así como información que viene de la memoria tanto empírica como genética y que ayuda a la interpretación y a la formación de la representación.

Mediante la percepción, la información recopilada por todos los sentidos se procesa, y se forma la idea de un sólo objeto. Es posible sentir distintas cualidades de un mismo objeto, y mediante la percepción, unirlas, determinar de qué objeto provienen, y determinar a su vez que es un único objeto.

Los sentidos son el mecanismo fisiológico de la percepción. No existe acuerdo firme entre neurólogos sobre el número exacto de sentidos. El desacuerdo también procede de la ausencia de consenso en cuanto a lo que debe ser la definición de un sentido. Aunque todavía enseñan rutinariamente a los niños en la escuela que hay cinco sentidos: vista, oído, tacto, olfato y gusto, clasificación creada inicialmente por Aristóteles.

La visión es la capacidad de detectar la energía electromagnética dentro de la luz visible por el ojo e interpretar por el cerebro la imagen como vista. Existe desacuerdo de si constituye uno, dos o tres sentidos distintos, dado que diversos receptores son responsables de la percepción del color (frecuencia de la luz) y el brillo (energía de la luz). Algunos discuten que la percepción de la profundidad también constituya un sentido, pero se conoce que esto es realmente una función post-sensorial cognitiva derivada de tener visión estereoscópica (dos ojos) y no en una percepción sensorial como tal.

En el ser humano la visión aporta el 80% de la información del medio ambiente, esto se debe en parte a la gran capacidad de procesamiento del cerebro humano. Gran parte de la neocorteza, la parte más sofisticada del cerebro humano, esta relacionada con el procesamiento de información visual, de hecho el sistema de visión se compone de aproximadamente 1.500.000 de fibras contra 200.000 de la audición.

El sistema visual humano esta compuesto por un complejo conjunto de componentes, los cuales a su vez deben considerarse subsistemas debido a su propia complejidad, además se encuentra integrado con los demás