ISO MPEG - Est´ andares de anotaci´ on de metadatos

2.5. Est´ andares de anotaci´ on de metadatos

2.5.3. ISO MPEG

El grupo MPEG (Moving Pictures Expert Group), creador de los estándares más utilizados para la compresión, encapsulamiento y transmisión de contenido multimedia, ha dedicado en los últimos años un gran esfuerzo a la creación de un estándar de anotación multimedia que cumpla con estos requisitos. El trabajo del grupo MPEG pertenece a los estándares de la ISO (International Standards Organization) y se encuentra divido en dos bloques: MPEG-7 y MPEG-21. El estándar de anotación MPEG ha sido elegido para los desarrollos presentados en esta tesis, y en esta sección se detallan sus caracter´ısticas.

Introducci´on

El estándar MPEG-7 se incluye dentro de los estándares aprobados por la ISO [78] y la IEC (International Electrotechnical Commission). El estándar tiene el sobrenombre de ”Interfaz de descripción del contenido multimedia”. Su función es definir una representación estandarizada de metadatos multimedia, usando como base para ello el lenguaje XML [39]. MPEG-7 permite describir el contenido multimedia a varios niveles, incluyendo caracter´ısti- cas bajo nivel, estructura, datos semánticos, etc. El objetivo es ofrecer un sistema de metadatos que permita interaccionar a varias aplicaciones y que esté diseñado para permitir un eficiente indexado, búsqueda y filtrado de contenido multimedia.

MPEG-7 se diferencia de manera muy importante del resto de estándares propuestos por el grupo MPEG [21]. Los estándares de este grupo han ido cambiando su objetivo a lo largo del tiempo. Los primeros, MPEG-1, MPEG-2 y MPEG-4, se encaminaban a la creación de métodos de compresión, codificación y transmisión del contenido multimedia. MPEG-7, por el contrario, tiene como objetivo la indexación, búsqueda, filtrado, gestión y navegación del contenido as´ı como la descripción de metadatos relacionados con la adquisición, edición y otros eventos del ciclo de vida del contenido multimedia. Los metadatos soportados abarcan incluso la descripción de aspectos semánticos, que permiten la creación de servicios multimedia inteligentes y personalización de contenidos (por ejemplo, descripción de escenas, objetos, eventos, personas, lugares, rostros, etc). MPEG-7 ofrece un conjunto de metadatos suficiente para describir con riqueza escenas del mundo real incluidas en el contenido. El estándar MPEG-21 se encarga de complementar los metadatos con información que permita cumplir los requisitos de las aplicaciones de transacción de elementos multimedia protegiendo los derechos de autor asociados a éstos [44]. La descripción de MPEG-21 se realizará al final de esta sección, como una extensión de MPEG-7.

El est´andar MPEG-7

El est´andar se ha divido en varias partes que especifican aspectos diferentes del contenido de ´este:

Parte 1 – Sistemas (Systems) [90]: especifica las herramientas para preparar las descripciones para su eficiente transmisión y almacenamiento, con especial atención a la sincronización entre contenido y descripciones [165].

Parte 2 – Lenguaje de Definición de Descripciones (DDL) [91]: especifica el lenguaje usado para definir las herramientas de descripción que ofrece el estándar (DSs, Ds, y tipos de datos). Permite la creación de nuevas herramientas de descripción.

Parte 3 – Visual [92]: especifica las herramientas de descripción de contenido visual. Parte 4 – Audio [93]: especifica las herramientas de descripción de contenido auditivo. Parte 5 – Esquemas de descripción multimedia [94]: especifica las herramientas de descripción genérica de alto nivel de toda clase de contenido multimedia.

Parte 6 – Software de referencia [95]: ofrece una implementación software de referencia del estándar. El objetivo es la generación de descripciones válidas, quedando el rendimiento relegado a un segundo plano. Incluye componentes en cuatro categor´ıas: analizador DDL, descriptores visuales, descriptores auditivos y esquemas de descripción multimedia.

Parte 7 – Aprobaci´on [96]: especifica los procesos para aprobar las implementaciones del est´andar.

Parte 8 – Extracción y uso [97]: ofrece ejemplos de la extracción y uso de descripciones. Parte 9 – Perfiles: ofrece perfiles de aplicación, conjuntos de descriptores de frecuente uso en ciertos dominios.

Parte 10 – Definici´on de esquemas: recoge todas los esquemas que definen a los elementos del est´andar, utilizando DDL.

Parte 11 – Esquemas de perfiles: recoge los esquemas que definen a los perfiles de descriptores.

Elementos b´asicos del est´andar

El estándar se apoya sobre unos elementos básicos, cuya definición se aborda a continua- ción:

Lenguaje de Definición de Descripciones (DDL), es el lenguaje especificado por MPEG- 7 para definir la sintaxis de Descriptores (D) y Esquemas de descripción (DS). Está ba- sado en el lenguaje XML Schema [41], un estándar del W3C que permite definir la sintaxis que deben cumplir un grupo de documentos XML para ser compatibles con una determinada especificación.

Esquemas de descripción (DS), permiten la construcción de descriptores complejos mediante la especificación de la estructura y semántica de las relaciones entre los elementos que la constituyen: otros DSs y Ds. Los DSs pueden ser vistos como una librer´ıa de herramientas de descripción de la que las aplicaciones seleccionan el subconjunto más adecuado para su función.

Descriptores (D), son herramientas definidas mediante DDL que permiten describir la sintaxis y semántica de caracter´ısticas del contenido multimedia. Al nivel más bajo, se encuentran los descriptores de forma, movimiento, textura, color, . . . , que pueden ser extra´ıdos automáticamente en la mayor´ıa de casos. A más alto nivel, se encuentran descriptores de eventos, conceptos abstractos, género, . . . , que requieren intervención humana. La diferencia entre descriptores (D) y esquemas de descripción (DS) es que los primeros se centran en la descripción de una caracter´ıstica del contenido, mientras que los últimos tratan con la estructura de la descripción [136].

Caracter´ısticas, son elementos distintivos del contenido multimedia que tienen signi- ficado para el observador, como por ejemplo el ”color” o ”textura” de una imagen. Las caracter´ısticas est´an contenidas en el contenido y son descritas por descriptores. Por ejemplo, el color de una imagen es descrito, entre otros, por el descriptor

ScalableColor D.

Datos, son la representación del contenido multimedia en una manera que permita su transmisión, interpretación y procesado de manera automática.

El estándar MPEG-7 ofrece el DDL y una definición de DSs y Ds para la descripción del contenido en el caso general. Además, MPEG-7 permite ser extendido mediante el uso de DDL definiendo nuevos DSs y Ds apropiados al dominio de aplicación en el que se desea emplear. Utilizando estos elementos, el objetivo es la creación de descripciones en las que es posible anotar todos los metadatos requeridos por la aplicación. La relación entre estos elementos básicos se muestra gráficamente en la figura 1.7.

En las siguientes secciones se profundiza en la descripción de todos estos elementos base sobre los que se apoya el estándar de anotación de MPEG.

Lenguaje de definici´on de descripciones

El lenguaje de definición de descripciones (desde ahora DDL, del inglésDescription Defi- nition Language) se usa para definir la sintaxis de las herramientas de descripción de MPEG-7 y está implementado como una extensión sobre el lenguaje XML Schema [41] de definición de sintaxis para documentos XML [39]. La definición delXML Schema es bastante extensa y puede encontrarse en [10, 194].

El DDL, según los requisitos de MPEG-7 [63], debe ser capaz de expresar relaciones estructurales, de herencia, espaciales, temporales y conceptuales entre los elementos de DSs. Debe ofrecer un modelo de enlazado y referencia entre una o más descripciones y los datos que describen. Debe ser también independiente de la plataforma, con posibilidad de ser tratado informáticamente y lo más legible posible para las personas. La mayor´ıa de éstos requisitos están cubiertos de antemano por el lenguajeXML Schema, por lo que se tomó como base para la construcción del nuevo DDL. Las limitaciones deXML Schema vienen derivadas del hecho de que no fue concebido para la definición de contenido multimedia. Por lo tanto, el DDL se definió como un conjunto de extensiones al estándarXML Schema.

Description Definition Language (DDL) D1 D4 D7 D2 D6 D3 D5 D1 D2 D5 D3 D4 Definición Definición DS1 DS2 DS3 DS4 Estructura Descriptors (D)

Representación de características Description Schemes (DS)

Figura 2.7: Elementos b´asicos del est´andar MPEG-7.

Extensiones espec´ıficas de MPEG-7 Las extensiones que añade MPEG-7 son bastante simples, pero imprescindibles para la correcta definición del estándar. En primer lugar, se añaden dos nuevos tipos de datos básicos.XML Schemadefine un conjunto amplio y genérico de tipos de datos, que abarca desde strings (cadenas de caracteres) hasta tipos numéricos (float, decimal) y lógicos (boolean). También se incluyen en los tipos ofrecidos listas y uniones. MPEG-7 añade a éstos los tipos array (unidimensional) y matrix (multidimensional). En segundo lugar, se añaden lasreferencias tipadas como una manera de chequear el tipo de elemento al que se hace referencia. El tipo del elemento referenciado puede ser bien el exigido o bien uno derivado por herencia del éste. Por último, se han añadido una serie de tipos derivados a partir de tipos incluidos en XML Schema [83].

DDL en la práctica Con el objetivo de facilitar la comprensión de los siguientes puntos de esta sección, se proporciona a continuación un breve ejemplo explicado del uso del DDL para la definición de un tipo de dato. El siguiente fragmento de código corresponde a la definición del tipo StructuredAnnotation, ofrecido por MPEG-7 para realizar anotaciones textuales de manera estructurada (i.e. respondiendo a un conjunto de preguntas preestablecido):

</sequence>

En ella se declara el tipo como compuesto de siete elementos. Cada elemento puede aparecer un m´ınimo de 0 veces (minOccurs=”0”), siendo por tanto opcional el incluir cualquiera de ellos. Por otro lado, cada elemento puede aparecer un número indefinido de veces (maxOc- curs=”unbounded”). Además de los elementos, el tipo StructuredAnnotationpuede llevar un atributo (opcional) que defina la lengua en la que están realizadas las anotaciones.

El tipo StructuredAnnotation se utiliza para describir información acerca de quién, qué objeto, qué acción, dónde y cuándo en relación al elemento multimedia que se describe. Para describir realmente esta información, se crea una instancia del esquema mostrado anteriormente:

<Name xml:lang=¨en¨>Carlos</Name> </Who>

<Who>

<Name xml:lang=¨en¨>Una pelota </Name> </WhatObject>

<Name xml:lang=¨en¨>Carlos lanzo una pelota a Luis.

</WhatAction> <WhatAction>

<Name xml:lang=¨en¨>Luis coge la pelota con la mano.</Name> </WhatAction>

</StructuredAnnotation>

Esquemas de descripci´on multimedia

Figura 2.8: Vista general de los MDS definidos en MPEG-7.

Los esquemas de descripción multimedia (desde ahora MDS, del inglésMultimedia Des- cription Schemes) especifican las herramientas de descripción genérica de contenido multimedia. Se dividen en seis grandes grupos, como muestra la figura 1.8:

Elementos básicos ofrecen una variedad de herramientas para asistir en las tareas de formación, archivado y anotación de descripciones MPEG-7. A partir de éstos se construyen herramientas de descripción más complejas. Los siguientes elementos básicos están definidos: Herramientas de esquema: Una descripción MPEG-7 comienza siempre con un elemento ra´ız que determina si la descripción que sigue es completa (incluye toda la información requerida y existe de manera autónoma) o bien es parcial (conteniendo parte de la infor- mación que, unida a otras descripciones parciales, forma una completa). Directamente tras el elemento ra´ız se encuentran los elementos de alto nivel. Éstos permiten orientar

la descripción a una determinada tarea, como a la descripción de un determinado tipo de contenido multimedia o bien a alguna función relativa a la gestión del contenido (creación, uso, resumen, . . . ). Existen varios elementos de alto nivel cuya utilización conjunta permite orientar la descripción a propósitos particulares.

Tipos de dato b´asicos: como enteros, reales, vectores, matrices, etc. Usados por todas las herramientas de descripci´on.

Herramientas de localizaci´on y enlace multimedia: especifica los tipos b´asicos usados para hacer referencias entre descripciones y enlazar descripciones al contenido multimedia.

Herramientas de descripción básica: especifica las herramientas básicas que son usadas para describir tiempo, lugares, personas, grupos u organizaciones, . . . .

Herramientas de gestión del contenido Permiten describir la información relativa a la Creación: describe la creación (t´ıtulo, anotaciones textuales e información acerca de los creadores, los lugares de creación y fechas, . . . ) y la clasificación (género, materia, propósito, lengua, . . . ). También se utiliza para describir la clasificación por edades y control paterno.

Medio: describe el medio en la que se almacena el contenido (formato, compresión, codificación, . . . ). Permite definir unmaster, la fuente original de la que se derivan las diferentes instancias que se producen del mismo contenido, y que se conocen con el nombre de variaciones. Cada variación se describe individualmente, especificando sus parámetros de compresión, almacenamiento y localización.

Uso: describe los derechos y registro de uso del contenido. La información sobre los derechos no está expl´ıcitamente incluida en MPEG-7, sino que se ofrecen enlaces a los responsables de éstos. El registro de uso y disponibilidad guarda información acerca de los usos que se han realizado del contenido, por cualquier clase de canal. También se incluye información económica, sobre los costes de producción y beneficios resultantes del uso. Esta información tiene un carácter eminentemente dinámico, cambiando a lo largo del ciclo de vida del contenido.

Herramientas de descripción del contenido MPEG-7 permite la descripción del contenido desde el punto de vista estructural y semántico. La descripción estructural mira al contenido en términos de segmentos de v´ıdeo, fotogramas, regiones estáticas y móviles. La descripción estructural describe objetos, eventos, nociones.

Descripción estructural: el DS más importante dentro de éste grupo es Segment DS, que constituye la base para todo tipo de segmentos espaciales (regiones), temporales y espacio-temporales.Segment DSpuede describir una partición del contenido jerárquica (también llamada recursiva) en segmentos, formando una estructura de árbol como

Video Completo

tiempo

Escena 1 Escena 2 E 3

Toma 1 Toma 2

Figura 2.9: Descripci´on estructural de un v´ıdeo completo. Se pueden especificar sus escenas y tomas de manera jer´arquica. Cada segmento encapsula un conjunto de descriptores que describen a los elementos contenidos en cada uno de ellos.

Segmento temporal compuesto por tres componentes conexas. Podría, por ejemplo, definir las partes más relevantes de un vídeo.

tiempo

Segmento espacial compuesto por una componente conexa

Segmento espacial compuesto por tres componentes conexas

Figura 2.10: Los segmentos definidos tanto en el espacio como en el tiempo, pueden ser conexos, o bien constar de varias componentes conexas. La figura muestra la flexibilidad de MPEG-7 a la hora de definir segmentos.

se muestra en la figura 1.9. Segment DS es un ente abstracto; MPEG-7 ofrece varias implementaciones de ´este:VideoSegment DS(descripci´on de segmentos de v´ıdeo),

StillRegion DS (descripción de segmentos espaciales en una imagen o fotograma), etc. Los segmentos se definen de una manera muy flexible, como se ilustra en la figura 1.10. En cualquier caso, la partición obtenida utilizando estas herramientas puede llevar asociado un grupo de Descriptores, que estar´ıan asociados a todos los elementos que forman parte del segmento. Un determinado elemento del contenido queda descri- to, de esta manera, por la unión de los descriptores asociados a todos los segmentos a los que pertenece, siendo posible pertenecer a varios mediante el uso de una jerarqu´ıa de segmentos y subsegmentos. Por ejemplo, en la figura 1.9 se muestra un segmento temporal que engloba todo un v´ıdeo y que, a su vez, se subdivide en varios subsegmentos, de manera que se le puedan asociar descriptores a cada toma. Cada fotograma tendr´ıa asociados dos conjuntos de descriptores, los asociados al segmento global y los asociados a la toma a la que pertenece.

Descripción semántica: se propone como una alternativa a la hora de describir el contenido. El DS fundamental que se utiliza esSemantic DS. El énfasis no se pone en los segmentos, sino en objetos, eventos, lugares, tiempo, . . . . En la figura 1.11 se muestra un esquema de los DSs disponibles para describir un contenido. Se utiliza el concepto deNarrative Worldpara referirse a la ”realidad” en la que la descripción tiene sentido. Esta realidad puede ser la directamente mostrada por al grabación a la que está asocia- da, pero MPEG-7 permite la creación de descripciones abstractas que representan una generalidad de realidades. La abstracción de realidad puede aplicarse, de esta manera, a varias grabaciones siempre que éstas se adapten a las caracter´ısticas de la abstrac- ción. UnNarrative World se describe medianteSemantic DS e incluye cualquiera de los DSs que se muestran en la figura. En el ejemplo mostrado en la figura 1.12 se muestra el uso y las posibilidades de la descripción semántica. Para ello se utilizan dos

AgentObject DS, que representan a los protagonistas de la acción, unEvent DS, que representa la acción que se lleva a cabo (darse la mano), unSemanticPlace DS, que representa el lugar donde se desarrolla el evento, unSemanticTime DS, que representa la fecha y hora en la que sucede el evento y unConcept DS, que representa el concepto expresado por el evento (camarader´ıa). Utilizando estos grafos de relaciones semánticas, MPEG-7 permite también la creación de abstracciones, es decir, descripciones semánti- cas que no están asociadas a un elemento concreto y que por tanto son válidas para una generalidad. En el caso de la figura 1.12, se permite dejar el grafo en función de los dos objetos agentes (protagonistas), siendo por tanto válido para cualquier par de personas que se dan la mano.

Las herramientas de descripción estructural y semántica permiten crear descripciones mixtas. Por ejemplo, se puede asociar una descripción semántica a una determinada región de una imagen o a una secuencia de v´ıdeo. La situación contraria también se puede dar. Como se muestra en la figura 1.12, los agentes participantes en el evento tienen una representación en la imagen, obtenida a partir de una partición espacial de ésta. Las descripciones estructurales y semánticas no son, por tanto, excluyentes sino complementarias. La descripción MPEG-7

In document Arquitectura paralela para el procesamiento y análisis de vídeo digital utilizando anotación MPEG-21. Aplicaciones implantadas (página 64-95)