El estándar MPEG7 como punto de partida en la definición de los descriptores visuales

5. MODELO PARA LA EVALUACIÓN OBJETIVA DE LA ESTÉTICA EN LAS INTERFACES

5.1. ETAPA DE ANÁLISIS

5.1.3. Descriptores del modelo

5.1.3.1 El estándar MPEG7 como punto de partida en la definición de los descriptores visuales

Una de las principales organizaciones encargadas de la estandarización de contenidos multimedia es el Moving Picture Coding Experts Group (MPEG) [MPEG]

perteneciente a la organización ISO/IEC (International Organization for

Standarization/International Electrotechnical Commission) [ISO/IEC], cuya máxima

función es la del desarrollo de normas internacionales para la compresión, descompresión, procesamiento y representación codificada de imagen, video, audio, gráficos y sus diferentes combinaciones.

Dentro de los distintos estándares creados por esta organización se encuentra MPEG-7, de importancia clave en este trabajo. Su definición comenzó en 1998 y en 2001 pasó a ser un estándar internacional, siendo formalmente conocido como la interfaz para la descripción de contenido multimedia. En concreto, MPEG-7 se encarga de proporcionar la infraestructura necesaria para la descripción de contenidos multimedia a partir de, por un lado, palabras claves y su significado semántico y, por otro, su información estructural, siendo independiente del formato del contenido. Para ello proporciona un conjunto de descriptores basados en los siguientes aspectos:

- Catálogo: información concreta sobre el contenido como puede ser el título, el creador, los derechos asociados, etc.

- Semántica: información sobre los distintos objetos y eventos que aparecen en el archivo.

- Estructural: información de bajo nivel del contenido, como es el histograma de color, la luminancia, etc.

MPEG-7 está basado en el lenguaje de metadatos XML (eXtensible Markup

Language), aunque utilizado en combinación con un compresor desarrollado para evitar

(Binary Format for MPEG-7). Define, además, una librería multimedia que contiene diversos métodos y soluciones, tal y como se muestra a continuación:

- Conjunto de descriptores (D), cuyo fin es el de representar una característica del contenido de maneta sintáctica y semántica. Se centran en varios aspectos del contenido a analizar: descriptores de color, de textura, de forma, de movimiento y de localización.

- Un conjunto de esquemas de descripción (DS), encargados de especificar la

estructura y semántica de la relación entre los propios esquemas y los descriptores. - Un lenguaje específico (DDL o Description Definition Language), encargado de

especificar esquemas mediante la extensión o modificación de los ya existentes.

- Un conjunto de formas de codificar las descripciones, de especial importancia a la

hora de evaluar requisitos de eficiencia de compresión, acceso aleatorio, etc.

En cuanto a la relación jerárquica existente entre estos elementos, en la siguiente figura se puede ver la misma de forma gráfica:

Figura 11. Relación jerárquica entre los elementos de MPEG-7

Mostrado el esquema general de MPEG-7 se hace necesario apuntar que, dado el ámbito de aplicación, a lo largo de esta tesis sólo se tendrán en cuenta descriptores concretos del color y de la textura, los cuales son ampliamente analizados en la parte 3 del estándar ([ISO/IEC 15938-3]). En concreto, los descriptores contemplados, extraídos a partir de la herramienta descrita en [Bastan et al. 10], son los siguientes [Manjunath et al. 02]:

Dominant Color Descriptor (DCD)

Se trata de un descriptor de color encargado de proporcionar información acerca de los colores más representativos de la imagen, mediante la determinación de los siguientes datos:

- El número total de colores dominantes, con un máximo de 8.

- La coherencia espacial de los mismos, que da un reflejo de su homogeneidad espacial.

- El porcentaje de pixeles asociado a cada uno de los colores detectados.

- Su varianza asociada.

- Su valor en el espacio RGB.

Para su detección se parte de un único clúster cuyo centroide será uno de los colores representativos de la imagen para, posteriormente, comenzar la clasificación del resto de colores hasta que el algoritmo alcance el valor de parada, ya sea el de máximo número de interacciones o el de mínima distorsión. Una vez hecho esto, aquellos grupos que presenten una mayor distorsión serán, a su vez, divididos de nuevo hasta que dicho valor descienda por debajo de un umbral dado, obteniéndose con ello el número final de colores dominantes. En cuanto a la codificación del descriptor, la siguiente tabla muestra los principales valores asociados:

Tabla 6. Codificación del descriptor DCD

Campo Número de bits Significado

NumberofColors 3 Indica el número de colores dominantes SpatialCoherency 5 Valor de la coherencia espacial

Percentage[] 5 Porcentaje normalizado asociado a cada color dominante detectado

ColorVariance[] 1 Varianza de color de cada color dominante Index[] 1-12 Valores de los colores dominantes

Color Layout Descriptor (CLD)

El objetivo de este descriptor es el de proporcionar una representación eficiente de la distribución espacial de la información de color de la imagen analizada, mediante la aplicación de la transformada discreta del coseno (DCT) a los colores de la imagen, previamente dividida en 64 bloques, en el espacio YCrCb. Las etapas concretas a partir de las cuales se obtiene este parámetro son las siguientes:

- División de la imagen: la imagen de entrada, normalmente en el espacio RGB de color, se divide en 64 bloques con el objetivo de garantizar la invariabilidad de la resolución.

- Selección del color más representativo: este paso se ocupa de detectar un único color como representante de cada bloque, utilizando para ello la media de los colores de los pixeles de cada uno. Posteriormente, se realiza la conversión entre los dos espacios de color.

- Transformada DCT: durante este paso tanto la luminancia (Y) como las dos

crominancias (CrCb) son transformadas en 8x8 DCT, obteniéndose con ello tres grupos de 64 coeficientes DCT.

- Exploración en zig-zag: cada matriz de 64 coeficientes es explorada en este sentido, con el fin de detectar los coeficientes de baja frecuencia.

En cuanto a su representación, a continuación se muestra una tabla en la que se indica cómo se codifica su valor:

Tabla 7. Codificación del descriptor CLD

Campo Número de

bits Significado

CoeffidientPattern 1-2 Indica el número de coeficientes de la DCT NumberofYCoeff 3 Número de coeficientes de la DCT para la luminancia NumberofCCoeff 3 Número de coeficientes de la DCT para la crominacia

Ycoeff[] 5-6 Los coeficientes DCT para la luminancia CbCoeff[] 5-6 Los coeficientes DCT para la crominancia Cb CrCoeff[] 5-6 Los coeficientes DCT para la crominancia Cr CoeffidientPattern 1-2 Indica el número de coeficientes de la DCT

Edge Histogram Descriptor (EHD)

Consiste en un descriptor de texturas cuyo objetivo es el de proporcionar la distribución de los bordes de la imagen mediante la definición de los histogramas correspondientes a los bordes presentes en cada una de las 16 subimágenes en que se divide la imagen analizada. Para ello se tendrán en cuenta cinco direcciones distintas de los bordes: horizontal, vertical, 45º, 135º y cualquier otro.

In document Desarrollo de un modelo multivariante para el análisis objetivo de la estética web (página 78-82)