Modelo de descriptores fílmicos para la recomendación

5. Análisis y clasificación de contenidos audiovisuales para la recomendación

5.4 Modelo de extracción de características y anotación de vídeos para la

5.4.2 Modelo de descriptores fílmicos para la recomendación

Como afirman Aumont et al. en su Estética del cine [41], el discurso fílmico se articula como un esquema de representación tanto visual como sonora, por lo que los descriptores obtenidos deberían cubrir ambas ramas. Dado que el trabajo de esta tesis se centra en la parte visual, se centra aquí el esfuerzo en una definición más exhaustiva de descriptores; sin embargo, debido a su especial relevancia y su utilidad en la descripción de cierto tipo de obras audiovisuales, también se consideran algunos descriptores de audio de alto nivel.

En el plano visual, Aumont basa su análisis del lenguaje cinematográfico (que a su vez extrapola a todo el lenguaje audiovisual) en tres pilares: la imagen, el movimiento y el

montaje. En esta definición se basa la clasificación de descriptores fílmicos visuales, que junto a los descriptores de audio conforman los cuatro tipos de descriptores analizados en la propuesta de esta tesis:

a) Imagen. Continúa Aumont diciendo que la concepción de la imagen a partir de

la definición de “cuadro” es la que une el cine con otras artes como la pintura o la fotografía, mientras que el movimiento y el montaje aporta su especificidad. La imagen, por lo tanto, se puede describir formalmente en los términos empleados en el apartado anterior, con algunas particularidades técnicas ocasionadas por la dificultad del tratamiento de vídeo respecto al tratamiento de imágenes.

En primer lugar, es importante tener en cuenta la presencia de la luz y del color, para lo que se introducen descriptores de luminosidad de la obra, a través de sus valores de media y varianza, y de color, a través de los valores de saturación y de variedad cromática. Además, presenta un especial interés para la recomendación el hecho de que una obra esté hecha en blanco y negro o en color, ya que en muchas ocasiones esto va más allá de la percepción implícita de un usuario, ya que este expresa un rechazo explícito a ciertas obras por estos motivos, basados en prejuicios. Por esta razón se incluye un descriptor extra,

tasa de blanco y negro, que sería redundante en términos de percepción, pero

que es necesario para caracterizar las preferencias de aquellos que utilizan esta característica como restricción para su consumo de obras audiovisuales.

Por último, existen otras peculiaridades que cobran especial relevancia en la obra cinematográfica, como son el ángulo de la cámara y la escala de plano. En cuanto al ángulo de la cámara, todavía no se encuentran en el estado del arte aproximaciones suficientemente finas como para caracterizar este atributo y, en cualquier caso, la pérdida de eficiencia tendría otras contraindicaciones, por lo que se ha descartado representar esta cualidad. En cuanto a la escala de planos, esto resulta mucho más representativo de diferentes estilos fílmicos, dado que, por ejemplo, numerosos cineastas reniegan del primer plano o minimizan su uso, priorizando el plano general, o en determinadas gramáticas cinematográficas se utilizan escalas muy determinadas (por ejemplo, el plano americano es muy habitual en el cine clásico de Hollywood, mientras que el primer plano es muy utilizado en películas recientes de acción, o en melodramas efectistas de tradición hollywoodiense). El reconocimiento de “cromos” y de diferentes escalas de planos es un tema actualmente tratado en el estado del arte, pero su eficiencia todavía no garantiza un nivel de acierto que permita caracterizar adecuadamente esta cualidad del audiovisual. Sin embargo, se ha encontrado una manera de aproximar la medida de presencia de planos más cortos, como el “plano detalle” o el “primer plano”, o planos más largos, como el “plano general” o el “gran plano general”, que es la medida de la cantidad de información presente en la imagen. Los planos lejanos, habitualmente, aportan una mayor cantidad de información a la imagen (razón por la cual su duración suele ser mayor), mientras que los planos más cercanos suelen contener menos información (que también hace que los cineastas les ajusten una duración menor, ya que el ojo humano necesita menos tiempo para captar menos información). La medida clásica de la cantidad de información en el tratamiento de la señal es la entropía, por lo que se incluye como un descriptor importante de tipo visual.

b) Movimiento. En cuanto al movimiento, Aumont diferencia entre el movimiento

interno al cuadro, que puede venir vamos por el movimiento de los personajes o la traslación de objetos, y el movimiento de cámara, respecto al cual establece, a su vez, tres tipos de movimientos, panorámica, travelling y zoom. Por lo tanto, resulta fundamental diferenciar entre el movimiento de cuadro o de cámara, ya que modifican radicalmente la percepción estética de la obra. Sin embargo, la tipología de movimientos de cámara es algo más transparente a un usuario común. Este usuario, aunque no rechace o se sienta atraído necesariamente por una determinada tipología de movimientos de cámara, sí resulta más sensible a la intensidad y a la complejidad de estos movimientos. Por ejemplo, una película rodada cámara en mano (lo cual provoca el rechazo de algunos espectadores) presentaría altos valores tanto de intensidad como de complejidad de los movimientos de cámara, mientras que una película actual realizada en un gran estudio llevaría asociados grandes movimientos de cámara (en grúas o steadycam), que por lo tanto también darían un alto valor de intensidad, pero que serían mucho más estables y regulares, es decir, con valores más bajos de complejidad. Por su parte, los valores de intensidad permiten diferenciar estilos muy diferentes, como aquellos más austeros de los más efectistas, o los más clásicos de los más actuales. Estas características de intensidad y complejidad, además, están recogidas en la definición de descriptores de movimiento del estándar MPEG-7 [50]. Por lo tanto, el movimiento de los vídeos se caracteriza en el modelo propuesto en esta tesis a través de la medida de la intensidad

media del movimiento de cámara, la varianza de la intensidad del movimiento de cámara, la media de la complejidad del movimiento de cámara, la varianza de la complejidad del movimiento de cámara, la intensidad media del movimiento de cuadro, la varianza de la intensidad del movimiento de cuadro, la media de la complejidad del movimiento de cuadro, y la varianza de la complejidad del movimiento de cuadro.

c) Montaje. Refiriéndose al montaje, Aumont habla de tres funciones principales:

función sintáctica, función semántica y función rítmica.

La función sintáctica es la que resulta más fácilmente cuantificable, ya que simplemente es aquella mediante la cual el montaje, empleando los elementos cinematográficos disponibles, une los distintos fragmentos de materia filmada. Estos elementos son tradicionalmente tres, el corte, el fundido y el encadenado, que equivalen a los signos de puntuación del lenguaje cinematográfico. Todos los planos de que consta un material audiovisual se unen mediante algunos de estos elementos, por lo que, finalmente, para la caracterización del vídeo se procede a la detección de planos, detección de fundidos y detección de

encadenados. El número de cortes sería redundante con los anteriores, por lo

que solo se cuantifica como paso intermedio para la medida de los planos. Del mismo modo, también es necesario cuantificar la duración de los planos para cubrir la función rítmica del montaje. Esta función rítmica, además del descriptor anterior, queda cuantificada representando la manera en que se distribuyen los elementos sintácticos a lo largo del contenido audiovisual, es decir, estableciendo medidas de dispersión como la varianza asociada a cada

La cuantificación de la función semántica, por su parte, debido a las características y restricciones impuestas en los objetivos de la tesis, queda en su mayor parte fuera de las posibilidades de este estudio. Sin embargo, se ha podido realizar una aproximación a través que la narratividad que suele ir asociada a las diferentes escenas y secuencias que estructuran la mayor parte de los contenidos audiovisuales12. La segmentación de secuencias queda totalmente fuera del alcance de la tesis, ya que requiere el uso de elementos semánticos, pero sí es posible realizar una aproximación de la segmentación de escenas, ya que estas se corresponden con la representación de imágenes en un mismo espacio escénico, que puede ser deducido a través de características de bajo nivel de las imágenes, como la luz, el color o las texturas, teniendo en cuenta algunos conceptos de construcción sintáctica audiovisual, tal y como se explica en el apartado 5.4.6 (Capa visual. Descriptores de alto nivel), en la definición formal del atributo correspondiente a la segmentación de escenas. Además, el modelo propuesto permite categorizar las obras fílmicas a partir de los parámetros de las dos teorías de montaje mayoritarias, las correspondientes a Eisenstein [59] y a André Bazin [60], ya que la primero se focaliza (además del montaje ideológico, inabordable según los parámetros tratados) en la función rítmica, y la segunda en la función sintáctica.

d) Audio. Finalmente, y a pesar de que el foco de la tesis está fijado en la parte

visual, se han considerado algunos descriptores de alto nivel relacionados con el audio, debido a su especial interés de cara a la recomendación. A modo de experimento, se consideró establecer los parámetros más representativos de los diversos tipos de narrativa audiovisual empleada en la actualidad y a lo largo del último siglo. Por estas razones, se segmenta el tiempo total de audio entre

tiempo de habla, que corresponde a aquel en el que existe habla (ya sea por

parte de los personajes o de una voz over), aquel en el que existe silencio, o aquel en el que se produce algún otro efecto sonoro, ya se trate de banda sonora o sonidos extradiegéticos, o de efectos sonoros correspondientes a la acción. Hubiera sido interesante haber podido distinguir entre estos dos últimos tipos, sonido y banda sonora mayoritariamente, pero después de realizar pruebas con la últimas herramientas de tratamiento de audio empleadas mayoritariamente en el estado del arte, se determinó que el funcionamiento no era suficientemente preciso.

Por último, es necesario señalar que la caracterización de ciertos descriptores, especialmente entre los de montaje y movimiento, a partir de los valores de media y varianza fue decidido después de comprobar, en vídeos de una duración mínima (todos los vídeos considerados en el corpus tienen una duración superior a la hora), que los valores de esos descriptores seguían distribuciones gaussianas o que se podían

12_{La mayor parte de la producción audiovisual actual y del pasado, como afirma Aumont, tiene carácter}

narrativo, aunque se trate de una narratividad suave. La gran mayoría de la producción audiovisual tiene carácter figurativo, lo cual siempre lleva implícito un cierto concepto de narratividad, por lo que el cine no narrativo solo pertenecen algunas obras muy específicas de cineastas underground o de vanguardia como Stan Brackage, Michael Snow o Werner Nekes, quienes tienen como propósito, precisamente, articular reflexiones críticas acerca de conceptos clave del lenguaje audiovisual, como la ficción, el dispositivo, etc.

aproximar por gaussianas. Esto se determinó aplicando pruebas de contraste de hipótesis de normalidad, siguiendo el algoritmo de Kolmogorov-Smirnov, que se describe en el apartado de pruebas y validación de este mismo capítulo. Por lo tanto, una caracterización completa es posible mediante el uso de los parámetros media y varianza.

In document Modelado de sistemas multimedia para personalización y recomendación híbrida a partir del consumo audiovisual de los usuarios (página 107-111)