REPRESENTACIÓN DE LA IMAGEN - Formas latentes: protocolos de visión artificial para la detecció

La representación de la imagen digital es un elemento clave para su clasificación, anota- ción, segmentación o recuperación. Casi todos los métodos de visión por computador, cuando se enfrentan al problema del análisis del contenido de una imagen, recurren a funciones adecuadas para describirlo de forma compacta. Este sería el caso de los procedimientos basados en características locales que producen una representación de la imagen versátil y sólida capaz de mostrar el contenido global y local al mismo tiempo, y a la vez hacen robusta la descripción ante la oclusión parcial de objetos contenidos y la transfor- mación de la propia imagen.

En visión artificial existen muchas formas de representar el contenido de una imagen. Se podría decir que existen tres métodos principales:

1- Los procedimientos que extraen directamente características de bajo nivel de las imá- genes.

2- Los métodos que utilizan una representación semántica de la imagen.

3- Los métodos que utilizan regiones locales como representación de la imagen. 2.1.1 Modelos de representación de la imagen de bajo nivel

Estos modelos representan las imágenes usando características de bajo nivel como textu- ras, bordes o histogramas de color. Por ejemplo; la presencia de rectas y bordes verticales- horizontales puede ser un indicio de que se trata de una escena urbana, o si la imagen con- tiene mucho color azul, puede que se trate de un paisaje de mar. En el método se pueden a su vez distinguir dos planteamientos:

Figura 2.1. Ejemplo de representación de imagen mediante el uso de características de bajo nivel, por ejemplo, un histograma de color. (a) representación de la imagen global y (b) la representación local de la imagen mediante el uso de un histograma de color en cada sub-bloque. (Bosch, 2007)

a)- Representaciones globales (Fig. 2.1.a), donde las características de bajo nivel se calcu- lan sobre la toda la imagen. Debido a la complejidad del contenido visual, en los sistemas de clasificación se suelen obtener mejores rendimientos utilizando varias características globales combinadas.

b)- Representaciones locales (Fig. 2.1.b), donde la imagen se divide primero en varios blo- ques, y después se extraen las características de cada uno de ellos. El sistema de clasifica- ción obtiene primero una categoría para cada bloque y posteriormente estos resultados se combinan para obtener una categoría total de la imagen. La principal ventaja de estos métodos es que proporcionan una representación de la imagen muy simple. El principal inconveniente es que, si las imágenes tienen un notable desorden o hay mucha variabili- dad intra-clase, esta representación no es suficiente para discriminar entre diferentes ca- tegorías.

2.1.2 Representación semántica de la imagen

Podemos distinguir entre dos modelos:

a)- Modelos globales: Se realiza la descripción semántica utilizando las propiedades esta- dísticas del total de la imagen. Introducen un nivel semántico intermedio relacionado con configuraciones globales y estructura de la imagen. Por tanto la imagen se describe por las propiedades visuales, que son compartidas por las imágenes de una misma categoría. Oliva y Torralba (2001) propusieron un modelo computacional para el reconocimiento de escenas del mundo real (4 escenas naturales y 4 escenas artificiales). El procedimientos se basa en cinco cualidades perceptivas: el carácter natural (se refiere a que esté construido por el hombre), la apertura (se refiere a la presencia de una línea de horizonte), rugosidad (complejidad fractal), la expansión (perspectiva en escenas construidas por el hombre) y la desviación del horizonte en escenarios naturales. El modelo genera un espacio multidi- mensional en el que las escenas que comparten la pertenencia a categorías semánticas se proyectan juntas (Fig. 2.2).

b)- Modelos locales: El contenido semántico local de las imágenes puede ser utilizado como una representación intermedia para la clasificación de imágenes que permita hacer frente a la brecha entre las características de bajo y de alto nivel. Estos métodos se basan principalmente en la localización inicial de las diferentes regiones de la imagen (Fig. 2.3). Entonces se utilizan clasificadores locales para etiquetar estas regiones como pertenecien- tes a una determinada clase de objeto (por ejemplo, cielo, gente, piedra). A veces se introducen también algunas relaciones espaciales entre los objetos de las imágenes (por ejemplo, el cielo está por encima de una montaña o los ojos están por encima de la nariz). Finalmente se clasifica la imagen global en función de esta información local. Reciente- mente se han propuesto diferentes formas de llevar a cabo esta estrategia.

1b- Mojsilovic, Gomes, y Rogowitz (2002) inicialmente segmentan la imagen en base a la información de color y textura para encontrar los indicadores semánticos (por ejemplo, la piel, cielo, agua). A continuación, se utilizan estos objetos para identificar las categorías

Figura 2.2. Representación semántica usando modelos globales. Organización de entornos artificiales de acuerdo con los grados de apertura y expansión. (Oliva & Torralba, 2001).

Figura 2.3. Esquema de representación semántica usando modelo locales (Bosch, 2007).

Figura 2.4. Visión general del enfoque de Vogel y Schiele (2007) semánticas (por ejemplo, personas, coches, paisajes).

2b- Barnard, Duygulu, Forsyth, Freitas, Blei y Jordan (2003): presentan una aproxi- mación para modelar conjuntos de datos, centrándose en el caso específico de imágenes segmentadas con texto asociado. Consideran en detalle la predicción de palabras asociadas con las imágenes completas (auto-anotación) y que corres- ponden a áreas de imagen particulares (región de nomenclatura).

3b- Vogel y Schiele (2007), en contraste con los métodos anteriores que inicialmente segmentan la imagen, ellos trazan una cuadrícula espacial que la divide en subregiones regulares. La técnica utiliza el color y la textura para realizar clasificación de paisajes y recuperación de imágenes basada en un sistema de dos etapas; en primer lugar, la imagen se divide en subregiones de 10 x 10 y cada una se clasifica. El sistema puede aprender para cada categoría de la escena una representación prototípica. En una segunda fase se lleva a cabo la clasificación de imágenes a par- tir de estos prototipos. (Fig. 2.4)

La principal ventaja de estos métodos es que utilizan significados humanos para clasificar primero los objetos y después la imagen. Son bastante discriminativos y se han aplicado para clasificar imágenes en un mayor número de categorías que con los métodos de bajo nivel. El principal inconveniente es que la mayoría de ellos se basan en la inicial segmentación de la imagen y esto puede causar algu- nos problemas cuando se trabaja con imágenes complejas, ya que, si el método de segmentación no es exacto, se puede fusionar algunas partes de los objetos y provocar una descripción de la imagen errónea.

Además, Thorpe, Fize, & Marlot en 1996 encontraron que los humanos son capaces de categorizar de forma muy rápida imágenes naturales complejas que contienen animales o vehículos. Fei-Fei, VanRullen, Koch & Perona en 2002 mostraron que se necesita poca o ninguna atención para esta rápida categorización de imágenes naturales. Por tanto, según Bosch (2007) ambos estudios plantean un serio desafío a la opinión actualmente aceptada de que para entender el contexto de una escena

compleja, es necesario primero reconocer los objetos para después reconocer la categoría de la imagen (Treisman & Gelade, 1980).

2.1.3 Representación de la imagen por patches locales

En este caso las imágenes se representan por cientos de patches locales. Utilizan un de- tector de región para encontrar un conjunto de zonas características de la imagen y luego las representan mediante algún tipo de descriptor. El modelo Bag-of-Words constituye una exitosa representación de este tipo.

In document Formas latentes: protocolos de visión artificial para la detección de analogías aplicados a la catalogación y creación artísticas (página 79-83)