CLASIFICACIÓN DE ESCENAS USANDO MODELOS ESTADÍSTICOS

Una vez tenemos construido el vocabulario visual de la colección de imágenes y hemos asignado a cada descriptor de la imagen la palabra que le corresponde, es posible obte- ner un nivel más de información si utilizamos modelos estadísticos que, convenientemente entrenados, sean capaces de discriminar patrones de distribución entre estas palabras (SVM) o modelos probabilísticos generativos (pLSA) que, de forma totalmente no supervi- sada, detecten aspectos semánticos latentes en nuestro conjunto de imágenes.

Por ejemplo, si en una determinada escena hemos determinado que se encuentran las palabras agua, arena y cielo distribuidas de una forma concreta (cielo en la parte superior, agua en la parte intermedia y arena abajo) podríamos categorizarla como paisaje de playa, o si encontramos coches y edificios, se trataría de una escena urbana. En el caso que nos ocupa de análisis de conjunto de obras de artista abstractas, nuestra esperanza es encon- trar constantes en la obra o aspectos latentes significativos. Pasaremos a comentar con más detalle estos dos posibles modelos de clasificación.

2.3.1 Support Vector Machines (SVM)

Una máquina de vector de soporte (SVM o Support Vector Machines) (Boser, Guyon & Vap- nik, 1992) consiste en un conjunto de algoritmos capaces de analizar datos y reconocer pa-

Figura 2.19. Esquema de SVM. H1 no separa bien las

dos clases, por tanto no sería un buen hiperplano. H2 las separa, pero no es el más indicado, ya que la distancia de los puntos de las clases al plano es muy pequeña. La mejor opción es H3 (rojo) que está

más espaciada de las dos clases. © ZackWeinberg

trones a través del aprendizaje supervisado. Estos métodos son utilizados principalmente en problemas de clasificación.

Una máquina de vector de soporte toma un conjunto de datos y predice, para cada una de estas entradas, a cual de las dos posibles clases pertenece. Mediante el entrenamiento con datos de entrada previamente clasificados, se establece un modelo que separa las dos clases entrantes. Este modelo establece una frontera entre las dos tipologías establecidas, esta se sitúa en el punto en el cual la diferencia entre clases sea la mayor posible y el margen de error sea cero (conjunto de datos separable) o mínimo (conjunto de datos no separable). Se llaman vectores de soporte a los puntos que conforman las dos líneas paralelas al modelo, siendo esta distancia la mayor posible (margen) (Fig. 2.19).

En nuestro caso, una imagen de entrada representada por su vector BoW podría ser cla- sificada empleando SVM (Fig. 2.20). Se implementan los descriptores de histogramas en pirámide PHOW para tener en cuenta la información espacial. Ver apartado 6 del Anexo A para ampliar la información.

2.3.2 Representación de aspectos latentes: Probabilistic Latent Semantic Analysis (pLSA) Quelhas et al. (2005) proporcionan un enfoque mediante Bag-of-Words para modelar escenas visuales en colecciones de imágenes, basado en características locales invariantes y pLSA.

El pLSA es un modelo generativo que proviene del análisis estadístico de textos (Hofmann, 2001). En este tipo de análisis de texto se utiliza para descubrir los temas de un documento mediante su representación como Bag-of-Words. En este caso, hay “imágenes” en lugar de “documentos” y en lugar de “temas” se descubren “categorías de objetos”. De esta forma una imagen que contiene diferentes tipos de objetos se modela como una mezcla de temas.

Este modelo tiene la doble capacidad de generar una representación de escena bajo- dimensional robusta, y también de capturar automáticamente los aspectos significativos de la escena.

Las aplicaciones del pLSA en el análisis estadístico de textos están orientadas a descubrir automáticamente los temas tratados en un documento, tomando como punto de partida la representación BoW de documentos.

La extensión del pLSA hacia el análisis de imágenes pasa por considerar las imágenes como documentos en un vocabulario visual establecido a partir de un proceso de cuanti- zación como se ha señalado anteriormente. El método detectará en las imágenes catego- rías de objetos, patrones formales, de modo que una imagen que contiene varias tipos de objetos se modela como una mezcla de temas (Fig. 2.22).

Vamos a explicar el modelo en términos de imágenes, palabras visuales y aspectos. Dispo- nemos de una colección de imágenes y de un vocabulario de palabras visuales. Podemos resumir las observaciones en una tabla de frecuencias, donde indicamos la frecuencia con que cada palabra visual ocurre en cada imagen .

El pLSA es un modelo estadístico generativo que asocia una variable latente con cada observación, entendiendo por observación la ocurrencia de una palabra visual en una imagen dada. Estas variables, normalmente llamadas aspectos, se utilizan para construir un modelo de probabilidad conjunta sobre las imágenes y las palabras visuales. (Ver detalles en el apartado 4 del Anexo A).

Con el pLSA finalmente obtenemos una nueva representación para las imágenes de la colección basada en la distribución de aspectos (Fig. 2.21). De hecho, también es posible hallar la distribución de aspectos para una imagen cualquiera que no forme parte de la co- lección inicial (Quelhas, Monay, Odobez, Gatica-Perez, Tuytelaars & Van Gool, 2005; Bosch, Zisserman & Muñoz, 2006).

Figura 2.22. El método pLSA captura la co-ocurrencia de palabras visuales entre imágenes.

In document Formas latentes: protocolos de visión artificial para la detección de analogías aplicados a la catalogación y creación artísticas (página 95-98)