Redes Neuronales - Recuperación de información visual

Los modelos de redes neuronales artificiales, se conocen como sistemas conex- ionistas o modelos de procesamiento distribuido paralelo. Estos se diferen- cian unos de otros principalmente por el patrón de interconexión que hay entre las neuronas y por la regla de aprendizaje que se use en la red. En estos modelos la unidad de procesamiento básica son las neuronas.

El diagrama de una neurona artificial se muestra en la figura 4.3.

Este es el modelo de red neuronal más simple y es el que propuso McCul- loch y Pitts, el cual tiene un vector de entradas X, que se multiplica por un vector de pesosW. Con esto la señal de entrada se ve atenuada o incre- mentada en un factor w. El producto escalar entre estos 2 vectores X·W en el cuerpo o núcleo de la neurona artificial, es el argumento de la función f(X·W) de activación de la neurona. De acuerdo a lo anterior, se puede considerar los siguientes casos:

• Sif(X·W)> θ entonces la neurona se activa.

• En caso contrario la neurona no se activa.

Figura 4.3: Modelo de neurona artificial

Si la neurona se dispara transmite el valor de f(X·W) a través de su axón y cuando otra(s) neuronas reciben esta señal se establece una sinapsis entre ellas.

Mas tarde Hebb introdujo una regla de aprendizaje mediante reforzamiento (aprendizaje no supervisado).

El primer modelo neuronal de una capa de entrada y una capa de salida que utiliza una regla de aprendizaje supervisado, es el Perceptrón, el cual solo puede resolver problemas de clasificación linealmente separables. Esto quiere decir, que los patrones de entrada solo se clasifican como pertenecientes a dos clases, por ejemplo la clase A y la clase B, si se trabaja en una repre- sentación de dos dimensiones. Un problema linealmente separable es aquel en el que los patrones de la clase A y los patrones de la clase B son separa- dos por una l´ınea recta. En la figura 4.4 se muestra un ejemplo de clases linealmente separables y linealmente no separables.

Un tipo de red multicapa que puede clasificar en 2 o m´as clases los patrones de entrada, es la red backpropagation. Este tipo de red es la que se muestra en la figura 4.6.

Como se observa el patrón de interconexión entre las neuronas es fully- connected y las conexiones van de la neurona del estrato i al estrato i+1, por lo que se trata de una conexión feedforward. La función de activación que se utiliza en cada una de las neuronas es la función sigmoide, y el ar-

Figura 4.4: Ejemplos de clases linealmente separables y linealmente no separables

Figura 4.6: Red backpropagation

gumento de la misma es el producto escalar del vector de entradasX de la neurona con el vector de pesos W de la misma. Como resuelve problemas de clasificaci´on, se dice que utiliza un aprendizaje supervisado.

El número de neuronas en la capa de entrada es igual al número de componentes que forman el vector de entradaX y el número de neuronas en la capa de salida es igual al número de clases que se van a clasificar. Este tipo de red puede tener más de una capa oculta.

La función de activación es la función sigmoide (figura 4.7) la cual es difer- enciable y se define de la siguiente forma:

fn(x) = (1 +exp(−X·W))−1

donde:

• f(x) es la salida de la neurona n.

• Xes el vector de entradas de la neurona n.

• W es el vector de pesos de la neurona n.

La manera en que se entrena a la red neuronal, es utilizando un método de aprendizaje que hace uso de la retropropagación de errores. El algoritmo de retropropagación es en general un algoritmo de descenso de gradiente que busca el m´ınimo de la función de error. Ya que este método requiere que para cada peso se calcule el gradiente de la función de error, se debe garan- tizar continuidad y diferenciabilidad de la función de error. Esto conlleva al uso de una función de activación ya que la composición de funciones de producto de interconexión de neuronas es discontinua y por ende la función de error también.

Figura 4.7: Funci´on Sigmoide

El problema de aprendizaje consiste en encontrar la combinación óptima de pesos que mapean un conjunto de entrenamiento de entrada a una salida deseada. Estos son los llamados patrones de entrada y de salida. Cuando el patrón de entradaXi (donde i es la dimensión del conjunto de entrenamien-

to) se le introduce a la red, esta produce una salidaOi diferente de la salida

deseadati . Lo que se desea hacer es queOi sea igual a ti , que equivale a

minimizar la funci´on de error de la red definida como: E = 1 2 muestras X i=1 kOi−ti k2

Después de minimizar esta función para el conjunto de entrenamiento, se espera que la red haya aprendido y para un conjunto de entradas de datos, la red debe reconocer cuando es similar a algún patrón aprendido y producir una salida similar.

El algoritmo de Retropropagación es utilizado para encontrar un m´ınimo local de la función de error. La red neuronal es inicializada con pesos aleato- riamente entre -1 y 1. La forma de corregir los pesos gradualmente a los m´ınimos locales encontrados es obteniendo el gradiente de la función de error para cada entrada en el entrenamiento de la red.

A continuaci´on se describe el algoritmo de entrenamiento Paso 1. Inicializaci´on.

• Seleccionar los valores aleatorios de los pesos de la red, en este caso los valores oscilan en el rango de -1 a 1.

•Inicializar Contador =0.

•Inicializar el factor de aprendizaje alpha=0.01. Paso 2. Clasificaci´on

•Incrementar el Contador.

•Activar el estrato de entrada de la red con un patr´on de la muestra.

•Propagar la activaci´on por toda la red hasta obtener la salida. Paso 3. Aprendizaje.

•Calcular el valorψpara todas las neuronas de la última capa (este cálculo es posible ya que se cuenta con toda la información que se requiere).

•Calcular el valorψpara todas las neuronas de las capas inferiores a la capa de salida guardando la relaci´on de orden descendente respecto al ´ındice del estrato.

• Calcular los ∆W_ij1 para todas las neuronas de los estratos ocultos y de salida. Este c´alculo puede ser efectuado ya que se poseen todos los valores de ψy todos los valores de O1_i.

•Actualizar los pesos de las conexiones utilizando los ∆W_ij1. Paso 4. Criterio de parada.

• Evaluar el criterio de parada. Si este se cumple, entonces detener el entrenamiento. De lo contrario, regresar al paso 2.

El criterio de parada puede ser que la red neuronal se ejecute un n´umero finito de iteraciones o hasta que haya clasificado correctamente todos los patrones de entrenamiento.

Topolog´ıa de la Red

• Número de neuronas en la capa de entrada: 21 si se usa la función base Haar y 18 si se usa la función base Daub4.

•N´umero de neuronas en la capa de salida: 1 neurona.

•N´umero de capas ocultas: una.

•Patr´on de interconexi´on de la red: feedforward y totalmente conectada.

4.5.1 Usando la funci´on Haar

Se va a formar un vector de 21 componentes para cada par de im´agenes Q (imagen de consulta) y T (imagen perteneciente a la base de im´agenes) que se va a comparar para medir la similitud entre ellas. El vector esta formado por 21 componentes ya que son 7 componentes para cada canal de color, las primeras 7 corresponden a un canal de color y as´ı sucesivamente.

Ahora se explicar´a como se forman las primeras 7 componentes (en el canal de color c=1) de este vector al cual se denominaVQT (es el vector de entrada

con el que se entrena a la red neuronal).

La primera de estas 7 componentes se forma de la siguiente forma:

|Qc[0,0]−Tc[0,0]|

Qc[0,0] y Tc[0,0] corresponden al promedio de color de las im´agenes Qc y

Tc respectivamente. Despu´es de calcular la primera de estas 7 componentes

se hace la compresi´on de los datos (solo se almacenan 100 coeficientes para cada canal de color c) y la cuantizaci´on de los datos.

Como se explica en la secci´on 4.4.1 a partir de las matrices Qc y Tc se ob-

tienen 6 valores de similitudSi para 1≤i≤6 estos valores deSicorrespon-

den a las siguientes 6 componentes del vector. El conjunto de entrenamiento se forma como se explica en la secci´on 4.4.1. Para cada vector VQT la salida

deseada est´a en el rango de 0 a 1. Si la salida deseada es 0 las im´agenes representadas por el vectorVQT son totalmente diferentes y si la salida deseada

es de 1 las im´agenes son muy similares.

4.5.2 Usando la funci´on Daub4

Se va a formar un vector de 18 componentes para cada par de im´agenes Q (imagen de consulta) y T (imagen perteneciente a la base de im´agenes) que se va a comparar para medir la similitud entre ellas. El vector es de 18 componentes ya que son 6 componentes para cada canal de color, las primeras 6 componentes corresponden a un canal de color y as´ı sucesivamente. Ahora se explica como se forman las primeras 6 componentes(en el canal de color c=1) de este vector al cual se denominaVQT (el cual es el vector de

La primera de estas 6 componentes se forma de la siguiente forma:

|Qc[0,0]−Tc[0,0]|

DondeQc[0,0] yTc[0,0] corresponden al promedio de color de las im´agenes

Qc yTc respectivamente. Despu´es de calcular la primera de estas 6 compo-

nentes se hace la compresi´on de los datos(solo se almacenan 100 coeficientes para cada canal de color c) y la cuantizaci´on de los datos.

Como se explica en la secci´on 4.4.2 a partir de las matrices Qc y Tc se

obtienen 5 valores de similitud Si para 1 ≤ i ≤ 5. Estos valores de Si

corresponden a las siguientes 5 componentes del vector. El conjunto de entrenamiento se forma como se explica en la secci´on 4.4.1. Para cada vector VQT la salida deseada est´a en el rango de 0 a 1, si la salida deseada es 0 las

im´agenes representadas por el vector VQT son totalmente diferentes y si la

Cap´ıtulo 5

An´alisis de resultados y

Conclusiones

5.1 Introducci´on

En este cap´ıtulo se explican algunos de los experimentos realizados en el sistema de recuperación de información que se implementó en este trabajo de tesis y al final se presentan las conclusiones que se desprenden de los experimentos realizados.

In document Recuperación de información visual (página 62-70)