Algoritmo de aprendizaje de relaciones temporales (ART)

8. Conclusiones y Trabajo futuro

4.1. Algoritmo de aprendizaje de relaciones temporales (ART)

Entrada:

Bo y B(t+1) ordenados topol´ogicamente empezando por los nodos ra´ıces.

Salida: B→(t+1)

1. B→(t+1)= ˆU

2. Para j=1 hasta n hacer:

3. Seleccionar el nodo xj(t+1) de B(t+1)

a) Para i = 1 hasta n hacer

b) Seleccionar el nodo xi(t) de B(t)

c) Si¬I(xi(t), xj(t+1)|MMi j) entonces

d) B→(t+1)= B→(t+1)∪(xi(t), xj(t+1))

e) Fin para

4. Fin para i=n

Este algoritmo realiza pruebas de independencia condicional entre el conjunto de variables del periodo de tiempo actual V(t) y el conjunto de variables del periodo de tiempo siguiente V(t+1), entre cada par de variables, una por cada periodo de tiempo. Las pruebas se realizan en orden topológico ancestral determinado por sus estructuras Bo) y B(t+1), dado un subconjunto de variables V(t, t+1), de tal manera que dependiendo del resultado de las pruebas, se compruebe si existe o no una relación temporal. El conjunto V(t, t+1) se denomina manto de Markov del nodo i-ésimo xi(t)∈V(t), según

un orden ancestral para Bo, asociado al j-´esimo xj (t+1), seg´un el orden ancestral para B(t+1), de

la RBD. A ese conjunto se le denomina MMi j. En en algoritmo 4.1, se describe los pasos de este proceso.

En general, el algoritmo funciona de la siguiente manera. El conjunto de relaciones temporales estará inicialmente vac´ıo. Se comenzarán a realizar pruebas de independencia condicional dado el subconjunto MMi j por los nodos ra´ıces de las estructuras B(t) y B(t+1). Una vez aprendidos los arcos temporales que le llegan al nodo ra´ız de B(t+1) desde cualquier nodo de Bo entonces se pasa a comprobar el siguiente nodo de B(t+1) en el orden topológico.

En este método el número de pruebas de independencia condicional para cada pareja de vari- ables, siendo una por cada periodo de tiempo, es de n2, donde n es el número de variables para Bo). Por lo cual, si se tienen estructuras muy complejas con muchas variables, el número de pruebas se incrementa. Por otro lado se tiene el problema de que la sabana de Markov incluya muchas variables por lo que el número de pruebas a realizar se incrementar´ıa.

4.3. Modelos Ocultos de Markov (HMMs)

Las RBD resultan ser una generalización de los modelos ocultos de Markov (HMM) y de sis- temas dinámicos lineales como los filtros Kalman [Kalman, 1960]2, representaciones menos estruc- turadas que una red bayesiana dinámica [Murphy 01]. Los modelos ocultos de Markov son una técni- ca estad´ıstica de amplio uso en el reconocimiento de patrones secuenciales de datos. Estos modelos pueden ser aplicados a una gran variedad de problemas, debido a que existen diversas modificaciones a la estructura básica de los mismos. Actualmenete gozan de gran popularidad, entre otras razones, por que pueden caracterizar de manera precisa datos en presencia de ruido y ligeras variaciones.

Un HMM es una máquina de estados finitos caracterizada por dos procesos estocásticos, uno de estos determina la transición entre los estados y es no observable, el otro proceso, genera observaciones de salida para cada estado. Los estados no son determinados de manera directa a partir de las observaciones, por lo que son considerados como ocultos. La caracter´ıstica principal de un HMM, consiste en su habilidad para encontrar la secuencia más probable de estados que pudo haber generado una secuencia dada de observaciones.

4.4. Resumen

Las redes bayesianas (RB) son un modelo gráfico que representa relaciones causales entre variables y puede representar dominios estáticos o dominios dinámicos. Existen diferentes tipos de redes bayesianas: árboles, poli-árbole y redes multiconectadas. Los clasificadores bayesianos son otro tipo de red bayesiana. Las RB dinámicas al igual que las RB estáticas, son definidas por una estructura gráfica y un conjunto de parámetros. La diferencia consiste en que para modelar una RBD se necesita además de la estructura inicial (una estructura que se repite en cada periodo de tiempo, equivalente a una red estática) una red de transición entre cada per´ıodo de tiempo.

El aprendizaje de redes bayesianas se divide en dos partes, aprendizaje paramétrico (cálculo de las probabilidades asociadas a cada variable) y aprendizaje estructural (creación de la estructura o modelo). En el aprendizaje estructural los métodos pueden dividirse básicamente en dos tipos: métodos basados en ajustes (que involucran búsqueda y evaluación de la mejor estructura) y méto- dos basados en análisis de dependencias (identificación de relaciones de independencia condicional

−CI−).Se presentaron en esta sección dos métodos (uno de cada tipo) aplicados a procesos dinámi- cos. También se presentó una descripción de los HMM ya que éstos son una forma particular de RBD.

El aprender RBD en general, sobre todo considerando nodos ocultos, es un proceso muy complejo. En esta tesis nos enfocamos a un tipo particular de RBD, el clasificador bayesiano din´amico que se describe m´as adelante.

2_{El filtro de Kalman es una t´ecnica recursiva para determinar los par´ametros correctos de un sistema que evoluciona}

con el tiempo. Dados unos estimadores iniciales y los parámetros propios del sistema dinámico, el filtro va prediciendo y auto ajustándose con cada nueva medida

Aprendizaje de clasificadores bayesianos

est´aticos

En el cap´ıtulo 2 se trató el aprendizaje de clasificadores bayesianos simples y, aunque vi- mos que existen diferentes métodos de aprendizaje, no se considera a uno como el mejor, además de que existen diversas consideraciones que afectan al proceso de aprendizaje. En el cap´ıtulo 3 vi- mos, particularmente, como afecta la discretización en dicho proceso. El método de aprendizaje de clasificadores bayesianos simples que proponemos incluye la búsqueda de una estructura que mejore la exactitud del clasificador conservando la simplicidad de la misma haciendo uso de métodos de discretización y mejora estructural. En este cap´ıtulo se describe el proceso de aprendizaje de nuestro modelo estático.

5.1. Introducci´on

El clasificador bayesiano simple es un modelo de clasificaci´on eficiente, f´acil de aprender y con gran exactitud en muchos dominios. Sin embargo, tiene dos principales desventajas:

(i) La exactitud de la clasificaci´on disminuye cuando los atributos no son independientes, y (ii) No puede ocuparse de atributos continuos no parametrizados.

En este trabajo proponemos un método que aprende un clasificador bayesiano simple que considera la discretización de atributos continuos y la búsqueda de atributos que no son independientes. El método incluye dos fases, el de discretización y el de la mejora estructural, que se repiten alternativamente hasta que la exactitud de la clasificación no puede ser mejorada. La discretización se basa en el principio descripción de longitud m´ınima (MDL), donde el número de intervalos que minimiza el MDL se obtiene por cada atributo. Para tratar con atributos dependientes y atributos irrelevantes, aplicamos un método de mejora estructural, que elimina y/o une atributos, basado en medidas de información mutua y condicional. En el método de aprendizaje propuesto, los principales puntos que se consideran son los siguientes:

Permite considerar, mediante modelos sencillos (clasificador bayesiano simple), las principales relaciones entre los datos.

Cuando se trata de variables continuas, con base a la discretización de éstas, permite determinar cuál es la mejor forma de dividir en intervalos esta variable continua, de tal manera que maximiza el rendimiento del clasificador bayesiano simple.

Permite mejorar la estructura conservando la simplicidad de la misma mediante las operaciones de eliminación y unión de variables, considerando eliminar variables que no son relevante y la unión de variables que son condicionalmente dependientes.

Realiza el aprendizaje par´ametrico de la estructura completa, considerando el nodo clase, las variables discretas y continuas incluidas originalmente en el modelo y las variables derivadas por uni´on.

5.2. Metodolog´ıa

El método de aprendizaje considera (i) la discretización de variables continuas, (ii) la se- lección de atributos relevantes y (iii) la eliminación o combinación de atributos dependientes para construir un clasificador bayesiano simple.

El m´etodo obtiene:

La estructura del clasificador.

El mejor n´umero de intervalos para los atributos continuos.

Los par´ametros asociados (tablas de probabilidad condicional para cada atributo y probabilidades a priori para el nodo clase).

En el método propuesto se utiliza un método de discretización con base al mejoramiento de la clasificación. La idea es aplicarlo y evaluar el efecto que tiene la discretización en la búsqueda de la mejor estructura. Para la creación del clasificador bayesiano simple se usa el algoritmo incluido en [Lacave and D´ıez, 2005] y para obtención de la mejor estructura se incluyen algunas variaciones al método de [Pazzani, 1996]. Este método ha obtenido buenos resultados en la clasificación al aplicar las operaciones de eliminación y unión de variables. El algoritmo básico (algoritmo 5.1) del método de aprendizaje de clasificadores bayesianos estáticos consta de 4 etapas que podemos observar en la figura 5.1. Los detalles de cada etapa del algortimo se describen a continuación.

5.2.1. Etapa I: Inicializaci´on

Esta etapa consiste básicamente de tres pasos (figura 5.2), requeridos para la creación de la estructura estática completa del clasificador bayesiano simple que será la base para el método de aprendizaje. Este paso se realiza solamente una vez a través del algoritmo 5.2, que considera una partición inicial (dos intervalos de igual tamaño) para todos los atributos continuos, para la creación del clasificador inicial y sus parámetros, los cuales se aprenden de los datos de entrenamiento.

Figura 5.1:Modelo de aprendizaje de clasificadores bayesianos est´aticos. Los recuadros marcan las principales etapas del modelo.

Algoritmo 5.1Algoritmo ACBE (Aprendizaje de Clasificadores Bayesianos ´Est´aticos.)

In document Aprendizaje de Clasificadores Bayesianos Estáticos y Dinámicos (página 53-57)