8. Conclusiones y Trabajo futuro
4.1. Algoritmo de aprendizaje de relaciones temporales (ART)
Entrada:
Bo y B(t+1) ordenados topol´ogicamente empezando por los nodos ra´ıces.
Salida: B→(t+1)
1. B→(t+1)= ˆU
2. Para j=1 hasta n hacer:
3. Seleccionar el nodo xj(t+1) de B(t+1)
a) Para i = 1 hasta n hacer
b) Seleccionar el nodo xi(t) de B(t)
c) Si¬I(xi(t), xj(t+1)|MMi j) entonces
d) B→(t+1)= B→(t+1)∪(xi(t), xj(t+1))
e) Fin para
4. Fin para i=n
Este algoritmo realiza pruebas de independencia condicional entre el conjunto de variables del periodo de tiempo actual V(t) y el conjunto de variables del periodo de tiempo siguiente V(t+1), entre cada par de variables, una por cada periodo de tiempo. Las pruebas se realizan en orden topol´ogico ancestral determinado por sus estructuras Bo) y B(t+1), dado un subconjunto de variables V(t, t+1), de tal manera que dependiendo del resultado de las pruebas, se compruebe si existe o no una relaci´on temporal. El conjunto V(t, t+1) se denomina manto de Markov del nodo i-´esimo xi(t)∈V(t), seg´un
un orden ancestral para Bo, asociado al j-´esimo xj (t+1), seg´un el orden ancestral para B(t+1), de
la RBD. A ese conjunto se le denomina MMi j. En en algoritmo 4.1, se describe los pasos de este proceso.
En general, el algoritmo funciona de la siguiente manera. El conjunto de relaciones temporales estar´a inicialmente vac´ıo. Se comenzar´an a realizar pruebas de independencia condicional dado el subconjunto MMi j por los nodos ra´ıces de las estructuras B(t) y B(t+1). Una vez aprendidos los arcos temporales que le llegan al nodo ra´ız de B(t+1) desde cualquier nodo de Bo entonces se pasa a comprobar el siguiente nodo de B(t+1) en el orden topol´ogico.
En este m´etodo el n´umero de pruebas de independencia condicional para cada pareja de vari- ables, siendo una por cada periodo de tiempo, es de n2, donde n es el n´umero de variables para Bo). Por lo cual, si se tienen estructuras muy complejas con muchas variables, el n´umero de pruebas se incrementa. Por otro lado se tiene el problema de que la sabana de Markov incluya muchas variables por lo que el n´umero de pruebas a realizar se incrementar´ıa.
4.3.
Modelos Ocultos de Markov (HMMs)
Las RBD resultan ser una generalizaci´on de los modelos ocultos de Markov (HMM) y de sis- temas din´amicos lineales como los filtros Kalman [Kalman, 1960]2, representaciones menos estruc- turadas que una red bayesiana din´amica [Murphy 01]. Los modelos ocultos de Markov son una t´ecni- ca estad´ıstica de amplio uso en el reconocimiento de patrones secuenciales de datos. Estos modelos pueden ser aplicados a una gran variedad de problemas, debido a que existen diversas modificaciones a la estructura b´asica de los mismos. Actualmenete gozan de gran popularidad, entre otras razones, por que pueden caracterizar de manera precisa datos en presencia de ruido y ligeras variaciones.
Un HMM es una m´aquina de estados finitos caracterizada por dos procesos estoc´asticos, uno de estos determina la transici´on entre los estados y es no observable, el otro proceso, genera obser- vaciones de salida para cada estado. Los estados no son determinados de manera directa a partir de las observaciones, por lo que son considerados como ocultos. La caracter´ıstica principal de un HMM, consiste en su habilidad para encontrar la secuencia m´as probable de estados que pudo haber generado una secuencia dada de observaciones.
4.4.
Resumen
Las redes bayesianas (RB) son un modelo gr´afico que representa relaciones causales entre variables y puede representar dominios est´aticos o dominios din´amicos. Existen diferentes tipos de redes bayesianas: ´arboles, poli-´arbole y redes multiconectadas. Los clasificadores bayesianos son otro tipo de red bayesiana. Las RB din´amicas al igual que las RB est´aticas, son definidas por una estructura gr´afica y un conjunto de par´ametros. La diferencia consiste en que para modelar una RBD se necesita adem´as de la estructura inicial (una estructura que se repite en cada periodo de tiempo, equivalente a una red est´atica) una red de transici´on entre cada per´ıodo de tiempo.
El aprendizaje de redes bayesianas se divide en dos partes, aprendizaje param´etrico (c´alculo de las probabilidades asociadas a cada variable) y aprendizaje estructural (creaci´on de la estructura o modelo). En el aprendizaje estructural los m´etodos pueden dividirse b´asicamente en dos tipos: m´etodos basados en ajustes (que involucran b´usqueda y evaluaci´on de la mejor estructura) y m´eto- dos basados en an´alisis de dependencias (identificaci´on de relaciones de independencia condicional
−CI−).Se presentaron en esta secci´on dos m´etodos (uno de cada tipo) aplicados a procesos din´ami- cos. Tambi´en se present´o una descripci´on de los HMM ya que ´estos son una forma particular de RBD.
El aprender RBD en general, sobre todo considerando nodos ocultos, es un proceso muy complejo. En esta tesis nos enfocamos a un tipo particular de RBD, el clasificador bayesiano din´amico que se describe m´as adelante.
2El filtro de Kalman es una t´ecnica recursiva para determinar los par´ametros correctos de un sistema que evoluciona
con el tiempo. Dados unos estimadores iniciales y los par´ametros propios del sistema din´amico, el filtro va prediciendo y auto ajust´andose con cada nueva medida
Aprendizaje de clasificadores bayesianos
est´aticos
En el cap´ıtulo 2 se trat´o el aprendizaje de clasificadores bayesianos simples y, aunque vi- mos que existen diferentes m´etodos de aprendizaje, no se considera a uno como el mejor, adem´as de que existen diversas consideraciones que afectan al proceso de aprendizaje. En el cap´ıtulo 3 vi- mos, particularmente, como afecta la discretizaci´on en dicho proceso. El m´etodo de aprendizaje de clasificadores bayesianos simples que proponemos incluye la b´usqueda de una estructura que mejore la exactitud del clasificador conservando la simplicidad de la misma haciendo uso de m´etodos de discretizaci´on y mejora estructural. En este cap´ıtulo se describe el proceso de aprendizaje de nuestro modelo est´atico.
5.1.
Introducci´on
El clasificador bayesiano simple es un modelo de clasificaci´on eficiente, f´acil de aprender y con gran exactitud en muchos dominios. Sin embargo, tiene dos principales desventajas:
(i) La exactitud de la clasificaci´on disminuye cuando los atributos no son independientes, y (ii) No puede ocuparse de atributos continuos no parametrizados.
En este trabajo proponemos un m´etodo que aprende un clasificador bayesiano simple que considera la discretizaci´on de atributos continuos y la b´usqueda de atributos que no son independientes. El m´etodo incluye dos fases, el de discretizaci´on y el de la mejora estructural, que se repiten alternativamente hasta que la exactitud de la clasificaci´on no puede ser mejorada. La discretizaci´on se basa en el principio descripci´on de longitud m´ınima (MDL), donde el n´umero de intervalos que minimiza el MDL se obtiene por cada atributo. Para tratar con atributos dependientes y atributos irrelevantes, aplicamos un m´etodo de mejora estructural, que elimina y/o une atributos, basado en medidas de informaci´on mutua y condicional. En el m´etodo de aprendizaje propuesto, los principales puntos que se consideran son los siguientes:
Permite considerar, mediante modelos sencillos (clasificador bayesiano simple), las principales relaciones entre los datos.
Cuando se trata de variables continuas, con base a la discretizaci´on de ´estas, permite determi- nar cu´al es la mejor forma de dividir en intervalos esta variable continua, de tal manera que maximiza el rendimiento del clasificador bayesiano simple.
Permite mejorar la estructura conservando la simplicidad de la misma mediante las operaciones de eliminaci´on y uni´on de variables, considerando eliminar variables que no son relevante y la uni´on de variables que son condicionalmente dependientes.
Realiza el aprendizaje par´ametrico de la estructura completa, considerando el nodo clase, las variables discretas y continuas incluidas originalmente en el modelo y las variables derivadas por uni´on.
5.2.
Metodolog´ıa
El m´etodo de aprendizaje considera (i) la discretizaci´on de variables continuas, (ii) la se- lecci´on de atributos relevantes y (iii) la eliminaci´on o combinaci´on de atributos dependientes para construir un clasificador bayesiano simple.
El m´etodo obtiene:
La estructura del clasificador.
El mejor n´umero de intervalos para los atributos continuos.
Los par´ametros asociados (tablas de probabilidad condicional para cada atributo y probabili- dades a priori para el nodo clase).
En el m´etodo propuesto se utiliza un m´etodo de discretizaci´on con base al mejoramiento de la clasificaci´on. La idea es aplicarlo y evaluar el efecto que tiene la discretizaci´on en la b´usqueda de la mejor estructura. Para la creaci´on del clasificador bayesiano simple se usa el algoritmo incluido en [Lacave and D´ıez, 2005] y para obtenci´on de la mejor estructura se incluyen algunas variaciones al m´etodo de [Pazzani, 1996]. Este m´etodo ha obtenido buenos resultados en la clasificaci´on al aplicar las operaciones de eliminaci´on y uni´on de variables. El algoritmo b´asico (algoritmo 5.1) del m´etodo de aprendizaje de clasificadores bayesianos est´aticos consta de 4 etapas que podemos observar en la figura 5.1. Los detalles de cada etapa del algortimo se describen a continuaci´on.
5.2.1.
Etapa I: Inicializaci´on
Esta etapa consiste b´asicamente de tres pasos (figura 5.2), requeridos para la creaci´on de la estructura est´atica completa del clasificador bayesiano simple que ser´a la base para el m´etodo de aprendizaje. Este paso se realiza solamente una vez a trav´es del algoritmo 5.2, que considera una partici´on inicial (dos intervalos de igual tama˜no) para todos los atributos continuos, para la creaci´on del clasificador inicial y sus par´ametros, los cuales se aprenden de los datos de entrenamiento.
Figura 5.1:Modelo de aprendizaje de clasificadores bayesianos est´aticos. Los recuadros marcan las principales etapas del modelo.
Algoritmo 5.1Algoritmo ACBE (Aprendizaje de Clasificadores Bayesianos ´Est´aticos.)