Resumen
Esta investigaci´on se orienta al procesamiento y an´alisis de datos con ca-racter´ısticas particulares como son, datos temporales, incertidumbre en los datos, bases de datos con clases binarias, datos con clases desbalanceadas, datos con un evento de inter´es en la clase minoritaria, datos no estacionarios. Las propiedades anteriores son propias de colecciones de datos del dominio biom´edico, industrial, econ´omico, por mencionar algunos ejemplos.
As´ı, la tesis contribuye en tres ´areas principales. En primer lugar, en la cons-trucci´on de un m´etodo de selecci´on de variables que favorece la identi-ficaci´on de la clase minoritaria en bases de datos con clases desbalanceadas. Segundo, la representaci´on y construcci´on de un modelo din´amico
probabilista, en la forma de una Red Bayesiana Din´amica no estacionaria
que permite pronosticar la ocurrencia de un evento de la clase mayoritaria y minoritaria, favoreciendo a la clase minoritaria, y tercero la aplicaci´on del m´etodo propuesto para la construcci´on deun modelo de la marcha para
pron´ostico de ca´ıdas en adultos mayores.
Los resultados obtenidos muestran que el algoritmo de selecci´on de variables propuesto ayuda a seleccionar mejor las variables relevantes para identificar un evento en la clase minoritaria en bases de datos con clases binarias, tanto balanceadas como desbalanceadas, que algoritmos tradicionales de selecci´on de variables.
Por otro lado, el modelo propuesto basado en una red Bayesiana din´ ami-ca no estacionaria obtiene un mejor desempe˜no para el pron´ostico de la clase minoritaria en datos estacionarios con clases balanceadas y desbalanceadas y datos no estacionarios con clases balanceadas y desbalanceadas, que modelos construidos con t´ecnicas convencionales como las Redes Bayesianas Din´
ii RESUMEN
cas. Adem´as, se tiene evidencia de que los modelos construidos utilizando selecci´on de variables tienen un mejor desempe˜no que los modelos construi-dos usando todas las variables del conjunto de datos.
El inter´es en el an´alisis de este tipo de datos surgi´o del estudio de la de-gradaci´on de la marcha. Los modelos propuestos en esta tesis proporcionan informaci´on adicional a los expertos en el an´alisis cl´ınico de la marcha, con quienes se interactu´o directamente, dado que no conocen con precisi´on cu´ales son las variables m´as relevantes que reflejen la degradaci´on patol´ogica de la marcha, ni la manera en que los cambios en las variables de la marcha son desencadenados en personas con alto riesgo de sufrir ca´ıdas.
Finalmente, nuestro m´etodo es susceptible de aplicarse con ´exito para el pron´ostico de un evento de inter´es, en bases de datos temporales como son, una base de datos de ozono y una base de datos de la marcha humana, dichas bases de datos presentan las propiedades descritas al inicio de este resumen.
Palabras clave: Selecci´on de variables, modelos probabil´ıstas, pron´ostico
Abstract
This research work aims at the processing and analysis of information with particular properties such as: temporality, with uncertainty, unbalanced, and non-stationary data. These properties are common from data collected on economic, industrial processes and biomedical domains, to name a few. Thus, the contribution of this thesis is three-fold. First, on the construc-tion of a variable selection method, which favors the identification of the minority class within unbalanced databases. Second, on the representa-tion and construcrepresenta-tion of anon stationary Dynamic Bayesian Network, which allows the prognosis of the occurrence of an event from the majority and minority classes, with emphasis on the latter. And third, by applying the proposed method, on the construction of a model for the prognosis
of falls of elderly people.
The results obtained show that the proposed variable selection algorithm helps to find and select the relevant variables to identify an event of the minority class within binary class and unbalanced databases, with better performance measures than traditional variable selection algorithms.
The proposed probabilistic model, based on a non stationary Dynamic Baye-sian Network (nsDBN), has better performance measures on the prognosis of the minority class on stationary and non stationary data. There is evidence that models built utilizing variable selection methods have better perfor-mance and more compact models than models built using all the variables contained in the data set.
The interest on analyzing these kinds of data came from the study of degra-dation of human gait. The proposed models in this thesis provide additional
iv ABSTRACT
information to experts on the analysis of human gait in a clinical setting with whom there was direct interaction since it is not precisely known how chan-ges in these values of the gait analysis variables result in a high risk of falling.
´
Indice general
Resumen I
Abstract III
Lista de figuras IX
Lista de tablas XIII
Lista de algoritmos XV
Notaci´on XVII
Acr´onimos XIX
1. Introducci´on 1
1.1. Motivaci´on . . . 1
1.2. Problem´atica . . . 3
1.3. Objetivos . . . 5
1.4. Metodolog´ıa . . . 6
1.5. Contribuciones . . . 7
1.6. Organizaci´on del documento . . . 7
2. Marco te´orico 9 2.1. Redes Bayesianas . . . 9
2.1.1. Aprendizaje param´etrico . . . 11
2.1.2. Aprendizaje estructural . . . 12
2.2. Redes Bayesianas Din´amicas . . . 14
Aprendizaje de DBNs . . . 15
2.3. Redes Bayesianas no Estacionarias . . . 16 v
vi ´INDICE GENERAL
2.4. Casos at´ıpicos (outliers) . . . 18
2.5. Clases desbalanceadas . . . 19
2.5.1. Sobre-muestreo (oversampling) . . . 20
2.5.2. Sub-muestreo (subsampling) . . . 21
2.6. Medidas para evaluar el desempe˜no de clasificadores . . . 23
2.7. S´ıntesis . . . 26
3. Estado del arte 27 3.1. Flujo de datos de concepto cambiante (Concept drifting data stream) . . . 27
3.2. M´etodos de selecci´on de variables . . . 29
3.3. T´ecnicas de modelado de datos temporales . . . 31
3.3.1. Pron´ostico basado en an´alisis estad´ıstico de sobrevi-vencia . . . 32
3.3.2. Pron´ostico de eventos basado en t´ecnicas derivadas de IA . . . 32
3.3.3. Pron´ostico basado en modelos Bayesianos . . . 34
Definici´on de nsDBN . . . 37
Aprendizaje de nsDBNs . . . 38
3.4. La marcha humana: un caso de estudio . . . 42
3.5. S´ıntesis . . . 44
4. M´etodo de construcci´on de un modelo de predicci´on 47 4.1. Preprocesamiento de los datos . . . 48
4.1.1. Prueba de normalidad en los datos . . . 48
4.1.2. Eliminaci´on de los ejemplos at´ıpicos . . . 50
4.2. Algoritmo de selecci´on de variables . . . 53
4.3. Modelo probabilista no estacionario . . . 54
4.4. S´ıntesis . . . 62
5. Resultados de la selecci´on de variables relevantes 63 5.1. Evaluaci´on de FSMC . . . 63
5.2. Resultados . . . 65
´
INDICE GENERAL vii
6. Resultados de la aplicaci´on del modelo de predicci´on a datos
sint´eticos 71
6.1. Generaci´on de datos sint´eticos . . . 72
6.2. Datos temporales estacionarios . . . 74
6.2.1. Datos con clases balanceadas . . . 75
6.2.2. Discusi´on sobre datos estacionarios con clases balan-ceadas . . . 79
6.2.3. Datos con clases desbalanceadas . . . 80
6.2.4. Discusi´on sobre datos estacionarios con clases desba-lanceadas . . . 83
6.3. Datos temporales no estacionarios . . . 83
6.3.1. Datos con clases balanceadas . . . 84
6.3.2. Discusi´on sobre datos no estacionarios con clases ba-lanceadas . . . 87
6.3.3. Datos con clases desbalanceadas . . . 88
6.3.4. Discusi´on sobre datos no estacionarios con clases des-balanceadas . . . 91
6.4. S´ıntesis . . . 92
7. Resultados de la aplicaci´on del modelo de predicci´on a datos reales 95 7.1. Base de datos de ozono . . . 95
7.2. Base de datos de la marcha . . . 101
7.2.1. Aplicaci´on del m´etodo propuesto . . . 101
7.2.2. Pron´ostico de ca´ıdas . . . 105
7.2.3. Valoraci´on de los expertos . . . 111
7.3. S´ıntesis . . . 112
8. Conclusiones y perspectivas 113 8.1. Discusi´on . . . 113
8.2. Conclusiones . . . 115
8.3. Perspectivas . . . 117
Referencias 121
Anexo A 133
viii ´INDICE GENERAL
Anexo C 143
Anexo D 147
Anexo E 151
Anexo F 161
Anexo G 163
´
Indice de figuras
2.1. Ejemplo de una red Bayesiana. . . 10
2.2. Par´ametros asociados a una red Bayesiana . . . 12
2.3. Aprendizaje estructural . . . 14
2.4. Ejemplo de una DBN . . . 15
2.5. Aprendizaje de una red Bayesiana din´amica . . . 17
2.6. Datos no estacionarios . . . 17
2.7. Sobre-muestreo de datos . . . 21
2.8. Sub-muestreo de datos . . . 22
2.9. Ejemplo de curva ROC con un predictor . . . 25
3.1. Ejemplo de una nsDBN . . . 38
4.1. M´etodo de costrucci´on de modelo de predicci´on . . . 47
4.2. Prueba QQ-plot . . . 49
4.3. Ejemplo de un caso at´ıpico en un conjunto de datos. . . 50
4.4. Comparaci´on de datos . . . 53
4.5. Distribuci´on normal . . . 54
4.6. Ejemplo de una nsDBN . . . 58
6.1. Comparaci´on de la exactitud de los modelos de la serie de experimentos 1 . . . 77
6.2. Comparaci´on del valor de recuerdo de los modelos de la serie de experimentos 1 . . . 77
6.3. Modelo basado en una DBN . . . 78
6.4. Modelo basado en una nsDBN . . . 79
6.5. Comparaci´on de la exactitud de los modelos de la serie de experimentos 2 . . . 80
x ´INDICE DE FIGURAS
6.6. Comparaci´on del valor de recuerdo de los modelos de la serie
de experimentos 2 . . . 81
6.7. Modelo basado en una DBN . . . 82
6.8. Modelo basado en una nsDBN . . . 82
6.9. Comparaci´on de la exactitud de los modelos de la serie de experimentos 3 . . . 85
6.10. Comparaci´on del valor de recuerdo de los modelos de la serie de experimentos 3 . . . 85
6.11. Modelo basado en una DBN . . . 86
6.12. Modelo basado en una nsDBN . . . 87
6.13. Comparaci´on de la exactitud de los modelos de la serie de experimentos 4 . . . 89
6.14. Comparaci´on del valor de recuerdo de los modelos de la serie de experimentos 4 . . . 89
6.15. Modelo basado en una DBN . . . 90
6.16. Modelo basado en una nsDBN . . . 91
7.1. Ejemplo agrupaci´on de ejemplos de ozono . . . 97
7.2. Comparaci´on de la exactitud de los modelos de la serie de experimentos 5 . . . 98
7.3. Comparaci´on del valor de recuerdo de los modelos de la serie de experimentos 5 . . . 99
7.4. Modelo basado en una DBN para los datos de ozono . . . 100
7.5. Modelo basado en una nsDBN para los datos de ozono . . . . 100
7.6. Sistema GaitRite . . . 102
7.7. Comparaci´on de la exactitud de los modelos de la serie de experimentos 6 . . . 106
7.8. Comparaci´on del valor de recuerdo de los modelos de la serie de experimentos 6 . . . 106
7.9. DBN construida con informaci´on de FSMC . . . 107
7.10. nsDBN construida con informaci´on de FSMC . . . 107
7.11. DBN construida con informaci´on de los expertos . . . 108
7.12. nsDBN construida con informaci´on de los expertos . . . 108
7.13. DBN construida con informaci´on de los expertos . . . 109
7.14. nsDBN construida con informaci´on de los expertos . . . 109
1. Comparaci´on de la exactitud de los modelos de la serie de experimentos 7 . . . 153
´
INDICE DE FIGURAS xi
2. Comparaci´on del valor de recuerdo de los modelos de la serie de experimentos 7 . . . 153 3. Comparaci´on de la exactitud de los modelos de la serie de
experimentos 8 . . . 155 4. Comparaci´on del valor de recuerdo de los modelos de la serie
de experimentos 8 . . . 155 5. Comparaci´on de la exactitud de los modelos de la serie de
experimentos 9 . . . 157 6. Comparaci´on del valor de recuerdo de los modelos de la serie
de experimentos 9 . . . 157 7. Comparaci´on de la exactitud de los modelos de la serie de
experimentos 10 . . . 159 8. Comparaci´on del valor de recuerdo de los modelos de la serie
de experimentos 10 . . . 159 F.1. Registro de datos de la marcha del sistema GaitRite. . . 162 G.1. Comparaci´on de la exactitud de los modelos de la serie de
experimentos de la marcha sin casos at´ıpicos . . . 165 G.2. Comparaci´on del valor de recuerdo de los modelos de la serie
de experimentos de la marcha sin casos at´ıpicos . . . 166 H.1. Comparaci´on de la exactitud de los modelos de la serie de
experimentos de la marcha variando el umbral de aceptaci´on de FSMC . . . 169 H.2. Comparaci´on de la recuerdo de los modelos de la serie de
ex-perimentos de la marcha variando el umbral de aceptaci´on de FSMC . . . 169
´
Indice de tablas
2.1. Matriz de confusi´on. . . 24
5.1. N´umero de variables seleccionadas . . . 66
5.2. Exactitud de clasificaci´on . . . 67
5.3. Significancia estad´ıstica . . . 68
5.4. Identificaci´on de la clase mayoritaria y minoritaria . . . 69
5.5. Resumen de ganadores . . . 69
6.1. Resumen de la generaci´on de datos sint´eticos. . . 74
6.2. Valores de las medidas estad´ısticas de la serie de experimentos 1 78 6.3. Valores de las medidas estad´ısticas de la serie de experimentos 2 81 6.4. Variables relevantes datos no estacionarios balanceados . . . . 84
6.5. Valores de las medidas estad´ısticas de la serie de experimentos 3 86 6.6. Variables relevantes datos no estacionarios desbalanceados . . 88
6.7. Valores de las medidas estad´ısticas de la serie de experimentos 4 90 7.1. Variables relevantes de la base de datos ozono . . . 98
7.2. Valores de las medidas estad´ısticas de la serie de experimentos 5 99 7.3. Informaci´on proporcionada en un an´alisis de la marcha. . . 103
7.4. Variables relevantes de la base de datos de la marcha . . . 105
7.5. Valores de las medidas estad´ısticas de la serie de experimentos de la marcha . . . 110
A.1. Exactitud en porcentaje de clasificaci´on . . . 133
B.1. Clasificaci´on de la clase minoritaria . . . 136
B.2. Clasificaci´on de la clase mayoritaria . . . 137
B.3. Precisi´on de los clasificadores construidos . . . 139
B.4. Recuerdo de los clasificadores construidos . . . 140 xiii
xiv ´INDICE DE TABLAS
B.5. Medida-F de los clasificadores construidos . . . 141 B.6. ROC de los clasificadores construidos . . . 142 C.1. Valores en extenso de las medidas estad´ısticas de la serie de
experimentos 1 . . . 144 C.2. Valores en extenso de las medidas estad´ısticas de la serie de
experimentos 2 . . . 145 D.1. Valores en extenso de las medidas estad´ısticas de la serie de
experimentos 3 . . . 148 D.2. Valores en extenso de las medidas estad´ısticas de la serie de
experimentos 4 . . . 149 E.1. Valores de las medidas estad´ısticas de la serie de experimentos 7152 E.2. Valores de las medidas estad´ısticas de la serie de experimentos 8154 E.3. Valores de las medidas estad´ısticas de la serie de experimentos 9156 E.4. Valores de las medidas estad´ısticas de la serie de experimentos
10 . . . 158 G.1. Variables relevantes de la base de datos de la marcha . . . 164 G.2. Valores de las medidas estad´ısticas de la serie de experimentos
de la marcha sin casos at´ıpicos . . . 165 H.1. Variables relevantes de la base de datos de la marcha . . . 168 H.2. Valores de las medidas estad´ısticas de la serie de experimentos
Lista de algoritmos
4.1. Algoritmo para preprocesamiento de datos . . . 52
4.2. Algoritmo FSMC . . . 55
4.3. Algoritmo para discretizaci´on . . . 60
4.4. Algoritmo para la construcci´on de una nsDBN . . . 61
Notaci´
on
S´ımbolo Significado
Xi Variable aleatoria i
P(A) Probabilidad de A
P(A∏|B) Probabilidad condicional de A dado B
Producto de t´erminos
πi Conjunto de padres de la variable i
ti Tiempo de transici´on i
σ Desviaci´on est´andar
µ Media
¯
x Mediana
Γ Distribuci´on de probabilidad continua
Acr´
onimos
Acr´onimo Significado
CONAPO Consejo Nacional de Poblaci´on en M´exico INR Instituto Nacional de Rehabilitaci´on
IA Inteligencia Artificial
nsDBN Red Bayesiana Din´amica no Estacionaria
BN Red Bayesiana
DBN, Red Bayesiana Din´amica TPR Porcentaje de Verdaderos Positivos FPR Porcentaje de Falsos Positivos PDF Funci´on de densidad de probabilidad FSMC Feature Selection for Minority Class
FL L´ogica Difusa
NN Redes Neuronales
SVM M´aquinas de Soporte Vectorial
HMM Modelos Ocultos de Markov
SSS Successive State Splitting BDe Bayesian-Dirichlet equivalent
TUG Timed up and go
BBS Berg balance scale UCI University of California, Irvine
Cap´ıtulo 1
Introducci´
on
1.1.
Motivaci´
on
Diversas ´areas del conocimiento y problemas de la sociedad del dominio m´ edi-co, industrial, econ´omico y ambiental, entre otros, tienen el com´un denomina-dor de una generaci´on sostenida de conocimiento a la par de una acumulaci´on constante de informaci´on. Este fen´onemo plantea retos a las ciencias de la in-formaci´on al demandar el desarrollo de herramientas autom´aticas que ayuden a procesar, sintetizar y abstraer informaci´on relevante de dichos datos, para as´ı aprovechar la informaci´on obtenida para la comprensi´on, el monitoreo, clasificaci´on o pron´ostico de alg´un evento de inter´es. En algunos dominios los datos presentan caracter´ısticas particulares que demandan el desarrollo de t´ecnicas de an´alisis novedosas. En particular, en esta tesis estamos intere-sados en el procesamiento y an´alisis de datos con caracter´ısticas particulares como son:
Temporalidad.- Estos datos han sido registrados en distintos periodos de tiempo para registrar su evoluci´on.
Incertidumbre en los datos.- Los datos en ocasiones son contradictorios, incompletos, o presentan alg´un tipo de ruido.
Datos con clases binarias.- En el contexto de esta tesis, clase binaria son datos donde existen dos clases.
Datos con clases desbalanceadas.- Son datos donde existe una despro-porci´on en el n´umero de ejemplos de cada una de las clases.
2 CAP´ITULO 1. INTRODUCCI ´ON Datos no estacionarios.- Son datos cuya informaci´on relevante, obtenida en cada periodo de tiempo, presenta alta variabilidad.
Evento de inter´es.- Ocurrencia de un suceso propio del fen´omeno de estudio.
El caso de estudio que dio lugar a esta investigaci´on es el desarrollo de un modelo de la marcha que proporcione una probabilidad de riesgo de ca´ıda en adultos mayores. Seg´un datos del Consejo Nacional de Poblaci´on en M´exico (CONAPO), el n´umero de adultos mayores en el pa´ıs se habr´a cuadruplicado en un lapso de 50 a˜nos1. Adem´as, de acuerdo a los datos del Instituto Nacio-nal de Rehabilitaci´on (INR), el riesgo de ca´ıdas en adultos mayores (personas mayores de 65 a˜nos) es mayor que en otros sectores de la sociedad. Para este sector de la sociedad una ca´ıda puede ocasionar serias lesiones o incluso la muerte. De hecho, registros estad´ısticos del INR muestran que las ca´ıdas en personas adultas mayores son la principal causa de muerte en este sector. Por lo anterior, es de inter´es para los expertos en el dominio una adecuada evaluaci´on del riesgo de ca´ıda para reducir la incidencia de ´estas en adultos mayores. Cabe se˜nalar que ´este problema trasciende el ´ambito nacional y es un grave problema social de inter´es para la comunidad internacional (Masud et Morris, 2001; World Health Organization, 2007).
Actualmente, los expertos en el dominio utilizan un estudio conocido como an´alisis de la marcha para diagnosticar una marcha patol´ogica. “El an´alisis de la marcha es el proceso donde informaci´on cuantitativa es colectada para ayudar en el entendimiento de las causas de las anormalidades en la mar-cha de una persona y la toma de decisi´on del tratamiento a seguir”(Davis et al., 1999). Dicha informaci´on es obtenida con ayuda de diversos instrumen-tos biomec´anicos, como sistemas de c´amaras, sensores electromagn´eticos, etc. Algo esencial en este proceso es la interpretaci´on de esos datos por un equipo de expertos experimentado e interdisciplinario con un conocimiento conside-rable en marcha normal y patol´ogica (Haworth, 2008).
Los datos capturados en un an´alisis de la marcha cumplen las caracter´ısticas enunciadas al inicio de este p´arrafo, lo cual se revisa a detalle en la siguiente secci´on.
1Para mas informaci´on ver:
http://www.conapo.gob.mx/es/CONAPO/
1.2. PROBLEM ´ATICA 3
1.2.
Problem´
atica
Como se ha mencionado nuestro trabajo se enfoca en el an´alisis de datos temporales, los cuales dan un seguimiento a alg´un fen´omeno, por ejemplo, monitoreo del clima, seguimiento de pacientes con alg´un tipo de padecimien-to, control de calidad, etc. Dicho seguimiento tiene como objetivo identificar alg´un evento de inter´es, el cual es poco com´un pero relevante, por ejemplo, la incidencia de una enfermedad, la falla en una l´ınea electr´onica. En este tipo de informaci´on se presenta el problema de desbalanceo de clases en los datos.
El problema de desbalanceo de clases en los datos es un tema de inter´es en la literatura de aprendizaje autom´atico y miner´ıa de datos, debido a que provoca un sesgo en el desempe˜no de los clasificadores est´andares hacia el reconocimiento de las clases m´as numerosas, en detrimento de las poco co-munes (Laza et al., 2011). En esta tesis proponemos un m´etodo novedoso de selecci´on de variables para mejorar la clasificaci´on de la clase minoritaria. Es importante se˜nalar que en este tipo de problemas se requiere una adecua-da distinci´on de la clase minoritaria la cual es generalmente la clase de inter´es. Por otro lado, en datos generados en aplicaciones reales se tiene el problema de la adquicisi´on y medici´on de dichos datos debido a los medios y condi-ciones con los que son tomados, lo cual ocasiona que los datos obtenidos contengan ruido; esto es, los datos pueden ser contradictorios, incompletos o que comprendan una cantidad considerable de casos at´ıpicos (outliers), lo que definimos como incertidumbre en los datos. Esta situaci´on hace compli-cado el an´alisis de los datos dado que la incertidumbre introduce estad´ısticas err´oneas que afectan el desempe˜no de las t´ecnicas de aprendizaje autom´atico o de miner´ıa de datos.
Lo anterior plantea problemas para la construcci´on de modelos que permitan pronosticar alg´un evento a partir del an´alisis de datos temporales, dado que el problema de desbalanceo de clase e incertidumbre en los datos hace dif´ıcil el tener una representaci´on del fen´omeno que se quiere analizar o describir para fines de pron´ostico de eventos futuros. En esta tesis hacemos an´alisis de datos para determinar si los datos tienen una distribuci´on normal as´ı como para identificar los casos at´ıpicos antes de aplicar el m´etodo propuesto en este trabajo.
4 CAP´ITULO 1. INTRODUCCI ´ON
Aunque existen propuestas para tratar datos temporales, muchas t´ecnicas suponen (Papageorgiou et al., 2009; Madu, 2005; Noguchi et al., 2002; Cha-ritos et al., 2009; Seijas et al., 2006) que las distribuciones de probabilidad de los datos son estacionarios, esto es, no cambian con el tiempo. A pesar de ser una suposici´on razonable en muchos dominios, en otros es una suposici´on que no puede generalizarse y que degrada el desempe˜no de los modelos. Existen fen´omenos donde se tienen datos temporales con una gran variabilidad, y para este tipo de datos los cambios que hubo en un tiempot pueden cambiar la dependencia entre variables en un tiempot+1, e incluso puede modificar-se el conjunto de las variables relevantes. La hip´otesis de nuestro trabajo es que modelos que permiten la representaci´on de dicha variabilidad temporal permitir´an obtener un mejor desempe˜no en la identificaci´on de eventos pa-ra lo cual proponemos la construcci´on de un modelo probabilista, donde se aprenden modelos parciales por cada periodo de tiempo.
Para contextualizar nuestra motivaci´on tomaremos el ejemplo de datos de la marcha en el resto de esta secci´on. Debe recordarse, sin embargo, que nuestra investigaci´on no se restringe al an´alisis de este tipo de datos.
Cabe mencionar que hasta donde sabemos, no existen trabajos que repor-ten el uso de datos de la marcha para la creaci´on de un modelo que permita estimar el riesgo de ca´ıda provocada por una degradaci´on patol´ogica de la marcha. Esto es, un modelo que proporcione informaci´on a los expertos del dominio sobre los cambios en la marcha relacionados con la degradaci´on pa-tol´ogica asociados con la p´erdida de estabilidad, y por consecuencia a un aumento en el riesgo de ca´ıdas en personas adultas mayores.
Por otro lado, el desarrollo de t´ecnicas que determinen cu´ales par´ametros de la marcha son relevantes para determinar de forma autom´atica que una persona presenta una degradaci´on patol´ogica de la marcha, y a´un m´as pro-porcionar informaci´on acerca del riesgo de padecer una ca´ıda con base en los cambios detectados en aquellos par´ametros relevantes, podr´ıa ofrecer un pre-diagn´ostico, o diagn´ostico alternativo o complementar el diagn´ostico de los expertos m´edicos.
Los m´etodos y tecnolog´ıas existentes para un an´alisis de la marcha son nu-merosos (Davis et al., 1999; Lee et Chou, 2006; Saboune et Charpillet, 2005;
1.3. OBJETIVOS 5 Dabiri et al., 2008; Shumway-Cook et. al., 2000; Kenny et al., 2001; Cuaya et al., 2012), y permiten la obtenci´on de los par´ametros cuantitativos carac-ter´ısticos de un patr´on de marcha de manera objetiva. Los tipos de datos obtenidos en dicho an´alisis pueden ser espacio-temporales como: tiempo de soporte, cadencia, largo de paso, velocidad; datos cinem´aticos como: ´angulos articulares, rotaci´on de la pelvis, ´angulo de progresi´on del pie; datos cin´ eti-cos como: fuerza de reacci´on anteo-posterior, fuerza de reacci´on vertical, por mencionar algunos.
Existen t´ecnicas de modelado y pron´ostico por parte de la Inteligencia Ar-tificial (IA), como son L´ogica Difusa, Redes Neuronales, Redes Bayesianas, por mencionar algunas, las cuales ofrecen distintas maneras de ajustar un modelo a partir de datos de un fen´omeno que evoluciona en el tiempo, as´ı co-mo representar las relaciones entre estos datos, y que permiten inferir alg´un suceso de inter´es con base en la informaci´on de los datos representados o modelados. Un reto importante para el uso de estas t´ecnicas en dominios m´edicos es la identificaci´on de la informaci´on para la construcci´on de dichos modelos, esto es, saber cu´ales son las variables m´as relevantes y las relaciones entre ellas para dar un diagn´ostico o una probabilidad de riesgo de un evento determinado, e. g. tener una ca´ıda.
Cabe se˜nalar que los expertos en el an´alisis cl´ınico de la marcha no conocen con precisi´on cu´ales son las variables m´as relevantes que reflejen la degrada-ci´on de la marcha patol´ogica, ni la manera en que los cambios en las variables de la marcha son desencadenados en personas con alto riesgo de sufrir ca´ıdas, por lo que el proporcionarles este tipo de alternativas puede servir como un complemento para el mejor entendimiento de las causas que provocan una de-gradaci´on patol´ogica de la marcha lo cual es una contribuci´on de las ciencias computacionales aplicadas en un dominio m´edico.
1.3.
Objetivos
El objetivo principal de este trabajo de tesis esla construcci´on autom´
ati-ca de modelos para predecir un evento a partir del an´alisis de datos
temporales no estacionarios con clases desbalanceadas.
6 CAP´ITULO 1. INTRODUCCI ´ON 1. Identificaci´on y representaci´on de las variables relevantes para pron´
osti-co de un evento de inter´es.
2. Identificaci´on o caracterizaci´on de una medida que permita reconocer la variabilidad en los datos.
3. Representaci´on de la evoluci´on en el tiempo y las relaciones entre las variables identificadas como relevantes.
4. Construcci´on autom´atica de un modelo probabilista basado en Redes Bayesianas Din´amicas no estacionarias (nsDBN) que permita estimar el riesgo de ocurrencia de un evento de inter´es.
5. Construcci´on de un modelo de la marcha basado en una nsDBN que permita detectar la degradaci´on patol´ogica de ´esta en adultos mayores, y con base en ello determinar la probabilidad de riesgo de ca´ıda a lo largo de un periodo de tiempo de 6 a 12 meses.
6. Evaluaci´on del modelo propuesto con diferentes tipos de base de datos.
1.4.
Metodolog´ıa
Como se ha mencionado el problema abordado en esta investigaci´on es la construcci´on autom´atica de un modelo probabilista para el pron´ostico de un evento de inter´es a partir del an´alisis de datos no estacionarios con clases desbalanceadas. Para ello se sigui´o la siguiente metodolog´ıa:
1. Comparaci´on entre las clases de bases de datos con clases binarias des-balanceadas, para la identificaci´on de los atributos relevantes que ayu-dan a favorecer la distinci´on de la clase minoritaria. Se obtiene as´ı un algoritmo de selecci´on de variables el cual fue comparado con diferentes algoritmos de selecci´on de variables obteniendo mejores clasificadores para identificar a la clase minoritaria, utilizando las variables seleccio-nadas con nuestro algoritmo.
2. Construcci´on de una red Bayesiana din´amica no estacionaria para el modelado de datos no estacionarios con clases desbalanceadas, con el fin de obtener un modelo que aproveche la informaci´on no estacionaria de los datos para obtener un mejor pron´ostico de la clase minoritaria.
1.5. CONTRIBUCIONES 7 El modelo propuesto fue comparado con modelos basados en DBNs, aplicados a datos sint´eticos y datos reales, mostrando que el uso de nuestro modelo tiene un mejor desempe˜no que los modelos basados en DBNs para el pron´ostico de la clase minoritaria. Cabe se˜nalar que una caracteristica de este tipo de modelos es que son estacionarios por ´
epocas.
3. Aplicaci´on del resultado de nuestra investigaci´on para la construcci´on de un modelo de la marcha que permite el pron´ostico de ca´ıdas en adultos mayores a 6 y 12 meses. Se construyeron modelos basados en la informaci´on de los expertos, as´ı como modelos construidos con la informaci´on obtenida con FSMC y modelos construidos combinando la informaci´on de los expertos con la informaci´on de FSMC. Los mode-los construidos fueron evaluados utilizando informaci´on de expedientes cerrados, obteniendo resultados interesantes para los expertos del do-minio.
1.5.
Contribuciones
La tesis contribuye en tres ´areas principales:
En primer lugar, en la construcci´on de un m´etodo que permite la
se-lecci´on de variables relevantespara la caracterizaci´on de una clase
minoritaria.
Segundo, larepresentaci´on y construcci´on de un modelo
proba-bilista no estacionario que permite pronosticar la ocurrencia de un
evento perteneciente a la clase minoritaria.
Y tercero, la aplicaci´on del modelo previo para la construcci´on de un
modeloprobabilista no estacionarioque permita identificar riesgo
de ca´ıda en adultos mayores.
1.6.
Organizaci´
on del documento
El resto de este documento est´a organizado de la siguiente manera, en el cap´ıtulo 2 se hace una revisi´on de las t´ecnicas utilizadas en esta tesis. El
8 CAP´ITULO 1. INTRODUCCI ´ON cap´ıtulo 3 presenta la revisi´on y discusi´on del trabajo relacionado. El cap´ıtu-lo 4 describe en detalle las fases del m´etodo propuesto, en los cap´ıtulo 5, 6 y 7 se presentan, respectivamentre, los resultados en extenso del algoritmo de selecci´on de variables, de la aplicaci´on del m´etodo a datos sint´etico, y de la aplicaci´on del m´etodo a datos reales. En el cap´ıtulo 8 se discuten los resultados, conclusiones y trabajo futuro.
Los s´ımbolos utilizados en las f´ormulas y los acr´onimos de este documen-to est´an detallados en la tabla de notaci´on y de acr´onimos proporcionada al inicio de este documento.
Cap´ıtulo 2
Marco te´
orico
En esta secci´on se revisar´an los conceptos y t´ecnicas implicados en este tra-bajo de investigaci´on, como son t´ecnicas estad´ısticas para el manejo de datos con clases desbalanceadas y datos at´ıpicos, modelos probabilistas, medidas de evaluaci´on de desempe˜no de un modelo. Cabe se˜nalar que la mayor´ıa de la informaci´on presentada en este cap´ıtulo respecto a redes Bayesianas y redes Bayesianas din´amicas est´a basada en un curso en l´ınea.1
2.1.
Redes Bayesianas
Formalmente, las redes Bayesianas (BNs, por sus siglas en ingl´es, Bayesian Networks) son grafos ac´ıclicos dirigidos cuyos nodos o v´ertices representan variables aleatorias y los arcos que unen a estos nodos representan dependen-cias condicionales entre las variables. Los nodos pueden representar cualquier tipo de variable, ya sea un par´ametro medible (o medido), una variable la-tente o una hip´otesis. La variable a la que apunta el arco es dependiente (causa-efecto) de la que est´a en el origen de ´este.
La topolog´ıa o estructura de la red nos da informaci´on sobre las dependen-cias probabil´ısticas entre las variables pero tambi´en sobre las independencias condicionales de una variable (o conjunto de variables) dada otra variable(s). Dichas independencias simplifican la representaci´on del conocimiento, es de-cir, producen menos par´ametros, y el razonamiento expresado como propa-gaci´on de las probabilidades. La Figura 2.1 muestra una red Bayesiana donde
1Para mas informaci´on ver
http://ccc.inaoep.mx/~esucar/Clases-mgp/caprb.pdf
10 CAP´ITULO 2. MARCO TE ´ORICO el nodo d es independiente del nodo c dado el nodo a.
Si existe un arco que une un nodo A con otro nodo B, A es denominado un “padre” de B, y B es llamado un “hijo” de A. Al conjunto de nodos padre de un nodoXi lo denotamos como πi). Un gr´afo ac´ıclico dirigido representa una red Bayesiana relativa a un conjunto de variables si la distribuci´on con-junta de los valores de los nodos puede ser escrita como el producto de las distribuciones locales de cada nodo dados sus padres, seg´un se expresa en la F´ormula 2.1.
Figura 2.1: Ejemplo de una red Bayesiana.
P(X1, X2, ..., Xn) =
n
∏
i=1
P(Xi|πi)) (2.1) dondeP representa la probabilidad,Xi es el nodo i,n es el n´umero de nodos en la red, ∏el producto de los t´erminos a su derecha.
Si el nodoXi no tiene padres, su distribuci´on local de probabilidad se toma como incondicional, en otro caso es condicional. Si el valor de un nodo es observable, y por tanto etiquetado como observado, dicho nodo es un nodo deevidencia.
Las redes Bayesianas son una alternativa para miner´ıa de datos, las cuales tienen varias ventajas:
Permiten aprender relaciones de dependencia y causalidad. Permiten combinar conocimiento con datos.
2.1. REDES BAYESIANAS 11 Pueden manejar bases incompletas de datos.
La obtenci´on de una red Bayesiana a partir de datos es un proceso de apren-dizaje, el cual consiste en dos aspectos:
1. Aprendizaje param´etrico: dada una estructura, se busca obtener las probabilidades a priori y condicionales requeridas.
2. Aprendizaje estructural: se busca obtener la estructura de la red Ba-yesiana, es decir, las relaciones de dependencia e independencia condi-cional entre las variables involucradas.
A continuaci´on se describen con m´as detalle los aspectos anteriores.
2.1.1.
Aprendizaje param´
etrico
El aprendizaje param´etrico consiste en encontrar los par´ametros asociados a una estructura dada de una red Bayesiana. Dichos par´ametros corresponden a las probabilidades a priori o previas, de un nodo ra´ız, esto es, el vector de probabilidades marginales de aquellos nodos que no tienen padres y las pro-babilidades condicionales de las dem´as variables, dados sus padres, esto es la matriz de probabilidades marginales o condicionales. La Figura 2.2 muestra un ejemplo de una BN con algunas matrices de probabilidad asociadas a los nodos de la red.
Cuando se tienen datos completos y suficientes para todas las variables en el modelo, es relativamente f´acil obtener los par´ametros, suponiendo que la estructura est´a dada. El m´etodo m´as com´un es el llamado estimador de m´ axi-ma verosimilitud, bajo el cual se estiaxi-man las probabilidades con base en las frecuencias de los datos. Para una red Bayesiana se tienen dos casos:
Nodos ra´ız. Se estima la probabilidad marginal. Por ejemplo:P(Xi)∼
(Ma×Xi)/N, dondeMa es el n´umero de ocurrencias del valor a de la variable Xi y N es el n´umero total de casos o registros.
Nodos internos. Se estima la probabilidad condicional de cada
varia-ble dados sus padres. Por ejemplo:P(Yi|Xj, Zk)∼MabcYiXjZk/ObcXjZk, dondeMabcYiXjZkes el n´umero de casos en queYi =a, Xj =byZk =c y ObcXjZk es el n´umero de casos en que Xj =b y Zk=c.
12 CAP´ITULO 2. MARCO TE ´ORICO
Figura 2.2: Par´ametros asociados a una red Bayesiana. Se muestran las tablas de probabilidad condicional de algunas de las variables de la red Bayesiana que representa: probabilidad a priori o previa de C, P(C); probabilidad condicional de T dado C,P(T|C); y probabilidad condicional de F dado T y G,P(F|T, G). En este ejemplo se supone que todas las variables son binarias, y los posibles valores que pueden tomar son a y b.
2.1.2.
Aprendizaje estructural
El aprendizaje estructural consiste en encontrar las relaciones de dependencia entre las variables, de forma que se pueda determinar la topolog´ıa o estructura de la red Bayesiana. Para aprender la estructura de redes multiconectadas, existen dos clases de m´etodos:
M´etodos basados en medidas de ajuste y b´usqueda, en esta clase
de m´etodos se tiene una evaluaci´on global de la estructura respecto a los datos. Es decir, se generan diferentes estructuras y se eval´uan respecto a los datos utilizando alguna medida de ajuste.
M´etodos basados en pruebas de independencia, a diferencia del
enfoque basado en una medida global, este enfoque se basa en medidas de dependencia local entre subconjuntos de variables. El caso m´as
sen-2.1. REDES BAYESIANAS 13 cillo es el del algoritmo de Chow y Liu (Chow et Liu, 1968), en el cual se mide la informaci´on mutua entre pares de variables.
Las t´ecnicas de aprendizaje estructural dependen del tipo de estructura de red: ´arboles, poli´arboles y redes multiconectadas. Otra alternativa es combi-nar conocimiento subjetivo del experto con aprendizaje. Para ello se parte de la estructura dada por el experto, la cual se valida y mejora utilizando datos estad´ısticos.
El encontrar la estructura ´optima de una red Bayesiana es dif´ıcil, ya que el espacio de b´usqueda es muy grande. Por ejemplo, hay m´as de 1040 di-ferentes estructuras para 10 variables. Por esto, se utilizan estrategias de b´usqueda heur´ısticas que encuentran una soluci´on aceptable pero, general-mente, no ´optima. Otra alternativa es combinar los m´etodos autom´aticos con conocimiento de expertos.
Generalmente, se establece un m´etodo para hacer una b´usqueda de la “me-jor” estructura entre todas las estructuras posibles. Dado que el n´umero de posibles estructuras es exponencial en el n´umero de variables, es costoso evaluar todas las estructuras, por lo que se hace una b´usqueda heur´ıstica. Se pueden aplicar diferentes m´etodos de b´usqueda, una estrategia com´un es aplicar b´usqueda de ascenso de colinas (hill climbing), en la cual se inicia con una estructura simple, como un ´arbol, que se va mejorando hasta llegar a la “mejor” estructura. El proceso general de la b´usqueda de la mejor estructura es el siguiente:
1. Generar una estructura inicial - ´arbol.
2. Calcular la medida de calidad de la estructura inicial. 3. Agregar / invertir un arco en la estructura actual. 4. Calcular la medida de calidad de la nueva estructura.
5. Si se mejora la calidad, conservar el cambio; si no, dejar la estructura anterior.
14 CAP´ITULO 2. MARCO TE ´ORICO Se pueden utilizar otros m´etodos de b´usqueda como algoritmos gen´eticos, recocido simulado, b´usquedas bidireccionales, etc. La Figura 2.3 ilustra un ejemplo del algoritmo de aprendizaje estructural de una BN, inciando con una estructura de ´arbol que se va mejorando hasta llegar a una estructura final.
Figura 2.3: Algunos pasos en la secuencia del aprendizaje de la estructura, partiendo de un ´arbol (izquierda) hasta llegar a la estructura final (derecha).
2.2.
Redes Bayesianas Din´
amicas
Las redes Bayesianas permiten representar el estado de las variables en un cierto periodo de tiempo. Para representar procesos din´amicos existe una extensi´on a estos modelos conocida como Red Bayesiana Din´amica (DBN, por sus siglas en ingl´es, Dynamic Bayesian Networks), las cuales consisten en una representaci´on de los estados del proceso en un tiempo (red est´atica) y las relaciones temporales entre dichos procesos (red de transici´on).
Para las DBN generalmente se hacen las siguientes suposiciones:
Proceso Markoviano. El estado actual s´olo depende del estado anterior (s´olo hay arcos entre instantes de tiempo consecutivos).
Proceso estacionario en el tiempo. Las probabilidades condicionales en el modelo no cambian con el tiempo.
Lo anterior implica que podemos definir una DBN con base en dos compo-nentes: (i) una red base est´atica que se repite en cada periodo, durante un
2.2. REDES BAYESIANAS DIN ´AMICAS 15 cierto intervalo de tiempo predefinido; y (ii) una red de transici´on entre eta-pas consecutivas (dada la propiedad Markoviana). Un ejemplo de una DBN se muestra en la Figura 2.4.
Figura 2.4: Ejemplo de una DBN. Se muestra la estructura base que se repite en n etapas temporales, denotadas como t1, t2, ..., tn, as´ı como las relaciones de dependencia entre etapas.
La inferencia en una DBN es en principio la misma que para una BN, por lo que aplican los mismos m´etodos. Sin embargo, la complejidad aumenta dado que el n´umero de nodos en la red se multiplica debido a que cada nodo en la DBN debe ser considerado como un nodo diferente en cada periodo de tiempo, por lo que son m´as comunes los m´etodos basados en simulaci´on estoc´astica, como los m´etodos Montecarlo (Metropolis et Ulam, 1949) y los Filtros de Part´ıculas (Gordon et al. 1993).
Aprendizaje de DBNs
Dada la representaci´on de una DBN con base en dos componentes, la red est´atica y la red de transici´on, el aprendizaje de DBN puede naturalmente dividirse en el aprendizaje de cada parte por separado:
1. Aprender la estructura base o red est´atica. 2. Aprender la estructura de transici´on.
16 CAP´ITULO 2. MARCO TE ´ORICO Para aprender la estructura base se consideran los datos de todas las va-riables en cada tiempo, de forma que sea posible obtener las dependencias entre ´estas sin considerar las relaciones temporales. Entonces el problema es equivalente al aprendizaje estructural y param´etrico de una red Bayesiana. Dada la estructura base, se aprende la red de transici´on. Esto se puede reali-zar usando ambos enfoques, tanto el basado en medidas de ajuste y b´usqueda, como el de medidas locales, con ciertas variantes. Si se utiliza el enfoque ba-sado en b´usqueda, se parte de una estructura inicial con dos copias de la red base, y se busca agregar las ligas entre variables en el tiempo t0 y t1 que
optimicen la medida de evaluaci´on. Para ello se consideran los datos de cada variable en un tiempo y el siguiente (de acuerdo al periodo predefinido). Para el enfoque de medidas locales, se aplican ´estas a las variables entre etapas para de esta forma determinar los arcos a incluirse en la red de transici´on. La Figura 2.5 ilustra el esquema general de aprendizaje de una DBN para un ejemplo sencillo.
Cabe se˜nalar que se ha descrito s´olo un modo de aprendizaje de la estructu-ra de una DBN, el cual ha sido utilizada por otros autores (Friedman et al., 1998, Murphy, 2002; Campos et Puerta, 2000; Mart´ınez et Sucar, 2008) y el cual fue utilizado para construir los modelos basados en DBNs presentados en esta tesis. Existen otros modos de aprendizaje de DBNs como los presen-tados en (Boyen et al., 1999; McCallum, 1995), los cuales aprenden la red base como la red de transici´on al mismo tiempo, por mencionar una variante.
2.3.
Redes Bayesianas no Estacionarias
Debido a que estamos interesados en el an´alisis de datos temporales es im-portante definir qu´e son datos temporales estacionarios y no estacionarios. Un proceso o fen´omeno estacionario es aquel cuyas propiedades estad´ısticas como son media y desviaci´on est´andar, no cambian en el tiempo, y aquellos procesos o fen´omenos cuyas propiedades estad´ısticas cambian en el tiempo son definidos como procesos o fen´omenos no estacionarios. La Figura 2.6 muestra el comportamiento tanto de un proceso estacionario como de un proceso no estacionario2.
2.3. REDES BAYESIANAS NO ESTACIONARIAS 17
Figura 2.5: Aprendizaje de una red Bayesiana din´amica. Primero se obtiene la estructura base (izquierda) y despu´es las relaciones entre etapas (derecha).
Figura 2.6: Ejemplo del comportamiento en el tiempo de datos estacionarios y no estacionarios.
18 CAP´ITULO 2. MARCO TE ´ORICO Las DBNs son excelentes modelos para la descripci´on de las dependencias entre variables aleatorias en datos temporales, pero ´estas no pueden repre-sentar aquellos casos en que dichas dependencias cambien con el tiempo, lo cual puede ocurrir al modelarse fen´omenos no estacionarios. En contraste una Red Bayesiana Din´amica no Estacionaria (nsDBN, por sus siglas en ingl´es, non-stationary Dynamic Bayesian Networks), adem´as de representar las re-laciones entre variables de datos temporales, permite representar los cambios entre estas relaciones de acuerdo al periodo de tiempo analizado (´epoca); es decir, permite cambiar las relaciones entre las variables entre distintos pe-riodos de tiempo e incluso las variables involucradas. Cabe se˜nalar que una caracteristica de este tipo de modelos es que son estacionarios por ´epocas. Hasta donde sabemos no existe una definici´on general de este tipo de redes, ni tampoco un m´etodo est´andar para aprender dichas redes. Se han publica-do recientemente trabajos en publica-donde son definidas y se presenta un m´etodo para aprederlas (Pernestal et Nyberg, 2009; Jia et Huan, 2010; Robinson et Hartemink, 2010). En este trabajo de tesis nos basaremos en la definici´on de (Robinson et Hartemink, 2010) y la extenderemos, la cual se revisa en el cap´ıtulo 4 de este documento.
2.4.
Casos at´ıpicos (
outliers
)
Unoutlier es una observaci´on que se desv´ıa tanto de las otras observaciones como para crear la sospecha de que fue generado por un mecanismo diferen-te (Hawkins, 1980). Frecuendiferen-temendiferen-te, los casos at´ıpicos son removidos para mejorar la precisi´on de los estimadores estad´ısticos.
Un tratamiento detallado de casos at´ıpicos en el ´area de estad´ıstica aparece en (Barnett et Lewis, 1994). Los autores de dicho trabajo dan una extensa lista de m´etodos para detectar casos at´ıpicos. Una de las t´ecnicas m´as comu-nes para detectar casos at´ıpicos es utilizar el siguiente criterio:
Sea µ la media y σ la desviaci´on est´andar de un conjunto de datos, una observaci´on es declarada un casos at´ıpicos si cae fuera del intervalo expresa-do en la F´ormula 2.2.
2.5. CLASES DESBALANCEADAS 19 donde el valor de k es usualmente tomada como 2 o 3. La justificaci´on de estos valores es sustentada en el hecho de que suponiendo una distribuci´on normal se espera que 95.45 % y 99.75 % de los datos caigan en el intervalo centrado en la media±dos o tres desviaciones est´andar, respectivamente. De la F´ormula 2.2, la observaci´onx es considerada un caso at´ıpico si se satisface la F´ormula 2.3:
|x−µ|
σ > k (2.3)
2.5.
Clases desbalanceadas
El problema de clases desbalanceadas ocurre cuando el n´umero de instancias pertenecientes a cada clase en un conjunto de datos es muy diferente. Ello provoca que los clasificadores tengan gran exactitud para calcular modelos sobre la clase mayoritaria pero una pobre exactitud predictiva sobre los datos de la clase minoritaria. Esto ocurre cuando el clasificador intenta reducir el error global, pues el error de clasificaci´on no tiene en cuenta la distribuci´on de los datos. En general, el contar con pocos datos de una clase dificulta el desempe˜no de los clasificadores porque existen pocos datos para soportar los posibles patrones que se van construyendo.
El problema de los datos con clases desbalanceadas en miner´ıa de datos es un tema que ha cobrado gran inter´es en la comunidad, dado que est´a presente en muchos dominios de aplicaci´on entre los que podemos citar la detecci´on de fraude, detecci´on de derrames de petr´oleo a partir de im´agenes de radar, detecci´on de fallas en procesos industriales, diagn´ostico m´edico, entre otros, (Chawla et al., 2004). En muchas de estas aplicaciones la clase minoritaria es justamente la clase de mayor inter´es y la que m´as interesa clasificar co-rrectamente, puesto que est´a formada por los casos que ocurren con menor frecuencia o que son m´as dif´ıciles de identificar (Kotsiantis et al., 2006). Por ejemplo, en el caso de detecci´on de c´ancer, tenemos pocos pacientes enfermos (clase minoritaria) y gran cantidad de pacientes sanos (clase mayoritaria). En este caso interesa detectar correctamente a los pacientes enfermos. Cabe se˜nalar que el costo de un falso positivo suele ser muy inferior al de un falso negativo, es decir, no detectar un individuo perteneciente a la clase minori-taria es m´as costoso por las implicaciones asociadas, que el no detectar a un individuo que pertenece a la clase mayoritaria.
20 CAP´ITULO 2. MARCO TE ´ORICO
Se han desarrollado numerosas t´ecnicas para hacer frente al problema de las clases no balanceadas en el aprendizaje autom´atico, entre las m´as popu-lares encontramos t´ecnicas de sobre-muestreo (oversampling), sub-muestreo (subsampling) y selecci´on de variables. El problema de los datos no balancea-dos est´a presente en muchos dominios de aplicaci´on entre los que podemos citar la detecci´on de fraude, detecci´on de derrames de petr´oleo a partir de im´agenes de radar, detecci´on de fallas en procesos industriales, diagn´ostico m´edico, por mencionar algunos (Chawla et al., 2004).
Muchas aplicaciones de miner´ıa de datos en el mundo real involucran apren-dizaje a partir de un conjunto de datos con clases desbalanceadas. Como se ha mencionado ha sido propuesto un gran n´umero de soluciones para el problema de la clase desbalanceada tanto a nivel de datos como a nivel algo-ritmico (Laza et al., 2011). En el primer caso, se asigna un costo diferencial a los ejemplos de entrenamiento seg´un las frecuencias de las clases (Kotsiantis et al., 2006). En el segundo caso, se muestrea el conjunto de datos original, ya sea agregando casos sint´eticos o repetidos de la clase minoritaria, o elimi-nando casos de la clase mayoritaria.
A nivel de datos, esas soluciones incluyen diferentes formas de remuestreo (resampling) como sobre-muestreo aleatorio (random oversampling), sub-muestreo aleatorio de ejemplos (Laza et al., 2011), y combinaciones de estas t´ecnicas como SMOTE (Chawla et al., 2002).
A nivel de algoritmo, las soluciones incluyen ajustes de costos de varias clases, ajuste de estimaci´on probabil´ıstica para los atributos finales de los ´arboles (cuando se est´a trabajando con ´arboles de decisi´on), ajuste de decisiones ba-sadas en reconocimiento (es decir, aprendizaje sobre una clase) (Zhang et Mani, 2003; Kotsiantis et al., 2006).
A continuaci´on se definen los tipos de t´ecnicas utilizadas para resolver el desbalanceo en las clases a nivel de datos.
2.5.1.
Sobre-muestreo (
oversampling
)
Esta t´ecnica consiste en balancear la distribuci´on de las clases a˜nadiendo ejemplos a la clase minoritaria. Esto es, generar ejemplos de la clase
mi-2.5. CLASES DESBALANCEADAS 21 noritaria aleatoriamente hasta tener tantos ejemplos como los de la clase mayoritaria. Por ejemplo, supongamos que tenemos una muestra de datos de 1000 personas, de las cuales el 66 % son hombres y, deseamos ajustar nuestra base de datos para tener una muestra donde se tenga un porcentaje igual de datos de hombres y mujeres. El sobre-muestreo duplicar´a cada dato co-rrespondiente a una mujer de tal modo que se obtendr´a una base de datos balanceados de 1333 datos con un 50 % de datos de mujeres. La Figura 2.7 ilustra el funcionamiento de esta t´ecnica.
Cabe se˜nalar que existen otros m´etodos de sobre-muestreo que el resumi-do l´ıneas arriba. Entre ellos podemos mencionar los trabajos de (Chawla et al. 2002), el cual hace una combinaci´on de sobre-muestreo de la clase mi-noritaria y sub-muestreo de la clase mayoritaria, y el trabajo de (S´anchez 2008) el cual consiste en comenzar el sobre-muestreo agregando un n´umero peque˜no de casos de la clase minoritaria e ir aumentando el n´umero de casos progresivamente hasta que el desempe˜no de los algoritmos de clasificaci´on no mejore.
Figura 2.7: Sobre-muestreo de datos, donde el s´ımbolo - representa los casos de la clase minoritaria y el s´ımbolo + representa los casos de la clase mayo-ritaria. A la derecha se representa el conjunto de datos cuyas clases ya han sido balanceadas.
2.5.2.
Sub-muestreo (
subsampling
)
Esta t´ecnica est´a estrechamente relacionada con sobre-muestreo y consiste basicamente en eliminar ejemplos de la clase mayoritaria, esto es, eliminar
22 CAP´ITULO 2. MARCO TE ´ORICO aleatoriamente elementos de la clase mayoritaria hasta obtener el mismo ta-ma˜no que la clase minoritaria. Retomando el ejemplo de la secci´on anterior sub-muestreo descartar´a aleatoriamente algunos de los datos correspondien-tes a hombres para obtener una base de datos de 667 muestras, de nuevo con 50 % de datos de mujeres mujeres. Figura 2.8 muestra un ejemplo de dicha t´ecnica.
De igual manera, existen t´ecnicas m´as inteligentes que la descrita para apli-car sub-muestreo sobre datos desblanceados, dichas t´ecnicas muestran mejor efectividad que el uso de sub-muestreo normal (Hajdu et al., 2009).
Aunque sobre-muestreo y sub-muestreo se relacionan por el hecho de que ambos generan o eliminan elementos de las clases minoritaria y mayoritaria respectivamente, tienen efectos diferentes al construir clasificadores con clases balanceadas por las t´ecnicas anteriores. Esto sucede principalmente debido a que entre m´as ejemplos se tenga de la clase minoritaria los clasificadores podr´an interpretar mejor los datos. As´ı, combinaciones de sobre-muestreo con sub-muestreo han sido propuestas mostrando un mejor desempe˜no que el uso de dichas t´ecnicas por separado (Chawla et al., 2002).
Figura 2.8: Sub-muestreo de datos, donde el s´ımbolo - representa los casos de la clase minoritaria y el s´ımbolo + representa los casos de la clase mayoritaria. A la derecha se representa el conjunto de datos cuyas clases ya han sido balanceadas.
2.6. MEDIDAS PARA EVALUAR EL DESEMPE ˜NO DE CLASIFICADORES23
2.6.
Medidas para evaluar el desempe˜
no de
clasificadores
El objetivo de un clasificador es discriminar en cada caso o muestra, la pre-sencia o aupre-sencia de una condici´on, que se considera la variable respuesta. En situaciones de clasificaci´on en las que se usan s´olo dos clases, cada objeto, sujeto o caso es etiquetado con uno de los elementos del conjunto {positivo (P), negativo (N)}, determinando la clase a la que pertenece dicho caso. Algunos modelos de clasificaci´on producen una salida continua, como la esti-maci´on de la probabilidad de un caso de pertenecer a una clase, situaci´on en la que diferentes umbrales de decisi´on o puntos de corte pueden ser aplicados para predecir la clase a la que pertenece dicho caso, y otros producen apenas la etiqueta discreta de una clase, indic´andose con esto la clase predicha de ese caso.
La aplicaci´on de un clasificador, en situaciones como la descrita, produce cuatro posibles resultados:
Si el caso es positivo y es clasificado como positivo se cuenta como un verdadero positivo.
Si el caso es positivo y es clasificado como negativo se cuenta como un falso negativo.
Si el caso es negativo y es clasificado como negativo se cuenta como un verdadero negativo.
Si el caso es negativo y es clasificado como positivo se cuenta como un falso positivo.
Dados un clasificador y un conjunto de sujetos, una matriz de confusi´on o tabla de contingencia de tama˜no 2×2 puede ser construida para representar la disposici´on de dicho conjunto (ver Tabla 2.1).
Los n´umeros que se encuentran a lo largo de la diagonal principal de la matriz de confusi´on representada en la Tabla 2.1 representan las clasificacio-nes correctas y los que est´an a lo largo de la diagonal secundaria representan los errores (la confusi´on) entre las clases. Esta matriz es la base o soporte para varios indicadores com´unmente utilizados en sistemas de diagn´ostico:
24 CAP´ITULO 2. MARCO TE ´ORICO Porcentaje de Verdaderos Positivos (TPR, por sus siglas en ingl´es,True Positive Rate) denominada tambi´en Tasa de Aciertos (Recall)
T P R= V erdaderosP ositivos
V erdaderosP ositivos+F alsosN egativos (2.4) Porcentaje de Falsos Positivos (FPR, por sus siglas en ingl´es, False Positive Rate) denominada tambi´en Tasa de Falsa Alarma
F P R= V erdaderosN egativos
V erdaderosN egativos+F alsosP ositivos (2.5) Precisi´on (Precision), es la proporci´on de verdaderos positivos contra todos los resultados positivos
P recision= V erdaderosP ositivos
V erdaderosP ositivos+F alsosP ositivos (2.6) Exactitud(Accuracy), es la proporci´on de clasificaci´on correcta global Exactitud= V erdaderosP ositivos+V erdaderosN egativos
V erdaderosP ositivos+V erdaderosN egativos+F alsosP ositivos+F alsosN egativos
(2.7)
Medida-F (F-measure), es la media arm´onica de la precision y recall. F= 2• precision•recall
precision+recall (2.8)
Clase Verdadera Clase Predicha Si No
Si Verdadero Positivo Falso Positivo No Falso Negativo Verdadero Negativo
Tabla 2.1: Matriz de confusi´on.
Una herramienta adicional que permite medir la eficacia de un clasificador son los gr´aficos ROC, los cuales son gr´aficos bidimensionales en los que la Fracci´on de Verdaderos Positivos (TPR) es representada en el eje Y y la Fracci´on de Falsos Positivos (FPR) es representada en el eje X. Una gr´afica ROC muestra las compensaciones relativas entre los beneficios (verdaderos positivos) y los costes (falsos positivos).
Un clasificador discreto es el que produce una salida que representa s´olo la etiqueta de la clase. Cada clasificador discreto produce un par (FPR,TPR) correspondiente a un ´unico punto en el espacio ROC. Algunos puntos impor-tantes del espacio ROC deben ser destacados, como:
2.6. MEDIDAS DE DESEMPE ˜NO 25 El punto (0,0) representa la estrategia de “nunca emitir una clasifica-ci´on positiva”. Un clasificador as´ı no comete errores de falsos positivos, pero tampoco reconoce verdaderos positivos.
El punto (1,1) representa la estrategia opuesta de “emitir incondicio-nalmente clasificaciones positivas”.
El punto (0,1) representa la clasificaci´on perfecta.
Para ilustrar lo anterior pensemos en el siguiente ejemplo, imagine que los niveles de prote´ına en la sangre en personas enfermas y personas sanas tienen una distribuci´on normal con media de 2 g/dl y 1 g/dl, respectivamente. Un examen m´edico puede medir el nivel de una prote´ına determinada en una muestra de sangre y clasificar cualquier n´umero por encima de un cierto umbral como una indicaci´on de la enfermedad. El especialista puede ajustar el umbral (linea negra vertical en la Figura 2.9 a)), que a su vez cambia la tasa de falsos positivos. Aumentar el umbral dar´ıa lugar a menos falsos positivos (y m´as falsos negativos), que corresponden a un movimiento hacia la izquierda en la curva, Figura 2.9 b).
Figura 2.9: Ejemplo de curva ROC con un predictor. a) Gr´afica de las dis-tribuciones de verdaderos negativos (TN) y de verdaderos positivos (TP), el ´area de traslape indica el porcentaje de casos que no pueden ser correc-tamente identificados. Se indican tambi´en los falsos positivos (FP) y falsos negativos (FN). La posici´on del umbral (linea vertical) determinar´a el n´ ume-ro de verdadeume-ros positivos, verdadeume-ros negativos, falsos positivos y falsos negativos que se obtienen de la prueba realizada. b) Valor ROC obtenido de acuerdo al umbral fijado en a).
26 CAP´ITULO 2. MARCO TE ´ORICO
2.7.
S´ıntesis
En esta secci´on fueron presentados conceptos relacionados con las t´ecnicas utilizadas en este trabajo de tesis para la construcci´on y evaluaci´on de un modelo probabilista que permita el pron´ostico de un evento futuro, adem´as de describir conceptos relacionados con el manejo de incertidumbre y balanceo de clases en bases de datos. En el siguiente cap´ıtulo se presenta la revisi´on del trabajo relacionado con nuestra investigaci´on.
Cap´ıtulo 3
Estado del arte
En este cap´ıtulo se presenta una revisi´on de los trabajos relacionados con el problema atacado en esta investigaci´on consistente en la construcci´on de un modelo que permita el pron´ostico de un evento de inter´es a partir de an´ ali-sis de datos temporales con clases desbalanceadas, esta revisi´on sirve para situar en que ´areas en espec´ıfico se encuentran las aportaciones de nuestro trabajo, selecci´on de variables, modelos probabilistas y finalmente modelo de la marcha.
Una vez ubicadas las aportaciones de nuestro trabajo se citan y se contrasta los trabajos m´as cercanos a nuestras aportaciones para presentar las prin-cipales diferencias con los trabajos ya publicados en, selecci´on de variables, modelos probabilistas y modelos de la marcha.
3.1.
Flujo de datos de concepto cambiante
(Concept drifting data stream)
Como hemos mencionado, en entornos din´amicos las propiedades caracter´ısti-cas de los datos a menudo no son estables o estacionarias, es decir, cambian con el tiempo. Esto se conoce en la literatura como flujo del concepto,concept drift (Widmer et Kubat, 1996).
Seg´un (Tsymbal, 2004) hay dos posibles tipos de concept drift: real con-cept drift, definido como un cambio en la definici´on del fen´omeno modelado el cual el modelo de clasificaci´on est´a tratando de predecir, y virtual concept
28 CAP´ITULO 3. ESTADO DEL ARTE drift, definido como un cambio de la distribuci´on de los datos.
Adem´as, dependiendo de la velocidad de cambio, elconcept drift puede tam-bi´en clasificarse en abrupto o gradual. Un concept drift abrupto ocurre en un punto de tiempo espec´ıfico donde se cambia de un concepto a otro. Por el contrario, en un concept drift gradual, un nuevo concepto se introduce lentamente durante un per´ıodo de tiempo extendido. Generalmente, la de-tecci´on de concept drift abruptos es m´as f´acil que la detecci´on de concept drift graduales, ya que al menos durante las fases iniciales del cambio, las perturbaciones en el flujo de datos puede ser visto como ruido por el algorit-mo de detecci´on de este fen´omeno, y, por tanto, se requieren a menudo m´as casos para distinguir el cambio gradual de ruido (Gama et Castillo, 2006). Una clasificaci´on adicional importante se basa en si el concept drift es lo-cal o global. Unconcept drift se dice que es local cuando s´olo se produce en algunas regiones del espacio de instancias (sub-espacios), y adem´as, cuando el tipo y la velocidad de los cambios tambi´en dependen de un sub-espacio espec´ıfico de instancias (Tsymbal et al., 2008). En contraste, unconcept drift global se refiere a un cambio que se produce en el espacio completo de instan-cia. Como se se˜nala en (Tsymbal et al., 2008), concept drift m´as graduales pueden ser considerados como local si la mayor´ıa de las regiones de los datos se mantienen estables, mientras que la mayor´ıa de losconcept drift abruptos no son locales.
Concept drift puede ser caracterizado como concept drift recurrente si el concept drift ya hab´ıa sido detectado previamente en el tiempo. Un ejemplo de un concept drift recurrente son los cambios de estaci´on que reaparecen peri´odicamente y regularmente (cada temporada), (Gama et Kosina, 2009). Losconcept drift pueden ser tambi´en caracterizados como novedosos, cuando se agregan algunas variables nuevas para identificar la clase o algunos de sus respectivos estados aparecer o desaparecer con el tiempo. Una clasificaci´on reciente de concept drift fue propuesta en (Minku et al., 2010) quienes ca-racterizan el concepto de acuerdo con diferentes criterios, severidad, si no mantiene la clase objetivo en el nuevo concepto, lafrecuencia, si es peri´odico o no peri´odico el comportamiento de los datos y la previsibilidad, si es pre-decible o aleatorio el comportamiento.
3.2. M ´ETODOS DE SELECCI ´ON DE VARIABLES 29 el flujos de datos ha recibido una atenci´on creciente y han sido desarrollados m´etodos que tienen como objetivo identificar el concept drift en los datos y adaptar los modelos de clasificaci´on en el tiempo (Aggarwal, 2007; Gama, 2006; Gama, 2010).
En este trabajo de investigaci´on no nos enfocamos en el desarrollo de alg´un m´etodo para identificar la propiedad concept drift en los datos. La revisi´on bibliogr´afica anterior se realiza para situar el tipo de datos con los cuales construimos los modelos presentados en esta tesis, as´ı, los datos son concept drift virtuales, abruptos, locales, no recurrentes, no severos, no peri´odicos y no predecibles.
3.2.
M´
etodos de selecci´
on de variables
Con los r´apidos avances en las tecnolog´ıas de la informaci´on y bases de datos, continuamente son generados conjuntos de datos con cientos o miles de va-riables. Esta caracter´ıstica de los datos llega a hacerlos intratables, es decir, computacionalmente costosos para poder ser usados en ´areas como: recono-cimiento de patrones, miner´ıa de datos y aprendizaje autom´atico (Jain et Zongker, 1997; Dash et Liu, 1997; Dash et Liu, 2003; Kohavi et John, 1997). El procesamiento de tales conjuntos de datos es una tarea dif´ıcil debido a que las t´ecnicas tradicionales de aprendizaje autom´atico por lo general llegan a encontrar “regularidades” aparentes, lo cual se agrava cuando se tienen mu-chos atributos y pocos datos.
La selecci´on de variables aborda el problema de trabajar con conjuntos de da-tos intratables mediante la eliminaci´on de variables irrelevantes o redundan-tes, con lo que a veces se mejora el desempe˜no del algoritmo de aprendizaje, se reduce su costo computacional y se pueden generar modelos comprensibles para los expertos del dominio (Liu et Motoda, 1998).
Los algoritmos de selecci´on de variables pueden ser clasificados en dos grupos: los m´etodos tipo filtro y los m´etodos tipo envoltura (wrappers) (Dash et Liu, 1997; Kohavi et John, 1997; Robnic-Sikonja et Kononenko, 2003; Mao, 2004; Hsu et al., 2004). Los m´etodos de filtro eval´uan la calidad del subconjunto de variables seleccionadas mediante el uso de las caracter´ısticas intr´ınsecas de los datos. Dichos m´etodos son computacionalmente baratos, ya que no