Construcción automática de un modelo de predicción a partir del análisis de datos desbalanceados

(1)

(2)

(3)

Resumen

Esta investigación se orienta al procesamiento y análisis de datos con ca-racter´ısticas particulares como son, datos temporales, incertidumbre en los datos, bases de datos con clases binarias, datos con clases desbalanceadas, datos con un evento de interés en la clase minoritaria, datos no estacionarios. Las propiedades anteriores son propias de colecciones de datos del dominio biomédico, industrial, económico, por mencionar algunos ejemplos.

As´ı, la tesis contribuye en tres áreas principales. En primer lugar, en la cons-trucción de un método de selección de variables que favorece la identi-ficación de la clase minoritaria en bases de datos con clases desbalanceadas. Segundo, la representación y construcción de un modelo dinámico

probabilista, en la forma de una Red Bayesiana Din´amica no estacionaria

que permite pronosticar la ocurrencia de un evento de la clase mayoritaria y minoritaria, favoreciendo a la clase minoritaria, y tercero la aplicación del método propuesto para la construcción deun modelo de la marcha para

pron´ostico de ca´ıdas en adultos mayores.

Los resultados obtenidos muestran que el algoritmo de selección de variables propuesto ayuda a seleccionar mejor las variables relevantes para identificar un evento en la clase minoritaria en bases de datos con clases binarias, tanto balanceadas como desbalanceadas, que algoritmos tradicionales de selección de variables.

Por otro lado, el modelo propuesto basado en una red Bayesiana din´ ami-ca no estacionaria obtiene un mejor desempeño para el pronóstico de la clase minoritaria en datos estacionarios con clases balanceadas y desbalanceadas y datos no estacionarios con clases balanceadas y desbalanceadas, que modelos construidos con técnicas convencionales como las Redes Bayesianas Din´

(4)

ii RESUMEN

cas. Además, se tiene evidencia de que los modelos construidos utilizando selección de variables tienen un mejor desempeño que los modelos construi-dos usando todas las variables del conjunto de datos.

El interés en el análisis de este tipo de datos surgió del estudio de la de-gradación de la marcha. Los modelos propuestos en esta tesis proporcionan información adicional a los expertos en el análisis cl´ınico de la marcha, con quienes se interactuó directamente, dado que no conocen con precisión cuáles son las variables más relevantes que reflejen la degradación patológica de la marcha, ni la manera en que los cambios en las variables de la marcha son desencadenados en personas con alto riesgo de sufrir ca´ıdas.

Finalmente, nuestro método es susceptible de aplicarse con éxito para el pronóstico de un evento de interés, en bases de datos temporales como son, una base de datos de ozono y una base de datos de la marcha humana, dichas bases de datos presentan las propiedades descritas al inicio de este resumen.

Palabras clave: Selecci´on de variables, modelos probabil´ıstas, pron´ostico

(5)

Abstract

This research work aims at the processing and analysis of information with particular properties such as: temporality, with uncertainty, unbalanced, and non-stationary data. These properties are common from data collected on economic, industrial processes and biomedical domains, to name a few. Thus, the contribution of this thesis is three-fold. First, on the construc-tion of a variable selection method, which favors the identiﬁcation of the minority class within unbalanced databases. Second, on the representa-tion and construcrepresenta-tion of anon stationary Dynamic Bayesian Network, which allows the prognosis of the occurrence of an event from the majority and minority classes, with emphasis on the latter. And third, by applying the proposed method, on the construction of a model for the prognosis

of falls of elderly people.

The results obtained show that the proposed variable selection algorithm helps to ﬁnd and select the relevant variables to identify an event of the minority class within binary class and unbalanced databases, with better performance measures than traditional variable selection algorithms.

The proposed probabilistic model, based on a non stationary Dynamic Baye-sian Network (nsDBN), has better performance measures on the prognosis of the minority class on stationary and non stationary data. There is evidence that models built utilizing variable selection methods have better perfor-mance and more compact models than models built using all the variables contained in the data set.

The interest on analyzing these kinds of data came from the study of degra-dation of human gait. The proposed models in this thesis provide additional

(6)

iv ABSTRACT

information to experts on the analysis of human gait in a clinical setting with whom there was direct interaction since it is not precisely known how chan-ges in these values of the gait analysis variables result in a high risk of falling.

(7)

´

_{Indice general}

Resumen I

Abstract III

Lista de figuras IX

Lista de tablas XIII

Lista de algoritmos XV

Notaci´on XVII

Acr´onimos XIX

1. Introducci´on 1

1.1. Motivaci´on . . . 1

1.2. Problem´atica . . . 3

1.3. Objetivos . . . 5

1.4. Metodolog´ıa . . . 6

1.5. Contribuciones . . . 7

1.6. Organizaci´on del documento . . . 7

2. Marco te´orico 9 2.1. Redes Bayesianas . . . 9

2.1.1. Aprendizaje param´etrico . . . 11

2.1.2. Aprendizaje estructural . . . 12

2.2. Redes Bayesianas Din´amicas . . . 14

Aprendizaje de DBNs . . . 15

2.3. Redes Bayesianas no Estacionarias . . . 16 v

(8)

vi ´INDICE GENERAL

2.4. Casos at´ıpicos (outliers) . . . 18

2.5. Clases desbalanceadas . . . 19

2.5.1. Sobre-muestreo (oversampling) . . . 20

2.5.2. Sub-muestreo (subsampling) . . . 21

2.6. Medidas para evaluar el desempe˜no de clasiﬁcadores . . . 23

2.7. S´ıntesis . . . 26

3. Estado del arte 27 3.1. Flujo de datos de concepto cambiante (Concept drifting data stream) . . . 27

3.2. M´etodos de selecci´on de variables . . . 29

3.3. T´ecnicas de modelado de datos temporales . . . 31

3.3.1. Pron´ostico basado en an´alisis estad´ıstico de sobrevi-vencia . . . 32

3.3.2. Pron´ostico de eventos basado en t´ecnicas derivadas de IA . . . 32

3.3.3. Pron´ostico basado en modelos Bayesianos . . . 34

Deﬁnici´on de nsDBN . . . 37

Aprendizaje de nsDBNs . . . 38

3.4. La marcha humana: un caso de estudio . . . 42

3.5. S´ıntesis . . . 44

4. Método de construcción de un modelo de predicción 47 4.1. Preprocesamiento de los datos . . . 48

4.1.1. Prueba de normalidad en los datos . . . 48

4.1.2. Eliminaci´on de los ejemplos at´ıpicos . . . 50

4.2. Algoritmo de selecci´on de variables . . . 53

4.3. Modelo probabilista no estacionario . . . 54

4.4. S´ıntesis . . . 62

5. Resultados de la selecci´on de variables relevantes 63 5.1. Evaluaci´on de FSMC . . . 63

5.2. Resultados . . . 65

(9)

´

INDICE GENERAL _vii

6. Resultados de la aplicaci´on del modelo de predicci´on a datos

sint´eticos 71

6.1. Generaci´on de datos sint´eticos . . . 72

6.2. Datos temporales estacionarios . . . 74

6.2.1. Datos con clases balanceadas . . . 75

6.2.2. Discusi´on sobre datos estacionarios con clases balan-ceadas . . . 79

6.2.3. Datos con clases desbalanceadas . . . 80

6.2.4. Discusi´on sobre datos estacionarios con clases desba-lanceadas . . . 83

6.3. Datos temporales no estacionarios . . . 83

6.3.1. Datos con clases balanceadas . . . 84

6.3.2. Discusi´on sobre datos no estacionarios con clases ba-lanceadas . . . 87

6.3.3. Datos con clases desbalanceadas . . . 88

6.3.4. Discusi´on sobre datos no estacionarios con clases des-balanceadas . . . 91

6.4. S´ıntesis . . . 92

7. Resultados de la aplicaci´on del modelo de predicci´on a datos reales 95 7.1. Base de datos de ozono . . . 95

7.2. Base de datos de la marcha . . . 101

7.2.1. Aplicaci´on del m´etodo propuesto . . . 101

7.2.2. Pron´ostico de ca´ıdas . . . 105

7.2.3. Valoraci´on de los expertos . . . 111

7.3. S´ıntesis . . . 112

8. Conclusiones y perspectivas 113 8.1. Discusi´on . . . 113

8.2. Conclusiones . . . 115

8.3. Perspectivas . . . 117

Referencias 121

Anexo A 133

(10)

viii ´INDICE GENERAL

Anexo C 143

Anexo D 147

Anexo E 151

Anexo F 161

Anexo G 163

(11)

´

_{Indice de figuras}

2.1. Ejemplo de una red Bayesiana. . . 10

2.2. Par´ametros asociados a una red Bayesiana . . . 12

2.3. Aprendizaje estructural . . . 14

2.4. Ejemplo de una DBN . . . 15

2.5. Aprendizaje de una red Bayesiana din´amica . . . 17

2.6. Datos no estacionarios . . . 17

2.7. Sobre-muestreo de datos . . . 21

2.8. Sub-muestreo de datos . . . 22

2.9. Ejemplo de curva ROC con un predictor . . . 25

3.1. Ejemplo de una nsDBN . . . 38

4.1. Método de costrucción de modelo de predicción . . . 47

4.2. Prueba QQ-plot . . . 49

4.3. Ejemplo de un caso at´ıpico en un conjunto de datos. . . 50

4.4. Comparaci´on de datos . . . 53

4.5. Distribuci´on normal . . . 54

4.6. Ejemplo de una nsDBN . . . 58

6.1. Comparaci´on de la exactitud de los modelos de la serie de experimentos 1 . . . 77

6.2. Comparaci´on del valor de recuerdo de los modelos de la serie de experimentos 1 . . . 77

6.3. Modelo basado en una DBN . . . 78

6.4. Modelo basado en una nsDBN . . . 79

(12)

x ´INDICE DE FIGURAS

6.6. Comparaci´on del valor de recuerdo de los modelos de la serie

de experimentos 2 . . . 81

7.1. Ejemplo agrupaci´on de ejemplos de ozono . . . 97

7.4. Modelo basado en una DBN para los datos de ozono . . . 100

7.5. Modelo basado en una nsDBN para los datos de ozono . . . . 100

7.6. Sistema GaitRite . . . 102

7.9. DBN construida con informaci´on de FSMC . . . 107

7.10. nsDBN construida con informaci´on de FSMC . . . 107

7.11. DBN construida con informaci´on de los expertos . . . 108

7.12. nsDBN construida con informaci´on de los expertos . . . 108

7.13. DBN construida con informaci´on de los expertos . . . 109

7.14. nsDBN construida con informaci´on de los expertos . . . 109

1. Comparaci´on de la exactitud de los modelos de la serie de experimentos 7 . . . 153

(13)

´

INDICE DE FIGURAS _xi

2. Comparaci´on del valor de recuerdo de los modelos de la serie de experimentos 7 . . . 153 3. Comparaci´on de la exactitud de los modelos de la serie de

experimentos 8 . . . 155 4. Comparaci´on del valor de recuerdo de los modelos de la serie

de experimentos 8 . . . 155 5. Comparaci´on de la exactitud de los modelos de la serie de

de experimentos 9 . . . 157 7. Comparaci´on de la exactitud de los modelos de la serie de

de experimentos 10 . . . 159 F.1. Registro de datos de la marcha del sistema GaitRite. . . 162 G.1. Comparaci´on de la exactitud de los modelos de la serie de

experimentos de la marcha sin casos at´ıpicos . . . 165 G.2. Comparaci´on del valor de recuerdo de los modelos de la serie

de experimentos de la marcha sin casos at´ıpicos . . . 166 H.1. Comparaci´on de la exactitud de los modelos de la serie de

experimentos de la marcha variando el umbral de aceptaci´on de FSMC . . . 169 H.2. Comparaci´on de la recuerdo de los modelos de la serie de

ex-perimentos de la marcha variando el umbral de aceptaci´on de FSMC . . . 169

(14)

(15)

´

_{Indice de tablas}

2.1. Matriz de confusi´on. . . 24

5.1. N´umero de variables seleccionadas . . . 66

5.2. Exactitud de clasiﬁcaci´on . . . 67

5.3. Signiﬁcancia estad´ıstica . . . 68

5.4. Identiﬁcaci´on de la clase mayoritaria y minoritaria . . . 69

5.5. Resumen de ganadores . . . 69

6.1. Resumen de la generaci´on de datos sint´eticos. . . 74

6.2. Valores de las medidas estad´ısticas de la serie de experimentos 1 78 6.3. Valores de las medidas estad´ısticas de la serie de experimentos 2 81 6.4. Variables relevantes datos no estacionarios balanceados . . . . 84

6.5. Valores de las medidas estad´ısticas de la serie de experimentos 3 86 6.6. Variables relevantes datos no estacionarios desbalanceados . . 88

6.7. Valores de las medidas estad´ısticas de la serie de experimentos 4 90 7.1. Variables relevantes de la base de datos ozono . . . 98

7.2. Valores de las medidas estad´ısticas de la serie de experimentos 5 99 7.3. Informaci´on proporcionada en un an´alisis de la marcha. . . 103

7.4. Variables relevantes de la base de datos de la marcha . . . 105

7.5. Valores de las medidas estad´ısticas de la serie de experimentos de la marcha . . . 110

A.1. Exactitud en porcentaje de clasiﬁcaci´on . . . 133

B.1. Clasiﬁcaci´on de la clase minoritaria . . . 136

B.2. Clasiﬁcaci´on de la clase mayoritaria . . . 137

B.3. Precisi´on de los clasiﬁcadores construidos . . . 139

B.4. Recuerdo de los clasiﬁcadores construidos . . . 140 xiii

(16)

xiv ´INDICE DE TABLAS

B.5. Medida-F de los clasiﬁcadores construidos . . . 141 B.6. ROC de los clasiﬁcadores construidos . . . 142 C.1. Valores en extenso de las medidas estad´ısticas de la serie de

experimentos 1 . . . 144 C.2. Valores en extenso de las medidas estad´ısticas de la serie de

experimentos 2 . . . 145 D.1. Valores en extenso de las medidas estad´ısticas de la serie de

experimentos 3 . . . 148 D.2. Valores en extenso de las medidas estad´ısticas de la serie de

experimentos 4 . . . 149 E.1. Valores de las medidas estad´ısticas de la serie de experimentos 7152 E.2. Valores de las medidas estad´ısticas de la serie de experimentos 8154 E.3. Valores de las medidas estad´ısticas de la serie de experimentos 9156 E.4. Valores de las medidas estad´ısticas de la serie de experimentos

10 . . . 158 G.1. Variables relevantes de la base de datos de la marcha . . . 164 G.2. Valores de las medidas estad´ısticas de la serie de experimentos

de la marcha sin casos at´ıpicos . . . 165 H.1. Variables relevantes de la base de datos de la marcha . . . 168 H.2. Valores de las medidas estad´ısticas de la serie de experimentos

(17)

Lista de algoritmos

4.1. Algoritmo para preprocesamiento de datos . . . 52

4.2. Algoritmo FSMC . . . 55

4.3. Algoritmo para discretizaci´on . . . 60

4.4. Algoritmo para la construcci´on de una nsDBN . . . 61

(18)

(19)

Notaci´

on

S´ımbolo Significado

Xi Variable aleatoria i

P(A) Probabilidad de A

P(A_∏|B) Probabilidad condicional de A dado B

Producto de t´erminos

πi Conjunto de padres de la variable i

ti Tiempo de transici´on i

σ Desviaci´on est´andar

µ Media

¯

x Mediana

Γ Distribuci´on de probabilidad continua

(20)

(21)

Acr´

onimos

Acr´onimo Significado

CONAPO Consejo Nacional de Población en México INR Instituto Nacional de Rehabilitación

IA Inteligencia Artiﬁcial

nsDBN Red Bayesiana Din´amica no Estacionaria

BN Red Bayesiana

DBN, Red Bayesiana Din´amica TPR Porcentaje de Verdaderos Positivos FPR Porcentaje de Falsos Positivos PDF Funci´on de densidad de probabilidad FSMC Feature Selection for Minority Class

FL L´ogica Difusa

NN Redes Neuronales

SVM M´aquinas de Soporte Vectorial

HMM Modelos Ocultos de Markov

SSS Successive State Splitting BDe Bayesian-Dirichlet equivalent

TUG Timed up and go

BBS Berg balance scale UCI University of California, Irvine

(22)

(23)

Cap´ıtulo 1

Introducci´

on

1.1. Motivaci´

on

Diversas áreas del conocimiento y problemas de la sociedad del dominio m´ edi-co, industrial, económico y ambiental, entre otros, tienen el común denomina-dor de una generación sostenida de conocimiento a la par de una acumulación constante de información. Este fenónemo plantea retos a las ciencias de la in-formación al demandar el desarrollo de herramientas automáticas que ayuden a procesar, sintetizar y abstraer información relevante de dichos datos, para as´ı aprovechar la información obtenida para la comprensión, el monitoreo, clasificación o pronóstico de algún evento de interés. En algunos dominios los datos presentan caracter´ısticas particulares que demandan el desarrollo de técnicas de análisis novedosas. En particular, en esta tesis estamos intere-sados en el procesamiento y análisis de datos con caracter´ısticas particulares como son:

Temporalidad.- Estos datos han sido registrados en distintos periodos de tiempo para registrar su evoluci´on.

Incertidumbre en los datos.- Los datos en ocasiones son contradictorios, incompletos, o presentan alg´un tipo de ruido.

Datos con clases binarias.- En el contexto de esta tesis, clase binaria son datos donde existen dos clases.

Datos con clases desbalanceadas.- Son datos donde existe una despro-porci´on en el n´umero de ejemplos de cada una de las clases.

(24)

2 CAPÍTULO 1. INTRODUCCI ÓN Datos no estacionarios.- Son datos cuya información relevante, obtenida en cada periodo de tiempo, presenta alta variabilidad.

Evento de inter´es.- Ocurrencia de un suceso propio del fen´omeno de estudio.

El caso de estudio que dio lugar a esta investigación es el desarrollo de un modelo de la marcha que proporcione una probabilidad de riesgo de ca´ıda en adultos mayores. Según datos del Consejo Nacional de Población en México (CONAPO), el número de adultos mayores en el pa´ıs se habrá cuadruplicado en un lapso de 50 años1. Además, de acuerdo a los datos del Instituto Nacio-nal de Rehabilitación (INR), el riesgo de ca´ıdas en adultos mayores (personas mayores de 65 años) es mayor que en otros sectores de la sociedad. Para este sector de la sociedad una ca´ıda puede ocasionar serias lesiones o incluso la muerte. De hecho, registros estad´ısticos del INR muestran que las ca´ıdas en personas adultas mayores son la principal causa de muerte en este sector. Por lo anterior, es de interés para los expertos en el dominio una adecuada evaluación del riesgo de ca´ıda para reducir la incidencia de éstas en adultos mayores. Cabe señalar que éste problema trasciende el ámbito nacional y es un grave problema social de interés para la comunidad internacional (Masud et Morris, 2001; World Health Organization, 2007).

Actualmente, los expertos en el dominio utilizan un estudio conocido como análisis de la marcha para diagnosticar una marcha patológica. “El análisis de la marcha es el proceso donde información cuantitativa es colectada para ayudar en el entendimiento de las causas de las anormalidades en la mar-cha de una persona y la toma de decisión del tratamiento a seguir”(Davis et al., 1999). Dicha información es obtenida con ayuda de diversos instrumen-tos biomecánicos, como sistemas de cámaras, sensores electromagnéticos, etc. Algo esencial en este proceso es la interpretación de esos datos por un equipo de expertos experimentado e interdisciplinario con un conocimiento conside-rable en marcha normal y patológica (Haworth, 2008).

Los datos capturados en un análisis de la marcha cumplen las caracter´ısticas enunciadas al inicio de este párrafo, lo cual se revisa a detalle en la siguiente sección.

1_{Para mas informaci´}_{on ver:}

http://www.conapo.gob.mx/es/CONAPO/

(25)

1.2. PROBLEM ´ATICA 3

1.2. Problem´

atica

Como se ha mencionado nuestro trabajo se enfoca en el análisis de datos temporales, los cuales dan un seguimiento a algún fenómeno, por ejemplo, monitoreo del clima, seguimiento de pacientes con algún tipo de padecimien-to, control de calidad, etc. Dicho seguimiento tiene como objetivo identificar algún evento de interés, el cual es poco común pero relevante, por ejemplo, la incidencia de una enfermedad, la falla en una l´ınea electrónica. En este tipo de información se presenta el problema de desbalanceo de clases en los datos.

El problema de desbalanceo de clases en los datos es un tema de interés en la literatura de aprendizaje automático y miner´ıa de datos, debido a que provoca un sesgo en el desempeño de los clasificadores estándares hacia el reconocimiento de las clases más numerosas, en detrimento de las poco co-munes (Laza et al., 2011). En esta tesis proponemos un método novedoso de selección de variables para mejorar la clasificación de la clase minoritaria. Es importante señalar que en este tipo de problemas se requiere una adecua-da distinción de la clase minoritaria la cual es generalmente la clase de interés. Por otro lado, en datos generados en aplicaciones reales se tiene el problema de la adquicisión y medición de dichos datos debido a los medios y condi-ciones con los que son tomados, lo cual ocasiona que los datos obtenidos contengan ruido; esto es, los datos pueden ser contradictorios, incompletos o que comprendan una cantidad considerable de casos at´ıpicos (outliers), lo que definimos como incertidumbre en los datos. Esta situación hace compli-cado el análisis de los datos dado que la incertidumbre introduce estad´ısticas erróneas que afectan el desempeño de las técnicas de aprendizaje automático o de miner´ıa de datos.

Lo anterior plantea problemas para la construcción de modelos que permitan pronosticar algún evento a partir del análisis de datos temporales, dado que el problema de desbalanceo de clase e incertidumbre en los datos hace dif´ıcil el tener una representación del fenómeno que se quiere analizar o describir para fines de pronóstico de eventos futuros. En esta tesis hacemos análisis de datos para determinar si los datos tienen una distribución normal as´ı como para identificar los casos at´ıpicos antes de aplicar el método propuesto en este trabajo.

(26)

4 CAP´ITULO 1. INTRODUCCI ´ON

Aunque existen propuestas para tratar datos temporales, muchas técnicas suponen (Papageorgiou et al., 2009; Madu, 2005; Noguchi et al., 2002; Cha-ritos et al., 2009; Seijas et al., 2006) que las distribuciones de probabilidad de los datos son estacionarios, esto es, no cambian con el tiempo. A pesar de ser una suposición razonable en muchos dominios, en otros es una suposición que no puede generalizarse y que degrada el desempeño de los modelos. Existen fenómenos donde se tienen datos temporales con una gran variabilidad, y para este tipo de datos los cambios que hubo en un tiempot pueden cambiar la dependencia entre variables en un tiempot+1, e incluso puede modificar-se el conjunto de las variables relevantes. La hipótesis de nuestro trabajo es que modelos que permiten la representación de dicha variabilidad temporal permitirán obtener un mejor desempeño en la identificación de eventos pa-ra lo cual proponemos la construcción de un modelo probabilista, donde se aprenden modelos parciales por cada periodo de tiempo.

Para contextualizar nuestra motivación tomaremos el ejemplo de datos de la marcha en el resto de esta sección. Debe recordarse, sin embargo, que nuestra investigación no se restringe al análisis de este tipo de datos.

Cabe mencionar que hasta donde sabemos, no existen trabajos que repor-ten el uso de datos de la marcha para la creación de un modelo que permita estimar el riesgo de ca´ıda provocada por una degradación patológica de la marcha. Esto es, un modelo que proporcione información a los expertos del dominio sobre los cambios en la marcha relacionados con la degradación pa-tológica asociados con la pérdida de estabilidad, y por consecuencia a un aumento en el riesgo de ca´ıdas en personas adultas mayores.

Por otro lado, el desarrollo de técnicas que determinen cuáles parámetros de la marcha son relevantes para determinar de forma automática que una persona presenta una degradación patológica de la marcha, y aún más pro-porcionar información acerca del riesgo de padecer una ca´ıda con base en los cambios detectados en aquellos parámetros relevantes, podr´ıa ofrecer un pre-diagnóstico, o diagnóstico alternativo o complementar el diagnóstico de los expertos médicos.

Los m´etodos y tecnolog´ıas existentes para un an´alisis de la marcha son nu-merosos (Davis et al., 1999; Lee et Chou, 2006; Saboune et Charpillet, 2005;

(27)

1.3. OBJETIVOS 5 Dabiri et al., 2008; Shumway-Cook et. al., 2000; Kenny et al., 2001; Cuaya et al., 2012), y permiten la obtención de los parámetros cuantitativos carac-ter´ısticos de un patrón de marcha de manera objetiva. Los tipos de datos obtenidos en dicho análisis pueden ser espacio-temporales como: tiempo de soporte, cadencia, largo de paso, velocidad; datos cinemáticos como: ángulos articulares, rotación de la pelvis, ángulo de progresión del pie; datos cin´ eti-cos como: fuerza de reacción anteo-posterior, fuerza de reacción vertical, por mencionar algunos.

Existen técnicas de modelado y pronóstico por parte de la Inteligencia Ar-tificial (IA), como son Lógica Difusa, Redes Neuronales, Redes Bayesianas, por mencionar algunas, las cuales ofrecen distintas maneras de ajustar un modelo a partir de datos de un fenómeno que evoluciona en el tiempo, as´ı co-mo representar las relaciones entre estos datos, y que permiten inferir algún suceso de interés con base en la información de los datos representados o modelados. Un reto importante para el uso de estas técnicas en dominios médicos es la identificación de la información para la construcción de dichos modelos, esto es, saber cuáles son las variables más relevantes y las relaciones entre ellas para dar un diagnóstico o una probabilidad de riesgo de un evento determinado, e. g. tener una ca´ıda.

Cabe señalar que los expertos en el análisis cl´ınico de la marcha no conocen con precisión cuáles son las variables más relevantes que reflejen la degrada-ción de la marcha patológica, ni la manera en que los cambios en las variables de la marcha son desencadenados en personas con alto riesgo de sufrir ca´ıdas, por lo que el proporcionarles este tipo de alternativas puede servir como un complemento para el mejor entendimiento de las causas que provocan una de-gradación patológica de la marcha lo cual es una contribución de las ciencias computacionales aplicadas en un dominio médico.

1.3. Objetivos

El objetivo principal de este trabajo de tesis esla construcci´on autom´

ati-ca de modelos para predecir un evento a partir del an´alisis de datos

temporales no estacionarios con clases desbalanceadas.

(28)

6 CAPÍTULO 1. INTRODUCCI ÓN 1. Identificación y representación de las variables relevantes para pron´

osti-co de un evento de inter´es.

2. Identificación o caracterización de una medida que permita reconocer la variabilidad en los datos.

3. Representación de la evolución en el tiempo y las relaciones entre las variables identificadas como relevantes.

4. Construcción automática de un modelo probabilista basado en Redes Bayesianas Dinámicas no estacionarias (nsDBN) que permita estimar el riesgo de ocurrencia de un evento de interés.

5. Construcción de un modelo de la marcha basado en una nsDBN que permita detectar la degradación patológica de ésta en adultos mayores, y con base en ello determinar la probabilidad de riesgo de ca´ıda a lo largo de un periodo de tiempo de 6 a 12 meses.

6. Evaluaci´on del modelo propuesto con diferentes tipos de base de datos.

1.4. Metodolog´ıa

Como se ha mencionado el problema abordado en esta investigación es la construcción automática de un modelo probabilista para el pronóstico de un evento de interés a partir del análisis de datos no estacionarios con clases desbalanceadas. Para ello se siguió la siguiente metodolog´ıa:

1. Comparación entre las clases de bases de datos con clases binarias des-balanceadas, para la identificación de los atributos relevantes que ayu-dan a favorecer la distinción de la clase minoritaria. Se obtiene as´ı un algoritmo de selección de variables el cual fue comparado con diferentes algoritmos de selección de variables obteniendo mejores clasificadores para identificar a la clase minoritaria, utilizando las variables seleccio-nadas con nuestro algoritmo.

2. Construcción de una red Bayesiana dinámica no estacionaria para el modelado de datos no estacionarios con clases desbalanceadas, con el fin de obtener un modelo que aproveche la información no estacionaria de los datos para obtener un mejor pronóstico de la clase minoritaria.

(29)

1.5. CONTRIBUCIONES 7 El modelo propuesto fue comparado con modelos basados en DBNs, aplicados a datos sintéticos y datos reales, mostrando que el uso de nuestro modelo tiene un mejor desempeño que los modelos basados en DBNs para el pronóstico de la clase minoritaria. Cabe señalar que una caracteristica de este tipo de modelos es que son estacionarios por ´

epocas.

3. Aplicación del resultado de nuestra investigación para la construcción de un modelo de la marcha que permite el pronóstico de ca´ıdas en adultos mayores a 6 y 12 meses. Se construyeron modelos basados en la información de los expertos, as´ı como modelos construidos con la información obtenida con FSMC y modelos construidos combinando la información de los expertos con la información de FSMC. Los mode-los construidos fueron evaluados utilizando información de expedientes cerrados, obteniendo resultados interesantes para los expertos del do-minio.

1.5. Contribuciones

La tesis contribuye en tres ´areas principales:

En primer lugar, en la construcci´on de un m´etodo que permite la

se-lecci´on de variables relevantespara la caracterizaci´on de una clase

minoritaria.

Segundo, larepresentaci´on y construcci´on de un modelo

proba-bilista no estacionario que permite pronosticar la ocurrencia de un

evento perteneciente a la clase minoritaria.

Y tercero, la aplicaci´on del modelo previo para la construcci´on de un

modeloprobabilista no estacionarioque permita identificar riesgo

de ca´ıda en adultos mayores.

1.6. Organizaci´

on del documento

El resto de este documento está organizado de la siguiente manera, en el cap´ıtulo 2 se hace una revisión de las técnicas utilizadas en esta tesis. El

(30)

8 CAPÍTULO 1. INTRODUCCI ÓN cap´ıtulo 3 presenta la revisión y discusión del trabajo relacionado. El cap´ıtu-lo 4 describe en detalle las fases del método propuesto, en los cap´ıtulo 5, 6 y 7 se presentan, respectivamentre, los resultados en extenso del algoritmo de selección de variables, de la aplicación del método a datos sintético, y de la aplicación del método a datos reales. En el cap´ıtulo 8 se discuten los resultados, conclusiones y trabajo futuro.

Los s´ımbolos utilizados en las fórmulas y los acrónimos de este documen-to están detallados en la tabla de notación y de acrónimos proporcionada al inicio de este documento.

(31)

Cap´ıtulo 2

Marco te´

orico

En esta sección se revisarán los conceptos y técnicas implicados en este tra-bajo de investigación, como son técnicas estad´ısticas para el manejo de datos con clases desbalanceadas y datos at´ıpicos, modelos probabilistas, medidas de evaluación de desempeño de un modelo. Cabe señalar que la mayor´ıa de la información presentada en este cap´ıtulo respecto a redes Bayesianas y redes Bayesianas dinámicas está basada en un curso en l´ınea.1

2.1. Redes Bayesianas

Formalmente, las redes Bayesianas (BNs, por sus siglas en inglés, Bayesian Networks) son grafos ac´ıclicos dirigidos cuyos nodos o vértices representan variables aleatorias y los arcos que unen a estos nodos representan dependen-cias condicionales entre las variables. Los nodos pueden representar cualquier tipo de variable, ya sea un parámetro medible (o medido), una variable la-tente o una hipótesis. La variable a la que apunta el arco es dependiente (causa-efecto) de la que está en el origen de éste.

La topolog´ıa o estructura de la red nos da información sobre las dependen-cias probabil´ısticas entre las variables pero también sobre las independencias condicionales de una variable (o conjunto de variables) dada otra variable(s). Dichas independencias simplifican la representación del conocimiento, es de-cir, producen menos parámetros, y el razonamiento expresado como propa-gación de las probabilidades. La Figura 2.1 muestra una red Bayesiana donde

1_{Para mas informaci´}_{on ver}

http://ccc.inaoep.mx/~esucar/Clases-mgp/caprb.pdf

(32)

10 CAP´ITULO 2. MARCO TE ´ORICO el nodo d es independiente del nodo c dado el nodo a.

Si existe un arco que une un nodo A con otro nodo B, A es denominado un “padre” de B, y B es llamado un “hijo” de A. Al conjunto de nodos padre de un nodoXi lo denotamos como πi). Un gráfo ac´ıclico dirigido representa una red Bayesiana relativa a un conjunto de variables si la distribución con-junta de los valores de los nodos puede ser escrita como el producto de las distribuciones locales de cada nodo dados sus padres, según se expresa en la Fórmula 2.1.

Figura 2.1: Ejemplo de una red Bayesiana.

P(X1, X2, ..., Xn) =

n

∏

i=1

P(Xi|πi)) (2.1) dondeP representa la probabilidad,Xi es el nodo i,n es el n´umero de nodos en la red, ∏el producto de los t´erminos a su derecha.

Si el nodoXi no tiene padres, su distribuci´on local de probabilidad se toma como incondicional, en otro caso es condicional. Si el valor de un nodo es observable, y por tanto etiquetado como observado, dicho nodo es un nodo deevidencia.

Las redes Bayesianas son una alternativa para miner´ıa de datos, las cuales tienen varias ventajas:

Permiten aprender relaciones de dependencia y causalidad. Permiten combinar conocimiento con datos.

(33)

2.1. REDES BAYESIANAS 11 Pueden manejar bases incompletas de datos.

La obtenci´on de una red Bayesiana a partir de datos es un proceso de apren-dizaje, el cual consiste en dos aspectos:

1. Aprendizaje param´etrico: dada una estructura, se busca obtener las probabilidades a priori y condicionales requeridas.

2. Aprendizaje estructural: se busca obtener la estructura de la red Ba-yesiana, es decir, las relaciones de dependencia e independencia condi-cional entre las variables involucradas.

A continuaci´on se describen con m´as detalle los aspectos anteriores.

2.1.1. Aprendizaje param´

etrico

El aprendizaje paramétrico consiste en encontrar los parámetros asociados a una estructura dada de una red Bayesiana. Dichos parámetros corresponden a las probabilidades a priori o previas, de un nodo ra´ız, esto es, el vector de probabilidades marginales de aquellos nodos que no tienen padres y las pro-babilidades condicionales de las demás variables, dados sus padres, esto es la matriz de probabilidades marginales o condicionales. La Figura 2.2 muestra un ejemplo de una BN con algunas matrices de probabilidad asociadas a los nodos de la red.

Cuando se tienen datos completos y suficientes para todas las variables en el modelo, es relativamente fácil obtener los parámetros, suponiendo que la estructura está dada. El método más común es el llamado estimador de m´ axi-ma verosimilitud, bajo el cual se estiaxi-man las probabilidades con base en las frecuencias de los datos. Para una red Bayesiana se tienen dos casos:

Nodos ra´ız. Se estima la probabilidad marginal. Por ejemplo:P(Xi)∼

(Ma×Xi)/N, dondeMa es el n´umero de ocurrencias del valor a de la variable Xi y N es el n´umero total de casos o registros.

Nodos internos. Se estima la probabilidad condicional de cada

varia-ble dados sus padres. Por ejemplo:P(Yi|Xj, Zk)∼MabcYiXjZk/ObcXjZk, dondeMabcYiXjZkes el n´umero de casos en queYi =a, Xj =byZk =c y ObcXjZk es el n´umero de casos en que Xj =b y Zk=c.

(34)

12 CAP´ITULO 2. MARCO TE ´ORICO

Figura 2.2: Par´ametros asociados a una red Bayesiana. Se muestran las tablas de probabilidad condicional de algunas de las variables de la red Bayesiana que representa: probabilidad a priori o previa de C, P(C); probabilidad condicional de T dado C,P(T|C); y probabilidad condicional de F dado T y G,P(F|T, G). En este ejemplo se supone que todas las variables son binarias, y los posibles valores que pueden tomar son a y b.

2.1.2. Aprendizaje estructural

El aprendizaje estructural consiste en encontrar las relaciones de dependencia entre las variables, de forma que se pueda determinar la topolog´ıa o estructura de la red Bayesiana. Para aprender la estructura de redes multiconectadas, existen dos clases de m´etodos:

M´etodos basados en medidas de ajuste y b´usqueda, en esta clase

de métodos se tiene una evaluación global de la estructura respecto a los datos. Es decir, se generan diferentes estructuras y se evalúan respecto a los datos utilizando alguna medida de ajuste.

M´etodos basados en pruebas de independencia, a diferencia del

enfoque basado en una medida global, este enfoque se basa en medidas de dependencia local entre subconjuntos de variables. El caso m´as

(35)

sen-2.1. REDES BAYESIANAS 13 cillo es el del algoritmo de Chow y Liu (Chow et Liu, 1968), en el cual se mide la informaci´on mutua entre pares de variables.

Las técnicas de aprendizaje estructural dependen del tipo de estructura de red: árboles, poliárboles y redes multiconectadas. Otra alternativa es combi-nar conocimiento subjetivo del experto con aprendizaje. Para ello se parte de la estructura dada por el experto, la cual se valida y mejora utilizando datos estad´ısticos.

El encontrar la estructura óptima de una red Bayesiana es dif´ıcil, ya que el espacio de búsqueda es muy grande. Por ejemplo, hay más de 1040 di-ferentes estructuras para 10 variables. Por esto, se utilizan estrategias de búsqueda heur´ısticas que encuentran una solución aceptable pero, general-mente, no óptima. Otra alternativa es combinar los métodos automáticos con conocimiento de expertos.

Generalmente, se establece un método para hacer una búsqueda de la “me-jor” estructura entre todas las estructuras posibles. Dado que el número de posibles estructuras es exponencial en el número de variables, es costoso evaluar todas las estructuras, por lo que se hace una búsqueda heur´ıstica. Se pueden aplicar diferentes métodos de búsqueda, una estrategia común es aplicar búsqueda de ascenso de colinas (hill climbing), en la cual se inicia con una estructura simple, como un árbol, que se va mejorando hasta llegar a la “mejor” estructura. El proceso general de la búsqueda de la mejor estructura es el siguiente:

1. Generar una estructura inicial - ´arbol.

2. Calcular la medida de calidad de la estructura inicial. 3. Agregar / invertir un arco en la estructura actual. 4. Calcular la medida de calidad de la nueva estructura.

5. Si se mejora la calidad, conservar el cambio; si no, dejar la estructura anterior.

(36)

14 CAPÍTULO 2. MARCO TE ÓRICO Se pueden utilizar otros métodos de búsqueda como algoritmos genéticos, recocido simulado, búsquedas bidireccionales, etc. La Figura 2.3 ilustra un ejemplo del algoritmo de aprendizaje estructural de una BN, inciando con una estructura de árbol que se va mejorando hasta llegar a una estructura final.

Figura 2.3: Algunos pasos en la secuencia del aprendizaje de la estructura, partiendo de un ´arbol (izquierda) hasta llegar a la estructura ﬁnal (derecha).

2.2. Redes Bayesianas Din´

amicas

Las redes Bayesianas permiten representar el estado de las variables en un cierto periodo de tiempo. Para representar procesos dinámicos existe una extensión a estos modelos conocida como Red Bayesiana Dinámica (DBN, por sus siglas en inglés, Dynamic Bayesian Networks), las cuales consisten en una representación de los estados del proceso en un tiempo (red estática) y las relaciones temporales entre dichos procesos (red de transición).

Para las DBN generalmente se hacen las siguientes suposiciones:

Proceso Markoviano. El estado actual s´olo depende del estado anterior (s´olo hay arcos entre instantes de tiempo consecutivos).

Proceso estacionario en el tiempo. Las probabilidades condicionales en el modelo no cambian con el tiempo.

Lo anterior implica que podemos deﬁnir una DBN con base en dos compo-nentes: (i) una red base est´atica que se repite en cada periodo, durante un

(37)

2.2. REDES BAYESIANAS DIN ÁMICAS 15 cierto intervalo de tiempo predefinido; y (ii) una red de transición entre eta-pas consecutivas (dada la propiedad Markoviana). Un ejemplo de una DBN se muestra en la Figura 2.4.

Figura 2.4: Ejemplo de una DBN. Se muestra la estructura base que se repite en n etapas temporales, denotadas como t1, t2, ..., tn, as´ı como las relaciones de dependencia entre etapas.

La inferencia en una DBN es en principio la misma que para una BN, por lo que aplican los mismos métodos. Sin embargo, la complejidad aumenta dado que el número de nodos en la red se multiplica debido a que cada nodo en la DBN debe ser considerado como un nodo diferente en cada periodo de tiempo, por lo que son más comunes los métodos basados en simulación estocástica, como los métodos Montecarlo (Metropolis et Ulam, 1949) y los Filtros de Part´ıculas (Gordon et al. 1993).

Aprendizaje de DBNs

Dada la representación de una DBN con base en dos componentes, la red estática y la red de transición, el aprendizaje de DBN puede naturalmente dividirse en el aprendizaje de cada parte por separado:

1. Aprender la estructura base o red est´atica. 2. Aprender la estructura de transici´on.

(38)

16 CAPÍTULO 2. MARCO TE ÓRICO Para aprender la estructura base se consideran los datos de todas las va-riables en cada tiempo, de forma que sea posible obtener las dependencias entre éstas sin considerar las relaciones temporales. Entonces el problema es equivalente al aprendizaje estructural y paramétrico de una red Bayesiana. Dada la estructura base, se aprende la red de transición. Esto se puede reali-zar usando ambos enfoques, tanto el basado en medidas de ajuste y búsqueda, como el de medidas locales, con ciertas variantes. Si se utiliza el enfoque ba-sado en búsqueda, se parte de una estructura inicial con dos copias de la red base, y se busca agregar las ligas entre variables en el tiempo t0 y t1 que

optimicen la medida de evaluación. Para ello se consideran los datos de cada variable en un tiempo y el siguiente (de acuerdo al periodo predefinido). Para el enfoque de medidas locales, se aplican éstas a las variables entre etapas para de esta forma determinar los arcos a incluirse en la red de transición. La Figura 2.5 ilustra el esquema general de aprendizaje de una DBN para un ejemplo sencillo.

Cabe señalar que se ha descrito sólo un modo de aprendizaje de la estructu-ra de una DBN, el cual ha sido utilizada por otros autores (Friedman et al., 1998, Murphy, 2002; Campos et Puerta, 2000; Mart´ınez et Sucar, 2008) y el cual fue utilizado para construir los modelos basados en DBNs presentados en esta tesis. Existen otros modos de aprendizaje de DBNs como los presen-tados en (Boyen et al., 1999; McCallum, 1995), los cuales aprenden la red base como la red de transición al mismo tiempo, por mencionar una variante.

2.3. Redes Bayesianas no Estacionarias

Debido a que estamos interesados en el análisis de datos temporales es im-portante definir qué son datos temporales estacionarios y no estacionarios. Un proceso o fenómeno estacionario es aquel cuyas propiedades estad´ısticas como son media y desviación estándar, no cambian en el tiempo, y aquellos procesos o fenómenos cuyas propiedades estad´ısticas cambian en el tiempo son definidos como procesos o fenómenos no estacionarios. La Figura 2.6 muestra el comportamiento tanto de un proceso estacionario como de un proceso no estacionario2_.

(39)

2.3. REDES BAYESIANAS NO ESTACIONARIAS 17

Figura 2.5: Aprendizaje de una red Bayesiana din´amica. Primero se obtiene la estructura base (izquierda) y despu´es las relaciones entre etapas (derecha).

Figura 2.6: Ejemplo del comportamiento en el tiempo de datos estacionarios y no estacionarios.

(40)

18 CAPÍTULO 2. MARCO TE ÓRICO Las DBNs son excelentes modelos para la descripción de las dependencias entre variables aleatorias en datos temporales, pero éstas no pueden repre-sentar aquellos casos en que dichas dependencias cambien con el tiempo, lo cual puede ocurrir al modelarse fenómenos no estacionarios. En contraste una Red Bayesiana Dinámica no Estacionaria (nsDBN, por sus siglas en inglés, non-stationary Dynamic Bayesian Networks), adem´as de representar las re-laciones entre variables de datos temporales, permite representar los cambios entre estas relaciones de acuerdo al periodo de tiempo analizado (época); es decir, permite cambiar las relaciones entre las variables entre distintos pe-riodos de tiempo e incluso las variables involucradas. Cabe señalar que una caracteristica de este tipo de modelos es que son estacionarios por épocas. Hasta donde sabemos no existe una definición general de este tipo de redes, ni tampoco un método estándar para aprender dichas redes. Se han publica-do recientemente trabajos en publica-donde son definidas y se presenta un método para aprederlas (Pernestal et Nyberg, 2009; Jia et Huan, 2010; Robinson et Hartemink, 2010). En este trabajo de tesis nos basaremos en la definición de (Robinson et Hartemink, 2010) y la extenderemos, la cual se revisa en el cap´ıtulo 4 de este documento.

2.4. Casos at´ıpicos (

outliers

)

Unoutlier es una observaci´on que se desv´ıa tanto de las otras observaciones como para crear la sospecha de que fue generado por un mecanismo diferen-te (Hawkins, 1980). Frecuendiferen-temendiferen-te, los casos at´ıpicos son removidos para mejorar la precisi´on de los estimadores estad´ısticos.

Un tratamiento detallado de casos at´ıpicos en el área de estad´ıstica aparece en (Barnett et Lewis, 1994). Los autores de dicho trabajo dan una extensa lista de métodos para detectar casos at´ıpicos. Una de las técnicas más comu-nes para detectar casos at´ıpicos es utilizar el siguiente criterio:

Sea µ la media y σ la desviación estándar de un conjunto de datos, una observación es declarada un casos at´ıpicos si cae fuera del intervalo expresa-do en la Fórmula 2.2.

(41)

2.5. CLASES DESBALANCEADAS 19 donde el valor de k es usualmente tomada como 2 o 3. La justificación de estos valores es sustentada en el hecho de que suponiendo una distribución normal se espera que 95.45 % y 99.75 % de los datos caigan en el intervalo centrado en la media±dos o tres desviaciones estándar, respectivamente. De la Fórmula 2.2, la observaciónx es considerada un caso at´ıpico si se satisface la Fórmula 2.3:

|x−µ|

σ > k (2.3)

2.5. Clases desbalanceadas

El problema de clases desbalanceadas ocurre cuando el número de instancias pertenecientes a cada clase en un conjunto de datos es muy diferente. Ello provoca que los clasificadores tengan gran exactitud para calcular modelos sobre la clase mayoritaria pero una pobre exactitud predictiva sobre los datos de la clase minoritaria. Esto ocurre cuando el clasificador intenta reducir el error global, pues el error de clasificación no tiene en cuenta la distribución de los datos. En general, el contar con pocos datos de una clase dificulta el desempeño de los clasificadores porque existen pocos datos para soportar los posibles patrones que se van construyendo.

El problema de los datos con clases desbalanceadas en miner´ıa de datos es un tema que ha cobrado gran interés en la comunidad, dado que está presente en muchos dominios de aplicación entre los que podemos citar la detección de fraude, detección de derrames de petróleo a partir de imágenes de radar, detección de fallas en procesos industriales, diagnóstico médico, entre otros, (Chawla et al., 2004). En muchas de estas aplicaciones la clase minoritaria es justamente la clase de mayor interés y la que más interesa clasificar co-rrectamente, puesto que está formada por los casos que ocurren con menor frecuencia o que son más dif´ıciles de identificar (Kotsiantis et al., 2006). Por ejemplo, en el caso de detección de cáncer, tenemos pocos pacientes enfermos (clase minoritaria) y gran cantidad de pacientes sanos (clase mayoritaria). En este caso interesa detectar correctamente a los pacientes enfermos. Cabe señalar que el costo de un falso positivo suele ser muy inferior al de un falso negativo, es decir, no detectar un individuo perteneciente a la clase minori-taria es más costoso por las implicaciones asociadas, que el no detectar a un individuo que pertenece a la clase mayoritaria.

(42)

Se han desarrollado numerosas técnicas para hacer frente al problema de las clases no balanceadas en el aprendizaje automático, entre las más popu-lares encontramos técnicas de sobre-muestreo (oversampling), sub-muestreo (subsampling) y selección de variables. El problema de los datos no balancea-dos está presente en muchos dominios de aplicación entre los que podemos citar la detección de fraude, detección de derrames de petróleo a partir de imágenes de radar, detección de fallas en procesos industriales, diagnóstico médico, por mencionar algunos (Chawla et al., 2004).

Muchas aplicaciones de miner´ıa de datos en el mundo real involucran apren-dizaje a partir de un conjunto de datos con clases desbalanceadas. Como se ha mencionado ha sido propuesto un gran número de soluciones para el problema de la clase desbalanceada tanto a nivel de datos como a nivel algo-ritmico (Laza et al., 2011). En el primer caso, se asigna un costo diferencial a los ejemplos de entrenamiento según las frecuencias de las clases (Kotsiantis et al., 2006). En el segundo caso, se muestrea el conjunto de datos original, ya sea agregando casos sintéticos o repetidos de la clase minoritaria, o elimi-nando casos de la clase mayoritaria.

A nivel de datos, esas soluciones incluyen diferentes formas de remuestreo (resampling) como sobre-muestreo aleatorio (random oversampling), sub-muestreo aleatorio de ejemplos (Laza et al., 2011), y combinaciones de estas t´ecnicas como SMOTE (Chawla et al., 2002).

A nivel de algoritmo, las soluciones incluyen ajustes de costos de varias clases, ajuste de estimación probabil´ıstica para los atributos finales de los árboles (cuando se está trabajando con árboles de decisión), ajuste de decisiones ba-sadas en reconocimiento (es decir, aprendizaje sobre una clase) (Zhang et Mani, 2003; Kotsiantis et al., 2006).

A continuación se definen los tipos de técnicas utilizadas para resolver el desbalanceo en las clases a nivel de datos.

2.5.1. Sobre-muestreo (

oversampling

)

Esta técnica consiste en balancear la distribución de las clases añadiendo ejemplos a la clase minoritaria. Esto es, generar ejemplos de la clase

(43)

mi-2.5. CLASES DESBALANCEADAS 21 noritaria aleatoriamente hasta tener tantos ejemplos como los de la clase mayoritaria. Por ejemplo, supongamos que tenemos una muestra de datos de 1000 personas, de las cuales el 66 % son hombres y, deseamos ajustar nuestra base de datos para tener una muestra donde se tenga un porcentaje igual de datos de hombres y mujeres. El sobre-muestreo duplicará cada dato co-rrespondiente a una mujer de tal modo que se obtendrá una base de datos balanceados de 1333 datos con un 50 % de datos de mujeres. La Figura 2.7 ilustra el funcionamiento de esta técnica.

Cabe señalar que existen otros métodos de sobre-muestreo que el resumi-do l´ıneas arriba. Entre ellos podemos mencionar los trabajos de (Chawla et al. 2002), el cual hace una combinación de sobre-muestreo de la clase mi-noritaria y sub-muestreo de la clase mayoritaria, y el trabajo de (Sánchez 2008) el cual consiste en comenzar el sobre-muestreo agregando un número pequeño de casos de la clase minoritaria e ir aumentando el número de casos progresivamente hasta que el desempeño de los algoritmos de clasificación no mejore.

Figura 2.7: Sobre-muestreo de datos, donde el s´ımbolo - representa los casos de la clase minoritaria y el s´ımbolo + representa los casos de la clase mayo-ritaria. A la derecha se representa el conjunto de datos cuyas clases ya han sido balanceadas.

2.5.2. Sub-muestreo (

subsampling

)

Esta t´ecnica est´a estrechamente relacionada con sobre-muestreo y consiste basicamente en eliminar ejemplos de la clase mayoritaria, esto es, eliminar

(44)

22 CAPÍTULO 2. MARCO TE ÓRICO aleatoriamente elementos de la clase mayoritaria hasta obtener el mismo ta-maño que la clase minoritaria. Retomando el ejemplo de la sección anterior sub-muestreo descartará aleatoriamente algunos de los datos correspondien-tes a hombres para obtener una base de datos de 667 muestras, de nuevo con 50 % de datos de mujeres mujeres. Figura 2.8 muestra un ejemplo de dicha técnica.

De igual manera, existen técnicas más inteligentes que la descrita para apli-car sub-muestreo sobre datos desblanceados, dichas técnicas muestran mejor efectividad que el uso de sub-muestreo normal (Hajdu et al., 2009).

Aunque sobre-muestreo y sub-muestreo se relacionan por el hecho de que ambos generan o eliminan elementos de las clases minoritaria y mayoritaria respectivamente, tienen efectos diferentes al construir clasificadores con clases balanceadas por las técnicas anteriores. Esto sucede principalmente debido a que entre más ejemplos se tenga de la clase minoritaria los clasificadores podrán interpretar mejor los datos. As´ı, combinaciones de sobre-muestreo con sub-muestreo han sido propuestas mostrando un mejor desempeño que el uso de dichas técnicas por separado (Chawla et al., 2002).

Figura 2.8: Sub-muestreo de datos, donde el s´ımbolo - representa los casos de la clase minoritaria y el s´ımbolo + representa los casos de la clase mayoritaria. A la derecha se representa el conjunto de datos cuyas clases ya han sido balanceadas.

(45)

2.6. MEDIDAS PARA EVALUAR EL DESEMPE ˜NO DE CLASIFICADORES23

2.6. Medidas para evaluar el desempe˜

no de

clasificadores

El objetivo de un clasificador es discriminar en cada caso o muestra, la pre-sencia o aupre-sencia de una condición, que se considera la variable respuesta. En situaciones de clasificación en las que se usan sólo dos clases, cada objeto, sujeto o caso es etiquetado con uno de los elementos del conjunto {positivo (P), negativo (N)}, determinando la clase a la que pertenece dicho caso. Algunos modelos de clasificación producen una salida continua, como la esti-mación de la probabilidad de un caso de pertenecer a una clase, situación en la que diferentes umbrales de decisión o puntos de corte pueden ser aplicados para predecir la clase a la que pertenece dicho caso, y otros producen apenas la etiqueta discreta de una clase, indicándose con esto la clase predicha de ese caso.

La aplicaci´on de un clasiﬁcador, en situaciones como la descrita, produce cuatro posibles resultados:

Si el caso es positivo y es clasiﬁcado como positivo se cuenta como un verdadero positivo.

Si el caso es positivo y es clasiﬁcado como negativo se cuenta como un falso negativo.

Si el caso es negativo y es clasiﬁcado como negativo se cuenta como un verdadero negativo.

Si el caso es negativo y es clasiﬁcado como positivo se cuenta como un falso positivo.

Dados un clasificador y un conjunto de sujetos, una matriz de confusión o tabla de contingencia de tamaño 2×2 puede ser construida para representar la disposición de dicho conjunto (ver Tabla 2.1).

Los números que se encuentran a lo largo de la diagonal principal de la matriz de confusión representada en la Tabla 2.1 representan las clasificacio-nes correctas y los que están a lo largo de la diagonal secundaria representan los errores (la confusión) entre las clases. Esta matriz es la base o soporte para varios indicadores comúnmente utilizados en sistemas de diagnóstico:

(46)

24 CAPÍTULO 2. MARCO TE ÓRICO Porcentaje de Verdaderos Positivos (TPR, por sus siglas en inglés,True Positive Rate) denominada tambi´en Tasa de Aciertos (Recall)

T P R= V erdaderosP ositivos

V erdaderosP ositivos+F alsosN egativos (2.4) Porcentaje de Falsos Positivos (FPR, por sus siglas en ingl´es, False Positive Rate) denominada tambi´en Tasa de Falsa Alarma

F P R= V erdaderosN egativos

V erdaderosN egativos+F alsosP ositivos (2.5) Precisi´on (Precision), es la proporci´on de verdaderos positivos contra todos los resultados positivos

P recision= V erdaderosP ositivos

V erdaderosP ositivos+F alsosP ositivos (2.6) Exactitud(Accuracy), es la proporción de clasificación correcta global Exactitud= V erdaderosP ositivos+V erdaderosN egativos

V erdaderosP ositivos+V erdaderosN egativos+F alsosP ositivos+F alsosN egativos

(2.7)

Medida-F (F-measure), es la media arm´onica de la precision y recall. F= 2• precision•recall

precision+recall (2.8)

Clase Verdadera Clase Predicha Si No

Si Verdadero Positivo Falso Positivo No Falso Negativo Verdadero Negativo

Tabla 2.1: Matriz de confusi´on.

Una herramienta adicional que permite medir la eficacia de un clasificador son los gráficos ROC, los cuales son gráficos bidimensionales en los que la Fracción de Verdaderos Positivos (TPR) es representada en el eje Y y la Fracción de Falsos Positivos (FPR) es representada en el eje X. Una gr´afica ROC muestra las compensaciones relativas entre los beneficios (verdaderos positivos) y los costes (falsos positivos).

Un clasificador discreto es el que produce una salida que representa sólo la etiqueta de la clase. Cada clasificador discreto produce un par (FPR,TPR) correspondiente a un único punto en el espacio ROC. Algunos puntos impor-tantes del espacio ROC deben ser destacados, como:

(47)

2.6. MEDIDAS DE DESEMPE ÑO 25 El punto (0,0) representa la estrategia de “nunca emitir una clasifica-ción positiva”. Un clasificador as´ı no comete errores de falsos positivos, pero tampoco reconoce verdaderos positivos.

El punto (1,1) representa la estrategia opuesta de “emitir incondicio-nalmente clasiﬁcaciones positivas”.

El punto (0,1) representa la clasiﬁcaci´on perfecta.

Para ilustrar lo anterior pensemos en el siguiente ejemplo, imagine que los niveles de prote´ına en la sangre en personas enfermas y personas sanas tienen una distribución normal con media de 2 g/dl y 1 g/dl, respectivamente. Un examen médico puede medir el nivel de una prote´ına determinada en una muestra de sangre y clasificar cualquier número por encima de un cierto umbral como una indicación de la enfermedad. El especialista puede ajustar el umbral (linea negra vertical en la Figura 2.9 a)), que a su vez cambia la tasa de falsos positivos. Aumentar el umbral dar´ıa lugar a menos falsos positivos (y más falsos negativos), que corresponden a un movimiento hacia la izquierda en la curva, Figura 2.9 b).

Figura 2.9: Ejemplo de curva ROC con un predictor. a) Gráfica de las dis-tribuciones de verdaderos negativos (TN) y de verdaderos positivos (TP), el área de traslape indica el porcentaje de casos que no pueden ser correc-tamente identificados. Se indican también los falsos positivos (FP) y falsos negativos (FN). La posición del umbral (linea vertical) determinará el n´ ume-ro de verdadeume-ros positivos, verdadeume-ros negativos, falsos positivos y falsos negativos que se obtienen de la prueba realizada. b) Valor ROC obtenido de acuerdo al umbral fijado en a).

(48)

2.7. S´ıntesis

En esta sección fueron presentados conceptos relacionados con las técnicas utilizadas en este trabajo de tesis para la construcción y evaluación de un modelo probabilista que permita el pronóstico de un evento futuro, además de describir conceptos relacionados con el manejo de incertidumbre y balanceo de clases en bases de datos. En el siguiente cap´ıtulo se presenta la revisión del trabajo relacionado con nuestra investigación.

(49)

Cap´ıtulo 3

Estado del arte

En este cap´ıtulo se presenta una revisión de los trabajos relacionados con el problema atacado en esta investigación consistente en la construcción de un modelo que permita el pronóstico de un evento de interés a partir de an´ ali-sis de datos temporales con clases desbalanceadas, esta revisión sirve para situar en que áreas en espec´ıfico se encuentran las aportaciones de nuestro trabajo, selección de variables, modelos probabilistas y finalmente modelo de la marcha.

Una vez ubicadas las aportaciones de nuestro trabajo se citan y se contrasta los trabajos m´as cercanos a nuestras aportaciones para presentar las prin-cipales diferencias con los trabajos ya publicados en, selecci´on de variables, modelos probabilistas y modelos de la marcha.

3.1. Flujo de datos de concepto cambiante

(Concept drifting data stream)

Como hemos mencionado, en entornos din´amicos las propiedades caracter´ısti-cas de los datos a menudo no son estables o estacionarias, es decir, cambian con el tiempo. Esto se conoce en la literatura como ﬂujo del concepto,concept drift (Widmer et Kubat, 1996).

Según (Tsymbal, 2004) hay dos posibles tipos de concept drift: real con-cept drift, definido como un cambio en la definici´on del fenómeno modelado el cual el modelo de clasificación está tratando de predecir, y virtual concept

(50)

28 CAP´ITULO 3. ESTADO DEL ARTE drift, deﬁnido como un cambio de la distribuci´on de los datos.

Además, dependiendo de la velocidad de cambio, elconcept drift puede tam-bién clasificarse en abrupto o gradual. Un concept drift abrupto ocurre en un punto de tiempo espec´ıfico donde se cambia de un concepto a otro. Por el contrario, en un concept drift gradual, un nuevo concepto se introduce lentamente durante un per´ıodo de tiempo extendido. Generalmente, la de-tección de concept drift abruptos es más fácil que la detección de concept drift graduales, ya que al menos durante las fases iniciales del cambio, las perturbaciones en el flujo de datos puede ser visto como ruido por el algorit-mo de detección de este fenómeno, y, por tanto, se requieren a menudo más casos para distinguir el cambio gradual de ruido (Gama et Castillo, 2006). Una clasificación adicional importante se basa en si el concept drift es lo-cal o global. Unconcept drift se dice que es local cuando sólo se produce en algunas regiones del espacio de instancias (sub-espacios), y además, cuando el tipo y la velocidad de los cambios también dependen de un sub-espacio espec´ıfico de instancias (Tsymbal et al., 2008). En contraste, unconcept drift global se refiere a un cambio que se produce en el espacio completo de instan-cia. Como se señala en (Tsymbal et al., 2008), concept drift más graduales pueden ser considerados como local si la mayor´ıa de las regiones de los datos se mantienen estables, mientras que la mayor´ıa de losconcept drift abruptos no son locales.

Concept drift puede ser caracterizado como concept drift recurrente si el concept drift ya hab´ıa sido detectado previamente en el tiempo. Un ejemplo de un concept drift recurrente son los cambios de estación que reaparecen periódicamente y regularmente (cada temporada), (Gama et Kosina, 2009). Losconcept drift pueden ser también caracterizados como novedosos, cuando se agregan algunas variables nuevas para identificar la clase o algunos de sus respectivos estados aparecer o desaparecer con el tiempo. Una clasificación reciente de concept drift fue propuesta en (Minku et al., 2010) quienes ca-racterizan el concepto de acuerdo con diferentes criterios, severidad, si no mantiene la clase objetivo en el nuevo concepto, lafrecuencia, si es periódico o no periódico el comportamiento de los datos y la previsibilidad, si es pre-decible o aleatorio el comportamiento.

(51)

3.2. M ÉTODOS DE SELECCI ÓN DE VARIABLES 29 el flujos de datos ha recibido una atención creciente y han sido desarrollados métodos que tienen como objetivo identificar el concept drift en los datos y adaptar los modelos de clasificación en el tiempo (Aggarwal, 2007; Gama, 2006; Gama, 2010).

En este trabajo de investigación no nos enfocamos en el desarrollo de algún método para identificar la propiedad concept drift en los datos. La revisión bibliográfica anterior se realiza para situar el tipo de datos con los cuales construimos los modelos presentados en esta tesis, as´ı, los datos son concept drift virtuales, abruptos, locales, no recurrentes, no severos, no periódicos y no predecibles.

3.2. M´

etodos de selecci´

on de variables

Con los rápidos avances en las tecnolog´ıas de la información y bases de datos, continuamente son generados conjuntos de datos con cientos o miles de va-riables. Esta caracter´ıstica de los datos llega a hacerlos intratables, es decir, computacionalmente costosos para poder ser usados en áreas como: recono-cimiento de patrones, miner´ıa de datos y aprendizaje automático (Jain et Zongker, 1997; Dash et Liu, 1997; Dash et Liu, 2003; Kohavi et John, 1997). El procesamiento de tales conjuntos de datos es una tarea dif´ıcil debido a que las técnicas tradicionales de aprendizaje automático por lo general llegan a encontrar “regularidades” aparentes, lo cual se agrava cuando se tienen mu-chos atributos y pocos datos.

La selección de variables aborda el problema de trabajar con conjuntos de da-tos intratables mediante la eliminación de variables irrelevantes o redundan-tes, con lo que a veces se mejora el desempeño del algoritmo de aprendizaje, se reduce su costo computacional y se pueden generar modelos comprensibles para los expertos del dominio (Liu et Motoda, 1998).

Los algoritmos de selección de variables pueden ser clasificados en dos grupos: los métodos tipo filtro y los métodos tipo envoltura (wrappers) (Dash et Liu, 1997; Kohavi et John, 1997; Robnic-Sikonja et Kononenko, 2003; Mao, 2004; Hsu et al., 2004). Los métodos de filtro evalúan la calidad del subconjunto de variables seleccionadas mediante el uso de las caracter´ısticas intr´ınsecas de los datos. Dichos métodos son computacionalmente baratos, ya que no