Aprendizaje estadístico y métodos de clasificación

Texto completo

(1)Aprendizaje estadístico y métodos de clasificación por. Mauricio Romero. Proyecto de Grado presentado al Departamento de Matemáticas como parte de los requisitos para el grado de Pregrado en Matemáticas. Asesor: Alvaro Riascos. Universidad de los Andes Bogotá, Colombia Diciembre, 2009.

(2) Índice general 1. Introducción. 3. 2. Maldición de la dimensionalidad. 5. 3. Sesgo y varianza. 9. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. Descomposición del error entre sesgo y varianza . . . . . . . . . . . . . . . . .. 10. Selección del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 11. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12. Cross-Validation. 4. Los modelos clásicos Introducción. 14. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. Modelo de variable latente . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. Modelo logístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. Modelo probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. Estimación Devianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 5. Árboles de clasicación Introducción. 17. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 19. Sub-árbol óptimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. Modelo. 6. Redes neuronales Introducción. 21. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 21. Estimación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 23. Aproximador universal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. 7. Subagging Introducción. 27 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 27. Subagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 28. 8. Pre-procesamiento y selección de variables Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Diferencia en medias y proporciones. 29 29. . . . . . . . . . . . . . . . . . . . . . . .. 30. Diferencia en medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 30.

(3) 2. Diferencia en proporciones . . . . . . . . . . . . . . . . . . . . . . . . . .. 31. 2 Prueba χ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. Forward Selection Model. Subagging y selección de variables. . . . . . . . . . . . . . . . . . . . . . . . .. 33. con subagging . . . . . . . . . . . . . . . . . . .. 33. Seleccion de variables con árboles de clasicación usando subagging . . .. 33. Forward selection model. 9. Evaluación de los modelos Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Matriz de confusion. 34 34. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. Prueba K-S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 36. Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 36. 10.Aplicación empírica. 38. Bibliografía. 42.

(4) Capítulo 1. Introducción We are drowning in information and starving for knowledge - Rutherford D. Roger. Las matemáticas aplicadas suelen encontrarse con el problema de extraer información útil a partir de una serie de datos. La disciplina estadística enfocada en encontrar patrones y tendencias a partir de los datos se ha denominado minería de datos. Las aplicaciones de esta displicina se extienden a la medicina, la astronomía, las nanzas y el mercadeo entre otras. Los métodos de clasicación binaria son una de las herramientas más difundidas de la minería de datos. Sus aplicaciones incluyen la detección de fraudes, el reconocimiento de caracteres, geoestadística, toxicogenómica y. credit scoring. El problema general con-. siste en determinar a que categoría pertenece una observación utilizando características inherentes a la misma, basándose en casos ya clasicados. Durante muchos años la regresión logística y el análisis discriminante de Fisher fueron las herramientas usadas por excelencia. Con la llamada era tecnológica la capacidad computacional para lograr este objetivo se ha incrementado enormemente lo que ha permitido grandes avances en este campo, dejando las citadas herramientas casi obsoletas. Este documento busca hacer una revisión de los últimos avances en métodos de clasicación, planteando, desarrollando y comparando diferentes herramientas. Se explorará la regresión logística, los árboles de regresión y las redes neuronales. Adicionalmente se expondrán las herramientas utilizadas para evaluar la ecacia de los modelos y se presentarán algunas herramientas de ajuste que permiten mejorar el desempeño de los modelos. En particular se discutirá como elegir un punto de corte óptimo y el método de. subagging. en casos donde se tienen pocas observaciones para una clase dada.. Teniendo en cuenta que en la actualidad el. credit scoring. es un componente casi in-. dispensable para cualquier entidad nanciera para la aprobación de créditos, se realizará.

(5) 4. una aplicación de los métodos expuestos para clasicar buenos y malos deudores, usando una base de datos real con más de 400,000 observaciones. Debido a reserva estadística ni el origen, ni los detalles, de esta base de datos no se puede revelar..

(6) Capítulo 2. Maldición de la dimensionalidad El primer problema con el que uno se enfrenta cuando se maneja una gran cantidad de datos es la llamada Maldición de la Dimensionalidad". El termino fue acuñado por primera vez por Richard Bellman (Bellman 1961).Se pueden encontrar algunos capítulos relevantes en (Bishop 2003, Hastie, Tibshirani & Friedman 2001) y se puede encontrar un buen análisis visual en (Eccles & Su 2004). En pocas palabras, a medida que aumentamos la cantidad de variables, el número de observaciones necesarias para una buena aproximación , crece exponencialmente. Esto quiere decir que para muchas"variables, nuestras observaciones dejan de ser una muestra representativa de la cual se puede sacar inferencias sobre todo el espacio. Esto, en última instancia, se termina transriendo a la disyuntiva entre sesgo y varianza que veremos más adelante.. A continuación se encuentra un ejemplo que nos puede ayudar a entender el problema.. Ejemplo 2.0.1.. Tome N muestras de una variable aleatoria que se distribuye uniforme. en el intervalo unitario. (0, 1).. Si dividimos el intervalo unitario en 10, uno esperaría que. N/10 observaciones se encuentren en cada intervalo. A medida que N crece el resultado empírico debe ser más cercano al resultado teórico. Esto se puede ver como la densidad de nuestro muestreo aleatorio. Ahora tome una segunda variable aleatoria, independiente a la primera, que toma valores en el intervalo. (0, 1).. Esto se puede ver como otra dimensión. Si dividimos esta. variable en 10 intervalos como la anterior, entonces solo N/100 observaciones se encuentran en cada cuadrado en promedio. Si tomamos una tercera variable, independiente a las primeras dos, que también toma valores en el intervalo unitario y lo dividimos en 10, entonces en cada cubo solo se encuentran N/1000 observaciones en promedio. Si N es igual a diez, las siguientes grácas ilustran una posible distribución de nuestras observaciones..

(7) 6. 1. 0.9. 0.8. 0.7. 0.6. 0.5. 0.4. 0.3. 0.2. 0.1. 0. 0. 0.1. 0.2. 0.3. 0.4. 0.5. 0.6. 0.7. 0.8. 0.9. 0.1. 0.2. 0.3. 0.4. 0.5. 0.6. 0.7. 0.8. 0.9. 1. 1. Figura 2.1: Una Dimension. Figura 2.2: Dos Dimensiones. 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.8. 0.6. 0.4. 0.2. 0.2. 0.4. 0.6. 0.8. Figura 2.3: Tres Dimensiones. Note como la densidad"de los datos cae a medida que aumentamos el numero de dimensiones.. A continuación se presenta una manifestación del problema. Se explica únicamente el caso de la distribución uniforme, para facilitar la exposición y el entendimiento del problema. La extrapolación a otros casos es fácil conceptualmente, pero puede ser complicada algebraicamente. Suponga que tiene N muestras extraídas aleatoriamente de la esfera P-dimensional unitaria. Entonces tenemos la siguiente proposición..

(8) 7. Proposición 2.0.2. La mediana de la distancia del origen a la observación más cercana es:. d(p, N ) = (1 −. Demostración: P (R > r). 1 21/N. )1/p. (2.1). Sea R la distancia mínima entre las observaciones y el origen. Entonces. es la probabilidad de que todas las observaciones estén por fuera del la esfera. p-dimensional de radio r. Note que:. P (R > r) = (. Donde. Vp (r). Vp (1) − Vp (r) N ) Vp (1). es el volumen de la esfera. p. dimensional con radio. r.. Es decir la prob-. abilidad de que todas las observaciones estén por fuera de la esfera de radio. r,. es la. fracción del volumen que existe por fuera de la esfera de este radio, elevado a la potencia. N -esima. La mediana coincide con el radio. r. que garantice:. P (R > r) = (. Vp (1) − Vp (r) N ) = 0.5 Vp (1). Usando el hecho de que el volumen de la esfera. Cp. rp .Donde. Cp. p. dimensional de radio. es una constante de dimensionalidad, podemos despejar. r. r. es:. Vp (r) =. y obtenemos. el resultado.. La siguiente tabla muestra un ejemplo para diferentes valores de. p. y de. N.. Note que. una vez tenemos 25 variables, a pesar de tener 10 millones de observaciones, en promedio la mayoría se encuentra más cerca del borde de la esfera que del origen. En otras palabras la mayoría de las observaciones está más cerca del borde de nuestro espacio muestral que de otras observaciones. Esto presenta un problema en la adaptación de los modelos, pues la predicción cerca del borde del espacio muestral es más difícil, ya que uno debe extrapolar de datos cercanos, en vez de interpolar entre ellos..

(9) 8. P. N. D. 5. 100. 0.36971259. 5. 100000. 0.09293189. 5. 10000000. 0.03699688. 10. 100. 0.60803995. 10. 100000. 0.30484733. 10. 10000000. 0.19234573. 25. 100. 0.81954508. 25. 100000. 0.62177457. 25. 10000000. 0.51716963. 50. 100. 0.90528729. 50. 100000. 0.78852684. 50. 10000000. 0.71914507.

(10) Capítulo 3. Sesgo y varianza Introducción. Como se vio en el capitulo anterior, la densidad de las observaciones que tenemos cae exponencialmente con el numero de variables que consideramos. Para cada modelo es necesario estimar un numero de parámetros, podemos pensar en ese numero de parámetros como la complejidad del mismo. A medida que aumentamos la complejidad del modelo, en general, obtenemos una mejor adaptación del modelo a los datos que tenemos, pero estos a su vez dejan de ser una muestra representativa del espacio muestral total, pues una mayor complejidad, suele asociarse con un mayor numero de variables. Bajo esta lógica, la extrapolación del modelo a nuevos datos se pone en duda cuando aumentamos su complejidad. Esta es la disyuntiva que existe entre sesgo y varianza.. Un modelo con baja complejidad, puede que no capture las relaciones existentes entre las variables, por eso puede que no se adapte bien ni a los datos que poseemos ni a nuevas observaciones. Un modelo de complejidad media puede adaptarse bien a los datos que tenemos, y extrapolarse de igual forma a nuevos datos. Un modelo de alta complejidad puede adaptarse muy bien a los datos que tenemos, pero puede que su extrapolación a nuevas observaciones no de buenos resultados. El aprendizaje supervisado se caracteriza por tener dos tipos de variables extraídas de los datos. Unas variables. Y = (Y1 , Y2 , ..., Yp ). X = (X1 , X2 , ..., Xn ). que se denominan predictores, y otras. que se denominan variables de respuesta. A grosso modo se intenta. crear un modelo, función o aplicación a la cual se le introducen las variables predictivas y que el resultado sea lo más parecida posible a las variables de respuesta. Denotemos nuestro modelo por. fˆ(X). y sea. L(Y, fˆ(X)). una función de perdida que nos da una idea. de qué tan cercano es nuestro modelo a la realidad.Por esta última razón este tipo de.

(11) 10. modelos estadísticos, caen en la categoría de aprendizaje supervisado, pues se tiene una manera de medir que tan bien se esta comportando nuestro modelo. Elecciones comunes para. L. son:.    (Y − fˆ(X))2   L(Y, fˆ(X)) = |Y − fˆ(X)|    −2 log fˆ(X). error cuadrado error absoluto. (3.1). Devianza. Mas adelante se hará referencia a la devianza de nuevo pues es conveniente usarla en el los métodos de clasicación estadística.. Descomposición del error entre sesgo y varianza. El procedimiento que se sigue a continuación se hace para errores cuadrados, aunque el autor no conoce demostraciones similares para otro tipo de errores, la intuición del procedimiento parecería generalizarse. Suponga que. Y = f (X) + ,. que nosotros estimamos. f (X). E() = 0 y var() = σ2 . Es importante anotar medio de fˆ(X). El error en un punto dado X = x0. donde. por. es:. Err(x0 ) = E[(Y − fˆ(X))2 |X = x0 ] = E[(Y − f (X) + f (X) − fˆ(X))2 |X = x0 ] = E[(Y − f (X))2 + 2(Y − f (X))(f (X) − fˆ(X)) + (f (X) − fˆ(X))2 |X = x0 ] = σ 2 + E[2(Y − f (X))(f (X) − fˆ(X))|X = x0 ] + E[(f (X) − fˆ(X))2 |X = x0 ] . = σ2 + E[(f (X) − fˆ(X))2 |X = x0 ] = σ2 + E[f (X)2 − 2f (X)fˆ(X) + fˆ(X)2 |X = x0 ] = σ 2 + f (x0 )2 − 2f (x0 )E[fˆ(x0 )] + E[fˆ(x0 )2 ] . = σ2 + f (x0 )2 − 2f (x0 )E[fˆ(x0 )] + E[fˆ(x0 )2 ] + E 2 [fˆ(X)|X = x0 ] − E 2 [fˆ(X)|X = x0 ] = σ 2 + f (x0 )2 − 2f (x0 )E[fˆ(x0 )] + E[fˆ(x0 )2 ] + E 2 [fˆ(x0 )] − E 2 [fˆ(x0 )] . = σ2 + (E[fˆ(x0 )] − f (x0 ))2 + E[fˆ(x0 )2 ] − E 2 [fˆ(x0 )] = σ2 + S 2 (fˆ(x0 )) + V (fˆ(x0 )). (3.2). Lo que obtenemos entonces es una descomposición del error en cada punto. El termino. σ2 corresponde a la varianza natural que existe en los datos y por tanto es inevitable. El segundo término corresponde al sesgo al cuadrado de nuestro estimador, y el tercer término a su varianza. Empíricamente se ha mostrado que a medida que aumenta el.

(12) 11. factor de complejidad de un modelo el sesgo disminuye pero la varianza aumenta (Hastie et al. 2001).. Selección del modelo. Existen tres tipos de errores.. Denición 3.0.1 (Error de entrenamiento). Este error se dene como el valor promedio de la función de perdida en los puntos de la muestra de entrenamiento M . 1 X L(yi , fˆ(xi )) |M |. (3.3). i∈M. Denición 3.0.2 (Error de prueba). Este error se dene como el valor promedio de la función de perdida en una muestra diferente a la de entrenamiento. ErrP = E(L(Y, fˆ(X))|P ). (3.4). Denición 3.0.3 (Error de Generalización). Este error se dene como el valor esperado de los errores de nuestro modelo, cuando sacamos X y Y aleatoriamente de su función de densidad conjunta poblacional, y entrenamos nuestro modelo con una muestra M . ErrG = E(L(Y, fˆ(X))|M ) Calcular. ErrG. seria ideal para poder entender que tan bueno es nuestro modelo, sin. embargo dado que no conocemos la distribución conjunta de embargo. ErrE. En general. y. ErrP. ErrE. (3.5). y. X. y. Y. esto es imposible. Sin. nos ayudan a formar una idea general de como se comporta. ErrP. ErrG .. no son cercanos, pues como se explico antes, a medida que. aumenta la complejidad del modelo, puede que capturemos mas interacciones especicas de nuestra base de datos, pero dado que ésta deja de ser representativa del espacio muestral, la adaptación del modelo a nuevas observaciones puede ser catastróca. Esto implicaría un. ErrE. Para calcular. bajo, pero un. ErrE. y. ErrP. ErrP. alto.. , en general uno debe dividir las observaciones en la base. de datos de manera aleatoria en tres categorías. entrenamiento, validación y prueba. En general se suele asignar el 70 % de la base de datos a entrenamiento, y 15 % a cada una de las otras partes. Lo que se hace es encontrar varios modelos, variando el parámetro de complejidad, tales que. ErrE. sea menor a un límite especicado. Este error se calcula usando la prueba. de entrenamiento, que es la misma que se usa para estimar el modelo. En segunda instancia se calcula el error que estos modelos tienen, usando los datos de validación. Se.

(13) 12. elige entonces aquellos modelos con un error de validación menor a un límite dado. Lo que se hace en estos dos pasos es elegir modelos que se adapten bien a nuestros datos y que adicionalmente tengan una buena adaptación a nuevos datos. Para evaluar la generalización de los modelos se usa la base de datos de prueba. Muchas veces se suele confundir la base de prueba y la de validación, pues se cree que ambas cumplen el mismo objetivo. Esto no es así pues los datos de validación se usan para seleccionar los modelos, mientras que la base de prueba es independiente de la elección del modelo. Si contamos con una base de datos pequeña se puede considerar no tener ninguna base de prueba, y obviar este paso. Esta ultima prueba nos da una idea de la adaptación del modelo a datos por fuera de muestra.. Cross-Validation Este método es probablemente uno de los más usados para estimar. ErrG ,. especial-. mente cuando se cuenta con pocos datos y no es conveniente dejar una base de datos de prueba y una de validación. Normalmente uno quiere estimar entrenamiento ja, pero en. cross-validation. ErrG. dada una base de. este no es el caso por lo que el estimativo. no es perfecto. La idea consiste en dividir la base de datos en K secciones, y usar K-1 de estas secciones para estimar el modelo y la K-esima como validación. Sin embargo este proceso se realiza K veces, usando todas las particiones como validación en algún momento. Después se calcula el promedio de los errores de validación. Sea. k : {1, ...N } → {1, ..., K}. una función que nos indica en que partición esta una. observación dada. Entonces el estimativo por. Cross-Validation. del error de prueba seria:. N X −k(i) ˆ G = CV (α) = 1 Err L(yi , fˆα (xi )) N. (3.6). i=1. Donde. fˆ−k(i). en la partición. es el modelo estimado usando todas las observaciones menos aquellas. −k(i).. Aunque no existe un estimador una regla para calcular el número. de particiones K, en la literatura se suele utilizar Note sin embargo que. Cross-Validation. K = 5, K = 10. o. K = N.. no retorna un estimador de. ErrG. de una. base de entrenamiento particular, pues se tienen K diferentes de éstas. Sin embargo, si. α. mide la complejidad del modelo, dejándolo jo obtenemos una idea de que tan. bueno es un modelo de complejidad dada para nuestro modelo, sin que este sea una sobre-parametrización y no sea extrapolable a nuevas observaciones. Así las cosas, con. Cross-Validation. podemos elegir el parámetro de complejidad de nuestros datos, y una.

(14) 13. vez tengamos esta información, calcular un modelo usando todas las observaciones..

(15) Capítulo 4. Los modelos clásicos Introducción. Durante mucho tiempo estos modelos, aunque sencillos, fueron la herramienta central de los modelos de clasicación binaria. Aunque hoy en día son menos utilizados, no dejan de ser importantes, y comprenden una primera aproximación importante. Dada la interpretación sencilla que tienen en comparación con otros modelos, y su bajo costo computacional, son utilizados para seleccionar variables relevantes. Los modelos logistico y probit, intentan encontrar la probabilidad de un evento. En el caso de los modelos de clasicación binaria, esta probabilidad corresponde a la de pertenecer a una clase dada.. Modelo de variable latente. Denotemos por. yi∗. una variable latente de la observación. i. que esta relacionada con. la pertenencia de la observación a una clase dada de la siguiente manera..  1 y ∗ > c i yi = 0 y ∗ ≤ c i Donde. yi. indica si la observación pertenece a una clase o no. Es decir, la observación. pertenece a la clase si se supera un límite. i. c.. Supondremos que esta variable no observable depende de unos factores. xi. dremos que la relación que existe es lineal. Adicionalmente, asumiremos que. y supon-. ui. tiene. media 0 y que su distribución es simétrica respecto al origen. Sin pérdida de generali-.

(16) 15. dad, podemos igualar. c a a cero, pues el termino constante de xi se encarga de eliminarlo. yi∗ = x0i β + ui. (4.1). Entonces:. P (yi = 1) = P (yi∗ > 0) = P (x0i β + ui > 0) = P (−ui < x0i β) = F (xi β) Donde F es la función de densidad acumulada de de densidad acumulada de. ui. (4.2). −ui , que debe ser la misma función. por simetría.. Modelo logístico En el caso del modelo logístico, se asume que la función de distribución de los errores es logística. Esto indica que:. P (yi = 1) =. exi β 1 + exi β. (4.3). Modelo probit En el caso del modelo probit, se asume que la función de distribución de los errores es normal. Esto quiere decir que:. P (yi = 1) = Φ(x0i β). (4.4). Estimación. Para calcular el estimador de. β. se puede recurrir a mínimos cuadrados generaliza-. dos (para eliminar la heteroscedasticidad. 1. propia de ambos modelos), o se puede usar. máxima verosimilitud. Ambas aproximaciones arrojan los mismos estimadores. En este documento seguiremos el segundo enfoque. El método de máxima verosimilitud intenta. 1. La naturaleza heteroscedastica se debe a que la variable yi se comporta Bernoulli.

(17) 16. calcular. β̂. de tal manera que nuestra muestra, sea aquella que tenga la mayor proba-. bilidad de ser seleccionada al azar en un universo con una función de probabilidad que depende de. β.. La variable. yi. es Bernoulli, con una probabilidad de éxito igual a. que su función de densidad condicional a. xi. F (x0i β). Eso implica. es:. f (yi |xi ) = F (x0i β)yi (1 − F (x0i β))1−yi Su función de verosimilitud (likelihood) para N observaciones es:. QN. i=1 f (yi |xi ). L(β) =. =. QN. 0 yi i=1 F (xi β) (1. − F (x0i β))1−yi. En otras palabras esta es la probabilidad de que nuestra muestra sea aquella seleccionada al azar y de manera independiente en un universo donde. yi. es Bernoulli.. Para hacer el algebra más sencilla, buscamos maximizar la función log-likelihood (log-verosimilitud).. `(β) =. PN. 0 i=1 yi ln(F (xi β)). + (1 − yi )ln(1 − F (x0i β)). β̂ := arg máx L(β) = arg máx `(β) β. β. (4.5). Devianza. Es fácil ver de las deniciones anteriores que la devianza, como se denió en referrores , no es más que 2 veces el log-likelihood.. −2log fˆ(X) = −2 ln(p(X)) = −2 ln(F (x0i β)) Aquí. f 6= F 0 . f. timador de. yi .. se debe entender en el contexto del capitulo anterior, como el es-. Esta es una buena medida de que tanto se ajusta nuestro modelo a la. realidad. Para comparar dos modelos podemos ver que tanto cambia la devianza entre uno y otro. Este concepto se utilizara más adelante en la selección de variables. La diferencia entre la devianza entre uno y otro modelo, se comporta asintóticamente como una. χ2. con grados de libertad igual a la diferencia de parámetros entre ellos..

(18) Capítulo 5. Árboles de clasicación Introducción. Los árboles de clasicación pueden llegar a ser muy poderosos, aunque hay que manejar sus resultados con cuidado debió a que pueden tener una alta varianza. En este documento expondremos la metodología CART diseñada por (Breiman, Friedman, Olshen & Stone 1984). La idea consiste en partir el espacio muestral de variables predictivas en rectángulos y asignarle una constante a cada rectángulo. La idea es que la partición que se asigne, junto con las constantes, se asemejen lo máximo posible a la variable de respuesta. Esto se hace partiendo la base en grupos excluyentes, que tengan relevancia a la hora de predecir la variable independiente. Si dividimos nuestra base de datos en característica de. m-esimo. M. grupos disjuntos y. χR m. es la función. subgrupo, entonces:. fˆ(X) =. M X. cm χRm. (5.1). m=1 Si tenemos dos variables,. X1. y. X2 ,. uno se puede imaginar que la idea consiste en. partir el espacio generado por ellos en regiones, como en se muestra en la siguiente gráca:.

(19) 18. Figura 5.1: Partición espacio sacada de Hastie et al. (2001). La siguiente gráca muestra un ejemplo de la ecuación 5.1 correspondiente a la partición anterior, donde hay dos variables dependientes y una independiente.. Figura 5.2: Representación de la ecuación 5.1 sacada de Hastie et al. (2001). Los siguientes pasos dan una idea del proceso a realizar..

(20) 19. 1. Asignar todas las observaciones a la raíz del árbol. 2. Encontrar una división optima. Esto quiere decir encontrar la mejor división, de entre todas las posibles divisiones de todas las variables. 3. Dividir los datos en dos grupos disjuntos, uno a cada lado de la división. 4. Realizar el paso 2-4 hasta que se llegue a el tamaño de árbol deseado. 5. Purgar el árbol usando cross-validation, para encontrar el sub-árbol óptimo.. Modelo. Primero denamos que sucede cuando elegimos una partición en el valor variable. j -esima.. s,. en la. Si hacemos un corte de este estilo dividimos la base en dos grupos. disjuntos.. R1 (j, s) = {X|Xj ≤ s}. (5.2). R2 (j, s) = {X|Xj > s}. (5.3). Para encontrar la mejor partición posible, entre todas las particiones de todas las variables, tendríamos que encontrar la solución al siguiente problema:. X. (ĵ, ŝ) = arg mı́n[mı́n j,s. c1. (yi − c1 )2 + mı́n c2. xi ∈R1 (j,s). X. (yi − c2 )2 ]. (5.4). xi ∈R2 (j,s). En otras palabras buscamos que los datos se acerquen de la mejor manera posible al valor observado de la variable independiente. Recuerde la expresión 5.1. Es fácil ver que para cada pareja. (j, s). las minimizaciónes internas se resuelven con:. P cˆ1 = arg mı́n c1. cˆ2 = arg mı́n c2. X. =. xi ∈R1 (j,s). X xi ∈R2 (j,s). =. yi |xi ∈R1 (j,s) yi. |{yi |xi ∈ R1 (j, s)}| P yi |xi ∈R2 (j,s) yi |{yi |xi ∈ R2 (j, s)}|. (5.5). (5.6). La constante óptima es el promedio de la variable independiente en esa región. Es claro que si no hay dos observaciones idénticas, podemos hacer tantos cortes como sea necesario para que el árbol describa perfectamente nuestra base de datos..

(21) 20. Sin embargo podemos pensar en el tamaño del árbol como el parámetro de complejidad del cual se habló en el capítulo 2. Entre mas grande sea el árbol menor será el sesgo del modelo pero mayor su varianza. En otras palabras aunque logremos una predicción perfecta de nuestra base de datos, la extrapolación a nuevos datos puede resultar desastrosa. Sin embargo, un árbol demasiado pequeño puede no capturar la información subyacente en la base de datos. El tamaño del árbol se elige usando. cross-validation.. Sub-árbol óptimo. Primero se hace un árbol arbitrariamente grande. En general se elige un numero de nodos deseados, o se crea una regla para detener el crecimiento del árbol, por ejemplo, que no quede menos del 10 % de las observaciones en un nodo. Después se dene un error que penaliza por el tamaño del árbol. Finalmente se encuentra el tamaño de árbol óptimo que minimice el error de. cross-validation,. mejorando así la generalización del. árbol. Sea. T0. el árbol arbitrariamente grande que entrenamos, y que será nuestro punto de. partida. Un sub-árbol se consigue colapsando nodos terminales iterativamente. Es decir quitando particiones sucesivamente. Sea. |T |. el numero de nodos terminales de un árbol. dado. Esto equivale al número de regiones en las que se divide el espacio maestral.. Nm = |{xi ∈ Rm }| 1 X cˆm = yi Nm xi ∈Rm 1 X Qm (T ) = (yi − cˆm )2 Nm. (5.7) (5.8). (5.9). xi ∈Rm. Cα (T ) =. |T | X. Nm Qm (T ) + α|T |. (5.10). m=1. Cα (T ). es el error del árbol ajustado por un parámetro de complejidad. α. que lo. penaliza a medida que su tamaño incrementa. La idea es encontrar para cada. α. el sub-. árbol que. α. Tα. que minimice. Cα (T ).. Si. α. es cero, este árbol simplemente sera. T0 ,. y a medida. crezca es de esperar que el sub-árbol sea más pequeño.. Para encontrar. α. se utiliza. cross-validation.. La idea es encontrar el valor de. α. que. minimice 3.6. Esto logra que nuestro sub-árbol tenga una varianza baja, y se adapte bien a los datos que observamos. Mas detalles sobre este procedimiento se encuentran en (Breiman et al. 1984)..

(22) Capítulo 6. Redes neuronales Introducción. Una red neuronal se puede ver como la generalización de un modelo logístico, donde permitimos que los variables interactúen de más de una manera. En el modelo logístico las variables forman una combinación lineal y luego este resultado es transformado por medio de la función logística. Las redes neuronales presentan tres generalizaciones a este modelo. Primero, se permite más de una combinación lineal de las variables; segundo, se pueden usar diferentes funciones de transformación, mas allá de la logística y la normal; y tercero, es posible repetir este proceso. La cantidad de veces que se realiza el procedimiento se conoce como número de capas. La transformación que se hace sobre la combinación lineal se conoce como función de activación, y cada capa puede tener una diferente. Las combinaciones lineales en cada capa se conocen como neuronas. Cada capa puede tener un número de neuronas diferente. El siguiente gráco ilustra la idea principal detrás de este modelo..

(23) 22. Figura 6.1: Diagrama de Red. En el gráco anterior tenemos. n variables y un intercepto. Después tenemos una capa. con m neuronas. En un principio cada neurona es una combinación lineal de las variables y el intercepto, usando los pesos ese caso. f1 ).. W.. Después se aplica la función de transformación (en. Posteriormente tenemos k combinaciones lineales de estas neuronas, las. f2 .. cuales se transforman mediante la función. En este caso solo tenemos dos capas, por. yi .. lo que las variables de interés serían las De manera formal se puede escribir:. zi0 = f1 (. n X. xi wji ) = wt · x. (6.1). m X 0 ˆ yi = f2 ( zi0 vji ). (6.2). j=0. j=0 Donde. x0. y. z0. son vectores de unos.. A todas las capas, menos a la última, se les conoce como capas escondidas. En general solo se utilizan dos capas en las redes neuronales, pues se ha probado empíricamente que esto resulta más que suciente en la mayoría de aplicaciones (Bishop 2003), por lo cual este documento analizara ese tipo de redes. En este documento solo se estudiaran redes con alimentación hacia adelante. Es decir.

(24) 23. donde las neuronas de cada capa solo dependan de los valores y pesos de las neuronas en capas anteriores o de las variables originales en el caso de la primera capa.. Estimación del modelo. En el caso de una red con dos capas, y. k. n. variables,. variables independientes, tenemos que calcular. m. neuronas en la capa escondida. (n + 1) ∗ m + k ∗ (m + 1). pesos. Sea. θ = {w01 , w02 , ..., w0m , w11 , ..., wnm , v01 , ..., vmk }. Tomé una función de error, generalmente la suma de errores al cuadrado, pero se puede utilizar otras, entre las que se encuentran aquellas en 3.1.. ˆ E (θ) = Err. K X N X. (yik − yîk )2. (6.3). k=1 i=1 La idea entonces es encontrar. θ. que minimice el error. Esto se hace utilizando varias. técnicas. En este documento explicaremos la técnica del gradiente descendiente. Mas detalles sobre esta y otras técnicas se encuentran en (Bishop 2003). La idea general consiste en identicar que termino es el mayor causante de los errores y ajustar su peso apropiadamente.. ˆ E (θ) = Err. N X. Ri. (6.4). i=1 Donde. Ri =. PK. k=1 (yik. − yîk )2 .. Entonces,. ∂Ri i = −2(yik − yîk )f20 (yîk )zm ∂vkm. (6.5). X ∂Ri t =− 2(yik − yîk )f20 (yîk )vkm f10 (wm xi )xil ∂wml. (6.6). K. k=1. (6.7). Donde. t wm. es todo el vector de pesos. (wm1 , ..., wmn )t. y. xi = (x1i , ..., xni ).. Dado estas derivadas una actualizacion de los coecientes seria..

(25) 24. 0 vkm. N X ∂Ri = vkm − γ ∂vkm. (6.8). ∂Ri ∂wml. (6.9). 0 wml = vml − γ. i=1 N X i=1. Note que si denimos:. δki = −2(yik − yîk )f20 (yîk ) P 0 0 t smi = − K ik )f2 (yˆ ik )vkm f1 (wm xi ). k=1 2(yik − yˆ Entonces:. ∂Ri i = δki zm ∂vkm ∂Ri = smi xil ∂wml. (6.10). (6.11). Note además que:. t smi = f10 (wm xi ). K X. vkm δki. (6.12). k=1. δki. y. smi. se pueden ver como los errores en la capa de salida y en la capa oculta,. respectivamente. En los programas computacionales, primero se calcula información se calcula. δki. y con esta se calcula. por medio de las ecuaciones 6.8 y 6.9.. γ. smi .. yîk .. Con esta. Finalmente se actualizan los pesos. se conoce como la tasa de aprendizaje. Diferentes. programas de computadora usan diferentes tasas de aprendizaje.. Aproximador universal. En esta sección, demostraremos que las redes neuronales, bajo cierto concepto, pueden aproximar arbitrariamente bien cualquier función en. Ck.. En otras palabras,. las redes neuronales forman un conjunto denso en la clase de funciones continuas de en. R.. Rk. Es necesario comenzar por ciertas deniciones.. Denición 6.0.1 (Clase de funciones anes). Sea Ar el conjunto de funciones anes de. Rk en R. Una funcion an es de la forma f (x) = wt ẋ. En este contexto x corresponde. a la entrada de la red neuronal, y w a los pesos asignados.. Denición 6.0.2. Sea Σr (G) = {f. : Rk → R : f (x) =. Pq. j=i βj G(Aj (x)), x. ∈ Rk , βj ∈. R, Aj ∈ Ak , q = 1...}. Donde G es una función medible de borel de R en R. En otras.

(26) 25. palabras Σr (G) es la clase de redes neuronales de una capa escondida, con función de activación G, donde la función de la capa de salida es lineal y sus pesos corresponden a los βj . Una selección común para G consiste en las funciones aplastadoras denidas a continuación.. Denición 6.0.3. (Función aplastadora). . Una función. f : R → [0, 1] es aplastadora si. lı́mx→∞ f (x) = 1 , lı́mx→−∞ f (x) = 0 y es no decreciente. Dado que una función aplastadora es monótona, tiene a lo sumo enumerables discon-. tinuidades (Rudin 1976) y por ende la función es medible. Ejemplos de función aplastadoras incluyen: la función logística y la función paso la función característica del conjunto. Denición 6.0.4. f (x) = χx>c .. Donde. χx>c. denota. {x|x > c}.. . Una subconjunto M de un espacio métrico (X, ρ). (Conjunto denso). es denso en X si para cada epsilon > 0 y para cada t ∈ T existe un s ∈ S tal que ρ(s, t) < En el caso de las redes neuronales. M. corresponde a. Σr (G). y. X. corresponde a. Ck.. Denición 6.0.5 (Uniformemente denso en compactos). Una subconjunto M de C k es denso en compactos si para cada K ⊂ C k compacto, S es ρK compacto en C k , donde ρK (f, g) = supx∈K |f (x) − g(x)|.. Teorema 6.0.6. Sea G cualquier función continua no constante de R en R. Entonces Σr (G) es uniformemente denso en compactos en C k .. Antes de comenzar es necesario hacer unas deniciones adicionales.. Denición 6.0.7. (Algebra). . Sea F un campo cualquiera, y sea A un espacio vectorial. sobre K equipado con una operación binaria de AxA en A, denotada por ·. Entonces A es un algebra sobre F si se cumplen las siguientes tres identidades para cualesquiera x, y, z ∈ A y a, b ∈ K. Propiedad distributiva por la izquierda:(x + y) · z = x · z + y · z. (6.13). Propiedad distributiva por la derecha:x · (y + z) = x · y + x · z. (6.14). Compatibilidad con escalares:(ax) · (by) = (ab)(x · y). (6.15). En el caso de funciones, esto simplemente implica que una familia de funciones denidas en un conjunto. M. es un algebra mientras sea cerrado bajo suma, multiplicación.

(27) 26. y producto escalar, donde la suma y la multiplicación se denen de manera natural, y los escalares se toman como las funciones constantes. Es evidente que. Σr (G). es un algebra,. sin importar la elección de G.. Denición 6.0.8. Una familia A de funciones separa puntos en E , si para cada x, y ∈ E con x 6= y , existe f ∈ A tal que f (x) 6= f (y).. Denición 6.0.9. Una familia A de funciones no desaparece en ningún punto de E si para cada x ∈ E existe un f ∈ A tal que f (x) 6= 0. Teorema 6.0.10 (Stone-Weierstrass). Sea A un algebra de funciones reales en un con-. junto compacto K . Si A separa puntos en K y A no se desvanece en ningún punto, entonces A es ρK denso en el espacio de funciones continuas sobre el compacto K .. Con estas deniciones y el conocido teorema de Stone-Weierstrass, es posible probar el teorema. Ina prueba de éste ultimo teorema se encuentra en (Rudin 1976).. Demostración.. Sea. K ⊂ Rk. un compacto cualquiera. Sin importar la elección de G. Σr (G) es un algebra en K.Sean G(a) 6= G(b). A(x) = a. y. puntos en. K.. x, y ∈ K. Esto es posible pues. A(y) = b.. Entonces. G. b ∈ R. tal que. Siendo que el vector. x. x 6= y .. Sea. a, b ∈ R a 6= b. es no constante. Ahora selecciona. G(A(x)) 6= G(A(y)),. Adicionalmente, existen funciones mente elija. con. G(b) 6= 0,. G(A(·)). A∈. lo cual implica que. tal que. Ak tal que. Σr (G). separa. constantes diferentes de cero. Simple-. y toma la función afín con. w = (b, 0, 0, ..., 0).. siempre tiene en la primera entrada un uno, que representa el. termino constante, entonces:. A(x) = b. para todo. x.. Por ende. G(A(x)). es constante y. r diferente de cero, asegurando que Σ (G) no se desvanece en ningún punto. El teorema de Stone-Weierstrass, implica que compacto. K. k de C .. Σr (G) es ρK. denso en todo subconjunto.

(28) Capítulo 7. Subagging Introducción. En ocasiones las bases de datos están poco balanceadas, teniendo un porcentaje de observaciones en una de las clases, relativamente bajo. Por ejemplo, en el caso de. Credit. Scoring, donde se intenta distinguir buenos y malos deudores, suele haber un porcentaje bajo de malos deudores. Esto se debe a que las entidades nancieras intentar alejar a los malos deudores para minimizar sus perdidas. Esto puede conllevar a perder información valiosa para identicar a los malos deudores, que era la meta desde un principio. Para entender esto mejor, veamos un caso extremo en el hay dos clases (A y que solo el. 1%. de la base de datos pertenece a la clase. que predijera la clase. B. A.. B). y. En este caso un modelo nulo. para todo el mundo tendría tan solo un error del 1 % de mala. clasicación, sin embargo nos diría muy poco sobre las características que presentan las observaciones de la clase El método de. A.. bagging. consiste en promediar el resultado de varios modelos. Estos. modelos pueden ser radicalmente diferentes, tanto en la metodología usada, como en la base de datos utilizada para entrenar el modelo. En otras palabras. fB (x) =. T 1X ft (x) T. (7.1). t=1. Subagging. promedia el resultado de varios modelos, donde la diferencia radica en la. base de datos usada y no en el modelo en sí. La idea consiste en crear varias bases de datos balanceadas a partir de la base de datos original..

(29) 28. Subagging. Suponga, sin pérdida de generalidad, que existen dos clases, je de observaciones en la clase. A y B , y que el porcenta-. A es muy bajo.La idea consiste en generar varias muestras. semi-aleatorias. Las sub-muestras no son del todo aleatorias, pues se fuerza la selección de todas las observaciones en la clase de observaciones de la clase. B,. A,. y en adición se elige una muestra aleatoria. de tamaño similar a la primera. Las muestras entonces. serán idénticas en las observaciones de la clase la clase. A,. pero diferirán en las observaciones de. B.. Posteriormente se estiman varios modelos, usando las diferentes muestras para entrenar el modelo. En otras palabras al nal se tienen T modelos, utilizando una muestra diferente para entrenar cada modelo. Al nal se calcula el promedio de los resultados de cada modelo. La pregunta en este momento, es cuantas muestras elegir. Es decir cuál debe ser el valor de T. El método que se describe en (Paleologo, Elissee & Antonini 2010) es el que se presenta a continuación. La idea consiste en sacar un numero de muestras suciente para que todas las observaciones de la clase. B. tengan una probabilidad de 95 % de. pertenecer a al menos alguna de las muestras semi-aleatorias. Denotemos el numero de observaciones en la clase. B. y la clase. A. por. n−. y. n+. respectivamente. Si la proporción entre observaciones de la clase A y la clase B que se busca es. α,. la probabilidad de no ser elegido en ninguna de las sub-muestras es:. (1 − α. n+ T ) n−. (7.2). Esto implica que:. T ≥. ln 0.05 + ) ln(1 − α nn−. El numero se elige entonces como el menor entero que cumpla con 7.3.. (7.3).

(30) Capítulo 8. Pre-procesamiento y selección de variables Introducción. Los datos que se utilizan para el análisis pocas veces suelen estar completamente listos para ser utilizados. En muchos casos es necesario realizar varias transformaciones antes de poder empezar a trabajar con los datos. Existen dos tipos de transformaciones estándar en la literatura. La primera es normalizar todas las variables continuas para que su media sea cero y su desviación estándar sea uno. Esto se logra mediante la siguiente transformación:. xij − x¯j ˜ i xj = s(xj ) Donde. sP s(xj ) =. N i i=1 (xj. (8.1). − x¯j )2. (8.2). N −1. Por otro lado cuando se tienen variables nominales se suele crear una variable dicótoma para cada categoría. En otras palabras si una variable dada tiene. k. k variables dicótomas o dummies, donde zj. =1. k. categorías, se crean. para una sola categoría. j. y cero para. las demás. En el marco de lo que hemos estudiado hasta el momento, una buena selección de variables es necesaria para evitar la maldición de la dimensionalidad y lograr que nuestros datos se adapten de manera adecuada a nuevas situaciones. En otras palabras, reducir el número de variables introducidas puede mejorar considerablemente el desempeño de nuestro modelo. Esto puede parecer contra-intuitivo, pues se está reduciendo la.

(31) 30. información utilizada en el modelo, pero a cambio se le está dando mayor generalidad al mismo. La idea consiste en encontrar variables que contengan el grueso de la información relevante, dejando por fuera variables que tengan poca o ninguna relación con la clasicación en diferentes clases. Para lograr este necesario objetivo es denir una metodología para buscar ecientemente en todos los subconjuntos posibles del conjunto de variables, pues el número de dichos subconjuntos crece exponencialmente con el número de variables. A saber es. 2p. si p es el numero de variables. Tan solo con 10 variables tenemos. 1024 posibles subconjuntos, y este número crece aun mas si algunas de estas variables son nominales con varias categorías. Es necesario entonces crear varios ltros para encontrar un subconjunto óptimo. Este capítulo explorar un método general para encontrar un subconjunto óptimo de nuestras variables, y después utilizara el concepto de subagging para indicar como este método y los árboles de clasicación se pueden utilizar para encontrar variables importantes en el caso de datos poco balanceados.. Diferencia en medias y proporciones. Si denotamos las dos clases como. A. y. B. respectivamente, el primer ltro por el que. se pasan las variables es uno que trata de mirar si la distribución de cierta variable dado que se pertenece a la clase se pertenece a la clase. B.. A. es signicativamente diferente de la distribución dado que. En otras palabras miraremos si. f (X|Y = A) = f (X|Y = B).. Aquí trataremos tres pruebas parar mirar esta diferencia. Las primeras dos tratan de mirar si el primer momento de las distribuciones es diferente, la tercera trata de mirar si las distribuciones son independientes. El subconjunto de variables se puede seleccionar como aquél que arroje diferencias en la distribución por alguno de los tres métodos.. Diferencia en medias La idea consiste en realizar un test estadístico para determinar si la media de cierta variable, condicional al conjunto. A,. es diferente de la media condicional al conjunto. B.. Para esto se realiza una prueba que arroja un estadístico que se comporta asintóticamente como una distribución t-student. En este caso la hipótesis nula es que la media de las.

(32) 31. dos poblaciones es igual.. B xA j − xj t= q s2 s1 N1 − N2 Donde. s1. y. s2. se denen como en 8.2, y. xC j. (8.3). es el promedio de la variable. j. para las. observaciones en la clase C.. Diferencia en proporciones En el caso en que la variables es dicótoma (es decir, toma el valor de cero o uno), se puede realizar un test de medias, pero es más adecuado utilizar un test de proporciones, pues se puede ver la variable como un experimento Bernoulli, donde hay éxito o no. En este caso la prueba arroja un estadístico que se comporta asintóticamente como una normal estándar.. z=. p1 − p2 p̄(1 − p̄)( n11 +. (8.4). 1 n2 ). p1 y p2 representan la proporción de unos, dados P n1 (xi |y i =A) p1 = i=1 nj1 Pn2 (xi |y i =B) p2 = i=1 nj2 n1 = |{xij |y i = A}| n2 = |{xij |y i = B}| +n2 p2 p̄ = n1np11 +n 2 Donde. A. y. B. respectivamente.. Prueba χ2 La idea de esta prueba consiste en vericar si dos variables son independientes. Para esto se crea una tabla de contingencia entre ambas variables y se compara con una tabla que asuma completa independencia entre ambas variables. Esta prueba es más adecuada para variables nominales, aunque no se restringe a éstas. Una tabla de contingencia resume el número de observaciones que tienen cierto valor para cada una de las variables. En términos matemáticos, se denen variables aleatorias, y se denota tomar las variables ver como:. X. y. Y. X. y. Y. como dos. xi , ..., xn y y1 , ..., ym como los distintos valores que pueden. respectivamente. Entonces una tabla de contingencia se puede.

(33) 32. x1. .... xn. y1. O11. .... O1n. .... .... .... .... ym. Om1. .... Omn. Donde. Ok j. es el numero de observaciones con valor. respectivamente. Sea. Oij y Oj• = Pni=1 P N = i=1 Oi• = m i=1 O•i. O•j =. observaciones entonces. xj. y. Pm. Pn. yk. i=1 Oji . Si. N. en las variables. X. y. Y. es el número total de. Luego una tabla de contingencia que. asuma completa independencia tiene la forma:. x1. .... xn. y1. e11. .... e1n. .... .... .... .... ym. em1. .... emn. eij =. O•j Oi• N. Donde. El siguiente estadístico se comporta asintóticamente como una. χ2(m−1)(n−1). =. χ2 .. m X n X (Oil − eil )2. eil. i=1 l=1 La hipótesis nula de esta prueba es que. X. y. Y. son independientes.. Forward Selection Model Los tres métodos presentados anteriormente son algo miopes, pues solo relacionan un par de variables, sin tener en cuenta que en un modelo se suelen introducir varias variables. Por otro lado la diferencia en medias y en proporciones solo mira las diferencias en el primer momento, olvidando diferencias que puedan existir más allá. Dado que la prueba. χ2 suele arrojar resultados poco satisfactorios con variables continuas es necesario. implementar métodos diferentes. Una manera más sistemática de seleccionar el subconjunto óptimo, intenta ver más allá de las distribuciones, y ver si las variables contribuyen información valiosa una vez se las incorpora al modelo. En vez de mirar todos los posibles subconjuntos posibles, este método empieza por el conjunto vació, e incorpora una variable a la vez. Esta variable es aquella con la que se obtenga la mayor reducción en alguna medida de error. Se dejan de adicionar variables cuando la reducción en el error sea menor a un límite denido. Aunque este método es suboptimo, comparado con uno que elija el subconjunto de variables que tenga el menor error, es preferible computacionalmente,y (Hastie et al. 2001) muestra, empíricamente, que la diferencia suele ser despreciable entre los dos enfoques..

(34) 33. En el caso de los modelos de clasicación, dado que la variable independiente es dicótoma, el termino de error adecuado es la devianza. Dado que una red neuronal o un árbol de selección son más pesados computacionalmente que un modelo probit o logit, se recomienda el uso de estos últimos para el. Forward Selection Model.. Dado que la diferencia entre la devianza de dos modelos se comporta asintóticamente como una. χ2 ,. con un grado de libertad en este contexto, se deja de incorporar variables. cuando ninguna logre que la devianza se reduzca en menos de. (χ21 )−1 (1 − α). donde. α. es. un parámetro denido por nosotros, en general igual a 0.05.. Subagging y selección de variables. Aunque el método propio de subagging no es aplicable a seleccionar variables, se puede utilizar una idea similar. Se ha demostrado empíricamente que este método arroja resultados satisfactorios.(Paleologo et al. 2010) En las bases de datos poco balanceadas es posible que el efecto de ciertas características o variables claves para determinar la pertenencia a una clase dada se vean diluidas por la gran cantidad de datos que pertenecen a la otra clase, especialmente en el. Forward. Selection Model.. Forward selection model con subagging La idea consiste en crear T muestras como se indica 7.3, y hacer. Model. Forward Selection. para cada una de ellas. Después ver la frecuencia con la que aparecen cada una. de las variables en todos los subconjuntos seleccionados. Se seleccionan entonces las variables que aparezcan con una frecuencia superior a un limite establecido por nosotros.. Seleccion de variables con árboles de clasicación usando subagging La idea consiste en crear T muestras como se indica 7.3, y hacer realizar la metodología de árbol de clasicación indicada en el capitulo 7. Se mira entonces la frecuencia con la que aparecen todas las variables, en todos los árboles, incluyendo repeticiones dentro de un mismo árbol. Se seleccionan entonces las variables que aparezcan más de un número dado de veces..

(35) Capítulo 9. Evaluación de los modelos Introducción. Si partimos nuestra base de datos en tres, para entrenamiento, validación y prueba podemos medir la generalización de nuestro modelo comparando los resultados en estas tres muestras. Esto se puede hacer usando los términos de errores en 3.1, pero poco nos dice sobre la capacidad del modelo para clasicar observaciones. Es importante anotar que los modelos suelen arrojar un numero, normalmente entre cero y uno, que se puede interpretar como la probabilidad de pertenecer a una clase dada, y no una clasicación exacta de las observaciones. Es entonces importante denir un punto de corte, donde aquellas observaciones con un valor mayor a este punto de corte se clasican en una clase dada, y con un valor menor en otra.. Matriz de confusion. Como el nombre lo indica, la idea consiste en crear tabla de contingencia donde las las indican la categoría dada por el modelo y las columnas la categoría real..

(36) 35. Figura 9.1: Matriz de Confusion. Sea. A =. a11 a21. A. en la clase clase. B. clasicados en. B. la matriz que aparece arriba. Entonces. a12 a22. observaciones en la clase la clase. ! A. clasicadas como tal.. B. por el modelo.. clasicados en. A. clasicados como tal.. a12. a21. a11. es el número. Es el número de observaciones en. es el número de número de observaciones. por el modelo y. a22. es el número de observaciones en la.

(37) 36. Denición 9.0.1. [Tasas de Clasicación] 22 Tasa de Verdaderos Positivos(TVP)= a22a+a 21. 12 Tasa de Falsos Positivos(TFP)= a11a+a 12. a11 Tasa de Verdaderos Negativos(TVN)= a1 1+a 12 a21 Tasa de Falsos Negativos(TVN)= a2 2+a 21 +a22 Tasa de Buena Clasicación(TBC)= a22 +aa11 21 +a11 +a12 +a12 Tasa de Mala Clasicación(TMC)= a22 +aa21 21 +a11 +a12. Es importante anotar que en los casos donde el modelo arroja una probabilidad de incumplimiento, existe una matriz de confusión para cada corte. Esto arroja la pregunta natural de cómo elegir un punto de corte óptimo.. Prueba K-S. La idea de esta prueba consiste en encontrar un punto de corte, donde la discriminación entre la clase A y B sea máxima. Teniendo en cuenta que TVP, TFP, TVN y TVP dependen del punto de corte elegido s, el punto de corte óptimo, según la prueba K-S, es:. s∗ = arg máx |T V P (s) − T F P (s)| s. (9.1). En otras palabras, tratamos de encontrar el punto donde la diferencia entre la proporción de observaciones en la clase en la clase. B. A. bien calicados y la proporción de observaciones. mal calicados sea máxima.. Curva ROC. La curva ROC o. receiver operating characteristic curve, ayuda a determinar que tan. bueno es un modelo que resulta en la probabilidad de pertenecer a una clase dada, teniendo en cuenta que aquellas personas que perteneces a esa clase deberían tener una.

(38) 37. probabilidad mayor, que aquellas personas en la otra clase. La curva ROC es la curva paramétrica de. (T V P (s), T F P (s)). con s variando entre. cero y uno. Ciertamente, la curva ROC muestra la disyuntiva que existe entre TVP y TFP. Una medida global de la bondad del modelo debería ser independiente del punto de corte. En este sentido, el área bajo la curva ROC es un buen indicativo. Uno quisiera que TVP sea lo más alto posible para cada s, manteniendo la TFP lo más baja posible. En otras palabras, queremos maximizar la TVP, dada una TFP ja. Como queremos que esto sea independiente del punto de corte, es lógico pensar que en realidad queremos maximizar la suma de estos TFP. Su análogo en versión continua sería la maximización de:. Z. 1. T V P (s)ds. (9.2). 0 Dado que a cada punto de corte le corresponde un TFP, es análogo maximizar:. Z. 1. T V P (T F P )d(T F P ) 0 Esto es precisamente el area bajo la curva ROC.. (9.3).

(39) Capítulo 10. Aplicación empírica Por último, se realiza una aplicación completa de los métodos expuestos arriba. La base de datos consta de 493,483 observaciones de una entidad que otorga microcréditos para conformar microempresas. Se cuenta con 192 variables que contienen información sobre el cliente y la microempresa, así como sobre el crédito que se otorgó. De estas variables 82 son continuas y 112 son categóricas. Dentro de estas variables se encuentra una variable que indica el número de días en mora del cliente en una fecha dada. Con esta información se categoriza a las personas como bueno o malos deudores, dependiendo de si sus días de mora son superiores a 60. Así las cosas, solo 17,086 registros se clasican como malos deudores. Para estimar los diferentes modelos se utilizó el software MATLAB. r.. En primera. instancia se normalizaron todas las variables, y se crearon variables dicótomas para todas las variables categóricas. Adicionalmente, se crea una variable dicótoma correspondiente a cada variable, que indica si la información de la variable no existe para ese registro. Esto se realiza, pues en ocasiones, dejar de responder una pregunta se hace con nes estratégicos. Por ejemplo en donde se pregunta si la persona fuma o no, la gente puede dejar de responder para evitar mentir y que la entrega del crédito se vea afectada por su respuesta. Al nal se tienen más de 391 variables, entre continuas y dicotomías. Se apartó el 10 % de la base de datos como muestra de prueba. El paso siguiente es preseleccionar variables relevantes usando los tres estadísticos descritos en el capitulo 8. Basado en este criterio se empieza a trabajar únicamente con 255 variables. A continuación se describen las diferentes técnicas utilizadas y una tabla que compara los resultados de cada una de ellas. En primera instancia se realizó un modelo logístico, realizando. forward selection para. seleccionar las variables relevantes. Posteriormente se utilizó un árbol de clasicación, con su respectivo sub-árbol óptimo. Como tercera técnica, se realizó una red neuronal,.

(40) 39. forward selection con un modelo logístico para seleccionar variables relevantes. Finalmente se utilizo el método de subbaging utilizando forward selection y árboles de utilizando. clasicación para seleccionar variables relevantes como se describe en el capitulo 7, y. 1 redes neuronales y promediar su resultado. utilizando subbaging para entrenar diferentes al nal.. A continuación se presenta una tabla comparando los resultados para los diferentes métodos, y una muestra de una matriz de confusión, una curva ROC y muestras de las diferentes tasas de clasicación para el último modelo utilizado.. Numero de observaciones Numero de variables Punto de corte óptimo ROC en entrenamiento ROC en prueba TBC en entrenamiento TBC en prueba TVP en entrenamiento TVP en prueba TFP en entrenamiento TFP en prueba. Modelo logístico Sub-Árbol óptimo Red neuronal Subbaging 392165 392165 392165 392135 18 18 18 21 0.00090946 0.0645 0.0043 0.5 0.877 0.8374 0.8592 0.873 0.8841 0.8423 0.8617 0.879 35.70% 79.80% 42.60% 72.30% 89.40% 79.60% 42.20% 71.70% 99.40% 66.40% 98.60% 91.10% 51.70% 66.40% 99.20% 92.80% 66.30% 19.20% 40.80% 28.30% 9.30% 20.00% 59.60% 29.00%. En la tabla anterior el punto de corte óptimo corresponde a aquel encontrado usando la prueba K-S en la base de entrenamiento. La TBC TVP y TFP son dadas para el punto de corte óptimo. En el árbol de clasicación, se detuvo el crecimiento cuando menos del 10 % de la base de datos quedaba en un nodo, para así evitar una varianza alta en el modelo. Para el sub-árbol óptimo se utilizo cross-validation con K=5. Todas las redes neuronales tienen 3 neuronas, pues después de varios experimentos se determino que este número permitía una buena adaptación del modelo y una varianza baja simultáneamente. La función de activación de ambas capas, en todas las redes neuronales, corresponde a la tangente hiperbólica. Dado que esto arroja un resultado en el intervalo [-1,1], este se reescala al intervalo [0,1] para facilitar su comparación con los demás modelos. Las variables para la red neuronal con subagging, como se dijo anteriormente, fueron seleccionadas con base a la frecuencia en que aparecen utilizando los métodos descritos en el capitulo 7. Note que la red neuronal con. subbaging,. es el mejor modelo. Posee la tasa de buena. clasicación más alta, solo superado por el sub-árbol óptimo, pero su tasa de verdaderos positivos es signicativamente mejor, sin sacricar mucho la tasa de falsos positivos. En el caso particular de. credit scoring. es importante tener una TVP alta para poder. identicar los malos deudores, pero también es necesario mantener una baja TFP para evitar perder buenos clientes. Una de las posibles ventajas que tiene el sub-árbol óptimo, es que el numero de variables que utiliza es menor, lo que le da una ventaja con respecto. 1. En esta aplicación se utilizan 83 submuestras balanceadas.

(41) 40. a la red neuronal con. subbaging. respecto a la maldición de la dimensionalidad.. A continuación se presenta la curva ROC para la red neuronal con matriz de confusion para la base de prueba en el punto de corte óptimo.. Matrix.pdf. Figura 10.1: Matriz de confusion. subbaging. y la.

(42) 41. Figura 10.2: Curva ROC.

(43) Bibliografía Bellman, R. (1961),. Adaptive Control Processes: A Guided Tour,. Princeton University. Press. Bishop, C. (2003),. Neural Networks for Pattern Recognition, Oxford University Press.. Breiman, L., Friedman, J., Olshen, R. & Stone, C. (1984),. Classication and Regression. Trees, Wadsworth and Brooks, Monterey, CA. Eccles, I. & Su, M. (2004), Illustrating the curse of dimensionality numerically through dierent data distribution models,. in. ÌSICT '04: Proceedings of the 2004 interna-. tional symposium on Information and communication technologies', Trinity College Dublin, pp. 232237. Hastie, T., Tibshirani, R. & Friedman, J. (2001),. The Elementos of Statistical Learning:. Data Mining, Inference, and Prediction, Springer Series in Statistics. Hornik, K. (1991), Àpproximation capabilities of multilayer feedforward networks',. ral Networks 4(2), 251 257.. Neu-. Hornik, K., Stinchcombe, M. & White, H. (1989), `Multilayer feedforward networks are universal approximators',. Neural Netw. 2(5), 359366.. Paleologo, G., Elissee, A. & Antonini, G. (2010), `Subagging for credit scoring models',. European Journal of Operational Research 201, 490499. Rudin, W. (1976), York :.. Principles of mathematical analysis,. 3d ed. edn, McGraw-Hill, New.

(44)