5. Experimento computacional
5.2. Descripci´on estad´ıstica del conjunto de datos
5.2.5. Selecci´on de atributos
Una aproximaci´on alternativa para reducir el n´umero de atributos de entrada del modelo es realizar una selecci´on de atributos, llevando a cabo una ordenaci´on de los mismos mediante alg´un m´etodo de puntuaci´on que estime su capacidad predictiva para despu´es definir un umbral o punto de corte que nos permita quedarnos s´olo con los m´as importantes. Existen diversos m´etodos de selecci´on de atributos, aunque en general podemos agruparlos en m´etodos univariantes, cuando consideran la capacidad predictiva de cada una de las variables sin tener en cuenta su relaci´on con el resto, y m´etodos multivariantes, cuando sean capaces de considerar el efecto conjunto de un grupo de variables y utilicen esta informaci´on para ponderar la puntuaci´on individual de cada uno de ellas. En las siguientes secciones se analizar´a la aplicaci´on de un representante de cada uno de estos grupos sobre el conjunto WDBC*.
5.2.5.1. Selecci´on de atributos univariante: an´alisis ANOVA
Un m´etodo muy popular para prever la capacidad predictiva de la clase de cada una de las variables del espacio original antes de pasar a la etapa de modelizaci´on es realizar un an´alisis de la varianza o ANOVA (del ingl´es Analysis of Variance). La hip´otesis que se pone a prueba en el ANOVA es que las medias poblacionales -las medias de los atributos en cada una de las clases- son iguales. Si las medias son iguales, los grupos o clases no difieren en la distribuci´on del atributo y, en consecuencia, la clase y el atributo son independientes.
La estrategia para poner a prueba la hip´otesis de igualdad de medias consiste en obtener un estad´ıstico llamado F de Fischer o ANOVA-F, que refleja el grado de similitud entre las medias que se est´an comparando. Este estad´ıstico se calcula mediante la expresi´on
F = PK i=1ni( ˆYi Yˆ)2 K 1 PK i=1 Pni j=1ni(Yij Yˆi)2 N K ,
d´onde el numerador expresa una estimaci´on de la varianza poblacional basada en la variabilidad existente entre las medias de cada grupo (variabilidad inter-grupos) y el denominador expresa tambi´en una estimaci´on de la varianza poblacional pero basada en la variabilidad existente dentro de cada grupo (variabilidad intra-grupos). Si las medias poblacionales son iguales, las medias muestrales ser´an parecidas, existiendo s´olo diferencias atribuibles al azar. En ese caso, la estimaci´on de la varianza basada en las diferencias entre las medias de cada grupo reflejar´a el mismo valor que la estimaci´on realizada con las puntuaciones individuales y el cociente tomar´a un valor cercano a 1. Por el contrario, si las medias son distintas, el valor de la variabilidad inter-grupos ser´a superior al de la variabilidad intra-grupos, lo que provocar´a que el cociente tome un valor superior a 1. Cu´anto m´as diferentes sean las medias, mayor ser´a este valor.
En general el estad´ısticoF se utiliza para realizar un contraste de hip´otesis, en el que se asigna a ´este una distribuci´on de probabilidad (llamadaF de Fischer-Snedecor) y se compara su valor con el de un umbral cr´ıtico, correspondiente por ejemplo a la probabilidad .05 para aceptar o rechazar la hip´otesis de igualdad de medias. En la selecci´on univariante de atributos, sin embargo, el valor
F es utilizado para ordenar la capacidad predictiva individual de las variables. En este sentido, la Figura 5.11 representa el valor relativo de F respecto a Fmax para cada una de las variables de
WDBC*. La lectura del gr´afico indica que las variables de valor medio y peor explican la clase de forma parecida -debido a su elevada correlaci´on- si bien las variables de valor peor tienen mayor
68 SECCI ´ON 5. EXPERIMENTO COMPUTACIONAL
capacidad predictiva individual 6. Por otro lado, se observa que entre las variables de error s´olo las
variables geom´etricas (´area, per´ımetro y radio) tienen una capacidad predictiva destacable, si bien esta observaci´on no nos permite afirmar que otras variables sin capacidad predictiva individual puedan ser interesantes en el an´alisis multivariante, por lo que no es apropiado realizar descartes en base a esta lectura.
A modo ilustrativo, las Figuras 5.12 y 5.13 recogen, respectivamente, las distribuciones de las variables worst concave points (m´as predictiva) y smothness error menos predictiva. Como puede observarse, en el primer caso la variable de clase realiza una separaci´on clara de distribuciones, mientras que en el segundo las distribuciones quedan solapadas, lo que indica que las medias poblacionales son muy parecidas. La Figura 5.14 recoge los diagramas de caja o boxplots de las 12 variables del conjunto WDBC* reducido, que permiten hacer una lectura similar de la desigualdad de medias poblacionales.
Figura 5.11: Valor relativo deF respecto a Fmax para cada una de las variables de WDBC*.
Figura 5.12: Distribuci´on de worst concave points seg´un la variable de clase.
6Esto justifica la decisi´on de tomar este grupo y no el de valores medios para el subconjunto WDBC* reducido.
5.2. DESCRIPCI ´ON ESTAD´ISTICA DEL CONJUNTO DE DATOS 69
Figura 5.13: Distribuci´on de smothness error seg´un la variable de clase.
70 SECCI ´ON 5. EXPERIMENTO COMPUTACIONAL 5.2.5.2. Selecci´on de atributos multivariante: Random Forests
El m´etodo de selecci´on de atributos univariante recogido en el punto anterior es una buena aproximaci´on para comprender las relaciones entre cada uno de los atributos y la variable de clase, pero no es capaz de eliminar la redundancia entre atributos (es decir, seleccionar s´olo uno entre un conjunto de atributos correlacionados) o de captar la capacidad predictiva combinada de dos o m´as atributos. Esta problem´atica puede salvarse mediante los m´etodos de selecci´on de atributos multivariantes, tal como el an´alisis de atributos mediante ´arboles se presenta a continuaci´on.
En la selecci´on de atributos mediante ´arboles la determinaci´on de la importancia de los atri- butos se realiza desarrollando un conjunto de modelos con un subespacio aleatorio de atributos de entrada (Random Forests) y obteniendo una medida de puntuaci´on como la entrop´ıa o el ´ındice Gini. El procedimiento para puntuar atributos es el siguiente: cuando se entrena un ´arbol, se puede calcular cu´anto disminuye la impureza ponderada del ´arbol con la adici´on de una nueva carac- ter´ıstica. Al desarrollar un conjunto de ´arboles, la disminuci´on de impurezas de cada caracter´ıstica se puede promediar y las caracter´ısticas se pueden clasificar de acuerdo con esta medida. La Figura 5.15 recoge en forma de diagrama de barras la importancia relativa de cada uno de los atributos del conjunto WDBC* reducido. Como se puede observar, la variable de mayor peso en el conjunto de modelos desarrollado es worst concave points, coincidiendo con la estimaci´on univariante de la capacidad predictiva. En este caso, sin embargo, otras variables con una capacidad predictiva individual elevada, como worstworst concavity oworst compactness quedan tapadas por la misma, al existir una correlaci´on fuerte entre ambas. Como se puede ver, tambi´en las variables de valor medio quedan tapadas por su correlaci´on con las variables de valor peor, siguiendo la l´ınea del an´alisis de correlaciones por pares realizado en 5.2.5.1.