Selecci´on de atributos - Descripci´on estad´ıstica del conjunto de datos

5. Experimento computacional

5.2. Descripci´on estad´ıstica del conjunto de datos

5.2.5. Selecci´on de atributos

Una aproximación alternativa para reducir el número de atributos de entrada del modelo es realizar una selección de atributos, llevando a cabo una ordenación de los mismos mediante algún método de puntuación que estime su capacidad predictiva para después definir un umbral o punto de corte que nos permita quedarnos sólo con los más importantes. Existen diversos métodos de selección de atributos, aunque en general podemos agruparlos en métodos univariantes, cuando consideran la capacidad predictiva de cada una de las variables sin tener en cuenta su relación con el resto, y métodos multivariantes, cuando sean capaces de considerar el efecto conjunto de un grupo de variables y utilicen esta información para ponderar la puntuación individual de cada uno de ellas. En las siguientes secciones se analizará la aplicación de un representante de cada uno de estos grupos sobre el conjunto WDBC*.

5.2.5.1. Selecci´on de atributos univariante: an´alisis ANOVA

Un método muy popular para prever la capacidad predictiva de la clase de cada una de las variables del espacio original antes de pasar a la etapa de modelización es realizar un análisis de la varianza o ANOVA (del inglés Analysis of Variance). La hipótesis que se pone a prueba en el ANOVA es que las medias poblacionales -las medias de los atributos en cada una de las clases- son iguales. Si las medias son iguales, los grupos o clases no difieren en la distribución del atributo y, en consecuencia, la clase y el atributo son independientes.

La estrategia para poner a prueba la hipótesis de igualdad de medias consiste en obtener un estad´ıstico llamado F de Fischer o ANOVA-F, que refleja el grado de similitud entre las medias que se están comparando. Este estad´ıstico se calcula mediante la expresión

F = PK i=1ni( ˆYi Yˆ)2 K 1 PK i=1 Pni j=1ni(Yij Yˆi)2 N K ,

dónde el numerador expresa una estimación de la varianza poblacional basada en la variabilidad existente entre las medias de cada grupo (variabilidad inter-grupos) y el denominador expresa también una estimación de la varianza poblacional pero basada en la variabilidad existente dentro de cada grupo (variabilidad intra-grupos). Si las medias poblacionales son iguales, las medias muestrales serán parecidas, existiendo sólo diferencias atribuibles al azar. En ese caso, la estimación de la varianza basada en las diferencias entre las medias de cada grupo reflejará el mismo valor que la estimación realizada con las puntuaciones individuales y el cociente tomará un valor cercano a 1. Por el contrario, si las medias son distintas, el valor de la variabilidad inter-grupos será superior al de la variabilidad intra-grupos, lo que provocará que el cociente tome un valor superior a 1. Cuánto más diferentes sean las medias, mayor será este valor.

En general el estad´ısticoF se utiliza para realizar un contraste de hipótesis, en el que se asigna a éste una distribución de probabilidad (llamadaF de Fischer-Snedecor) y se compara su valor con el de un umbral cr´ıtico, correspondiente por ejemplo a la probabilidad .05 para aceptar o rechazar la hipótesis de igualdad de medias. En la selección univariante de atributos, sin embargo, el valor

F es utilizado para ordenar la capacidad predictiva individual de las variables. En este sentido, la Figura 5.11 representa el valor relativo de F respecto a Fmax para cada una de las variables de

WDBC*. La lectura del gr´afico indica que las variables de valor medio y peor explican la clase de forma parecida -debido a su elevada correlaci´on- si bien las variables de valor peor tienen mayor

68 SECCI ´ON 5. EXPERIMENTO COMPUTACIONAL

capacidad predictiva individual 6_{. Por otro lado, se observa que entre las variables de error s´olo las}

variables geométricas (área, per´ımetro y radio) tienen una capacidad predictiva destacable, si bien esta observación no nos permite afirmar que otras variables sin capacidad predictiva individual puedan ser interesantes en el análisis multivariante, por lo que no es apropiado realizar descartes en base a esta lectura.

A modo ilustrativo, las Figuras 5.12 y 5.13 recogen, respectivamente, las distribuciones de las variables worst concave points (m´as predictiva) y smothness error menos predictiva. Como puede observarse, en el primer caso la variable de clase realiza una separaci´on clara de distribuciones, mientras que en el segundo las distribuciones quedan solapadas, lo que indica que las medias poblacionales son muy parecidas. La Figura 5.14 recoge los diagramas de caja o boxplots de las 12 variables del conjunto WDBC* reducido, que permiten hacer una lectura similar de la desigualdad de medias poblacionales.

Figura 5.11: Valor relativo deF respecto a Fmax para cada una de las variables de WDBC*.

Figura 5.12: Distribuci´on de worst concave points seg´un la variable de clase.

6_{Esto justifica la decisi´}_{on de tomar este grupo y no el de valores medios para el subconjunto WDBC* reducido.}

5.2. DESCRIPCI ´ON ESTAD´ISTICA DEL CONJUNTO DE DATOS 69

Figura 5.13: Distribuci´on de smothness error seg´un la variable de clase.

70 SECCI ´ON 5. EXPERIMENTO COMPUTACIONAL 5.2.5.2. Selecci´on de atributos multivariante: Random Forests

El método de selección de atributos univariante recogido en el punto anterior es una buena aproximación para comprender las relaciones entre cada uno de los atributos y la variable de clase, pero no es capaz de eliminar la redundancia entre atributos (es decir, seleccionar sólo uno entre un conjunto de atributos correlacionados) o de captar la capacidad predictiva combinada de dos o más atributos. Esta problemática puede salvarse mediante los métodos de selección de atributos multivariantes, tal como el análisis de atributos mediante árboles se presenta a continuación.

En la selección de atributos mediante árboles la determinación de la importancia de los atributos se realiza desarrollando un conjunto de modelos con un subespacio aleatorio de atributos de entrada (Random Forests) y obteniendo una medida de puntuación como la entrop´ıa o el ´ındice Gini. El procedimiento para puntuar atributos es el siguiente: cuando se entrena un árbol, se puede calcular cuánto disminuye la impureza ponderada del árbol con la adición de una nueva caracter´ıstica. Al desarrollar un conjunto de árboles, la disminución de impurezas de cada caracter´ıstica se puede promediar y las caracter´ısticas se pueden clasificar de acuerdo con esta medida. La Figura 5.15 recoge en forma de diagrama de barras la importancia relativa de cada uno de los atributos del conjunto WDBC* reducido. Como se puede observar, la variable de mayor peso en el conjunto de modelos desarrollado es worst concave points, coincidiendo con la estimación univariante de la capacidad predictiva. En este caso, sin embargo, otras variables con una capacidad predictiva individual elevada, como worstworst concavity oworst compactness quedan tapadas por la misma, al existir una correlación fuerte entre ambas. Como se puede ver, también las variables de valor medio quedan tapadas por su correlación con las variables de valor peor, siguiendo la l´ınea del análisis de correlaciones por pares realizado en 5.2.5.1.

In document Aprendizaje supervisado en conjuntos de datos no balanceados con redes neuronales artificiales: métodos de mejora de rendimiento para modelos de clasificación binaria en diagnóstico médico (página 85-89)