Seleccion de Variables - Métodos Stepwise

(1)

WWW.UNCONEJONEGRO.BLOGSPOT.COM Trabajos Resueltos. Oracle, estadística y más.

Anthony A. Alarcón Moreno

Selección de Variables

(2)

Pág

in

a

1 Contenido

Selección de Variables - Métodos Stepwise ... 2

1. Backward Elimination ... 2

1.1 Conceptos previos ... 2

1.2 Aplicación ... 5

2.Fordward Selection ... 15

(3)

Pág

in

a

2 Selección de Variables - Métodos Stepwise

Cuando, en un modelo de regresión lineal, disponemos de muchas variables explicativas, se hace necesario seleccionar un conjunto de ellas, pues generalmente un subconjunto de variables dan mejores predicciones que un modelo con todas las variables –en caso que el número de variables predictoras sea grande (más de 10). Para seleccionar la cantidad de variables, nos podemos plantear varios criterios, como reducir la varianza o aumentar el r cuadrado, así como generar todos los modelos posibles.

Reduciendo la cantidad de variables regresoras lograremos también que nuestro modelo sea un

modelo parsimonioso –el modelo más simple que explica suficientemente bien los datos-.

En este trabajo vamos a ver, de manera práctica, los métodos de selección STEPWISE, cuyos algoritmos son:  Backward Elimination  Forward Selection  Stepwise Selection

1. Backward Elimination

1.1 Conceptos previos

Empezaremos explicando este método, que empieza tomando todas las variables. Usaré unos datos en el minitab –pueden solicitarme la data, a mi correo o desde

www.unconejonegro.blogspot.com-

(4)

Pág

in

a

3

Fijaremos un valor de entrada α=0.05 y uno de salida α=0.10. Esto nos servirá para los tres algoritmos. La explicación del valor de entrada y de salida es sencilla, se trata de cuán grande quieres que sea el área de tu región de rechazo (donde estarán tus variables significativas); por ejemplo, en el caso del valor de entrada, nos da un 95% de confianza para afirmar que las variables son significativas y que explican el modelo, mientras que en el caso del valor de salida sólo nos da un 90% de confianza. Mientras más grande sean nuestros valores de salida, el nivel de confianza se reducirá, análogamente con el caso del valor de entrada. Sucede lo mismo con los valores F. Vamos a la gráfica:

Definimos

(5)

Pág

in

a

4

Esta

Para el caso de usar los valores de F-IN o F-OUT, vamos a ver cómo es esto.

Usualmente se escoge un F=4. En nuestro caso, tenemos 3 grados de libertad para el cuadrado medio de la regresión (CMR) y 70 grados de libertad para el cuadrado medio del error (CME). Calculamos el área de la región de aceptación

(6)

Pág in a

5

Gráficamente sería:

1.2 Aplicación

Ahora, con estos conceptos, seguiremos el método backward elimination.

En el minitab, calcularemos el anova y la tabla de coeficientes para el modelo considerando todas las variables

(7)

Pág

in

a

6

(8)

Pág

in

a

7

Clicamos en Aceptar y luego, en el panel principal, también le damos en Aceptar

(9)

Pág

in

a

8

Donde vemos que la estadística t asociada a la variable X3, cae en la región de aceptación. Esto nos indica que la variable X3 no es significativa. También notamos que el p-valor es 55.9%, que evidentemente nos sugiere que cae en la región de aceptación también. Acordémonos que tenemos 3 grados de libertad para la regresión y 70, para el error; con esto calculamos α=0.011 para F=4.

Se elimina X3 pues es la única que cae en la región de aceptación. Si hubiese más estadísticas t, escogeríamos la más pequeña entre las que caen en la región de aceptación.

(10)

Pág

in

a

9

Vemos que cae en la región de aceptación, y es la única. Ahora, como eliminamos X3, nuestro modelo quedaría así:

En el paso 2, volveremos a hacer el mismo procedimiento, pero esta vez para el modelo reducido. Con el minitab hacemos:

Luego, seleccionamos solo las variables X1 y X2 como variables regresoras o independientes

(11)

Pág

in

a

10

Y obtendremos:

Vemos que los grados de libertad son, 2 para la regresión y 71 para el error, pues eliminamos una variable. Con estos datos calcularemos la estadística t

(12)

Pág

in

a

11

Graficándolo sería

Entonces, como ya no hay variables que se puedan eliminar, pues X1 y X2 son significativas, acá se para el proceso y nos quedamos con el modelo

Minitab nos brinda una opción para realizar este método –backward

elimination-automáticamente. Hace todos los pasos necesarios hasta conseguir un modelo que no elimine las variables significativas.

(13)

Pág

in

a

12

En el panel que aparecerá, seleccionaremos las variables predictoras y la variable respuesta que queremos que sean analizadas por el método backward elimination

(14)

Pág

in

a

13

En este panel seleccionaremos la tercera opción, Eliminación hacia atrás. Activamos la opción Usar

valores alfa y fijamos el valor de salida en 0.10

Podríamos usar los valores F, no hay problema en ello, pero esta vez, como ejemplo, usaré las pruebas t –aunque ustedes pueden usar cualquiera-.

(15)

Pág

in

a

14

Resumió todo el procedimiento anterior y nos dijo que sólo usó dos pasos y que el modelo, con un 90% de confianza, se reduce a

(16)

Pág

in

a

15 2.Fordward Selection

Este método empieza como un modelo de regresión simple, donde el criterio para seleccionar la variable independiente de este modelo de regresión simple, es tomar aquella variable que tenga el mayor valor de la estadística t, en valor absoluto –aunque también podríamos usar el valor F, pero se los dejo como tarea =) -. Según esto, tendremos que calcular el modelo con todas sus variables para poder saber qué variable tiene la mayor estadística t; nosotros ya lo calculamos en el método

backward elimination –página 7-

De este gráfico, vemos que la variable que presenta la mayor estadística t, en valor absoluto, es X2. Entonces, empezaremos con el modelo de regresión simple

Ahora, calcularemos el Anova y la tabla de coeficientes

(17)

Pág

in

a

16

Seleccionamos X2 como variable independiente de nuestro modelo lineal simple y luego clicamos en Resultados…

Activamos la segunda opción y clicamos Aceptar y también en el panel anterior. Y tenemos:

(18)

Pág

in

a

17

Fijamos un valor de entrada, un con un α=0.05. Entonces nuestra estadística será: ( )

Con la regla de decisión

( ) | |

Vemos que la variable X2 es significativa, por tanto seguimos con el siguiente paso –de no haber sido significativa, se paraba y nos quedábamos con el modelo . De los resultados que obtuvimos en la tabla

Vemos que la variable que tiene la estadística, en valor absoluto, más alta después de X2 es X1 ( | | ). Entonces, incluiremos esta variable en el modelo.

Nuestro modelo sería

Con el matlab calcularemos el anova y la tabla de coeficientes

(19)

Pág

in

a

18

En el panel que aparecerá, seleccionamos, como predictores, las variables X1 y X2

(20)

Pág

in

a

19

Luego, calcularemos la estadística ( )

Usamos la regla de decisión

Regla de decisión Decisión

X1 | | Significativa

Como las 2 variables son significativas, seguimos agregando variables. Agregamos la última variable, X3.

Entonces nuestro modelo sería Calculamos el anova y la tabla de coeficientes para este modelo:

(21)

Pág

in

a

20

Calculamos la estadística de entrada ( )

Usamos la regla de decisión

Regla de Decisión Decisión

X3 | | No significativa

Vemos que la variable X3 es no significativa así que esa variable no entra, y nos quedamos con el modelo:

(22)

Pág

in

a

21

Vamos a Métodos…

Activamos la casilla Usar valores alfa y usamos 0.5 como el valor alfa de entrada. Le damos

Aceptar y en el panel anterior, también.

(23)

Pág

in

a

22

Vemos los valores que nos salió anteriormente y que utilizó, como nosotros, dos pasos.

Seleccionó las variables X1 y X2 como variables independientes. En resumen obtuvimos el mismo modelo.

(24)

Pág

in

a

23 3. Stepwise Selection

Este método de selección de variables es la combinación de los dos anteriores, pero partimos, como en el método forward selection, desde un modelo de regresión simple, tomando como variable independiente aquella que tenga la estadística t más alta. Ya vimos en los métodos anteriores que la variable X2 es la seleccionada para empezar el método. Como dijimos al principio, tomaremos 0.1 como el valor α de salida y 0.05 como el de entrada.

(25)

Pág

in

a

24

El resultado de la anova y tabla de coeficientes para el modelo de regresión simple del paso 1, lo obtuvimos en el método anterior (ver pág. 16)

Ahora, fijaremos y ( ) ( ) Tenemos Regla de Decisión Decisión

Primera Prueba Segunda Prueba

X2 | | | | Significativa

Si en algunas de las dos pruebas resultase no significativa, entonces la decisión es no significativa; es decir, se elimina la variable. Como la variable X2 pasó, entonces incluiremos al modelo la variable X1-junto a X2-, que ya vimos que es la segunda que tiene la mayor estadística t.

(26)

Pág

in

a

25

Veamos, ya hicimos el cálculo del anova y de la tabla de coeficientes para este modelo, con X1 y X2 como variables independientes (Ver pág. 18)

Ahora, fijaremos y ( ) ( ) Tenemos Regla de Decisión Decisión

En este caso, las dos variables pasan las pruebas, entonces el modelo quedaría

Le añadiremos la última variable, y haremos la misma prueba para las 3.

(27)

Pág in a

26

Ahora, fijaremos y ( ) ( ) Tenemos Regla de Decisión Decisión

Vemos que la variable X3 no pasa con ninguna prueba –aunque baste no pasar una prueba para eliminarla-, por tanto es no significativa, y la eliminamos. En conclusión, usando los tres métodos de selección Stepwise llegamos al mismo resultado. El modelo sería:

Como en los casos anteriores, todo esto lo hubiésemos resuelto en un par de clics pues minitab nos permite ahorrarnos el trabajo. Veamos

(28)

Pág

in

a

27

(29)

Pág

in

a

28

Usaremos los valores alfa y seleccionamos la variable independiente escogida por tener el mayor valor de la estadística t, en valor absoluto. Le damos en Aceptar, y en el panel anterior también. Nos quedará

Vemos que hizo los dos pasos que hicimos, y que seleccionó X1 y X2 como variables predictoras. Obtuvo los mismos resultados-como tenía que ser-. Y bueno, la conclusión es que el modelo, según los métodos de selección de Stepwise, será:

Acuérdense que también pudimos usar los valores F, sería análogo y quizá lo mismo si usas un F adecuado. Bueno, se los dejo como tarea. Hasta un próximo post, y no olviden de visitar la web, que está buenísima. ¡Recomiéndala!