WWW.UNCONEJONEGRO.BLOGSPOT.COM Trabajos Resueltos. Oracle, estadística y más.
Anthony A. Alarcón Moreno
Selección de Variables
Pág
in
a
1
Contenido
Selección de Variables - Métodos Stepwise ... 2
1. Backward Elimination ... 2
1.1 Conceptos previos ... 2
1.2 Aplicación ... 5
2.Fordward Selection ... 15
Pág
in
a
2
Selección de Variables - Métodos Stepwise
Cuando, en un modelo de regresión lineal, disponemos de muchas variables explicativas, se hace necesario seleccionar un conjunto de ellas, pues generalmente un subconjunto de variables dan mejores predicciones que un modelo con todas las variables –en caso que el número de variables predictoras sea grande (más de 10). Para seleccionar la cantidad de variables, nos podemos plantear varios criterios, como reducir la varianza o aumentar el r cuadrado, así como generar todos los modelos posibles.
Reduciendo la cantidad de variables regresoras lograremos también que nuestro modelo sea un
modelo parsimonioso –el modelo más simple que explica suficientemente bien los datos-.
En este trabajo vamos a ver, de manera práctica, los métodos de selección STEPWISE, cuyos algoritmos son: Backward Elimination Forward Selection Stepwise Selection
1. Backward Elimination
1.1 Conceptos previos
Empezaremos explicando este método, que empieza tomando todas las variables. Usaré unos datos en el minitab –pueden solicitarme la data, a mi correo o desde
www.unconejonegro.blogspot.com-
Pág
in
a
3
Fijaremos un valor de entrada α=0.05 y uno de salida α=0.10. Esto nos servirá para los tres algoritmos. La explicación del valor de entrada y de salida es sencilla, se trata de cuán grande quieres que sea el área de tu región de rechazo (donde estarán tus variables significativas); por ejemplo, en el caso del valor de entrada, nos da un 95% de confianza para afirmar que las variables son significativas y que explican el modelo, mientras que en el caso del valor de salida sólo nos da un 90% de confianza. Mientras más grande sean nuestros valores de salida, el nivel de confianza se reducirá, análogamente con el caso del valor de entrada. Sucede lo mismo con los valores F. Vamos a la gráfica:
Definimos
Pág
in
a
4
Esta
Para el caso de usar los valores de F-IN o F-OUT, vamos a ver cómo es esto.
Usualmente se escoge un F=4. En nuestro caso, tenemos 3 grados de libertad para el cuadrado medio de la regresión (CMR) y 70 grados de libertad para el cuadrado medio del error (CME). Calculamos el área de la región de aceptación
Pág in a
5
Gráficamente sería:1.2 Aplicación
Ahora, con estos conceptos, seguiremos el método backward elimination.
En el minitab, calcularemos el anova y la tabla de coeficientes para el modelo considerando todas las variables
Pág
in
a
6
Pág
in
a
7
Clicamos en Aceptar y luego, en el panel principal, también le damos en Aceptar
Pág
in
a
8
Donde vemos que la estadística t asociada a la variable X3, cae en la región de aceptación. Esto nos indica que la variable X3 no es significativa. También notamos que el p-valor es 55.9%, que evidentemente nos sugiere que cae en la región de aceptación también. Acordémonos que tenemos 3 grados de libertad para la regresión y 70, para el error; con esto calculamos α=0.011 para F=4.
Se elimina X3 pues es la única que cae en la región de aceptación. Si hubiese más estadísticas t, escogeríamos la más pequeña entre las que caen en la región de aceptación.
Pág
in
a
9
Vemos que cae en la región de aceptación, y es la única. Ahora, como eliminamos X3, nuestro modelo quedaría así:
En el paso 2, volveremos a hacer el mismo procedimiento, pero esta vez para el modelo reducido. Con el minitab hacemos:
Luego, seleccionamos solo las variables X1 y X2 como variables regresoras o independientes
Pág
in
a
10
Y obtendremos:
Vemos que los grados de libertad son, 2 para la regresión y 71 para el error, pues eliminamos una variable. Con estos datos calcularemos la estadística t
Pág
in
a
11
Graficándolo sería
Entonces, como ya no hay variables que se puedan eliminar, pues X1 y X2 son significativas, acá se para el proceso y nos quedamos con el modelo
Minitab nos brinda una opción para realizar este método –backward
elimination-automáticamente. Hace todos los pasos necesarios hasta conseguir un modelo que no elimine las variables significativas.
Pág
in
a
12
En el panel que aparecerá, seleccionaremos las variables predictoras y la variable respuesta que queremos que sean analizadas por el método backward elimination
Pág
in
a
13
En este panel seleccionaremos la tercera opción, Eliminación hacia atrás. Activamos la opción Usar
valores alfa y fijamos el valor de salida en 0.10
Podríamos usar los valores F, no hay problema en ello, pero esta vez, como ejemplo, usaré las pruebas t –aunque ustedes pueden usar cualquiera-.
Pág
in
a
14
Resumió todo el procedimiento anterior y nos dijo que sólo usó dos pasos y que el modelo, con un 90% de confianza, se reduce a
Pág
in
a
15
2.Fordward Selection
Este método empieza como un modelo de regresión simple, donde el criterio para seleccionar la variable independiente de este modelo de regresión simple, es tomar aquella variable que tenga el mayor valor de la estadística t, en valor absoluto –aunque también podríamos usar el valor F, pero se los dejo como tarea =) -. Según esto, tendremos que calcular el modelo con todas sus variables para poder saber qué variable tiene la mayor estadística t; nosotros ya lo calculamos en el método
backward elimination –página 7-
De este gráfico, vemos que la variable que presenta la mayor estadística t, en valor absoluto, es X2. Entonces, empezaremos con el modelo de regresión simple
Ahora, calcularemos el Anova y la tabla de coeficientes
Pág
in
a
16
Seleccionamos X2 como variable independiente de nuestro modelo lineal simple y luego clicamos en Resultados…
Activamos la segunda opción y clicamos Aceptar y también en el panel anterior. Y tenemos:
Pág
in
a
17
Fijamos un valor de entrada, un con un α=0.05. Entonces nuestra estadística será: ( )
Con la regla de decisión
( ) | |
Vemos que la variable X2 es significativa, por tanto seguimos con el siguiente paso –de no haber sido significativa, se paraba y nos quedábamos con el modelo . De los resultados que obtuvimos en la tabla
Vemos que la variable que tiene la estadística, en valor absoluto, más alta después de X2 es X1 ( | | ). Entonces, incluiremos esta variable en el modelo.
Nuestro modelo sería
Con el matlab calcularemos el anova y la tabla de coeficientes
Pág
in
a
18
En el panel que aparecerá, seleccionamos, como predictores, las variables X1 y X2
Pág
in
a
19
Luego, calcularemos la estadística ( )
Usamos la regla de decisión
Regla de decisión Decisión
X1 | | Significativa
X2 | | Significativa
Como las 2 variables son significativas, seguimos agregando variables. Agregamos la última variable, X3.
Entonces nuestro modelo sería Calculamos el anova y la tabla de coeficientes para este modelo:
Pág
in
a
20
Calculamos la estadística de entrada ( )
Usamos la regla de decisión
Regla de Decisión Decisión
X1 | | Significativa
X2 | | Significativa
X3 | | No significativa
Vemos que la variable X3 es no significativa así que esa variable no entra, y nos quedamos con el modelo:
Pág
in
a
21
Vamos a Métodos…
Activamos la casilla Usar valores alfa y usamos 0.5 como el valor alfa de entrada. Le damos
Aceptar y en el panel anterior, también.
Pág
in
a
22
Vemos los valores que nos salió anteriormente y que utilizó, como nosotros, dos pasos.
Seleccionó las variables X1 y X2 como variables independientes. En resumen obtuvimos el mismo modelo.
Pág
in
a
23
3. Stepwise Selection
Este método de selección de variables es la combinación de los dos anteriores, pero partimos, como en el método forward selection, desde un modelo de regresión simple, tomando como variable independiente aquella que tenga la estadística t más alta. Ya vimos en los métodos anteriores que la variable X2 es la seleccionada para empezar el método. Como dijimos al principio, tomaremos 0.1 como el valor α de salida y 0.05 como el de entrada.
Pág
in
a
24
El resultado de la anova y tabla de coeficientes para el modelo de regresión simple del paso 1, lo obtuvimos en el método anterior (ver pág. 16)
Ahora, fijaremos y ( ) ( ) Tenemos Regla de Decisión Decisión
Primera Prueba Segunda Prueba
X2 | | | | Significativa
Si en algunas de las dos pruebas resultase no significativa, entonces la decisión es no significativa; es decir, se elimina la variable. Como la variable X2 pasó, entonces incluiremos al modelo la variable X1-junto a X2-, que ya vimos que es la segunda que tiene la mayor estadística t.
Pág
in
a
25
Veamos, ya hicimos el cálculo del anova y de la tabla de coeficientes para este modelo, con X1 y X2 como variables independientes (Ver pág. 18)
Ahora, fijaremos y ( ) ( ) Tenemos Regla de Decisión Decisión
Primera Prueba Segunda Prueba
X1 | | | | Significativa X2 | | | | Significativa
En este caso, las dos variables pasan las pruebas, entonces el modelo quedaría
Le añadiremos la última variable, y haremos la misma prueba para las 3.
Pág in a
26
Ahora, fijaremos y ( ) ( ) Tenemos Regla de Decisión DecisiónPrimera Prueba Segunda Prueba
X1 | | | | Significativa X2 | | | | Significativa X3 | | | | No Significativa
Vemos que la variable X3 no pasa con ninguna prueba –aunque baste no pasar una prueba para eliminarla-, por tanto es no significativa, y la eliminamos. En conclusión, usando los tres métodos de selección Stepwise llegamos al mismo resultado. El modelo sería:
Como en los casos anteriores, todo esto lo hubiésemos resuelto en un par de clics pues minitab nos permite ahorrarnos el trabajo. Veamos
Pág
in
a
27
Pág
in
a
28
Usaremos los valores alfa y seleccionamos la variable independiente escogida por tener el mayor valor de la estadística t, en valor absoluto. Le damos en Aceptar, y en el panel anterior también. Nos quedará
Vemos que hizo los dos pasos que hicimos, y que seleccionó X1 y X2 como variables predictoras. Obtuvo los mismos resultados-como tenía que ser-. Y bueno, la conclusión es que el modelo, según los métodos de selección de Stepwise, será:
Acuérdense que también pudimos usar los valores F, sería análogo y quizá lo mismo si usas un F adecuado. Bueno, se los dejo como tarea. Hasta un próximo post, y no olviden de visitar la web, que está buenísima. ¡Recomiéndala!