PRÁCTICA 2: LA RECTA DE REGRESIÓN

Descargar (0)

Texto completo

(1)

PRÁCTICA 2: LA RECTA DE REGRESIÓN

• Los contenidos están organizados para que pueda avanzar a la vez que hacer los ejercicios propuestos en la práctica 2 del cuadernillo de práticas.

• Asegúrate de entender qué te preguntamos, y no sólo de aprender a calcularlo.

• Antes de imprimir este documento, por favor, medita si es no necesario o. Lo árboles y yo te lo agradeceremos.

• Puedes descargar el fichero de datos desde www2.uah.es/marcos_marva/docencia.html No olvides usar el botón derecho del ratón-> guardar enlace como y abrir los datos desde Statgraphics Archivo...abrir...abrir datos (y no haciendo doble click).

VISUALIZACIÓN DE LOS DATOS

Esto es lo primero que hay que hacer. Hay varias formas de representar los datos. La que nos interesa es la siguiente: sigue la ruta Dependencia-->regresión simple. Aparece un cuadro de diálogo como el siguiente.

Indica cuál es la variable independiente (X) y la dependiente (Y).

Como resultado del análisis, en el marco derecho aparece representada la nube de puntos (X,Y), la recta de regresión (en azul) y otras curvas que ahora no podemos entender (recuerda que Statgraphics da, de entrada la información que quiere). Para eliminar esas curvas, usa el Botón derecho-->opciones de ventana y deschequea las casillas Límites de predicción y Límites de confianza.

COEFICIENTES DE LA RECTA DE REGRESIÓN, DE CORRELACIÓN Y DE DETERMINACIÓN Esta información se encuentra (escondida) en el marco de la izquierda. A continuación reproducimos el texto y marcamos la información más relevante para nuestros propósitos

Análisis de Regresión - Modelo Lineal Y = a + b*X

---Variable dependiente: estaturaY Variable independiente: pesoX

--- Error Estadístico

Parámetro Estimación estándar T P-Valor ---

Ordenada 119,991 6,19144 19,3801 0,0000 Pendiente 0,827407 0,092389 8,95569 0,0000

(2)

---

Análisis de la Varianza

---

Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor ---

Modelo 924,214 1 924,214 80,20 0,0000 Residuo 92,1859 8 11,5232

--- Total (Corr.) 1016,4 9

Coeficiente de Correlación = 0,953573

R-cuadrado = 90,9302 porcentaje (ES EL COEFICIENTE DE DETERMINACIÓN) R-cuadrado (ajustado para g.l.) = 89,7964 porcentaje

Error estándar de est. = 3,39459 Error absoluto medio = 2,70741

Estadístico de Durbin-Watson = 2,24248 (P=0,2874) Autocorrelación residual en Lag 1 = -0,165529

El StatAdvisor ---

La salida muestra los resultados del ajuste al modelo lineal para describir la relación entre estaturaY y pesoX. La ecuación del modelo ajustado es

estaturaY = 119,991 + 0,827407*pesoX

Si no lo recuerdas, busca en la teoría la interpretación de los coeficientes de determinación y correlación.

CÁLCULO DE LOS RESIDUOS Hay varias formas de hacer esto:

1. A mano : con la calculadora de Statgraphics (es el botón negro)

puedes calcular el valor predicho por el modelo. Por ejemplo, el valor de la estatura predicho por el modelo lineal para un peso de X=63kg es el resultado de hacer 119,991 + 0,827407*63 . Puedes usar la calculadora (pulsa el botón negro) para hacer el cálculo....¿es ese el residuo?

2. Como una variable calculada . En la práctica 1 ya calculaste la temperatura en grados Fahrenheit a partir de grados centígrados. Pues, al igual que allí, puedes calcular los valores predichos por el modelo (valores esperados) y luego restarlos a los valores observados.

3. Pedirle a Statgraphics que lo haga por nosotros. Para ello, pulsa otro botón azul (el de más a la derecha, con una flecha roja)

(3)

y selecciona la opción Residuos

Statgraphics los ha copiado en la primera columna libre que encuentra en la tabla de datos.

REGRESIÓN LOGÍSTICA, EXPONENCIAL Y POLINÓMICA.

Tal y como era de esperar los datos no siempre se distribuyen (aproximadamente) en el plano conforme a una recta. No tienen porqué estar alineados y, sin embargo, en muchas ocasiones querremos hacer regresión.

Afortunadamente, los estadísticos pensaron estrategias para, mediante un cambio de variable astuto, transformar una la recta en algo que no lo es. Statgraphics implementa esos cambios de variable, que llevan a la regresión exponencial, logarítmica y potencial (también llamada multiplicativa).

Partimos de una regresión lineal simple; sigue la ruta (conocida) Dependencia-->regresión simple e introduce las variables explicativa (independiente) y respuesta (dependiente). Imagina que los datos no están alineados, o que los coeficientes de correlación y de determinación no son suficientemente altos. Si quieres ajustarlos a una curva distinta de una recta, pulsa Botón derecho --> Opciones de análisis. Y aparece un menú con las opciones disponibles; entre ellas, la exponencial, la logarítmica y la multiplicativa.

Elige la que creas más adecuada. El sistema mostrará la curva ajustada en el marco derecho y en el marco izquierdo la estimación de los coeficientes, los coeficientes de correlación y de determinación (este último lo llamaba R cuadrado) y la fórmula de la curva de regresión, todo en el mismo sitio en el que lo encontramos cuando el ajuste se hacía a una recta de regresión.

Otra forma familia de curvas con la que aproximar una nube de puntos es la de los polinomios. Para utilizar un polinomio, sigue la ruta Dependencia-->regresión polinomial. Elige las variables respuesta (dependiente) y explicativa (independiente). Por defecto Statgraphics hace uso de un polinomio de grado 2 (una parábola).

Si queremos usar un polinomio de mayor grado utiliza (¡sorpresa!) Botón derecho-->Opciones de análisis y

(4)

elige el grado (Statgraphics llegas hasta polinomios de grado 5). En este caso el único valor que nos da una idea de lo adecuado que es el ajuste es el coeficiente de determinación.

(5)

¿Qué debería saber sobre la práctica 2?

A partir de un conjunto de datos numéricos pareados, utilizar Statgraphics para visualizar la nube de puntos y la recta de regresión.

Calcular la ecuación de la recta de regresión y los coeficientes de determinación y correlación lineal.

Entender qué relación existe entre valor observado, el valor predicho y residuo.

Usar la recta de regresión para calcular residuos como variable calculada (generar datos).

Entender qué información proporciona la covarianza.

Entender qué información proporciona el coeficiente de correlación lineal.

Entender qué información proporciona el coeficiente de determinación (Statgraphics lo llama R-cuadrado).

Mostrar una gráfica con los residuos

Guardar en la tabla de datos, para cada valor observado, los valores predichos y los residuos (sin usar variables calculadas).

Hacer regresiones con curvas exponencial, potencial (y(x)=a·x^b (Statgraphics la llama “multiplicativa”) y polinomial.

Decidir, a partir de los valores de los coeficientes de correlación y de determinación, qué curva aproxima mejor la nube de puntos.

Conocer el rango de validez de los valores predichos con una curva de regresión y=f(x): x debe estar entre el menor y el mayor de los valores observados.

Comparar la bondad del ajuste hecho mediante la recta de regresión con otros modelos: exponencial, potencial (o multiplicativo) y polinómico de distinto grado...por cierto...¿por qué para un ajuste polinómico sólo aparece el coeficiente de determinación y no el de correlación?

Recuerda que SIEMPRE debes visualizar la nube de puntos para dar por buena una relación lineal (o de otro tipo) entre las variables. Eso, aunque posteriormente te apoyes en una cantidad numérica para avalar tu decisión sobre dicha dependencia.

Figure

Actualización...

Referencias