Modelos lineales. Tema 2: Inferencia en el modelo de regresión lineal simple. 6 de febrero de Carmen Armero

(1)

R y Serpientes

Modelos lineales

Tema 2: Inferencia en el modelo de regresi´

on lineal simple

Carmen Armero

(2)

R y Serpientes

Introducci´

on

Inferencia sobre la pendiente del modelo

Distribuciones en el muestreo

Intervalos de confianza

Contrastes de hip´

otesis

Inferencia sobre la interceptaci´

on del modelo

Comentarios sobre el proceso inferencial

Estimaci´

on de medias

Predicci´

on

Tabla ANOVA

Comentarios finales sobre el modelo de regresi´

on

R y Serpientes

(3)

R y Serpientes

El modelo de regresi´

on lineal simple

El modelo de regresi´on lineal simple para una muestra de datos emparejados {(Xi,Yi),i= 1, . . . ,n}es

Yi=β0+β1Xi+i,i= 1, . . . ,n siendo:

I Yi la variable respuesta correspondiente al elementoi de la muestra (Yi es una variable aleatoria).

I Xi el valor de la variable predictora correspondiente al elementoi de la muestra (aXi no se le considera variable aleatoria).

I β0yβ1los coeficientes de la recta de regresión (parámetros desconocidos). I i,i= 1, . . . ,n, los errores aleatorios que son variables aleatorias i.i.d. según

(4)

R y Serpientes

Distribuci´

on en el muestreo del estimador de

β1

I Estimador deβ1, b1= Pn i=1(Xi−X¯)(Yi−Y¯) Pn i=1(Xi−X¯)2 = Pn i=1XiYi−nX¯Y¯ Pn i=1Xi2−nX¯2

I La distribución en el muestreo deb1es la distribución de probabilidad de los diferentes valores deb1que podr´ıamos obtener si repitiéramos y repitiéramos el experimento considerando siempre los mismos niveles de la variable predictora.

I La distribuci´on en el muestreo deb1es normal con media y varianza: E(b1) = β1 σ2 b1 = σ 2_/X (Xi−X¯)2. I Estimador de la varianzaσ2 b1, s2_b 1=s 2_/X (Xi−X¯)2 siendos2_{el estimador de la varianza del modelo}_σ2_.

(5)

R y Serpientes

Distribuci´

on en el muestreo de

(b

1

−

β1

)

/

s

b1

I Recordemos que estandarizar una variable aleatoria es construir una nueva rest´andole su media y dividiendo esa diferencia por su desviaci´on t´ıpica.

I Comob1∼N(β1, σ2b1) si estandarizamos el estad´ısticob1sabemos que

b1−β1

σb1

∼N(0,1)

I Comoσb1es desconocido utilizaremos su estimadorsb1, al que se le conoce comoerror est´andard deb1.

I Un estad´ıstico estudentizado es un estad´ıstico estandarizado en el que la estandarización se realiza a través de un estimador de su desviación t´ıpica.

I Un importante resultado en Estad´ıstica establece que

b1−β1 sb1

∼t(n−2)

siendo t(n−2) la densidad de una distribuci´on t-Student con (n−2) grados de libertad (ver gr´afica siguiente).

(6)

R y Serpientes

Distribuci´

on t

(7)

R y Serpientes

Intervalo de confianza para

β1

I Como b1−β1 sb1 ∼t(n−2): P(tα/2(n−2)≤ b1−β1 sb1 ≤t1−(α/2)(n−2)) = 1−α

siendotα/2(n−2) el percentil de orden 100(α/2) % de una distribuci´on

t(n−2), contα/2(n−2) =−t1−(α/2)(n−2) I Operando:

P(−t1−(α/2)(n−2)×sb1≤b1−β1≤t1−(α/2)(n−2)×sb1) = 1−α

P(b1−t1−(α/2)(n−2)×sb1≤β1≤b1+t1−(α/2)(n−2)×sb1) = 1−α

I Intervalo de confianza deβ1con coeficiente de confianza 1−α:

(8)

R y Serpientes

Contrastes de hip´

otesis para la pendiente del modelo, I

I Contrastes de hip´otesis:

H0:β1= 0, H1:β16= 0 contraste de dos colas H1:β1>0 contraste de una cola H1:β1<0 contraste de una cola I Estad´ıstico de contraste: b1−β1

sb1

∼t(n−2)

I Estad´ıstico de contraste cuandoH0es cierta:tb1=b1/sb1

I Distribuci´on del estad´ıstico de contraste cuandoH0es cierta,

tb1=

b1 sb1

∼t(n−2)

I Regla de decisi´on con nivel de significatividadα: Contraste de hip´otesis RechazarH0

H0:β1= 0, H1:β16= 0 |tb1|>t1−(α/2)(n−2) H1:β1>0 tb1>t(1−α)(n−2) H1:β1<0 tb1<tα(n−2)

(9)

R y Serpientes

Contrastes de hip´

otesis para la pendiente del modelo, II

H0:β1= 0, H1:β16= 0 contraste de dos colas H1:β1>0 contraste de una cola H1:β1<0 contraste de una cola I P-valores:

Contraste de hip´otesis P-valor

H0:β1= 0, H1:β16= 0 2P(t(n−2)≥ |tb1|)

H1:β1>0 P(t(n−2)>tb1)

H1:β1<0 P(t(n−2)<tb1)

I Siαes el nivel de significatividad en cualquiera de los contrastes planteados: P-valor≥α No rechazarH0

P-valor< α RechazarH0

I Importante:La hip´otesis nula establece que la variable respuesta no depende linealmente de la predictora.

(10)

R y Serpientes

Inferencia sobre la interceptaci´

on del modelo, I

I Estimador deβ0, b0= ¯Y −b1X¯, con b1= Pn i=1(Xi−X¯)(Yi−Y¯) Pn i=1(Xi−X¯)2 I La distribuci´on en el muestreo deb0es b0∼N(β0, σb20=σ 21 n+ ¯ X2 P (Xi−X¯)2 ) I Estimador de la varianzaσ2 b0, sb20=s 21 n+ ¯ X2 P (Xi−X¯)2

siendos2_{el estimador de la varianza del modelo}_σ2_{. El estimador}_s

b0 de la desviaci´on t´ıpica deσb0 es conocido comoerror est´andard deb0.

I b0−β0

(11)

R y Serpientes

Inferencia sobre la interceptaci´

on del modelo, II

I Se opera de forma an´aloga a la presentada conβ0yb0. I Intervalo de confianza deβ0con coeficiente de confianza 1−α:

b0±t1−(α/2)(n−2)×sb0

I Los contrastes de hip´otesis sobreβ0no son habituales, aunque si fueran

adecuados en alg´un estudio concreto se podr´ıan realizar de forma an´aloga a los desarrollados paraβ1.

(12)

R y Serpientes

Ejemplo de juguete: Serpientes 2.I

I Estad´ısticos: Longitud, cm X¯= 63 s2 X=21.500 P (Xi−X¯)2=172.000 Peso, gr Y¯ = 152 s2 Y=1248.750 Recta ajustada b0=-301.087 b1=7.192 s2_=156.238 I Errores est´andard

s2 b1= s2 P (X_i−X¯)2 = 156.237 172.000 = 0.908; sb1=0.953 s2 b0=s 21 n+ ¯ X2 P (Xi−X¯)2 = 156.2381₉+₁₇₂63_.₀₀₀2 =3622.689; sb0=60.1888 I t0.975(7)=2.3646

I Intervalo de confianza paraβ1(β0) con coeficiente de confianza 0.95:

(b1±t1−(α/2)(n−2)×sb1) (7.192±2.36462×0.953) (4.939,9.446) (b0±t1−(α/2)(n−2)×sb0)

(13)

R y Serpientes

Ejemplo de juguete: Serpientes 2.II

I Estad´ısticos: Longitud X¯= 63 s2 X = 21.500 P (Xi−X¯)2= 172.000 Peso Y¯ = 152 s2 Y = 1248.750 Recta ajustada b0= -301.087 b1= 7.192 s2_{= 156.238} sb0= 60.189 sb1= 0.953

H0:β1= 0, H1:β16= 0 contraste de dos colas H1:β1>0 contraste de una cola

H1:β1<0 contraste de una cola (no sentido en este problema) I Valor observado del estad´ıstico de contraste:

tb1= b1 sb1

=7₀._.192₉₅₃ = 7.547

I Distribuci´on del estad´ıstico de contraste cuandoH0es cierta es t(7)

I P-valores:

Contraste de hip´otesis P-valor

H0:β1= 0, H1:β16= 0 2P(t(7)≥7.547)=0.000 H1:β1>0 P(t(7)≥7.547)=0.000

(14)

R y Serpientes

Ejemplo de juguete: Serpientes 2.III

I Aunque el R te permite calcular los P-valores anteriores (ver secuencia de R al final del tema), posiblemente es más formativo utilizar una herramienta que también te permita visualizarlos. Para ello, entra en la página principal delRice Virtual Lab in Statistics:

http://www.onlinestatbook.com/rvls.html,

y selecciona el apartadoOnline Statistics: An Interactive Multimedia Course of Study. A continuaci´on, en la nueva ventana que has abierto, procede seg´un:

Table of Contents>XVI. Calculators> t Distribution El P-valor solicitado aparece pintado de color azul sobre la distribuci´on t(7).

(15)

R y Serpientes

Comentario I: Efectos de posibles incumplimientos de la normalidad.

I Cuando las distribuciones de probabilidad asociadas aY |X no son normales

pero no se alejan excesivamente de la normalidad, la distribución en el muestreo deb0yb1es aproximadamente normal y la utilización de la distribución t-Student proporciona coeficientes de confianza y niveles de significación aproximados.

I Incluso si las distribuciones deY se alejan bastante de la normalidad, los estimadoresb0yb1son, en general, asintóticamente normales (bajo condiciones muy generales su distribución se aproxima a la normalidad cuando el tamaño de la muestra se hace cada vez más grande).

I Por tanto, cuando se dispone de bastantes datos, el intervalo de confianza y las reglas de decisión asociadas a los contrastes de hipótesis son válidas aún cuando la distribución de probabilidad deY se aleje de la normalidad.

I Evidentemente, con bastantes datos, la distribución t-Student puede reemplazarse por la distribución normal estándard.

(16)

R y Serpientes

Comentario II: Interpretaci´

on de los coeficientes de confianza y las

probabilidades asociadas a los errores de los contrastes de hip´

otesis

I Si recordamos la concepción frecuentista de la probabilidad, como el modelo de regresión supone que lasXi son constantes conocidas, el coeficiente de confianza y las probabilidades asociadas a los errores de los contrastes de hipótesis se interpretan en términos de repeticiones y repeticiones independientes del mismo experimento, que consistir´ıa en observar lasY_i0s correspondientes siempre a los mismos valores de los niveles de lasX observadas en la muestra.

I En el ejemplo de las serpientes cuando construimos un intervalo de confianza paraβ1con coeficiente de confianza 0.95 entendemos que si midi´eramos el peso

de 9 serpientes con las mismas longitudes que los de la muestra observada y repiti´eramos este experimento muchas veces (con diferentes serpientes claro), aproximadamente el 95 % de los intervalos constru´ıdos contendr´ıan aβ1y no

podemos saber nunca si el intervalo que hemos construido con la muestra dada, (4.939, 9.446), es uno de esos o no.

(17)

R y Serpientes

Comentario III: Dispersi´

on de los niveles de la variable predictora

I Si nos fijamos en las expresiones de la varianza deb0yb1:

σ2b1= σ2 P (Xi−X¯)2 ; σ2b0=σ 21 n+ ¯ X2 P (Xi−X¯)2 ,

y consideramos el tama˜no de la muestra y la varianza del modelo constante observamos que dichas varianzas dependen de la dispersi´on de los niveles de la variable predictora.

I Un gran dispersi´on en los niveles deX genera valores grandes enP

(Xi−X¯)2, y por lo tanto, varianzas peque˜nas deb1yb0.

(18)

R y Serpientes

Estimaci´

on de medias, I

I Estamos interesamos ahora en estimar el valor medio deY para un cierto nivel de la variable predictoraXh, que puede coincidir o no con alguno de los valores observados en la muestra.

I Si representamos por E(Yh) (E(Y |Xh)) la media deY cuandoX=Xh, sabemos que un estimador puntual de dicha esperanza es ˆYh=b0+b1Xh.

I Vamos a estudiar la distribuci´on en el muestreo de ˆYh, que se refiere a la distribuci´on de probabilidad de los diferentes valores de ˆYhque obtendr´ıamos en sucesivas repeticiones del experimento consistente en observarY siempre para el mismo nivelX =Xh.

I La distribuci´on en el muestreo de ˆYhes normal con media y varianza: E( ˆYh) = E(b0+b1Xh) = E(b0) + E(b1)Xh=β0+β1Xh= E(Yh) σ2 ˆ Yh=σ 21 n+ ( ¯X−Xh)2 P₍_X i−X¯)2

(19)

R y Serpientes

Estimaci´

on de medias, II

I Definimos elerror estándard de ˆYhcomo la estimación de su desviación t´ıpica:

sˆ_Y h= q s2 ˆ Yh , con s2 ˆ Yh =s21 n+ ( ¯X−Xh)2 P (Xi−X¯)2 I Con lo que: ˆ Yh−E(Yh) sYˆh ∼t(n−2).

I Y operando de forma an´aloga a la presentada para obtener un intervalo de confianza paraβ1, obtenemos ahora la expres´ıon de un intervalo de confianza

para E(Yh) con coeficiente de confianza 1−α: ( ˆYh±t1−(α/2)(n−2)×sˆYh)

(20)

R y Serpientes

Ejemplo de juguete: Serpientes 2.IV

I Informaci´on: Longitud X¯ = 63.000 s2 X = 21.500 P (Xi−X¯)2= 172.000 Peso Y¯ = 152.000 s_Y2 = 1248.750 Recta ajustada b0= -301.087 b1= 7.192 s2_{= 156.238} sb0= 60.189 sb1= 0.953 Percentiles t0.975(7) = 2.3646

I Vamos a calcular un intervalo de confianza para el peso medio de las serpientes que midenXh= 63 cm. Para ello:

ˆ Y63=−301.087 + 7.192×63 = 152 s2_ˆ Y63= 156.238 1 9+ (63−63)2 172 =17.360 sˆ_Y 63= 4.167

por lo que el intervalo buscado ser´a:

(21)

R y Serpientes

Ejemplo de juguete: Serpientes 2.V

I Calculamos ahora tambi´en un intervalo de confianza para el peso medio de las serpientes que midenXh= 54 cm yXh= 69 cm. Y los compararemos con el obtenido para el peso medio de las serpientes que miden 63 cm.

Estimaci´on

Longitud del peso medio Error est´andard Intervalo

63 cm 152.000 4.167 (139.782, 164.218)

69 cm 195.152 7.075 (178.421, 211.882)

54 cm 87.273 9.536 (64.724, 109.823)

I Como el error est´andard de la estimaci´on aumenta a medida que consideramos niveles deX que se alejan de la media muestral, la anchura de los

(22)

R y Serpientes

Predicci´

on, I

I Estamos interesamos en predecir el valor de una nueva observación deY para un nivel dado de la variable predictoraX. La observación deY que se quiere predecir se considera como el resultado de una nueva prueba experimental independiente de las pruebas y resultados obtenidos al ajustar el modelo de regresión al banco de datos considerado.

I Representamos porXhal nivel deX para la nueva prueba y porYh(nueva)a la

correspondiente observación deY, que es la que se desea predecir. Obviamente suponemos que el modelo de regresión considerado continúa siendo válido en esta nueva etapa.

I La distinción entre estimación de la respuesta media E(Yh) (presentada en el apartado anterior) y predicción de una nueva respuestaYh(nueva)es básica y muy

importante. En el primer caso estimamos una media, E(Y |Xh), y ahora predecimos un valor de la distribuci´onY |Xh.

(23)

R y Serpientes

Predicci´

on, II: Otro ejemplo de juguete

I Vamos a ilustrar la naturaleza del concepto de predicción con un ejemplo de juguete en el que todos los parámetros del modelo son conocidos (situación imposible en la práctica claro).

I Modelo de regresi´on:

Representaci´on 1:Y = 25 + 2.5X+, con∼N(0, σ2_{= 1.5)} Representaci´on 2:(Y |X)∼N(25 + 2.5X, σ2_{= 1.5)}

I Si quisiéramos predecir una nueva observación deY para el valorXh= 2, hemos de pensar que la distribución predictiva deY para dicha observación de la variable predictora es:

(Y |Xh= 2)∼N(30, σ2= 1.5)

por lo que sabemos que la media de dicha distribución predictiva será 30 y que las probabilidades asociadas a intervalos de predicción centrados en la media y de amplitud 2σ2_{, 4}_σ2_{y 6}_σ2_{son :}

P(28.5<(Y |Xh= 2)<31.5) = 0.6827

P(27<(Y |Xh= 2)<33) = 0.9545

(24)

R y Serpientes

Predicci´

on, III

I Puedes calcular los intervalos de predicci´on anteriores y, sobretodo, visualizarlos con el programaRice Virtual Lab in Statistics:

http://www.onlinestatbook.com/rvls.html

Cuando hayas entrado selecciona el apartadoOnline Statistics: An Interactive Multimedia Course of Study, y a continuaci´on, procede en la nueva ventana abierta seg´un:

Table of Contents>XVI. Calculators>Normal distribution d´onde ya puedes calcular y visualizar la probabilidad de los intervalos considerados.

I Muy importante:El conocimiento de los par´ametros del modelo no elimina totalmente la incertidumbre en la predicci´on.

(25)

R y Serpientes

Predicci´

on, IV

A nivel te´orico se demuestra que:

Yh(nueva)−Yˆh

spredi

∼t(n−2)

siendo:

IYh(nueva)una variable aleatoria que describe la predicci´on deY cuandoX =Xh.

IYˆh=b0+b1Xhpredicci´on puntual deYh(nueva) Ispredi = q s2 predi, con s2 predi =s2 1 +1_n+ (Xh−¯X)2 P (Xi−X¯)2 ,

(26)

R y Serpientes

Predicci´

on, V

I Se opera de forma an´aloga a la presentada para obtener un intervalo de confianza paraβ1.

I Intervalo de predicci´on paraYh(nueva)con contenido probabil´ıstico 1−α:

ˆ

(27)

R y Serpientes

Ejemplo de juguete: Serpientes 2.VI

I Calculamos ahora un intervalo de predicci´on con contenido probabil´ıstico 0.95 para el peso de una nueva serpiente cuya longiyud esXh= 63,Xh= 54 y

Xh= 69 cm.

Predicci´on

Longitud del peso Error est´andard Intervalo

63 cm 152.000 13.176 (120.845, 183.156)

54 cm 87.273 15.722 (50.097, 124.449)

69 cm 195.152 14.363 (161.188, 229.115)

I Como el error estándard del error de predicción aumenta a medida que consideramos niveles deX más alejados de la media muestral, la anchura de los correspondientes intervalos de predicción aumentará de la misma forma.

I Para un mismo valor 1−αy el mismo nivel de la variable predictora los intervalos de predicci´on son siempre m´as anchos que los intervalos de confianza para la media.

(28)

R y Serpientes

Ejemplo de juguete: Serpientes 2.VII

Bandas de confianza y de predicci´on al 95 %:

50 55 60 65 70 100 150 200 longitud peso

(29)

R y Serpientes

Descomposici´

on de la suma de cuadrados, I

I Vamos a fijarnos en la siguiente expresi´on:

Yi−Y¯ | {z } (1) = (Yi−Yˆi) | {z } (2) + ( ˆYi−Y¯) | {z } (3) , i= 1, . . . ,n

(1) Desviación deYi con respecto a su media muestral ¯Y (2) Desviación deYi con respecto a su valor ajustado ˆYi (3) Desviación de ˆYi con respecto a su media muestral ¯Y

I Adem´as: _n X i=1 (Yi−Y¯)2 | {z } SST = n X i=1 (Yi−Yˆi)2 | {z } SSE + 2 X i=1 ( ˆYi−Y¯)2 | {z } SSR

ISST, Suma de cuadrados total; es una medida de la variabilidad de los datos deY con respecto a su media muestral.

ISSE, Suma de cuadrados residual: es una medida de la variabilidad de los datos deY con respecto a los valores ajustados.

ISSR, Suma de cuadrados explicada por el modelo; es una medida de la variabilidad de los valores ajustados ˆYi con respecto a su media muestral.

(30)

R y Serpientes

Descomposici´

on de la suma de cuadrados, II

I Recordamos que: n X i=1 (Yi−Y¯)2 | {z } SST = n X i=1 (Yi−Yˆi)2 | {z } SSE + 2 X i=1 ( ˆYi−Y¯)2 | {z } SSR

I Cada una de estas sumas de cuadrados tiene asociado un n´umero (grados de libertad). SST | {z } n−1 =SSE | {z } n−2 +SSR | {z } 1

I SiYi= ˆYi, los residuos serán todos cero y, por lo tanto, su suma de cuadrados también,SSE=0. Esta es una situación ideal en la que todos los valores deY

estar´ıan sobre la recta de regresi´on ySST=SSR.

I Si ˆYi= ¯Y, el modelo ajustado no explica nada de la variabilidad de lasY con respecto a su media, con lo queSST=SSE. Esta es la peor situación, el modelo de regresión no nos sirve porque la recta de regresión ajustada tendr´ıa pendiente cero e interceptación ¯y.

(31)

R y Serpientes

Tabla ANOVA, I

I Tabla ANOVA:

Fuente de Suma de Grados de Cuadrado

variaci´on cuadrados libertad medio

Regresi´on SSR=Pn i=1( ˆYi−Y¯)2 1 MSR=SSR/1 Error SSE=Pn i=1(Yi−Yˆi)2 n−2 MSE=SSE/(n−2) Total SST=Pn i=1(Yi−Y¯)2 n−1

I El cuadrado medioMSE es la estimaci´on,s2_{, de la varianza del modelo.} I El cocienteSST/(n−1) es la varianza muestral de lasYi,s2

(32)

R y Serpientes

Ejemplo de juguete: Serpientes 2.VIII

I Comon= 9,s2

Y = 1248.750 ys2= 156.238 sabemos que:

ISST= (n−1)s2

Y = 8×1248.750 = 9990.000

Is2₌_MSE_{= 156.238} _SSE_{= (}_n₋₂₎_MSE_{= 7×}_{156.238 = 1093.666}

ISSR=SST−SSE= 9990.000 - 1093.666 = 8896.334

I Tabla ANOVA:

variaci´on cuadrados libertad medio

Regresi´on SSR= 8896.334 1 MSR= 8896.334

Error SSE= 1093.666 7 MSE= 156.238

(33)

R y Serpientes

Tabla ANOVA, II

La tabla ANOVA proporciona una bater´ıa de contrastes de hipótesis útiles en los modelos de regresión. En nuestro modelo de regresión lineal simple:

IContraste de hip´otesis:H0:β1= 0 vsH1:β16= 0

IEstad´ıstico de contraste:MSR/MSE

IDistribuci´on del estad´ıstico de contraste cuandoH0es cierta:

F=MSR

MSE ∼F(1,n−2),

siendo F(1,n−2) una distribuci´on F de Snedecor con 1 yn−2 grados de libertad.

IRegla de decisi´on con nivel de significatividadα: RechazarH0cuando

F >F1−α(1,n−2) ´o P-valor =P(F(1,n−2)>F)< α

(34)

R y Serpientes

Tabla ANOVA, III

Tabla ANOVA:

variaci´on cuadrados libertad medio Cociente F P-valor

Regresi´on SSR 1 MSR MSR/MSE P(F(1,n−2)>F)

Error SSE n−2 MSE

(35)

R y Serpientes

Ejemplo de juguete: Serpientes, 2.IX

I Tabla ANOVA:

Fuente de Suma de grados de Cuadrado

variaci´on cuadrado libertad medio Cociente F P-valor

Regresi´on 8896.334 1 8896.334 56.941 0.000

Error 1093.666 7 156.238

Total 9990.000 8

I El P-valor de la tabla ANOVA para el contraste de hip´otesisH0:β1= 0, vs. H1:β16= 0 es 0.000 por lo que considerandoα=0.05 concluir´ıamos rechazandoH0y

(36)

R y Serpientes

Test t para la pendiente del modelo y test F de la tabla ANOVA

Tenemos dos formas diferentes para resolver el mismo contraste de hip´otesis,

H0:β1= 0 vs.H1:β16= 0, el test t y el test F de la tabla ANOVA. Vamos a

comprobar que ambos proporcionan el mismo resultado:

F = MSR MSE = P ( ˆYi−Y¯)2/1 P (Yi−Yˆi)2/(n−2) = P (b0+b1Xi−Y¯)2 s2 = = P ( ¯Y−b1X¯+b1Xi−Y¯)2 s2 = b2 1 P (Xi−X¯)2 s2 = = b 2 1 s2_/P (Xi−X¯)2 = b 2 1 s2 b1 =t2.

Esta relaci´on tambi´en se cumple entre los percentilest2

(37)

R y Serpientes

Comentarios finales sobre la utilizaci´

on de los modelos de regresi´

on

I La aplicaci´on del modelo de regresi´on lineal para valores de la variable predictoraX

fuera del rango de los datos observados es un tema delicado que debe, en principio, evitarse porque no se dispone de evidencia experimental de que se conserve la misma relaci´on entre ambas variables.

I Un contraste de hip´otesis que concluye rechazandoH0:β1= 0 no indica que exista

una relación de causa-efecto entre la variable predictora y la variable respuesta. Cuando trabajamos con datos no experimentales ambas variables pueden estar influenciadas simultáneamente por otras variables que no aparecen en el modelo de regresión. Sin embargo, la existencia de una relación lineal entre dos variables en experimentos controlados es generalmente una buena evidencia de una posible relación de causa-efecto entre ellas.

(38)

R y Serpientes

Ejemplo de juguete: Serpientes 2.X y R

# Obtengo el error est´andard deb0yb1con

summary(model) # o alternativamente seg´un: SSX<-(length(x)-1)*var(x) SSX

n<-length(x) n

# Error est´andard deb1

s2.b1<-squadrat/SSX s2.b1

s.b1<-sqrt(s2.b1) s.b1

# Error est´andard deb0

s2.b0<-squadrat*((1/n)+((mean(x)2)/SSX)) s2.b0

s.b0<-sqrt(s2.b0) s.b0

(39)

R y Serpientes

Ejemplo de juguete: Serpientes 2.XI y R

# Intervalo de confianza 0.95 paraβ0y paraβ1:

qt(0.975,n-2) b0<-coef(model)[1] b1<-coef(model)[2]

c(b0-qt(0.975,n-2)*s.b0, b0+qt(0.975,n-2)*s.b0) c(b1-qt(0.975,n-2)*s.b1, b1+qt(0.975,n-2)*s.b1) # Contraste de hip´otesis paraβ1

t.b1<-abs(b1/s.b1) t.b1

# P-valor para contraste de dos colas 2*(1-pt(t.b1,n-2))

# P-valor para contraste de una cola 1-pt(t.b1,n-2)

(40)

R y Serpientes

Ejemplo de juguete: Serpientes 2.XII y R

# Intervalo de confianza con coeficiente de confianzap

# para la media deYen relaci´on a un nivel dado deX(63, 54, 69) prediction<-function(z)predict(model,list(x=z)) prediction(63) prediction(54) prediction(69) se.estimat<-function(z)sqrt(squadrat*((1/n)+((mean(x)-z)2)/SSX)) se.estimat(63) se.estimat(54) se.estimat(69) ci<-function(z,p) cuantil<-(p+1)/2 t.cuantil<-qt(cuantil,n-2) distancia<-t.cuantil*se.estimat(z)

cat(‘‘95 % intervalo de confianza=’’, prediction(z)-distancia, prediction(z)+distancia) ci(63,0.95)

ci(54,0.95) ci(69,0.95)

(41)

R y Serpientes

Ejemplo de juguete: Serpientes 2.XIII y R

# Intervalo de predicci´on con contenido probabil´ısticop

# para una nueva observaci´on deYen relaci´on a un nivel dado deX(63, 54, 69) se.predi<-function(z)sqrt( squadrat*(1+(1/n)+((mean(x)-z)2)/SSX)) se.predi(63) se.predi(54) se.predi(69) pi<-function(z,p) cuantil<-(p+1)/2 t.cuantil<-qt(cuantil,n-2) pdistancia<-t.cuantil*se.predi(z)

cat(‘‘95 % intervalo de prediccion=’’, prediction(z)-pdistancia, prediction(z)+pdistancia) pi(63,0.95)

pi(54,0.95) pi(69,0.95)

(42)

R y Serpientes

Ejemplo de juguete: Serpientes 2.XIV y R

# Dibujo de las bandas de estimacion y de predicci´on ci.lines<-function(p)

min<-min(x) max<-max(x)

xv<-seq(min-5, max+5, (max+10-min)/150) cuantil<-(p+1)/2 t.cuantil<-qt(cuantil,n-2) csup<-prediction(xv)+ t.cuantil*se.estimat(xv) cinf<-prediction(xv)-t.cuantil*se.estimat(xv) lines(xv,csup,col=‘‘green’’,lty=1) lines(xv,cinf,col=‘‘green’’,lty=1) pi.lines<-function(p) min<-min(x) max<-max(x)

xv<-seq(min-5, max+5, (max+10-min)/150) cuantil<-(p+1)/2 t.valor<-qt(cuantil,n-2) psup<-prediction(xv)+ t.valor*se.predi(xv) pinf<-prediction(xv)-t.valor*se.predi(xv) lines(xv,psup,col=‘‘blue’’,lty=1) lines(xv,pinf,col=‘‘blue’’,lty=1)

(43)

R y Serpientes

Ejemplo de juguete: Serpientes 2.XV y R

plot(x,y,col=‘‘red’’,xlim=c(50,70),ylim=c(70,230),pch=16, las=1) abline(model) ci.lines(0.95) pi.lines(0.95) # Tabla ANOVA anova(model)