R y Serpientes
Modelos lineales
Tema 2: Inferencia en el modelo de regresi´
on lineal simple
Carmen Armero
R y Serpientes
Introducci´
on
Inferencia sobre la pendiente del modelo
Distribuciones en el muestreo
Intervalos de confianza
Contrastes de hip´
otesis
Inferencia sobre la interceptaci´
on del modelo
Comentarios sobre el proceso inferencial
Estimaci´
on de medias
Predicci´
on
Tabla ANOVA
Comentarios finales sobre el modelo de regresi´
on
R y Serpientes
R y Serpientes
El modelo de regresi´
on lineal simple
El modelo de regresi´on lineal simple para una muestra de datos emparejados {(Xi,Yi),i= 1, . . . ,n}es
Yi=β0+β1Xi+i,i= 1, . . . ,n siendo:
I Yi la variable respuesta correspondiente al elementoi de la muestra (Yi es una variable aleatoria).
I Xi el valor de la variable predictora correspondiente al elementoi de la muestra (aXi no se le considera variable aleatoria).
I β0yβ1los coeficientes de la recta de regresi´on (par´ametros desconocidos). I i,i= 1, . . . ,n, los errores aleatorios que son variables aleatorias i.i.d. seg´un
R y Serpientes
Distribuci´
on en el muestreo del estimador de
β1
I Estimador deβ1, b1= Pn i=1(Xi−X¯)(Yi−Y¯) Pn i=1(Xi−X¯)2 = Pn i=1XiYi−nX¯Y¯ Pn i=1Xi2−nX¯2I La distribuci´on en el muestreo deb1es la distribuci´on de probabilidad de los diferentes valores deb1que podr´ıamos obtener si repiti´eramos y repiti´eramos el experimento considerando siempre los mismos niveles de la variable predictora.
I La distribuci´on en el muestreo deb1es normal con media y varianza: E(b1) = β1 σ2 b1 = σ 2/X (Xi−X¯)2. I Estimador de la varianzaσ2 b1, s2b 1=s 2/X (Xi−X¯)2 siendos2el estimador de la varianza del modeloσ2.
R y Serpientes
Distribuci´
on en el muestreo de
(b
1−
β1
)
/
s
b1I Recordemos que estandarizar una variable aleatoria es construir una nueva rest´andole su media y dividiendo esa diferencia por su desviaci´on t´ıpica.
I Comob1∼N(β1, σ2b1) si estandarizamos el estad´ısticob1sabemos que
b1−β1
σb1
∼N(0,1)
I Comoσb1es desconocido utilizaremos su estimadorsb1, al que se le conoce comoerror est´andard deb1.
I Un estad´ıstico estudentizado es un estad´ıstico estandarizado en el que la estandarizaci´on se realiza a trav´es de un estimador de su desviaci´on t´ıpica.
I Un importante resultado en Estad´ıstica establece que
b1−β1 sb1
∼t(n−2)
siendo t(n−2) la densidad de una distribuci´on t-Student con (n−2) grados de libertad (ver gr´afica siguiente).
R y Serpientes
Distribuci´
on t
R y Serpientes
Intervalo de confianza para
β1
I Como b1−β1 sb1 ∼t(n−2): P(tα/2(n−2)≤ b1−β1 sb1 ≤t1−(α/2)(n−2)) = 1−α
siendotα/2(n−2) el percentil de orden 100(α/2) % de una distribuci´on
t(n−2), contα/2(n−2) =−t1−(α/2)(n−2) I Operando:
P(−t1−(α/2)(n−2)×sb1≤b1−β1≤t1−(α/2)(n−2)×sb1) = 1−α
P(b1−t1−(α/2)(n−2)×sb1≤β1≤b1+t1−(α/2)(n−2)×sb1) = 1−α
I Intervalo de confianza deβ1con coeficiente de confianza 1−α:
R y Serpientes
Contrastes de hip´
otesis para la pendiente del modelo, I
I Contrastes de hip´otesis:H0:β1= 0, H1:β16= 0 contraste de dos colas H1:β1>0 contraste de una cola H1:β1<0 contraste de una cola I Estad´ıstico de contraste: b1−β1
sb1
∼t(n−2)
I Estad´ıstico de contraste cuandoH0es cierta:tb1=b1/sb1
I Distribuci´on del estad´ıstico de contraste cuandoH0es cierta,
tb1=
b1 sb1
∼t(n−2)
I Regla de decisi´on con nivel de significatividadα: Contraste de hip´otesis RechazarH0
H0:β1= 0, H1:β16= 0 |tb1|>t1−(α/2)(n−2) H1:β1>0 tb1>t(1−α)(n−2) H1:β1<0 tb1<tα(n−2)
R y Serpientes
Contrastes de hip´
otesis para la pendiente del modelo, II
I Contrastes de hip´otesis:H0:β1= 0, H1:β16= 0 contraste de dos colas H1:β1>0 contraste de una cola H1:β1<0 contraste de una cola I P-valores:
Contraste de hip´otesis P-valor
H0:β1= 0, H1:β16= 0 2P(t(n−2)≥ |tb1|)
H1:β1>0 P(t(n−2)>tb1)
H1:β1<0 P(t(n−2)<tb1)
I Siαes el nivel de significatividad en cualquiera de los contrastes planteados: P-valor≥α No rechazarH0
P-valor< α RechazarH0
I Importante:La hip´otesis nula establece que la variable respuesta no depende linealmente de la predictora.
R y Serpientes
Inferencia sobre la interceptaci´
on del modelo, I
I Estimador deβ0, b0= ¯Y −b1X¯, con b1= Pn i=1(Xi−X¯)(Yi−Y¯) Pn i=1(Xi−X¯)2 I La distribuci´on en el muestreo deb0es b0∼N(β0, σb20=σ 21 n+ ¯ X2 P (Xi−X¯)2 ) I Estimador de la varianzaσ2 b0, sb20=s 21 n+ ¯ X2 P (Xi−X¯)2siendos2el estimador de la varianza del modeloσ2. El estimadors
b0 de la desviaci´on t´ıpica deσb0 es conocido comoerror est´andard deb0.
I b0−β0
R y Serpientes
Inferencia sobre la interceptaci´
on del modelo, II
I Se opera de forma an´aloga a la presentada conβ0yb0. I Intervalo de confianza deβ0con coeficiente de confianza 1−α:b0±t1−(α/2)(n−2)×sb0
I Los contrastes de hip´otesis sobreβ0no son habituales, aunque si fueran
adecuados en alg´un estudio concreto se podr´ıan realizar de forma an´aloga a los desarrollados paraβ1.
R y Serpientes
Ejemplo de juguete: Serpientes 2.I
I Estad´ısticos: Longitud, cm X¯= 63 s2 X=21.500 P (Xi−X¯)2=172.000 Peso, gr Y¯ = 152 s2 Y=1248.750 Recta ajustada b0=-301.087 b1=7.192 s2=156.238 I Errores est´andard
s2 b1= s2 P (Xi−X¯)2 = 156.237 172.000 = 0.908; sb1=0.953 s2 b0=s 21 n+ ¯ X2 P (Xi−X¯)2 = 156.23819+17263.0002 =3622.689; sb0=60.1888 I t0.975(7)=2.3646
I Intervalo de confianza paraβ1(β0) con coeficiente de confianza 0.95:
(b1±t1−(α/2)(n−2)×sb1) (7.192±2.36462×0.953) (4.939,9.446) (b0±t1−(α/2)(n−2)×sb0)
R y Serpientes
Ejemplo de juguete: Serpientes 2.II
I Estad´ısticos: Longitud X¯= 63 s2 X = 21.500 P (Xi−X¯)2= 172.000 Peso Y¯ = 152 s2 Y = 1248.750 Recta ajustada b0= -301.087 b1= 7.192 s2= 156.238 sb0= 60.189 sb1= 0.953
I Contrastes de hip´otesis:
H0:β1= 0, H1:β16= 0 contraste de dos colas H1:β1>0 contraste de una cola
H1:β1<0 contraste de una cola (no sentido en este problema) I Valor observado del estad´ıstico de contraste:
tb1= b1 sb1
=70..192953 = 7.547
I Distribuci´on del estad´ıstico de contraste cuandoH0es cierta es t(7)
I P-valores:
Contraste de hip´otesis P-valor
H0:β1= 0, H1:β16= 0 2P(t(7)≥7.547)=0.000 H1:β1>0 P(t(7)≥7.547)=0.000
R y Serpientes
Ejemplo de juguete: Serpientes 2.III
I Aunque el R te permite calcular los P-valores anteriores (ver secuencia de R al final del tema), posiblemente es m´as formativo utilizar una herramienta que tambi´en te permita visualizarlos. Para ello, entra en la p´agina principal delRice Virtual Lab in Statistics:
http://www.onlinestatbook.com/rvls.html,
y selecciona el apartadoOnline Statistics: An Interactive Multimedia Course of Study. A continuaci´on, en la nueva ventana que has abierto, procede seg´un:
Table of Contents>XVI. Calculators> t Distribution El P-valor solicitado aparece pintado de color azul sobre la distribuci´on t(7).
R y Serpientes
Comentario I: Efectos de posibles incumplimientos de la normalidad.
I Cuando las distribuciones de probabilidad asociadas aY |X no son normalespero no se alejan excesivamente de la normalidad, la distribuci´on en el muestreo deb0yb1es aproximadamente normal y la utilizaci´on de la distribuci´on t-Student proporciona coeficientes de confianza y niveles de significaci´on aproximados.
I Incluso si las distribuciones deY se alejan bastante de la normalidad, los estimadoresb0yb1son, en general, asint´oticamente normales (bajo condiciones muy generales su distribuci´on se aproxima a la normalidad cuando el tama˜no de la muestra se hace cada vez m´as grande).
I Por tanto, cuando se dispone de bastantes datos, el intervalo de confianza y las reglas de decisi´on asociadas a los contrastes de hip´otesis son v´alidas a´un cuando la distribuci´on de probabilidad deY se aleje de la normalidad.
I Evidentemente, con bastantes datos, la distribuci´on t-Student puede reemplazarse por la distribuci´on normal est´andard.
R y Serpientes
Comentario II: Interpretaci´
on de los coeficientes de confianza y las
probabilidades asociadas a los errores de los contrastes de hip´
otesis
I Si recordamos la concepci´on frecuentista de la probabilidad, como el modelo de regresi´on supone que lasXi son constantes conocidas, el coeficiente de confianza y las probabilidades asociadas a los errores de los contrastes de hip´otesis se interpretan en t´erminos de repeticiones y repeticiones independientes del mismo experimento, que consistir´ıa en observar lasYi0s correspondientes siempre a los mismos valores de los niveles de lasX observadas en la muestra.
I En el ejemplo de las serpientes cuando construimos un intervalo de confianza paraβ1con coeficiente de confianza 0.95 entendemos que si midi´eramos el peso
de 9 serpientes con las mismas longitudes que los de la muestra observada y repiti´eramos este experimento muchas veces (con diferentes serpientes claro), aproximadamente el 95 % de los intervalos constru´ıdos contendr´ıan aβ1y no
podemos saber nunca si el intervalo que hemos construido con la muestra dada, (4.939, 9.446), es uno de esos o no.
R y Serpientes
Comentario III: Dispersi´
on de los niveles de la variable predictora
I Si nos fijamos en las expresiones de la varianza deb0yb1:σ2b1= σ2 P (Xi−X¯)2 ; σ2b0=σ 21 n+ ¯ X2 P (Xi−X¯)2 ,
y consideramos el tama˜no de la muestra y la varianza del modelo constante observamos que dichas varianzas dependen de la dispersi´on de los niveles de la variable predictora.
I Un gran dispersi´on en los niveles deX genera valores grandes enP
(Xi−X¯)2, y por lo tanto, varianzas peque˜nas deb1yb0.
R y Serpientes
Estimaci´
on de medias, I
I Estamos interesamos ahora en estimar el valor medio deY para un cierto nivel de la variable predictoraXh, que puede coincidir o no con alguno de los valores observados en la muestra.
I Si representamos por E(Yh) (E(Y |Xh)) la media deY cuandoX=Xh, sabemos que un estimador puntual de dicha esperanza es ˆYh=b0+b1Xh.
I Vamos a estudiar la distribuci´on en el muestreo de ˆYh, que se refiere a la distribuci´on de probabilidad de los diferentes valores de ˆYhque obtendr´ıamos en sucesivas repeticiones del experimento consistente en observarY siempre para el mismo nivelX =Xh.
I La distribuci´on en el muestreo de ˆYhes normal con media y varianza: E( ˆYh) = E(b0+b1Xh) = E(b0) + E(b1)Xh=β0+β1Xh= E(Yh) σ2 ˆ Yh=σ 21 n+ ( ¯X−Xh)2 P(X i−X¯)2
R y Serpientes
Estimaci´
on de medias, II
I Definimos elerror est´andard de ˆYhcomo la estimaci´on de su desviaci´on t´ıpica:
sˆY h= q s2 ˆ Yh , con s2 ˆ Yh =s21 n+ ( ¯X−Xh)2 P (Xi−X¯)2 I Con lo que: ˆ Yh−E(Yh) sYˆh ∼t(n−2).
I Y operando de forma an´aloga a la presentada para obtener un intervalo de confianza paraβ1, obtenemos ahora la expres´ıon de un intervalo de confianza
para E(Yh) con coeficiente de confianza 1−α: ( ˆYh±t1−(α/2)(n−2)×sˆYh)
R y Serpientes
Ejemplo de juguete: Serpientes 2.IV
I Informaci´on: Longitud X¯ = 63.000 s2 X = 21.500 P (Xi−X¯)2= 172.000 Peso Y¯ = 152.000 sY2 = 1248.750 Recta ajustada b0= -301.087 b1= 7.192 s2= 156.238 sb0= 60.189 sb1= 0.953 Percentiles t0.975(7) = 2.3646
I Vamos a calcular un intervalo de confianza para el peso medio de las serpientes que midenXh= 63 cm. Para ello:
ˆ Y63=−301.087 + 7.192×63 = 152 s2ˆ Y63= 156.238 1 9+ (63−63)2 172 =17.360 sˆY 63= 4.167
por lo que el intervalo buscado ser´a:
R y Serpientes
Ejemplo de juguete: Serpientes 2.V
I Calculamos ahora tambi´en un intervalo de confianza para el peso medio de las serpientes que midenXh= 54 cm yXh= 69 cm. Y los compararemos con el obtenido para el peso medio de las serpientes que miden 63 cm.
Estimaci´on
Longitud del peso medio Error est´andard Intervalo
63 cm 152.000 4.167 (139.782, 164.218)
69 cm 195.152 7.075 (178.421, 211.882)
54 cm 87.273 9.536 (64.724, 109.823)
I Como el error est´andard de la estimaci´on aumenta a medida que consideramos niveles deX que se alejan de la media muestral, la anchura de los
R y Serpientes
Predicci´
on, I
I Estamos interesamos en predecir el valor de una nueva observaci´on deY para un nivel dado de la variable predictoraX. La observaci´on deY que se quiere predecir se considera como el resultado de una nueva prueba experimental independiente de las pruebas y resultados obtenidos al ajustar el modelo de regresi´on al banco de datos considerado.
I Representamos porXhal nivel deX para la nueva prueba y porYh(nueva)a la
correspondiente observaci´on deY, que es la que se desea predecir. Obviamente suponemos que el modelo de regresi´on considerado contin´ua siendo v´alido en esta nueva etapa.
I La distinci´on entre estimaci´on de la respuesta media E(Yh) (presentada en el apartado anterior) y predicci´on de una nueva respuestaYh(nueva)es b´asica y muy
importante. En el primer caso estimamos una media, E(Y |Xh), y ahora predecimos un valor de la distribuci´onY |Xh.
R y Serpientes
Predicci´
on, II: Otro ejemplo de juguete
I Vamos a ilustrar la naturaleza del concepto de predicci´on con un ejemplo de juguete en el que todos los par´ametros del modelo son conocidos (situaci´on imposible en la pr´actica claro).
I Modelo de regresi´on:
Representaci´on 1:Y = 25 + 2.5X+, con∼N(0, σ2= 1.5) Representaci´on 2:(Y |X)∼N(25 + 2.5X, σ2= 1.5)
I Si quisi´eramos predecir una nueva observaci´on deY para el valorXh= 2, hemos de pensar que la distribuci´on predictiva deY para dicha observaci´on de la variable predictora es:
(Y |Xh= 2)∼N(30, σ2= 1.5)
por lo que sabemos que la media de dicha distribuci´on predictiva ser´a 30 y que las probabilidades asociadas a intervalos de predicci´on centrados en la media y de amplitud 2σ2, 4σ2y 6σ2son :
P(28.5<(Y |Xh= 2)<31.5) = 0.6827
P(27<(Y |Xh= 2)<33) = 0.9545
R y Serpientes
Predicci´
on, III
I Puedes calcular los intervalos de predicci´on anteriores y, sobretodo, visualizarlos con el programaRice Virtual Lab in Statistics:
http://www.onlinestatbook.com/rvls.html
Cuando hayas entrado selecciona el apartadoOnline Statistics: An Interactive Multimedia Course of Study, y a continuaci´on, procede en la nueva ventana abierta seg´un:
Table of Contents>XVI. Calculators>Normal distribution d´onde ya puedes calcular y visualizar la probabilidad de los intervalos considerados.
I Muy importante:El conocimiento de los par´ametros del modelo no elimina totalmente la incertidumbre en la predicci´on.
R y Serpientes
Predicci´
on, IV
A nivel te´orico se demuestra que:
Yh(nueva)−Yˆh
spredi
∼t(n−2)
siendo:
IYh(nueva)una variable aleatoria que describe la predicci´on deY cuandoX =Xh.
IYˆh=b0+b1Xhpredicci´on puntual deYh(nueva) Ispredi = q s2 predi, con s2 predi =s2 1 +1n+ (Xh−¯X)2 P (Xi−X¯)2 ,
R y Serpientes
Predicci´
on, V
I Se opera de forma an´aloga a la presentada para obtener un intervalo de confianza paraβ1.
I Intervalo de predicci´on paraYh(nueva)con contenido probabil´ıstico 1−α:
ˆ
R y Serpientes
Ejemplo de juguete: Serpientes 2.VI
I Calculamos ahora un intervalo de predicci´on con contenido probabil´ıstico 0.95 para el peso de una nueva serpiente cuya longiyud esXh= 63,Xh= 54 y
Xh= 69 cm.
Predicci´on
Longitud del peso Error est´andard Intervalo
63 cm 152.000 13.176 (120.845, 183.156)
54 cm 87.273 15.722 (50.097, 124.449)
69 cm 195.152 14.363 (161.188, 229.115)
I Como el error est´andard del error de predicci´on aumenta a medida que consideramos niveles deX m´as alejados de la media muestral, la anchura de los correspondientes intervalos de predicci´on aumentar´a de la misma forma.
I Para un mismo valor 1−αy el mismo nivel de la variable predictora los intervalos de predicci´on son siempre m´as anchos que los intervalos de confianza para la media.
R y Serpientes
Ejemplo de juguete: Serpientes 2.VII
Bandas de confianza y de predicci´on al 95 %:
50 55 60 65 70 100 150 200 longitud peso
R y Serpientes
Descomposici´
on de la suma de cuadrados, I
I Vamos a fijarnos en la siguiente expresi´on:Yi−Y¯ | {z } (1) = (Yi−Yˆi) | {z } (2) + ( ˆYi−Y¯) | {z } (3) , i= 1, . . . ,n
(1) Desviaci´on deYi con respecto a su media muestral ¯Y (2) Desviaci´on deYi con respecto a su valor ajustado ˆYi (3) Desviaci´on de ˆYi con respecto a su media muestral ¯Y
I Adem´as: n X i=1 (Yi−Y¯)2 | {z } SST = n X i=1 (Yi−Yˆi)2 | {z } SSE + 2 X i=1 ( ˆYi−Y¯)2 | {z } SSR
ISST, Suma de cuadrados total; es una medida de la variabilidad de los datos deY con respecto a su media muestral.
ISSE, Suma de cuadrados residual: es una medida de la variabilidad de los datos deY con respecto a los valores ajustados.
ISSR, Suma de cuadrados explicada por el modelo; es una medida de la variabilidad de los valores ajustados ˆYi con respecto a su media muestral.
R y Serpientes
Descomposici´
on de la suma de cuadrados, II
I Recordamos que: n X i=1 (Yi−Y¯)2 | {z } SST = n X i=1 (Yi−Yˆi)2 | {z } SSE + 2 X i=1 ( ˆYi−Y¯)2 | {z } SSRI Cada una de estas sumas de cuadrados tiene asociado un n´umero (grados de libertad). SST | {z } n−1 =SSE | {z } n−2 +SSR | {z } 1
I SiYi= ˆYi, los residuos ser´an todos cero y, por lo tanto, su suma de cuadrados tambi´en,SSE=0. Esta es una situaci´on ideal en la que todos los valores deY
estar´ıan sobre la recta de regresi´on ySST=SSR.
I Si ˆYi= ¯Y, el modelo ajustado no explica nada de la variabilidad de lasY con respecto a su media, con lo queSST=SSE. Esta es la peor situaci´on, el modelo de regresi´on no nos sirve porque la recta de regresi´on ajustada tendr´ıa pendiente cero e interceptaci´on ¯y.
R y Serpientes
Tabla ANOVA, I
I Tabla ANOVA:Fuente de Suma de Grados de Cuadrado
variaci´on cuadrados libertad medio
Regresi´on SSR=Pn i=1( ˆYi−Y¯)2 1 MSR=SSR/1 Error SSE=Pn i=1(Yi−Yˆi)2 n−2 MSE=SSE/(n−2) Total SST=Pn i=1(Yi−Y¯)2 n−1
I El cuadrado medioMSE es la estimaci´on,s2, de la varianza del modelo. I El cocienteSST/(n−1) es la varianza muestral de lasYi,s2
R y Serpientes
Ejemplo de juguete: Serpientes 2.VIII
I Comon= 9,s2
Y = 1248.750 ys2= 156.238 sabemos que:
ISST= (n−1)s2
Y = 8×1248.750 = 9990.000
Is2=MSE= 156.238 SSE= (n−2)MSE= 7×156.238 = 1093.666
ISSR=SST−SSE= 9990.000 - 1093.666 = 8896.334
I Tabla ANOVA:
Fuente de Suma de Grados de Cuadrado
variaci´on cuadrados libertad medio
Regresi´on SSR= 8896.334 1 MSR= 8896.334
Error SSE= 1093.666 7 MSE= 156.238
R y Serpientes
Tabla ANOVA, II
La tabla ANOVA proporciona una bater´ıa de contrastes de hip´otesis ´utiles en los modelos de regresi´on. En nuestro modelo de regresi´on lineal simple:
IContraste de hip´otesis:H0:β1= 0 vsH1:β16= 0
IEstad´ıstico de contraste:MSR/MSE
IDistribuci´on del estad´ıstico de contraste cuandoH0es cierta:
F=MSR
MSE ∼F(1,n−2),
siendo F(1,n−2) una distribuci´on F de Snedecor con 1 yn−2 grados de libertad.
IRegla de decisi´on con nivel de significatividadα: RechazarH0cuando
F >F1−α(1,n−2) ´o P-valor =P(F(1,n−2)>F)< α
R y Serpientes
Tabla ANOVA, III
Tabla ANOVA:
Fuente de Suma de Grados de Cuadrado
variaci´on cuadrados libertad medio Cociente F P-valor
Regresi´on SSR 1 MSR MSR/MSE P(F(1,n−2)>F)
Error SSE n−2 MSE
R y Serpientes
Ejemplo de juguete: Serpientes, 2.IX
I Tabla ANOVA:
Fuente de Suma de grados de Cuadrado
variaci´on cuadrado libertad medio Cociente F P-valor
Regresi´on 8896.334 1 8896.334 56.941 0.000
Error 1093.666 7 156.238
Total 9990.000 8
I El P-valor de la tabla ANOVA para el contraste de hip´otesisH0:β1= 0, vs. H1:β16= 0 es 0.000 por lo que considerandoα=0.05 concluir´ıamos rechazandoH0y
R y Serpientes
Test t para la pendiente del modelo y test F de la tabla ANOVA
Tenemos dos formas diferentes para resolver el mismo contraste de hip´otesis,
H0:β1= 0 vs.H1:β16= 0, el test t y el test F de la tabla ANOVA. Vamos a
comprobar que ambos proporcionan el mismo resultado:
F = MSR MSE = P ( ˆYi−Y¯)2/1 P (Yi−Yˆi)2/(n−2) = P (b0+b1Xi−Y¯)2 s2 = = P ( ¯Y−b1X¯+b1Xi−Y¯)2 s2 = b2 1 P (Xi−X¯)2 s2 = = b 2 1 s2/P (Xi−X¯)2 = b 2 1 s2 b1 =t2.
Esta relaci´on tambi´en se cumple entre los percentilest2
R y Serpientes
Comentarios finales sobre la utilizaci´
on de los modelos de regresi´
on
I La aplicaci´on del modelo de regresi´on lineal para valores de la variable predictoraX
fuera del rango de los datos observados es un tema delicado que debe, en principio, evitarse porque no se dispone de evidencia experimental de que se conserve la misma relaci´on entre ambas variables.
I Un contraste de hip´otesis que concluye rechazandoH0:β1= 0 no indica que exista
una relaci´on de causa-efecto entre la variable predictora y la variable respuesta. Cuando trabajamos con datos no experimentales ambas variables pueden estar influenciadas simult´aneamente por otras variables que no aparecen en el modelo de regresi´on. Sin embargo, la existencia de una relaci´on lineal entre dos variables en experimentos controlados es generalmente una buena evidencia de una posible relaci´on de causa-efecto entre ellas.
R y Serpientes
Ejemplo de juguete: Serpientes 2.X y R
# Obtengo el error est´andard deb0yb1consummary(model) # o alternativamente seg´un: SSX<-(length(x)-1)*var(x) SSX
n<-length(x) n
# Error est´andard deb1
s2.b1<-squadrat/SSX s2.b1
s.b1<-sqrt(s2.b1) s.b1
# Error est´andard deb0
s2.b0<-squadrat*((1/n)+((mean(x)2)/SSX)) s2.b0
s.b0<-sqrt(s2.b0) s.b0
R y Serpientes
Ejemplo de juguete: Serpientes 2.XI y R
# Intervalo de confianza 0.95 paraβ0y paraβ1:qt(0.975,n-2) b0<-coef(model)[1] b1<-coef(model)[2]
c(b0-qt(0.975,n-2)*s.b0, b0+qt(0.975,n-2)*s.b0) c(b1-qt(0.975,n-2)*s.b1, b1+qt(0.975,n-2)*s.b1) # Contraste de hip´otesis paraβ1
t.b1<-abs(b1/s.b1) t.b1
# P-valor para contraste de dos colas 2*(1-pt(t.b1,n-2))
# P-valor para contraste de una cola 1-pt(t.b1,n-2)
R y Serpientes
Ejemplo de juguete: Serpientes 2.XII y R
# Intervalo de confianza con coeficiente de confianzap# para la media deYen relaci´on a un nivel dado deX(63, 54, 69) prediction<-function(z)predict(model,list(x=z)) prediction(63) prediction(54) prediction(69) se.estimat<-function(z)sqrt(squadrat*((1/n)+((mean(x)-z)2)/SSX)) se.estimat(63) se.estimat(54) se.estimat(69) ci<-function(z,p) cuantil<-(p+1)/2 t.cuantil<-qt(cuantil,n-2) distancia<-t.cuantil*se.estimat(z)
cat(‘‘95 % intervalo de confianza=’’, prediction(z)-distancia, prediction(z)+distancia) ci(63,0.95)
ci(54,0.95) ci(69,0.95)
R y Serpientes
Ejemplo de juguete: Serpientes 2.XIII y R
# Intervalo de predicci´on con contenido probabil´ısticop# para una nueva observaci´on deYen relaci´on a un nivel dado deX(63, 54, 69) se.predi<-function(z)sqrt( squadrat*(1+(1/n)+((mean(x)-z)2)/SSX)) se.predi(63) se.predi(54) se.predi(69) pi<-function(z,p) cuantil<-(p+1)/2 t.cuantil<-qt(cuantil,n-2) pdistancia<-t.cuantil*se.predi(z)
cat(‘‘95 % intervalo de prediccion=’’, prediction(z)-pdistancia, prediction(z)+pdistancia) pi(63,0.95)
pi(54,0.95) pi(69,0.95)
R y Serpientes
Ejemplo de juguete: Serpientes 2.XIV y R
# Dibujo de las bandas de estimacion y de predicci´on ci.lines<-function(p)min<-min(x) max<-max(x)
xv<-seq(min-5, max+5, (max+10-min)/150) cuantil<-(p+1)/2 t.cuantil<-qt(cuantil,n-2) csup<-prediction(xv)+ t.cuantil*se.estimat(xv) cinf<-prediction(xv)-t.cuantil*se.estimat(xv) lines(xv,csup,col=‘‘green’’,lty=1) lines(xv,cinf,col=‘‘green’’,lty=1) pi.lines<-function(p) min<-min(x) max<-max(x)
xv<-seq(min-5, max+5, (max+10-min)/150) cuantil<-(p+1)/2 t.valor<-qt(cuantil,n-2) psup<-prediction(xv)+ t.valor*se.predi(xv) pinf<-prediction(xv)-t.valor*se.predi(xv) lines(xv,psup,col=‘‘blue’’,lty=1) lines(xv,pinf,col=‘‘blue’’,lty=1)
R y Serpientes
Ejemplo de juguete: Serpientes 2.XV y R
plot(x,y,col=‘‘red’’,xlim=c(50,70),ylim=c(70,230),pch=16, las=1) abline(model) ci.lines(0.95) pi.lines(0.95) # Tabla ANOVA anova(model)