REGRESIÓN LINEAL SIMPLE
10.3 REGRESIÓN LINEAL SIMPLE
10.3.4 Bandas de confianza y predicción para la recta de regresión
Además de realizar inferencias sobre los parámetros β0 y β1, es a menudo interesante calcular intervalos de confianza para la propia recta de regresión β0 + β1x. Más concretamente, dado un determinado valor x0 de la variable explicativa, se pretende obtener un intervalo de confianza para el valor esperado β0 + β1x0 de la variable respuesta. El estimador puntual de este valor esperado es yˆ0 = b0 + b1x0 = y + b1(x0 -
x) que, siguiendo un razonamiento análogo al del apartado anterior, presenta una distribución aproximadamente normal en muestras suficientemente grandes, con media
E(yˆ0) = E(y) + E(b1)(x0 - x) = β0 + β1x + β1(x0 - x) = β0 + β1x0
y varianza
var(yˆ0) = var(y) + var(b1)(x0 - x)2 =
− + 0 − 22
2
) 1 (
) 1 (
sx
n x x
σ n .
Por tanto, utilizando la distribución tn-2 resultante de sustituir σ 2 por la estimación s2, se tiene que el intervalo de confianza al 100(1 - α)% para el valor esperado β0 + β1x0 es
−
resulta en un valor P bilateral 2P(t531 ≤ – 6,63) ≈ 2F(– 6,63) < 0,001. Notar que este test arroja el mismo valor P que el contraste de regresión del ejemplo anterior ya que 2P(t531
≤ – 6,63) = P(t25 31 ≥ 6,632) = P(F1,531 ≥ 43,93).
10.3.4 Bandas de confianza y predicción para la recta de regresión
Además de realizar inferencias sobre los parámetros β0 y β1, es a menudo interesante calcular intervalos de confianza para la propia recta de regresión β0 + β1x. Más concretamente, dado un determinado valor x0 de la variable explicativa, se pretende obtener un intervalo de confianza para el valor esperado β0 + β1x0 de la variable respuesta. El estimador puntual de este valor esperado es ŷ0 = b0 + b1x0 =
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en estos 10 participantes es
10
53 , 1 ...
58 ,1 89 , 0 10
1 10
1
+ +
= +
=
i= xi
x = 1,223 mmol/l.
La media aritmética presenta las siguientes propiedades:
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos de una muestra, la media de la muestra resultante es igual a la media inicial más la constante utilizada; si yi = xi + c, entonces y = x + c. Un cambio de origen que se realiza con frecuencia es el centrado de la variable, que consiste en restar a cada valor de la muestra su media. La media de una variable centrada será, por tanto, igual a 0.
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una muestra por una constante, la media de la muestra resultante es igual a la media inicial por la constante utilizada; si yi = cxi, entonces y = c x.
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de una muestra por una constante y al resultado se le suma otra constante, la media de la muestra resultante es igual a la media inicial por la primera constante, más la segunda constante; si yi = c1xi + c2, entonces y = c1x + c2.
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del
cambio de escala, la media del colesterol HDL en mg/dl se calcularía
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl.
+ b1(x0 –
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.
1.2.1 Media aritmética
La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por
n x x
x x
x n n n
i i
+ +
= +
=
=
1 1 2 ...
1
.
La media es la medida de tendencia central más utilizada y de más fácil
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
) que, siguiendo un razonamiento análogo al del apartado anterior, presenta una distribución aproximadamente normal en muestras suficientemente grandes, con media
31 significativa ya que el contraste de la hipótesis nula H0: β1 = 0 mediante el
estadístico
t = 0,0035 023 , 0 ) (1 1
= − b SE
b = -6,63
resulta en un valor P bilateral 2P(t531 ≤ -6,63) ≈ 2Φ(-6,63) < 0,001. Notar que este test arroja el mismo valor P que el contraste de regresión del ejemplo anterior ya que 2P(t531 ≤ -6,63) = P(t5312 ≥ 6,632) = P(F1,531 ≥ 43,93).
10.3.4 Bandas de confianza y predicción para la recta de regresión
Además de realizar inferencias sobre los parámetros β0 y β1, es a menudo interesante calcular intervalos de confianza para la propia recta de regresión β0 + β1x. Más concretamente, dado un determinado valor x0 de la variable explicativa, se pretende obtener un intervalo de confianza para el valor esperado β0 + β1x0 de la variable respuesta. El estimador puntual de este valor esperado es yˆ0 = b0 + b1x0 = y + b1(x0 -
x) que, siguiendo un razonamiento análogo al del apartado anterior, presenta una distribución aproximadamente normal en muestras suficientemente grandes, con media
E(yˆ0) = E(y) + E(b1)(x0 x) = β0 + β1x + β1(x0 x) = β0 + β1x0
y varianza
var(yˆ0) = var(y) + var(b1)(x0 - x)2 =
− + 0 − 22
2
) 1 (
) 1 (
sx
n x x
σ n .
Por tanto, utilizando la distribución tn-2 resultante de sustituir σ 2 por la estimación s2, se tiene que el intervalo de confianza al 100(1 - α)% para el valor esperado β0 + β1x0 es
− −
176
Correlación y regresión lineal simple
Pastor-Barriuso R.
y varianza
31 significativa ya que el contraste de la hipótesis nula H0: β1 = 0 mediante el
estadístico
t = 0,0035 023 , 0 ) (1 1
=− b SE
b = -6,63
resulta en un valor P bilateral 2P(t531 ≤ -6,63) ≈ 2Φ(-6,63) < 0,001. Notar que este test arroja el mismo valor P que el contraste de regresión del ejemplo anterior ya que 2P(t531 ≤ -6,63) = P(t5312 ≥ 6,632) = P(F1,531 ≥ 43,93).
10.3.4 Bandas de confianza y predicción para la recta de regresión
Además de realizar inferencias sobre los parámetros β0 y β1, es a menudo interesante calcular intervalos de confianza para la propia recta de regresión β0 + β1x. Más concretamente, dado un determinado valor x0 de la variable explicativa, se pretende obtener un intervalo de confianza para el valor esperado β0 + β1x0 de la variable respuesta. El estimador puntual de este valor esperado es yˆ0 = b0 + b1x0 = y + b1(x0 -
x) que, siguiendo un razonamiento análogo al del apartado anterior, presenta una distribución aproximadamente normal en muestras suficientemente grandes, con media
E(yˆ0) = E(y) + E(b1)(x0 - x) = β0 + β1x + β1(x0 - x) = β0 + β1x0
y varianza
var(yˆ0) = var(y) + var(b1)(x0 x)2 =
− + 0 − 22
2
) 1 (
) 1 (
sx
n x x
σ n .
Por tanto, utilizando la distribución tn-2 resultante de sustituir σ 2 por la estimación s2, se tiene que el intervalo de confianza al 100(1 - α)% para el valor esperado β0 + β1x0 es
−
Por tanto, utilizando la distribución tn–2 resultante de sustituir σ 2 por la estimación s2, se tiene que el intervalo de confianza al 100(1 – α)% para el valor esperado β0 + β1x0 es
32
2 0 2 2
/ 1 , 2 0 1
0 ( 1)
) 1 (
x
n n s
x x s n
t x b
b −
+ −
±
+ − −α .
La banda de confianza para la recta de regresión no es más que la representación gráfica de estos intervalos a lo largo de todo el rango observado de la variable
explicativa. Esta banda de confianza está delimitada por las ramas de una hipérbola y su amplitud es mínima en x0 = x, aumentando a medida que x0 se aleja de su media
muestral x, lo que confirma la intuición de que el valor esperado de la variable respuesta puede estimarse con mayor precisión en valores centrados que en valores extremos de la variable explicativa.
Ejemplo 10.10 Para cada valor fijo x0 del índice de masa corporal, el modelo de regresión lineal estima un IC al 95% para el valor esperado del colesterol HDL de
2 0 2
0 532 3,50
) 0 , 26 (
533 283 1 , 0 96 ,1 023 , 0 69 ,
1 ⋅
+ −
⋅
±
− x x .
El área en gris oscuro de la Figura 10.9 representa la banda de confianza al 95%
para toda la recta de regresión del colesterol HDL sobre el índice de masa corporal, que se obtiene de calcular estos intervalos en sucesivos valores dentro del rango observado del índice de masa corporal. Los límites de esta banda de confianza tienen forma de hipérbola y su amplitud aumenta gradualmente
conforme x0 se aleja de la media x = 26,0 kg/m2 del índice de masa corporal. Así, por ejemplo, el IC al 95% para el valor medio del colesterol HDL entre los sujetos con un índice de masa corporal de 25 kg/m2,
1,69 - 0,023⋅25 ± 1,96⋅0,013 = (1,09; 1,14),
es sensiblemente más preciso que entre aquellos con un índice de masa corporal de 32 kg/m2,
La banda de confianza para la recta de regresión no es más que la representación gráfica de estos intervalos a lo largo de todo el rango observado de la variable explicativa. Esta banda de confianza está delimitada por las ramas de una hipérbola y su amplitud es mínima en x0 =
5 1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.
1.2.1 Media aritmética
La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por
n x x
x x
x n n n
i i
+ +
= +
=
=
1 1 2 ...
1 .
La media es la medida de tendencia central más utilizada y de más fácil
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los aumentando a medida que x0 se aleja de su media muestral ,
5 1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.
1.2.1 Media aritmética
La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por
n x x
x x
x n n n
i i
+ +
= +
=
=
1 1 2 ...
1 .
La media es la medida de tendencia central más utilizada y de más fácil
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
, lo que confirma la intuición de que el valor esperado de la variable respuesta puede estimarse con mayor precisión en valores centrados que en valores extremos de la variable explicativa.
Ejemplo 10.10 Para cada valor fijo x0 del índice de masa corporal, el modelo de regresión lineal estima un IC al 95% para el valor esperado del colesterol HDL de
32
2 0 2 2
/ 1 , 2 0 1
0 ( 1)
) 1 (
x
n n s
x x s n
t x b
b −
+ −
±
+ − −α .
La banda de confianza para la recta de regresión no es más que la representación gráfica de estos intervalos a lo largo de todo el rango observado de la variable
explicativa. Esta banda de confianza está delimitada por las ramas de una hipérbola y su amplitud es mínima en x0 = x, aumentando a medida que x0 se aleja de su media
muestral x, lo que confirma la intuición de que el valor esperado de la variable respuesta puede estimarse con mayor precisión en valores centrados que en valores extremos de la variable explicativa.
Ejemplo 10.10 Para cada valor fijo x0 del índice de masa corporal, el modelo de regresión lineal estima un IC al 95% para el valor esperado del colesterol HDL de
2 0 2
0 532 3,50
) 0 , 26 (
533 283 1 , 0 96 ,1 023 , 0 69 ,
1 ⋅
+ −
⋅
±
− x x .
El área en gris oscuro de la Figura 10.9 representa la banda de confianza al 95%
para toda la recta de regresión del colesterol HDL sobre el índice de masa corporal, que se obtiene de calcular estos intervalos en sucesivos valores dentro del rango observado del índice de masa corporal. Los límites de esta banda de confianza tienen forma de hipérbola y su amplitud aumenta gradualmente
conforme x0 se aleja de la media x = 26,0 kg/m2 del índice de masa corporal. Así, por ejemplo, el IC al 95% para el valor medio del colesterol HDL entre los sujetos con un índice de masa corporal de 25 kg/m2,
1,69 - 0,023⋅25 ± 1,96⋅0,013 = (1,09; 1,14),
es sensiblemente más preciso que entre aquellos con un índice de masa corporal de 32 kg/m2,
El área en gris oscuro de la Figura 10.9 representa la banda de confianza al 95% para toda la recta de regresión del colesterol HDL sobre el índice de masa corporal, que se obtiene de calcular estos intervalos en sucesivos valores dentro del rango observado del índice de masa corporal. Los límites de esta banda de confianza tienen forma de hipérbola y su amplitud aumenta gradualmente conforme x0 se aleja de la media
5 1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.
1.2.1 Media aritmética
La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por
n x x
x x
x n n n
i i
+ +
= +
=
=
1 1 2 ...
1 .
La media es la medida de tendencia central más utilizada y de más fácil
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
= 26,0 kg/m2 del índice de masa corporal. Así, por ejemplo, el IC al 95% para el valor medio del colesterol HDL entre los sujetos con un índice de masa corporal de 25 kg/m2,
32
2 0 2 2
/ 1 , 2 0 1
0 ( 1)
) 1 (
x
n n s
x x s n
t x b
b −
+ −
±
+ − −α .
La banda de confianza para la recta de regresión no es más que la representación gráfica de estos intervalos a lo largo de todo el rango observado de la variable
explicativa. Esta banda de confianza está delimitada por las ramas de una hipérbola y su amplitud es mínima en x0 = x, aumentando a medida que x0 se aleja de su media
muestral x, lo que confirma la intuición de que el valor esperado de la variable respuesta puede estimarse con mayor precisión en valores centrados que en valores extremos de la variable explicativa.
Ejemplo 10.10 Para cada valor fijo x0 del índice de masa corporal, el modelo de regresión lineal estima un IC al 95% para el valor esperado del colesterol HDL de
2 0 2
0 532 3,50
) 0 , 26 (
533 283 1 , 0 96 ,1 023 , 0 69 ,
1 ⋅
+ −
⋅
±
− x
x .
El área en gris oscuro de la Figura 10.9 representa la banda de confianza al 95%
para toda la recta de regresión del colesterol HDL sobre el índice de masa corporal, que se obtiene de calcular estos intervalos en sucesivos valores dentro del rango observado del índice de masa corporal. Los límites de esta banda de confianza tienen forma de hipérbola y su amplitud aumenta gradualmente
conforme x0 se aleja de la media x = 26,0 kg/m2 del índice de masa corporal. Así, por ejemplo, el IC al 95% para el valor medio del colesterol HDL entre los sujetos con un índice de masa corporal de 25 kg/m2,
1,69 0,023⋅25 ± 1,96⋅0,013 = (1,09; 1,14),
es sensiblemente más preciso que entre aquellos con un índice de masa corporal de 32 kg/m2,
−
es sensiblemente más preciso que entre aquellos con un índice de masa corporal de 32 kg/m2,
33 1,69 0,023⋅32 ± 1,96⋅0,024 = (0,90; 1,00).
[Figura 10.9 aproximadamente aquí]
La recta de regresión puede utilizarse no sólo para estimar la media poblacional de la variable respuesta entre los sujetos con un determinado valor x0 de la variable
explicativa, sino también para predecir la respuesta individual y0 de un nuevo sujeto dado su valor x0. Según la estructura del modelo de regresión lineal, el valor subyacente de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = β0 + β1x0 + ε0, cuyo estimador insesgado es de nuevo yˆ0 = b0 + b1x0 ya que
E(y0 - yˆ0) = β0 + β1x0 + E(ε0) - β0 - β1x0 = E(ε0) = 0.
Asimismo, como el valor estimado yˆ0 por la recta de regresión en x0 es independiente de la nueva observación y0, se sigue que
var(y0 - yˆ0) = var(ε0) + var(yˆ0) =
− + −
+ 0 22
2
) 1 (
) 1 (
1
sx
n x x
σ n ;
es decir, la predicción de una nueva observación a partir de la recta de regresión estimada está sujeta a dos fuentes de error: la varianza inherente de cada respuesta individual respecto a la recta de regresión subyacente y el error en la estimación de dicha recta. Además, si el término de error ε0 se distribuye de forma normal (asunción de normalidad), la diferencia y0 - yˆ0 también seguirá una distribución normal, de tal forma que el intervalo de predicción al 100(1 - α)% para una nueva observación individual y0 es
2 0 2 2
/ 1 , 2 0 1
0 ( 1)
) 1 (
1
x
n n s
x x s n
t x b
b −
+ − +
±
+ − −α .
−
La recta de regresión puede utilizarse no sólo para estimar la media poblacional de la variable respuesta entre los sujetos con un determinado valor x0 de la variable explicativa, sino también para predecir la respuesta individual y0 de un nuevo sujeto dado su valor x0. Según la estructura del modelo de regresión lineal, el valor subyacente de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = β0 + β1x0 + ε0, cuyo estimador insesgado es de nuevo ŷ0 = b0 + b1x0 ya que
33 1,69 - 0,023⋅32 ± 1,96⋅0,024 = (0,90; 1,00).
[Figura 10.9 aproximadamente aquí]
La recta de regresión puede utilizarse no sólo para estimar la media poblacional de la variable respuesta entre los sujetos con un determinado valor x0 de la variable
explicativa, sino también para predecir la respuesta individual y0 de un nuevo sujeto dado su valor x0. Según la estructura del modelo de regresión lineal, el valor subyacente de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = β0 + β1x0 + ε0, cuyo estimador insesgado es de nuevo yˆ0 = b0 + b1x0 ya que
E(y0 yˆ0) = β0 + β1x0 + E(ε0) β0 β1x0 = E(ε0) = 0.
Asimismo, como el valor estimado yˆ0 por la recta de regresión en x0 es independiente de la nueva observación y0, se sigue que
var(y0 - yˆ0) = var(ε0) + var(yˆ0) =
− + −
+ 0 22
2
) 1 (
) 1 (
1
sx
n x x
σ n ;
es decir, la predicción de una nueva observación a partir de la recta de regresión estimada está sujeta a dos fuentes de error: la varianza inherente de cada respuesta individual respecto a la recta de regresión subyacente y el error en la estimación de dicha recta. Además, si el término de error ε0 se distribuye de forma normal (asunción de normalidad), la diferencia y0 - yˆ0 también seguirá una distribución normal, de tal forma que el intervalo de predicción al 100(1 - α)% para una nueva observación individual y0 es
2 0 2 2
/ 1 , 2 0 1
0 ( 1)
) 1 (
1
x
n n s
x x s n
t x b
b −
+ − +
±
+ − −α .
− − −
Asimismo, como el valor estimado ŷ0 por la recta de regresión en x0 es independiente de la nueva observación y0, se sigue que
33 1,69 - 0,023⋅32 ± 1,96⋅0,024 = (0,90; 1,00).
[Figura 10.9 aproximadamente aquí]
La recta de regresión puede utilizarse no sólo para estimar la media poblacional de la variable respuesta entre los sujetos con un determinado valor x0 de la variable
explicativa, sino también para predecir la respuesta individual y0 de un nuevo sujeto dado su valor x0. Según la estructura del modelo de regresión lineal, el valor subyacente de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = β0 + β1x0 + ε0, cuyo estimador insesgado es de nuevo yˆ0 = b0 + b1x0 ya que
E(y0 - yˆ0) = β0 + β1x0 + E(ε0) - β0 - β1x0 = E(ε0) = 0.
Asimismo, como el valor estimado yˆ0 por la recta de regresión en x0 es independiente de la nueva observación y0, se sigue que
var(y0 yˆ0) = var(ε0) + var(yˆ0) =
− + −
+ 0 22
2
) 1 (
) (
1 1
sx
n x x
σ n ;
es decir, la predicción de una nueva observación a partir de la recta de regresión estimada está sujeta a dos fuentes de error: la varianza inherente de cada respuesta individual respecto a la recta de regresión subyacente y el error en la estimación de dicha recta. Además, si el término de error ε0 se distribuye de forma normal (asunción de normalidad), la diferencia y0 - yˆ0 también seguirá una distribución normal, de tal forma que el intervalo de predicción al 100(1 - α)% para una nueva observación individual y0 es
2 0 2 2
/ 1 , 2 0 1
0 ( 1)
) 1 (
1
x
n n s
x x s n
t x b
b −
+ − +
±
+ − −α .
−