Bandas de confianza y predicción para la recta de regresión

REGRESIÓN LINEAL SIMPLE

10.3 REGRESIÓN LINEAL SIMPLE

10.3.4 Bandas de confianza y predicción para la recta de regresión

Además de realizar inferencias sobre los parámetros β0 y β1, es a menudo interesante calcular intervalos de confianza para la propia recta de regresión β0 + β1x. Más concretamente, dado un determinado valor x0 de la variable explicativa, se pretende obtener un intervalo de confianza para el valor esperado β0 + β1x0 de la variable respuesta. El estimador puntual de este valor esperado es yˆ₀ = b0 + b1x0 = y + b1(x0 -

x) que, siguiendo un razonamiento análogo al del apartado anterior, presenta una distribución aproximadamente normal en muestras suficientemente grandes, con media

E(yˆ₀) = E(y) + E(b1)(x0 - x) = β0 + β1x + β1(x0 - x) = β0 + β1x0

y varianza

var(yˆ₀) = var(y) + var(b1)(x0 - x)² = _









− + ⁰ − ₂²

) 1 (

n x x

σ n .

Por tanto, utilizando la distribución tn-2 resultante de sustituir σ² por la estimación s², se tiene que el intervalo de confianza al 100(1 - α)% para el valor esperado β0 + β1x0 es

−

resulta en un valor P bilateral 2P(t₅₃₁ ≤ – 6,63) ≈ 2F(– 6,63) < 0,001. Notar que este test arroja el mismo valor P que el contraste de regresión del ejemplo anterior ya que 2P(t₅₃₁

≤ – 6,63) = P(t²_{5 31} ≥ 6,63²) = P(F_1,531 ≥ 43,93).

10.3.4 Bandas de confianza y predicción para la recta de regresión

Además de realizar inferencias sobre los parámetros β₀ y β₁, es a menudo interesante calcular intervalos de confianza para la propia recta de regresión β₀ + β₁x. Más concretamente, dado un determinado valor x₀ de la variable explicativa, se pretende obtener un intervalo de confianza para el valor esperado β₀ + β₁x₀ de la variable respuesta. El estimador puntual de este valor esperado es ŷ₀ = b₀ + b₁x₀ =

antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en estos 10 participantes es

53 , 1 ...

58 ,1 89 , 0 10

1 ¹⁰

+ +

= +



i= xi

x = 1,223 mmol/l.

La media aritmética presenta las siguientes propiedades:

• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos de una muestra, la media de la muestra resultante es igual a la media inicial más la constante utilizada; si yi = xi + c, entonces y = x + c. Un cambio de origen que se realiza con frecuencia es el centrado de la variable, que consiste en restar a cada valor de la muestra su media. La media de una variable centrada será, por tanto, igual a 0.

• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una muestra por una constante, la media de la muestra resultante es igual a la media inicial por la constante utilizada; si yi = cxi, entonces y = c x.

• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de una muestra por una constante y al resultado se le suma otra constante, la media de la muestra resultante es igual a la media inicial por la primera constante, más la segunda constante; si yi = c1xi + c2, entonces y = c1x + c2.

Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del

cambio de escala, la media del colesterol HDL en mg/dl se calcularía

directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl.

+ b₁(x₀ –

1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n ⁿ ⁿ

i i

+ +

= +



1 1 2 ...

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

) que, siguiendo un razonamiento análogo al del apartado anterior, presenta una distribución aproximadamente normal en muestras suficientemente grandes, con media

31 significativa ya que el contraste de la hipótesis nula H0: β1 = 0 mediante el

estadístico

t = 0,0035 023 , 0 ) (¹ ₁

= − b SE

b = -6,63

resulta en un valor P bilateral 2P(t531 ≤ -6,63) ≈ 2Φ(-6,63) < 0,001. Notar que este test arroja el mismo valor P que el contraste de regresión del ejemplo anterior ya que 2P(t531 ≤ -6,63) = P(t₅₃₁² ≥ 6,63²) = P(F1,531 ≥ 43,93).

10.3.4 Bandas de confianza y predicción para la recta de regresión

x) que, siguiendo un razonamiento análogo al del apartado anterior, presenta una distribución aproximadamente normal en muestras suficientemente grandes, con media

E(yˆ₀) = E(y) + E(b1)(x0 x) = β₀ + β₁x + β₁(x0 x) = β₀ + β₁x0

y varianza

var(yˆ₀) = var(y) + var(b1)(x0 - x)² = _



 





− + ⁰ − ₂²

) 1 (

n x x

σ n .

Por tanto, utilizando la distribución tn-2 resultante de sustituir σ² por la estimación s², se tiene que el intervalo de confianza al 100(1 - α)% para el valor esperado β0 + β1x0 es

− −

176

Correlación y regresión lineal simple

Pastor-Barriuso R.

y varianza

31 significativa ya que el contraste de la hipótesis nula H0: β1 = 0 mediante el

estadístico

t = 0,0035 023 , 0 ) (¹ ₁

=− b SE

b = -6,63

10.3.4 Bandas de confianza y predicción para la recta de regresión

x) que, siguiendo un razonamiento análogo al del apartado anterior, presenta una distribución aproximadamente normal en muestras suficientemente grandes, con media

E(yˆ₀) = E(y) + E(b1)(x0 - x) = β0 + β1x + β1(x0 - x) = β0 + β1x0

y varianza

var(yˆ₀) = var(y) + var(b1)(x0 x)² = _



 





− + ⁰ − ₂²

) 1 (

n x x

σ n .

Por tanto, utilizando la distribución tn-2 resultante de sustituir σ² por la estimación s², se tiene que el intervalo de confianza al 100(1 - α)% para el valor esperado β0 + β1x0 es

−

Por tanto, utilizando la distribución t_n–2 resultante de sustituir σ² por la estimación s², se tiene que el intervalo de confianza al 100(1 – α)% para el valor esperado β₀ + β₁x₀ es

2 0 2 2

/ 1 , 2 0 1

0 ( 1)

) 1 (

n n s

x x s n

t x b

b −

+ −

+ ₋ ₋_α .

La banda de confianza para la recta de regresión no es más que la representación gráfica de estos intervalos a lo largo de todo el rango observado de la variable

explicativa. Esta banda de confianza está delimitada por las ramas de una hipérbola y su amplitud es mínima en x0 = x, aumentando a medida que x0 se aleja de su media

muestral x, lo que confirma la intuición de que el valor esperado de la variable respuesta puede estimarse con mayor precisión en valores centrados que en valores extremos de la variable explicativa.

Ejemplo 10.10 Para cada valor fijo x0 del índice de masa corporal, el modelo de regresión lineal estima un IC al 95% para el valor esperado del colesterol HDL de

2 0 2

0 532 3,50

) 0 , 26 (

533 283 1 , 0 96 ,1 023 , 0 69 ,

1 ⋅

+ −

⋅

− x x .

El área en gris oscuro de la Figura 10.9 representa la banda de confianza al 95%

para toda la recta de regresión del colesterol HDL sobre el índice de masa corporal, que se obtiene de calcular estos intervalos en sucesivos valores dentro del rango observado del índice de masa corporal. Los límites de esta banda de confianza tienen forma de hipérbola y su amplitud aumenta gradualmente

conforme x0 se aleja de la media x = 26,0 kg/m² del índice de masa corporal. Así, por ejemplo, el IC al 95% para el valor medio del colesterol HDL entre los sujetos con un índice de masa corporal de 25 kg/m²,

1,69 - 0,023⋅25 ± 1,96⋅0,013 = (1,09; 1,14),

es sensiblemente más preciso que entre aquellos con un índice de masa corporal de 32 kg/m²,

La banda de confianza para la recta de regresión no es más que la representación gráfica de estos intervalos a lo largo de todo el rango observado de la variable explicativa. Esta banda de confianza está delimitada por las ramas de una hipérbola y su amplitud es mínima en x₀ =

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

1.2.1 Media aritmética

n x x

x x

x n ⁿ ⁿ

i i

+ +

= +



1 1 2 ...

1 .

La media es la medida de tendencia central más utilizada y de más fácil

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

1.2.1 Media aritmética

n x x

x x

x n ⁿ ⁿ

i i

+ +

= +



1 1 2 ...

1 .

La media es la medida de tendencia central más utilizada y de más fácil

, lo que confirma la intuición de que el valor esperado de la variable respuesta puede estimarse con mayor precisión en valores centrados que en valores extremos de la variable explicativa.

Ejemplo 10.10 Para cada valor fijo x₀ del índice de masa corporal, el modelo de regresión lineal estima un IC al 95% para el valor esperado del colesterol HDL de

2 0 2 2

/ 1 , 2 0 1

0 ( 1)

) 1 (

n n s

x x s n

t x b

b −

+ −

+ ₋ ₋_α .

La banda de confianza para la recta de regresión no es más que la representación gráfica de estos intervalos a lo largo de todo el rango observado de la variable

explicativa. Esta banda de confianza está delimitada por las ramas de una hipérbola y su amplitud es mínima en x0 = x, aumentando a medida que x0 se aleja de su media

Ejemplo 10.10 Para cada valor fijo x0 del índice de masa corporal, el modelo de regresión lineal estima un IC al 95% para el valor esperado del colesterol HDL de

2 0 2

0 532 3,50

) 0 , 26 (

533 283 1 , 0 96 ,1 023 , 0 69 ,

1 ⋅

+ −

⋅

− x x .

El área en gris oscuro de la Figura 10.9 representa la banda de confianza al 95%

1,69 - 0,023⋅25 ± 1,96⋅0,013 = (1,09; 1,14),

es sensiblemente más preciso que entre aquellos con un índice de masa corporal de 32 kg/m²,

El área en gris oscuro de la Figura 10.9 representa la banda de confianza al 95% para toda la recta de regresión del colesterol HDL sobre el índice de masa corporal, que se obtiene de calcular estos intervalos en sucesivos valores dentro del rango observado del índice de masa corporal. Los límites de esta banda de confianza tienen forma de hipérbola y su amplitud aumenta gradualmente conforme x₀ se aleja de la media

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

1.2.1 Media aritmética

n x x

x x

x n ⁿ ⁿ

i i

+ +

= +



1 1 2 ...

1 .

La media es la medida de tendencia central más utilizada y de más fácil

= 26,0 kg/m² del índice de masa corporal. Así, por ejemplo, el IC al 95% para el valor medio del colesterol HDL entre los sujetos con un índice de masa corporal de 25 kg/m²,

2 0 2 2

/ 1 , 2 0 1

0 ( 1)

) 1 (

n n s

x x s n

t x b

b −

+ −

+ ₋ ₋_α .

La banda de confianza para la recta de regresión no es más que la representación gráfica de estos intervalos a lo largo de todo el rango observado de la variable

explicativa. Esta banda de confianza está delimitada por las ramas de una hipérbola y su amplitud es mínima en x0 = x, aumentando a medida que x0 se aleja de su media

Ejemplo 10.10 Para cada valor fijo x0 del índice de masa corporal, el modelo de regresión lineal estima un IC al 95% para el valor esperado del colesterol HDL de

2 0 2

0 532 3,50

) 0 , 26 (

533 283 1 , 0 96 ,1 023 , 0 69 ,

1 ⋅

+ −

⋅

− x

x .

El área en gris oscuro de la Figura 10.9 representa la banda de confianza al 95%

1,69 0,023⋅25 ± 1,96⋅0,013 = (1,09; 1,14),

es sensiblemente más preciso que entre aquellos con un índice de masa corporal de 32 kg/m²,

−

es sensiblemente más preciso que entre aquellos con un índice de masa corporal de 32 kg/m²,

33 1,69 0,023⋅32 ± 1,96⋅0,024 = (0,90; 1,00).

[Figura 10.9 aproximadamente aquí]

La recta de regresión puede utilizarse no sólo para estimar la media poblacional de la variable respuesta entre los sujetos con un determinado valor x0 de la variable

explicativa, sino también para predecir la respuesta individual y0 de un nuevo sujeto dado su valor x0. Según la estructura del modelo de regresión lineal, el valor subyacente de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = β0 + β1x0 + ε0, cuyo estimador insesgado es de nuevo yˆ₀ = b0 + b1x0 ya que

E(y0 - yˆ₀) = β0 + β1x0 + E(ε0) - β0 - β1x0 = E(ε0) = 0.

Asimismo, como el valor estimado yˆ₀ por la recta de regresión en x0 es independiente de la nueva observación y0, se sigue que

var(y0 - yˆ₀) = var(ε0) + var(yˆ₀) = _









− + −

+ ⁰ ₂²

) 1 (

n x x

σ n ;

es decir, la predicción de una nueva observación a partir de la recta de regresión estimada está sujeta a dos fuentes de error: la varianza inherente de cada respuesta individual respecto a la recta de regresión subyacente y el error en la estimación de dicha recta. Además, si el término de error ε0 se distribuye de forma normal (asunción de normalidad), la diferencia y0 - yˆ₀ también seguirá una distribución normal, de tal forma que el intervalo de predicción al 100(1 - α)% para una nueva observación individual y0 es

2 0 2 2

/ 1 , 2 0 1

0 ( 1)

) 1 (

n n s

x x s n

t x b

b −

+ − +

+ ₋ ₋_α .

−

La recta de regresión puede utilizarse no sólo para estimar la media poblacional de la variable respuesta entre los sujetos con un determinado valor x₀ de la variable explicativa, sino también para predecir la respuesta individual y₀ de un nuevo sujeto dado su valor x₀. Según la estructura del modelo de regresión lineal, el valor subyacente de la variable respuesta para un determinado sujeto con x = x₀ viene dado por y₀ = β₀ + β₁x₀ + ε₀, cuyo estimador insesgado es de nuevo ŷ₀ = b₀ + b₁x₀ ya que

33 1,69 - 0,023⋅32 ± 1,96⋅0,024 = (0,90; 1,00).

[Figura 10.9 aproximadamente aquí]

La recta de regresión puede utilizarse no sólo para estimar la media poblacional de la variable respuesta entre los sujetos con un determinado valor x0 de la variable

E(y₀ yˆ₀) = β₀ + β₁x₀ + E(ε₀) β₀ β₁x₀ = E(ε₀) = 0.

Asimismo, como el valor estimado yˆ₀ por la recta de regresión en x0 es independiente de la nueva observación y0, se sigue que

var(y0 - yˆ₀) = var(ε0) + var(yˆ₀) = _



 





− + −

+ ⁰ ₂²

) 1 (

n x x

σ n ;

2 0 2 2

/ 1 , 2 0 1

0 ( 1)

) 1 (

n n s

x x s n

t x b

b −

+ − +

+ ₋ ₋_α .

− − −

Asimismo, como el valor estimado ŷ₀ por la recta de regresión en x₀ es independiente de la nueva observación y₀, se sigue que

33 1,69 - 0,023⋅32 ± 1,96⋅0,024 = (0,90; 1,00).

[Figura 10.9 aproximadamente aquí]

La recta de regresión puede utilizarse no sólo para estimar la media poblacional de la variable respuesta entre los sujetos con un determinado valor x0 de la variable

E(y0 - yˆ₀) = β0 + β1x0 + E(ε0) - β0 - β1x0 = E(ε0) = 0.

Asimismo, como el valor estimado yˆ₀ por la recta de regresión en x0 es independiente de la nueva observación y0, se sigue que

var(y₀ yˆ₀) = var(ε₀) + var(yˆ₀) = _



 





− + −

+ ⁰ ₂²

) 1 (

) (

1 1

n x x

σ n ;

2 0 2 2

/ 1 , 2 0 1

0 ( 1)

) 1 (

n n s

x x s n

t x b

b −

+ − +

+ ₋ ₋_α .

−

In document BIOESTADÍSTICA - GESDoc (página 185-188)