Evaluación de las asunciones del modelo de regresión lineal simple

REGRESIÓN LINEAL SIMPLE

10.3 REGRESIÓN LINEAL SIMPLE

10.3.5 Evaluación de las asunciones del modelo de regresión lineal simple

Los procedimientos de estimación e inferencia derivados en los apartados anteriores se basan en las asunciones de linealidad, homogeneidad de la varianza y normalidad. La violación de estas asunciones puede dar lugar a conclusiones erróneas del modelo lineal, siendo así necesario evaluar su idoneidad en cada aplicación práctica. Aunque existen diversos tests para contrastar estadísticamente cada una de las hipótesis del modelo lineal (véase referencias al final del tema), en este apartado se presentan algunas técnicas diagnósticas basadas en el análisis gráfico de los residuos, proponiéndose asimismo extensiones básicas del modelo y transformaciones de los datos para acomodar posibles desviaciones de estas asunciones. En particular, se presta especial atención a las hipótesis de linealidad y homogeneidad de la varianza, ya que las principales inferencias relativas a la pendiente de la recta de regresión y al valor esperado de la variable respuesta son aproximadamente válidas en muestras

moderadamente grandes aunque la distribución subyacente de la variable respuesta no sea normal.

−

que es mucho más impreciso que el intervalo de confianza calculado en el ejemplo anterior para el valor medio del colesterol HDL en todos los sujetos con dicho valor del índice de masa corporal (IC al 95% 1,09-1,14 mmol/l).

10.3.5 Evaluación de las asunciones del modelo de regresión lineal simple

El gráfico más simple para evaluar el grado de cumplimiento de las asunciones de la regresión lineal simple es el diagrama de dispersión entre las variables explicativa y respuesta, junto con la recta de regresión estimada. Si se cumplen las hipótesis de linealidad y homogeneidad de la varianza, los puntos del diagrama de dispersión han de distribuirse aleatoriamente alrededor de la recta de regresión sin evidencia de relaciones curvilíneas y con similar dispersión a lo largo de toda la recta. Tal parece ser el caso del diagrama de dispersión entre el índice de masa corporal y el colesterol HDL de la Figura 10.7, donde no se aprecian desviaciones obvias de estas asunciones. En la Figura 10.2(d), sin embargo, se muestra un claro ejemplo de violación de la asunción de linealidad, ya que la relación subyacente es visiblemente cuadrática. No obstante, el gráfico más utilizado para chequear las asunciones de la regresión lineal es el diagrama de dispersión de los residuos e_i = y_i – ŷ_i frente a los valores predichos ŷ_i = b₀ + b₁x_i por la recta de regresión. Este gráfico es equivalente al diagrama de dispersión entre x_i e y_i en regresión lineal simple, pero tiene la ventaja de ser directamente generalizable a la presencia de más de una variable explicativa en regresión lineal múltiple.

Antes de proceder al análisis gráfico de los residuos, es importante describir algunas de sus propiedades. Bajo las hipótesis de linealidad y homogeneidad de la varianza, los residuos e_i = y_i – ŷ_i tienen un valor esperado

36 curvilíneas y con similar dispersión a lo largo de toda la recta. Tal parece ser el caso del diagrama de dispersión entre el índice de masa corporal y el colesterol HDL de la Figura 10.7, donde no se aprecian desviaciones obvias de estas asunciones. En la Figura 10.2(d), sin embargo, se muestra un claro ejemplo de violación de la asunción de linealidad, ya que la relación subyacente es visiblemente cuadrática. No obstante, el gráfico más utilizado para chequear las asunciones de la regresión lineal es el diagrama de dispersión de los residuos ei = yi - yˆ frente a los valores predichos _i yˆ = b_i 0 + b1xi por la recta de regresión. Este gráfico es equivalente al diagrama de dispersión entre xi e yi

en regresión lineal simple, pero tiene la ventaja de ser directamente generalizable a la presencia de más de una variable explicativa en regresión lineal múltiple.

E(ei) = E(yi) E(yˆ ) = 0 _i y una varianza

var(ei) = var(yi) + var(yˆ ) - 2cov(y_i i, yˆ ) = _i 

 





−

− −

− ₂²

) 1 (

x i

s n

x x

σ n .

Así, aun cuando se cumpla la asunción de homogeneidad de la varianza, los residuos ei

tendrán diferente varianza alrededor de los distintos puntos de la recta de regresión estimada. Más concretamente, los residuos tenderán a ser mayores en valores centrados que en valores extremos de la variable explicativa. Esto es debido a que los puntos (xi, yi) con xi muy distante de x tienen mucha influencia en la estimación de la pendiente, de tal forma que la recta de regresión resultante tenderá a aproximarse a estos puntos que presentarán entonces pequeños residuos ei. Por ello, y con objeto de que los

−

179 Regresión lineal simple

Pastor-Barriuso R.

y una varianza

linealidad, ya que la relación subyacente es visiblemente cuadrática. No obstante, el gráfico más utilizado para chequear las asunciones de la regresión lineal es el diagrama de dispersión de los residuos ei = yi - yˆ frente a los valores predichos _i yˆ = b_i 0 + b1xi por la recta de regresión. Este gráfico es equivalente al diagrama de dispersión entre xi e yi

en regresión lineal simple, pero tiene la ventaja de ser directamente generalizable a la presencia de más de una variable explicativa en regresión lineal múltiple.

E(ei) = E(yi) - E(yˆ ) = 0 _i y una varianza

var(e_i) = var(y_i) + var(yˆ ) 2cov(y_i _i, yˆ ) = _i _



 





−

− −

− ₂²

) 1 (

x i

s n

x x

σ n .

Así, aun cuando se cumpla la asunción de homogeneidad de la varianza, los residuos ei

−

Así, aun cuando se cumpla la asunción de homogeneidad de la varianza, los residuos e_i tendrán diferente varianza alrededor de los distintos puntos de la recta de regresión estimada.

Más concretamente, los residuos tenderán a ser mayores en valores centrados que en valores extremos de la variable explicativa. Esto es debido a que los puntos (x_i, y_i) con x_i muy distante de

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n ⁿ ⁿ

i i

+ +

= +



1 1 2 ...

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

tienen mucha influencia en la estimación de la pendiente, de tal forma que la recta de regresión resultante tenderá a aproximarse a estos puntos que presentarán entonces pequeños residuos e_i. Por ello, y con objeto de que los residuos sean comparables a distintos niveles de la variable explicativa, es preferible realizar el diagnóstico del modelo mediante los residuos estandarizados

residuos sean comparables a distintos niveles de la variable explicativa, es preferible realizar el diagnóstico del modelo mediante los residuos estandarizados

ri =

i i

x i i

h s

s n

x x s n

= −

−

− −

− 1

) 1 (

) (

1 1 ₂²

que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El término hi se conoce como el leverage de una observación y es una medida

estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y no hay valores muy extremos de la variable explicativa (observaciones con alto leverage), ambos residuos ei y ri se comportan de forma análoga.

En determinados casos el gráfico de los residuos estandarizados ri frente a los valores predichos yˆ no permite apreciar claramente las posibles desviaciones de las asunciones _i de linealidad y homogeneidad de la varianza. Para obtener una representación más clara en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk

ordenados por valores crecientes de yˆ (por ejemplo, deciles) y calcular la media _i



= ⁿ^k

i i

k r

r n

y la varianza



= ⁿ^k

i i

k r

s n

1 2

2 1

de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los residuos medios rk frente a los valores predichos medios yˆk en los distintos grupos indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el que se obtienen de dividir los residuos e_i por una estimación de su desviación típica. El término h_i se conoce como el leverage de una observación y es una medida estandarizada de la distancia entre cada valor x_i de la variable explicativa y su media

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

1.2.1 Media aritmética

n x x

x x

x n ⁿ ⁿ

i i

+ +

= +



1 ₁ ₂ ...

1 .

La media es la medida de tendencia central más utilizada y de más fácil

que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y no hay valores muy extremos de la variable explicativa (observaciones con alto leverage), ambos residuos e_i y r_i se comportan de forma análoga.

En determinados casos el gráfico de los residuos estandarizados r_i frente a los valores predichos ŷ_i no permite apreciar claramente las posibles desviaciones de las asunciones de linealidad y homogeneidad de la varianza. Para obtener una representación más clara en tales circunstancias, es aconsejable dividir los n residuos r_i en K grupos de tamaño n_k ordenados por valores crecientes de ŷ_i (por ejemplo, deciles) y calcular la media

37 residuos sean comparables a distintos niveles de la variable explicativa, es preferible realizar el diagnóstico del modelo mediante los residuos estandarizados

ri =

i i

x i i

h s

s n

x x s n

= −

−

− −

− 1

) 1 (

) (

1 1 ₂²

que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El término hi se conoce como el leverage de una observación y es una medida

ordenados por valores crecientes de yˆ (por ejemplo, deciles) y calcular la media _i



= ⁿ^k

i i

k r

r n

y la varianza



= ⁿ^k

i i

k r

s n

1 2

2 1

37 residuos sean comparables a distintos niveles de la variable explicativa, es preferible realizar el diagnóstico del modelo mediante los residuos estandarizados

ri =

i i

x i i

h s

s n

x x s n

= −

−

− −

− 1

) 1 (

1 ₂²

que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El término hi se conoce como el leverage de una observación y es una medida

ordenados por valores crecientes de yˆ (por ejemplo, deciles) y calcular la media _i



= ⁿ^k

i i

k r

r n

y la varianza



= ⁿ^k

i i

k r

s n

1 2

2 1

de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los residuos medios r_k frente a los valores predichos medios yˆ_k en los distintos grupos indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los residuos medios

37 residuos sean comparables a distintos niveles de la variable explicativa, es preferible realizar el diagnóstico del modelo mediante los residuos estandarizados

ri =

i i

x i i

h s

s n

x x s n

= −

−

− −

− 1

) 1 (

1 ₂²

que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El término hi se conoce como el leverage de una observación y es una medida

ordenados por valores crecientes de yˆ (por ejemplo, deciles) y calcular la media _i



= ⁿ^k

i i

k r

r n

y la varianza



= ⁿ^k

i i

k r

s n

1 2

2 1

frente a los valores predichos medios

37 residuos sean comparables a distintos niveles de la variable explicativa, es preferible realizar el diagnóstico del modelo mediante los residuos estandarizados

ri =

i i

x i i

h s

s n

x x s n

= −

−

− −

− 1

) 1 (

1 ₂²

que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El término hi se conoce como el leverage de una observación y es una medida

ordenados por valores crecientes de yˆ (por ejemplo, deciles) y calcular la media _i



= ⁿ^k

i i

k r

r n

y la varianza



= ⁿ^k

i i

k r

s n

1 2

2 1

en los distintos grupos indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el gráfico de las desviaciones típicas residuales s_k frente a los valores predichos medios

37 residuos sean comparables a distintos niveles de la variable explicativa, es preferible realizar el diagnóstico del modelo mediante los residuos estandarizados

ri =

i i

x i i

h s

s n

x x s n

= −

−

− −

− 1

) 1 (

1 ₂²

que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El término hi se conoce como el leverage de una observación y es una medida

En determinados casos el gráfico de los residuos estandarizados ri frente a los valores predichos yˆ no permite apreciar claramente las posibles desviaciones de las asunciones i

de linealidad y homogeneidad de la varianza. Para obtener una representación más clara en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk

ordenados por valores crecientes de yˆ (por ejemplo, deciles) y calcular la media _i



= ⁿ^k

i i

k r

r n

y la varianza



= ⁿ^k

i i

k r

s n

1 2

2 1

de cada grupo aportará evidencia de heterogeneidad en la varianza.

Ejemplo 10.12 En la Figura 10.10(a) se representa el gráfico de los residuos estandarizados r_i frente a los valores predichos ŷ_i de la regresión lineal del colesterol HDL sobre el índice de masa corporal. Este gráfico, al igual que el diagrama de dispersión entre el índice de masa corporal y el colesterol HDL de la Figura 10.7, parece compatible con las asunciones de linealidad y homogeneidad de la varianza. Para realizar una evaluación más detallada, en la Tabla 10.4 se presentan las medias

37 residuos sean comparables a distintos niveles de la variable explicativa, es preferible realizar el diagnóstico del modelo mediante los residuos estandarizados

ri =

i i

x i i

h s

s n

x x s n

= −

−

− −

− 1

) 1 (

) (

1 1 ₂²

que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El término hi se conoce como el leverage de una observación y es una medida

ordenados por valores crecientes de yˆ (por ejemplo, deciles) y calcular la media _i



= ⁿ^k

i i

k r

r n

y la varianza



= ⁿ^k

i i

k r

s n

1 2

2 1

y desviaciones típicas s_k de los

In document BIOESTADÍSTICA - GESDoc (página 188-193)