Regresión Lineal

(1)

Regresión lineal

Ejemplo de una regresión lineal con una

variable dependiente

y una

variable independiente

.

En

estadística

la regresión lineal o ajuste lineal es un

método

matemático

que

modela

la relación entre una

variable dependiente

Y, las

variables independientes

X

i

y un término

aleatorio

ε. Este modelo puede ser expresado como:

: variable dependiente, explicada o regresando.

: variables explicativas, independientes o regresores.

: parámetros, miden la influencia que las variables explicativas

tienen sobre el regresando.

donde

es la intersección o término "constante", las

son los

parámetros respectivos a cada variable independiente, y

es el número de

parámetros independientes a tener en cuenta en la regresión. La regresión lineal

puede ser contrastada con la

regresión no lineal

.

Regresión lineal múltiple

La regresión lineal permite trabajar con una variable a nivel de intervalo o razón.

De la misma manera, es posible analizar la relación entre dos o más variables a

través de ecuaciones, lo que se denomina regresión múltiple o regresión lineal

múltiple.

(2)

Constantemente en la práctica de la investigación estadística, se encuentran

variables que de alguna manera están relacionadas entre sí, por lo que es posible

que una de las variables puedan relacionarse matemáticamente en función de otra

u otras variables.

Maneja varias

variables independientes

. Cuenta con varios parámetros. Se

expresan de la forma:

donde

es el error asociado a la medición del valor

y siguen los supuestos

de modo que

(media cero,

varianza

constante e igual a un

y

con

).

Interpretación de los coeficientes

En un Modelo de Regresión Lineal Múltiple a los parámetros que acompañan a las variables explicativas también se les denomina coeficientes de regresión parcial, pues miden el efecto que ocasionan sobre la variable explicada los cambios en la variable explicativa a la que acompañan, cuando están presentes otras variables:

o bien , dado que es independiente de la observación en la que se encuentre.

En este sentido, la estimación de puede considerarse como una medida del efecto causal, una vez se han neutralizado, tanto en el regresando como en el regresor las variaciones causadas por las restantes variables explicativas del modelo y se interpretaría como el cambio en la variable explicada producido por un cambio unitario en la variable explicativa a la que acompañan, manteniendo constantes las demás variables.

Una de las hipótesis del MRLC es la ausencia de relaciones lineales entre los regresores (condición de rango o hipótesis de rango pleno), y es precisamente esta hipótesis de independencia lineal de los regresores la que hace posible aislar el efecto de cada uno de ellos. No obstante, las buenas propiedades del vector de estimadores se siguen cumpliendo siempre y cuando la dependencia lineal entre los regresores no sea exacta (multicolinealidad aproximada), sin embargo, hay que señalar que en estas situaciones la interpretación de los coeficientes debe hacerse con cautela, puesto que éstos pueden estar recogiendo el efecto no sólo de la variable a la que acompañan, sino también el efecto de las variables relacionadas con ella. En el análisis económico y/o empresarial es bastante difícil encontrar regresores completamente ortogonales, lo habitual es que exista un determinado grado de dependencia lineal entre ellos, el cual debe procurarse que no sea demasiado grande, para que su efecto no sea demasiado pernicioso.

Los coeficientes de regresión parcial dependen de las unidades de medida de las variables a las que acompañan, por lo que no son directamente comparables

Véase que en la salida del comando OLS cada coeficiente de regresión parcial estimado ( ) [ESTIMATED COEFFICIENT] viene acompañado por su error estándar ( ) [STANDARD ERROR], que indica la precisión de la estimación y por su ratio t ( ) [T-RATIO], que indica su grado de significación. Para poder enriquecer la interpretación económica y/o empresarial de los resultados de la estimación de un modelo de regresión, en la salida del comando OLS, Shazam proporciona además de los

(3)

estimadores de los coeficientes de regresión parcial, los estimadores de los coeficientes estandarizados (STANDARDIZED COEFFICIENT) y de las elasticidades en media (ELASTICITY AT MEANS). Tanto los coeficientes estandarizados como las elasticidades en media no dependen de las unidades de medida de las variables a las que acompañan, es decir, son adimensionales por lo que son directamente comparables entre si.

Los coeficientes beta se estiman a través de los coeficientes de regresión parcial ajustados por el cociente entre la desviación estándar de la variable independiente y la desviación estándar de la variable dependiente , por lo que miden la importancia relativa de las variables independientes:

Los coeficientes beta o coeficientes estandarizados permiten determinar cual es la variable explicativa que tiene mayor peso para la explicación del regresando .

La interpretación los coeficientes beta es similar a las de los coeficientes de regresión parcial teniendo en cuenta que tanto la variable explicada como las explicativas están medidas en unidades de desviación estándar: miden el cambio en la variable dependiente (en unidades de desviación estándar) producido por un cambio unitario en la variable independiente a la que acompaña (en unidades de desviación estándar) manteniendo constantes las demás variables.

La elasticidad en media mide el cambio porcentual en la variable dependiente producido por un cambio porcentual en la variable independiente a la que acompaña, manteniendo constantes las demás variables .

Las elasticidades en media se estiman a través de los coeficientes de regresión parcial ajustados por el cociente entre la media de la variable independiente y la media de la variable dependiente , por lo que miden la sensibilidad de la variable dependiente a los cambios en las variables independientes: .

Análisis de la varianza

En

estadística

, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según

terminología inglesa) es una colección de

modelos estadísticos

y sus

procedimientos asociados, en el cual la

varianza

está particionada en ciertos

componentes debidos a diferentes variables explicativas.

Las técnicas iniciales del análisis de varianza fueron desarrolladas por el

estadístico

y

genetista

R. A. Fisher

en los años 1920 y 1930 y es algunas veces

conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso

de la

distribución F

de Fisher como parte del

contraste de hipótesis

.

El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K poblaciones (K >2) son iguales, frente a la hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a su valor esperado. Este contraste es fundamental en el análisis de resultados experimentales, en los que interesa comparar los resultados de K 'tratamientos' o 'factores' con respecto a la variable dependiente o de interés.

(4)

El Anova requiere el cumplimiento los siguientes supuestos:

 Las poblaciones (distribuciones de probabilidad de la variable dependiente correspondiente a cada factor) son normales.

 Las K muestras sobre las que se aplican los tratamientos son independientes.  Las poblaciones tienen todas igual varianza (homoscedasticidad).

El ANOVA se basa en la descomposición de la variación total de los datos con respecto a la media global (SCT), que bajo el supuesto de que H0 es cierta es una estimación de obtenida a partir de toda la información muestral, en dos partes:

 Variación dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersión de los valores de cada muestra con respecto a sus correspondientes medias.

 Variación entre muestras (SCE) o Inter-grupos, cuantifica la dispersión de las medias de las muestras con respecto a la media global.

Las expresiones para el cálculo de los elementos que intervienen en el Anova son las siguientes:

Media Global: Variación Total:

Variación Intra-grupos:

Variación Inter-grupos:

Tablas ANOVA

Una vez que se han calculado las sumas de cuadrados, las medias cuadráticas,

los grados de libertad y la F, se procede a elaborar una tabla que reuna la

información, denominada "Tabla de Análisis de varianza o ANOVA", que adopta la

siguiente forma:

Fuente de

variación

Suma de

cuadrados

Grados de

libertad

Cuadrado medio

F

Intergrupo

t - 1

Intragrupo o Error

N - t

Total

N - 1

(5)

COEFICIENTES DE REGRESIÓN

Se llama coeficiente de regresión a la pendiente de la

recta de regresión:

en la regresión Y/X : b = S

xy

/ S

x2

en la regresión X/Y b' = S

xy

/ S

y2

El signo de ambos coincidirá con el de la covarianza, indicándonos la tendencia (directa o

inversa a la covariación).Es interesante hacer notar que b.b'= r

2

Coeficiente de determinación

Ajuste ordinario por mínimos cuadrados. Mientras los puntos no disten mucho de la línea de la

regresión, el coeficiente de determinación adoptará valores altos.

En

estadística

, el coeficiente de determinación, denominado R

2

y pronunciado R

cuadrado, es un

estadístico

usado en el contexto de un modelo estadístico cuyo

principal propósito es predecir futuros resultados o testear una hipótesis. El

coeficiente determina la calidad del modelo para replicar los resultados, y la

proporción de variación de los resultados que puede explicarse por el modelo.

1

Hay varias definiciones diferentes para R

2

que son algunas veces equivalentes.

Las más comunes se refieren a la

regresión lineal

. En este caso, el R

2

es

simplemente el cuadrado del

coeficiente de correlación de Pearson

, lo cual es

sólo cierto para la regresión lineal simple. Si existe varios resultados para una

única variable, es decir, para una X existe una Y, Z... el coeficiente de

determinación resulta del cuadrado del coeficiente de determinación múltiple. En

ambos casos el R

2

adquiere valores entre 0 y 1. Existen casos dentro de la

definición computacional de R

2

donde este valor puede tomar valores negativos

2

.

(6)

Un modelo estadístico se construye para explicar una variable aleatoria que

llamaremos dependiente a través de otras variables aleatorias a las que

llamaremos factores. Dado que podemos predecir una variable aleatoria mediante

su media y que, en este caso, el error cuadrático medio es su varianza, el máximo

error cuadrático medio que podemos aceptar en un modelo para una variable

aleatoria que posea los dos primeros momentos es la varianza. Para estimar el

modelo haremos varias observaciones de la variable a predecir y de los factores.

A la diferencia entre el valor observado de la variable y el valor predicho la

llamaremos residuo. La media cuadrática de los residuos es la varianza residual.

Si representamos por

la varianza de la variable dependiente y la varianza

residual por

, el coeficiente de determinación viene dado por la siguiente

ecuación:

Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el

100% de valor de la variable; si coincide con la varianza de la variable

dependiente, el modelo no explica nada y el coeficiente de determinación es del

0%. En variables económicas y financieras, suele ser difícil conseguir un

coeficiente de determinación mayor de un 30%.

Para la regresión lineal

Para la regresión basta con hacer el cuadrado del coeficiente de correlación de

Pearson.

Donde:



es la

covarianza

de



es la

desviación típica

de la variable



es la

desviación típica

de la variable

Modelo lineal

En un modelo lineal, la variable dependiente se explica mediante la ecuación

. Si observamos

veces tanto la variable aleatoria como los

factores, podemos ordenar nuestras observaciones de la variable dependiente en

una matriz

mientras que colocaremos las de los factores en la matriz de

(7)

regresión

. Cada observación corresponderá a una coordenada de y a una fila

de

. Cada columna de la matriz de regresión corresponde a las observaciones

de un factor. En cada observación el modelo cometerá un error:

Estos errores se llaman residuos. La varianza residual es la varianza de estos

residuos.

es la parte de la variación de

explicada por el modelo lineal.

es la parte de la variación de

que no explica el modelo lineal.

Sumando estas dos partes, obtenemos

.

Problema: El valor del coeficiente de determinación siempre aumenta cuando

incluimos nuevas variables en el modelo, incluso cuando éstas son poco

significativas o tienen poca correlación con la variable dependiente. Para

resolverlo tenemos el

coeficiente de determinación corregido

.

Confusión

, variable externa a la relación que se evalúa, y produce sesgos en la relación entre

variable dependiente e independiente, que se deben controlar con ajustes estadísticos (análisis

estratificado o multivariante).

Interacción y confusión en la regresión

Los modelos de regresión pueden usarse con dos objetivos:

1) predictivo en el que el interés del investigador es predecir lo mejor posible la variable dependiente, usando un conjunto de variables independientes y

2) estimativo en el que el interés se centra en estimar la relación de una o más variables independientes con la variable dependiente. En el ejemplo desarrollado en los apartados anteriores, el interés podría ser encontrar el modelo que mejor prediga el

(8)

nivel de colesterol en sangre, en función de las otras variables (objetivo 1) o simplemente cuantificar la relación entre el consumo de grasas y dicho nivel de colesterol (objetivo 2).

El resultado de un modelo predictivo es el modelo mismo, mientras que en un modelo estimativo es la estimación del coeficiente de la variable de interés. El segundo objetivo es el más frecuente en estudios etiológicos en los que se trata de encontrar factores determinantes de una enfermedad o un proceso.

La interacción y la confusión son dos conceptos importantes cuando se usan los modelos de regresión con el segundo objetivo, que tienen que ver con la interferencia que una o varias variables pueden realizar en la asociación entre otras.

Existe confusión cuando la asociación entre dos variables difiere significativamente según que se considere, o no, otra variable, a esta última variable se le denomina

variable de confusión para la asociación.

Existe interacción cuando la asociación entre dos variables varía según los diferentes niveles de otra u otras variables. Aunque en una primera lectura pueden parecer similares, conviene distinguir claramente entre ambos fenómenos. En el ejemplo 5 la edad no presenta una correlación significativa con el nivel de colesterol si no se considera el consumo de grasas, mientras que si se considera dicho consumo, sí lo presenta, en este caso el consumo de grasas es una variable de confusión para la asociación entre colesterol y edad. Para que exista confusión no es necesario que exista un cambio tan drástico (la correlación es significativa en un caso y no lo es en el otro), también puede ocurrir que, aún siendo significativa en ambos casos, cambie el coeficiente de regresión. Evidentemente la mejor estimación del coeficiente es la que se obtiene del modelo en que figura la variable de confusión, en el ejemplo, la mejor estimación del coeficiente correspondiente a la edad es la del modelo con edad y consumo de grasas.

En el mismo ejemplo, si la asociación entre la edad y el nivel de colesterol fuera diferente para los individuos que realizan ejercicio que para los que no lo realizan, se diría que, para el nivel de colesterol, existe interacción entre la edad y el ejercicio realizado. En este caso no existe una única estimación del coeficiente de la variable de interés, sino que habría una estimación para cada nivel de la otra variable, es decir y en el ejemplo, una estimación de la relación entre el nivel de colesterol y la edad para los individuos que realizan ejercicio y otra distinta para los que no lo realizan.

Veamos estos conceptos sobre los modelos. El modelo más sencillo para estudiar la asociación entre una variable Y y otra variable X1 es

Y = 0 + 1 X1

donde 1 cuantifica la asociación: es el cambio en Y por unidad de cambio en X1. Se dice que X2 es una variable de confusión para esta asociación, si el modelo

(9)

produce una estimación para 1 diferente del modelo anterior. Evidentemente esta

definición se puede ampliar a un conjunto de variables, se dice que las variables X2, ...,

Xk son variables de confusión si la estimación de 1 obtenida por el modelo Y = 0 + 1 X1 + 2 X2 + ... + k Xk

es diferente de la obtenida en el modelo simple. En ambos casos se dice que la estimación de 1 obtenida en los modelos múltiples está controlada o ajustada por X2 o por X2 ,..., Xk

Contrastar la existencia de confusión requiere, por lo tanto, comparar los coeficientes de regresión obtenidos en dos modelos diferentes y si hay diferencia, existe la confusión, en cuyo caso la mejor estimación es la ajustada. Para dicha comparación no se precisa realizar un contraste de hipótesis estadístico ya que aunque la diferencia encontrada sea debida al azar, representa una distorsión que la estimación ajustada corrige. Será el investigador quién establezca el criterio para decidir cuando hay diferencia. Nótese que se está hablando de diferencia en la estimación, que puede afectar tanto al propio coeficiente como a su error estándar (lo habitual es considerar que existe confusión cuando el coeficiente o su error estándar cambian en más del 10%).

El modelo más sencillo que hace explícita la interacción entre dos variables X1 y X2 es

Y = 0 + 1 X1 + 2 X2 + 3 X1 X2

En este modelo, el valor de Y para unos valores determinados x1, x2 de X1, X2 es

Y = 0 + 1 x1+ 2 x2+ 3 x1x2

y para los valores x1 + 1 y x2

Y = 0 + 1(x1+ 1) + 2 x2+ 3 (x1+ 1) x2 = 0 + 1 x1+ 1 + 2 x2 + 3 x1x2 + 3 x2

restando ambas se encuentra el cambio en Y por una unidad de cambio en X1 manteniendo fijo X2

1 + 3 x2

que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en Y por una

unidad de cambio en X2 manteniendo fijo X1 es

2

+

3x1

Por lo tanto, contrastar la existencia de interacción entre X1 y X2 es contrastar si el coeficiente 3 es cero (no hay interacción), o distinto de cero (existe interacción).

En caso de que exista interacción los coeficientes 1 y2 por sí solos no significan nada y la asociación de las variables X1 y X2 con Y estará cuantificada por las expresiones anteriores.

(10)

Es obvio que primero debe contrastarse la interacción y después, en caso de que no exista, la confusión.