Regresión lineal
Ejemplo de una regresión lineal con una
variable dependiente
y una
variable independiente
.
En
estadística
la regresión lineal o ajuste lineal es un
método
matemático
que
modela
la relación entre una
variable dependiente
Y, las
variables independientes
X
iy un término
aleatorio
ε. Este modelo puede ser expresado como:
: variable dependiente, explicada o regresando.
: variables explicativas, independientes o regresores.
: parámetros, miden la influencia que las variables explicativas
tienen sobre el regresando.
donde
es la intersección o término "constante", las
son los
parámetros respectivos a cada variable independiente, y
es el número de
parámetros independientes a tener en cuenta en la regresión. La regresión lineal
puede ser contrastada con la
regresión no lineal
.
Regresión lineal múltiple
La regresión lineal permite trabajar con una variable a nivel de intervalo o razón.
De la misma manera, es posible analizar la relación entre dos o más variables a
través de ecuaciones, lo que se denomina regresión múltiple o regresión lineal
múltiple.
Constantemente en la práctica de la investigación estadística, se encuentran
variables que de alguna manera están relacionadas entre sí, por lo que es posible
que una de las variables puedan relacionarse matemáticamente en función de otra
u otras variables.
Maneja varias
variables independientes
. Cuenta con varios parámetros. Se
expresan de la forma:
donde
es el error asociado a la medición del valor
y siguen los supuestos
de modo que
(media cero,
varianza
constante e igual a un
y
con
).
Interpretación de los coeficientes
En un Modelo de Regresión Lineal Múltiple a los parámetros que acompañan a las variables explicativas también se les denomina coeficientes de regresión parcial, pues miden el efecto que ocasionan sobre la variable explicada los cambios en la variable explicativa a la que acompañan, cuando están presentes otras variables:
o bien , dado que es independiente de la observación en la que se encuentre.
En este sentido, la estimación de puede considerarse como una medida del efecto causal, una vez se han neutralizado, tanto en el regresando como en el regresor las variaciones causadas por las restantes variables explicativas del modelo y se interpretaría como el cambio en la variable explicada producido por un cambio unitario en la variable explicativa a la que acompañan, manteniendo constantes las demás variables.
Una de las hipótesis del MRLC es la ausencia de relaciones lineales entre los regresores (condición de rango o hipótesis de rango pleno), y es precisamente esta hipótesis de independencia lineal de los regresores la que hace posible aislar el efecto de cada uno de ellos. No obstante, las buenas propiedades del vector de estimadores se siguen cumpliendo siempre y cuando la dependencia lineal entre los regresores no sea exacta (multicolinealidad aproximada), sin embargo, hay que señalar que en estas situaciones la interpretación de los coeficientes debe hacerse con cautela, puesto que éstos pueden estar recogiendo el efecto no sólo de la variable a la que acompañan, sino también el efecto de las variables relacionadas con ella. En el análisis económico y/o empresarial es bastante difícil encontrar regresores completamente ortogonales, lo habitual es que exista un determinado grado de dependencia lineal entre ellos, el cual debe procurarse que no sea demasiado grande, para que su efecto no sea demasiado pernicioso.
Los coeficientes de regresión parcial dependen de las unidades de medida de las variables a las que acompañan, por lo que no son directamente comparables
Véase que en la salida del comando OLS cada coeficiente de regresión parcial estimado ( ) [ESTIMATED COEFFICIENT] viene acompañado por su error estándar ( ) [STANDARD ERROR], que indica la precisión de la estimación y por su ratio t ( ) [T-RATIO], que indica su grado de significación. Para poder enriquecer la interpretación económica y/o empresarial de los resultados de la estimación de un modelo de regresión, en la salida del comando OLS, Shazam proporciona además de los
estimadores de los coeficientes de regresión parcial, los estimadores de los coeficientes estandarizados (STANDARDIZED COEFFICIENT) y de las elasticidades en media (ELASTICITY AT MEANS). Tanto los coeficientes estandarizados como las elasticidades en media no dependen de las unidades de medida de las variables a las que acompañan, es decir, son adimensionales por lo que son directamente comparables entre si.
Los coeficientes beta se estiman a través de los coeficientes de regresión parcial ajustados por el cociente entre la desviación estándar de la variable independiente y la desviación estándar de la variable dependiente , por lo que miden la importancia relativa de las variables independientes:
Los coeficientes beta o coeficientes estandarizados permiten determinar cual es la variable explicativa que tiene mayor peso para la explicación del regresando .
La interpretación los coeficientes beta es similar a las de los coeficientes de regresión parcial teniendo en cuenta que tanto la variable explicada como las explicativas están medidas en unidades de desviación estándar: miden el cambio en la variable dependiente (en unidades de desviación estándar) producido por un cambio unitario en la variable independiente a la que acompaña (en unidades de desviación estándar) manteniendo constantes las demás variables.
La elasticidad en media mide el cambio porcentual en la variable dependiente producido por un cambio porcentual en la variable independiente a la que acompaña, manteniendo constantes las demás variables .
Las elasticidades en media se estiman a través de los coeficientes de regresión parcial ajustados por el cociente entre la media de la variable independiente y la media de la variable dependiente , por lo que miden la sensibilidad de la variable dependiente a los cambios en las variables independientes: .
Análisis de la varianza
En
estadística
, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según
terminología inglesa) es una colección de
modelos estadísticos
y sus
procedimientos asociados, en el cual la
varianza
está particionada en ciertos
componentes debidos a diferentes variables explicativas.
Las técnicas iniciales del análisis de varianza fueron desarrolladas por el
estadístico
y
genetista
R. A. Fisher
en los años 1920 y 1930 y es algunas veces
conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso
de la
distribución F
de Fisher como parte del
contraste de hipótesis
.
El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K poblaciones (K >2) son iguales, frente a la hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a su valor esperado. Este contraste es fundamental en el análisis de resultados experimentales, en los que interesa comparar los resultados de K 'tratamientos' o 'factores' con respecto a la variable dependiente o de interés.
El Anova requiere el cumplimiento los siguientes supuestos:
Las poblaciones (distribuciones de probabilidad de la variable dependiente correspondiente a cada factor) son normales.
Las K muestras sobre las que se aplican los tratamientos son independientes. Las poblaciones tienen todas igual varianza (homoscedasticidad).
El ANOVA se basa en la descomposición de la variación total de los datos con respecto a la media global (SCT), que bajo el supuesto de que H0 es cierta es una estimación de obtenida a partir de toda la información muestral, en dos partes:
Variación dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersión de los valores de cada muestra con respecto a sus correspondientes medias.
Variación entre muestras (SCE) o Inter-grupos, cuantifica la dispersión de las medias de las muestras con respecto a la media global.
Las expresiones para el cálculo de los elementos que intervienen en el Anova son las siguientes:
Media Global: Variación Total:
Variación Intra-grupos:
Variación Inter-grupos:
Tablas ANOVA
Una vez que se han calculado las sumas de cuadrados, las medias cuadráticas,
los grados de libertad y la F, se procede a elaborar una tabla que reuna la
información, denominada "Tabla de Análisis de varianza o ANOVA", que adopta la
siguiente forma:
Fuente de
variación
Suma de
cuadrados
Grados de
libertad
Cuadrado medio
F
Intergrupo
t - 1
Intragrupo o Error
N - t
Total
N - 1
COEFICIENTES DE REGRESIÓN
Se llama coeficiente de regresión a la pendiente de la
recta de regresión:
en la regresión Y/X : b = S
xy/ S
x2en la regresión X/Y b' = S
xy/ S
y2El signo de ambos coincidirá con el de la covarianza, indicándonos la tendencia (directa o
inversa a la covariación).Es interesante hacer notar que b.b'= r
2Coeficiente de determinación
Ajuste ordinario por mínimos cuadrados. Mientras los puntos no disten mucho de la línea de la
regresión, el coeficiente de determinación adoptará valores altos.
En
estadística
, el coeficiente de determinación, denominado R
2y pronunciado R
cuadrado, es un
estadístico
usado en el contexto de un modelo estadístico cuyo
principal propósito es predecir futuros resultados o testear una hipótesis. El
coeficiente determina la calidad del modelo para replicar los resultados, y la
proporción de variación de los resultados que puede explicarse por el modelo.
1Hay varias definiciones diferentes para R
2que son algunas veces equivalentes.
Las más comunes se refieren a la
regresión lineal
. En este caso, el R
2es
simplemente el cuadrado del
coeficiente de correlación de Pearson
, lo cual es
sólo cierto para la regresión lineal simple. Si existe varios resultados para una
única variable, es decir, para una X existe una Y, Z... el coeficiente de
determinación resulta del cuadrado del coeficiente de determinación múltiple. En
ambos casos el R
2adquiere valores entre 0 y 1. Existen casos dentro de la
definición computacional de R
2donde este valor puede tomar valores negativos
2.
Un modelo estadístico se construye para explicar una variable aleatoria que
llamaremos dependiente a través de otras variables aleatorias a las que
llamaremos factores. Dado que podemos predecir una variable aleatoria mediante
su media y que, en este caso, el error cuadrático medio es su varianza, el máximo
error cuadrático medio que podemos aceptar en un modelo para una variable
aleatoria que posea los dos primeros momentos es la varianza. Para estimar el
modelo haremos varias observaciones de la variable a predecir y de los factores.
A la diferencia entre el valor observado de la variable y el valor predicho la
llamaremos residuo. La media cuadrática de los residuos es la varianza residual.
Si representamos por
la varianza de la variable dependiente y la varianza
residual por
, el coeficiente de determinación viene dado por la siguiente
ecuación:
Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el
100% de valor de la variable; si coincide con la varianza de la variable
dependiente, el modelo no explica nada y el coeficiente de determinación es del
0%. En variables económicas y financieras, suele ser difícil conseguir un
coeficiente de determinación mayor de un 30%.
Para la regresión lineal
Para la regresión basta con hacer el cuadrado del coeficiente de correlación de
Pearson.
Donde:
es la
covarianza
de
es la
desviación típica
de la variable
es la
desviación típica
de la variable
Modelo lineal
En un modelo lineal, la variable dependiente se explica mediante la ecuación
. Si observamos
veces tanto la variable aleatoria como los
factores, podemos ordenar nuestras observaciones de la variable dependiente en
una matriz
mientras que colocaremos las de los factores en la matriz de
regresión
. Cada observación corresponderá a una coordenada de y a una fila
de
. Cada columna de la matriz de regresión corresponde a las observaciones
de un factor. En cada observación el modelo cometerá un error:
Estos errores se llaman residuos. La varianza residual es la varianza de estos
residuos.
es la parte de la variación de
explicada por el modelo lineal.
es la parte de la variación de
que no explica el modelo lineal.
Sumando estas dos partes, obtenemos
.
Problema: El valor del coeficiente de determinación siempre aumenta cuando
incluimos nuevas variables en el modelo, incluso cuando éstas son poco
significativas o tienen poca correlación con la variable dependiente. Para
resolverlo tenemos el
coeficiente de determinación corregido
.
Confusión
, variable externa a la relación que se evalúa, y produce sesgos en la relación entre
variable dependiente e independiente, que se deben controlar con ajustes estadísticos (análisis
estratificado o multivariante).
Interacción y confusión en la regresión
Los modelos de regresión pueden usarse con dos objetivos:1) predictivo en el que el interés del investigador es predecir lo mejor posible la variable dependiente, usando un conjunto de variables independientes y
2) estimativo en el que el interés se centra en estimar la relación de una o más variables independientes con la variable dependiente. En el ejemplo desarrollado en los apartados anteriores, el interés podría ser encontrar el modelo que mejor prediga el
nivel de colesterol en sangre, en función de las otras variables (objetivo 1) o simplemente cuantificar la relación entre el consumo de grasas y dicho nivel de colesterol (objetivo 2).
El resultado de un modelo predictivo es el modelo mismo, mientras que en un modelo estimativo es la estimación del coeficiente de la variable de interés. El segundo objetivo es el más frecuente en estudios etiológicos en los que se trata de encontrar factores determinantes de una enfermedad o un proceso.
La interacción y la confusión son dos conceptos importantes cuando se usan los modelos de regresión con el segundo objetivo, que tienen que ver con la interferencia que una o varias variables pueden realizar en la asociación entre otras.
Existe confusión cuando la asociación entre dos variables difiere significativamente según que se considere, o no, otra variable, a esta última variable se le denomina
variable de confusión para la asociación.
Existe interacción cuando la asociación entre dos variables varía según los diferentes niveles de otra u otras variables. Aunque en una primera lectura pueden parecer similares, conviene distinguir claramente entre ambos fenómenos. En el ejemplo 5 la edad no presenta una correlación significativa con el nivel de colesterol si no se considera el consumo de grasas, mientras que si se considera dicho consumo, sí lo presenta, en este caso el consumo de grasas es una variable de confusión para la asociación entre colesterol y edad. Para que exista confusión no es necesario que exista un cambio tan drástico (la correlación es significativa en un caso y no lo es en el otro), también puede ocurrir que, aún siendo significativa en ambos casos, cambie el coeficiente de regresión. Evidentemente la mejor estimación del coeficiente es la que se obtiene del modelo en que figura la variable de confusión, en el ejemplo, la mejor estimación del coeficiente correspondiente a la edad es la del modelo con edad y consumo de grasas.
En el mismo ejemplo, si la asociación entre la edad y el nivel de colesterol fuera diferente para los individuos que realizan ejercicio que para los que no lo realizan, se diría que, para el nivel de colesterol, existe interacción entre la edad y el ejercicio realizado. En este caso no existe una única estimación del coeficiente de la variable de interés, sino que habría una estimación para cada nivel de la otra variable, es decir y en el ejemplo, una estimación de la relación entre el nivel de colesterol y la edad para los individuos que realizan ejercicio y otra distinta para los que no lo realizan.
Veamos estos conceptos sobre los modelos. El modelo más sencillo para estudiar la asociación entre una variable Y y otra variable X1 es
Y = 0 + 1 X1
donde 1 cuantifica la asociación: es el cambio en Y por unidad de cambio en X1. Se dice que X2 es una variable de confusión para esta asociación, si el modelo
produce una estimación para 1 diferente del modelo anterior. Evidentemente esta
definición se puede ampliar a un conjunto de variables, se dice que las variables X2, ...,
Xk son variables de confusión si la estimación de 1 obtenida por el modelo Y = 0 + 1 X1 + 2 X2 + ... + k Xk
es diferente de la obtenida en el modelo simple. En ambos casos se dice que la estimación de 1 obtenida en los modelos múltiples está controlada o ajustada por X2 o por X2 ,..., Xk
Contrastar la existencia de confusión requiere, por lo tanto, comparar los coeficientes de regresión obtenidos en dos modelos diferentes y si hay diferencia, existe la confusión, en cuyo caso la mejor estimación es la ajustada. Para dicha comparación no se precisa realizar un contraste de hipótesis estadístico ya que aunque la diferencia encontrada sea debida al azar, representa una distorsión que la estimación ajustada corrige. Será el investigador quién establezca el criterio para decidir cuando hay diferencia. Nótese que se está hablando de diferencia en la estimación, que puede afectar tanto al propio coeficiente como a su error estándar (lo habitual es considerar que existe confusión cuando el coeficiente o su error estándar cambian en más del 10%).
El modelo más sencillo que hace explícita la interacción entre dos variables X1 y X2 es
Y = 0 + 1 X1 + 2 X2 + 3 X1 X2
En este modelo, el valor de Y para unos valores determinados x1, x2 de X1, X2 es
Y = 0 + 1 x1+ 2 x2+ 3 x1x2
y para los valores x1 + 1 y x2
Y = 0 + 1(x1+ 1) + 2 x2+ 3 (x1+ 1) x2 = 0 + 1 x1+ 1 + 2 x2 + 3 x1x2 + 3 x2
restando ambas se encuentra el cambio en Y por una unidad de cambio en X1 manteniendo fijo X2
1 + 3 x2
que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en Y por una
unidad de cambio en X2 manteniendo fijo X1 es
2
+
3x1Por lo tanto, contrastar la existencia de interacción entre X1 y X2 es contrastar si el coeficiente 3 es cero (no hay interacción), o distinto de cero (existe interacción).
En caso de que exista interacción los coeficientes 1 y2 por sí solos no significan nada y la asociación de las variables X1 y X2 con Y estará cuantificada por las expresiones anteriores.
Es obvio que primero debe contrastarse la interacción y después, en caso de que no exista, la confusión.