Práctica7: Regresión Lineal Múltiple (4)
.Para acabar con el problema de regresión analizaremos mediante una serie de ejemplos la trascendencia uencia que pueden tener en dicho análisis la presencia de valores influyentes por una parte y de varibables explicativas fuertemente correlacionadas (multicolinealidad) por otra.
.
7.1
Empezaremos pues con el problema de los valores influyentes. Para ello consideramos elarchivo Influencia.sav, en el cual encontramos un modelo de regresión simulado con 40 datos y dos variables explicativas. Se ejecuta la regresión y se guardan los valores ajustados. A los 50 datos se les añaden otros dos, uno de ellos muy próximo al centroide de los vectores
explicativos y otro extremo. Para el primero se determina un valor razonable para la variable respuesta, según la ecuación que rige el modelo, mientras que para el segundo queda sin
determinar. Si ejecutamos de nuevo la regresión y comparamos los nuevos valores ajustados con los anteriores no apreciaremos diferencias, de ahí que la distancia de Cook para el dato 41 sea muy baja. Si embargo, si asignamos al dato extremo un valor anómalo respecto a la ecuación del modelo y ejecutamos la regresión observaremos importantes diferencias entre los nuevos valores ajustados y los anteriores, lo cual se traduce en una elevada distancia de Cook para el dato 42, que quedaría pues diagnosticado como influyente. La presencia de este dato tiene una enorme trascendencia en el análisis de los residuos, según se aprecia en los gráficos siguientes. . Standardized Residual 1,50 1,00 ,50 0,00 -,50 -1,00 -1,50 -2,00 -2,50 -3,00 -3,50 -4,00 -4,50 -5,00 -5,50 20 10 0 .
Unstandardized Predicted Value
15 14 13 12 11 10 Standardized Residual 2 1 0 -1 -2 -3 -4 -5 -6 42 .
La eliminación del dato número 42 anula en este caso las patologías observadas en el análisis de los residuos e incrementa notablemente el coeficiente de correlación múltiple, lo cual se traduce en una clara mejoría en el análisis de los datos.
.
Hemos visto pues como la introducción de un datos que rompe la tendencia lineal puede tener una enorme influencia en el análisis de los residuos, lo cual podría hacernos pensar en una violación de los supuestos del modeo. En otras ocasiones sucede justo lo contrario: una grave violación de dichos supuestos da lugar a la presencia de valores muy mal ajustados y, por lo tanto, influyentes. Eso es, precisamente, lo que sucedía en el archivo Análisis residuos.sav
de la práctica 5 al considerar la variable respueta y[5], que se relaciona con las variables explicativas según un modelo multiplicativo. Aparecen aquí datos que presentan distancias de Cook elevadas, como se aprecian en el gráfico.
. 96 91 86 81 76 71 66 61 56 51 46 41 36 31 26 21 16 11 6 1
Valor Cook's Distance
,5 ,4 ,3 ,2 ,1 0,0 .
La eliminación de estos datos diagnosticados como influyente no proporcionaran en ningún caso unos gráficos de residuos deseables. Sin embargo, tras la transformación de variables
considerada en la práctica 6 para este caso, dichos datos dejan de ser influyentes.
.
Consideremos un caso real: el archivo Linthurst Data.sav. En este caso, diagnosticamos como influyentes cuatro datos, pues superan la cota 4/45, aunque no parece que su influencia sea muy acusada. . 43 40 37 34 31 28 25 22 19 16 13 10 7 4 1
Valor Cook's Distance
,2
,1
0,0
.
Si probamos a eliminar los dos más influyentes (29 y 34) observamos un ligero aumento en el coeficiente de correlación múltilple, lo cual es positivo. Sin embargo, los gráficos de los residuos presentan aspectos muy similares a los que conocemos de la práctica 6. En definitiva, la procedencia de tal eliminación puede ser útil aunque es muy cuestionable. Realmente,
siempre será cuestionable la eliminación de cualquier dato. Obviamente, el hecho de que un dato no obedezca a nuestros propósitos no justifica su eliminación. En ocasiones estos datos anómalos aportan una información muy valiosa, como puede ser el caso del ejemplo extraído de la práctica 5, y su eliminación sólo viene a enmascarar parcialmente un planteamiento erróneo. En rigor, la supresión de una unidad experimental debería justificarse también por la
sospecha de que el mismo se deriva de un error en la recogida de datos.
.
7.2
A continuación analizaremos el problema de multicolinealidad. Empezaremos considerando elarchivo Multicolinealidad.sav, en el cual se simula un modelo de regresión con 50 datos y dos variables explicativas altamente correlacionadas. Sin embargo, en la ecuación del modelo sólo interviene la primera de ellas con coeficiente 1. Concretamente, se simula una observación (50
Si efectuamos una regresión simple respecto a ésta, la relación con la variable respuesta
queda muy bien esclarecida. .
Resumen del modelo
,740a ,548 ,539
Modelo 1
R R cuadrado R cuadradocorregida Variables predictoras: (Constante), Z1
a. . Coeficientesa -,738 ,795 -,929 ,357 1,129 ,148 ,740 7,631 ,000 (Constante) Z1 Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizad os t Sig. Variable dependiente: Y a. .
Varianza del estimadora
,022 Z1 Variable dependiente: Y
a.
.
Sin embargo, la segunada variable explicativa contamina, cuando se introduce en el modelo, la
relación existente entre z[1] e y, como se aprecia a continuación. .
Resumen del modelo
,744a ,553 ,534
Modelo 1
R R cuadrado R cuadradocorregida Variables predictoras: (Constante), Z2, Z1 a. . Coeficientesa -,752 ,799 -,941 ,351 1,948 1,129 1,278 1,726 ,091 ,017 57,651 -,815 1,113 -,542 -,732 ,468 ,017 57,651 (Constante) Z1 Z2 Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizad os
t Sig. Tolerancia FIV
Estadísticos de colinealidad
Variable dependiente: Y a.
.
Matriz de varianzas-covarianzas de los estimadoresa
1,238 -1,245 -1,245 1,274 Z2 Z1 Covarianzas Modelo 1 Z2 Z1 Variable dependiente: Y a. . .
Diagnósticos de colinealidada 2,986 1,000 ,00 ,00 ,00 ,014 14,726 ,99 ,00 ,00 ,000 128,862 ,01 1,00 1,00 Dimensión 1 2 3 Modelo 1 Autovalor Indice de condición (Constante) Z1 Z2 Proporciones de la varianza Variable dependiente: Y a. .
Gráfico de regresión parcial Variable dependiente: Y Residuo de Z1 dado Z2 ,2 ,1 -,0 -,1 -,2 -,3 Residuo de Y dado Z2 2 1 0 -1 -2 -3 R² = 0.0596 .
Como podemos observar, el coeficiente de correlación múltiple apenas aumenta. De hecho, el coeficiente corregido disminuye. Lo más notable es la escasa correlación parcial existente entre Y y Z1, lo cual se traduce en un resultado no significativo para el test parcial.
Tampoco es significativo el test parcial para Z2. La presencia de multicolinealidad se delata por la existencia de FIV mayor de 10 o un índice de condición mayor de 30. Obsérvese que existe una gran varianza de los estimadores (compárese con la varianza que se obtenía en la regresión simple para z1) y también una gran covarianza entre los mismos estimadores, cosa que no sucedería si las variables Z1 y Z2 fueran incorreladas, como es el caso del archivo Analisis residuos.sav. Podemos comprobar que en este último los coeficientes obtenidos en la regresión múltiple coinciden con los que se obtienen en cada una de la regresiones simples. Dichas situación es antagónica a la que ocurre con los datos actuales y, por supuesto, mucho más deseable.
.
Si simulamos una nueva observación para el mismo modelo y volvemos a ejecutar la regresión lineal, podemos obtener resultados similares. Puede darse incluso la posibilidad de que la variable Z1 resulte no significativa mientras que Z2 sí lo sea.
.
Si analizamos de nuevo los datos del archivo Linthurst Data.sav podemos apreciar un índice de condición mayor de 30 aunque los FIV se mantienen por debajo de 10. Una análisis conjunto de variables deja en evidencia una fuerte correlación entre las variables Sodio y Potasio, cosa que queda patente en los gráficos de correlación parcial con Biomasa. No obstante, parece claro que la variable con mayor influencia en la respuesta es el pH, que sólo presenta
correlación significativa con Zn, de ahí que cabe preguntarse si el hecho de que Zn resulte no significativa es circunstancial, es decir, si una nueva toma de datos podría conducir a la eliminación de pH en favor de Zn. Una regresión respecto a las primera componentes principales puede conducir a unas estimaciones más fiables, aunque esto no está garantizado de antemano.
.
Resumen del modelob
,823a ,677 ,636 398,277
Modelo 1
R R cuadrado R cuadradocorregida Error típ. de laestimación Variables predictoras: (Constante), Zinc, Potasium, Salinity, ph, Sodium a.
Variable dependiente: Aerial biomass b.
Coeficientesa 1252,489 1234,818 1,014 ,317 -30,291 24,032 -,171 -1,260 ,215 ,451 2,217 305,520 87,883 ,577 3,476 ,001 ,300 3,331 -,285 ,348 -,129 -,819 ,418 ,335 2,983 -,009 ,016 -,090 -,544 ,590 ,300 3,335 -20,678 15,055 -,259 -1,373 ,177 ,232 4,310 (Constante) Salinity ph Potasium Sodium Zinc Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizad os
t Sig. Tolerancia FIV
Estadísticos de colinealidad
Variable dependiente: Aerial biomass a. . Diagnósticos de colinealidada 5,577 1,000 ,212 5,128 ,153 6,045 ,033 12,910 ,024 15,379 ,002 58,980 Dimensión 1 2 3 4 5 6 Modelo 1
Autovalor condiciónIndice de
Variable dependiente: Aerial biomass a.
.
Gráfico de regresión parcial
Salinity 8 6 4 2 0 -2 -4 -6 Aerial biomass 2000 1000 0 -1000 R² = 0.0391 .
Gráfico de regresión parcial
ph 1,5 1,0 ,5 0,0 -,5 -1,0 -1,5 -2,0 Aerial biomass 2000 1000 0 -1000 R² = 0.2366 .
Gráfico de regresión parcial Potasium 600 400 200 0 -200 -400 -600 -800 Aerial biomass 2000 1000 0 -1000 R² = 0.0169 .
Gráfico de regresión parcial
Sodium 20000 10000 0 -10000 Aerial biomass 2000 1000 0 -1000 R² = 0.0075 .
Gráfico de regresión parcial
Zinc 6 4 2 0 -2 -4 -6 -8 -10 Aerial biomass 2000 1000 0 -1000 R² = 0.0461 .
Correlaciones simples entre las variables en juego
-,051 -,021 ,162 -,421** -,103 ,019 -,038 -,722** ,774** ,792** ,074 -,205 ** ,117 -,272 ** ** -,624** ** ** Salinity ph Potasium Sodium Zinc Biomass
Salinity ph Potasium Sodium Zinc Biomass
**.