• No se han encontrado resultados

Práctica 4: Regresión Lineal Múltiple (1).

N/A
N/A
Protected

Academic year: 2021

Share "Práctica 4: Regresión Lineal Múltiple (1)."

Copied!
9
0
0

Texto completo

(1)

Práctica 4: Regresión Lineal Múltiple (1)

.

Esta práctica está dedicada a resolver un problema de Regresión Lineal sin atender a ninguna cuestión relativa al cumplimiento de los supuestos del modelo, a la presencia de valores influyentes o a la existencia de multicolinealidad entre las variables

explicativas. En prácticas posteriores resolveremos problemas de regresión atendiendo a todas esas contiongencias. Consideraremos los datos del archivo Linthurst Data.sav y, según hemos comentado, daremos por hecho en todo momento que se satisfacen los

supuestos del modelo de regresión lineal bviando cualquier consideración relativa al problema de multicolinealidad o a la presencia de valores influyentes. Así mosmo, se ignorarán incialmente las variables cualitativas (factores) que apararecen en las dos primeras columnas del archivo.

.

Conviene empezar, en todo caso, con un diagrama de dispersión matricial. Deberíamos ser bastante críticos con el que corresponde a nuestros datos, pero no es ése el objetivo que nos hemos marcado.

.

biomass Salinity ph Potasium Sodium Zinc

.

A continuació ejecutamos la regrasión lineal. En principio, consideraremos el modelo

completo con las cinco variables explicativas.

.

Variables introducidas/eliminadasb Zinc, Potasium, Salinity, ph, Sodiuma . Introducir Modelo 1 Variables

introducidas eliminadasVariables Método

Todas las variables solicitadas introducidas a.

Variable dependiente: Aerial biomass b.

.

(2)

Resumen del modelo

,823a ,677 ,636 398,277

Modelo 1

R R cuadrado R cuadradocorregida Error típ. de laestimación Variables predictoras: (Constante), Zinc, Potasium, Salinity, ph, Sodium a.

.

Como podemos ver, el 67.7% de la variabilidad de Biomasa es explicado por las

condiciones del terreno. A continuación se contrasta si esto es significativo, lo cual equivaldría a afirmar que el vector compuesto por los coeficientes de las variables difiere significativamente de 0. Tal es el caso. Debemos saber interpretar

perfectamente todos y cada uno de los términos que aparecen el el ANOVA.

.

ANOVAb 12984591,9 5 2596918,38 16,371 ,000a 6186371,308 39 158624,905 19170963,2 44 Regresión Residual Total Modelo 1 Suma de

cuadrados gl cuadráticaMedia F Sig.

Variables predictoras: (Constante), Zinc, Potasium, Salinity, ph, Sodium a.

Variable dependiente: Aerial biomass b.

.

A continuación se procede a realizar los contrastes parciales. Sólo la variable pH resulta significativa. No debemos fiarnos de este resultado. También aparecen las estimaciones de los coeficientes.

.

Coeficientesa 1252,489 1234,818 1,014 ,317 -30,291 24,032 -,171 -1,260 ,215 305,520 87,883 ,577 3,476 ,001 -,285 ,348 -,129 -,819 ,418 -,009 ,016 -,090 -,544 ,590 -20,678 15,055 -,259 -1,373 ,177 (Constante) Salinity ph Potasium Sodium Zinc Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizad os t Sig.

Variable dependiente: Aerial biomass a.

.

También se puede ejecutar la regresión lineal a través de la opción Modelo Lineal

Univariante, que será de utilidad en estudios más generales de an´laisis de la varianza y covarianza. El resultado es el siguiente:

.

(3)

Pruebas de los efectos inter-sujetos Variable dependiente: Aerial biomass

12984591,892a 5 2596918,38 16,371 ,000 163197,498 1 163197,498 1,029 ,317 251998,446 1 251998,446 1,589 ,215 1917080,761 1 1917080,76 12,086 ,001 106319,647 1 106319,647 ,670 ,418 46902,805 1 46902,805 ,296 ,590 299236,198 1 299236,198 1,886 ,177 6186371,308 39 158624,905 64242992,000 45 19170963,200 44 Fuente Modelo corregido Intersección SAL PH K NA ZN Error Total Total corregida Suma de cuadrados

tipo III gl cuadráticaMedia F Significación

R cuadrado = ,677 (R cuadrado corregida = ,636) a.

.

Cada fuente equivale a un subespacio lineal. Las siete primeras llevan asociadas una hipótesis a contrastar, W, de manera que el subespacio lineal en cuestiones se

corresponde con <X>|W, siendo la suma de cuadrados la norma euclídea al cuadrado de la proyección del vector de datos sobre dicho subespacio y gl la dimensión del mismo. Para aplicar el test F se debe dividir en todo caso la suma cuadrática por gl, obteniéndose la media cuadrática. Dicha media cuadrática se divide por la media cuadrática asociada al error. Esta última se asocia a la proyección sobre el ortogonal a <X>. Es, por lo tanto, el EIMV de la varianza del modelo. La fuente total corregida hace referencia al subespacio ortogonal a las costantes. En consecuencia, su suma de cuadrados dividida entre el gl da lugar al EIMV de la varianza de la variable respuesta. La fuente total hace referencia a todo el espacio. En definitiva, el alumno debe saber interpretar de manera clara y concisa qué significa cada término de la tabla anterior y cómo se

utiliza.

.

Pruebas de los efectos inter-sujetos Variable dependiente: Aerial biomass

12984591,892a 5 2596918,38 163197,498 1 163197,498 251998,446 1 251998,446 1917080,761 1 1917080,76 106319,647 1 106319,647 46902,805 1 46902,805 299236,198 1 299236,198 6186371,308 39 158624,905 64242992,000 45 19170963,200 44 Fuente Modelo corregido: <1_n,Z1,Z2,Z3,Z4,Z5>|<1_n> Intersección : <1_n,Z1,Z2,Z3,Z4,Z5> | <Z1,Z2,Z3,Z4,Z5> SAL: <1_n,Z1,Z2,Z3,Z4,Z5> | <1_n,Z2,Z3,Z4,Z5> PH: <1_n,Z1,Z2,Z3,Z4,Z5> | <1_n,Z1,Z3,Z4,Z5> K: <1_n,Z1,Z2,Z3,Z4,Z5> | <1_n,Z1,Z2,Z4,Z5> NA: <1_n,Z1,Z2,Z3,Z4,Z5> | <1_n,Z1,Z2,Z3,Z5> ZN: <1_n,Z1,Z2,Z3,Z4,Z5> | <1_n,Z1,Z2,Z3,Z4> Error: R^n 1 | <1_n,Z1,Z2,Z3,Z4,Z5> Total: R^n Total corregida: R^n | <1_n> Suma de cuadrados

tipo III gl cuadráticaMedia

(4)

Pruebas de los efectos inter-sujetos Variable dependiente: Aerial biomass

16,371 ,000 1,029 ,317 1,589 ,215 12,086 ,001 ,670 ,418 ,296 ,590 1,886 ,177 Fuente Modelo corregido: <1_n,Z1,Z2,Z3,Z4,Z5>|<1_n> Intersección : <1_n,Z1,Z2,Z3,Z4,Z5> | <Z1,Z2,Z3,Z4,Z5> SAL: <1_n,Z1,Z2,Z3,Z4,Z5> | <1_n,Z2,Z3,Z4,Z5> PH: <1_n,Z1,Z2,Z3,Z4,Z5> | <1_n,Z1,Z3,Z4,Z5> K: <1_n,Z1,Z2,Z3,Z4,Z5> | <1_n,Z1,Z2,Z4,Z5> NA: <1_n,Z1,Z2,Z3,Z4,Z5> | <1_n,Z1,Z2,Z3,Z5> ZN: <1_n,Z1,Z2,Z3,Z4,Z5> | <1_n,Z1,Z2,Z3,Z4> Error: R^n 1 | <1_n,Z1,Z2,Z3,Z4,Z5> Total: R^n Total corregida: R^n | <1_n> F Significación

R cuadrado = ,677 (R cuadrado corregida = ,636) a.

.

Observemos que R cuadrado se obtiene como cociente entre las SC del modelo corregido y del total corregido. La intersección no coincide con <1_n> y, por lo tanto, junto con la total corregida no suma la total. ¿POR QUÉ?

SAL, PH, K, NA y ZN no suman el modelo corregido. ¿POR QUÉ? ¿Qué condiciones deberían darse para que sumaran correctamente? Pues <X> debería descomponer en suma ORTOGONAL de los subespacios <1_n>,<Z1>,<Z2>,<Z3>,<Z4>,<Z5>, lo cual equivale a que las variables explicativas sean incorreladas y de media 0 ¿POR QUÉ? Aunque exceda los concimientos que se supone tenemos a estas alturas, hemos de decir que eso puede conseguirse

reemplazando las variables explicativas originales por sus componentes principales. La componentes principales son 5 ciertas combinaciones lineales incorreladas de las 5 variables originales que, por lo tanto, generan el mismo subsepacio <X>, de ahí que el modelo sea equivalente en cierto sentido. De hecho, el valor de R2 y el resultado del test principal deben permanecer invariantes. ¿POR QUÉ? No así los resultados de los tests parciales. Ofrecemos a continuación el resultado de la regresión de Biomasa respecto a las componentes principales (será de gran utilidad cuando afrontemos el problema de multicolinealidad) para comprobar cómo se suman los valores SC.

.

Pruebas de los efectos inter-sujetos Variable dependiente: Aerial biomass

12984591,892a 5 2596918,38 16,371 ,000 45072028,800 1 45072028,8 284,142 ,000 8298004,198 1 8298004,20 52,312 ,000 1291414,352 1 1291414,35 8,141 ,007 3311602,215 1 3311602,21 20,877 ,000 77269,903 1 77269,903 ,487 ,489 6301,224 1 6301,224 ,040 ,843 6186371,308 39 158624,905 64242992,000 45 19170963,200 44 Fuente Modelo corregido Intersección FAC1_1 FAC2_1 FAC3_1 FAC4_1 FAC5_1 Error Total Total corregida Suma de cuadrados

tipo III gl cuadráticaMedia F Significación

R cuadrado = ,677 (R cuadrado corregida = ,636) a.

.

.

Procedemos a ejecutar nuevamente la regresión lineal por el procedimiento inicial pero

seleccionando las variables explicativas mediante el método Forward.

.

(5)

Variables introducidas/eliminadasa ph . Hacia adelante (criterio: Prob. de F para entrar <= ,050) Sodium . Hacia adelante (criterio: Prob. de F para entrar <= ,050) Modelo 1 2 Variables

introducidas eliminadasVariables Método

Variable dependiente: Aerial biomass a.

.

Podemos apreciar que las dos únicas variabes introducidas son pH (primera) y Sodio

(segunda).

.

El modelo reducido con ambas explica un 65.8% de la variabilidad de Biomasa.

.

Resumen del modelo

,774a ,599 ,590 422,632

,811b ,658 ,642 394,859

Modelo 1 2

R R cuadrado R cuadradocorregida Error típ. de laestimación

Variables predictoras: (Constante), ph a.

Variables predictoras: (Constante), ph, Sodium b.

.

En ambos modelos (pH y pH-Sodio) se obtienen contrastes totales significativos.

.

ANOVAc 11490388,4 1 11490388,4 64,329 ,000a 7680574,824 43 178618,019 19170963,2 44 12622597,6 2 6311298,79 40,479 ,000b 6548365,613 42 155913,467 19170963,2 44 Regresión Residual Total Regresión Residual Total Modelo 1 2 Suma de

cuadrados gl cuadráticaMedia F Sig.

Variables predictoras: (Constante), ph a.

Variables predictoras: (Constante), ph, Sodium b.

Variable dependiente: Aerial biomass c.

.

A continuación se presentan las estimaciones de los coeficientes y los contrasates parciales en ambos modelos. Obsérvese que el el modelo reducido el Sodio sí es

significativo, cosa que no ocurría ante la presencia del resto de variables. ¿Cómo es posible?

.

(6)

Coeficientesa -885,211 243,441 -3,636 ,001 409,804 51,094 ,774 8,021 ,000 -475,774 273,524 -1,739 ,089 404,955 47,770 ,765 8,477 ,000 -,023 ,009 -,243 -2,695 ,010 (Constante) ph (Constante) ph Sodium Modelo 1 2 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizad os t Sig.

Variable dependiente: Aerial biomass a.

.

Aquí aparecen las variables excluidas. Interesa el modelo definitivo (2). Podemos

observar que los coeficientes de correlación parcial entre cada una de ellas y Biomasa, dadas las variables pH y Sodio, son muy bajos, de ahí que los contrastes parciales resulten no significativos.

.

Variables excluidasc -,064a -,654 ,517 -,100 ,997 -,220a -2,397 ,021 -,347 1,000 -,243a -2,695 ,010 -,384 ,999 -,137a -,978 ,334 -,149 ,478 -,025b -,272 ,787 -,042 ,972 -,072b -,482 ,632 -,075 ,370 -,092b -,698 ,489 -,108 ,470 Salinity Potasium Sodium Zinc Salinity Potasium Zinc Modelo 1 2

Beta dentro t Sig. Correlaciónparcial Tolerancia Estadísticos de

colinealidad

Variables predictoras en el modelo: (Constante), ph a.

Variables predictoras en el modelo: (Constante), ph, Sodium b.

Variable dependiente: Aerial biomass c.

.

Probaremos ahora con un algoritmo de selección backward. Salen del modelo, por este

orden, Sodio, Zinc y Salinidad. Se quedan pH y Potasio.

.

(7)

Variables introducidas/eliminadasb Zinc, Potasium, Salinity, ph, Sodiuma . Introducir . Sodium Hacia atrás (criterio: Prob. de F para eliminar >= ,100). . Zinc Hacia atrás (criterio: Prob. de F para eliminar >= ,100). . Salinity Hacia atrás (criterio: Prob. de F para eliminar >= ,100). Modelo 1 2 3 4 Variables

introducidas eliminadasVariables Método

Todas las variables solicitadas introducidas a.

Variable dependiente: Aerial biomass b.

.

Aquí están los coeficientes de correlación múltiple de los distintos modelos. En el modelo reducido final se explica el 64.8% de la variabilidad de Biomasa. Obsérvese que, mientras que el coeficiente de correlación va disminuyendonecesariamente, no ocurre lo mismo con el corregido.

.

Resumen del modelo

,823a ,677 ,636 398,277 ,821b ,675 ,642 394,755 ,808c ,652 ,627 403,281 ,805d ,648 ,631 401,079 Modelo 1 2 3 4

R R cuadrado R cuadradocorregida Error típ. de laestimación

Variables predictoras: (Constante), Zinc, Potasium, Salinity, ph, Sodium a.

Variables predictoras: (Constante), Zinc, Potasium, Salinity, ph b.

Variables predictoras: (Constante), Potasium, Salinity, ph c.

Variables predictoras: (Constante), Potasium, ph d.

.

Tenemos los ANOVAs para los 4 modelos. El del modelo 1 (completo) se realizó ya al

principio.

.

(8)

ANOVAe 12984591,9 5 2596918,38 16,371 ,000a 6186371,308 39 158624,905 19170963,2 44 12937689,1 4 3234422,27 20,756 ,000b 6233274,113 40 155831,853 19170963,2 44 12502893,3 3 4167631,11 25,626 ,000c 6668069,867 41 162635,850 19170963,2 44 12414653,9 2 6207326,95 38,587 ,000d 6756309,310 42 160864,507 19170963,2 44 Regresión Residual Total Regresión Residual Total Regresión Residual Total Regresión Residual Total Modelo 1 2 3 4 Suma de

cuadrados gl cuadráticaMedia F Sig.

Variables predictoras: (Constante), Zinc, Potasium, Salinity, ph, Sodium a.

Variables predictoras: (Constante), Zinc, Potasium, Salinity, ph b.

Variables predictoras: (Constante), Potasium, Salinity, ph c.

Variables predictoras: (Constante), Potasium, ph d.

Variable dependiente: Aerial biomass e.

.

Aquí tenemos la estimación de los coeficientes de regresión y los contrastes parciales en los cuatro modelos. Obsérvese que la variable Sodio, incluida en el método forward, sale prematuramente en el modelo completo. Debajo tenemos una descripciónde las

variables excluidas.

.

Coeficientesa 1252,489 1234,818 1,014 ,317 -30,291 24,032 -,171 -1,260 ,215 305,520 87,883 ,577 3,476 ,001 -,285 ,348 -,129 -,819 ,418 -,009 ,016 -,090 -,544 ,590 -20,678 15,055 -,259 -1,373 ,177 1505,488 1133,694 1,328 ,192 -35,943 21,476 -,203 -1,674 ,102 293,861 84,474 ,555 3,479 ,001 -,439 ,202 -,198 -2,168 ,036 -23,452 14,040 -,294 -1,670 ,103 -131,245 582,525 -,225 ,823 -12,057 16,369 -,068 -,737 ,466 410,207 48,827 ,775 8,401 ,000 -,490 ,204 -,221 -2,398 ,021 -506,977 279,771 -1,812 ,077 412,040 48,498 ,778 8,496 ,000 -,487 ,203 -,220 -2,397 ,021 (Constante) Salinity ph Potasium Sodium Zinc (Constante) Salinity ph Potasium Zinc (Constante) Salinity ph Potasium (Constante) ph Potasium Modelo 1 2 3 4 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizad os t Sig.

Variable dependiente: Aerial biomass a.

.

(9)

Variables excluidasd -,090a -,544 ,590 -,087 ,300 -,168b -1,061 ,295 -,165 ,339 -,294b -1,670 ,103 -,255 ,262 -,186c -1,242 ,221 -,190 ,370 -,098c -,729 ,470 -,113 ,471 -,068c -,737 ,466 -,114 ,997 Sodium Sodium Zinc Sodium Zinc Salinity Modelo 2 3 4

Beta dentro t Sig. Correlaciónparcial Tolerancia Estadísticos de

colinealidad

Variables predictoras en el modelo: (Constante), Zinc, Potasium, Salinity, ph a.

Variables predictoras en el modelo: (Constante), Potasium, Salinity, ph b.

Variables predictoras en el modelo: (Constante), Potasium, ph c.

Variable dependiente: Aerial biomass d.

.

¿Cuál es la conclusión? Según el método forward tenemos la ecuación Biomasa=-475.774+404.955pH-0.023Na

Según el método backward, la ecuación final será Biomasa=-506.977+412.040pH-0.487K

El hecho de que las conclusiones sean dispares es síntoma de que existen problemas a la hora de aplicar la regresión. Uno de ellos puede ser la presencia de multicolinealidad entre las variables explicativas. En todo caso, se hace necesario un estudio del

problema a otro nivel.

.

Para realizar predicciones basta intrducir los datos de as variables explicativas selecconadas y dejar en blanco la Biomasasa. Mediante la opción guardar tenemos la posibilidad de salvar la predicción correspondiente junto con intervalos de confianza para la misma y para el valor medio esperado.

Referencias

Documento similar

La escala de frustración de las necesidades psicológicas básicas en contextos educativo obtuvo valores significativos en el análisis de regresión lineal para los factores

Se llega así a una doctrina de la autonomía en el ejercicio de los derechos que es, en mi opinión, cuanto menos paradójica: el paternalismo sería siempre una discriminación cuando

Este trabajo se puede utilizar como modelo base para otros investigadores que quieran conseguir lo que se buscaba en este trabajo, que es tratar de encontrar las variables que

El análisis de Regresión es una técnica estadística que estudia la naturaleza de las relaciones entre un conjunto de variables con el objetivo de hacer predicciones; tra-

Los puntos singulares s´ olo aparecen cuando la c´ onica est´ a formada por dos rectas que se cortan (el punto singular es la intersecci´ on) o por dos rectas coincidentes (el

A la hora de realizar el análisis de regresión mediante SPSS existen diferentes métodos para seleccionar los predictores a incluir en el modelo de regresión. Las opciones

– Regresión Lineal, Análisis Discriminante, Regresión logística, Análisis de Varianza, Análisis Conjunto, Análisis de Supervivencia, Análisis de.. Estructuras de

- Aunque el modelo de regresión lineal se hizo con solo dos clases (sofá y silla), este modelo de estimación de distancia se puede aplicar a objetos cuya altura real estén