Marcelo Rodríguez G.
Ingeniero Estadístico - Magister en Estadística
Universidad Católica del Maule Facultad de Ciencias Básicas
Ingeniería en Agronomía Diseño Experimental
21 de marzo de 2011
Comúnmente, cuando se realiza un estudio estadístico, se miden a una misma unidad de análisis, más de una variable.
Denición (Variable Dependiente)
Es la variable por predecir (o por modelar) y se denota con la letra Y .
Denición (Variable Independiente)
Son las variables que se utilizan para predecir y se denota con la letra X.
Denición (Relación entre variables)
Se dice que dos variables están relacionadas, si cambios producidos (causa) en la variable independiente producen un efecto en la variable dependiente.
Denición (Covarianza)
La covarianza entre dos variables cuantitativas, nos indica si la posible relación entre dos variables es directa o inversa. La covarianza muestral se calcula de la siguiente manera:
covxy = n X i=1 (xi− x)(yi− y) n − 1 = Sxy n − 1
Si la covarianza es negativa, entonces la relación es inversa. Si la covarianza es positiva, entonces la relación es directa.
Si la covarianza es cero, entonces la relación es nula (no relacionados). El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.
Ejemplo
Considere un estudio donde se mide el DAP (X) en centímetros y la Altura (Y ) en metros. Se considera una muestra de 10 árboles, los datos son:
DAP (xi) Altura (yi) (xi− x) (yi− y) (xi− x)(xi− x) 15,6 17,4 2,05 0,75 1,5375 14,8 18,4 1,25 1,75 2,1875 15,5 16,5 1,95 -0,15 -0,2925 12,5 15,2 -1,05 -1,45 1,5225 14,2 19,9 0,65 3,25 2,1125 15,7 22,1 2,15 5,45 11,7175 12,3 14,8 -1,25 -1,85 2,3125 14,2 17,3 0,65 0,65 0,4225 8,8 10,3 -4,75 -6,35 30,1625 11,9 14,6 -1,65 -2,05 3,3825 Promedio 13,55 16,65 Suma 55,065
La covarianza sería covxy = 55,0659 = 6, 118.Lo que indica es que el DAC y
la altura están relacionados, de forma directa (a medida que aumenta el DAP aumenta la altura). Los datos los puede descargar desde
http://bit.ly/eje_corr.
Coeciente de correlación de Pearson
Denición (Correlación)
El coeciente de correlación de Pearson, indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores de la otra.
r = n X i=1 (xi− x)(yi− y) v u u t n X i=1 (xi− x)2· n X i=1 (yi− y)2 = Sxy pSxxSyy
Coeciente de correlación de Pearson
Indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). Es útil para determinar si
hay relación lineal (by = bβ0+ bβ1· x) entre dos variables.
Tiene el mismo signo que Covxy.La diferencia radica en que r está
acotado en [−1, 1].
Si está cercana a -1, indica que las variables están relacionadas en forma inversa, si está cercana a +1, la relación es directa y si está cercana a 0, las variables no están relacionadas.
Cuanto más cerca esté r de −1 o +1 mejor será el grado de relación lineal. Siempre que no existan observaciones atípicas.
Coeciente de correlación de Pearson Ejemplo
Con los datos anteriores, calcule e interprete la correlación.
DAP (xi) Altura (yi) (xi− x)2 (yi− y)2 15,6 17,4 4,2025 0,5625 14,8 18,4 1,5625 3,0625 15,5 16,5 3,8025 0,0225 12,5 15,2 1,1025 2,1025 14,2 19,9 0,4225 10,5625 15,7 22,1 4,6225 29,7025 12,3 14,8 1,5625 3,4225 14,2 17,3 0,4225 0,4225 8,8 10,3 22,5625 40,3225 11,9 14,6 2,7225 4,2025 Promedio 13,55 16,65 Suma 42,985 94,385 La correlación sería r = √ 55,065
42,985·94,385 = 0, 865.Lo que indica es que el
DAC y la altura están relacionados, de forma directa casi perfecta (r cercana a 1).
Prueba de hipótesis para probar si la correlación es signicativa
Para probar la hipótesis de que la correlación es signicativamente distinta (mayor o menor) que cero, se debe seguí el siguiente procedimiento. Comúnmente cuando el valor−p es menor que 0,05 se dice que es signicativa, si es menor que 0,01 es altamente signicativa.
Estadística de prueba: tc=
r ·√n − 2 √
1 − r2
Hip. Nula Hip. Alternativa Rechace H0si Valor−p
H0: ρ = 0 H1: ρ 6= 0 |tc| > t1−α/2(n − 2) 2[1 − P(T < |tc|)]
H0: ρ = 0 H1: ρ > 0 tc> t1−α(n − 2) 1 − P(T < |tc|)
H0: ρ = 0 H1: ρ < 0 tc< −t1−α(n − 2) 1 − P(T < |tc|)
T se distribuye t−student con n − 2 grados de libertad.
Prueba de hipótesis para probar si la correlación es signicativa Ejemplo
Pruebe la hipótesis de que la correlación es signicativa.
Hipótesis: H0 : ρ = 0 v/s H1: ρ 6= 0
Estadístico de prueba: tc=
0, 865 ·√8
p
1 − 0, 8652 = 4, 865.
Región de Rechazo: Si α = 0, 05. Entonces rechace H0,si
|tc| > t0,975(8) = 2, 306.
Signicancia:
valor−p = 2[1 − P(T < |4, 865|)] ∼= 2[1 − 0, 99925] = 0, 0015
Conclusión: Como |tc| = 4, 865 > 2, 306 o equivalentemente
valor−p < 0, 05. Entonces, existe suciente evidencia muestral para armar que el DAP y la altura están signicativamente correlacionadas (en rigor estricto es altamente signicativa, pues el valor−p < 0, 01).
Prueba de hipótesis para probar si la correlación es signicativa en SPSS
Prueba de hipótesis para probar si la correlación es signicativa en SPSS Altura DAP Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N DAP Altura 10 10 ,001 1 ,865** 10 10 ,001 ,865** 1 Correlaciones
**. La correlación es significativa al nivel 0,01 (bilateral).
Página 1
Introducción
(Regresión Lineal Simple)
El término regresión fue introducido por Galton en su libro Natural inheritance (1889) reriéndose a la ley de la regresión universal.
Se supone que se tiene una muestra (x1, y1), (x2, y2), . . . , (xn, yn)
correspondiente a la observación conjunta de las variables X e Y . El objetivo será encontrar una relación entre ambas variables, esta relación podría estar dada por una recta (ecuación de regresión: b
y = bβ0+ bβ1· x).
Regresión Lineal Simple
Diagrama de dispersión
En un diagrama de dispersión, cada unidad de análisis es un punto cuyas coordenadas son los valores de las variables. El error aleatorio; son las desviaciones de los verdaderos valores de Y con respecto a los valores
estimadosyb(recta).
Comentarios Datos
Conjunto de datos activo Filtro
Peso Segmentar archivo Núm. de filas del archivo de trabajo Sintaxis Tiempo de procesador Tiempo transcurrido Entrada Recursos 00:00:00,530 00:00:00,500 GRAPH /SCATTERPLOT(BIVAR)=DAP WITH Altura /MISSING=LISTWISE. 10 <ninguno> <ninguno> <ninguno> Conjunto_de_datos1 D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlación y Regresión Lineal Simple)\datos\eje_corr.sav
[Conjunto_de_datos1] D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlac ión y Regresión Lineal Simple)\datos\eje_corr.sav
DAP 16 14 12 10 8 Altura 22 20 18 16 14 12 10 R2 Lineal = 0,747 Página 3
La ecuación de regresión
La ecuación de predicción esperada está dada por b
y = bβ0+ bβ1· x.
Donde, las estimaciones de los parámetros β1 y β0 son:
b
β1 =
Sxy
Sxx
; y bβ0 = y − bβ1x
Intercepto ( bβ0): es la estimación de y cuando x = 0.
Pendiente ( bβ1): es la estimación de la pendiente de la recta (magnitud
del incremento (o decremento) de y por cada unidad de incremento en
x.)
Además, se dene el coeciente de determinación r2,como el porcentaje
de la variabilidad total que explica el modelo.
La ecuación de regresión Ejemplo
Considerando los datos del problema anterior, encuentre la ecuación de regresión entre el DAP y la altura.
La ecuación de predicción esperada está dada por b
y = bβ0+ bβ1x,
\
Altura = bβ0+ bβ1·DAP,
Donde, las estimaciones de los parámetros β1 y β0 son:
b
β1 =
55, 065
42, 985 = 1, 281; y bβ0 = 16, 65 − 1, 281 · 13, 55 = −0, 708.
La ecuación de regresión Ejemplo
Entonces, la ecuación sería: \
Altura = −0, 708 + 1, 281 · DAP,
Pendiente: Por cada centímetro que se incrementa el DAP, la altura se incrementa en 1,281 metros.
Intercepto: Un árbol con un DAP muy pequeño (0), se estima que su Altura será de -0,708. En este caso no tiene sentido.
Esta recta, puede servir para predecir, suponga que tiene un árbol con un DAP=8cm, entonces se estima que su altura sería de
\
Altura = −0, 708 + 1, 281 · 8 = 9, 54 metros.
Además el porcentaje de la variabilidad total que explica el modelo es de
74,7% (r2 = 0, 8652 = 0, 747).
Prueba de hipótesis para la pendiente
Para probar la hipótesis de que la pendiente es signicativamente distinta (mayor o menor) que cero, se debe seguí el siguiente procedimiento. Al ser la pendiente distinta de cero, esto indicaría que las variables están
relacionadas.
Estadística de prueba: tc=β1b· √
Sxx se
Hip. Nula Hip. Alternativa Rechace H0si Valor−p H0: β1= 0 H1: β16= 0 |tc| > t1−α/2(n − 2) 2[1 − P(T < |tc|)] H0: β1= 0 H1: β1> 0 tc> t1−α(n − 2) 1 − P(T < |tc|) H0: β1= 0 H1: β1< 0 tc< −t1−α(n − 2) 1 − P(T < |tc|)
T se distribuye t−student con n − 2 grados de libertad. Además
s=
qPn
i=1(yi−yi)b 2
n−2 =
q
Syy−cβ1Sxy
n−2 es la desviación estándar del error,
también llamado, error estándar (típico) de la estimación.
Prueba de hipótesis para la pendiente Ejemplo
Pruebe la hipótesis de que la pendiente es distinta de cero.
Hipótesis: H0 : β1 = 0 v/s H1: β16= 0
Estadístico de prueba: tc=
1, 281 ·√42, 985
1, 726 = 4, 865.
Región de Rechazo: Si α = 0, 05. Entonces rechace H0,si
|tc| > t0,975(8) = 2, 306.
Signicancia:
valor−p = 2[1 − P(T < |4, 865|)] ∼= 2[1 − 0, 99925] = 0, 0015
Conclusión: Como |tc| = 4, 865 > 2, 306 o equivalentemente
valor−p < 0, 05. Entonces, existe suciente evidencia muestral para armar que el DAP y la altura están signicativamente relacionadas. (Esta prueba es equivalente a la prueba de hipótesis para la
correlación).
Regresión Lineal Simple en SPSS
Regresión Lineal Simple en SPSS
[Conjunto_de_datos1] D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlac ión y Regresión Lineal Simple)\datos\eje_corr.sav
Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,865a ,747 ,716 1,726 Modelo Modelo
Resumen del modelo
a. Variables predictoras: (Constante), DAP
Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) DAP 1 ,001 4,865 ,865 ,263 1,281 ,849 -,196 3,610 -,708 Modelo Modelo Coeficientesa
a. Variable dependiente: Altura
Página 1
Estimación curvilínea: Modelo Exponencial
Un modelo de regresión se dice que es exponencial si b
y = bβ0· exp[ bβ1· x]
Por ejemplo, considere el problema donde se mide el DAP=X y el Volumen=Y. Los datos (http://bit.ly/regr_curv) y la gráca son:
DAP=X Volumen=Y 16,9 ,117 8,9 ,025 17,7 ,131 2,1 ,001 11,5 ,037 19,9 ,198 6,2 ,012 17,1 ,127 14,7 ,089 18,6 ,167 b1 Constante
Estimaciones de los parámetros
Exponencial ,001 ,266 Ecuación
Ecuación
Resumen del modelo y estimaciones de los parámetros
La variable independiente esDAP. Variable dependiente:Volumen DAP 20,0 15,0 10,0 5,0 0,0 0,200 0,150 0,100 0,050 0,000 Volumen Página 8
Estimación curvilínea: Modelo Exponencial (Modelo exponencial)
El modelo exponencial, se puede solucionar mediante una regresión lineal simple.
Aplicar el logaritmo natural a la ecuación b y = bβ0· exp[ bβ1· x] . Tendríamos w = ln[by] = ln[ bβ0] + bβ1· x .
Encuentre la ecuación de regresión lineal simple entre X y W .
Luego se debe aplicar la exponencial a w para despejar by.
Estimación curvilínea: Modelo Exponencial
Ejemplo
Para los datos de DAP= X y Volumen= Y, encuentre la ecuación de
regresión y = bb β0· exp[ bβ1· x]. Considere lo siguiente:
DAP=X Volumen=Y W = ln[Y ] 16,9 0,117 -2,1456 8,9 0,025 -3,6889 17,7 0,131 -2,0326 2,1 0,001 -6,9078 11,5 0,037 -3,2968 19,9 0,198 -1,6195 6,2 0,012 -4,4228 17,1 0,127 -2,0636 14,7 0,089 -2,4191 18,6 0,167 -1,7898
La ecuación de regresión entre X y W es w = −6, 588 + 0, 266x.
Además el r2
xw = 0, 934.
Aplicando la exponencial y considerando
que w = ln[by],tenemos
b
y = exp[−6, 588] exp[0, 266x] b
y = 0, 001 exp[0, 266x].
Estimación curvilínea: Modelo Exponencial Ejemplo
También podemos encontrar la ecuación de regresión lineal simple
entre X e Y. La cual sería,y = −0, 055 + 0, 011x,b con r
2
xy = 0, 890.
El modelo exponencial esy = 0, 001 exp[0, 266x],b con r
2
xw = 0, 934.
En los datos existe un árbol con DAP= 14, 7 y Volumen= 0, 089. Si utilizamos estos dos modelos para predecir el volumen de un árbol con DAP=14,7, tenemos
Con el modelo de regresión lineal simple: b
y = −0, 055 + 0, 011 · 14, 7 = 0, 105. Con el modelo exponencial:
b
y = 0, 001 exp[0, 266 · 14, 7] = 0, 068.
Ambas estimaciones del volumen están cercanas a 0, 089, pero la del
modelo exponencial (0,068), está más cercana. Además, el r2 del
modelo exponencial está más cercano al 100%.
En conclusión, entre estos dos modelos el mejor es el exponencial.
Estimación curvilínea: Modelo Exponencial en SPSS
Estimación curvilínea: Modelo Exponencial en SPSS Sig. gl2 gl1 F R cuadrado Constante b1
Estimaciones de los parámetros Resumen del modelo
Lineal Exponencial ,934 112,799 1 8 ,000 ,001 ,266 ,011 -,055 ,000 8 1 64,951 ,890 Ecuación Ecuación
Resumen del modelo y estimaciones de los parámetros
La variable independiente esDAP. Variable dependiente:Volumen DAP 20,0 15,0 10,0 5,0 0,0 0,200 0,150 0,100 0,050 0,000 Volumen Exponencial Lineal Observado Página 18
Estimación curvilínea: Algunos modelos clásicos
Modelo Ecuación Comentario
Lineal by = bβ0+ bβ1· x Este modelo ya se analizó con todo detalle.
Logarítmico by = bβ0+ bβ1· ln[x] Calcule T = ln[X], encuentre la ecuación de regresión lineal entre T e Y. Luego, en la ecuacióny = bb β0+ bβ1· t,reemplace t por ln[x].
Inverso by = bβ0+ bβ1· 1
x Calcule T =
1
X,encuentre la ecuación de regresión lineal entre T e Y.
Luego, en la ecuacióny = bb β0+ bβ1· t,reemplace t por
1
x.
Cuadrático by = bβ0+ bβ1· x + bβ2· x
2 Calcule X2y realice una regresión múltiple.
Cúbico by = bβ0+ bβ1· x + bβ2· x
2+ bβ
3· x3 Calcule X2, X3y realice una regresión múltiple.
Potencia Calcule T = ln[X], W = ln[Y ]. Encuentre la ecuación de regresión entre b
y = bβ0· xcβ1 Ty W . En la ecuación w = b + m · t, reemplace t = ln[x] y w = ln[by].
Luego despejey.bEntonces, los parámetros serían bβ0= exp[b]y bβ1= m. Compuesto Calcule W = ln[Y ]. Encuentre la ecuación de regresión entre X y W .
b y = bβ0· bβ1
x
En la ecuación w = b + m · x, reemplace w = ln[by].Luego despejey.b Entonces, los parámetros serían bβ0= exp[b]y bβ1= exp[m].
G Calcule T =1
X, W = ln[Y ]. Encuentre la ecuación de regresión entre
b y = exp b β0+ bβ1· 1 x Ty W . En la ecuación w = b + m · t, reemplace t =1 xy w = ln[by].
Luego despejey.bEntonces, los parámetros serían bβ0= by bβ1= m. Logística by =
1 (β0+ β1· βx2)
Solución por sistemas no lineales. Ingresar n◦máx. de iteraciones, usar 1000.
Crecimiento Calcule W = ln[Y ]. Encuentre la ecuación de regresión entre X y W. b
y = exp[ bβ0+ bβ1· x] En la ecuación w = b + m · x, reemplace w = ln[y]. Luego despejey.b Entonces, los parámetros serían bβ0= by bβ1= m.
Exponencial by = bβ0· exp[ bβ1· x] Este modelo ya se analizó con todo detalle.
Estimación curvilínea: Algunos modelos clásicos en SPSS
Encontraremos todos los modelos de regresión que propone SPSS.
Un modelo es bueno si el valor−p < 0, 05.
El mejor modelo es el que tiene
el menor valor−p, mayor r2,
mayor F y menor número de parámetros.
Estimación curvilínea: Algunos modelos clásicos en SPSS
Estimación curvilínea: Algunos modelos clásicos en SPSS
Lineal: V olumen = −0, 055 + 0, 011 · DAP,\ r2= 89, 0%.
Inversa: V olumen = 0, 130 − 0, 338 ·\ 1
DAP, r
2= 41, 3%.
Potencia: V olumen = 0, 000166 · DAP\ 2,329, r2= 99, 5%.
Estimación curvilínea: Algunos modelos clásicos en SPSS
Lineal: V olumen = −0, 055 + 0, 011 · DAP,\ r2= 89, 0%.
Inversa: V olumen = 0, 130 − 0, 338 ·\ 1
DAP, r
2= 41, 3%. Potencia: V olumen = 0, 000166 · DAP\ 2,329, r2= 99, 5%.
DAP 20,0 15,0 10,0 5,0 0,0 0,200 0,150 0,100 0,050 0,000 Volumen Potencia Inverso Lineal Observado Página 20
Introducción Arena 50,0 45,0 40,0 35,0 30,0 Índice de sitio 28,0 26,0 24,0 22,0 20,0 18,0 Densidad 1,50 1,45 1,40 1,35 1,30 1,25 1,20 REGRESSION /MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN
/DEPENDENT IS
/METHOD=ENTER Arena Densidad. Regresión
Página 8
Técnica de dependencia que puede utilizarse para analizar la relación entre una única variable dependiente (Y ) y
varias variables independientes x1, x2,
. . . , xk.
Cada variable independiente es
ponderada (βj), de forma que las
ponderaciones indican su contribución relativa a la predicción conjunta. El objetivo es usar las variables independientes cuyos valores son conocidos para predecir la única variable dependiente seleccionada por el investigador.
El modelo lineal general
El modelo de regresión lineal sería
yi= β0+ β1· xi1+ β2· xi2, . . . , βk· xik+ εi. Donde Y = y1 y2 ... yn , X = 1 x11 x12 . . . x1n 1 x21 x22 . . . x2k ... ... ... ... 1 xn1 xn2 . . . xnk , β = β0 β1 ... βk , ε = ε1 ε2 ... εn ,
βj,son los parámetros desconocidos, j = 1, . . . , k. El n◦ total de
parámetros es p = k + 1.
εi es el i−ésimo error aleatorio asociado con yi, i = 1, . . . , n.
El objetivo es estimar βj,a esta estimación la llamaremos bβj.
La estimación se los parámetros sería bβ = (XTX)−1XTY. Entonces
el modelo estimado sería byi= bβ0+ bβ1· xi1+ bβ2· xi2, . . . , cβk· xik.
Ejemplo de estimación de los parámetros.
Ejemplo
Se desea conocer la tasa de crecimiento de un cultivo bajo diferentes condiciones de sitio y manejo. En el caso del Eucaliptus Globulus es prácticamente desconocida, es por ello que se toman muestras de suelo de cada rodal, midiendo el y = índice de sitio (altura promedio alcanzada
por árboles dominantes a una edad determinada), x1 =% de arena, x2 =
% de arcilla y la x3 =densidad aparente (gr/cc). Los datos los puede
descargar desde http://bit.ly/indice_sitio
Índice de sitio (y) 25,4 24,0 22,9 25,3 21,4 24,5 22,1 19,6 26,9 24,0 20,3 23,6 23,4 24,0 23,1 21,2 % Arena (x1) 40,5 45,8 47,6 47,2 40,4 38,9 45,3 32,7 41,5 42,9 40,2 46,1 45,0 48,9 41,3 46,2
% Arcilla (x2) 34,3 37,5 27,4 32,9 33,8 38,7 28,4 34,0 30,1 34,4 46,9 35,4 34,3 25,7 32,3 32,5
Densidad (x3) 1,29 1,32 1,40 1,30 1,41 1,25 1,38 1,50 1,20 1,34 1,38 1,49 1,47 1,36 1,42 1,48
Ejemplo de estimación de los parámetros.
Se propone el siguiente modelo
y = β0+ β1· x1+ β2· x2+ β3· x3+ ε.
Se desea estimar los parámetros del modelo (βj). Por ejemplo, si la
estimación del parámetro β2 es muy cercano a 0, quiere decir que el %
de arcilla (x2) no inuye en la predicción del índice de sitio (y).
Los parámetros estimados serían: b
β0 = 43, 037, bβ1= 0, 121, bβ2= −0, 066,y bβ3= −16, 604.
Entonces el modelo estimado sería b
y = 43, 037 + 0, 121 · x1− 0, 066 · x2− 16, 604 · x3.
\
Índice de sitio = 43, 037+0, 121·Arena−0, 066·Arcilla−16, 604·Densidad.
Prueba de hipótesis para los parámetros.
(Prueba de hipótesis para los parámetros del modelo)
Hipótesis:
H0 : β0 = β1 = · · · = βk= 0 v/s H1 : βj 6= 0, para algún j.
Estadístico de prueba:
Modelo Suma de Grados de Media Fc
cuadrados libertad cuadrática Regresión n X i=1 (yib− y) 2 p − 1 SCReg (p − 1) MCReg MCRes Residual n X i=1 (yi−yi)b 2 n − p SCRes (n − p) Total n X i=1 (yi− y)2 n − 1
Región de rechazo: Rechace H0 si Fc> F1−α(p − 1, n − p).
Signicancia: Valor-p = 1 − P(F < Fc).Donde F se distribuye
Fisher con p − 1 y n − p grados de libertad.
Ejemplo de estimación de los parámetros.
Para vericar si las variables independientes (xj) tienen un aporte
signicativo en la predicción del Índice de sitio (by), debe probar:
H0 : β0 = β1 = β2= β3= 0 v/s H1 : βj 6= 0, para algún j. Obser. y yb (yi− y) 2 ( b yi− y)2 (yi−ybi) 2 1 25,4 24,268 4,703 1,075 1,282 2 24,0 24,202 0,591 0,942 0,041 3 22,9 23,758 0,110 0,278 0,736 4 25,3 25,007 4,280 3,154 0,086 5 21,4 22,296 3,353 0,874 0,803 6 24,5 24,448 1,610 1,480 0,003 7 22,1 23,745 1,280 0,264 2,707 8 19,6 19,854 13,186 11,402 0,065 9 26,9 26,161 13,460 8,582 0,546 10 24,0 23,722 0,591 0,241 0,077 11 20,3 21,906 8,592 1,757 2,578 12 23,6 21,554 0,136 2,814 4,187 13 23,4 21,825 0,028 1,977 2,480 14 24,0 24,692 0,591 2,134 0,479 15 23,1 22,338 0,017 0,797 0,580 16 21,2 21,923 4,126 1,710 0,523 Suma 371,700 371,700 56,654 39,481 17,173
Modelo Suma de Grados de Media Fc
cuadrados libertad cuadrática Regresión 39,481 3 13,160 9,196 Residual 17,173 12 1,431 Total 56,654 15 Si α = 0, 05. Rechace H0 si Fc> F0,95(3, 12) = 3, 49. El valor−p = 0, 002. R2= 39,48156,654 = 0, 697. Entonces, se rechaza H0,en favor de H1.
Bondad de ajuste
(Coeciente de Determinación (R2))
Expresa la proporción de varianza de la variable dependiente que está explicada por las variables independientes.
R2 = SCReg
SCT .
R2 corregida es una corrección a la baja de R2 que se basa en el número
de casos y de variables independientes:
R2correjida= R2− k(1 − R
2)
(n − k + 1)
.
Bondad de ajuste
(Coeciente de correlación múltiple (R))
Es la raíz de R2. Si tenemos dos variables el Coeciente de correlación
múltiple es el valor absoluto del coeciente de correlación de Pearson, es decir, R = |r|.
(Error (residuo) estándar de la estimación)
Es la desviación media que existe entre la variable dependiente y y su
estimación yb(el residuo es εi= yi−byi).
sε= v u u u u t n X i=1 (yi−ybi) 2 n − p = √ MCRes.
Prueba de hipótesis para cada uno de los parámetros
Hipótesis: H0 : βj = 0 v/s H1 : βj 6= 0, para j = 0, 1, . . . , k.
Estadística de prueba: tc= βjb s( bβj)
Hip. Nula Hip. Altern. Rechace H0si Valor−p H0: βj= 0 H1: βj6= 0 |tc| > t1−α/2(n − p) 2[1 − P(T < |tc|)] H0: βj= 0 H1: βj> 0 tc> t1−α(n − p) 1 − P(T < |tc|) H0: βj= 0 H1: βj< 0 tc< −t1−α(n − p) 1 − P(T < |tc|)
T se distribuye t−student con n − p grados de libertad. Además
s( bβj) =
√
cj+1· sε,donde cj+1 es el elemento (j + 1) de la diagonal de
(XTX)−1.
Un intervalo de conanza del 100(1 − α)% para el parámetro βj es
b
βj± t1−α/2(n − p) · s( bβj)
Parámetros estandarizados (coecientes tipicados)
1 Los coecientes tipicados, se obtienen de la ecuación de regresión
tras estandarizar las variables originales. Es decir, debe a cada variable restarle su promedio y dividirlo por su desviación estándar, y luego encontrar los parámetros de la ecuación de regresión con esas nuevas variables.
2 Permiten valorar la importancia relativa de cada variable independiente
dentro de la ecuación. En general, una variable independiente tiene tanto más peso (importancia) en la ecuación de regresión cuanto mayor (en valor absoluto) es su coeciente de regresión estandarizado.
3 Indican la cantidad de cambio, en puntuaciones estándar, que se
producirá en la variable dependiente por cada cambio de una unidad en la correspondiente variable independiente (manteniendo constantes el resto de variables independientes).
4 En regresión simple, el coeciente estandarizado, coincide con el
coeciente de correlación de Pearson.
Regresión Lineal Múltiple en SPSS
Regresión Lineal Múltiple en SPSS Método Variables eliminadas Variables introducidas 1 Densidad, . Introducir Arena, Arcillaa Modelo Modelo Variables introducidas/eliminadasb
a. Todas las variables solicitadas introducidas. b. Variable dependiente: Índice de sitio
Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,835a ,697 ,621 1,1963 Modelo Modelo
Resumen del modelob
a. Variables predictoras: (Constante), Densidad, Arena, Arcilla b. Variable dependiente: Índice de sitio
Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 15 56,654 1,431 12 17,173 ,002a 9,196 13,160 3 39,481 Modelo Modelo ANOVAb
a. Variables predictoras: (Constante), Densidad, Arena, Arcilla b. Variable dependiente: Índice de sitio
Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Arena Arcilla Densidad 1 ,000 -4,734 -,753 3,507 -16,604 ,360 -,953 -,168 ,069 -,066 ,167 1,473 ,259 ,082 ,121 ,000 6,117 7,036 43,037 Modelo Modelo Coeficientesa
a. Variable dependiente: Índice de sitio
Página 2
Regresión Lineal Múltiple en SPSS
No existe suciente evidencia muestral, para armar que el % de arena (t = 1, 473, valor−p = 0, 167) o el % de arcilla (t = −0, 953,
valor−p = 0, 360), inuyen en la estimación del índice de sitio. La muestra proporciona evidencia para armar que la densidad incide en la estimación del índice de sitio (t = −4, 734, valor−p = 0, 000). La relación entre la densidad y el índice de sitios es inversa (signo del estadístico de prueba).
Según los coecientes estadarizados, la variable independiente más importante en la predicción del índice de sitios, es la densidad, luego el porcentaje de arena y por último el porcentaje de arcilla.
Correlaciones parciales y semiparciales (Correlaciones parciales)
Es la correlación lineal entre dos variables mientras se mantienen constantes otras variables. En el contexto del análisis de regresión, los coecientes de correlación parcial expresan el grado de relación existente entre cada variable independiente y la variable dependiente tras eliminar de ambas el efecto debido al resto de variables independientes incluidas en la ecuación.
El coeciente de correlación parcial de primer orden, anotado aquí rAB/C,
permite conocer el valor de la correlación entre dos variables A y B, si la variable C había permanecido constante para la serie de observaciones consideradas.
rAB/C = qrAB − rAC· rBC
1 − rAC2 ·q1 − rBC2
.
Puntos de inuencia
La distancia de Cook (1977) mide el cambio que se produce en las estimaciones de los coecientes de regresión al ir eliminando cada caso de la ecuación de regresión. Una distancia de Cook grande indica que ese caso tiene un peso considerable en la estimación de los coecientes de regresión. Para evaluar estas distancias puede utilizarse la distribución F con p y
n − p grados de libertad. En general, un caso con una distancia de Cook
superior a 1 debe ser revisado.
Di = n X j=1 b yj−ydj(i) 2 p ·MCRes .
Donde ydj(i),es una estimación sin considerar el dato i−ésimo.
Distancia de Cook en SPSS
En la base de datos, quedarán guardas las distancias, luego se debe hacer un gráco de dispersión en-tre las observaciones y las distancias.
Observación 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Cook's Distance 1,25000 1,00000 0,75000 0,50000 0,25000 0,00000
SAVE OUTFILE='D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Mode los de Regresión '+
'Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlación y Regresión Lin eal '+
'Simple)\datos\eje_reg_mult_indice de sitio.sav' /COMPRESSED.
Página 8
Supuestos del Modelo
(Supuestos del Modelo de Regresión)
Los supuestos de un modelo estadístico se reeren a una serie de condiciones que deben darse para garantizar la validez del modelo.
Linealidad: La variable dependiente es la suma de un conjunto de elementos: el origen de la recta, una combinación lineal de variables independientes y los residuos.
Independencia: Los residuos son independientes entre sí.
Homocedasticidad: Para cada valor de la variable independiente, la varianza de los residuos es constante.
Normalidad: Para cada valor de la variable independiente, los residuos se distribuyen normalmente con media cero.
No-colinealidad: No existe relación lineal exacta entre ninguna de las variables independientes.
Supuestos del Modelo: Linealidad
Los diagramas de regresión parcial permiten examinar la relación exis-tente entre la variable dependiente y cada una de las variables independi-entes por separado, tras eliminar de ellas el efecto del resto de las vari-ables independientes incluidas en el análisis. Estos diagramas son sim-ilares a los de dispersión ya estu-diados, pero no están basados en las puntuaciones originales de las dos variables representadas, sino en los residuos obtenidos al efectuar un análisis de regresión con el resto de las variables independientes.
Supuestos del Modelo: Linealidad
Por ejemplo, en el diagrama de regre-sión parcial de índice de sitio y densi-dad están representados los residuos que resultan de efectuar un análisis de regresión sobre índice de sitio in-cluyendo todas las variables indepen-dientes excepto densidad
(y = β0 + β1x1 + β2x2), y los
residuos que resultan de efectuar un análisis de regresión sobre densidad incluyendo el resto de variables
in-dependientes (x3 = β3 + β4x1 +
β5x2). Se tendrán tantos grácos
como variables independientes.
La relación entre densidad e índice de sitio tras eliminar el efecto del resto de variables independi-entes, es claramente lineal e inversa.
Densidad 0,20 0,10 0,00 -0,10 -0,20 Índice de sitio 4,0 2,0 0,0 -2,0
Gráfico de regresión parcial Variable dependiente: Índice de sitio
Página 12
Supuestos del Modelo: Independencia
Para vericar el supuesto de independencia entre los residuos εi= yi−ybi
use el estadístico de Durbin-Watson (DW ), el cual está dado por:
DW = n X i=1 (εi− εi−1)2 n X i=1 ε2i .
El estadístico DW toma el valor 2 cuando los residuos son
independientes, valores menores que 2 indican autocorrelación positiva y los mayores que 2 autocorrelación negativa.
Podemos asumir independencia entre los residuos cuando DW toma valores entre 1,5 y 2,5.
Supuestos del Modelo: Linealidad
Como el estadístico de DW está
entre 1,5 y 2,5. No podemos
rechazar la hipótesis de que los residuos son independientes, es decir no están auto correlacionados.
Método Variables eliminadas Variables introducidas 1 Densidad, . Introducir Arena, Arcillaa Modelo Modelo Variables introducidas/eliminadasb
a. Todas las variables solicitadas introducidas. b. Variable dependiente: Índice de sitio
Durbin-Watson Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,835a ,697 ,621 1,1963 2,238 Modelo Modelo
Resumen del modelob
a. Variables predictoras: (Constante), Densidad, Arena, Arcilla b. Variable dependiente: Índice de sitio
Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 15 56,654 1,431 12 17,173 ,002a 9,196 13,160 3 39,481 Modelo Modelo ANOVAb
a. Variables predictoras: (Constante), Densidad, Arena, Arcilla b. Variable dependiente: Índice de sitio
Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Arena Arcilla Densidad 1 ,000 -4,734 -,753 3,507 -16,604 ,360 -,953 -,168 ,069 -,066 ,167 1,473 ,259 ,082 ,121 ,000 6,117 7,036 43,037 Modelo Modelo Coeficientesa
a. Variable dependiente: Índice de sitio
N Desviación típica Media Máximo Mínimo Valor pronosticado Residual Valor pronosticado tip.
Residuo típ. -1,375 1,710 ,000 ,894 16 16 1,000 ,000 1,806 -2,081 16 1,0700 ,0000 2,0461 -1,6452 16 1,6224 23,231 26,161 19,854
Estadísticos sobre los residuosa
a. Variable dependiente: Índice de sitio
Página 14 Entonces se estaría cumpliendo es
supuesto de independencia.
Supuestos del Modelo: Normalidad
Los residuos (o los residuos tipi-cados) deben cumplir el supuesto de normalidad. El recuadro Grá-cos de los residuos tipicados (es-tandarizados) contiene dos opciones grácas que informan sobre el grado en el que los residuos tipicados se aproximan a una distribución normal: El histograma (debe ser simétrico) y el gráco de probabilidad nor-mal (deben estar los puntos sobre la recta). También con los residuos se puede realizar una prueba de nor-malidad como Kolmogorov-Smirnov (n > 50) o Shapiro-Wilk (n ≤ 50).
Supuestos del Modelo: Normalidad
Estos grácos indicaría, por lo menos en forma visual, que los residuos, tienden a distribuirse como la normal.
Gráficos
Regresión Residuo tipificado
2 1 0 -1 -2 Frecuencia 4 3 2 1 0 Histograma Variable dependiente: Índice de sitio
Media = -2,08E-16 Desviación típica = 0,894 N = 16
Página 4
Prob acum observada
1,0 0,8 0,6 0,4 0,2 0,0
Prob acum esperada
1,0 0,8 0,6 0,4 0,2 0,0
Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: Índice de sitio
Página 5
Esta armación no es concluyente, por lo tanto se realizará una prueba de hipótesis.
Supuestos del Modelo: Normalidad
Supuestos del Modelo: Normalidad
Supuestos del Modelo: Normalidad
No existe suciente evidencia muestral para rechazar que los residuos se encuentra distribuidos como la normal (SW = 0, 972, valor−p = 0, 871).
Unstandardized Residual 3,00000 2,00000 1,00000 0,00000 -1,00000 -2,00000 EXAMINE VARIABLES=RES_1 /PLOT BOXPLOT NPPLOT /COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. Explorar Página 16 PD: Si el n > 50, se puede utilizar KS, en este caso ambos estadísticos, nos indican que se cumple el supuesto de normalidad.
Supuestos del Modelo: Homocedasticidad
Comúnmente este supuesto se verica mediante una gráca. Se deben gracar los valores pronosticados (ZPRED) con los valores residuales (ZRESI). Si no se detectan tendencias, entonces se cumple el supuestos de homocedasticidad.
Gráficos
Regresión Valor pronosticado tipificado
2 1 0 -1 -2 -3
Regresión Residuo tipificado
2 1 0 -1 -2 Gráfico de dispersión Variable dependiente: Índice de sitio
Página 9
Supuestos del Modelo: No-colinealidad
Existe colinealidad perfecta cuando una de las variables independientes se relaciona de forma perfectamente lineal con una o más del resto de variables independientes de la ecuación.
Hablamos de colinealidad parcial o, simplemente, colinealidad, cuando entre las variables independientes de una ecuación existen
correlaciones altas.
En términos generales, cuantas más variables hay en una ecuación, más fácil es que exista colinealidad (aunque, en principio, bastan dos variables).
Es un problema porque, en el caso de colinealidad perfecta, no es posible estimar los coecientes de la ecuación de regresión; y en el caso de colinealidad parcial, aumenta el tamaño de los residuos típicados y esto produce coecientes de regresión muy inestables: pequeños cambios en los datos (añadir o quitar un caso, por ejemplo) produce cambios muy grandes en los coecientes de regresión.
Supuestos del Modelo: No-colinealidad
El nivel de tolerancia de una variable se obtiene restando a 1 el
coeciente de determinación (R2) que resulta al regresar esa variable
sobre el resto de variables independientes. Valores de tolerancia muy pequeños indican que esa variable puede ser explicada por una combinación lineal del resto de variables, lo cual signica que existe colinealidad.
Los factores de inación de la varianza (FIV) son los inversos de los niveles de tolerancia. Cuanto mayor es el FIV de una variable, mayor es la varianza del correspondiente coeciente de regresión. De ahí que uno de los problemas de la presencia de colinealidad (tolerancias pequeñas, FIVs grandes) sea la inestabilidad de las estimaciones de los coecientes de regresión.
Como regla se puede utilizar: Las variables independientes son colineales si FIV> 10. Las variables que tienen FIV alto y parecidos están altamente correlacionadas.
Regresión Lineal Múltiple
Supuestos del Modelo: No-colinealidad
Como los FVI's son menores
que 10, entonces se cumple
el supuesto de no-colinealidad. Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Arena Arcilla Densidad 1 ,000 -4,734 -,753 3,507 -16,604 ,360 -,953 -,168 ,069 -,066 ,167 1,473 ,259 ,082 ,121 ,000 6,117 7,036 43,037 Modelo Modelo
a. Variable dependiente: Índice de sitio
FIV Tolerancia Estadísticos de colinealidad (Constante) Arena Arcilla Densidad 1 1,000 1,000 1,229 ,814 1,229 ,814 Modelo Modelo Coeficientesa
a. Variable dependiente: Índice de sitio
Índice de condición
Autovalores (Constante) Arena Arcilla Densidad Proporciones de la varianza 1 2 3 4 1 ,58 ,25 ,37 ,99 55,226 ,001 ,41 ,24 ,53 ,01 28,401 ,005 ,00 ,51 ,10 ,00 13,781 ,021 ,00 ,00 ,00 ,00 1,000 3,973 Modelo Dimensión Modelo Dimensión Diagnósticos de colinealidada
a. Variable dependiente: Índice de sitio
Página 3
Si se detecta la presencia de colinealidad hay que i) aumentar el tamaño de la muestra; ii) crear indicadores múltiples combinando variables; iii) excluir variables redundantes, quedándonos con las que consideremos más
importantes.
Regresión por pasos: Qué variables debe incluir la ecuación de regresión
La regresión por pasos (stepwise) es una método para seleccionar las variables independientes que debe incluir un modelo de regresión. Se seleccionan de acuerdo al siguiente criterio estadístico.
Criterio de entrada: El valor−p < 0, 05 y se debe seleccionar las variables con menor valor−p en la ANOVA.
Método Hacia adelante:
Las variables se incorporan al modelo de regresión una a una.
En el primer paso se selecciona la variable independiente que, además de superar los criterios de entrada, tiene la más alta correlación. En los siguientes pasos se utiliza como criterio de selección el
coeciente de correlación parcial: van siendo seleccionadas una a una las variables que, además de superar los criterios de entrada, poseen el coeciente de correlación parcial más alto en valor absoluto.
La selección de variables se detiene cuando no quedan variables que superen el criterio de entrada.
Regresión por pasos: Qué variables debe incluir la ecuación de regresión
En el ejemplo anterior, se realizarán todas las regresiones posible,
identicando, las variables independientes, el R2,estadístico de prueba F, y
el valor−p. El mejor modelo es el que tiene, menos variables, mayor R2,
mayor F y menor valor−p.
Variables R2 F valor−p x1 0,112 1,773 0,20427 x2 0,711 1,072 0,31799 x3 0,564 18,096 0,00080 x1, x2 0,131 0,978 0,40227 x1, x3 0,674 13,436 0,00069 x2, x3 0,642 11,662 0,00126 x1, x2, x3 0,697 9,196 0,00196
El mejor modelo sería by = bβ0+ bβ3· x3.
Aunque y = bb β0+ bβ1· x1+ bβ3· x3,también es un muy buen modelo.
Regresión Lineal Múltiple
Regresión por pasos: Qué variables debe incluir la ecuación de regresión
Por defecto SPSS elige como el
mejor modelo by = βb0 + bβ3 · x3.
Tiempo de procesador Tiempo transcurrido Memoria necesaria Memoria adicional requerida para los diagramas de residuos Recursos 0 bytes 1972 bytes 00:00:00,031 00:00:00,031 ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT IS /METHOD=FORWARD Densidad Arena Arcilla.
[Conjunto_de_datos1] D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlac ión y Regresión Lineal Simple)\datos\eje_reg_mult_indice de sitio.sav
Método Variables eliminadas Variables introducidas 1 Hacia adelante (criterio: Prob. de F para entrar <= , 050) . Densidad Modelo Modelo Variables introducidas/eliminadasa
a. Variable dependiente: Índice de sitio
Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,751a ,564 ,533 1,3286 Modelo Modelo
Resumen del modelo
a. Variables predictoras: (Constante), Densidad
Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 15 56,654 1,765 14 24,712 ,001a 18,096 31,942 1 31,942 Modelo Modelo ANOVAb
a. Variables predictoras: (Constante), Densidad b. Variable dependiente: Índice de sitio
Página 30
Regresión por pasos: Qué variables debe incluir la ecuación de regresión
Para que coincida con los cálculos efectuados antes, debemos ser menos restrictivos con el valor−p. Fíjese que la arena es signicativa para valores superiores a 0,056. Utilizaremos el valor de 0,06.
Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Densidad 1 ,001 -4,254 -,751 3,894 -16,566 ,000 8,578 5,362 45,999 Modelo Modelo Coeficientesa
a. Variable dependiente: Índice de sitio
Correlación parcial Sig. t
Beta dentro Tolerancia
Estadísticos de colinealidad Arena Arcilla 1 1,000 -,424 ,116 -1,686 -,280a 1,000 ,503 ,056 2,096 ,332a Modelo Modelo Variables excluidasb
a. Variables predictoras en el modelo: (Constante), Densidad b. Variable dependiente: Índice de sitio
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.06) POUT(.10) /NOORIGIN
/DEPENDENT IS
/METHOD=FORWARD Densidad Arena Arcilla.
Regresión
Página 31
Regresión Lineal Múltiple
Regresión por pasos: Qué variables debe incluir la ecuación de regresión
Los resultados considerando la nueva conguración, sería
1 2 Hacia adelante (criterio: Prob. de F para entrar <= , 060) . Arena Hacia adelante (criterio: Prob. de F para entrar <= , 060) . Densidad
a. Variable dependiente: Índice de sitio
Error típ. de la estimación R cuadrado corregida R cuadrado R 1 2 ,821b ,674 ,624 1,1920 1,3286 ,533 ,564 ,751a Modelo Modelo
Resumen del modelo
a. Variables predictoras: (Constante), Densidad b. Variables predictoras: (Constante), Densidad, Arena
Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total Regresión Residual Total 1 2 15 56,654 1,421 13 18,472 ,001b 13,436 19,091 2 38,182 15 56,654 1,765 14 24,712 ,001a 18,096 31,942 1 31,942 Modelo Modelo ANOVAc
a. Variables predictoras: (Constante), Densidad b. Variables predictoras: (Constante), Densidad, Arena c. Variable dependiente: Índice de sitio
Página 33 Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Densidad (Constante) Densidad Arena 1 2 ,056 2,096 ,332 ,074 ,155 ,000 -4,732 -,749 3,494 -16,533 ,000 6,782 5,788 39,256 ,001 -4,254 -,751 3,894 -16,566 ,000 8,578 5,362 45,999 Modelo Modelo Coeficientesa
a. Variable dependiente: Índice de sitio
Correlación parcial Sig. t
Beta dentro Tolerancia
Estadísticos de colinealidad Arena Arcilla Arcilla 1 2 -,168b -,953 ,360 -,265 ,814 1,000 -,424 ,116 -1,686 -,280a 1,000 ,503 ,056 2,096 ,332a Modelo Modelo Variables excluidasc
a. Variables predictoras en el modelo: (Constante), Densidad b. Variables predictoras en el modelo: (Constante), Densidad, Arena c. Variable dependiente: Índice de sitio
Página 34
Creación de Modelos: Regresión polinomial (Polinomio de grado k)
Un polinomio de grado k, con una variable independiente, sería b
y = bβ0+ bβ1· x1+ bβ2· x12+ bβ3· x31+ . . . + cβk· xk1.
Basándonos en la regresión lineal múltiple, podemos ajustar cualquier modelo lineal, por ejemplo un polinomio.
Considerando el ejemplo anterior del DAP= x y Volumen= y, podemos ajustar el siguiente modelo:
b
y = bβ0+ bβ1· x1+ bβ2· x21
Mediante la regresión curvilínea, ya encontramos la estimación de los parámetros. También podemos solucionar este problema con la
regresión multiple. Basta tan solo crear una nueva variable x2= x21.
Luego se debe ajustar una regresión lineal múltiple.
Creación de Modelos: Regresión polinomial
Creación de Modelos: Regresión polinomial
Creación de Modelos: Regresión polinomial
Creación de Modelos: Regresión polinomial Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,995a ,990 ,987 ,007777 Modelo Modelo
Resumen del modelo
a. Variables predictoras: (Constante), DAP2, DAP
Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 9 ,042 ,000 7 ,000 ,000a 347,089 ,021 2 ,042 Modelo Modelo ANOVAb
a. Variables predictoras: (Constante), DAP2, DAP b. Variable dependiente: Volumen
Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) DAP DAP2 1 ,000 8,360 1,555 ,000 ,001 ,017 -3,111 -,579 ,002 -,007 ,160 1,573 ,011 ,017 Modelo Modelo Coeficientesa
a. Variable dependiente: Volumen
Página 3
El modelo estimado sería b
y = 0, 017 − 0, 07x1+ 0, 01x21.
Estos cálculos coinciden los
obtenidos anteriormente, con la
regresión curvilínea. Con esta
metodología se podría ajustar cualquier polinomio.
Creación de Modelos: Modelo con interacción
(Modelo de interacción de segundo orden)
Un Modelo de interacción de segundo orden, con dos variables independientes, sería b y = bβ0+ βb1· x1 | {z } Efecto principal + βb2· x2 | {z } Efecto principal + bβ3· x1· x2 | {z } Interacción . Ejemplo
Considere un problema donde se mide a 16 plantas, la Biomasa Total
(y), el DAC (x1) y la Altura (x2). Los datos son (http://bit.ly/dac_bt):
DAC 2,64 2,92 2,72 2,63 2,77 2,83 2,63 2,62 2,89 2,62 2,17 2,17 1,89 3,25 3,64 2,82
Altura 10,5 16,1 16,1 13,8 14,8 16,2 14,6 15,9 12,1 14,0 10,9 11,5 10,9 11,9 18,3 9,0
BT 3,18 4,30 3,86 4,09 3,84 4,33 4,26 4,06 3,76 3,83 3,25 2,89 3,08 3,94 3,98 3,64
Regresión Lineal Múltiple
Creación de Modelos: Modelo con interacción
Primero ajustaremos un modelo sin interacción, los resultados son: Comentarios
Datos
Conjunto de datos activo Filtro Peso Segmentar archivo Núm. de filas del archivo de trabajo Definición de perdidos Casos utilizados Sintaxis Tiempo de procesador Tiempo transcurrido Memoria necesaria Memoria adicional requerida para los diagramas de residuos Entrada
Tratamiento de los datos perdidos Recursos 0 bytes 1652 bytes 00:00:00,000 00:00:00,000 REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT BT /METHOD=ENTER DAC Altura. Los estadísticos se basan en los casos sin valores perdidos para ninguna variable de las utilizadas. Los valores perdidos definidos por el usuario se tratarán como perdidos.
16 <ninguno> <ninguno> <ninguno> Conjunto_de_datos1 D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlación y Regresión Lineal Simple)\datos\Modelo con interacción.sav Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,774a ,599 ,537 ,30397 Modelo Modelo
Resumen del modelo
a. Variables predictoras: (Constante), Altura (cm), Diámetro a la altura del cuello (mm)
Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 15 2,997 ,092 13 1,201 ,003a 9,716 ,898 2 1,795 Modelo Modelo ANOVAb
a. Variables predictoras: (Constante), Altura (cm), Diámetro a la altura del cuello (mm) b. Variable dependiente: Biomasa Total
Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Diámetro a la altura del cuello (mm) Altura (cm) 1 ,021 2,620 ,534 ,035 ,091 ,109 1,721 ,351 ,221 ,380 ,016 2,778 ,545 1,514 Modelo Modelo Coeficientesa
a. Variable dependiente: Biomasa Total
Página 1
R2es de 59,9% y no existe evidencia
muestral para armar que el DAC aporta en la predicción de la Biomasa (t = 1, 721, valor−p=0,109). →←
Creación de Modelos: Modelo con interacción
Ahora ajustaremos el siguiente modelo con interacción: \
Biomasa = bβ0+ bβ1·DAC + bβ2·Altura + bβ3·DAC · Altura.
Creación de Modelos: Modelo con interacción
Creación de Modelos: Modelo con interacción
El modelo estimado sería \
Biomasa = −4, 594 + 2, 534 · DAC + 0, 557 · Altura − 0, 162 · DAC · Altura
Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,893a ,798 ,748 ,22443 Modelo Modelo
Resumen del modelo
a. Variables predictoras: (Constante), DAC*Altura, Diámetro a la altura del cuello (mm), Altura (cm)
Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 15 2,997 ,050 12 ,604 ,000a 15,832 ,797 3 2,392 Modelo Modelo ANOVAb
a. Variables predictoras: (Constante), DAC*Altura, Diámetro a la altura del cuello (mm), Altura (cm)
b. Variable dependiente: Biomasa Total
Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Diámetro a la altura del cuello (mm) Altura (cm) DAC*Altura 1 ,005 -3,442 -4,153 ,047 -,162 ,002 4,040 3,282 ,138 ,557 ,002 3,919 2,338 ,647 2,534 ,027 -2,525 1,819 -4,594 Modelo Modelo Coeficientesa
a. Variable dependiente: Biomasa Total
Página 2
El R2,considerando la
inter-acción, ha mejorado, ahora es de un 79,8%. Tanto el DAP (t = 3, 919, valor−p =
0, 002) como la Altura (t =
4, 040,valor−p = 0, 002)
in-uyen en la predicción de la Biomasa. Además existe un efecto conjunto entre el DAP y la Altura (t = −3, 442, valor−p = 0, 005).
Creación de Modelos: Modelo con variables indicadoras
(Modelos con variables indicadoras)
Los modelos con variables indicadoras se utilizan cuando una de las variables independientes es cualitativa, la metodología trata de recodicar esta variable en variables que tomen el valor 0 o 1 (ausencia o presencia de una característica).
Ejemplo
Considere un problema donde se mide a 16 plantas, la Biomasa Total, el DAC y el origen (1=Central, 2=Precordillera y 3=valle central). Los datos son:
DAC (x1) 2,64 2,92 2,72 2,63 2,77 2,83 2,63 2,62 2,89 2,62 2,17 2,17 1,89 3,25 3,64 2,82
BT (y) 3,18 4,30 3,86 4,09 3,84 4,33 4,26 4,06 3,76 3,83 3,25 2,89 3,08 3,94 3,98 3,64 Origen 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3
Creación de Modelos: Modelo con variables indicadoras
Dado que se tienen tres orígenes, se denen dos variables indicadoras x2 y
x3 tales, que
x2=
1, Si la semilla provenia de la Costa
0, En otro caso.
x3 =
1, Si la semilla provenia de la Precordillera
0, En otro caso.
El modelo sería b
y = bβ0+ bβ1· x1+ bβ2· x2+ bβ3· x3+ bβ4· x1· x2+ bβ5· x1· x3
Creación de Modelos: Modelo con variables indicadoras
Creación de Modelos: Modelo con variables indicadoras
Regresión Lineal Múltiple
Creación de Modelos: Modelo con variables indicadoras
Datos
Conjunto de datos activo Filtro Peso Segmentar archivo Núm. de filas del archivo de trabajo Definición de perdidos Casos utilizados Sintaxis Tiempo de procesador Tiempo transcurrido Memoria necesaria Memoria adicional requerida para los diagramas de residuos Entrada
Tratamiento de los datos perdidos Recursos 0 bytes 2748 bytes 00:00:00,000 00:00:00,000 REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT BT /METHOD=ENTER DAC x2 x3 x1x2 x1x3. Los estadísticos se basan en los casos sin valores perdidos para ninguna variable de las utilizadas. Los valores perdidos definidos por el usuario se tratarán como perdidos.
16 <ninguno> <ninguno> <ninguno> Conjunto_de_datos1 D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlación y Regresión Lineal Simple)\datos\Modelo con interacción.sav Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,825a ,680 ,521 ,30943 Modelo Modelo
Resumen del modelo
a. Variables predictoras: (Constante), x1x3, Diámetro a la altura del cuello (mm), x1x2, x3, x2 Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 15 2,997 ,096 10 ,957 ,025a 4,260 ,408 5 2,039 Modelo Modelo ANOVAb
a. Variables predictoras: (Constante), x1x3, Diámetro a la altura del cuello (mm), x1x2, x3, x2
b. Variable dependiente: Biomasa Total
Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Diámetro a la altura del cuello (mm) x2 x3 x1x2 x1x3 1 ,468 ,755 1,311 ,587 ,444 ,276 1,151 4,484 1,328 1,529 ,676 -,431 -,754 1,564 -,674 ,318 -1,050 -4,094 3,639 -3,823 ,012 3,043 ,596 ,212 ,646 ,017 2,872 ,601 1,726 Modelo Modelo Coeficientesa
a. Variable dependiente: Biomasa Total
Página 1
Creación de Modelos: Modelo con variables indicadoras
Diámetro a la altura del cuello (mm)
4,00 3,50 3,00 2,50 2,00 1,50 Biomasa Total 4,50 4,00 3,50 3,00 2,50 Valle central Precordillera Costa Valle central Precordillera Costa Origen Costa;Costa: R2 Lineal = 0,372 Precordillera;Precordillera: R2 Lineal = 0,483 Valle central;Valle central: R2
Lineal = 0,894
Página 7
Modelo para la costa
(x2 = 1 y x3 = 0):
b
y = (1, 726 − 3, 823) + (1, 529 + 0, 646) · x1
= −2, 096 + 2, 175 · x1
Modelo para la Precordillera
(x2 = 0 y x3 = 1):
b
y = (1, 726−, 674) + (0, 646 + 0, 444) · x1
= 1, 053 + 1, 090 · x1
Modelo para la Valle central
(x2 = 0 y x3 = 0):
b
y = 1, 726 + 0, 646 · x1
Proceso de decisión para el análisis de regresión múltiple
Paso 1: Objetivos. El investigador debe considerar tres asuntos fundamentales: la conveniencia del programa de investigación, la especicación de una relación estadística y la selección de las variables dependientes e independientes.
Paso 2: Diseño de la investigación. El investigador debe considerar
asuntos tales como el tamaño muestral, el R2, la naturaleza de las
variables independientes y la posible creación de nueva variables para representar las especiales relaciones entre las variables dependientes e independientes.
Paso 3: Supuestos del modelo. Vericar que cumplen las variables individuales los supuestos de: Normalidad, Linealidad,
Homocedasticidad e Independencia.
Proceso de decisión para el análisis de regresión múltiple
Paso 4: Estimación del modelo de regresión y valoración. (1) Seleccionar un método para especicar el modelo de regresión a estimar, (2) evaluar la signicación estadística del modelo conjunto en la predicción de la variable criterio y (3) determinar si cualquiera de las observaciones ejerce una indebida inuencia sobre los resultados. Paso 5: Interpretación del valor teórico de la regresión. (1) Evaluar la ecuación de predicción con los coecientes de regresión, (2) Evaluar la importancia relativa de las variables independientes con los coecientes beta estandarizados y (3) Valoración de la
multicolinealidad y sus efectos.
Paso 6: Validación de los resultados. Después de identicar nuestro mejor modelo de regresión, el paso nal consiste en asegurarse de que represente a la población general (generalización) y que sea apropiada para situaciones en las cuales será utilizada
(transferibilidad).