6 - Correlación y Regresión Lineal

(1)

Marcelo Rodríguez G.

Ingeniero Estadístico - Magister en Estadística

Universidad Católica del Maule Facultad de Ciencias Básicas

Ingeniería en Agronomía Diseño Experimental

21 de marzo de 2011

(2)

Comúnmente, cuando se realiza un estudio estadístico, se miden a una misma unidad de análisis, más de una variable.

Denición (Variable Dependiente)

Es la variable por predecir (o por modelar) y se denota con la letra Y .

Denición (Variable Independiente)

Son las variables que se utilizan para predecir y se denota con la letra X.

Denición (Relación entre variables)

Se dice que dos variables están relacionadas, si cambios producidos (causa) en la variable independiente producen un efecto en la variable dependiente.

(3)

Denición (Covarianza)

La covarianza entre dos variables cuantitativas, nos indica si la posible relación entre dos variables es directa o inversa. La covarianza muestral se calcula de la siguiente manera:

covxy = n X i=1 (xi− x)(yi− y) n − 1 = Sxy n − 1

Si la covarianza es negativa, entonces la relación es inversa. Si la covarianza es positiva, entonces la relación es directa.

Si la covarianza es cero, entonces la relación es nula (no relacionados). El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.

(4)

Ejemplo

Considere un estudio donde se mide el DAP (X) en centímetros y la Altura (Y ) en metros. Se considera una muestra de 10 árboles, los datos son:

DAP (xi) Altura (yi) (xi− x) (yi− y) (xi− x)(xi− x) 15,6 17,4 2,05 0,75 1,5375 14,8 18,4 1,25 1,75 2,1875 15,5 16,5 1,95 -0,15 -0,2925 12,5 15,2 -1,05 -1,45 1,5225 14,2 19,9 0,65 3,25 2,1125 15,7 22,1 2,15 5,45 11,7175 12,3 14,8 -1,25 -1,85 2,3125 14,2 17,3 0,65 0,65 0,4225 8,8 10,3 -4,75 -6,35 30,1625 11,9 14,6 -1,65 -2,05 3,3825 Promedio 13,55 16,65 Suma 55,065

La covarianza sería covxy = 55,065₉ = 6, 118.Lo que indica es que el DAC y

la altura están relacionados, de forma directa (a medida que aumenta el DAP aumenta la altura). Los datos los puede descargar desde

http://bit.ly/eje_corr.

(5)

Coeciente de correlación de Pearson

Denición (Correlación)

El coeciente de correlación de Pearson, indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores de la otra.

r = n X i=1 (xi− x)(yi− y) v u u t n X i=1 (xi− x)2· n X i=1 (yi− y)2 = Sxy pSxxSyy

(6)

Coeciente de correlación de Pearson

Indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). Es útil para determinar si

hay relación lineal (by = bβ0+ bβ1· x) entre dos variables.

Tiene el mismo signo que Covxy.La diferencia radica en que r está

acotado en [−1, 1].

Si está cercana a -1, indica que las variables están relacionadas en forma inversa, si está cercana a +1, la relación es directa y si está cercana a 0, las variables no están relacionadas.

Cuanto más cerca esté r de −1 o +1 mejor será el grado de relación lineal. Siempre que no existan observaciones atípicas.

(7)

Coeciente de correlación de Pearson Ejemplo

Con los datos anteriores, calcule e interprete la correlación.

DAP (xi) Altura (yi) (xi− x)2 (yi− y)2 15,6 17,4 4,2025 0,5625 14,8 18,4 1,5625 3,0625 15,5 16,5 3,8025 0,0225 12,5 15,2 1,1025 2,1025 14,2 19,9 0,4225 10,5625 15,7 22,1 4,6225 29,7025 12,3 14,8 1,5625 3,4225 14,2 17,3 0,4225 0,4225 8,8 10,3 22,5625 40,3225 11,9 14,6 2,7225 4,2025 Promedio 13,55 16,65 Suma 42,985 94,385 La correlación sería r = _√ 55,065

42,985·94,385 = 0, 865.Lo que indica es que el

DAC y la altura están relacionados, de forma directa casi perfecta (r cercana a 1).

(8)

Prueba de hipótesis para probar si la correlación es signicativa

Para probar la hipótesis de que la correlación es signicativamente distinta (mayor o menor) que cero, se debe seguí el siguiente procedimiento. Comúnmente cuando el valor−p es menor que 0,05 se dice que es signicativa, si es menor que 0,01 es altamente signicativa.

Estadística de prueba: tc=

r ·√n − 2 √

1 − r2

Hip. Nula Hip. Alternativa Rechace H0si Valor−p

H0: ρ = 0 H1: ρ 6= 0 |tc| > t1−α/2(n − 2) 2[1 − P(T < |tc|)]

H0: ρ = 0 H1: ρ > 0 tc> t1−α(n − 2) 1 − P(T < |tc|)

H0: ρ = 0 H1: ρ < 0 tc< −t1−α(n − 2) 1 − P(T < |tc|)

T se distribuye t−student con n − 2 grados de libertad.

(9)

Prueba de hipótesis para probar si la correlación es signicativa Ejemplo

Pruebe la hipótesis de que la correlación es signicativa.

Hipótesis: H0 : ρ = 0 v/s H1: ρ 6= 0

Estadístico de prueba: tc=

0, 865 ·√8

p

1 − 0, 8652 = 4, 865.

Región de Rechazo: Si α = 0, 05. Entonces rechace H0,si

|t_c| > t_0,975(8) = 2, 306.

Signicancia:

valor−p = 2[1 − P(T < |4, 865|)] ∼= 2[1 − 0, 99925] = 0, 0015

Conclusión: Como |tc| = 4, 865 > 2, 306 o equivalentemente

valor−p < 0, 05. Entonces, existe suciente evidencia muestral para armar que el DAP y la altura están signicativamente correlacionadas (en rigor estricto es altamente signicativa, pues el valor−p < 0, 01).

(10)

Prueba de hipótesis para probar si la correlación es signicativa en SPSS

(11)

Prueba de hipótesis para probar si la correlación es signicativa en SPSS Altura DAP Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N DAP Altura 10 10 ,001 1 ,865** 10 10 ,001 ,865** 1 Correlaciones

**. La correlación es significativa al nivel 0,01 (bilateral).

Página 1

(12)

Introducción

(Regresión Lineal Simple)

El término regresión fue introducido por Galton en su libro Natural inheritance (1889) reriéndose a la ley de la regresión universal.

Se supone que se tiene una muestra (x1, y1), (x2, y2), . . . , (xn, yn)

correspondiente a la observación conjunta de las variables X e Y . El objetivo será encontrar una relación entre ambas variables, esta relación podría estar dada por una recta (ecuación de regresión: b

y = bβ0+ bβ1· x).

(13)

Regresión Lineal Simple

Diagrama de dispersión

En un diagrama de dispersión, cada unidad de análisis es un punto cuyas coordenadas son los valores de las variables. El error aleatorio; son las desviaciones de los verdaderos valores de Y con respecto a los valores

estimadosyb(recta).

Comentarios Datos

Conjunto de datos activo Filtro

Peso Segmentar archivo Núm. de filas del archivo de trabajo Sintaxis Tiempo de procesador Tiempo transcurrido Entrada Recursos 00:00:00,530 00:00:00,500 GRAPH /SCATTERPLOT(BIVAR)=DAP WITH Altura /MISSING=LISTWISE. 10 <ninguno> <ninguno> <ninguno> Conjunto_de_datos1 D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlación y Regresión Lineal Simple)\datos\eje_corr.sav

[Conjunto_de_datos1] D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlac ión y Regresión Lineal Simple)\datos\eje_corr.sav

DAP 16 14 12 10 8 Altura 22 20 18 16 14 12 10 R2 Lineal = 0,747 Página 3

(14)

La ecuación de regresión

La ecuación de predicción esperada está dada por b

y = bβ0+ bβ1· x.

Donde, las estimaciones de los parámetros β1 y β0 son:

b

β1 =

Sxy

Sxx

; y bβ0 = y − bβ1x

Intercepto ( bβ0): es la estimación de y cuando x = 0.

Pendiente ( bβ1): es la estimación de la pendiente de la recta (magnitud

del incremento (o decremento) de y por cada unidad de incremento en

x.)

Además, se dene el coeciente de determinación r2_,_{como el porcentaje}

de la variabilidad total que explica el modelo.

(15)

La ecuación de regresión Ejemplo

Considerando los datos del problema anterior, encuentre la ecuación de regresión entre el DAP y la altura.

La ecuación de predicción esperada está dada por b

y = bβ0+ bβ1x,

\

Altura = bβ0+ bβ1·DAP,

Donde, las estimaciones de los parámetros β1 y β0 son:

b

β1 =

55, 065

42, 985 = 1, 281; y bβ0 = 16, 65 − 1, 281 · 13, 55 = −0, 708.

(16)

La ecuación de regresión Ejemplo

Entonces, la ecuación sería: \

Altura = −0, 708 + 1, 281 · DAP,

Pendiente: Por cada centímetro que se incrementa el DAP, la altura se incrementa en 1,281 metros.

Intercepto: Un árbol con un DAP muy pequeño (0), se estima que su Altura será de -0,708. En este caso no tiene sentido.

Esta recta, puede servir para predecir, suponga que tiene un árbol con un DAP=8cm, entonces se estima que su altura sería de

\

Altura = −0, 708 + 1, 281 · 8 = 9, 54 metros.

Además el porcentaje de la variabilidad total que explica el modelo es de

74,7% (r2 _{= 0, 865}2 _{= 0, 747}_).

(17)

Prueba de hipótesis para la pendiente

Para probar la hipótesis de que la pendiente es signicativamente distinta (mayor o menor) que cero, se debe seguí el siguiente procedimiento. Al ser la pendiente distinta de cero, esto indicaría que las variables están

relacionadas.

Estadística de prueba: tc=β1b· √

Sxx se

Hip. Nula Hip. Alternativa Rechace H0si Valor−p H0: β1= 0 H1: β16= 0 |tc| > t1−α/2(n − 2) 2[1 − P(T < |tc|)] H0: β1= 0 H1: β1> 0 tc> t1−α(n − 2) 1 − P(T < |tc|) H0: β1= 0 H1: β1< 0 tc< −t1−α(n − 2) 1 − P(T < |tc|)

T se distribuye t−student con n − 2 grados de libertad. Además

s=

qPn

i=1(yi−yi)b 2

n−2 =

q

Syy−cβ1Sxy

n−2 es la desviación estándar del error,

también llamado, error estándar (típico) de la estimación.

(18)

Prueba de hipótesis para la pendiente Ejemplo

Pruebe la hipótesis de que la pendiente es distinta de cero.

Hipótesis: H0 : β1 = 0 v/s H1: β16= 0

Estadístico de prueba: tc=

1, 281 ·√42, 985

1, 726 = 4, 865.

Región de Rechazo: Si α = 0, 05. Entonces rechace H0,si

|tc| > t0,975(8) = 2, 306.

Signicancia:

valor−p = 2[1 − P(T < |4, 865|)] ∼= 2[1 − 0, 99925] = 0, 0015

Conclusión: Como |tc| = 4, 865 > 2, 306 o equivalentemente

valor−p < 0, 05. Entonces, existe suciente evidencia muestral para armar que el DAP y la altura están signicativamente relacionadas. (Esta prueba es equivalente a la prueba de hipótesis para la

correlación).

(19)

Regresión Lineal Simple en SPSS

(20)

Regresión Lineal Simple en SPSS

[Conjunto_de_datos1] D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlac ión y Regresión Lineal Simple)\datos\eje_corr.sav

Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,865a ,747 ,716 1,726 Modelo Modelo

Resumen del modelo

a. Variables predictoras: (Constante), DAP

Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) DAP 1 ,001 4,865 ,865 ,263 1,281 ,849 -,196 3,610 -,708 Modelo Modelo Coeficientesa

a. Variable dependiente: Altura

Página 1

(21)

Estimación curvilínea: Modelo Exponencial

Un modelo de regresión se dice que es exponencial si b

y = bβ0· exp[ bβ1· x]

Por ejemplo, considere el problema donde se mide el DAP=X y el Volumen=Y. Los datos (http://bit.ly/regr_curv) y la gráca son:

DAP=X Volumen=Y 16,9 ,117 8,9 ,025 17,7 ,131 2,1 ,001 11,5 ,037 19,9 ,198 6,2 ,012 17,1 ,127 14,7 ,089 18,6 ,167 b1 Constante

Estimaciones de los parámetros

Exponencial ,001 ,266 Ecuación

Ecuación

Resumen del modelo y estimaciones de los parámetros

La variable independiente esDAP. Variable dependiente:Volumen DAP 20,0 15,0 10,0 5,0 0,0 0,200 0,150 0,100 0,050 0,000 Volumen Página 8

(22)

Estimación curvilínea: Modelo Exponencial (Modelo exponencial)

El modelo exponencial, se puede solucionar mediante una regresión lineal simple.

Aplicar el logaritmo natural a la ecuación b y = bβ0· exp[ bβ1· x] . Tendríamos w = ln[_by] = ln[ bβ0] + bβ1· x .

Encuentre la ecuación de regresión lineal simple entre X y W .

Luego se debe aplicar la exponencial a w para despejar by.

(23)

Estimación curvilínea: Modelo Exponencial

Ejemplo

Para los datos de DAP= X y Volumen= Y, encuentre la ecuación de

regresión y = bb β0· exp[ bβ1· x]. Considere lo siguiente:

DAP=X Volumen=Y W = ln[Y ] 16,9 0,117 -2,1456 8,9 0,025 -3,6889 17,7 0,131 -2,0326 2,1 0,001 -6,9078 11,5 0,037 -3,2968 19,9 0,198 -1,6195 6,2 0,012 -4,4228 17,1 0,127 -2,0636 14,7 0,089 -2,4191 18,6 0,167 -1,7898

La ecuación de regresión entre X y W es w = −6, 588 + 0, 266x.

Además el r2

xw = 0, 934.

Aplicando la exponencial y considerando

que w = ln[by],tenemos

b

y = exp[−6, 588] exp[0, 266x] b

y = 0, 001 exp[0, 266x].

(24)

Estimación curvilínea: Modelo Exponencial Ejemplo

También podemos encontrar la ecuación de regresión lineal simple

entre X e Y. La cual sería,y = −0, 055 + 0, 011x,b con r

2

xy = 0, 890.

El modelo exponencial esy = 0, 001 exp[0, 266x],b con r

2

xw = 0, 934.

En los datos existe un árbol con DAP= 14, 7 y Volumen= 0, 089. Si utilizamos estos dos modelos para predecir el volumen de un árbol con DAP=14,7, tenemos

Con el modelo de regresión lineal simple: b

y = −0, 055 + 0, 011 · 14, 7 = 0, 105. Con el modelo exponencial:

b

y = 0, 001 exp[0, 266 · 14, 7] = 0, 068.

Ambas estimaciones del volumen están cercanas a 0, 089, pero la del

modelo exponencial (0,068), está más cercana. Además, el r2 _del

modelo exponencial está más cercano al 100%.

En conclusión, entre estos dos modelos el mejor es el exponencial.

(25)

Estimación curvilínea: Modelo Exponencial en SPSS

(26)

Estimación curvilínea: Modelo Exponencial en SPSS Sig. gl2 gl1 F R cuadrado Constante b1

Estimaciones de los parámetros Resumen del modelo

Lineal Exponencial ,934 112,799 1 8 ,000 ,001 ,266 ,011 -,055 ,000 8 1 64,951 ,890 Ecuación Ecuación

Resumen del modelo y estimaciones de los parámetros

La variable independiente esDAP. Variable dependiente:Volumen DAP 20,0 15,0 10,0 5,0 0,0 0,200 0,150 0,100 0,050 0,000 Volumen Exponencial Lineal Observado Página 18

(27)

Estimación curvilínea: Algunos modelos clásicos

Modelo Ecuación Comentario

Lineal by = bβ0+ bβ1· x Este modelo ya se analizó con todo detalle.

Logarítmico by = bβ0+ bβ1· ln[x] Calcule T = ln[X], encuentre la ecuación de regresión lineal entre T e Y. Luego, en la ecuacióny = bb β0+ bβ1· t,reemplace t por ln[x].

Inverso by = bβ0+ bβ1· 1

x Calcule T =

1

X,encuentre la ecuación de regresión lineal entre T e Y.

Luego, en la ecuacióny = bb β0+ bβ1· t,reemplace t por

1

x.

Cuadrático by = bβ0+ bβ1· x + bβ2· x

2 _{Calcule X}2_{y realice una regresión múltiple.}

Cúbico by = bβ0+ bβ1· x + bβ2· x

2_{+ b}_β

3· x3 Calcule X2, X3y realice una regresión múltiple.

Potencia Calcule T = ln[X], W = ln[Y ]. Encuentre la ecuación de regresión entre b

y = bβ0· xcβ1 _Ty W . En la ecuación w = b + m · t, reemplace t = ln[x] y w = ln[b_y].

Luego despejey.bEntonces, los parámetros serían bβ0= exp[b]y bβ1= m. Compuesto Calcule W = ln[Y ]. Encuentre la ecuación de regresión entre X y W .

b y = bβ0· bβ1

x

En la ecuación w = b + m · x, reemplace w = ln[by].Luego despejey.b Entonces, los parámetros serían bβ0= exp[b]y bβ1= exp[m].

G Calcule T =1

X, W = ln[Y ]. Encuentre la ecuación de regresión entre

b y = exp b β0+ bβ1· 1 x Ty W . En la ecuación w = b + m · t, reemplace t =1 xy w = ln[by].

Luego despejey.bEntonces, los parámetros serían bβ0= by bβ1= m. Logística by =

1 (β0+ β1· βx2)

Solución por sistemas no lineales. Ingresar n◦_{máx. de iteraciones, usar 1000.}

Crecimiento Calcule W = ln[Y ]. Encuentre la ecuación de regresión entre X y W. b

y = exp[ bβ0+ bβ1· x] En la ecuación w = b + m · x, reemplace w = ln[y]. Luego despejey.b Entonces, los parámetros serían bβ0= by bβ1= m.

Exponencial by = bβ0· exp[ bβ1· x] Este modelo ya se analizó con todo detalle.

(28)

Estimación curvilínea: Algunos modelos clásicos en SPSS

Encontraremos todos los modelos de regresión que propone SPSS.

Un modelo es bueno si el valor−p < 0, 05.

El mejor modelo es el que tiene

el menor valor−p, mayor r2_,

mayor F y menor número de parámetros.

(29)

(30)

Lineal: V olumen = −0, 055 + 0, 011 · DAP,\ r2= 89, 0%.

Inversa: V olumen = 0, 130 − 0, 338 ·\ 1

DAP, r

2_{= 41, 3%.}

Potencia: V olumen = 0, 000166 · DAP\ 2,329, r2= 99, 5%.

(31)

Lineal: V olumen = −0, 055 + 0, 011 · DAP,\ r2= 89, 0%.

Inversa: V olumen = 0, 130 − 0, 338 ·\ 1

DAP, r

2_{= 41, 3%.} Potencia: V olumen = 0, 000166 · DAP\ 2,329, r2= 99, 5%.

DAP 20,0 15,0 10,0 5,0 0,0 0,200 0,150 0,100 0,050 0,000 Volumen Potencia Inverso Lineal Observado Página 20

(32)

Introducción Arena 50,0 45,0 40,0 35,0 30,0 Índice de sitio 28,0 26,0 24,0 22,0 20,0 18,0 Densidad 1,50 1,45 1,40 1,35 1,30 1,25 1,20 REGRESSION /MISSING LISTWISE

/STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN

/DEPENDENT IS

/METHOD=ENTER Arena Densidad. Regresión

Página 8

Técnica de dependencia que puede utilizarse para analizar la relación entre una única variable dependiente (Y ) y

varias variables independientes x1, x2,

. . . , xk.

Cada variable independiente es

ponderada (βj), de forma que las

ponderaciones indican su contribución relativa a la predicción conjunta. El objetivo es usar las variables independientes cuyos valores son conocidos para predecir la única variable dependiente seleccionada por el investigador.

(33)

El modelo lineal general

El modelo de regresión lineal sería

yi= β0+ β1· xi1+ β2· xi2, . . . , βk· xik+ εi. Donde Y =      y1 y2 ... yn      , X =      1 x11 x12 . . . x1n 1 x21 x22 . . . x2k ... ... ... ... 1 xn1 xn2 . . . xnk      , β =      β0 β1 ... βk      , ε =      ε1 ε2 ... εn      ,

βj,son los parámetros desconocidos, j = 1, . . . , k. El n◦ total de

parámetros es p = k + 1.

εi es el i−ésimo error aleatorio asociado con yi, i = 1, . . . , n.

El objetivo es estimar βj,a esta estimación la llamaremos bβj.

La estimación se los parámetros sería bβ = (XTX)−1XTY. Entonces

el modelo estimado sería byi= bβ0+ bβ1· xi1+ bβ2· xi2, . . . , cβk· xik.

(34)

Ejemplo de estimación de los parámetros.

Ejemplo

Se desea conocer la tasa de crecimiento de un cultivo bajo diferentes condiciones de sitio y manejo. En el caso del Eucaliptus Globulus es prácticamente desconocida, es por ello que se toman muestras de suelo de cada rodal, midiendo el y = índice de sitio (altura promedio alcanzada

por árboles dominantes a una edad determinada), x1 =% de arena, x2 =

% de arcilla y la x3 =densidad aparente (gr/cc). Los datos los puede

descargar desde http://bit.ly/indice_sitio

Índice de sitio (y) 25,4 24,0 22,9 25,3 21,4 24,5 22,1 19,6 26,9 24,0 20,3 23,6 23,4 24,0 23,1 21,2 % Arena (x1) 40,5 45,8 47,6 47,2 40,4 38,9 45,3 32,7 41,5 42,9 40,2 46,1 45,0 48,9 41,3 46,2

% Arcilla (x2) 34,3 37,5 27,4 32,9 33,8 38,7 28,4 34,0 30,1 34,4 46,9 35,4 34,3 25,7 32,3 32,5

Densidad (x3) 1,29 1,32 1,40 1,30 1,41 1,25 1,38 1,50 1,20 1,34 1,38 1,49 1,47 1,36 1,42 1,48

(35)

Se propone el siguiente modelo

y = β0+ β1· x1+ β2· x2+ β3· x3+ ε.

Se desea estimar los parámetros del modelo (βj). Por ejemplo, si la

estimación del parámetro β2 es muy cercano a 0, quiere decir que el %

de arcilla (x2) no inuye en la predicción del índice de sitio (y).

Los parámetros estimados serían: b

β0 = 43, 037, bβ1= 0, 121, bβ2= −0, 066,y bβ3= −16, 604.

Entonces el modelo estimado sería b

y = 43, 037 + 0, 121 · x1− 0, 066 · x2− 16, 604 · x3.

\

Índice de sitio = 43, 037+0, 121·Arena−0, 066·Arcilla−16, 604·Densidad.

(36)

Prueba de hipótesis para los parámetros.

(Prueba de hipótesis para los parámetros del modelo)

Hipótesis:

H0 : β0 = β1 = · · · = βk= 0 v/s H1 : βj 6= 0, para algún j.

Estadístico de prueba:

Modelo Suma de Grados de Media Fc

cuadrados libertad cuadrática Regresión n X i=1 (yib− y) 2 p − 1 SCReg (p − 1) MCReg MCRes Residual n X i=1 (yi−yi)b 2 n − p SCRes (n − p) Total n X i=1 (yi− y)2 n − 1

Región de rechazo: Rechace H0 si Fc> F1−α(p − 1, n − p).

Signicancia: Valor-p = 1 − P(F < Fc).Donde F se distribuye

Fisher con p − 1 y n − p grados de libertad.

(37)

Para vericar si las variables independientes (xj) tienen un aporte

signicativo en la predicción del Índice de sitio (by), debe probar:

H0 : β0 = β1 = β2= β3= 0 v/s H1 : βj 6= 0, para algún j. Obser. y yb (yi− y) 2 ₍ b yi− y)2 (yi−ybi) 2 1 25,4 24,268 4,703 1,075 1,282 2 24,0 24,202 0,591 0,942 0,041 3 22,9 23,758 0,110 0,278 0,736 4 25,3 25,007 4,280 3,154 0,086 5 21,4 22,296 3,353 0,874 0,803 6 24,5 24,448 1,610 1,480 0,003 7 22,1 23,745 1,280 0,264 2,707 8 19,6 19,854 13,186 11,402 0,065 9 26,9 26,161 13,460 8,582 0,546 10 24,0 23,722 0,591 0,241 0,077 11 20,3 21,906 8,592 1,757 2,578 12 23,6 21,554 0,136 2,814 4,187 13 23,4 21,825 0,028 1,977 2,480 14 24,0 24,692 0,591 2,134 0,479 15 23,1 22,338 0,017 0,797 0,580 16 21,2 21,923 4,126 1,710 0,523 Suma 371,700 371,700 56,654 39,481 17,173

Modelo Suma de Grados de Media Fc

cuadrados libertad cuadrática Regresión 39,481 3 13,160 9,196 Residual 17,173 12 1,431 Total 56,654 15 Si α = 0, 05. Rechace H0 si Fc> F0,95(3, 12) = 3, 49. El valor−p = 0, 002. R2= 39,481_56,654 = 0, 697. Entonces, se rechaza H0,en favor de H1.

(38)

Bondad de ajuste

(Coeciente de Determinación (R2₎₎

Expresa la proporción de varianza de la variable dependiente que está explicada por las variables independientes.

R2 = SCReg

SCT .

R2 corregida es una corrección a la baja de R2 que se basa en el número

de casos y de variables independientes:

R2_correjida= R2− k(1 − R

2₎

(n − k + 1)

.

(39)

Bondad de ajuste

(Coeciente de correlación múltiple (R))

Es la raíz de R2_{. Si tenemos dos variables el Coeciente de correlación}

múltiple es el valor absoluto del coeciente de correlación de Pearson, es decir, R = |r|.

(Error (residuo) estándar de la estimación)

Es la desviación media que existe entre la variable dependiente y y su

estimación yb(el residuo es εi= yi−byi).

sε= v u u u u t n X i=1 (yi−ybi) 2 n − p = √ MCRes.

(40)

Prueba de hipótesis para cada uno de los parámetros

Hipótesis: H0 : βj = 0 v/s H1 : βj 6= 0, para j = 0, 1, . . . , k.

Estadística de prueba: tc= βjb s( bβj)

Hip. Nula Hip. Altern. Rechace H0si Valor−p H0: βj= 0 H1: βj6= 0 |tc| > t1−α/2(n − p) 2[1 − P(T < |tc|)] H0: βj= 0 H1: βj> 0 tc> t1−α(n − p) 1 − P(T < |tc|) H0: βj= 0 H1: βj< 0 tc< −t1−α(n − p) 1 − P(T < |tc|)

T se distribuye t−student con n − p grados de libertad. Además

s( bβj) =

√

cj+1· sε,donde cj+1 es el elemento (j + 1) de la diagonal de

(XT_X)−1_.

Un intervalo de conanza del 100(1 − α)% para el parámetro βj es

b

βj± t1−α/2(n − p) · s( bβj)

(41)

Parámetros estandarizados (coecientes tipicados)

1 Los coecientes tipicados, se obtienen de la ecuación de regresión

tras estandarizar las variables originales. Es decir, debe a cada variable restarle su promedio y dividirlo por su desviación estándar, y luego encontrar los parámetros de la ecuación de regresión con esas nuevas variables.

2 Permiten valorar la importancia relativa de cada variable independiente

dentro de la ecuación. En general, una variable independiente tiene tanto más peso (importancia) en la ecuación de regresión cuanto mayor (en valor absoluto) es su coeciente de regresión estandarizado.

3 Indican la cantidad de cambio, en puntuaciones estándar, que se

producirá en la variable dependiente por cada cambio de una unidad en la correspondiente variable independiente (manteniendo constantes el resto de variables independientes).

4 En regresión simple, el coeciente estandarizado, coincide con el

coeciente de correlación de Pearson.

(42)

Regresión Lineal Múltiple en SPSS

(43)

Regresión Lineal Múltiple en SPSS Método Variables eliminadas Variables introducidas 1 Densidad, . Introducir Arena, Arcillaa Modelo Modelo Variables introducidas/eliminadasb

a. Todas las variables solicitadas introducidas. b. Variable dependiente: Índice de sitio

Resumen del modelob

a. Variables predictoras: (Constante), Densidad, Arena, Arcilla b. Variable dependiente: Índice de sitio

Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 15 56,654 1,431 12 17,173 ,002a 9,196 13,160 3 39,481 Modelo Modelo ANOVAb

Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Arena Arcilla Densidad 1 ,000 -4,734 -,753 3,507 -16,604 ,360 -,953 -,168 ,069 -,066 ,167 1,473 ,259 ,082 ,121 ,000 6,117 7,036 43,037 Modelo Modelo Coeficientesa

a. Variable dependiente: Índice de sitio

Página 2

(44)

Regresión Lineal Múltiple en SPSS

No existe suciente evidencia muestral, para armar que el % de arena (t = 1, 473, valor−p = 0, 167) o el % de arcilla (t = −0, 953,

valor−p = 0, 360), inuyen en la estimación del índice de sitio. La muestra proporciona evidencia para armar que la densidad incide en la estimación del índice de sitio (t = −4, 734, valor−p = 0, 000). La relación entre la densidad y el índice de sitios es inversa (signo del estadístico de prueba).

Según los coecientes estadarizados, la variable independiente más importante en la predicción del índice de sitios, es la densidad, luego el porcentaje de arena y por último el porcentaje de arcilla.

(45)

Correlaciones parciales y semiparciales (Correlaciones parciales)

Es la correlación lineal entre dos variables mientras se mantienen constantes otras variables. En el contexto del análisis de regresión, los coecientes de correlación parcial expresan el grado de relación existente entre cada variable independiente y la variable dependiente tras eliminar de ambas el efecto debido al resto de variables independientes incluidas en la ecuación.

El coeciente de correlación parcial de primer orden, anotado aquí rAB/C,

permite conocer el valor de la correlación entre dos variables A y B, si la variable C había permanecido constante para la serie de observaciones consideradas.

r_AB/C = _qrAB − rAC· rBC

1 − r_AC2 ·q1 − r_BC2

.

(46)

Puntos de inuencia

La distancia de Cook (1977) mide el cambio que se produce en las estimaciones de los coecientes de regresión al ir eliminando cada caso de la ecuación de regresión. Una distancia de Cook grande indica que ese caso tiene un peso considerable en la estimación de los coecientes de regresión. Para evaluar estas distancias puede utilizarse la distribución F con p y

n − p grados de libertad. En general, un caso con una distancia de Cook

superior a 1 debe ser revisado.

Di = n X j=1 b yj−ydj(i) 2 p ·MCRes .

Donde ydj(i),es una estimación sin considerar el dato i−ésimo.

(47)

Distancia de Cook en SPSS

En la base de datos, quedarán guardas las distancias, luego se debe hacer un gráco de dispersión en-tre las observaciones y las distancias.

Observación 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Cook's Distance 1,25000 1,00000 0,75000 0,50000 0,25000 0,00000

SAVE OUTFILE='D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Mode los de Regresión '+

'Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlación y Regresión Lin eal '+

'Simple)\datos\eje_reg_mult_indice de sitio.sav' /COMPRESSED.

Página 8

(48)

Supuestos del Modelo

(Supuestos del Modelo de Regresión)

Los supuestos de un modelo estadístico se reeren a una serie de condiciones que deben darse para garantizar la validez del modelo.

Linealidad: La variable dependiente es la suma de un conjunto de elementos: el origen de la recta, una combinación lineal de variables independientes y los residuos.

Independencia: Los residuos son independientes entre sí.

Homocedasticidad: Para cada valor de la variable independiente, la varianza de los residuos es constante.

Normalidad: Para cada valor de la variable independiente, los residuos se distribuyen normalmente con media cero.

No-colinealidad: No existe relación lineal exacta entre ninguna de las variables independientes.

(49)

Supuestos del Modelo: Linealidad

Los diagramas de regresión parcial permiten examinar la relación exis-tente entre la variable dependiente y cada una de las variables independi-entes por separado, tras eliminar de ellas el efecto del resto de las vari-ables independientes incluidas en el análisis. Estos diagramas son sim-ilares a los de dispersión ya estu-diados, pero no están basados en las puntuaciones originales de las dos variables representadas, sino en los residuos obtenidos al efectuar un análisis de regresión con el resto de las variables independientes.

(50)

Por ejemplo, en el diagrama de regre-sión parcial de índice de sitio y densi-dad están representados los residuos que resultan de efectuar un análisis de regresión sobre índice de sitio in-cluyendo todas las variables indepen-dientes excepto densidad

(y = β0 + β1x1 + β2x2), y los

residuos que resultan de efectuar un análisis de regresión sobre densidad incluyendo el resto de variables

in-dependientes (x3 = β3 + β4x1 +

β5x2). Se tendrán tantos grácos

como variables independientes.

La relación entre densidad e índice de sitio tras eliminar el efecto del resto de variables independi-entes, es claramente lineal e inversa.

Densidad 0,20 0,10 0,00 -0,10 -0,20 Índice de sitio 4,0 2,0 0,0 -2,0

Gráfico de regresión parcial Variable dependiente: Índice de sitio

Página 12

(51)

Supuestos del Modelo: Independencia

Para vericar el supuesto de independencia entre los residuos εi= yi−ybi

use el estadístico de Durbin-Watson (DW ), el cual está dado por:

DW = n X i=1 (εi− εi−1)2 n X i=1 ε2_i .

El estadístico DW toma el valor 2 cuando los residuos son

independientes, valores menores que 2 indican autocorrelación positiva y los mayores que 2 autocorrelación negativa.

Podemos asumir independencia entre los residuos cuando DW toma valores entre 1,5 y 2,5.

(52)

Como el estadístico de DW está

entre 1,5 y 2,5. No podemos

rechazar la hipótesis de que los residuos son independientes, es decir no están auto correlacionados.

Método Variables eliminadas Variables introducidas 1 Densidad, . Introducir Arena, Arcillaa Modelo Modelo Variables introducidas/eliminadasb

a. Todas las variables solicitadas introducidas. b. Variable dependiente: Índice de sitio

Durbin-Watson Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,835a ,697 ,621 1,1963 2,238 Modelo Modelo

Resumen del modelob

Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Arena Arcilla Densidad 1 ,000 -4,734 -,753 3,507 -16,604 ,360 -,953 -,168 ,069 -,066 ,167 1,473 ,259 ,082 ,121 ,000 6,117 7,036 43,037 Modelo Modelo Coeficientesa

N Desviación típica Media Máximo Mínimo Valor pronosticado Residual Valor pronosticado tip.

Residuo típ. -1,375 1,710 ,000 ,894 16 16 1,000 ,000 1,806 -2,081 16 1,0700 ,0000 2,0461 -1,6452 16 1,6224 23,231 26,161 19,854

Estadísticos sobre los residuosa

Página 14 Entonces se estaría cumpliendo es

supuesto de independencia.

(53)

Supuestos del Modelo: Normalidad

Los residuos (o los residuos tipi-cados) deben cumplir el supuesto de normalidad. El recuadro Grá-cos de los residuos tipicados (es-tandarizados) contiene dos opciones grácas que informan sobre el grado en el que los residuos tipicados se aproximan a una distribución normal: El histograma (debe ser simétrico) y el gráco de probabilidad nor-mal (deben estar los puntos sobre la recta). También con los residuos se puede realizar una prueba de nor-malidad como Kolmogorov-Smirnov (n > 50) o Shapiro-Wilk (n ≤ 50).

(54)

Estos grácos indicaría, por lo menos en forma visual, que los residuos, tienden a distribuirse como la normal.

Gráficos

Regresión Residuo tipificado

2 1 0 -1 -2 Frecuencia 4 3 2 1 0 Histograma Variable dependiente: Índice de sitio

Media = -2,08E-16 Desviación típica = 0,894 N = 16

Página 4

Prob acum observada

1,0 0,8 0,6 0,4 0,2 0,0

Prob acum esperada

1,0 0,8 0,6 0,4 0,2 0,0

Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: Índice de sitio

Página 5

Esta armación no es concluyente, por lo tanto se realizará una prueba de hipótesis.

(55)

(56)

(57)

No existe suciente evidencia muestral para rechazar que los residuos se encuentra distribuidos como la normal (SW = 0, 972, valor−p = 0, 871).

Unstandardized Residual 3,00000 2,00000 1,00000 0,00000 -1,00000 -2,00000 EXAMINE VARIABLES=RES_1 /PLOT BOXPLOT NPPLOT /COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. Explorar Página 16 PD: Si el n > 50, se puede utilizar KS, en este caso ambos estadísticos, nos indican que se cumple el supuesto de normalidad.

(58)

Supuestos del Modelo: Homocedasticidad

Comúnmente este supuesto se verica mediante una gráca. Se deben gracar los valores pronosticados (ZPRED) con los valores residuales (ZRESI). Si no se detectan tendencias, entonces se cumple el supuestos de homocedasticidad.

Gráficos

Regresión Valor pronosticado tipificado

2 1 0 -1 -2 -3

Regresión Residuo tipificado

2 1 0 -1 -2 Gráfico de dispersión Variable dependiente: Índice de sitio

Página 9

(59)

Supuestos del Modelo: No-colinealidad

Existe colinealidad perfecta cuando una de las variables independientes se relaciona de forma perfectamente lineal con una o más del resto de variables independientes de la ecuación.

Hablamos de colinealidad parcial o, simplemente, colinealidad, cuando entre las variables independientes de una ecuación existen

correlaciones altas.

En términos generales, cuantas más variables hay en una ecuación, más fácil es que exista colinealidad (aunque, en principio, bastan dos variables).

Es un problema porque, en el caso de colinealidad perfecta, no es posible estimar los coecientes de la ecuación de regresión; y en el caso de colinealidad parcial, aumenta el tamaño de los residuos típicados y esto produce coecientes de regresión muy inestables: pequeños cambios en los datos (añadir o quitar un caso, por ejemplo) produce cambios muy grandes en los coecientes de regresión.

(60)

El nivel de tolerancia de una variable se obtiene restando a 1 el

coeciente de determinación (R2_{) que resulta al regresar esa variable}

sobre el resto de variables independientes. Valores de tolerancia muy pequeños indican que esa variable puede ser explicada por una combinación lineal del resto de variables, lo cual signica que existe colinealidad.

Los factores de inación de la varianza (FIV) son los inversos de los niveles de tolerancia. Cuanto mayor es el FIV de una variable, mayor es la varianza del correspondiente coeciente de regresión. De ahí que uno de los problemas de la presencia de colinealidad (tolerancias pequeñas, FIVs grandes) sea la inestabilidad de las estimaciones de los coecientes de regresión.

Como regla se puede utilizar: Las variables independientes son colineales si FIV> 10. Las variables que tienen FIV alto y parecidos están altamente correlacionadas.

(61)

Regresión Lineal Múltiple

Como los FVI's son menores

que 10, entonces se cumple

el supuesto de no-colinealidad. Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Arena Arcilla Densidad 1 ,000 -4,734 -,753 3,507 -16,604 ,360 -,953 -,168 ,069 -,066 ,167 1,473 ,259 ,082 ,121 ,000 6,117 7,036 43,037 Modelo Modelo

FIV Tolerancia Estadísticos de colinealidad (Constante) Arena Arcilla Densidad 1 1,000 1,000 1,229 ,814 1,229 ,814 Modelo Modelo Coeficientesa

Índice de condición

Autovalores (Constante) Arena Arcilla Densidad Proporciones de la varianza 1 2 3 4 1 ,58 ,25 ,37 ,99 55,226 ,001 ,41 ,24 ,53 ,01 28,401 ,005 ,00 ,51 ,10 ,00 13,781 ,021 ,00 ,00 ,00 ,00 1,000 3,973 Modelo Dimensión Modelo Dimensión Diagnósticos de colinealidada

Página 3

Si se detecta la presencia de colinealidad hay que i) aumentar el tamaño de la muestra; ii) crear indicadores múltiples combinando variables; iii) excluir variables redundantes, quedándonos con las que consideremos más

importantes.

(62)

Regresión por pasos: Qué variables debe incluir la ecuación de regresión

La regresión por pasos (stepwise) es una método para seleccionar las variables independientes que debe incluir un modelo de regresión. Se seleccionan de acuerdo al siguiente criterio estadístico.

Criterio de entrada: El valor−p < 0, 05 y se debe seleccionar las variables con menor valor−p en la ANOVA.

Método Hacia adelante:

Las variables se incorporan al modelo de regresión una a una.

En el primer paso se selecciona la variable independiente que, además de superar los criterios de entrada, tiene la más alta correlación. En los siguientes pasos se utiliza como criterio de selección el

coeciente de correlación parcial: van siendo seleccionadas una a una las variables que, además de superar los criterios de entrada, poseen el coeciente de correlación parcial más alto en valor absoluto.

La selección de variables se detiene cuando no quedan variables que superen el criterio de entrada.

(63)

En el ejemplo anterior, se realizarán todas las regresiones posible,

identicando, las variables independientes, el R2_,_{estadístico de prueba F, y}

el valor−p. El mejor modelo es el que tiene, menos variables, mayor R2_,

mayor F y menor valor−p.

Variables R2 F valor−p x1 0,112 1,773 0,20427 x2 0,711 1,072 0,31799 x3 0,564 18,096 0,00080 x1, x2 0,131 0,978 0,40227 x1, x3 0,674 13,436 0,00069 x2, x3 0,642 11,662 0,00126 x1, x2, x3 0,697 9,196 0,00196

El mejor modelo sería by = bβ0+ bβ3· x3.

Aunque y = bb β0+ bβ1· x1+ bβ3· x3,también es un muy buen modelo.

(64)

Regresión Lineal Múltiple

Por defecto SPSS elige como el

mejor modelo by = βb0 + bβ3 · x3.

Tiempo de procesador Tiempo transcurrido Memoria necesaria Memoria adicional requerida para los diagramas de residuos Recursos 0 bytes 1972 bytes 00:00:00,031 00:00:00,031 ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT IS /METHOD=FORWARD Densidad Arena Arcilla.

[Conjunto_de_datos1] D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlac ión y Regresión Lineal Simple)\datos\eje_reg_mult_indice de sitio.sav

Método Variables eliminadas Variables introducidas 1 Hacia adelante (criterio: Prob. de F para entrar <= , 050) . Densidad Modelo Modelo Variables introducidas/eliminadasa

a. Variables predictoras: (Constante), Densidad

a. Variables predictoras: (Constante), Densidad b. Variable dependiente: Índice de sitio

Página 30

(65)

Para que coincida con los cálculos efectuados antes, debemos ser menos restrictivos con el valor−p. Fíjese que la arena es signicativa para valores superiores a 0,056. Utilizaremos el valor de 0,06.

Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Densidad 1 ,001 -4,254 -,751 3,894 -16,566 ,000 8,578 5,362 45,999 Modelo Modelo Coeficientesa

Correlación parcial Sig. t

Beta dentro Tolerancia

Estadísticos de colinealidad Arena Arcilla 1 1,000 -,424 ,116 -1,686 -,280a 1,000 ,503 ,056 2,096 ,332a Modelo Modelo Variables excluidasb

a. Variables predictoras en el modelo: (Constante), Densidad b. Variable dependiente: Índice de sitio

REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.06) POUT(.10) /NOORIGIN

/DEPENDENT IS

/METHOD=FORWARD Densidad Arena Arcilla.

Regresión

Página 31

(66)

Regresión Lineal Múltiple

Los resultados considerando la nueva conguración, sería

1 2 Hacia adelante (criterio: Prob. de F para entrar <= , 060) . Arena Hacia adelante (criterio: Prob. de F para entrar <= , 060) . Densidad

Error típ. de la estimación R cuadrado corregida R cuadrado R 1 2 ,821b ,674 ,624 1,1920 1,3286 ,533 ,564 ,751a Modelo Modelo

a. Variables predictoras: (Constante), Densidad b. Variables predictoras: (Constante), Densidad, Arena

Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total Regresión Residual Total 1 2 15 56,654 1,421 13 18,472 ,001b 13,436 19,091 2 38,182 15 56,654 1,765 14 24,712 ,001a 18,096 31,942 1 31,942 Modelo Modelo ANOVAc

a. Variables predictoras: (Constante), Densidad b. Variables predictoras: (Constante), Densidad, Arena c. Variable dependiente: Índice de sitio

Página 33 Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Densidad (Constante) Densidad Arena 1 2 ,056 2,096 ,332 ,074 ,155 ,000 -4,732 -,749 3,494 -16,533 ,000 6,782 5,788 39,256 ,001 -4,254 -,751 3,894 -16,566 ,000 8,578 5,362 45,999 Modelo Modelo Coeficientesa

Correlación parcial Sig. t

Beta dentro Tolerancia

Estadísticos de colinealidad Arena Arcilla Arcilla 1 2 -,168b -,953 ,360 -,265 ,814 1,000 -,424 ,116 -1,686 -,280a 1,000 ,503 ,056 2,096 ,332a Modelo Modelo Variables excluidasc

a. Variables predictoras en el modelo: (Constante), Densidad b. Variables predictoras en el modelo: (Constante), Densidad, Arena c. Variable dependiente: Índice de sitio

Página 34

(67)

Creación de Modelos: Regresión polinomial (Polinomio de grado k)

Un polinomio de grado k, con una variable independiente, sería b

y = bβ0+ bβ1· x1+ bβ2· x12+ bβ3· x31+ . . . + cβk· xk1.

Basándonos en la regresión lineal múltiple, podemos ajustar cualquier modelo lineal, por ejemplo un polinomio.

Considerando el ejemplo anterior del DAP= x y Volumen= y, podemos ajustar el siguiente modelo:

b

y = bβ0+ bβ1· x1+ bβ2· x21

Mediante la regresión curvilínea, ya encontramos la estimación de los parámetros. También podemos solucionar este problema con la

regresión multiple. Basta tan solo crear una nueva variable x2= x21.

Luego se debe ajustar una regresión lineal múltiple.

(68)

Creación de Modelos: Regresión polinomial

(69)

(70)

(71)

Creación de Modelos: Regresión polinomial Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,995a ,990 ,987 ,007777 Modelo Modelo

a. Variables predictoras: (Constante), DAP2, DAP

Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 9 ,042 ,000 7 ,000 ,000a 347,089 ,021 2 ,042 Modelo Modelo ANOVAb

a. Variables predictoras: (Constante), DAP2, DAP b. Variable dependiente: Volumen

Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) DAP DAP2 1 ,000 8,360 1,555 ,000 ,001 ,017 -3,111 -,579 ,002 -,007 ,160 1,573 ,011 ,017 Modelo Modelo Coeficientesa

a. Variable dependiente: Volumen

Página 3

El modelo estimado sería b

y = 0, 017 − 0, 07x1+ 0, 01x21.

Estos cálculos coinciden los

obtenidos anteriormente, con la

regresión curvilínea. Con esta

metodología se podría ajustar cualquier polinomio.

(72)

Creación de Modelos: Modelo con interacción

(Modelo de interacción de segundo orden)

Un Modelo de interacción de segundo orden, con dos variables independientes, sería b y = bβ0+ βb₁· x₁ | {z } Efecto principal + βb₂· x₂ | {z } Efecto principal + bβ3· x1· x2 | {z } Interacción . Ejemplo

Considere un problema donde se mide a 16 plantas, la Biomasa Total

(y), el DAC (x1) y la Altura (x2). Los datos son (http://bit.ly/dac_bt):

DAC 2,64 2,92 2,72 2,63 2,77 2,83 2,63 2,62 2,89 2,62 2,17 2,17 1,89 3,25 3,64 2,82

Altura 10,5 16,1 16,1 13,8 14,8 16,2 14,6 15,9 12,1 14,0 10,9 11,5 10,9 11,9 18,3 9,0

BT 3,18 4,30 3,86 4,09 3,84 4,33 4,26 4,06 3,76 3,83 3,25 2,89 3,08 3,94 3,98 3,64

(73)

Regresión Lineal Múltiple

Primero ajustaremos un modelo sin interacción, los resultados son: Comentarios

Datos

Conjunto de datos activo Filtro Peso Segmentar archivo Núm. de filas del archivo de trabajo Definición de perdidos Casos utilizados Sintaxis Tiempo de procesador Tiempo transcurrido Memoria necesaria Memoria adicional requerida para los diagramas de residuos Entrada

Tratamiento de los datos perdidos Recursos 0 bytes 1652 bytes 00:00:00,000 00:00:00,000 REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA

/CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT BT /METHOD=ENTER DAC Altura. Los estadísticos se basan en los casos sin valores perdidos para ninguna variable de las utilizadas. Los valores perdidos definidos por el usuario se tratarán como perdidos.

16 <ninguno> <ninguno> <ninguno> Conjunto_de_datos1 D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlación y Regresión Lineal Simple)\datos\Modelo con interacción.sav Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,774a ,599 ,537 ,30397 Modelo Modelo

a. Variables predictoras: (Constante), Altura (cm), Diámetro a la altura del cuello (mm)

Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 15 2,997 ,092 13 1,201 ,003a 9,716 ,898 2 1,795 Modelo Modelo ANOVAb

a. Variables predictoras: (Constante), Altura (cm), Diámetro a la altura del cuello (mm) b. Variable dependiente: Biomasa Total

Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Diámetro a la altura del cuello (mm) Altura (cm) 1 ,021 2,620 ,534 ,035 ,091 ,109 1,721 ,351 ,221 ,380 ,016 2,778 ,545 1,514 Modelo Modelo Coeficientesa

a. Variable dependiente: Biomasa Total

Página 1

R2es de 59,9% y no existe evidencia

muestral para armar que el DAC aporta en la predicción de la Biomasa (t = 1, 721, valor−p=0,109). →←

(74)

Ahora ajustaremos el siguiente modelo con interacción: \

Biomasa = bβ0+ bβ1·DAC + bβ2·Altura + bβ3·DAC · Altura.

(75)

(76)

El modelo estimado sería \

Biomasa = −4, 594 + 2, 534 · DAC + 0, 557 · Altura − 0, 162 · DAC · Altura

Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,893a ,798 ,748 ,22443 Modelo Modelo

a. Variables predictoras: (Constante), DAC*Altura, Diámetro a la altura del cuello (mm), Altura (cm)

Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 15 2,997 ,050 12 ,604 ,000a 15,832 ,797 3 2,392 Modelo Modelo ANOVAb

a. Variables predictoras: (Constante), DAC*Altura, Diámetro a la altura del cuello (mm), Altura (cm)

b. Variable dependiente: Biomasa Total

Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Diámetro a la altura del cuello (mm) Altura (cm) DAC*Altura 1 ,005 -3,442 -4,153 ,047 -,162 ,002 4,040 3,282 ,138 ,557 ,002 3,919 2,338 ,647 2,534 ,027 -2,525 1,819 -4,594 Modelo Modelo Coeficientesa

Página 2

El R2_,_{considerando la}

inter-acción, ha mejorado, ahora es de un 79,8%. Tanto el DAP (t = 3, 919, valor−p =

0, 002) como la Altura (t =

4, 040,valor−p = 0, 002)

in-uyen en la predicción de la Biomasa. Además existe un efecto conjunto entre el DAP y la Altura (t = −3, 442, valor−p = 0, 005).

(77)

Creación de Modelos: Modelo con variables indicadoras

(Modelos con variables indicadoras)

Los modelos con variables indicadoras se utilizan cuando una de las variables independientes es cualitativa, la metodología trata de recodicar esta variable en variables que tomen el valor 0 o 1 (ausencia o presencia de una característica).

Ejemplo

Considere un problema donde se mide a 16 plantas, la Biomasa Total, el DAC y el origen (1=Central, 2=Precordillera y 3=valle central). Los datos son:

DAC (x1) 2,64 2,92 2,72 2,63 2,77 2,83 2,63 2,62 2,89 2,62 2,17 2,17 1,89 3,25 3,64 2,82

BT (y) 3,18 4,30 3,86 4,09 3,84 4,33 4,26 4,06 3,76 3,83 3,25 2,89 3,08 3,94 3,98 3,64 Origen 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3

(78)

Dado que se tienen tres orígenes, se denen dos variables indicadoras x2 y

x3 tales, que

x2=

1, Si la semilla provenia de la Costa

0, En otro caso.

x3 =

1, Si la semilla provenia de la Precordillera

0, En otro caso.

El modelo sería b

y = bβ0+ bβ1· x1+ bβ2· x2+ bβ3· x3+ bβ4· x1· x2+ bβ5· x1· x3

(79)

(80)

(81)

Regresión Lineal Múltiple

Datos

Conjunto de datos activo Filtro Peso Segmentar archivo Núm. de filas del archivo de trabajo Definición de perdidos Casos utilizados Sintaxis Tiempo de procesador Tiempo transcurrido Memoria necesaria Memoria adicional requerida para los diagramas de residuos Entrada

Tratamiento de los datos perdidos Recursos 0 bytes 2748 bytes 00:00:00,000 00:00:00,000 REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT BT /METHOD=ENTER DAC x2 x3 x1x2 x1x3. Los estadísticos se basan en los casos sin valores perdidos para ninguna variable de las utilizadas. Los valores perdidos definidos por el usuario se tratarán como perdidos.

16 <ninguno> <ninguno> <ninguno> Conjunto_de_datos1 D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlación y Regresión Lineal Simple)\datos\Modelo con interacción.sav Error típ. de la estimación R cuadrado corregida R cuadrado R 1 ,825a ,680 ,521 ,30943 Modelo Modelo

a. Variables predictoras: (Constante), x1x3, Diámetro a la altura del cuello (mm), x1x2, x3, x2 Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 15 2,997 ,096 10 ,957 ,025a 4,260 ,408 5 2,039 Modelo Modelo ANOVAb

a. Variables predictoras: (Constante), x1x3, Diámetro a la altura del cuello (mm), x1x2, x3, x2

b. Variable dependiente: Biomasa Total

Error típ. B Beta t Sig. Coeficientes tipificados Coeficientes no estandarizados (Constante) Diámetro a la altura del cuello (mm) x2 x3 x1x2 x1x3 1 ,468 ,755 1,311 ,587 ,444 ,276 1,151 4,484 1,328 1,529 ,676 -,431 -,754 1,564 -,674 ,318 -1,050 -4,094 3,639 -3,823 ,012 3,043 ,596 ,212 ,646 ,017 2,872 ,601 1,726 Modelo Modelo Coeficientesa

Página 1

(82)

Diámetro a la altura del cuello (mm)

4,00 3,50 3,00 2,50 2,00 1,50 Biomasa Total 4,50 4,00 3,50 3,00 2,50 Valle central Precordillera Costa Valle central Precordillera Costa Origen Costa;Costa: R2 Lineal = 0,372 Precordillera;Precordillera: R2 Lineal = 0,483 Valle central;Valle central: R2

Lineal = 0,894

Página 7

Modelo para la costa

(x2 = 1 y x3 = 0):

b

y = (1, 726 − 3, 823) + (1, 529 + 0, 646) · x1

= −2, 096 + 2, 175 · x1

Modelo para la Precordillera

(x2 = 0 y x3 = 1):

b

y = (1, 726−, 674) + (0, 646 + 0, 444) · x1

= 1, 053 + 1, 090 · x1

Modelo para la Valle central

(x2 = 0 y x3 = 0):

b

y = 1, 726 + 0, 646 · x1

(83)

Proceso de decisión para el análisis de regresión múltiple

Paso 1: Objetivos. El investigador debe considerar tres asuntos fundamentales: la conveniencia del programa de investigación, la especicación de una relación estadística y la selección de las variables dependientes e independientes.

Paso 2: Diseño de la investigación. El investigador debe considerar

asuntos tales como el tamaño muestral, el R2_{, la naturaleza de las}

variables independientes y la posible creación de nueva variables para representar las especiales relaciones entre las variables dependientes e independientes.

Paso 3: Supuestos del modelo. Vericar que cumplen las variables individuales los supuestos de: Normalidad, Linealidad,

Homocedasticidad e Independencia.

(84)

Proceso de decisión para el análisis de regresión múltiple

Paso 4: Estimación del modelo de regresión y valoración. (1) Seleccionar un método para especicar el modelo de regresión a estimar, (2) evaluar la signicación estadística del modelo conjunto en la predicción de la variable criterio y (3) determinar si cualquiera de las observaciones ejerce una indebida inuencia sobre los resultados. Paso 5: Interpretación del valor teórico de la regresión. (1) Evaluar la ecuación de predicción con los coecientes de regresión, (2) Evaluar la importancia relativa de las variables independientes con los coecientes beta estandarizados y (3) Valoración de la

multicolinealidad y sus efectos.

Paso 6: Validación de los resultados. Después de identicar nuestro mejor modelo de regresión, el paso nal consiste en asegurarse de que represente a la población general (generalización) y que sea apropiada para situaciones en las cuales será utilizada

(transferibilidad).