Dr. Juli´an Gpe. Tapia Aguilar
juliangpe@yahoo.com.mx y juliangpe@prodigy.net.mx Universidad del Valle de M´exico
Mayo de 2010
´
Indice
1. Regresi´on Lineal – Elementos 1
2. Ejemplos y Ejercicios 9
1.
Regresi´
on Lineal – Elementos
Es usual en experimentos investigar la relaci´on entre dos variables, X que la consideraremos determin´ıstica y la otraY, que ser´a considerada aleatoria.
Usualmente se sospecha alguna relaci´on funcional,
Y =f(X;ω),
en donde el s´ımbolo ω es para indicar que en la relaci´on tambi´en puede aparecer alg´un elemento probabil´ıstico. De las relaciones que m´as investigaremos est´an,
Modelo Lineal
f(x) =α0+α1·x.
Modelo Cuadr´atico
f(x) =α0+α1·x+α2·x2.
Modelo C´ubico
f(x) =α0+α1·x+α2·x2+α3·x3.
Modelo Polinomial
f(x) =α0+α1·x+α2·x2+· · ·+αn·xn.
Modelo Logar´ıtmico
f(x) =α+βlnx.
Modelo Lineal M´ultiple
f(x) =α0+α1·x1+α2·x2+· · ·+αn·xn.
UsualmenteX es conocida como variable de control o variable regresora y en C´alculo se le conoce como la variable independiente. Entonces en la investigaci´on se trata de observar la variable de respuestaY que en C´alculo se le llama la variable dependienteY.
La variable Y cuando x toma un valor, digamos x=xi, que es determin´ıstico, es una variable
aleatoria con una distribuci´on conocida. Normalmente escribiremos,
(Y |X=xi),
y que usualmente abreviaremos como,
(Y |X =xi) =Yxi, o simplemente: Yi (1) Cuando se supone que la relaci´on entrex yY es “cuasi” lineal. O de manera m´as general, diremos queY yx satisface el modelo lineal,
E(Y |X=x) =α+β·x. ¿C´omo entra la estocasticidad en el modelo?
En mi opini´on, la variable aleatoriaY, dada la variablex, est´a relacionada con la variablex de la siguiente manera,
Yx =α+β·x+ Υ,
donde la variable aleatoria Υ representa cuanto la v.a.Y est´a alejada de la l´ınea rectay=α+β·x, que por supuesto es independiente de la variable x. Entonces esta variable Υ satisface,
E(Υ) = 0 y Var(Υ) =σ2.
Si en un experimento (controlado u observacional) uno asigna valores a la variable x, valores que representaremos orx1,x2,x3,. . . ,xn y observa la respuesta de la v.a.Y, que denotaremos por
y1,y2,y3,. . . ,yn respectivamente, entonces tenemos un conjunto de pares ordenados,
{(valor asignado,respuesta observada)},
que simb´olicamente representamos por,
{(x1, y1),(x2, y2),(x3, y3),· · ·,(xn, yn)}.
O
-6
[image:3.595.209.406.82.247.2]x Y
Figura 1: En este caso el diagrama de dispersi´on muestra que los puntos est´an aleatoriamente colocados por arriba y por abajo sin mostrar alguna dependencia en particular. Dir´ıamos que el conjunto dey’s est´an representados por una constante, que tendr´ıa que ser la media ¯y.
O
-6
x
Y y=β
0+β1·x
[image:3.595.213.407.324.472.2]O
-6
x Y
y=β0+β1·x+β2·x2
[image:4.595.215.405.100.249.2]... ... ... ... ... ... ... ... ... ... ... .... ... ... ... ... ... ... . ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ... ... . ... ... ... ... ... ... ... ... ... ... ... .... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
Figura 3: En este caso el diagrama de dispersi´on muestra que los puntos est´an aleatoriamente colocados por arriba y por abajo de una par´abola.
Supondremos el modelo lineal.
(Y |X=x) =β0+β1·x+ Υ, (2)
donde la variable aleatoriaϵrepresenta un error intr´ınseco de la respuesta. Usualmente supondremos que
ϵ∼ N(0, σ2). (3)
∑
i
yi = nβ0+ (
∑
i
xi)β1 (4)
∑
i
xiyi = (
∑
i
xi)β0+ (
∑
i
x2i)β1 (5)
de donde determinantes nos da como soluci´on,
b
β0=
∑iyi
∑
ixi
∑
ixiyi
∑
ix2i
∑n ∑ixi
ixi
∑
ix2i
,
b
β1 =
∑n ∑iyi
ixi
∑
ixiyi
∑n ∑ixi
ixi
∑
ix2i
Es costumbre resolver para los coeficientesβ0 yβ1 de la siguiente manera,
b
β0=
(∑ix2i)(∑iyi)−(∑ixi)(∑ixiyi)
n∑ix2i −(∑ixi)2
, (6)
y,
b
β1 =
n∑ixiyi−(
∑
ixi)(
∑
iyi)
n∑ix2i −(∑ixi)2
, (7)
y aprovechar la ecuaci´on 4, que dividida porn, se ve como,
∑
iyi
n =β0b +
∑
ixi
y que se puede reescribir como,
¯
y=β0b + ¯x·β1,b dando para el coeficiente β0,
b
β0= ¯y−βb1·x.¯ (8)
Sxx =
n
∑
i
(xi−x)¯ 2 =
∑
i
x2i − 1 n(
∑
i
xi)2. (9)
Sxy =
n
∑
i
(xi−x)(y¯ i−y) =¯
∑
i
xiyi−
1 n(
∑
i
xi)(
∑
i
yi). (10)
Syy =
n
∑
i
(yi−x)¯ 2 =
∑
i
yi2− 1 n(
∑
i
yi)2. (11)
En t´erminos de estas sumas tenemos tambi´en que,
b
β1 = Sxy
Sxx. (12)
Si manejamos a la v.a.Y,
SxY =
n
∑
i
(xi−x)(Y¯ i−Y¯) = n
∑
i
(xi−x)Y¯ i =
∑
i
xiYi−
1 n(
∑
i
xi)(
∑
i
Yi). (13)
SY Y =
n
∑
i
(Yi−Y¯)2 =
∑
i
Yi2− 1 n(
∑
i
Yi)2. (14)
Ejemplo 1 Un art´ıculo en Concrete Research present´o datos sobre la resistencia a la compresi´on xy a la permeabilidad intr´ınsecay de varias mezclas de concreto y “curas.” En resumen se obtuvo la siguiente informaci´on,1
n= 14, ∑xi = 43,
∑
yi= 572,
∑
x2i = 157,42, ∑y2i = 23,530, ∑xiyi = 1,697,80.
1. Calcule los estimadores de m´ınimos cuadrados para la pendiente e intersecci´on al origen.
2. Use la ecuaci´on de la recta ajustada para predecir la permeabilidad que deber´ıa observada cuando la resistencia a la compresi´on es de x= 4,3.
3. De una estimaci´on de la permeabilidad media cuando la resistencia a la compresi´on esx= 3,7. 4. Suponga que el valor observado de la permeabilidad es dey= 46,1 cuando la resistencia a la
compresi´on es de x= 3,7. Calcule el valor residual correspondiente. 1
No es inusual encontrar le siguiente informaci´on. De hecho cualquier calculadora de bolsillo (arriba de $ 100.00), normalmente al introducir los datos (xi, yi), uno obtiene de manera inmediata an,
∑ xi,
∑ x2i,
∑ yi,
∑ y2i, y
Soluci´on: Es inmediato de la informaci´on proporcionada que los coeficientes para el modelo de la regresi´on lineal son,
b
β0 =
572 43
1,697,80 157,42
14 43
43 157,42
= 48,0130, b
β1 =
14 572
43 1,697,80
14 43
43 157,42
=−2,3298.
La recta lineal ajustada al modelo es,
ˆ
y = 48,0130−2,3298·x.
Observaci´on Humedad Evaporaci´on relativa ( %) del solvente ( %)
1 35.3 11.0
2 29.7 11.1
3 30.8 12.5
4 58.8 8.4
5 61.4 9.3
6 71.3 8.7
7 74.4 6.4
8 76.7 8.5
9 70.7 7.8
10 57.5 9.1
11 46.4 8.2
12 28.9 12.2
13 28.1 11.9
14 39.1 9.6
15 46.8 10.9
16 48.5 9.6
17 59.3 10.1
18 70.0 8.1
19 70.0 6.8
20 74.4 8.9
21 72.1 7.7
22 58.1 8.5
23 44.6 8.9
24 33.4 10.4
25 28.1 11.1
Soluci´on: Una calculadora nos da,
n= 25, ∑xi = 1,314,90,
∑
yi = 235,70,
∑
x2i = 76,308,53, ∑yi2= 2,286,07, ∑xiyi = 11,824,44.
Y mi calculadora da para los par´ametros de la regresi´on lineal,
β0 = 13,63887 y β1 =−0,08006. Y el modelo de regresi´on lineal basado en los datos es,
ˆ
y= 13,63887−0,08006·x.
Si usamos las f´ormulas para las estimaciones de los par´ametros de la regresi´on, Ecuaciones 6 y 7, tendremos,
b
β0 = (
∑
ix2i)(
∑
iyi)−(
∑
ixi)(
∑
ixiyi)
n∑ix2
i −(
∑
ixi)2
= (76,308,53)(235,70)−(1,314,90)(11,824,44)
y,
b
β1 = n
∑
ixiyi−(
∑
ixi)(
∑
iyi)
n∑ix2
i −(
∑
ixi)2
= 25(11,824,44)−(1,314,90)(235,70)
25(76,308,53)−(1,314,90)2 =−0,08006.
Para futuras inferencias necesitamos las sumas,
Sxx = ∑
i
x2i − 1 n(
∑
i
xi)2= 76,308,53−
1
25(1,314,90)
2 = 7,150,04950.
Sxy = ∑
i
xiyi−
1 n(
∑
i
xi)(
∑
i
yi) = 11,824,44−
1
25(1,314,90)(235,70) =−572,43720.
Syy = ∑
i
yi2− 1 n(
∑
i
yi)2 = 2,286,07−
1
25(235,70)
2 = 63,89040.
Entonces la suma de los cuadrados de los residuales,
SSE=Syy−b1Sxy = 63,89040−(−0,08006)(−572,43720) = 18,09542.
que nos da una desviaci´on est´andar estimada de,
s=
√
SSE n−2 =
√
18,09542
23 = 0,88699.
Ahora ¿qu´e queremos probar?
Por ejemplo, estariamos interesados en, si la regresi´on es o no significativa; esto es, quisieramos verificar la prueba de hip´otesis,
H0 : β1 = 0 H1 : β1 ̸= 0
Para esto necesitamos el esta´ıstica para la prueba y la distribuci´on de este estad´ıstico. Sabemos que el estad´ıstico es una Tν conν =n−2gl.= 23. Esto es,
Tν =
B1 S/√Sxx
.
En base a los datos de la regresi´on lineal tenemos una observaci´on paraTν de,
tobs = b1 s/√sxx
= −0,08006
0,88699/√7,150,04950 =−7,62648.
Para tomar una desici´on, note que el valor P de la prueba es,
P = 2·Pr{T23<−7,62648}= 0,96400×10−1,
que es muy peque˜no. Por lo tanto tendremos que rechazar la hip´otesis nula, β1 = 0, en favor de la hip´otesis alternativa que asegura que β1 ̸= 0, lo cual confirma que en efecto la regresi´on si es significativa. Esto es, concluimos que la informaci´on de x si es importante para estimar µY|x y/o
2.
Ejemplos y Ejercicios
1. M´etodos de regresi´on lineal fueron usados para los datos de un estudio sobre la relaci´on entre la temperatura superficial en carreteras (x) y la inclinaci´on del pavimento (y). En resumen se obtuvo la siguiente informaci´on,
n= 20, ∑xi = 1478,
∑
yi = 12,75,
∑
x2i = 143,215,8, ∑yi2= 8,86, ∑xiyi= 1083,67.
a) Calcule los estimadores de m´ınimos cuadrados para la pendiente e intersecci´on al origen. Grafique la recta de regresi´on lineal.
b) Use la ecuaci´on de la recta ajustada para predecir la deflecci´on del pavimento que se deber´ıa observar cuando la temperatura de la superficie fuera de 85◦F.
c) ¿Cu´al es la media de la deflecci´on del pavimento cuando la temperatura en la superficie es de 90◦F?
d) ¿Qu´e cambio en la media de la deflecci´on del pavimento deber´ıa esperarse cuando la temperatura en la superficie del pavimento cambia en 1◦F?
2. Considere el modelo de regresi´on lineal desarrollado en el Ejercicio 1.
a) Suponga que las temperaturas ahora se miden en grados ◦C. Escriba el modelo de re-gresi´on lineal que corresponde.
b) ¿Qu´e cambio en la media de la deflecci´on del pavimento deber´ıa esperarse cuando la temperatura en la superficie del pavimento cambia en 1◦C?
Equipo Juegos Ganados Yardas Corridas
en NFL y por Oponentex
Washington 10 2205
Minnesota 11 2096
New England 11 1847
Oakland 13 1903
Pittsburgh 10 1457
Baltimore 11 1848
Los Angeles 10 1564
Dallas 11 1821
Atlanta 4 2477
Buffalo 2 2476
Chicago 7 1984
Cincinnati 10 1917
Cleveland 9 1761
Denver 9 1709
Detroit 6 1901
Green Bay 5 2288
Houston 5 2072
Kansas City 5 2861
Miami 6 2411
New Orleans 4 2289
NY Giants 3 2203
NY Jets 3 2592
Philadelphia 4 2053
St. Luis 10 1979
San Diego 6 2048
San Francisco 8 1786
Seattle 2 2876
Tampa Bay 0 2560
a) Calcule los estimadores de m´ınimos cuadrados para la pendiente e intersecci´on al origen. Grafique la recta de regresi´on lineal.
b) Calcule el n´umero medio de juegos ganados por un equipo si sus oponentes se les puede limitar a 1800 yardas por carrera.
c) ¿Cu´al es el cambio en el n´umero esperado de juegos ganados que se puede asociar con una disminuci´on de 100 yardas corridas por sus oponentes?
d) Para incrementar en uno el n´umero de juegos ganados, ¿cu´al debe de ser el decremento en el n´umero de yardas permitidas por la defensa?
4. Un art´ıculo en Technometrics por S. C. Narula y J. L. Wellington (“Prediction, Linear Re-gression, and Minimum Sum of Relative Errors” Vol. 19, 1977) presentan datos de precios de venta e intereses anuales para 24 casas. Los datos se presentan en la siguiente Tabla.
Precio de venta Intereses (1000´s) (1000´s)
25.9 4.9176
29.5 5.0208
27.9 4.5429
29.9 3.8910
30.9 5.8980
28.9 5.6039
35.9 5.8282
31.5 5.3003
31.0 6.2712
30.9 5.9592
30.0 5.0500
36.9 8.2464
41.9 6.6969
10.5 7.7841
43.9 9.0384
37.5 5.9894
37.9 7.5422
44.5 8.7951
37.9 6.0831
38.9 8.3607
36.9 8.1400
45.8 9.1416
a) Suponiendo que un modelo de regresi´on lineal simple es el adecuado, obtenga el ajuste por m´ınimos cuadrados para el precio de venta contra los intereses pagados.
b) Encuentre la media en el precio de venta cuando el inter´es es de x= 7,50.
c) Calcule el valor ajustado en y cuandox= 5,8980 y calcule el residual que corresponde. d) Calcule los valores ajustados yi, i = 1,2,3,· · ·, n, que corresponden a cada uno de los
valoresxi, i= 1,2,3,· · · , n. Entonces construya una gr´afica de ˆyi en contrayi y haga un
comentario acerca de la forma en que esta gr´afica deber´ıa de verse si la relaci´on entrey y x fuera determin´ıstica. En base a las gr´aficas de puntos y a la de la curva ajustada, cree que el inter´es pagado en bueno como variableregresora?
Mes Temperatura Uso/1000
Ene 21 185.79
Feb 24 214.47
Mar 32 288.03
Abr 47 424.84
May 50 454.58
Jun 59 539.03
Jul 68 621.55
Ago 74 675.06
Sep 62 562.03
Oct 50 452.93
Nov 41 369.95
Dic 30 273.98
a) Suponiendo que un modelo de regresi´on lineal simple es el adecuado, obtenga el ajuste por m´ınimos cuadrados para el uso de vapor (y) contra la temperatura promedio (x).
b) ¿Cu´al es el uso promedio de vapor esperado cuando la temperatura promedio es de 55◦F? c) ¿Cu´al es el cambio promedio esperado en el gasto de vapor cuando el promedio mensual
de la temperatura cambia por 1◦F?
d) Suponga que la temperatura promedio mensual es de 47◦F. Calcule el valor ajustado para el uso mensual de vapor y el residual correspondiente.
6. Un art´ıculo en el Journal of Sound and Vibration (Vol. 151, 1991, pp. 383-394) describe un estudio de una investigaci´on de la relaci´on entre la exposici´on al ruido y la hipertensi´on. Si x = aumento en la presi´on sangu´ınea (mmHg), y y = nivel de ruido (dB), los siguientes datos son representativos de los mostrados en ese art´ıculo.
x 1 0 1 2 5 1 4 6 2 3
y 60 63 65 70 70 70 80 80 80 80
x 5 4 6 8 4 5 7 9 7 6
y 85 89 90 90 90 90 94 100 100 100
a) Dibuje el diagrama de dispersi´on para el aumento en la presi´on sangu´ınea (y) contra el nivel de ruido (x). ¿Le parece razonable un modelo de regresi´on lineal simple para esta situaci´on?
b) Ajuste el modelo de regresi´on lineal simple por el m´etodo de m´ınimos cuadrados.
c) Encuentre el valor medio predicho para el aumento el la presi´on sangu´ınea asociado para un nivel de ruido de 85 dB.
desgaste volum´etrico (10−4mm3), los siguientes datos son representativos mostrados en la publicaci´on.
y 240 181 193 155 172 110 113 75 94 x 1.6 9.4 15.5 20.0 22.0 35.5 43.0 40.5 33.0
a) Dibuje el diagrama de dispersi´on para los datos. ¿Le parece plausible un modelo de regresi´on lineal simple?
b) Ajuste el modelo de regresi´on lineal simple por el m´etodo de m´ınimos cuadrados.
c) Calcule una predicci´on para el desgaste por rozamiento cuando la viscocidad es de 30 unidades.
d) Obtenga el valor ajustado de y cuandox= 22,0 y calcule el residual correspondiente.
8. Un art´ıculo en el Journal of Environmental Engineering(Vol. 115, No. 3, 1989, pp. 608-619) report´o los resultados de un estudio sobre la ocurrencia de sodio y cloro en la superficie de arroyuelos en central Rhode Island. Los datos a continuaci´on presentan la concentraci´on de cloroy (enmg/l) en ´areas carreteras y el derrame de agua x(en %).
y 4.4 6.6 9.7 10.6 10.8 10.9 11.8 12.1 14.3 x 0.19 0.15 0.57 0.70 0.67 0.63 0.47 0.70 0.60 y 14.7 15.0 17.3 19.2 23.1 27.4 27.7 31.8 39.5 x 0.78 0.81 0.78 0.69 1.30 1.05 1.06 1.74 1.62
a) Dibuje el diagrama de dispersi´on para los datos. ¿Le parece apropiado aqu´ı un modelo de regresi´on lineal simple?
b) Ajuste el modelo de regresi´on lineal simple por el m´etodo de m´ınimos cuadrados.
c) Estime le concentraci´on media de cloro para un goteo del 1 % en el ´area carretera.