• No se han encontrado resultados

Universidad del Valle de M´

N/A
N/A
Protected

Academic year: 2018

Share "Universidad del Valle de M´"

Copied!
13
0
0

Texto completo

(1)

Dr. Juli´an Gpe. Tapia Aguilar

juliangpe@yahoo.com.mx y juliangpe@prodigy.net.mx Universidad del Valle de M´exico

Mayo de 2010

´

Indice

1. Regresi´on Lineal – Elementos 1

2. Ejemplos y Ejercicios 9

1.

Regresi´

on Lineal – Elementos

Es usual en experimentos investigar la relaci´on entre dos variables, X que la consideraremos determin´ıstica y la otraY, que ser´a considerada aleatoria.

Usualmente se sospecha alguna relaci´on funcional,

Y =f(X;ω),

en donde el s´ımbolo ω es para indicar que en la relaci´on tambi´en puede aparecer alg´un elemento probabil´ıstico. De las relaciones que m´as investigaremos est´an,

Modelo Lineal

f(x) =α0+α1·x.

Modelo Cuadr´atico

f(x) =α0+α1·x+α2·x2.

Modelo C´ubico

f(x) =α0+α1·x+α2·x2+α3·x3.

Modelo Polinomial

f(x) =α0+α1·x+α2·x2+· · ·+αn·xn.

Modelo Logar´ıtmico

f(x) =α+βlnx.

(2)

Modelo Lineal M´ultiple

f(x) =α0+α1·x1+α2·x2+· · ·+αn·xn.

UsualmenteX es conocida como variable de control o variable regresora y en C´alculo se le conoce como la variable independiente. Entonces en la investigaci´on se trata de observar la variable de respuestaY que en C´alculo se le llama la variable dependienteY.

La variable Y cuando x toma un valor, digamos x=xi, que es determin´ıstico, es una variable

aleatoria con una distribuci´on conocida. Normalmente escribiremos,

(Y |X=xi),

y que usualmente abreviaremos como,

(Y |X =xi) =Yxi, o simplemente: Yi (1) Cuando se supone que la relaci´on entrex yY es “cuasi” lineal. O de manera m´as general, diremos queY yx satisface el modelo lineal,

E(Y |X=x) =α+β·x. ¿C´omo entra la estocasticidad en el modelo?

En mi opini´on, la variable aleatoriaY, dada la variablex, est´a relacionada con la variablex de la siguiente manera,

Yx =α+β·x+ Υ,

donde la variable aleatoria Υ representa cuanto la v.a.Y est´a alejada de la l´ınea rectay=α+β·x, que por supuesto es independiente de la variable x. Entonces esta variable Υ satisface,

E(Υ) = 0 y Var(Υ) =σ2.

Si en un experimento (controlado u observacional) uno asigna valores a la variable x, valores que representaremos orx1,x2,x3,. . . ,xn y observa la respuesta de la v.a.Y, que denotaremos por

y1,y2,y3,. . . ,yn respectivamente, entonces tenemos un conjunto de pares ordenados,

{(valor asignado,respuesta observada)},

que simb´olicamente representamos por,

{(x1, y1),(x2, y2),(x3, y3),· · ·,(xn, yn)}.

(3)

O

-6

[image:3.595.209.406.82.247.2]

x Y

Figura 1: En este caso el diagrama de dispersi´on muestra que los puntos est´an aleatoriamente colocados por arriba y por abajo sin mostrar alguna dependencia en particular. Dir´ıamos que el conjunto dey’s est´an representados por una constante, que tendr´ıa que ser la media ¯y.

O

-6

x

Y y=β

0+β1·x

[image:3.595.213.407.324.472.2]
(4)

O

-6

x Y

y=β0+β1·x+β2·x2

[image:4.595.215.405.100.249.2]

... ... ... ... ... ... ... ... ... ... ... .... ... ... ... ... ... ... . ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ... ... . ... ... ... ... ... ... ... ... ... ... ... .... ... ... ... ... ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

Figura 3: En este caso el diagrama de dispersi´on muestra que los puntos est´an aleatoriamente colocados por arriba y por abajo de una par´abola.

Supondremos el modelo lineal.

(Y |X=x) =β0+β1·x+ Υ, (2)

donde la variable aleatoriaϵrepresenta un error intr´ınseco de la respuesta. Usualmente supondremos que

ϵ∼ N(0, σ2). (3)

i

yi = nβ0+ (

i

xi)β1 (4)

i

xiyi = (

i

xi)β0+ (

i

x2i)β1 (5)

de donde determinantes nos da como soluci´on,

b

β0=

iyi

ixi

ixiyi

ix2i

nixi

ixi

ix2i

,

b

β1 =

niyi

ixi

ixiyi

nixi

ixi

ix2i

Es costumbre resolver para los coeficientesβ0 yβ1 de la siguiente manera,

b

β0=

(∑ix2i)(∑iyi)(∑ixi)(∑ixiyi)

nix2i (∑ixi)2

, (6)

y,

b

β1 =

nixiyi−(

ixi)(

iyi)

nix2i (∑ixi)2

, (7)

y aprovechar la ecuaci´on 4, que dividida porn, se ve como,

iyi

n =β0b +

ixi

(5)

y que se puede reescribir como,

¯

y=β0b + ¯x·β1,b dando para el coeficiente β0,

b

β0= ¯y−βb1·x.¯ (8)

Sxx =

n

i

(xi−x)¯ 2 =

i

x2i 1 n(

i

xi)2. (9)

Sxy =

n

i

(xi−x)(y¯ i−y) =¯

i

xiyi−

1 n(

i

xi)(

i

yi). (10)

Syy =

n

i

(yi−x)¯ 2 =

i

yi2 1 n(

i

yi)2. (11)

En t´erminos de estas sumas tenemos tambi´en que,

b

β1 = Sxy

Sxx. (12)

Si manejamos a la v.a.Y,

SxY =

n

i

(xi−x)(Y¯ i−Y¯) = n

i

(xi−x)Y¯ i =

i

xiYi−

1 n(

i

xi)(

i

Yi). (13)

SY Y =

n

i

(Yi−Y¯)2 =

i

Yi2 1 n(

i

Yi)2. (14)

Ejemplo 1 Un art´ıculo en Concrete Research present´o datos sobre la resistencia a la compresi´on xy a la permeabilidad intr´ınsecay de varias mezclas de concreto y “curas.” En resumen se obtuvo la siguiente informaci´on,1

n= 14, ∑xi = 43,

yi= 572,

x2i = 157,42, ∑y2i = 23,530, ∑xiyi = 1,697,80.

1. Calcule los estimadores de m´ınimos cuadrados para la pendiente e intersecci´on al origen.

2. Use la ecuaci´on de la recta ajustada para predecir la permeabilidad que deber´ıa observada cuando la resistencia a la compresi´on es de x= 4,3.

3. De una estimaci´on de la permeabilidad media cuando la resistencia a la compresi´on esx= 3,7. 4. Suponga que el valor observado de la permeabilidad es dey= 46,1 cuando la resistencia a la

compresi´on es de x= 3,7. Calcule el valor residual correspondiente. 1

No es inusual encontrar le siguiente informaci´on. De hecho cualquier calculadora de bolsillo (arriba de $ 100.00), normalmente al introducir los datos (xi, yi), uno obtiene de manera inmediata an,

xi,

x2i,

yi,

y2i, y

(6)

Soluci´on: Es inmediato de la informaci´on proporcionada que los coeficientes para el modelo de la regresi´on lineal son,

b

β0 =

572 43

1,697,80 157,42

14 43

43 157,42

= 48,0130, b

β1 =

14 572

43 1,697,80

14 43

43 157,42

=2,3298.

La recta lineal ajustada al modelo es,

ˆ

y = 48,01302,3298·x.

(7)

Observaci´on Humedad Evaporaci´on relativa ( %) del solvente ( %)

1 35.3 11.0

2 29.7 11.1

3 30.8 12.5

4 58.8 8.4

5 61.4 9.3

6 71.3 8.7

7 74.4 6.4

8 76.7 8.5

9 70.7 7.8

10 57.5 9.1

11 46.4 8.2

12 28.9 12.2

13 28.1 11.9

14 39.1 9.6

15 46.8 10.9

16 48.5 9.6

17 59.3 10.1

18 70.0 8.1

19 70.0 6.8

20 74.4 8.9

21 72.1 7.7

22 58.1 8.5

23 44.6 8.9

24 33.4 10.4

25 28.1 11.1

Soluci´on: Una calculadora nos da,

n= 25, ∑xi = 1,314,90,

yi = 235,70,

x2i = 76,308,53, ∑yi2= 2,286,07, ∑xiyi = 11,824,44.

Y mi calculadora da para los par´ametros de la regresi´on lineal,

β0 = 13,63887 y β1 =−0,08006. Y el modelo de regresi´on lineal basado en los datos es,

ˆ

y= 13,638870,08006·x.

Si usamos las f´ormulas para las estimaciones de los par´ametros de la regresi´on, Ecuaciones 6 y 7, tendremos,

b

β0 = (

ix2i)(

iyi)(

ixi)(

ixiyi)

nix2

i (

ixi)2

= (76,308,53)(235,70)(1,314,90)(11,824,44)

(8)

y,

b

β1 = n

ixiyi−(

ixi)(

iyi)

nix2

i (

ixi)2

= 25(11,824,44)(1,314,90)(235,70)

25(76,308,53)(1,314,90)2 =−0,08006.

Para futuras inferencias necesitamos las sumas,

Sxx = ∑

i

x2i 1 n(

i

xi)2= 76,308,53

1

25(1,314,90)

2 = 7,150,04950.

Sxy = ∑

i

xiyi−

1 n(

i

xi)(

i

yi) = 11,824,44

1

25(1,314,90)(235,70) =572,43720.

Syy = ∑

i

yi2 1 n(

i

yi)2 = 2,286,07

1

25(235,70)

2 = 63,89040.

Entonces la suma de los cuadrados de los residuales,

SSE=Syy−b1Sxy = 63,89040(0,08006)(572,43720) = 18,09542.

que nos da una desviaci´on est´andar estimada de,

s=

SSE n−2 =

18,09542

23 = 0,88699.

Ahora ¿qu´e queremos probar?

Por ejemplo, estariamos interesados en, si la regresi´on es o no significativa; esto es, quisieramos verificar la prueba de hip´otesis,

H0 : β1 = 0 H1 : β1 ̸= 0

Para esto necesitamos el esta´ıstica para la prueba y la distribuci´on de este estad´ıstico. Sabemos que el estad´ıstico es una conν =n−2gl.= 23. Esto es,

=

B1 S/√Sxx

.

En base a los datos de la regresi´on lineal tenemos una observaci´on para de,

tobs = b1 s/√sxx

= 0,08006

0,88699/7,150,04950 =7,62648.

Para tomar una desici´on, note que el valor P de la prueba es,

P = 2·Pr{T23<−7,62648}= 0,96400×101,

que es muy peque˜no. Por lo tanto tendremos que rechazar la hip´otesis nula, β1 = 0, en favor de la hip´otesis alternativa que asegura que β1 ̸= 0, lo cual confirma que en efecto la regresi´on si es significativa. Esto es, concluimos que la informaci´on de x si es importante para estimar µY|x y/o

(9)

2.

Ejemplos y Ejercicios

1. M´etodos de regresi´on lineal fueron usados para los datos de un estudio sobre la relaci´on entre la temperatura superficial en carreteras (x) y la inclinaci´on del pavimento (y). En resumen se obtuvo la siguiente informaci´on,

n= 20, ∑xi = 1478,

yi = 12,75,

x2i = 143,215,8, ∑yi2= 8,86, ∑xiyi= 1083,67.

a) Calcule los estimadores de m´ınimos cuadrados para la pendiente e intersecci´on al origen. Grafique la recta de regresi´on lineal.

b) Use la ecuaci´on de la recta ajustada para predecir la deflecci´on del pavimento que se deber´ıa observar cuando la temperatura de la superficie fuera de 85◦F.

c) ¿Cu´al es la media de la deflecci´on del pavimento cuando la temperatura en la superficie es de 90◦F?

d) ¿Qu´e cambio en la media de la deflecci´on del pavimento deber´ıa esperarse cuando la temperatura en la superficie del pavimento cambia en 1◦F?

2. Considere el modelo de regresi´on lineal desarrollado en el Ejercicio 1.

a) Suponga que las temperaturas ahora se miden en grados ◦C. Escriba el modelo de re-gresi´on lineal que corresponde.

b) ¿Qu´e cambio en la media de la deflecci´on del pavimento deber´ıa esperarse cuando la temperatura en la superficie del pavimento cambia en 1◦C?

(10)

Equipo Juegos Ganados Yardas Corridas

en NFL y por Oponentex

Washington 10 2205

Minnesota 11 2096

New England 11 1847

Oakland 13 1903

Pittsburgh 10 1457

Baltimore 11 1848

Los Angeles 10 1564

Dallas 11 1821

Atlanta 4 2477

Buffalo 2 2476

Chicago 7 1984

Cincinnati 10 1917

Cleveland 9 1761

Denver 9 1709

Detroit 6 1901

Green Bay 5 2288

Houston 5 2072

Kansas City 5 2861

Miami 6 2411

New Orleans 4 2289

NY Giants 3 2203

NY Jets 3 2592

Philadelphia 4 2053

St. Luis 10 1979

San Diego 6 2048

San Francisco 8 1786

Seattle 2 2876

Tampa Bay 0 2560

a) Calcule los estimadores de m´ınimos cuadrados para la pendiente e intersecci´on al origen. Grafique la recta de regresi´on lineal.

b) Calcule el n´umero medio de juegos ganados por un equipo si sus oponentes se les puede limitar a 1800 yardas por carrera.

c) ¿Cu´al es el cambio en el n´umero esperado de juegos ganados que se puede asociar con una disminuci´on de 100 yardas corridas por sus oponentes?

d) Para incrementar en uno el n´umero de juegos ganados, ¿cu´al debe de ser el decremento en el n´umero de yardas permitidas por la defensa?

(11)

4. Un art´ıculo en Technometrics por S. C. Narula y J. L. Wellington (“Prediction, Linear Re-gression, and Minimum Sum of Relative Errors” Vol. 19, 1977) presentan datos de precios de venta e intereses anuales para 24 casas. Los datos se presentan en la siguiente Tabla.

Precio de venta Intereses (1000´s) (1000´s)

25.9 4.9176

29.5 5.0208

27.9 4.5429

29.9 3.8910

30.9 5.8980

28.9 5.6039

35.9 5.8282

31.5 5.3003

31.0 6.2712

30.9 5.9592

30.0 5.0500

36.9 8.2464

41.9 6.6969

10.5 7.7841

43.9 9.0384

37.5 5.9894

37.9 7.5422

44.5 8.7951

37.9 6.0831

38.9 8.3607

36.9 8.1400

45.8 9.1416

a) Suponiendo que un modelo de regresi´on lineal simple es el adecuado, obtenga el ajuste por m´ınimos cuadrados para el precio de venta contra los intereses pagados.

b) Encuentre la media en el precio de venta cuando el inter´es es de x= 7,50.

c) Calcule el valor ajustado en y cuandox= 5,8980 y calcule el residual que corresponde. d) Calcule los valores ajustados yi, i = 1,2,3,· · ·, n, que corresponden a cada uno de los

valoresxi, i= 1,2,3,· · · , n. Entonces construya una gr´afica de ˆyi en contrayi y haga un

comentario acerca de la forma en que esta gr´afica deber´ıa de verse si la relaci´on entrey y x fuera determin´ıstica. En base a las gr´aficas de puntos y a la de la curva ajustada, cree que el inter´es pagado en bueno como variableregresora?

(12)

Mes Temperatura Uso/1000

Ene 21 185.79

Feb 24 214.47

Mar 32 288.03

Abr 47 424.84

May 50 454.58

Jun 59 539.03

Jul 68 621.55

Ago 74 675.06

Sep 62 562.03

Oct 50 452.93

Nov 41 369.95

Dic 30 273.98

a) Suponiendo que un modelo de regresi´on lineal simple es el adecuado, obtenga el ajuste por m´ınimos cuadrados para el uso de vapor (y) contra la temperatura promedio (x).

b) ¿Cu´al es el uso promedio de vapor esperado cuando la temperatura promedio es de 55◦F? c) ¿Cu´al es el cambio promedio esperado en el gasto de vapor cuando el promedio mensual

de la temperatura cambia por 1◦F?

d) Suponga que la temperatura promedio mensual es de 47◦F. Calcule el valor ajustado para el uso mensual de vapor y el residual correspondiente.

6. Un art´ıculo en el Journal of Sound and Vibration (Vol. 151, 1991, pp. 383-394) describe un estudio de una investigaci´on de la relaci´on entre la exposici´on al ruido y la hipertensi´on. Si x = aumento en la presi´on sangu´ınea (mmHg), y y = nivel de ruido (dB), los siguientes datos son representativos de los mostrados en ese art´ıculo.

x 1 0 1 2 5 1 4 6 2 3

y 60 63 65 70 70 70 80 80 80 80

x 5 4 6 8 4 5 7 9 7 6

y 85 89 90 90 90 90 94 100 100 100

a) Dibuje el diagrama de dispersi´on para el aumento en la presi´on sangu´ınea (y) contra el nivel de ruido (x). ¿Le parece razonable un modelo de regresi´on lineal simple para esta situaci´on?

b) Ajuste el modelo de regresi´on lineal simple por el m´etodo de m´ınimos cuadrados.

c) Encuentre el valor medio predicho para el aumento el la presi´on sangu´ınea asociado para un nivel de ruido de 85 dB.

(13)

desgaste volum´etrico (104mm3), los siguientes datos son representativos mostrados en la publicaci´on.

y 240 181 193 155 172 110 113 75 94 x 1.6 9.4 15.5 20.0 22.0 35.5 43.0 40.5 33.0

a) Dibuje el diagrama de dispersi´on para los datos. ¿Le parece plausible un modelo de regresi´on lineal simple?

b) Ajuste el modelo de regresi´on lineal simple por el m´etodo de m´ınimos cuadrados.

c) Calcule una predicci´on para el desgaste por rozamiento cuando la viscocidad es de 30 unidades.

d) Obtenga el valor ajustado de y cuandox= 22,0 y calcule el residual correspondiente.

8. Un art´ıculo en el Journal of Environmental Engineering(Vol. 115, No. 3, 1989, pp. 608-619) report´o los resultados de un estudio sobre la ocurrencia de sodio y cloro en la superficie de arroyuelos en central Rhode Island. Los datos a continuaci´on presentan la concentraci´on de cloroy (enmg/l) en ´areas carreteras y el derrame de agua x(en %).

y 4.4 6.6 9.7 10.6 10.8 10.9 11.8 12.1 14.3 x 0.19 0.15 0.57 0.70 0.67 0.63 0.47 0.70 0.60 y 14.7 15.0 17.3 19.2 23.1 27.4 27.7 31.8 39.5 x 0.78 0.81 0.78 0.69 1.30 1.05 1.06 1.74 1.62

a) Dibuje el diagrama de dispersi´on para los datos. ¿Le parece apropiado aqu´ı un modelo de regresi´on lineal simple?

b) Ajuste el modelo de regresi´on lineal simple por el m´etodo de m´ınimos cuadrados.

c) Estime le concentraci´on media de cloro para un goteo del 1 % en el ´area carretera.

Figure

Figura 1: En este caso el diagrama de dispersi´on muestra que los puntos est´an aleatoriamentecolocados por arriba y por abajo sin mostrar alguna dependencia en particular
Figura 3: En este caso el diagrama de dispersi´on muestra que los puntos est´an aleatoriamentecolocados por arriba y por abajo de una par´abola.

Referencias

Documento similar

In addition to the requirements set out in Chapter VII MDR, also other MDR requirements should apply to ‘legacy devices’, provided that those requirements

The notified body that issued the AIMDD or MDD certificate may confirm in writing (after having reviewed manufacturer’s description of the (proposed) change) that the

En estos últimos años, he tenido el privilegio, durante varias prolongadas visitas al extranjero, de hacer investigaciones sobre el teatro, y muchas veces he tenido la ocasión

que hasta que llegue el tiempo en que su regia planta ; | pise el hispano suelo... que hasta que el

Para ello, trabajaremos con una colección de cartas redactadas desde allí, impresa en Évora en 1598 y otros documentos jesuitas: el Sumario de las cosas de Japón (1583),

Entre nosotros anda un escritor de cosas de filología, paisano de Costa, que no deja de tener ingenio y garbo; pero cuyas obras tienen de todo menos de ciencia, y aun

E Clamades andaua sienpre sobre el caua- 11o de madera, y en poco tienpo fue tan lexos, que el no sabia en donde estaña; pero el tomo muy gran esfuergo en si, y pensó yendo assi

Sanz (Universidad Carlos III-IUNE): &#34;El papel de las fuentes de datos en los ranking nacionales de universidades&#34;.. Reuniones científicas 75 Los días 12 y 13 de noviembre