• No se han encontrado resultados

Regresión Lineal Múltiple 2016-II

N/A
N/A
Protected

Academic year: 2021

Share "Regresión Lineal Múltiple 2016-II"

Copied!
28
0
0

Texto completo

(1)

Estadística y Diseño

Experimental

Regresión lineal

múltiple

Mg. Myrna Manco C.

Universidad Nacional

Tecnológica de Lima Sur

(2)

Es posible estudiar a las unidades estadísticas

atendiendo a la variación simultánea de

dos o más

características

.

Objetivo:

Reconocer

si hay

relación

entre las variables

Medir el grado de relación

Estimar

un modelo de relación

(3)

30

40

50

60

70

80

90

100

140

150

160

170

180

190

200

Pe so (Kg)

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.

(4)

Cierta relación inversa 0 10 20 30 40 50 60 70 80 140 150 160 170 180 190 200

relación lineal inversa o negativa • relación lineal directa.

Incorrelación 30 80 130 180 230 280 330 140 150 160 170 180 190 200 Fuerte relación directa. 30 40 50 60 70 80 90 100 140 150 160 170 180 190 200 X 8 6 4 2 0 -2 -4 -6 -8 Y 110 100 90 80 70 60 50 40 30

(5)

La

covarianza

entre dos variables, S

xy

, nos

indica si la posible relación entre dos

variables es directa o inversa.

Directa

: S

xy

>0

Inversa

: S

xy

<0

Incorreladas

: S

xy

=0

El signo de la covarianza nos dice si el

aspecto de la nube de puntos es creciente o

no, pero no nos dice nada sobre el

grado de

relación

entre las variables.

)

)(

(

1

y

y

x

x

n

S

i

i

i

xy

(6)

Es adimensional

Cuanto más cerca esté r de +1 o -1 mejor será

el grado de relación lineal, s

iempre que no existan

observaciones anómalas.

Relación directa perfecta Relación inversa perfecta Variables incorrelacionadas

y

x

xy

S

S

S

r

(7)

Se hace un estudio para

determinar la relación entre el

tiempo de vida (años) y la

eficiencia de las máquinas (%)

de una fábrica. Los datos se

dan en la siguiente tabla:

Tiempo de vida

2

4 11

9

4

6

7

8

Eficiencia

90 65 25 40 80 60 35 50

a) Representar los datos en un diagrama de dispersión.

b) Calcule el coeficiente de correlación entre las dos

variables. Interprete.

(8)

Regresión

.. predicción de una medida basándonos en

el conocimiento de otra.

Ejemplos:

Tiempo de asistencia a la escuela del hijo

en función al número de años de

escolarización de la madre.

Calificación obtenida en una materia según

el número de horas de estudio semanal.

Tiempo de ejecución de un programa en

función de la velocidad del procesador.

Predecir la tasa de desempleo según la

edad.

(9)

¿Es posible descubrir una relación?

RELACIÓN FUNCIONAL

Y=f (X

1

, X

2

, … , X

n

)

Ejemplo: La relación que existe entre el tiempo (Y) que

tarda un móvil en recorrer una distancia (X) a velocidad

constante (v)

Y=X/v

NO EXISTE NINGUNA RELACIÓN

Ejemplo: La relación que existe entre el dinero (Y) que

gana una persona adulta mensualmente y su altura (X)

RELACIÓN ESTOCÁSTICA

Y = f(X) + error

 f es una función de un tipo determinado (desconocida)  el error es aleatorio, pequeño, y no depende de X

(10)

El análisis de regresión sirve para predecir una

medida en función de otra medida (o varias).

X  Y

(X

1

, X

2

, … , X

n

)  Y

X = Variable

independiente

regresora

predictora

explicativa

Y = Variable

dependiente

respuesta

predicha

explicada

(11)

Dado dos variables

Y (dependiente)

X (independiente)

buscamos encontrar una función de X

muy

simple (lineal)

Y=

0

+

1

X+

que nos permita aproximar Y mediante

Ŷ = b

0

+ b

1

X

b

0

(ordenada en el origen, constante)

b

1

(pendiente de la recta)

Y e Ŷ rara vez coincidirán por muy bueno que

sea el modelo de regresión. A la cantidad

(12)

El modelo lineal de regresión se construye utilizando la técnica

de

estimación mínimo cuadrática

:

Buscar b

0

, b

1

de tal manera que se minimice la cantidad

Σ

i

e

i2

Se comprueba que para lograr dicho resultado basta con elegir:

Se obtiene además unas ventajas “de regalo”

El

error residual medio es nulo

La

varianza del error residual es mínima

para dicha

estimación.

Traducido: En término medio no nos equivocamos.

Cualquier otra estimación que no cometa error en término

medio, si es de tipo lineal, será peor por presentar mayor

variabilidad con respecto al error medio (que es cero).

x

b

y

b

S

S

r

b

X Y 1 0 1

(13)

Lo adecuado del modelo depende

de la relación entre:

la dispersión marginal de Y

La dispersión de Y condicionada

a X

Es decir, fijando valores de X,

vemos cómo se distribuye Y

La distribución de Y, para valores

fijados de X, se denomina

distribución condicionada.

La distribución de Y,

independientemente del valor de

X, se denomina distribución

marginal.

Si la dispersión se reduce

notablemente, el modelo de

regresión será adecuado.

150 160 170 180 190 320 340 360 380 400 420 y 320 340 360 380 400 420 320 340 360 380 400 420 320 340 360 380 400 420 320 340 360 380 400 420 r= 0.415 r^2 = 0.172 360 370 380 390 y 360 370 380 390 360 370 380 390 360 370 380 390 360 370 380 390 r= 0.984 r^2 = 0.969

(14)

Imaginemos un diagrama de dispersión, y vamos a tratar de comprender en primer lugar qué es el error residual, su relación con la varianza de Y,

(15)

Y En primer lugar olvidemos que existe la

variable X. Veamos cuál es la variabilidad en el eje Y.

La franja sombreada indica la zona donde varían los valores de Y.

(16)

Y Fijémonos ahora en los errores de predicción

(líneas verticales). Los proyectamos sobre el eje Y.

Se observa que los errores de predicción, residuos, están menos dispersos que la variable Y original.

Cuanto menos dispersos sean los residuos, mejor será la bondad del ajuste.

(17)

Resumiendo:

• La dispersión del error residual será una fracción de la dispersión original de Y

•Cuanto menor sea la dispersión del error residual

mejor será el ajuste de regresión. Eso hace que definamos como medida de

bondad de un ajuste de regresión, o coeficiente de determinación a:

2

2

2

1

Y

e

S

S

R

Y

2

2

S

S

(18)

La

bondad

de un ajuste de un modelo de regresión

se mide usando el

coeficiente de determinación R

2

R

2

es una cantidad

adimensional

que sólo puede

tomar valores en

[0, 1]

Cuando un

ajuste es bueno

, R

2

será cercano a

uno

.

Cuando un

ajuste es malo

R

2

será cercano a

cero

.

A R

2

también se le denomina

porcentaje de

variabilidad explicado

por el modelo de regresión.

R

2

puede ser pesado de calcular en modelos de

regresión general, pero en el

modelo lineal simple

,

la expresión es de lo más sencilla:

(19)

Se pueden considerar

otros tipos de modelos, en

función del aspecto que

presente el diagrama de

dispersión (

regresión no

lineal

)

Incluso se puede

considerar el que una

variable dependa de varias

(

regresión múltiple

).

¿recta o parábola?

140 150 160 170 180 190 200

(20)

Donde

x1 :

inversión en inventario (en miles de $)

x2 :

gasto en publicidad (en miles de $)

y :

ventas (en miles de $)

a. Estime las ventas si la inversión en

inventario es de $15 000 y el presupuesto

para publicidad es de $10 000.

b. Interprete

b1 y b2 en esta ecuación de

regresión estimada.

2 1

8

10

25

ˆ

X

X

y

4. Para una zapatería se obtiene la siguiente

ecuación de regresión estimada en la que se

relacionan las ventas con la inversión en

inventario y los gastos en publicidad.

(21)

El dueño de Showtime Movie Theater, Inc.,

desea estimar el ingreso bruto semanal en

función de los gastos en publicidad. A

continuación se presentan los datos históricos

de 8 semanas.

 a. Obtenga una ecuación de regresión estimada en la que el monto

gastado en publicidad en televisión sea la variable independiente.

 b. Obtenga una ecuación de regresión estimada en la que los montos

gastados en publicidad en televisión y en periódicos sean las variables independientes.

 c. ¿Es el coeficiente correspondiente a los gastos de publicidad en

televisión de la ecuación de regresión estimada del inciso a) igual al del inciso b)? Interprete este coeficiente en cada caso.

(22)

EJEMPLO. El dueño de una distribuidora de automóviles

realizó un estudio, para determinar las relaciones en un

mes determinado, entre el número de automóviles

vendidos en el mes por su distribuidora con el número de

comerciales de un minuto sobre su distribuidora televisado

localmente en ese mes. Durante el período de 6 meses

(23)

Una compañía de bienes raíces residenciales en una ciudad grande desea predecir los costos mensuales de rentas para departamentos, basado en el tamaño de los mismos definidos por los pies cuadrados de espacios.

(24)
(25)
(26)
(27)

12.1 Se llevó a cabo un conjunto de ensayos

experimentales con un horno para determinar una

forma de predecir el tiempo de cocción, y, a diferentes

niveles de ancho del horno, x1, y a diferentes

temperaturas, x2. Se registraron los siguientes datos:

(28)

12.5 Se cree que la energía eléctrica que una planta

química consume cada mes se relaciona con la temperatura

ambiental promedio, x1, el número de días del mes, x2, la

pureza

promedio

del

producto,

x3,

y

las

toneladas

fabricadas del producto, x4. Se dispone de datos históricos

del año anterior, los cuales se presentan en la siguiente

tabla.

Referencias

Documento similar

El análisis de regresión es un análisis que busca establecer una ecuación que permita estimar el valor desconocido de una variable, a partir del valor conocido

– Como la relación que estudiamos es correlación lineal entre dos variables, la línea de regresión es una ecuación lineal en dos variables.. Predecir una valor específico de

Se aplicó un procedimiento de regresión lineal múltiple con el objetivo de probar un modelo de predicción de ansiedad social (varia- ble dependiente) a partir de la