Estadística y Diseño
Experimental
Regresión lineal
múltiple
Mg. Myrna Manco C.
Universidad Nacional
Tecnológica de Lima Sur
Es posible estudiar a las unidades estadísticas
atendiendo a la variación simultánea de
dos o más
características
.
Objetivo:
Reconocer
si hay
relación
entre las variables
Medir el grado de relación
Estimar
un modelo de relación
30
40
50
60
70
80
90
100
140
150
160
170
180
190
200
Pe so (Kg)Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.
Cierta relación inversa 0 10 20 30 40 50 60 70 80 140 150 160 170 180 190 200
relación lineal inversa o negativa • relación lineal directa.
Incorrelación 30 80 130 180 230 280 330 140 150 160 170 180 190 200 Fuerte relación directa. 30 40 50 60 70 80 90 100 140 150 160 170 180 190 200 X 8 6 4 2 0 -2 -4 -6 -8 Y 110 100 90 80 70 60 50 40 30
La
covarianza
entre dos variables, S
xy, nos
indica si la posible relación entre dos
variables es directa o inversa.
◦
Directa
: S
xy>0
◦
Inversa
: S
xy<0
◦
Incorreladas
: S
xy=0
El signo de la covarianza nos dice si el
aspecto de la nube de puntos es creciente o
no, pero no nos dice nada sobre el
grado de
relación
entre las variables.
)
)(
(
1
y
y
x
x
n
S
i
i
i
xy
Es adimensional
Cuanto más cerca esté r de +1 o -1 mejor será
el grado de relación lineal, s
iempre que no existan
observaciones anómalas.
Relación directa perfecta Relación inversa perfecta Variables incorrelacionadasy
x
xy
S
S
S
r
Se hace un estudio para
determinar la relación entre el
tiempo de vida (años) y la
eficiencia de las máquinas (%)
de una fábrica. Los datos se
dan en la siguiente tabla:
Tiempo de vida
2
4 11
9
4
6
7
8
Eficiencia
90 65 25 40 80 60 35 50
a) Representar los datos en un diagrama de dispersión.
b) Calcule el coeficiente de correlación entre las dos
variables. Interprete.
Regresión
.. predicción de una medida basándonos en
el conocimiento de otra.
◦
Ejemplos:
◦
Tiempo de asistencia a la escuela del hijo
en función al número de años de
escolarización de la madre.
◦
Calificación obtenida en una materia según
el número de horas de estudio semanal.
◦
Tiempo de ejecución de un programa en
función de la velocidad del procesador.
◦
Predecir la tasa de desempleo según la
edad.
¿Es posible descubrir una relación?
RELACIÓN FUNCIONAL
Y=f (X
1, X
2, … , X
n)
Ejemplo: La relación que existe entre el tiempo (Y) que
tarda un móvil en recorrer una distancia (X) a velocidad
constante (v)
Y=X/v
NO EXISTE NINGUNA RELACIÓN
Ejemplo: La relación que existe entre el dinero (Y) que
gana una persona adulta mensualmente y su altura (X)
RELACIÓN ESTOCÁSTICA
Y = f(X) + error
f es una función de un tipo determinado (desconocida) el error es aleatorio, pequeño, y no depende de X
El análisis de regresión sirve para predecir una
medida en función de otra medida (o varias).
X Y
(X
1, X
2, … , X
n) Y
X = Variable
independiente
regresora
predictora
explicativa
Y = Variable
dependiente
respuesta
predicha
explicada
Dado dos variables
◦
Y (dependiente)
◦
X (independiente)
buscamos encontrar una función de X
muy
simple (lineal)
Y=
0+
1X+
que nos permita aproximar Y mediante
◦
Ŷ = b
0+ b
1X
b
0(ordenada en el origen, constante)
b
1(pendiente de la recta)
Y e Ŷ rara vez coincidirán por muy bueno que
sea el modelo de regresión. A la cantidad
El modelo lineal de regresión se construye utilizando la técnica
de
estimación mínimo cuadrática
:
◦
Buscar b
0, b
1de tal manera que se minimice la cantidad
Σ
ie
i2
Se comprueba que para lograr dicho resultado basta con elegir:
Se obtiene además unas ventajas “de regalo”
◦
El
error residual medio es nulo
◦
La
varianza del error residual es mínima
para dicha
estimación.
Traducido: En término medio no nos equivocamos.
Cualquier otra estimación que no cometa error en término
medio, si es de tipo lineal, será peor por presentar mayor
variabilidad con respecto al error medio (que es cero).
x
b
y
b
S
S
r
b
X Y 1 0 1
Lo adecuado del modelo depende
de la relación entre:
◦
la dispersión marginal de Y
◦
La dispersión de Y condicionada
a X
Es decir, fijando valores de X,
vemos cómo se distribuye Y
◦
La distribución de Y, para valores
fijados de X, se denomina
distribución condicionada.
◦
La distribución de Y,
independientemente del valor de
X, se denomina distribución
marginal.
Si la dispersión se reduce
notablemente, el modelo de
regresión será adecuado.
150 160 170 180 190 320 340 360 380 400 420 y 320 340 360 380 400 420 320 340 360 380 400 420 320 340 360 380 400 420 320 340 360 380 400 420 r= 0.415 r^2 = 0.172 360 370 380 390 y 360 370 380 390 360 370 380 390 360 370 380 390 360 370 380 390 r= 0.984 r^2 = 0.969
Imaginemos un diagrama de dispersión, y vamos a tratar de comprender en primer lugar qué es el error residual, su relación con la varianza de Y,
Y En primer lugar olvidemos que existe la
variable X. Veamos cuál es la variabilidad en el eje Y.
La franja sombreada indica la zona donde varían los valores de Y.
Y Fijémonos ahora en los errores de predicción
(líneas verticales). Los proyectamos sobre el eje Y.
Se observa que los errores de predicción, residuos, están menos dispersos que la variable Y original.
Cuanto menos dispersos sean los residuos, mejor será la bondad del ajuste.
Resumiendo:
• La dispersión del error residual será una fracción de la dispersión original de Y
•Cuanto menor sea la dispersión del error residual
mejor será el ajuste de regresión. Eso hace que definamos como medida de
bondad de un ajuste de regresión, o coeficiente de determinación a:
2
2
2
1
Y
e
S
S
R
Y2
2
S
S
La
bondad
de un ajuste de un modelo de regresión
se mide usando el
coeficiente de determinación R
2
R
2es una cantidad
adimensional
que sólo puede
tomar valores en
[0, 1]
Cuando un
ajuste es bueno
, R
2será cercano a
uno
.
Cuando un
ajuste es malo
R
2será cercano a
cero
.
A R
2también se le denomina
porcentaje de
variabilidad explicado
por el modelo de regresión.
R
2puede ser pesado de calcular en modelos de
regresión general, pero en el
modelo lineal simple
,
la expresión es de lo más sencilla:
Se pueden considerar
otros tipos de modelos, en
función del aspecto que
presente el diagrama de
dispersión (
regresión no
lineal
)
Incluso se puede
considerar el que una
variable dependa de varias
(
regresión múltiple
).
¿recta o parábola?
140 150 160 170 180 190 200
Donde
x1 :
inversión en inventario (en miles de $)
x2 :
gasto en publicidad (en miles de $)
y :
ventas (en miles de $)
a. Estime las ventas si la inversión en
inventario es de $15 000 y el presupuesto
para publicidad es de $10 000.
b. Interprete
b1 y b2 en esta ecuación de
regresión estimada.
2 18
10
25
ˆ
X
X
y
4. Para una zapatería se obtiene la siguiente
ecuación de regresión estimada en la que se
relacionan las ventas con la inversión en
inventario y los gastos en publicidad.
El dueño de Showtime Movie Theater, Inc.,
desea estimar el ingreso bruto semanal en
función de los gastos en publicidad. A
continuación se presentan los datos históricos
de 8 semanas.
a. Obtenga una ecuación de regresión estimada en la que el monto
gastado en publicidad en televisión sea la variable independiente.
b. Obtenga una ecuación de regresión estimada en la que los montos
gastados en publicidad en televisión y en periódicos sean las variables independientes.
c. ¿Es el coeficiente correspondiente a los gastos de publicidad en
televisión de la ecuación de regresión estimada del inciso a) igual al del inciso b)? Interprete este coeficiente en cada caso.
EJEMPLO. El dueño de una distribuidora de automóviles
realizó un estudio, para determinar las relaciones en un
mes determinado, entre el número de automóviles
vendidos en el mes por su distribuidora con el número de
comerciales de un minuto sobre su distribuidora televisado
localmente en ese mes. Durante el período de 6 meses
Una compañía de bienes raíces residenciales en una ciudad grande desea predecir los costos mensuales de rentas para departamentos, basado en el tamaño de los mismos definidos por los pies cuadrados de espacios.