Tema 3
Tema 3
Modelo de regresión lineal simple (I)
Modelo de regresión lineal simple (I)
3º de Economía
•
El modelo de regresión lineal simple trata de capturar la relación entre
dos variables y, x.
y = f(x,u)
•
y es la variable dependiente, o variable explicada o regresando.
•
x es la variable independiente, o variable explicativa, o regresor.
•
u es el término de error o perturbación aleatoria o inobservable.
Contiene todos los factores distintos de x que afectan a y.
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES
¿ Qué recoge u?
- Algunas variables que explican la variable dependiente y, pero que no son
observables o no se pueden medir.
- Errores de especificación, es decir, variables explicativas importantes que
hemos omitido por error, no porque no las podamos medir.
•
Para obtener un modelo útil que nos permita cuantificar “cómo x
explica y”, tenemos que responder a las siguientes cuestiones:
1) ¿Qué forma funcional suponemos para f(x,u) ?
Supondremos que la relación que vincula x e y es lineal en parámetros
y que el término inobservable entra de forma aditiva.
y =
β
1
+
β
2
x + u
β
0es la constante (intercept parameter)
β
1es la pendiente (slope parameter)
1
Y
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES
Supongamos que la variable Y es una función lineal de otra variable X, donde la relación entre Y y X depende de parámetrosβ1y β2desconocidos.
X Y =
β
1+β
2β
1X
X
1X
2X
3X
4Si nuestro interés fuera conocer la relación que une a X con Y, entonces deberíamos estimar los parámetros desconocidos.
Supongamos que tenemos una muestra de 4 observaciones de (X,Y). Suponemos que esas observaciones proceden de una muestra aleatoria simple.
Si la relación entre X e Y fuera exacta, solo bastarían dos puntos para hallar una solución para los parámetrosβ1y β2.
Q
1Q
2Q
3Q
4 3 X Y =β
1+β
2β
1Y
X
X
1X
2X
3X
4P
4Sin embargo, las relaciones económicas no son exactas: muchos de los puntos que observamos no van a estar en la recta
P
3P
2P
1Q
1Q
2Q
3Q
4 4 X Y =β
1+β
2β
1Y
X
X
1X
2X
3X
4P
4Para permitir divergencia entre la variable Y de la recta de interés, introducimos un término de perturbación al modelo, que no es observable: Y = β1+ β2X + u.
Por ejemplo, si Y es el salario y X la educación, u puede representar la habilidad innata para ganar más dinero: así dos individuos con la misma educación pueden tener un salario diferente.
P
3P
2P
1Q
1Q
2Q
3Q
4 5 X Y =β
1+β
2β
1Y
X
X
1X
2X
3X
4P
4Cada valor de Y tiene entonces un “componente no aleatorio” o “sistemático” β1+ β2X
y un “componente aleatoria”, u.
La primera observación la hemos descompuesto en estas dos partes.
P
3P
2P
1Q
1Q
2Q
3Q
4u
1 6 X Y =β
1+β
2β
1Y
1 2 1β
Xβ
+X
X
1X
2X
3X
4P
4En el mundo real, únicamente observamos los puntos P para cada X.
P
3P
2P
1 7Y
X
X
1X
2X
3X
4P
4P
3P
2P
1Naturalmente, podríamos utilizar los puntos P para dibujar una línea que aproxime
Y = β1+ β2X.
Podemos escribir esta línea como Y = b1+ b2X, donde b1es una estimación de β1y b2
es una estimación de β2. ^ 8 X b b Yˆ = 1+ 2
b
1Y
X
X
1X
2X
3X
4P
4A esta línea aproximada se la conoce como el modelo ajustado, y a los valores de la variable Y en esa línea se le llama valores predichos o ajustados (son los puntos R).
P
3P
2P
1R
1R
2R
3R
4 9 X b b Yˆ = 1+ 2b
1Yˆ (valor predicho)
Y (valor real)
Y
X
X
1X
2X
3X
4P
4X
X
1X
2X
3X
4Observad que hay una discrepancia entre el valor de Y realmente observado (los puntos P) y el valor predicho por la línea aproximada (R). A esta discrepancia se le llama residuo.
P
3P
2P
1R
1R
2R
3R
4e
1e
2e
3e
4 10 X b b Yˆ = 1+ 2b
1Yˆ
Y (valor real)
e Y Y − ˆ =Y
(residuo)
(valor predicho)
P
4Es importante observar que los valores que toman los residuos son distintos a los valores del término de perturbación. Esto es debido a que la aproximación que hacemos nunca va a coincidir exactamente con la verdadera línea que relaciona a estas variables.
P
3P
2P
1R
1R
2R
3R
4b
1 11 X b b Yˆ = 1+ 2 X Y =β
1+β
2β
1Yˆ
Y (valor real)
Y
X
X
1X
2X
3X
4(valor predicho)
P
4La perturbación es la responsable de la desviación que existe entre el componente “no aleatorio” y las verdaderas observaciones.
P
3P
2P
1 12Q
2Q
1Q
3Q
4 X b b Yˆ = 1+ 2 X Y =β
1+β
2β
1b
1Y
X
X
1X
2X
3X
41. EL MODELO: MOTIVACIÓN Y DEFINICIONES
Yˆ
Y (valor real)
P
4Los residuos son la diferencia entre el valor real y el valor predicho por la recta estimada en base a la “aproximación” de los parámetros desconocidos
P
3P
2P
1R
1R
2R
3R
4 13 X b b Yˆ = 1+ 2 X Y =β
1+β
2β
1b
1Y
X
X
1X
2X
3X
4Yˆ
Y (valor real)
(valor predicho)
P
4Entonces, es natural que cuando los residuos sean pequeños el ajuste sea bueno y los residuos tiendan a estar cerca de la perturbación. Pero lo que debe quedar claro es que los dos conceptos representan cosas distintas.
P
3P
2P
1R
1R
2R
3R
4 14 X b b Yˆ = 1+ 2 X Y =β
1+β
2β
1b
1Y
X
X
1X
2X
3X
41. EL MODELO: MOTIVACIÓN Y DEFINICIONES
Yˆ
Y (valor real)
P
4Ambas líneas, la aproximada y la verdadera, son importantes en el análisis de regresión, puesto que permiten descomponer el valor observado de Y en dos partes.
15
Q
4u
4 Yˆ =b1+b2X X Y =β
1+β
2β
1b
1Y
4 2 1β
Xβ
+X
X
1X
2X
3X
4Usando la relación téorica, o verdadera, Y se descompone en su parte no estocástica
β1+ β2X y su parte estocástica u.
Yˆ
Y (valor real)
(valor predicho)
P
4Esta es una descomposición teórica dado que no conocemos los valores
exactos de
β
1o
β
2, ni los del término de perturbación.
17
Q
4u
4 Yˆ =b1+b2X X Y =β
1+β
2β
1b
1Y
4 2 1β
Xβ
+X
X
1X
2X
3X
41. EL MODELO: MOTIVACIÓN Y DEFINICIONES
Yˆ
Y (valor real)
P
4La segunda descomposición del valor real de
Y se hace en función de la
línea ajustada: es la suma del valor predicho de
Y y de su residuo.
Esta descomposición la utilizaremos para obtener fórmulas que nos permitan aproximar los valores desconocidos de los parámetros
18
e
4R
4 X b b Yˆ = 1+ 2 X Y =β
1+β
2β
1b
1Y
4 2 1 b X b +X
X
1X
2X
3X
4Yˆ
Y (valor real)
(valor predicho)
2) ¿Cómo podemos obtener buenas estimaciones de los parámetros
del modelo?
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES
• Más adelante mostraremos que sólo podemos obtener estimadores
fiables de
β
1y
β
2, partiendo de un muestreo aleatorio de datos,
cuando establecemos supuestos que restringen el modo en el que el
término de error u se relaciona con x.
• Dado que x y u son variables aleatorias, necesitamos realizar
supuestos importantes sobre su distribución conjunta. Es decir,
necesitamos hacer supuestos sobre cómo es la relación entre x y u.
• Antes de establecer el supuesto clave, vamos a establecer un
supuesto sobre cómo se comporta u. Siempre y cuando
introduzcamos un término constante en la regresión, no perdemos
nada al suponer que
2) ¿Cómo podemos obtener buenas estimaciones de los parámetros
del modelo?
Por qué decimos que este supuesto no es restrictivo:
Y = β
1+ β
2X + u
Suponed
E(u) = µ
u≠ 0.
Definimos
v = u - µ
u, entonces u = v + µ
uEntonces
Y = b
1+ b
2X + v + µ
u= (b
1+ µ
u) + b
2X + v
donde
E(v) = E(u - µ
u) = E(u) - E(µ
u) = 0
Por qué decimos que este supuesto no es restrictivo:
Y = β
1+ β
2X + u
Suponed
E(u) = µ
u≠ 0.
Definimos
v = u - µ
u, entonces u = v + µ
uEntonces
Y = b
1+ b
2X + v + µ
u= (b
1+ µ
u) + b
2X + v
donde
E(v) = E(u - µ
u) = E(u) - E(µ
u) = 0
2) ¿Cómo podemos obtener buenas estimaciones de los parámetros
del modelo?
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES
• Pero el supuesto clave para poder identificar el efecto de x sobre y es
que x y u no están relacionadas. Para garantizar esto ¿bastaría con
suponer cov(x,u)=0?
• Queremos que x no nos dé ninguna información sobre u, es decir,
queremos que estas dos variables no tengan ningún tipo de relación.
• Supuesto:
E(u|x) = E(u) = 0
Es decir, estamos suponiendo que E(y|x) es una función lineal
de x tal que, para cualquier x, la distribución de y está centrada
en E(y|x)
E(y|x) =
β
1+
β
2x
f(y)
•
EJEMPLO:
Ecuación de salarios
wage =
β
1+
β
2educ + u
•
Supongamos que u es la “capacidad innata del individuo” (para ganar
dinero).
•
El supuesto de media condicional igual a cero implica que:
E( ability | educ =10) = E( ability | educ =16)
•
Es decir, el nivel medio de “capacidad” debe ser el mismo para todos
los niveles educativos.
•
Si la gente con más capacidad tiende a educarse más, entonces este
supuesto no se cumple. ESTO ES UN PROBLEMA IMPORTANTE.
Sea kids el número de niños que una mujer ha tenido y educ el
número de años de educación que la mujer ha recibido. El
siguiente es un modelo simple que relaciona la fertilidad con
el número de años de educación.
kids = β
1+ β
2educ + u
Donde u es el error no observado.
a) ¿Qué tipo de factores están en u? ¿Pueden estos estar
correlacionados con el nivel de educación?
b) En el análisis de regresión nosotros estamos interesados
en hacer interpretaciones de efectos causales. Para ello
debemos medir relaciones entre educ y kids “ceteris
paribus”, es decir, si lo demás permanece constante. De
acuerdo con lo que respondiste en el apartado anterior,
¿crees que en este modelo el β
2mide el efecto causal de
educ sobre kids?
2 2 1 1 2
...
n n i ie
e
e
SCR
=
∑
=
+
+
=Minimizar la SCR (suma de cuadrados de los residuos),
donde
Si un ajuste bueno es aquél que tiene los residuos pequeños, ¿por qué no
buscar unos valores para los parámetros que hagan mínimo este residuo?
19
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS
¿Por qué no minimizamos…?
n n i i
e
e
e
=
+
+
∑
=...
1 1P
4La respuesta está en que los errores positivos y negativos se compensarían. El ajuste perfecto en este caso sería una línea recta en la media del valor de Y
P
3P
2P
1Y
21X
X
1X
2X
3X
4Y
X
X
nX
1Y
1Y
nY
¿Qué pasa si tenemos n observaciones?
13
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS
u
X
Y
1 2:
X
X
nX
1Y
b
1 1 1 2 1ˆ
b
b
X
Y
=
+
1Y
b
2 nY
n nb
b
X
Y
ˆ
=
1+
2Dada nuestra elección de
b
1y
b
2, la recta ajustada es la que se muestra en
el gráfico.
14X
b
b
Y
u
X
Y
2 1 2 1ˆ
:
Ajustado
:
Verdadero
+
=
+
+
=
β
β
X
X
nX
1Y
b
1X
b
b
Y
u
X
Y
2 1 2 1ˆ
:
Ajustado
:
Verdadero
+
=
+
+
=
β
β
n n n n nY
Y
Y
b
b
X
e
X
b
b
Y
Y
Y
e
2 1 1 2 1 1 1 1 1ˆ
...
ˆ
−
−
=
−
=
−
−
=
−
=
1 2 1 1ˆ
b
b
X
Y
=
+
1Y
b
2 nY
1e
n nb
b
X
Y
ˆ
=
1+
2Definimos el residuo para la primera observación
15
Del mismo modo, definimos los residuos para el resto de observaciones. En
la gráfica se señala el correspondiente a la última observación.
X
X
nX
1Y
b
1X
b
b
Y
u
X
Y
2 1 2 1ˆ
:
Ajustado
:
Verdadero
+
=
+
+
=
β
β
n n n n nY
Y
Y
b
b
X
e
X
b
b
Y
Y
Y
e
2 1 1 2 1 1 1 1 1ˆ
...
ˆ
−
−
=
−
=
−
−
=
−
=
1 2 1 1ˆ
b
b
X
Y
=
+
1Y
b
2 nY
1e
ne
Y
ˆ
n=
b
1+
b
2X
n 16 17( )
∑
(
)
∑
= =−
−
=
=
n i i i n i iY
b
b
X
e
SCR
1 2 2 1 1 2Observad que los residuos dependen de b
1y b
2y que, por lo tanto, se pueden elegir sus valores de
forma tal que hagan mínima dicha suma de residuos al cuadrado
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS
17
⇒
=
∂
0
1b
SCR
⇒
=
∂
0
2b
SCR
( )
∑
(
)
∑
= =−
−
=
=
n i i i n i i b bSCR
e
Y
b
b
X
1 2 2 1 1 2 , 2 1min
X
b
Y
b
1=
−
2⇒
=
−
−
−
∑
2
(
Y
ib
1b
2X
i)(
1
)
0
………….
⇒
=
−
−
−
∑
2
(
y
ib
1b
2X
i)(
X
i)
0
0
2
2
2
b
2∑
X
i2−
∑
X
iY
i+
b
1∑
X
i=
0
2
2
2
0
2 1 2 2=
+
−
⇒
=
∂
∂
∑
∑
∑
X
iX
iY
ib
X
ib
b
SCR
0
1 2 2∑
X
i−
∑
X
iY
i+
b
∑
X
i=
b
Se divide por 2.
260
2
2
2
0
2 2 1 2=
+
−
⇒
=
∂
∂
∑
∑
∑
X
iX
iY
ib
X
ib
b
SCR
0
1 2 2∑
X
i−
∑
X
iY
i+
b
∑
X
i=
b
0
)
(
2 2 2∑
X
i−
∑
X
iY
i+
Y
−
b
X
∑
X
i=
b
Se sustituye
b
1por la expresión obtenida anteriormente, de manera que la
ecuación queda sólo en función de
b
2.
27
X
b
Y
b
1=
−
20
2
2
2
0
2 1 2 2=
+
−
⇒
=
∂
∂
∑
∑
∑
i i i iX
Y
b
X
X
b
b
SCR
0
1 2 2∑
X
i−
∑
X
iY
i+
b
∑
X
i=
b
0
)
(
2 2 2∑
X
i−
∑
X
iY
i+
Y
−
b
X
∑
X
i=
b
0
)
(
2 2 2∑
X
−
∑
X
Y
+
Y
−
b
X
n
X
=
b
i i iUtilizamos la definición de la media muestral
28
n
X
X
=
∑
iX
n
X
i=
∑
0
2
2
2
0
2 1 2 2=
+
−
⇒
=
∂
∂
∑
∑
∑
X
iX
iY
ib
X
ib
b
SCR
0
1 2 2∑
X
i−
∑
X
iY
i+
b
∑
X
i=
b
0
)
(
2 2 2∑
X
i−
∑
X
iY
i+
Y
−
b
X
∑
X
i=
b
0
)
(
2 2 2∑
X
−
∑
X
Y
+
Y
−
b
X
n
X
=
b
i i i(
X
n
X
)
X
Y
n
X
Y
b
∑
i2−
2=
∑
i i−
2Y
X
Y
X
n
X
X
n
b
i
=
i i−
1
∑
2−
21
∑
2Los términos que no contienen
b
2se pasan a la parte de la derecha y se
divide la ecuación por
n.
29
0
2
2
2
0
2 1 2 2=
+
−
⇒
=
∂
∂
∑
∑
∑
i i i iX
Y
b
X
X
b
b
SCR
0
1 2 2∑
X
i−
∑
X
iY
i+
b
∑
X
i=
b
0
)
(
2 2 2∑
X
i−
∑
X
iY
i+
Y
−
b
X
∑
X
i=
b
0
)
(
2 2 2∑
X
−
∑
X
Y
+
Y
−
b
X
n
X
=
b
i i i(
X
n
X
)
X
Y
n
X
Y
b
∑
i2−
2=
∑
i i−
2Y
X
Y
X
n
X
X
n
b
i
=
i i−
1
∑
2−
21
∑
2)
,
(
Cov
)
(
Var
2X
X
Y
b
=
)
Var(
)
,
(
Cov
2X
Y
X
b
=
Así, obtenemos una expresión para b2.
X
X
nX
1Y
b
1X
b
b
Y
u
X
Y
2 1 2 1ˆ
:
Ajustado
:
Verdadero
+
=
+
+
=
β
β
1 2 1 1ˆ
b
b
X
Y
=
+
1Y
b
2 nY
n nb
b
X
Y
ˆ
=
1+
2De nuevo, mostramos el gráfico para ilustrar lo que hemos hecho. Hemos
especificado un modelo de regresión y, a partir de los datos, hemos
ajustado la recta que aparece en el gráfico.
31
X
X
nX
1Y
b
1X
b
b
Y
u
X
Y
2 1 2 1ˆ
:
:
+
=
+
+
=
β
β
1 2 1 1ˆ
b
b
X
Y
=
+
1Y
b
2 nY
n nb
b
X
Y
ˆ
=
1+
2)
Var(
)
,
(
Cov
2X
Y
X
b
=
X
b
Y
b
1=
−
2Hemos elegido los parámetros de la recta ajustada de modo que minimicen
la suma de cuadrados de los residuos.
32
Verdadero
Ajustado
Expresiones alternativas para b
2)
Var(
)
,
(
Cov
2X
Y
X
b
=
En función de las expresiones de la varianza y covarianza muestral....
34
∑
∑
∑
∑
−
−
−
=
−
−
−
=
2 2 2)
(
)
)(
(
)
(
1
)
)(
(
1
X
X
Y
Y
X
X
X
X
n
Y
Y
X
X
n
b
i i i i i i)
Var(
)
,
(
Cov
2X
Y
X
b
=
2 2 2 2 21
1
X
n
X
Y
X
n
Y
X
X
X
n
Y
X
Y
X
n
b
i i i i i i−
−
=
−
−
=
∑
∑
∑
∑
∑
∑
∑
∑
−
−
−
=
−
−
−
=
2 2 2(
)
)
)(
(
)
(
1
)
)(
(
1
X
X
Y
Y
X
X
X
X
n
Y
Y
X
X
n
b
i i i i i i 35Expresiones alternativas para b
2...y utilizando las expresiones alternativas de la varianza y covarianza
muestral que calculamos en clases anteriores.
1
Este gráfico muestra el salario por hora de 570 individuos. -10 0 10 20 30 40 50 60 70 80 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Estudios S al ar io por hor a ($ )
. Regresión Salario- Estudios
Source | SS df MS Number of obs = 570 ---+--- F( 1, 568) = 65.64 Model | 3977.38016 1 3977.38016 Prob > F = 0.0000 Residual | 34419.6569 568 60.5979875 R-squared = 0.1036 ---+--- Adj R-squared = 0.1020 Total | 38397.0371 569 67.4816117 Root MSE = 7.7845 ---SALARIO | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---+---S | 1.073055 .1324501 8.102 0.000 .8129028 1.333206 _cons | -1.391004 1.820305 -0.764 0.445 -4.966354 2.184347 ---5
3. INTERPRETACIÓN DE LA REGRESIÓN
-10 0 10 20 30 40 50 60 70 80 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Estudios Sa la ri o 11
S
Salario
^
=
−
1
.
391
+
1
.
073
¿Qué significan los coeficientes?
7 8 9 10 11 12 13 14 15 10.8 11 11.2 11.4 11.6 11.8 12 12.2 Estudios Sal ar io 12
Un año
$1.07
$10.41
$11.49
¿Qué mide la pendiente?
-10 0 10 20 30 40 50 60 70 80 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Estudios In g re so 15
¿Qué significa el término constante? En este caso, ¿su valor tiene sentido?
La razón por la que obtenemos ese valor negativo es porque en nuestra muestra sólo hay individuos con un nivel de estudios igual o superior a 6 años. Entonces….
^
S
Salario
=
−
1
.
391
+
1
.
073
-10 0 10 20 30 40 50 60 70 80 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Estudios Sa la ri o 18^
S
Salario
=
−
1
.
391
+
1
.
073
3. INTERPRETACIÓN DE LA REGRESIÓN
… ésta sería la parte de la regresión que se corresponde con las observaciones disponibles.
El siguiente cuadro contiene los resultados de la prueba de aptitud para el
acceso a la universidad en EE.UU. (ACT, American College Testing) y la nota
media en la universidad (GPA, Grade Point Average) de 8 estudiantes. El
GPA se basa en una escala de 1 a 4.
a) Estimar la relación entre GPA y ACT empleando MCO, es decir, obtener los
valores estimados de los parámetros del modelo
GPA = β
1+ β
2ACT + u
¿El término constante tiene una interpretación útil en este caso? ¿Cuánto
aumenta GPA si ACT aumenta 5 puntos?
b) Calcula los valores ajustados y los residuos para cada observación.
c) Calcular el valor predicho para GPA cuando ACT=20.
30 3.7 8 26 3.0 3 27 3.5 4 29 3.6 5 25 3.0 6 25 2.7 7 24 3.4 2 21 2.8 1 ACT GPA Estudiante
Tres resultados relevantes:
4. BONDAD DE AJUSTE
0
=
e
Y
ˆ
=
Y
Cov
(
Y
ˆ
,
e
)
=
0
Tres resultados relevantes:
0
=
e
Y
ˆ
=
Y
Cov
(
Y
ˆ
,
e
)
=
0
i i i i iY
Y
Y
b
b
X
e
=
−
ˆ
=
−
1−
2 3 i ib
b
X
Y
ˆ
=
1+
2Residuo
Demostrar
e
=
0
Tres resultados relevantes:
0
=
e
Y
ˆ
=
Y
Cov
(
Y
ˆ
,
e
)
=
0
i i i i iY
Y
Y
b
b
X
e
=
−
ˆ
=
−
1−
2∑
∑
∑
e
i=
Y
i−
Y
ˆ
i∑
∑
∑
i=
i−
Y
in
Y
n
e
n
ˆ
1
1
1
Y
Y
e
=
−
ˆ
Y
ˆ
=
Y
114. BONDAD DE AJUSTE
Demostrar
Y
ˆ
=
Y
[
]
[
]
0
)
(
Var
)
(
Var
)
,
(
Cov
)
,
(
Cov
)
,
(
Cov
)
,
(
Cov
)
,
(
Cov
)
,
(
Cov
)
,
(
Cov
])
[
,
(
Cov
)
,
(
Cov
0
)
,
(
Cov
)
,
(
Cov
)
]),
([
Cov
)
,
ˆ
(
Cov
2 2 2 2 1 2 2 1 2 2 2 1 2 1=
−
=
−
=
−
−
=
−
−
=
+
=
+
=
+
=
X
X
Y
X
Y
X
b
X
X
b
Y
X
b
X
b
X
b
X
Y
X
b
X
b
b
Y
X
b
e
X
b
e
X
b
e
b
e
X
b
b
e
Y
Tres resultados relevantes:
0
=
e
Y
ˆ
=
Y
Cov
(
Y
ˆ
,
e
)
=
0
21
Demostrad que es igual a 0
Demostrar
Y
ˆ
=
Y
i i i i i iY
Y
Y
Y
e
e
=
−
ˆ
⇒
=
ˆ
+
Para analizar la bondad del ajuste, descomponemos el valor observado en el
valor ajustado y el residuo.
23
i i i i i i
Y
Y
Y
Y
e
e
=
−
ˆ
⇒
=
ˆ
+
)
Var(
)
ˆ
Var(
)
,
ˆ
Cov(
2
)
Var(
)
ˆ
Var(
)
ˆ
Var(
)
(
Var
e
Y
e
Y
e
Y
e
Y
Y
+
=
+
+
=
+
=
∑
∑
∑
(
−
)
2=
1
(
ˆ
−
ˆ
)
2+
1
(
−
)
21
e
e
n
Y
Y
n
Y
Y
n
∑
∑
∑
∑
−
−
=
−
−
=
=
2 2 2 2 2)
(
1
)
(
)
ˆ
(
Y
Y
e
Y
Y
Y
Y
SCT
SCE
R
i i i iSCR
SCE
SCT
=
+
∑
∑
∑
(
Y
−
Y
)
2=
(
Y
ˆ
−
Y
)
2+
e
2 35Un criterio de bondad de ajuste de ajuste es el coeficiente de determinación.
2 ˆ ,
)
(
Var
)
ˆ
(
Var
)
ˆ
(
Var
)
(
Var
)
ˆ
(
Var
)
ˆ
(
Var
)
ˆ
(
Var
)
(
Var
)
ˆ
(
Var
)
ˆ
(
Var
)
(
Var
)
ˆ
,
(
Cov
)
ˆ
,
ˆ
(
Cov
)
ˆ
(
Var
)
(
Var
)
ˆ
],
ˆ
([
Cov
)
ˆ
(
Var
)
(
Var
)
ˆ
,
(
Cov
R
Y
Y
Y
Y
Y
Y
Y
Y
Y
Y
Y
Y
e
Y
Y
Y
Y
Y
e
Y
Y
Y
Y
Y
r
Y Y=
=
=
=
+
=
+
=
=
Otro criterio de bondad de ajuste es la correlacion entre el valor observado
y ajustado de la variable
Y.
37
2 ˆ ,