Teoría de la decisión
Regresión Lineal Simple
1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una serie de
Observaciones: Por ejemplo:
* pesoadulto <=> altura / pesoadulto ≈ k*altura * relación de la circunferencia al radio c = 2. 𝜋.r
* la presión de una masa de gas en relación a su temperatura y volumen V1.P1.T0 = V0.P0.T1
2.- El problema estadístico se convierte en que dado un conjunto de datos hipotéticamente
relacionados entre sí
¿cómo evidenciar esa relación?
Desarrollar un modelo que permita (de ser posible) predecir con determinada certeza el valor de una variable (dependiente) con respecto a otra relacionada (independiente) cada vez que esta última toma un valor.
Teoría de la decisión
Regresión Lineal Simple
3.- Diagrama de dispersión: Representación gráfica de las observaciones de dos variables aparente o hipotéticamente relacionadas, con el objeto de evidenciar tal relación.
Relación lineal positiva Relación lineal negativa Relación curva creciente
Teoría de la decisión
Regresión Lineal Simple
4.- El ajuste de la curva es el procedimiento de hallar una curva que represente lo más eficazmente posible la distribución de los datos.
El objeto es determinar la ecuación de la curva que represente la menor desviación posible del conjunto de datos considerado.
5.- A estos efectos el procedimiento de mínimos cuadrados, es la técnica matemática de análisis numérico que permite encontrar la función que mejor se aproxime al conjunto de datos (ajuste) siguiendo el criterio del menor error cuadrático. Se trata de minimizar la suma de los cuadrados entre los puntos generados por la función y los correspondientes en los datos.
6.- Se llama Regresión a la media de la distribución de una variable (dependiente) con respecto a un valor determinado de otra (independiente).
El modelo puede representarse como:
𝑌𝑖 = 𝑏0 + 𝑏1 𝑋𝑖 + 𝜀𝑖
𝑌𝑖 : variable dependiente
𝑏0 : intersección con el eje de ordenadas
𝑏1: pendiente real de la población
𝑋𝑖: variable independiente
𝜀𝑖: error aleatorio en Y para la observación i
𝑌𝑖 = 𝑏0 + 𝑏1𝑋𝑖 + 𝜀𝑖
Teoría de la decisión
Regresión Lineal Simple
8.- Determinación de la ecuación de regresión. En esencia el problema consiste en determinar a partir de los datos los elementos descriptivos de la recta; a saber
Teoría de la decisión
Regresión Lineal Simple
Sujeto a las siguientes condiciones:
(1) Normalidad: La variable dependiente debe presentar una distribución normal
para cada valor de la variable independiente.
(2) Homocedasticidad: La variación en torno a la recta de regresión debe ser constante para todos los valores de la variable independiente.
Teoría de la decisión
Regresión Lineal Simple
El método de mínimos cuadrados nos permite determinar, dentro de estas premisas, la ecuación
bajo el siguiente modelo general:
i
i
b
b
X
Teoría de la decisión
Regresión Lineal Simple
Ejercicio 1
El contador de costos de una empresa de construcción tiene el problema de estimar los costos de construcción para viviendas unifamiliares en el próximo año,
para asignar los posibles precios. Tiene a mano los registros de todas las
viviendas construidas en el último año. Por experiencia supone como razonable la hipótesis que el costo de la construcción está relacionado con el tamaño de la
parcela: decide tomar una muestra aleatoria de 12 casas, según tabla a continuación:
área parcela
(mts2) 500,0 700,0 1.000,0 1.000,0 1.200,0 2.000,0 2.200,0 1.500,0 3.000,0 4.000,0 1.200,0 1.500,0
Costo Const. (MBs.)
Teoría de la decisión
Regresión Lineal Simple
A partir de esta data, el contador construye un gráfico de dispersión con el objeto de determinar a grandes rasgos si su hipótesis es correcta:
0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0
500,0 650,0 800,0 950,0 1.100,0 1.250,0 1.400,0 1.550,0 1.700,0 1.850,0 2.000,0
C o st o d e co n st ru cc ió n M B s.
Tamaño de la parcela (m2)
Teoría de la decisión
Regresión Lineal Simple
área parcela (mts2) Costo Const.(MBs.) XY X2 Y2
1 500,0 31,6 15.800,00 250.000,00 998,56
2 700,0 32,4 22.680,00 490.000,00 1.049,76
3 1000,0 41,7 41.700,00 1.000.000,00 1.738,89
4 1000,0 50,2 50.200,00 1.000.000,00 2.520,04
5 1200,0 46,2 55.440,00 1.440.000,00 2.134,44
6 2000,0 58,5 117.000,00 4.000.000,00 3.422,25
7 2200,0 59,3 130.460,00 4.840.000,00 3.516,49
8 1500,0 48,4 72.600,00 2.250.000,00 2.342,56
9 3000,0 63,7 191.100,00 9.000.000,00 4.057,69
10 4000,0 85,3 341.200,00 16.000.000,00 7.276,09
11 1200,0 53,4 64.080,00 1.440.000,00 2.851,56
12 1500,0 54,5 81.750,00 2.250.000,00 2.970,25
Sumas 19.800,00 625,20 1.184.010,00 43.960.000,00 34.878,58
medias 1.650,00 52,10
b1 = 0,014
Teoría de la decisión
Regresión Lineal Simple
Dato original estimación
área parcela (mts2) Costo Const (MBs.)
Yest Y - Yest
1 500,0 31,6 36,57 -4,97
2 700,0 32,4 39,27 -6,87
3 1000,0 41,7 43,32 -1,62
4 1000,0 50,2 43,32 6,88
5 1200,0 46,2 46,02 0,18
6 2000,0 58,5 56,83 1,67
7 2200,0 59,3 59,53 -0,23
8 1500,0 48,4 50,07 -1,67
9 3000,0 63,7 70,33 -6,63
10 4000,0 85,3 83,83 1,47
11 1200,0 53,4 46,02 7,38
12 1500,0 54,5 50,07 4,43
9. Error estándar de la estimación. Al igual que las observaciones no están ubicadas exactamente sobre su media aritmética, tampoco lo estarán sobre la recta de regresión tal cual como observamos en la tabla en la columna Y-Yest. Por tanto las estimaciones obtenidas son aproximaciones, y por ello es necesario desarrollar un estadístico que mida la variabilidad en los valores reales de Y a partir de las estimaciones Yest. Esta medida se llama error estándar de la estimación se le denota por Sxy
o su equivalente
Teoría de la decisión
Regresión Lineal Simple
Variación explicada Variación no explicada Variación
total Yest = b0 + b1 Xi Yi
Xi
Ymedia
variación total:
medida de la variación de los valores de Y en torno a su media.
variación explicada:
consecuencia de la relación que existe entre Y y X.
variación no explicada:
Teoría de la decisión
Regresión Lineal Simple
11. Coeficiente de determinación (r2). Si obtenemos la razón de la variación
explicada a la variación total podremos calcular el porcentaje de la variación explicada por el modelo de regresión y por tanto una medida de cuán confiable es el modelo. Esta medida se define como:
𝑟2 = 𝑉𝑒𝑥𝑝 𝑉𝑡𝑜𝑡𝑎𝑙
12. Correlación. Este estadístico mide cuán fuerte es la relación entre dos variables, a través de un coeficiente ρ de correlación, tal que
−1 ≤ 𝜌 ≤ +1
Teoría de la decisión
Regresión Lineal Simple
El coeficiente de correlación viene dado por la ecuación
𝑟 = 𝑟
2
Si sólo se efectúa el análisis de correlación en un grupo de datos; es decir sin asociarlo a la regresión, el coeficiente de correlación de la muestra puede calcularse directamente con:
𝑟 =
𝑋
𝑖− 𝑋 𝑌
𝑖− 𝑌
𝑛 𝑖=1
𝑋
𝑖− 𝑋
2𝑛
Teoría de la decisión
Regresión Lineal Simple
S
YX
=
4,976
V
exp
=
2.058,008
V
nexp
=
247,652
V
total
=
2.305,660
r
2
=
0,893
r =
0,945
Coeficiente de determinación Coeficiente de
correlación Error típico
Teoría de la decisión
Regresión Lineal Simple
Ejercicio 2.-
El Director de una Universidad en su proceso de evaluación
de conductas de entrada cree que el promedio de los últimos dos años de
bachillerato y el índice académico de los alumnos están relacionados.
Sólo toma como referencia los alumnos del 4to. Año de ellos toma una
muestra de 15 alumnos que se detalla a continuación:
Promedio bach. 87 88 80 83 80 98 78 85 80 92 76 81 82 89 78
Teoría de la decisión
Regresión Lineal Simple
2,00 2,25 2,50 2,75 3,00 3,25 3,50 3,75 4,0070,00 75,00 80,00 85,00 90,00 95,00 100,00
In d ic e a ca d é m ic o
Promedio en Bachillerato
Teoría de la decisión
Regresión Lineal Simple
Promedio bachillerato
Indice
académico XY X
2 Y2 Y
est Y - Yest
87,00 2,30 200,10 7.569,00 5,2900 b1 = 0,0323 3,0387 -0,7387
88,00 2,80 246,40 7.744,00 7,8400 b0 = 0,2295 3,0709 -0,2709
80,00 2,90 232,00 6.400,00 8,4100 SYX = 0,3524 2,8126 0,0874
83,00 3,00 249,00 6.889,00 9,0000 Vexp = 0,5301 2,9095 0,0905
80,00 2,82 225,60 6.400,00 7,9524 Vtotal = 2,1442 2,8126 0,0074
98,00 3,86 378,28 9.604,00 14,8996 r2 = 0,2472 3,3938
0,4662 78,00 2,60 202,80 6.084,00 6,7600 r = 0,4972 2,7481 -0,1481
85,00 3,34 283,90 7.225,00 11,1556 2,9741 0,3659
80,00 2,50 200,00 6.400,00 6,2500 2,8126 -0,3126
92,00 3,00 276,00 8.464,00 9,0000 3,2001 -0,2001
76,00 3,20 243,20 5.776,00 10,2400 2,6835 0,5165
81,00 3,20 259,20 6.561,00 10,2400 2,8449 0,3551
82,00 2,64 216,48 6.724,00 6,9696 2,8772 -0,2372
89,00 3,21 285,69 7.921,00 10,3041 3,1032 0,1068
78,00 2,66 207,48 6.084,00 7,0756 2,7481 -0,0881
Teoría de la decisión
Regresión Lineal Simple
Predicciones en el análisis de regresión (interpolación vs. extrapolación)
1. Utilizar el rango del conjunto de datos (interpolación)
2. Las inferencia fuera de ese rango no son aconsejables (no extrapolar).
(a) datos fuera del dominio
(b) cambian media y desviación típica (c) cambian los supuestos matemáticos
Teoría de la decisión
Regresión Lineal Simple
Intervalo de confianza para predecir la media del conjunto (
µ
YX)El ancho del intervalo depende de:
. El valor del error típico, al aumentar la variación el intervalo es más ancho . El tamaño de la muestra, su aumento tiende a reducir el intervalo