Regresión Lineal Simple

Texto completo

(1)

Teoría de la decisión

Regresión Lineal Simple

1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una serie de

Observaciones: Por ejemplo:

* pesoadulto <=> altura / pesoadulto ≈ k*altura * relación de la circunferencia al radio c = 2. 𝜋.r

* la presión de una masa de gas en relación a su temperatura y volumen V1.P1.T0 = V0.P0.T1

2.- El problema estadístico se convierte en que dado un conjunto de datos hipotéticamente

relacionados entre sí

¿cómo evidenciar esa relación?

Desarrollar un modelo que permita (de ser posible) predecir con determinada certeza el valor de una variable (dependiente) con respecto a otra relacionada (independiente) cada vez que esta última toma un valor.

(2)

Teoría de la decisión

Regresión Lineal Simple

3.- Diagrama de dispersión: Representación gráfica de las observaciones de dos variables aparente o hipotéticamente relacionadas, con el objeto de evidenciar tal relación.

Relación lineal positiva Relación lineal negativa Relación curva creciente

(3)

Teoría de la decisión

Regresión Lineal Simple

4.- El ajuste de la curva es el procedimiento de hallar una curva que represente lo más eficazmente posible la distribución de los datos.

El objeto es determinar la ecuación de la curva que represente la menor desviación posible del conjunto de datos considerado.

5.- A estos efectos el procedimiento de mínimos cuadrados, es la técnica matemática de análisis numérico que permite encontrar la función que mejor se aproxime al conjunto de datos (ajuste) siguiendo el criterio del menor error cuadrático. Se trata de minimizar la suma de los cuadrados entre los puntos generados por la función y los correspondientes en los datos.

6.- Se llama Regresión a la media de la distribución de una variable (dependiente) con respecto a un valor determinado de otra (independiente).

(4)

El modelo puede representarse como:

𝑌𝑖 = 𝑏0 + 𝑏1 𝑋𝑖 + 𝜀𝑖

𝑌𝑖 : variable dependiente

𝑏0 : intersección con el eje de ordenadas

𝑏1: pendiente real de la población

𝑋𝑖: variable independiente

𝜀𝑖: error aleatorio en Y para la observación i

𝑌𝑖 = 𝑏0 + 𝑏1𝑋𝑖 + 𝜀𝑖

Teoría de la decisión

Regresión Lineal Simple

8.- Determinación de la ecuación de regresión. En esencia el problema consiste en determinar a partir de los datos los elementos descriptivos de la recta; a saber

(5)

Teoría de la decisión

Regresión Lineal Simple

Sujeto a las siguientes condiciones:

(1) Normalidad: La variable dependiente debe presentar una distribución normal

para cada valor de la variable independiente.

(2) Homocedasticidad: La variación en torno a la recta de regresión debe ser constante para todos los valores de la variable independiente.

(6)

Teoría de la decisión

Regresión Lineal Simple

El método de mínimos cuadrados nos permite determinar, dentro de estas premisas, la ecuación

bajo el siguiente modelo general:

i

i

b

b

X

(7)

Teoría de la decisión

Regresión Lineal Simple

Ejercicio 1

El contador de costos de una empresa de construcción tiene el problema de estimar los costos de construcción para viviendas unifamiliares en el próximo año,

para asignar los posibles precios. Tiene a mano los registros de todas las

viviendas construidas en el último año. Por experiencia supone como razonable la hipótesis que el costo de la construcción está relacionado con el tamaño de la

parcela: decide tomar una muestra aleatoria de 12 casas, según tabla a continuación:

área parcela

(mts2) 500,0 700,0 1.000,0 1.000,0 1.200,0 2.000,0 2.200,0 1.500,0 3.000,0 4.000,0 1.200,0 1.500,0

Costo Const. (MBs.)

(8)

Teoría de la decisión

Regresión Lineal Simple

A partir de esta data, el contador construye un gráfico de dispersión con el objeto de determinar a grandes rasgos si su hipótesis es correcta:

0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0

500,0 650,0 800,0 950,0 1.100,0 1.250,0 1.400,0 1.550,0 1.700,0 1.850,0 2.000,0

C o st o d e co n st ru cc n M B s.

Tamaño de la parcela (m2)

(9)

Teoría de la decisión

Regresión Lineal Simple

área parcela (mts2) Costo Const.(MBs.) XY X2 Y2

1 500,0 31,6 15.800,00 250.000,00 998,56

2 700,0 32,4 22.680,00 490.000,00 1.049,76

3 1000,0 41,7 41.700,00 1.000.000,00 1.738,89

4 1000,0 50,2 50.200,00 1.000.000,00 2.520,04

5 1200,0 46,2 55.440,00 1.440.000,00 2.134,44

6 2000,0 58,5 117.000,00 4.000.000,00 3.422,25

7 2200,0 59,3 130.460,00 4.840.000,00 3.516,49

8 1500,0 48,4 72.600,00 2.250.000,00 2.342,56

9 3000,0 63,7 191.100,00 9.000.000,00 4.057,69

10 4000,0 85,3 341.200,00 16.000.000,00 7.276,09

11 1200,0 53,4 64.080,00 1.440.000,00 2.851,56

12 1500,0 54,5 81.750,00 2.250.000,00 2.970,25

Sumas 19.800,00 625,20 1.184.010,00 43.960.000,00 34.878,58

medias 1.650,00 52,10

b1 = 0,014

(10)

Teoría de la decisión

Regresión Lineal Simple

Dato original estimación

área parcela (mts2) Costo Const (MBs.)

Yest Y - Yest

1 500,0 31,6 36,57 -4,97

2 700,0 32,4 39,27 -6,87

3 1000,0 41,7 43,32 -1,62

4 1000,0 50,2 43,32 6,88

5 1200,0 46,2 46,02 0,18

6 2000,0 58,5 56,83 1,67

7 2200,0 59,3 59,53 -0,23

8 1500,0 48,4 50,07 -1,67

9 3000,0 63,7 70,33 -6,63

10 4000,0 85,3 83,83 1,47

11 1200,0 53,4 46,02 7,38

12 1500,0 54,5 50,07 4,43

9. Error estándar de la estimación. Al igual que las observaciones no están ubicadas exactamente sobre su media aritmética, tampoco lo estarán sobre la recta de regresión tal cual como observamos en la tabla en la columna Y-Yest. Por tanto las estimaciones obtenidas son aproximaciones, y por ello es necesario desarrollar un estadístico que mida la variabilidad en los valores reales de Y a partir de las estimaciones Yest. Esta medida se llama error estándar de la estimación se le denota por Sxy

o su equivalente

(11)

Teoría de la decisión

Regresión Lineal Simple

Variación explicada Variación no explicada Variación

total Yest = b0 + b1 Xi Yi

Xi

Ymedia

variación total:

medida de la variación de los valores de Y en torno a su media.

variación explicada:

consecuencia de la relación que existe entre Y y X.

variación no explicada:

(12)
(13)

Teoría de la decisión

Regresión Lineal Simple

11. Coeficiente de determinación (r2). Si obtenemos la razón de la variación

explicada a la variación total podremos calcular el porcentaje de la variación explicada por el modelo de regresión y por tanto una medida de cuán confiable es el modelo. Esta medida se define como:

𝑟2 = 𝑉𝑒𝑥𝑝 𝑉𝑡𝑜𝑡𝑎𝑙

12. Correlación. Este estadístico mide cuán fuerte es la relación entre dos variables, a través de un coeficiente ρ de correlación, tal que

−1 ≤ 𝜌 ≤ +1

(14)

Teoría de la decisión

Regresión Lineal Simple

El coeficiente de correlación viene dado por la ecuación

𝑟 = 𝑟

2

Si sólo se efectúa el análisis de correlación en un grupo de datos; es decir sin asociarlo a la regresión, el coeficiente de correlación de la muestra puede calcularse directamente con:

𝑟 =

𝑋

𝑖

− 𝑋 𝑌

𝑖

− 𝑌

𝑛 𝑖=1

𝑋

𝑖

− 𝑋

2

𝑛

(15)

Teoría de la decisión

Regresión Lineal Simple

S

YX

=

4,976

V

exp

=

2.058,008

V

nexp

=

247,652

V

total

=

2.305,660

r

2

=

0,893

r =

0,945

Coeficiente de determinación Coeficiente de

correlación Error típico

(16)

Teoría de la decisión

Regresión Lineal Simple

Ejercicio 2.-

El Director de una Universidad en su proceso de evaluación

de conductas de entrada cree que el promedio de los últimos dos años de

bachillerato y el índice académico de los alumnos están relacionados.

Sólo toma como referencia los alumnos del 4to. Año de ellos toma una

muestra de 15 alumnos que se detalla a continuación:

Promedio bach. 87 88 80 83 80 98 78 85 80 92 76 81 82 89 78

(17)

Teoría de la decisión

Regresión Lineal Simple

2,00 2,25 2,50 2,75 3,00 3,25 3,50 3,75 4,00

70,00 75,00 80,00 85,00 90,00 95,00 100,00

In d ic e a ca d é m ic o

Promedio en Bachillerato

(18)

Teoría de la decisión

Regresión Lineal Simple

Promedio bachillerato

Indice

académico XY X

2 Y2 Y

est Y - Yest

87,00 2,30 200,10 7.569,00 5,2900 b1 = 0,0323 3,0387 -0,7387

88,00 2,80 246,40 7.744,00 7,8400 b0 = 0,2295 3,0709 -0,2709

80,00 2,90 232,00 6.400,00 8,4100 SYX = 0,3524 2,8126 0,0874

83,00 3,00 249,00 6.889,00 9,0000 Vexp = 0,5301 2,9095 0,0905

80,00 2,82 225,60 6.400,00 7,9524 Vtotal = 2,1442 2,8126 0,0074

98,00 3,86 378,28 9.604,00 14,8996 r2 = 0,2472 3,3938

0,4662 78,00 2,60 202,80 6.084,00 6,7600 r = 0,4972 2,7481 -0,1481

85,00 3,34 283,90 7.225,00 11,1556 2,9741 0,3659

80,00 2,50 200,00 6.400,00 6,2500 2,8126 -0,3126

92,00 3,00 276,00 8.464,00 9,0000 3,2001 -0,2001

76,00 3,20 243,20 5.776,00 10,2400 2,6835 0,5165

81,00 3,20 259,20 6.561,00 10,2400 2,8449 0,3551

82,00 2,64 216,48 6.724,00 6,9696 2,8772 -0,2372

89,00 3,21 285,69 7.921,00 10,3041 3,1032 0,1068

78,00 2,66 207,48 6.084,00 7,0756 2,7481 -0,0881

(19)
(20)

Teoría de la decisión

Regresión Lineal Simple

Predicciones en el análisis de regresión (interpolación vs. extrapolación)

1. Utilizar el rango del conjunto de datos (interpolación)

2. Las inferencia fuera de ese rango no son aconsejables (no extrapolar).

(a) datos fuera del dominio

(b) cambian media y desviación típica (c) cambian los supuestos matemáticos

(21)

Teoría de la decisión

Regresión Lineal Simple

Intervalo de confianza para predecir la media del conjunto (

µ

YX)

El ancho del intervalo depende de:

. El valor del error típico, al aumentar la variación el intervalo es más ancho . El tamaño de la muestra, su aumento tiende a reducir el intervalo

(22)

Teoría de la decisión

Regresión Lineal Simple

Figure

Actualización...

Referencias

Actualización...