Regresión Lineal y Correlación

Texto completo

(1)

Regresión Lineal y Correlación

Objetivos:

1. Describir el modelo de regresión simple.

2. Estudiar el método de los mínimos cuadrados para determinar la ecuación estimada de la regresión.

3. Desarrollar los conceptos de covarianza, correlación y coeficiente de determinación y sus interpretaciones.

4. Explicar la teoría relacionada con el análisis de correlación

Introducción:

Muy a menudo se presentan situaciones en las que es de gran interés conocer la relación entre dos variables, tal como se muestra a continuación:

 Un empresario quiere determinar qué relación hay entre los precios de un determinado producto y sus ventas.

 Un sicólogo desea saber si existe alguna relación entre el concepto que tiene un alumno de si mismo y su promedio de calificaciones.

 Un profesor está interesado en conocer de qué manera se puede predecir el rendimiento en estadística de un estudiante con base en el puntaje obtenido en una prueba de aptitud en dicha materia.

 Un ingeniero precisa en determinar el tipo de relación que hay entre la capacidad de un motor y la eficiencia de combustible en un automóvil equipado con este motor.

 Un sociólogo necesita saber qué clase de relación existe entre la tasa de delincuencia juvenil que hay en una comunidad y el grado de hacinamiento de los hogares que allí se encuentran.

Relaciones de esta naturaleza se pueden investigar por medio del análisis de regresión y/o del análisis de correlación. Esto se puede afirmar porque el ANÁLISIS DE REGRESIÓN se refiere a la naturaleza de las relaciones entre las variables y el ANÁLISIS DE CORRELACIÓN se centra en la fuerza o en la intensidad de las relaciones. Estos conceptos fueron presentados por el científico inglés Sir Francis Galton cuando hacía sus investigaciones sobre a herencia y otras áreas de la biología.

Cuando la investigación de las relaciones está limitada solamente a dos variables, denominamos estos métodos analíticos ANÁLISIS DE REGRESIÓN LINEAL SIMPLE y ANÁLISIS DE CORRELACIÓN SIMPLE, según el caso. Los análisis de correlación simples son los temas que se estudiarán en el presente capítulos. Si consideramos más de dos variables, entonces, denominamos a las técnicas analíticas ANÁLISIS DE GRUPO MÚLTIPLE o ANÁLISIS E CORRELACIÓN MÚLTIPLE.

(2)

1. El modelo de regresión lineal simple

1.1. Preliminares

La relación matemática (determinista) más sencilla entre dos variables x y y es una relación lineal y=δ+βx, esto es: el conjunto de parejas (x, y) para el cual y=δ+βx determina una línea recta con pendiente β, que interseca el eje Y en y=δ. El objetivo de este apartado consiste, entonces, en desarrollar un modelo probabilístico lineal. Para ello, debemos partir del hecho que las dos variables no están relacionadas en forma determinista, entonces, para un valor fijo de x, el valor de la segunda variable es aleatorio como se muestra en el siguiente ejemplo. Ejemplo 1.1. Supongamos que estamos investigando la relación entre la edad de un niño y la magnitud de su vocabulario y decidimos seleccionar un niño de x=5 años .Entonces, antes de hacer la selección, la magnitud del vocabulario es una variable aleatoria Y. Después de haber seleccionado y observado un niño de 5 años en particular, puede resultar un vocabulario de 2000 palabras. En este caso, diríamos que el valor observado de Y, asociado con fijar x=5, fue y=2000.

Por lo general, la variable cuyo valor es fijado por el investigador estará representada por x y se llamara VARIABLE INDEPENDIENTE (PREDICTORIA O EXPLICATIVA). Para x fija, la segunda variable será aleatoria (representemos esta variable aleatoria por Y y su valor observado por y). A esta variable Y la llamaremos VARIABLE DEPENDIENTE O DE RESPUESTA.

Por lo general, las observaciones se efectuaran para diversos valores x1, x2,…, xn de la variable

independiente Xi. Representaremos con Yi y yi la variable aleatoria y el valor asociado con xi.

Entonces, la información disponible está formada por la n parejas (xi, yi), i= 1,…, n. Un primer

paso, ya en el análisis de regresión simple, consiste en trazar un DIAGRAMA DE DISPERSION de los datos, en donde cada pareja (xi, yi) es un punto ubicado en un sistema coordenado

bidimensional.

Ejemplo 1.2 Durante la década de los cuarenta y cincuenta del siglo XIX, el físico escocés J.D. Forbes realizó estudios con los que pretendía determinar la altitud de cumbres montañosas sobre el nivel del mar. Para realizar este estudio, Forbes tomo medidas de la presión y la temperatura de ebullición de agua en diferentes ubicaciones de los Alpes y Escocia, como se muestra en la tabla.1 (las medidas fueron registradas en pulgadas de mercurio y las temperaturas, en grados Fahrenheit).

Tabla 1 𝑖 𝑥𝑖 𝑦𝑖 𝑖 𝑥𝑖 𝑦𝑖 𝑖 𝑥𝑖 𝑦𝑖 1 194.5 20.79 7 200.9 23.89 13 209.5 28.49 2 194.3 20.79 8 201.1 23.99 14 208.6 27.76 3 197.9 22.4 9 201.4 24.02 15 210.7 29.04 4 198.4 22.67 10 201.3 24.01 16 211.9 29.88 5 199.4 23.15 11 203.6 25.14 17 212.2 30.06 6 199.9 23.35 12 204.6 26.57

(3)

Así,(x1, y1) = (194.5; 20.79), (x2, y2)= (194.3; 20.79), etc.

FIGURA 1

Observemos lo siguiente, en los datos y en el diagrama:

Algunas observaciones tienen valores y idénticos, pero valores diferentes de x (compárese con las dos primeras observaciones).

Hay una fuerte tendencia de “y” a aumentar cuando aumenta “x”. Esto es, los valores mayores de presión tienden a estar asociados con valores de mayor temperatura.

Al parecer, se podría pronosticar el valor de y a partir del valor e x si determináremos una línea recta que pasara e manera razonable cerca de lo puntos en la gráfica. En otras palabras, hay una evidencia de una apreciable (aunque no perfecta)relación lineal entre las dos variable.

1.2 El modelo de regresión lineal simple

Para el modelo determinista yi = δ + βxi, el valor observado de Yi es una función lineal de xi. La

generalización apropiada para esto a un modelo probabilístico supone que el valor esperado de Yi es una función lineal de xi. Si detonamos por E (Yi/Xi=xi) a la esperanza de una variable

aleatoria Yi, cuando la variable aleatoria X toma el valor específico Xi, entonces, el supuesto de

linealidad implica que esta esperanza puede plantearse como: E (Yi/X =xi) = δ + βx (1)

En la práctica, el valor observado de Yi se desviará, casi inevitablemente, de su valor esperado. Si la diferencia se representa mediante la variable aleatoria εi (que tiene media cero por la

ecuación (1)), entonces, podemos establecer:

εi= Yi – E(Yi/X = xi) = Yi – (δ + βxi)

Yi = δ + βxi+εi. (2)

La ecuación antes planteada (2) es la de la llamada recta verdadera (o poblacional) de regresión.

(4)

Definición 1.1Supongamos que estamos interesados en conocer la relación entre una variabledependiente Y, y una independiente X. Si la variable aleatoria toma los valores xi, entonces, la ecuación de la RECTA POBLACIONAL DE REGRESIÓN expresa los correspondientes valores Yi como:

Yi = δ + βxi+εi.

Donde δ y β son constantes y εi, llamado TÉRMINO DE ERROR, es una variable aleatoria con media 0.

El modelo de regresión que acabamos de describir se ilustra en la figura 2, la cual muestra una recta que representa la relación lineal entre el valor esperado de la variable dependiente y el valor que toma la variable independiente. Así, para cada posible valor de la variable independiente, el valor de la variable dependiente puede representarse mediante una variable aleatoria cuya media está sobre la recta verdadera de regresión. En la figura, hemos representando esto, dibujando una serie de funciones de densidad para la variable dependiente, dado algunos valores e la variable independiente. La recta verdadera de regresión se traza sobre las medias de esas distribuciones. Tenemos, de este modo, que para un valor xi, la desviación de la variable dependiente Yi respecto de la recta de regresión es el término de error εi. Las funciones de densidad dibujadas en la figura 2 pueden considerarse como las funciones de densidad de las variables aleatorias εi. Cuando cada una de estas funciones se centran en 0.

FIGURA 2

Supuestos básicos para el modelo de regresión lineal

(5)

Supuestos para el modelo de regresión lineal simple. Denotemos la recta verdadera de regresión por Yi = δ + βxi+εi. Y asumamos que se dispone de n pares de observaciones. Suelen

realizarse, al respecto, los siguientes supuestos:

1. Cada xi es un número fijo (asignado, por ejemplo, por un investigador) o es la

realización de una variable aleatoria Xi independientemente del término error εi. En el

último caso, la inferencia se realiza condicionando al valor observado xi.

2. Los términos de error εi. Son variables aleatorias con media 0, es decir, E (εi) = 0, para

todo i =1,…, n.

3. Las variables aleatorias εi tienen todas las mismas varianzas σ2, es decir, V (εi) =σ2,

para todo i =1,…, n.

4. Las variables aleatorias εi no se hallan correlacionadas, luego, E (εi εj) =0, para todo

i,j=1,…,n con i≠ j.

El primer supuesto, generalmente se asume como cierto, a pesar de que en algunos trabajos e econometría avanzada es insostenible (la hipótesis falla, por ejemplo, cuando los xi no pueden

ser medidos con precisión o cuando la ecuación de regresión es parte de un sistema de ecuaciones interdependientes). Sin embargo, en lo sucesivo, tomaremos esta hipótesis como cierta.

Los supuestos 2-4 se refieren a los términos del error εi de la ecuación de regresión, es decir, a las diferencias entre los Yi, y su esperanza condicional δ + βxi es cero. El error esperado es 0 y

se asume que todos los errores tienen la misma varianza. Por tanto, no esperaremos que las magnitudes de los términos de error sean mayores para unas observaciones que para otras. Por último, se asume que los errores no se hayan correlacionados. Así, por ejemplo, la ocurrencia de un gran error positivo en una observación no ayuda a predecir los valores de ningún otro termino de error. Los supuestos 2-4 serán satisfechos si los términos de error εi pueden considerarse una muestra aleatoria de una población con media 0. En el resto de este capítulo, asumiremos que se verifican estos supuestos.

Ahora bien, los supuestos anteriores del modelo de regresión implican que, paraun valor fijo xi de X, La esperanza y varianza condicionales de Yi, dado que X= xi, vienen dadas por:

E (Yi/X= xi) = E (δ + βxi+ εi) = δ + βxi + E (εi) = δ + βxi

Y

V (Yi/X=xi)=V (δ + βxi+ εi) = V (δ + βxi)+V (εi)= 0 + σ2 = σ2

Respectivamente. Resumimos lo anterior en el siguiente teorema:

Teorema 1.2. Denotando la recta verdadera de regresión por Yi=δ + βxi+ εi, si se cumplen los supuestos en el modelo de regresión, entonces, para un valor fijo xi de X, la esperanza y varianza condicional de Yi, dado que X = xi , vienen dadas, respectivamente por:

(6)

Ejemplo 1.5 Supóngase que la relación entre la profundidad del océano X y la temperatura del agua Y descrita por el modelo de regresión lineal simple con la verdadera recta de regresión:

Y= 65-1.2x+ε

Supóngase, también, que se cumplen los supuestos del modelo de regresión y que ε está normalmente distribuida con media 0 y desviación σ =8.

a) Hállese la probabilidad de que Y > 50 cuando X = 20 b) Hállese la probabilidad de que Y > 50 cuando X = 25

c) Supóngase que Y25 representa una observación sobre la temperatura cuando X = 25 y que Y24 simboliza una observación independiente con X = 24. Hállese la probabilidad de que Y25 exceda Y24.

SOLUCION:

a) El supuesto de normalidad de los errores implica que la variable Y también es normal. Además, por el Teorema 1.2, para X = 20, Y tiene media y varianza:

E (Y/X = 20)=65 – (1.2) (20)=41 y V (Y/X=20)= 82 = 64 Respectivamente. Por consiguiente, teniendo en cuenta la tabla normal del,

P (Y> 50/X=20)= P (Z > (50-41)/8))= P (Z>1.125)= 0.1292

b) Análogo a la parte (a) para X= 25 Y tiene media y varianza

E (Y/X=25)= 65-(1.2)(25)=35 y V(Y/X= 25 )= 82 = 64

Respectivamente. Por tanto, otra vez teniendo en cuanta la tabla normal del apéndice, obtenemos:

P (Y> 50/X=25)= P (Z > ((50-35)/8))= P (Z>1.875)= 0.0301

c) El supuesto de normalidad de los errores implica nuevamente que la variable Y25-Y24 es también normal. Además, por el teorema 1.2, tenemos que

E (Y25-Y24)= E (Y25)-E (Y24)= 35-36.2 = -1.2 Y que

(7)

Respectivamente, donde se ha tenido en cuenta la independencia de las variables Y25 y Y24. Ahora teniendo en cuenta la tabla normal del apéndice

P (Y25>Y24) = P (Y25-Y24>0)= P (Z> ((0-(-1.2))/ (√ (128)))) = P (Z> 0.11)= 0.4562.

Con base en el resultado anterior, podemos concluir lo siguiente: aun cuando esperemos que Y disminuya al aumentar X en una unidad, no es probable que la Y observada en X = x+1 sea más grande que la Y observada en X = x.

1.4 Estimación de los parámetros por mínimos cuadrados

La recta de regresión poblacional introducida en la sección 1.2 es una valiosa construcción teórica. Sin embargo, en aplicaciones prácticas, uno nunca será capaz de determinar cómo es exactamente. En cambio, si suele ser necesario obtener una estimación a partir de los datos disponibles. Para ello, considere el modelo de regresión lineal, en el cual las variables son de la forma:

Yi=δ + βxi+ εi, I =1,2,…,n.

Con E (εi)= 0 y V (εi)= σ2. Ahora, se observan los datos y1,…yn y con ello los errores εi, toman la forma:

εi = yi-δ - βxi, i= 1,2,…,n.

En este caso, se puede aplicar el METODO DE LOS MINIMIOS CUADRADOS, que consiste en encontrar los valores “estimados” 𝛿̂ y 𝛽̂ de los parámetros δ y β, respectivamente, tales que el error cuadrático sea mínimo. Es decir, tal que:

f(δ,β)=∑ 𝜀𝑛1 𝑖2= ∑𝑛1 (yi-δ - βxi)2 = mínimo.

Los valores óptimos de δ y β se encuentran al tomar las derivadas parciales de f(δ,β) con respecto a δ y β, los cuales se igualan a cero y se resuelven la ecuaciones:

𝑑𝑓(𝛿, 𝛽) 𝑑𝛿 = −2 [∑ yi − n𝛿– 𝛽 ∑ 𝑥𝑖 𝑛 𝑖=1 𝑛 𝑖=1 ] = 0 𝑑𝑓(𝛿, 𝛽) 𝑑𝛽 = −2 [∑ 𝑦𝑖𝑥𝑖 𝑛 𝑖=1 − 𝛿 ∑ 𝑥𝑖 − 𝛽 ∑ 𝑥𝑖 𝑛 𝑖=1 𝑛 𝑖=1 2 ] = 0 Como suelen suceder, entonces dos casos:

1. Todos los valores xi son iguales (xi=x, para todo i). Situación en que se tiene en realidad

sólo un parámetro μ = δ+βx (real) , para lo cual la estimación “natural” μ (según el método de los mínimos cuadrados ) es la media de la muestra :

(8)

𝜇̂ = 𝑦̂ = 1 𝑛∑ 𝑦𝑖

𝑛

𝑖=1

2. Se supone ahora que el primer caso no ocurre. Entonces, con la cancelación del factor -2 y la manipulación algebraica de los términos, se obtiene el siguiente sistema de ecuaciones llamado ecuaciones normales:

𝑛𝛿 + (∑ 𝑥𝑖 𝑛 𝑖=1 ) 𝛽 = ∑ 𝑦𝑖 𝑛 𝑖=1 (∑ 𝑥𝑖 𝑛 𝑖=1 ) 𝛿 + (∑ 𝑥2 𝑖 𝑛 𝑖=1 ) 𝛽 = ∑ 𝑥𝑖𝑦𝑖 𝑛 𝑖=1

Las ecuaciones normales son lineales en los valores desconocidos δ y β. Con la condición de que el primer caso no ocurra (es decir, de que al menos dos de las xi sean diferentes), las estimaciones de mínimos cuadrados 𝛿̂𝑦𝛽̂ de los parámetros δ y β, respectivamente, son la única solución para este sistema. Estas estimaciones se presentan en el teorema1.3 y están expresadas en términos de las siguientes notaciones:

𝑆𝑥𝑥 = ∑(〖𝑥𝑖− 𝑥̅)〗2 𝑛 𝑖=1 = ∑ 𝑥𝑖2− 𝑛𝑥̅2 𝑛 𝑖=1 𝑆𝑦𝑦= ∑𝑛 (〖𝑦𝑖− 𝑦̅)〗2 𝑖=1 = ∑𝑛𝑖=1𝑦𝑖2− 𝑛𝑦̅2 (3) 𝑆𝑥𝑦= ∑(𝑥𝑖− 𝑥̅)(𝑦𝑖− 𝑦̅) 𝑛 𝑖=1 = ∑ 𝑥𝑖𝑦𝑖− 𝑛𝑥̅ 𝑛 𝑖=1 𝑦̅

Teorema 6.1.6 Sean Sxx y Syy como en la funciones anteriores. Donde la estimación de mínimos

cuadrados de los parámetros δ y β son: β̂ = SSxy

xx,δ̂ = y̅ −β̂x̅,

Respectivamente. La recta de regresión muestral (estimada o de mínimos cuadrados) es entonces aquella cuya ecuación es: y =δ̂ + β̂x.

Ejemplo 1.7 Para obtener una idea de cómo reciben ciertas plantas abonos o minerales de la tierra, se hizo el experimento siguiente: se escogieron 9 tierras con plantas de ciertos cereales (tanto tierras como plantas en condiciones lo más idénticas posibles). Se dio a cada tierra i una cantidad fija xi de fosforo y se midieron, después de 38 días, las cantidades fija xi de fosforo y

Teorema 1.3.

Sean S

xx

y S

yy

como en las funciones anteriores. Donde la estimación de

mínimos cuadrados de los parámetros δ y β son:

β̂ =

Sxy

Sxx

, δ̂ = y̅ − β̂x̅

,

Respectivamente. La recta de regresión muestral (estimada o de mínimos cuadrados) es

entonces aquella cuya ecuación es:

y = δ

̂ + β̂x

.

(9)

se midieron, después de 38 días, las cantidades yi de fósforo en las plantas. Los datos del experimento fueron:

Xi 1 4 5 9 11 13 23 23 28 Yi 64 71 54 81 76 93 77 95 109

Supóngase que los yi dependen linealmente de los xi a través de un modelo de regresión lineal simple con parámetros δ y β.

a) Calcule 𝛿̂𝑦𝛽̂ y haslle la ecuación verdadera de regresión. b) Calcule una estimación puntual de E(Y/X = 13)

c) Haga un diagrama de dispersión para los datos (xi, yi) y dibuje en él la línea de

regresión.-Solución:

Tenemos que n= 9, 𝑥̅ = 13, 𝑦̅ = 80

a) Aplicando el teorema 1.3, encontramos que 𝛽̂ = 1.42, 𝛿̂ = 61.54.La ecuación verdadera de regresión viene dada por:

E(Y/X=x)=61.54+1.42x.

b) Una estimación puntual de E(Y/X=13) = 61.54+(1.42)(13)=80

c)

Ejemplo 1.8 La tabla siguiente muestra 22 valores anuales para las ventas al detalle por hogar y, y la renta disponible por hogar x (en dólares constantes), en cierto país:

(10)

Tabla 2

Año xi Yi Año xi Yi Año xi Yi 1 9.098 5.492 2 9.282 5.507 3 9.525 5.538 4 10.662 6.157 5 11.432 6.124 6 11.871 6.496 7 12.053 6.471 8 12.494 6.755 9 9.138 5.540 10 9.229 5.418 11 9.756 5.692 12 11.019 6.342 13 11.449 6.186 14 12.018 6.718 15 12.088 6.394 16 9.094 5.305 17 9.347 5.320 18 10.282 5.871 19 11.307 5.907 20 11.697 6.224 21 12.523 6.921 22 12.215 6.555

Hállese la recta de regresión muestral (o estimada) e interprétese la pendiente de la recta de regresión.

SOLUCION:

Usando los datos e la tabla 2, obtenemos:

∑ 𝑥𝑖 = 237.579 , ∑ 𝑦𝑖 = 132.933 , ∑ 𝑥𝑖𝑦𝑖

= 1.448.555.000 , ∑ 𝑥𝑖2= 2.599.715.000

Por consiguiente, las medias muéstrales son: 𝑥̅ = 10.799 𝑒𝑦̅ = 6.042.4 .Los estimadores de mínimos cuadrados de los coeficientes de la recta de regresión poblacional, en este caso, son 𝛽̂ = 0.3815 𝑦𝛿̂ = 1,923 Por tanto, la recta de regresión muestral es:

y = 1.923 +0.3815x

Con respecto a la interpretación de la pendiente de la recta de regresión, podemos decir que un incremento de un dólar en la renta disponible por hogar produce, a su vez, en promedio, un incremento de 0.3815 dólares en las ventas al detalle por hogar.

1.5 Propiedad de los estimadores de mínimos cuadrados

El siguiente teorema, conocido en la literatura como teorema de Gauss-Markov, es muy útil en la teoría de la regresión porque nos ayuda a encontrar una justificación del uso de mínimos cuadrados en la estimación de la recta de regresión poblacional.

(11)

El teorema de Gauss-Markov proporciona una poderosa motivación para estimar los parámetros del modelo de regresión mediante mínimos cuadrados. Recordando la definición de eficiencia de la eficiencia de un estimador puntual, vemos que el método de mínimos cuadrados proporciona los estimadores más eficientes en una amplia clase de estimadores insesgados. Sin embargo, debe señalarse que este resultado depende de los supuestos de la sección 1.3, y que no puede ser cierto si éstos no se verifican. De aquí en adelante, continuaremos explorando las propiedades del método de estimación por mínimos cuadrados cuando estos supuestos son ciertos.

1.6 Teorema de descomposición de la suma de cuadrados

Una ecuación de regresión puede considerarse como un intento de emplear la información proporcionada por una variable independiente X, para explicar el comportamiento de una variable dependiente Y. Como las observaciones de la variable dependiente exhibirán cierta variabilidad en la muestra, en esta sección presentaremos un resultado que nos ayudará a calcular de alguna manera la variabilidad total de la muestra. Para lograr esto, recordaremos que, para los valores muéstrales, la recta e regresión estimada puede escribirse como:

𝑦𝑖 = 𝛿̂ + 𝛽̂𝑥𝑖 + 𝜖𝑖 o 𝑦𝑖 = 𝑦̂𝑖 + 𝜖𝑖 (4) 𝑦̂𝑖 = 𝛿̂ + 𝛽̂𝑥𝑖

Teorema 1.4. (teorema de Gauss-Markov)

Denotemos la recta de regresión poblacional por

Yi = δ+βxi+εi. Luego, supongamos que dispone de n pares de observaciones (

𝑥

1,

𝑦

1

)

,…,(

𝑥

𝑛,

𝑦

𝑛

)

y que se verifican los supuestos de la sección 1.3. Entonces:

(a)

De todos los posibles estimadores insesgados de δ y β que son combinación lineal

de los Yi ( es decir, estimadores de la forma:

𝑐

1

𝑌

1

+𝑐

2

𝑌

2

+

𝑐

𝑛

𝑌

𝑛

,

Donde los

𝑐

1

son números que no dependen de

𝑌

1

), los estimadores (o sea, las

variables aleatorias correspondientes a las estimaciones e mínimos cuadrados

𝛿̂

y

𝛽̂

de la sección 1.4) tienen la menor varianza.

(b)

Si

𝑑

0

y

𝑑

1

son dos números fijos y queremos estimar U =

𝑑

0

δ +

𝑑

1

β, entonces, el

estimador

𝑈̂

=

𝑑

0

𝛿̂

+

𝑑

1

𝛽̂

tiene la menor varianza en la clase de los estimadores

insesgados que son combinación lineal de las

𝑌

𝑖

(este resultado es útil cuando se

usa la recta de regresión para obtener predicciones acerca de la variable

dependiente).

En virtud de este teorema, se dice que los estimadores de mínimos cuadrados son LOS

MEJORES ESTIMADORES LINEALES INSESGADOS)

(12)

La cantidad 𝑦̂𝑖 es el valor predicho por la recta de regresión para la variable dependiente, y el residuo 𝜖𝑖 es la diferencia entre el valor observado y el valor predicho. Por consiguiente, el residuo representa la parte del comportamiento de la variable independiente. Para nuestros propósitos, es útil modificar ligeramente la ecuación (4). Podemos pensar, así, en la variabilidad muestral de la variable dependiente en términos de la desviación respecto a la media muestral. Restando 𝑦̅ a cada lado de la ecuación (4), podemos escribir:

(𝑦𝑖 − 𝑦̅) = (𝑦𝑖̂ − 𝑦̅) + 𝜖𝑖 (5) Aquí:

𝑦𝑖 − 𝑦̅= Desviación observada respecto de la media muestral 𝑦̂𝑖− 𝑦̅ = Desviación predicha respecto de la media muestral

Ahora puede comprobarse que si elevamos al cuadrado los términos a ambos lados de la ecuación 5 y sumamos respecto al índice muestral i, el resultado es:

∑𝑛 (𝑦𝑖 − 𝑦̅)2

𝑖=1 = ∑𝑛𝑖=1(𝑦𝑖̂ − 𝑦̅)2+ ∑𝑛𝑖=1𝜖𝑖2 (6)

La ecuación (6)posee una valiosa interpretación. El término del lado izquierdo representa la variabilidad total en la muestra de la variable dependiente en torno a su media. Esta variabilidad puede descomponerse en dos partes. El primer término el lado derecho de (6)representa la parte de la variabilidad explicada por la regresión, mientras que el segundo término representa la variabilidad no explica. El siguiente teorema resume lo explicado anteriormente:

Teorema 6.1.10 (Descomposición de la suma de cuadrados) Supongamos que se ajusta una ecuación de regresión lineal por mínimos cuadrados a n pares de observaciones, obteniendo

𝑦𝑖 = 𝛿̂ + 𝛽̂𝑥𝑖 + 𝜖𝑖 = 𝑦𝑖̂ + 𝜖𝑖 , 𝑖 = 1,2, … , 𝑛,

Donde 𝛿̂𝑦𝛽̂son las estimacione e minimos cuadrados del intersecto y de la pendiente de la regresión poblacional, y 𝜖𝑖 son los residuos de la recta de regresión ajustada. Sean, además, Syy y Sxyiguales a la anterior definición y definamos las siguientes expresiones:

SUMA DE CUADRADOS TOTAL: SST = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2= 𝑆𝑦𝑦 SUMA DE CUADRADOS DE LA REGRESION: SSR = ∑𝑛𝑖=1(𝑦𝑖̂ − 𝑦̅)2

SUMA DE CUADRADOS RESIDUAL (O DEL ERROR): SSE = ∑𝑛𝑖=1𝜖𝑖2= ∑𝑛𝑖=1(𝑦𝑖 − 𝑦𝑖̂ )2 Entonces, SSR= 𝛽̂𝑆𝑥𝑦 y siempre se cumple que SEE= SST – SSR = 𝑆𝑦𝑦− 𝛽̂𝑆𝑥𝑦

e por hogar x (en dólares constantes), en cierto país. Allí encontraremos que:

Teorema 1.5. (Descomposición de la suma de cuadrados)

Supongamos que se ajusta una

ecuación de regresión lineal por mínimos cuadrados a n pares de observaciones, obteniendo

𝑦𝑖 = 𝛿̂ + 𝛽̂𝑥𝑖 + 𝜖𝑖 = 𝑦𝑖

̂ + 𝜖𝑖 , 𝑖 = 1,2, … , 𝑛,

Donde

𝛿̂ 𝑦 𝛽̂

son las estimacione e minimos cuadrados del intersecto y de la pendiente de la

regresión poblacional, y

𝜖𝑖

son los residuos de la recta de regresión ajustada. Sean, además, S

yy

y S

xy

iguales a la anterior definición. Definamos las siguientes expresiones:

SUMA DE CUADRADOS TOTAL: SST =

𝑛𝑖=1

(𝑦𝑖 − 𝑦̅)

2

= 𝑆

𝑦𝑦

SUMA DE CUADRADOS DE LA REGRESION: SSR =

𝑛𝑖=1

(𝑦𝑖

̂ − 𝑦̅)

2

SUMA DE CUADRADOS RESIDUAL (O DEL ERROR): SSE =

𝑛𝑖=1

𝜖𝑖

2

= ∑

𝑛𝑖=1

(𝑦𝑖 − 𝑦𝑖

̂ )

2

Entonces, SSR=

𝛽

̂ 𝑆

𝑥𝑦

y siempre se cumple que SSE= SST – SSR =

𝑆

𝑦𝑦

− 𝛽̂𝑆

𝑥𝑦

(13)

Ejemplo 1.11. Considerando los datos presentados en la tabla 2:

∑ 𝑥𝑖 = 237.579 , ∑ 𝑦𝑖 = 132.933 , ∑ 𝑥𝑖𝑦𝑖 = 1.488.325.000 , ∑ 𝑥𝑖2= 2.599.715.000

Por consiguiente, SSE = 435.799 y SST = 5.397.560

2 Inferencias acerca de los parámetros del modelo

Al estudiar la recta de regresión poblacional

𝑌𝑖 = 𝛿 + 𝛽𝑥𝑖+ 𝜖𝑖

Hemos obtenido estimadores puntuales, mediante el método de mínimos cuadrados, de los parámetros desconocidos 𝛿, 𝛽. Además es importante recalcar que, bajo los supuestos explicados en la sección 1.3, los estimadores de mínimos cuadrados son los mejores estimadores lineales insesgados, como lo explica el teorema de Gauss-Markov (véase el teorema 1.9). Sin embargo, la estimación puntual suele ser insuficiente para completar un análisis de datos. Por ejemplo en el presente contexto; es natural preguntarse sobre la precisión de los estimadores obtenidos. Por tal motivo, en esta sección, consideraremos los problemas de construcción de intervalos de confianza y contrastes de hipótesis para los parámetros de regresión poblacionales.

2.1 Bases para las inferencias

Estimaciones de

𝝈

𝟐

El parámetro 𝜎2 determina la cantidad de variabilidad inherente en el modelo de regresión. En este sentido, un valor grande de 𝜎2 ocasionará que las (𝑥𝑖, 𝑦𝑖) observadas estén muy dispersas alrededor de la verdadera recta de regresión, mientras que cuando 𝜎2 es pequeña, los puntos observados tendrán a caer muy cerca de la verdadera recta. La estimación de 𝜎2 se utiliza en la fórmulas de intervalos de confianza y procedimientos de prueba de hipótesis presentadas en las siguientes dos secciones. Debido a que la ecuación de la verdadera recta es desconocida, la estimación está basada en la magnitud sobre la cual las observaciones muéstrales se desvían en la recta estimada.

Muchas desviaciones (residuos) grandes sugieren un valor grande de 𝜎2, mientras que si todas las desviaciones son pequeñas en magnitud, esto es un indicativo que 𝜎2 es pequeña. En el siguiente teorema presentamos la estimación de 𝜎2.

(14)

Teorema 2.1Supongamos que la regresión poblacional es 𝑌𝑖 = 𝛿 + 𝛽𝑥𝑖+ 𝜖𝑖 y que se verifican los supuestos de la sección 1.3. Sea, así, 𝛽̂ la estimación de mínimos cuadrados de 𝛽. Además, sean 𝑆𝑦𝑦 y 𝑆𝑥𝑦 como en (3) y 𝑆𝑆𝐸 como en el teorema 1.5. Denotemos por 𝜎2 la varianza común de los términos de error 𝜖𝑖. Entonces, un estimador insesgado de 𝜎2 se obtiene mediante:

𝑆𝜖2= 𝑆𝑆𝐸 𝑛 − 2=

𝑆𝑦𝑦− 𝛽̂𝑆𝑥𝑦 𝑛 − 2

El divisor 𝑛 − 2 en 𝑆𝜖2 es el número de grados de libertad asociado con los estimación o bien, de manera equivalente, con la suma de cuadrados del error. Esto se explica porque para obtener 𝑆𝜖2, los dos parámetros 𝛿 y 𝛽 deben estimarse primero, lo cual resulta en una pérdida de 2 grados de libertad (así como 𝜇 tuvo que estimarse en problemas de una muestra, resultando en una varianza estimada basada en 𝑛 − 1 grados de libertad).

Ejemplo 2.1Consideremos, de nuevo, los datos presentados en la tabla 2, correspondientes a 22 valores anuales para ventas al detalle por hogar y la renta disponible por hogar 𝑥 (en dólares constantes), en cierto país. En el ejemplo 6.1.11 encontramos que 𝑆𝑆𝐸 = 435.799. Por tanto,

𝑆𝜖2= 𝑆𝑆𝐸 𝑛 − 2=

435.799

22 − 2 = 21.789,95

Distribución muestral de los estimadores de mínimos cuadrados

En el siguiente teorema, consideremos la distribución muestral del estimador de mínimos cuadrados del intersecto y de la pendiente de la recta de regresión poblacional.

Teorema 2.2.Denotemos 𝛿̂y 𝛽̂ la estimación de mínimos cuadrados del intersecto y de la pendiente de la recta de regresión poblacional, respectivamente. Supongamos, otra vez que se verifican los supuestos de la sección 1.3. Sean 𝑆𝜖2 como en el teorema 2.1 y 𝑆𝑥𝑥 como en (3). Entonces:

a) El estimador 𝛿̂ es insesgado para 𝛿 y tiene varianza 𝜎𝛿̂2 = (𝜎2∑𝑛𝑖=1𝑥𝑖2)/ (𝑛𝑆𝑥𝑥 ). Un estimador insesgado de 𝜎𝛿̂2 se obtiene mediante 𝑆𝛿̂2= (𝑆𝜖2∑𝑛𝑖=1𝑥𝑖2)/ (𝑛𝑆𝑥𝑥 ) .

(b) El estimador 𝛽̂ es insesgado para 𝛽 y tiene varianza 𝜎𝛽̂2= 𝜎2/𝑆𝑥𝑥 . Un estimador insesgado de 𝜎𝛽̂2 se obtiene mediante 𝑆𝛽̂2= 𝑆𝜖2/𝑆𝑥𝑥 .

Ejemplo 2.2.Consideremos los datos presentados en la tabla 2, correspondiente a 22 valores anuales para las ventas al detalle por hogar 𝑦 y la renta disponible por hogar 𝑥 (en dólares constantes), en cierto país. Allí encontramos que 𝑥̅ = 10.799, ∑ 𝑥𝑖2= 2.599.715.000 y en el ejemplo 2.1 que 𝑆𝜖2= 21.789,95. Por lo tanto, con lo anterior y con (3), obtenemos:

(15)

𝑆𝛽̂2=

𝑆𝜖2 ∑ 𝑥𝑖2− 𝑛𝑥̅2=

21.789,95

2.599.715.000 − (22)(10.799)2= 0.0006388

Luego la desviación típica estimada del estimador de mínimos cuadrados de la pendiente de la recta de regresión poblacional es 𝑆𝛽̅ = √𝑆𝛽̂2= 0.0253. Ahora, con los cálculos anteriores:

𝑆𝛿̂2=𝑆𝜖2∑ 𝑥𝑖 2 𝑛 𝑖=1 𝑛𝑆𝑥𝑥 = 𝑆𝛽̂2∑𝑛𝑖=1𝑥𝑖2 𝑛 = 75.486,27009

Por consiguiente, la desviación típica estimada del estimador de mínimos cuadrados para el intersecto de la recta de la regresión poblacional en 𝑆𝛿̅ = √𝑆𝛿̂2= 274,74765.

Bases para la inferencia sobre los estimadores de mínimos cuadrados

Hasta ahora, no hemos necesitado asumir ninguna distribución particular para los errores poblacionales 𝜖𝑖. No obstante, si deseamos realizar inferencias adicionales, debemos introducir, más supuestos. Al respecto, casi invariablemente y a no ser que se disponga de una poderosa evidencia contraria, se asume que los errores siguen una distribución normal. Con este supuesto adicional, podemos obtener intervalos de confianza y contraste de hipótesis. Además, como consecuencia del teorema central del límite, los procedimientos resultan aproximadamente válidos para una clase muy amplia de distribuciones de los errores distintas de la normal. El principal resultado, a partir del cual se deducen inmediatamente los intervalos de confianza y los contrastes apropiados, se describen en el siguiente teorema:

Teorema 2.3.Denotemos 𝛿̂y 𝛽̂ la estimación de mínimos cuadrados del intersecto 𝛿 y de la pendiente 𝛽 de la recta de regresión poblacional, respectivamente. Si se verifican los supuestos de la sección 1.3 y además, puede asumirse que los errores 𝜖𝑖 tienen distribución normal, entonces, las variables aleatorias correspondientes a:

𝑡

1

=

𝛿̂−𝛿𝑆

𝛿

̂ y

𝑡

2

=

𝛽̂−𝛽

𝑆𝛽̂

Se distribuyen como una t de Student con 𝑛 − 2 grados de libertad, siendo 𝑆𝛿̂ y 𝑆𝛽̂ como en el teorema 2.2.

(16)

2.2 Intervalos de confianza para la pendiente y el intersecto

La forma de los intervalos de confianza para 𝛿 y 𝛽 se muestran en el siguiente teorema:

Teorema 2.4.Denotemos 𝛿̂y 𝛽̂ la estimación de mínimos cuadrados del intersecto 𝛿 y de la pendiente 𝛽 de la recta de regresión poblacional, respectivamente. Si se verifican los supuestos de la sección 1.3 y además, puede asumirse que los errores 𝜖𝑖 tienen distribución normal.

Sean 𝑆𝛿̂ y 𝑆𝛽̂ como en el teorema 2.2.

(a) Un intervalo de confianza del (1−∝)100% para 𝛿 se obtiene mediante: 𝛿̂ − 𝑡∝/2𝑆𝛿̂ < 𝛿 < 𝛿̂ + 𝑡∝/2𝑆𝛿̂

(b) Un intervalo de confianza del (1−∝)100% para 𝛽 se obtiene mediante: 𝛽̂ − 𝑡∝/2𝑆𝛽̂ < 𝛽 < 𝛽̂ + 𝑡∝/2𝑆𝛽̂

Aquí 𝑡∝/2 es el valor de una variable aleatoria que deja un área de ∝/2 a la derecha de la distribución t de Student con 𝑛 − 2 grados de libertad.

Ejemplo 2.3Considerando la regresión de las ventas al detalle sobre la renta disponible basada en los datos presentados en la tabla 2, encuéntrese un intervalo de confianza del (a) 99% (b) 95% y (c) 90% de confianza para 𝛽. Compare sus resultados.

SOLUCIÓN:

En ejemplos anteriores, ya habíamos calculado 𝑛 = 22, 𝛽̂ = 0,3815 y 𝑆𝛽̂ = 0,0253. Si se busca, en consecuencia, un intervalo del 99% de confianza para 𝛽̂, tenemos 1−∝= 0,99. De la tabla t de Student con 𝑛 − 2 = 20 grados de libertad, tenemos que 𝑡∝/2 = 𝑡0,005= 2.845. Por tanto el intervalo del 99% de confianza es:

0,3815 − (2,845)(0.0253) < 𝛽 < 0,3815 + (2,845)(0.0253)

O, dicho de otro modo0,30957 < 𝛽 < 0,4535. Esto significa que, en el contexto del problema. El intervalo de confianza del 99% para el incremento esperado en las ventas al detalle por hogar resultante de un incremento de un dólar en la renta disponible por hogar abarca de 0,3095 a 0,4535 dólares. Los intervalos, que como ya se ha dicho, a medida que disminuye el grado de confianza, disminuye el ancho del intervalo.

Ejemplo 2.4Considérense los datos de la tabla 3. En esta tabla, y es la pureza del oxígeno producido en un proceso de destilación química, y 𝑥 es el porcentaje de hidrocarburos que están presentes en el condensador principal de la unidad de destilación.

(17)

Tabla 3: Datos para el ejemplo 2.4

(a) Hállese el modelo de regresión lineal simple ajustado. (b) Encuéntrese 𝑆𝜖2.

(c) Construya un intervalo del 95% de confianza para la pendiente de la recta de la regresión poblacional.

SOLUCIÓN:

Tenemos que 𝑛 = 20, ∑ 𝑥𝑖 = 23,92, ∑ 𝑦𝑖 = 1.843,21, 𝑥̅ = 1,20, 𝑦̅ = 92,16, ∑ 𝑥𝑖2= 29,29, ∑ 𝑦𝑖2= 170.044,53, ∑ 𝑥

𝑖𝑦𝑖 = 2.214,66, 𝑆𝑥𝑥 = 0,68 y 𝑆𝑥𝑦 = 10,18.

(a) Las estimaciones de mínimos cuadrados de la pendiente y la ordenada de al origen son 𝛽̂ = 14,97 y 𝛿̂ = 74,20, respectivamente. El modelo de regresión lineal simple ajustado es 𝑦 = 74,20 + 14,97𝑥.

(b) Podemos verificar 𝑆𝑆𝑇 = 173,37. Por lo tanto, 𝑆𝜖2= 𝑆𝑆𝐸 𝑛 − 2= 𝑆𝑆𝑇 − 𝛽̂𝑆𝑥𝑦 𝑛 − 2 = 173,37 − (14,97)(10,18) 20 − 2 = 1,17.

(c) Teniendo en cuenta que 𝑡0,025(18) = 2,101, encontramos que 12,21 < 𝛽 < 17,73.

2.3 Pruebas de hipótesis para la pendiente y el intersecto

Otro aspecto importante al evaluar la adecuación de un modelo de regresión poblacional 𝛽 son las siguientes:

𝐻0: 𝛽 = 𝛽0 𝐻0: 𝛽 ≥ 𝛽0 𝐻0: 𝛽 ≤ 𝛽0

Donde β0 es cualquier real. El estadístico de prueba tiene la forma t =𝛽̂−𝛽S 0

𝛽̂ , la distribución a considerar es la 𝑡 de Student con 𝑛 − 2 grados de libertad (Compárese con el teorema 2.3.) y la región crítica dependerá de cada uno de estos tres casos, como se ilustra en la tabla 4: Tabla 4: Reglas de decisión para contrastes sobre la pendiente de la regresión poblacional (usando la distribución 𝑡 con 𝑛 − 2 grados de libertad).

𝑥𝑖 𝑦𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖 𝑦𝑖 0,99 90,01 1,02 89,05 1,15 91,43 1,29 93,74 1,46 96,73 1,36 94,45 0,87 87,59 1,23 91,77 1,55 99,42 1,40 93,65 1,19 93,54 1,15 92,52 0,98 90,56 1,01 89,54 1,11 89,85 1,20 90,39 1,26 93,25 1,32 93,41 1,43 94,98 0,95 87,33

(18)

Tipo de hipótesis Regla de decisión 𝐻0: 𝛽 ≥ 𝛽0 𝐻1: 𝛽 < 𝛽0 Cola a la izquierda Si 𝑡 ≤ −𝑡∝, entonces, se rechaza 𝐻0; de lo contrario, se acepta 𝐻0. 𝐻0: 𝛽 ≤ 𝛽0 𝐻1: 𝛽 > 𝛽0 Cola a la derecha Si 𝑡 ≥ 𝑡∝, entonces, se rechaza 𝐻0; de lo contrario, se acepta 𝐻0. 𝐻0: 𝛽 = 𝛽0 𝐻1: 𝛽 ≠ 𝛽0 Dos colas Si 𝑡 ≤ −𝑡∝/2 o 𝑡 ≥ 𝑡∝/2, entonces, se rechaza 𝐻0; de lo contrario, se acepta 𝐻0.

Los resultados expresados anteriormente se pueden resumir en el siguiente teorema:

Teorema 2.5Denotemospor 𝛽̂ la estimación de mínimos cuadrados de la pendiente 𝛽 de la recta de regresión poblacional. Supongamos, luego, que se verifican los supuestos de la sección 1.3 y que, además, pude asumirse que los errores 𝜖𝑖 tienen distribución normal. Sea, así, 𝑆𝛽̂2 como en el teorema 2.2. Entonces, una prueba de hipótesis con nivel de significancia para 𝛽, es como se presenta en la tabla 4, siendo 𝑡 =𝛽̂−𝛽𝑆 0

𝛽̂ el estadístico de prueba correspondiente y 𝑡∝/2 el valor de una variable aleatoria, a la derecha del cual se tiene un área de ∝/2 en la distribución 𝑡 de Student con 𝑛 − 2 grados de libertad.

Para el caso particular en que 𝛽0= 0, se puede utilizar también un procedimiento de análisis de varianza (véase la sección siguiente al teorema 2.6).

Ejemplo 2.5.Considérese la regresión de las ventas al detalle sobre la renta disponible basada en los datos presentados en la tabla 2. Al nivel del 0,5%, pruébese la hipótesis nula de que la renta no influye (linealmente) en las ventas contrala hipótesis alternativa de que un incremento en la renta, produce, a su vez, un incremento esperado en las ventas.

SOLUCIÓN:

La hipótesis a probar es H0: β= 0 Vs H1: β> 0. Tenemos, al respecto, que 𝑛 = 22, 𝛽̂ = 0,3815, 𝑆𝛽̂ = 0,0253 y 𝛽0= 0. Por consiguiente,

𝑡 =𝛽̂ − 𝛽0 𝑆𝛽̂ =

0,3815 − 0

0,0253 = 15,08

En la tabla 𝑡 del apéndice, para 𝑛 − 2 = 20 grados de libertad, hallamos que 𝑡0,005(20) = 2,845.Por tanto se rechaza claramente la hipótesis de que la pendiente de la recta de regresión poblacional es 0 frente a la alternativa de que es positiva, al nivel de significancia del 0,5%. En consecuencia, vemos que la evidencia, en estos datos, contraria a la hipótesis de que un cambio en la renta disponible por hogar no induce un cambio en las ventas al detalle por hogar esperadas, es abrumadora. Así los datos indican claramente que un incremento en la renta disponible produce un incremento esperado en las ventas al detalle.

(19)

Ejemplo 2.6Al nivel del 1%, pruebe la significación de la regresión, utilizando el modelo para los datos de la pureza del oxígeno del ejemplo 2.5 (los datos se encuentran en la tabla 3).

SOLUCIÓN:

La hipótesis a probar es 𝐻0: 𝛽 = 0 𝑉𝑠𝐻1: 𝛽 ≠ 0. De ejemplos anteriores, tenemos que 𝑛 = 20, 𝛽̂ = 14,97, 𝑆𝑥𝑥 = 0,68 y 𝑆𝜖2= 1,17. Por consiguiente, con 𝛽0= 0, el estadístico de prueba tiene valor: 𝑡 = 𝛽̂ 𝑆𝛽̂ = 𝛽̂ √𝑆𝛽̂2= 1,17/𝑆𝑥𝑥 = 14,97 √1,17/0,68= 11,41.

Puesto que 𝑡0,005(18) = 2,88 entonces, H0 debe rechazarse. Es decir, al nivel del 1%, podemos afirmar que el modelo de regresión lineal poblacional si es apropiado.

Contraste para la pendiente de la regresión poblacional usando el procedimiento de

análisis de varianza

Suponga que tenemos 𝑛 puntos de datos experimentales en la forma acostumbrada (𝑥𝑖, 𝑦𝑖) y que se estima la línea de regresión. En el teorema 1.5 establecimos la identidad 𝑆𝑆𝑇 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸, por lo que logramos una partición de la suma total corregida de cuadrados 𝑆𝑆𝑇 de 𝑦 en dos componentes, que deben reflejar un significado particular para el experimentador. Recordemos que el primer componente de la derecha 𝑆𝑆𝑅, se llama suma de cuadrados de regresión y refleja la cantidad de variación en los valores ya explicados por el modelo, en este caso la línea recta postulada. El segundo componente es la ya familiar suma de cuadrados del error, que refleja la variación alrededor de la línea de regresión.

Ahora suponga que las hipótesis que probaremos para la pendiente de regresión poblacional 𝛽 es la siguiente:

𝐻0: 𝛽 = 0 𝑉𝑠 𝐻1: 𝛽 ≠ 0

La hipótesis nula dice en esencia que le modelo es 𝑦 = 𝛿. Es decir, la variación en 𝑌 resulta del azar o de las fluctuaciones aleatorias que son independientes de los valores de 𝑥. Bajo las condiciones de esta hipótesis nula se puede mostrar que 𝑆𝑆𝑅/𝜎2 y 𝑆𝑆𝐸/𝜎2 son valores de la chi-cuadrada independientes, con 1 y 𝑛 − 2 grados de libertad, respectivamente. Entonces debido a un teorema de la teoría de la probabilidad, se sigue que 𝑆𝑆𝑇/𝜎2 también es un valor de una variable aleatoria chi-cuadrada, con 𝑛 − 2 grados de libertad. Para probar la hipótesis 𝐻0: 𝛽 = 0 calculamos:

𝐹 = 𝑆𝑆𝑅/1

𝑆𝑆𝐸/(𝑛 − 2)= 𝑆𝑆𝑅

𝑆𝜖2

Y rechazamos 𝐻0 al nivel de significancia ∝ cuando 𝐹 > 𝐹∝(1, 𝑛 − 2). En la tabla 5 resumimos esta regla de decisión:

(20)

Tabla 5: Reglas de decisión para probar 𝛽 = 0 (usando la prueba 𝐹) Tipo de hipótesis Regla de decisión

𝐻0: 𝛽 = 𝛽0 𝐻1: 𝛽 ≠ 𝛽0 Dos colas Si 𝐹 > 𝐹∝(1, 𝑛 − 2), entonces, se rechaza 𝐻0; de lo contrario, se acepta 𝐻0.

Cuando se rechaza esta hipótesis, concluimos que hay una cantidad significativa de variación en la respuesta explicada por el modelo que se postula, la función de línea recta. En cambio si el estadístico 𝐹 está en la región de no rechazo, concluimos que los datos no reflejaron evidencia suficiente para apoyar el modelo postulado. Los resultados expresados anteriormente se pueden formalizar a través del siguiente teorema:

Teorema 2.6.Supongamos que se verifican los supuestos de la sección 1.3 y puede asumirse que los errores𝜖𝑖 tienen distribución normal. Sean SST, SSR Y SSE como en el teorema 1.5 y 𝑆𝜖2, como en el teorema 2.1. Entonces, una prueba de hipótesis con nivel de significancia para 𝛽 es como se presenta en la tabla 5, siendo 𝐹 =𝑆𝑆𝑅𝑆

𝜖2 el estadístico de prueba correspondiente y

𝐹 el valor de una variable aleatoria, a la derecha del cual se tiene un área de en la distribución 𝐹de Fisher con 𝑣1= 1 y 𝑣2= 𝑛 − 2 grados de libertad.

Aclaramos que este contraste es un caso particular del teorema 2.5 (con 𝛽0= 0), pero solo es válido cuando se prueba contra una alternativa bilateral (véase la sección siguiente).

Los cálculos para llevar a cabo este contraste, por lo general, se resumen por medio de la tabla de ANOVA, como se muestra en la tabla 6. Recuerde que en ella se acostumbra a hacer referencia a las diversas sumas de cuadrados divididas entre sus respectivos grados de libertad como los cuadrados medios.

Tabla 6 Análisis de varianza para probar 𝛽 = 0 Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio Razón F Regresión SSR 1 SSR 𝐹 =𝑆𝑆𝑅 𝑆𝜖2 Error SSE 𝑛 − 2 𝑆 𝜖2= 𝑆𝑆𝐸 𝑛 − 2 Total SST 𝑛 − 1

Ejemplo 2.7 Úsese el procedimiento de análisis de varianza para probar la significación de la regresión, utilizando el modelo para los datos de pureza del oxígeno del ejemplo 2.6 (los datos se encuentran en la tabla 3).

(21)

SOLUCIÓN:

Recuérdese que 𝑆𝑆𝑇 = 173,37, 𝑛 = 20, 𝛽̂ = 14,97 y 𝑆𝑥𝑦= 10,18. La suma de los cuadrados de regresión es: 𝑆𝑆𝑅 = 𝛽̂𝑆𝑥𝑦= 152,39 y la suma de los cuadrados de los errores es:

𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑅 = 173,37 − 152,39 = 20,98 El análisis de varianza para probar 𝐻0: 𝛽 = 0 se resume en la tabla 6.7.

El estadístico de prueba es 𝐹 =152,391,17 = 130,25, para el que se encuentra que el 𝑝 − 𝑣𝑎𝑙𝑜𝑟 es aproximadamente 1,13 × 10−9, de donde se concluye que 𝛽 es diferente de cero.

Tabla 7: Análisis de varianza para probar 𝛽 = 0 en el ejemplo 2.7 Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio Razón F P-valor Regresión 152,39 1 152,39 130,25 1,13 × 10−9 Error 20,98 18 1,17 Total 173,37 19

Comparación entre la prueba

𝒕

y la

𝑭

al probar que

𝜷 = 𝟎

En el teorema 2.5, se da un procedimiento con el que el estadístico 𝑡 =𝛽̂−𝛽𝑆 0

𝛽̂ se utiliza para probar, entre otras cosas, la hipótesis:

𝐻0: 𝛽 = 0 𝑉𝑠 𝐻1: 𝛽 ≠ 0,

Donde 𝑡 sigue la distribución 𝑡 de Student con 𝑛 − 2 grados de libertad. La hipótesis se rechaza si |𝑡| > 𝑡∝/2 para un nivel de significancia ∝. Es de interés notar que en el caso especial en el que probamos

𝐻0: 𝛽 = 0 𝑉𝑠𝐻1: 𝛽 ≠ 0, El valor de nuestro estadístico 𝑡 se convierte en:

𝑡 = 𝛽̂ 𝑆𝛽̂

Y la hipótesis bajo consideración es idéntica a la que se prueba en la tabla 6. A saber, la hipótesis nula establece que la variación en la respuesta se debe solo al azar. El análisis de varianza para la distribución 𝐹 en lugar de la distribución 𝑡; no obstante, para la alternativa bilateral, los dos procedimientos son idénticos. Esto lo podemos ver al escribir:

(22)

𝑡2= 𝛽̂2 𝑆𝛽̂2= 𝛽̂2𝑆 𝑥𝑦 𝑆𝜖2 = 𝑆𝑆𝑅 𝑆𝑥𝑦

Que es idéntica al valor 𝐹 utilizado en el análisis de varianza. Sin embargo cabe nuevamente observar que la prueba 𝑡 es un tanto más flexible, por cuanto podría desarrollarse la prueba contra una hipótesis alternativa de una cola, en tanto que la prueba 𝐹 está restringida a una hipótesis alternativa de dos colas.

Contraste para el intersecto de la regresión poblacional

Bajo ciertas condiciones, la hipótesis que debe probarse para la pendiente de la regresión poblacional 𝛿 son las siguientes:

𝐻0: 𝛿 = 𝛿0 𝐻0: 𝛿 ≥ 𝛿0 𝐻0: 𝛿 ≤ 𝛿0

Donde 𝛿0 es cualquier número real, el estadístico de prueba tiene la forma 𝑡 =𝛿̂−𝛿𝑆 0 𝛿 ̂ , la distribución a considerar es la 𝑡 de Student con 𝑛 − 2 grados de libertad (compárese con el teorema 2) y la región crítica dependerá de cada uno de estos tres casos, como se ilustra en la tabla 8:

Tabla 8 Reglas de decisión para contrastes sobre el intersecto de la regresión poblacional (usando la distribución 𝑡 con 𝑛 − 2 grados de libertad)

Tipo de hipótesis Regla de decisión

𝐻0: 𝛿 ≥ 𝛿0 𝐻1: 𝛿 < 𝛿0 Cola a la izquierda Si 𝑡 ≤ −𝑡∝, entonces, se rechaza 𝐻0; de lo contrario, se acepta 𝐻0. 𝐻0: 𝛿 ≤ 𝛿0 𝐻1: 𝛿 > 𝛿0 Cola a la derecha Si 𝑡 ≥ 𝑡∝, entonces, se rechaza 𝐻0; de lo contrario, se acepta 𝐻0. 𝐻0: 𝛿 = 𝛿0 𝐻1: 𝛿 ≠ 𝛿0 Dos colas Si 𝑡 ≤ −𝑡∝/2 o 𝑡 ≥ 𝑡∝/2, entonces, se rechaza 𝐻0; de lo contrario, se acepta 𝐻0.

Los resultados expresados anteriormente se pueden resumir en el siguiente teorema:

Teorema 2.7Denotemospor 𝛿̂ la estimación de mínimos cuadrados del intersecto 𝛿 de la recta de regresión poblacional. Supongamos, luego, que se verifican los supuestos de la sección 1.3 y que, además, puede asumirse que los errores 𝜖𝑖 tienen distribución normal. Sea, así, 𝑆𝛿̂2 como en el teorema 2.2. Entonces, una prueba de hipótesis con nivel de significancia para 𝛿, es como se presenta en la tabla 8, siendo 𝑡 =𝛿̂−𝛿𝑆 0

𝛿̂ el estadístico de prueba correspondiente y

𝑡∝/2 el valor de una variable aleatoria, a la derecha del cual se tiene un área de ∝/2 en la distribución 𝑡 de Student con 𝑛 − 2 grados de libertad.

(23)

Ejemplo 2.8consideremos los datos presentados en la tabla 2, correspondientes a 22 valores anuales para las ventas al detalle por hogar 𝑦 y renta disponible por hogar 𝑥 (en dólares constantes), en cierto país. Al nivel del 1%, verifíquese si la recta de regresión poblacional pasa por el origen.

SOLUCIÓN:

La hipótesis a probar es𝐻0: 𝛿 = 0 𝑉𝑠𝐻1: 𝛿 ≠ 0. En ejemplos anteriores, hemos encontrado que 𝛿̂ = 1,923 y, en el ejemplo 2.2, que 𝑆𝛿̂ = 274,74765. Por consiguiente, con 𝛿0 = 0, el estadístico de prueba tiene valor:

𝑡 = 𝛿̂ 𝑆𝛿̂=

1,923

274,74765≈ 0,007.

Puesto que 𝑡0,005(20) = 2,845, entonces, 𝐻0 no debe rechazarse. Es decir, al nivel del 1%, podemos afirmar que el modelo de regresión lineal poblacional pasa por el origen.

6.3 PREDICCION

Una importante utilidad de la regresión consiste en sus posibilidades para realizar predicciones de la variable dependiente, condicionadas a un valor fijo de la variable independiente. Supongamos que la variable independiente es igual a cierto valor específico xn+1 y que la

relación entre variables dependiente e independiente es lineal. El correspondiente valor de la variable dependiente será entonces:

𝑦𝑛+1= 𝛿 + 𝛽𝑥𝑛+1+ 𝜖𝑛+1, (7) El cual, dado xn+1, tiene esperanza

𝐸(𝑦𝑛+1/𝑥𝑛+1) = 𝛿̂ + 𝛽̂𝑥𝑛+1 (8)

Ahora bien, estamos interesados en dos problemas de predicción distintos: 1. Estimar el verdadero valor que se obtendrá para Yn+1 en la ecuación (7)

2. Estimar la esperanza condicional 𝐸(𝑦𝑛+1/𝑥𝑛+1) de la ecuación (8), es decir, el valor promedio de la variable dependiente cuando se fija xn+1 la variable independiente.

Pero, si los supuestos de la sección 1.3 se verifican, el estimador puntual es el mismo para los dos problemas. Entonces, es lógico sustituir los δ y β desconocidos por sus estimadores de mínimos cuadrados,𝛿̂ y 𝛽̂. Por tanto, (𝛿 + 𝛽𝑥𝑛+1) se estima mediante (𝛿̂ + 𝛽̂𝑥𝑛+1) . Por el teorema de Gauss – Markov, sabemos que el estimador correspondiente es el mejor entre los lineales e insesgados. En consecuencia, para los dos problemas, un estimador puntual adecuado bajo nuestras hipótesis es:

(24)

𝑌̂𝑛+1= 𝛿̂ + 𝛽̂𝑥𝑛+1

Esto se deduce de que no sabemos nada útil, en el presente contexto, sobre la variable 𝜖𝑛+1, excepto que su media es 0 y, en ausencia de otra información relevante, lo mejor que se puede hacer es usar 0 como estimación puntual. No obstante, junto con las estimaciones puntuales suelen buscarse intervalos de confianza, aspecto en el que los dos problemas tienen distintas soluciones. El asunto es que existe incertidumbre sobre el valor que tomara 𝜖𝑛+1 en la ecuación 7, pero no en la ecuación 6.8 los procedimientos apropiados se resumen en el teorema 3.1

Ejemplo 3.1 Consideremos la regresión de las ventas al detalle sobre la renta disponible basada en los datos presentaos en la tabla 2.

a) Realícese una predicción de las ventas al detalle por hogar en un año en el que la renta disponible por hogar es de 12.000 dólares.

b) Constrúyase un intervalo del 95 % e confianza para el valor esperado de las ventas al detalle cuando la renta disponible es de 12.000 dólares.

c) Constrúyase un intervalo del 95 % de confianza para predecir el verdadero valor resultante de las ventas al detalle en un año durante el cual la renta disponible es de 12.000 dólares.

Teorema 3.1 Supongamos que se verifica el modelo de regresión poblacional Yi= δ + βxi+ εi (i = 1,2, … , n + 1)

Así como los supuestos de la sección 1.3, y que los errores 𝜖𝑖 tienen distribución normal. Sean así, 𝛿̂ 𝑦 𝛽̂ las estimaciones de mínimos cuadrados de δ y β, respectivamente, basadas en (x1 , y1),

(x2 , y2),…, (xn , yn). Además, sean 𝑆2𝜖 como en el teorema 2.1, Sxx como en (3) y 𝑌̂𝑛+1= 𝛿̂ + 𝛽̂𝑥𝑛+1, 𝑥̅ = 1 𝑛∑ 𝑥𝑖 𝑛 𝑖=1 , 𝑆2𝑦̂= 𝑆2𝜖[1𝑛+(𝑥𝑛+1−𝑥) ̅̅̅2 𝑆𝑥𝑥 ]. Entonces puede demostrarse que el intervalo de confianza del (1- α) 100%.

a) Para la predicción de la esperanza condicional 𝐸(𝑦𝑛+1/𝑥𝑛+1) es : 𝑌̂𝑛+1− 𝑡𝛼/2𝑆𝑌̂< 𝐸(𝑦𝑛+1/𝑥𝑛+1) < 𝑌̂𝑛+1+ 𝑡𝛼/2𝑆𝑌̂ b) Para la predicción del valor 𝑌𝑛+1 es:

(25)

SOLUCION:

a) Tenemos que xn+1 = 12.000 Por lo cual, para la predicción puntual, tenemos , a su vez :

𝑌̂𝑛+1= 𝛿̂ + 𝛽̂𝑥𝑛+1= 1,923 + (0,3815)(12.000) = 6,501

Es decir, estimamos las ventas en 6.501 dólares cuando la renta es de 12.000 dólares.

b) Antes hemos hallado n= 22, 𝑥̅ = 10.799, ∑ 𝑥𝑖2 = 2.599.715.000 y 𝑠𝜀2 = 21.789,95. Con ello , 𝑆2 𝑦̂= 𝑆2𝜖[ 1 𝑛+ (𝑥𝑛+1− 𝑥)̅̅̅2 𝑆𝑥𝑥 ] = 43,725

Así, para α = 0.05 tenemos que t α/2 (n-2) = t 0.025(20) = 2.086. Por lo tanto, un intervalo de 95% de confianza para el valor esperado de las ventas al detalle, cuando la renta disponible es de xn+1 12.000 dólares, viene dado por:

6,501 – (2,086) (43,725) < E (Yn+1/12.000) < 6,501 + (2,086) (43,725) O

6.401<E(Yn+1/12.000)<6.592

Por tanto, el intervalo de confianza del 95 % abarca de 6.410 a 6.592 dólares.

c) Tenemos que √𝑆𝜀2+ 𝑆𝑌̂2= 153,954. Por consiguiente, un intervalo del 95% de confianza para predecir el verdadero valor resultante para las vetas al detalle en un año durante el cual la renta disponible es de xn+1 = 12.000 dólares, será:

6.501 − (2.086)(153.954) < 𝑌𝑛+1< 6.501 + (2.086)(153.954)

O

6.180 < 𝑌𝑛+1< 6.822

Es decir, el intervalo de confianza del 95% para las ventas en un año en el que la renta de de 12.000 dólares abarca de 6.180 a 6.822 dólares.

Ejemplo 3.2 Reconsidérense los datos de la pureza del oxigeno del ejemplo 2.6 (los datos se encuentran en la tabla 3.

a) Realice una predicción de la pureza media del oxigeno cuando xn+1 = 1.00%

b) Construya un intervalo del 95% de confianza para el valor esperado de la pureza media del oxigeno cuando xn+1= 1.00%

(26)

c) Construya un intervalo de 95% de confianza para predecir el verdadero valor resultante de la pureza media del oxígeno cuando xn+1 = 1.00%

SOLUCION

a) La predicción puntual pedida es

𝑌̂𝑛+1= 𝛿̂ + 𝛽̂𝑥𝑛+1= 74.20 + (14.97)(1.00) = 89.17.

b) Para α = 0.05, tenemos t α/2(n-2) = t 0.025(20)= 2.101. Por lo tanto, un intervalo de 95% de confianza para el valor esperado de la pureza media del oxígeno cuando xn+1 = 1.00% , viene dado por:

89.17 – (2,101)𝑆𝑌̂< 𝐸(𝑌𝑛+1/1.00) < 89.17 + (2,101)𝑆𝑌̂

Donde 𝑆𝑌̂= √1.17 [201 +(1.00−1.20) 2

0.68 ] . Con lo anterior, resulta: 88.42 < 𝐸(𝑌𝑛+1/1.00) < 89.92

Al repetir estos cálculos para varios valores diferentes de xn+1 pueden obtenerse los límites de confianza para cada uno de los valores correspondientes de

E ( Yn+1 / xn+1).

c) Un intervalo del 95% de confianza, para predecir el verdadero valor resultante de la pureza del oxigeno cuando xn+1 = 1.00% será

89.17 − (2.101)√𝑆𝜀2+ 𝑆𝑌̂2< 𝑌̂𝑛+1< 89.17 + (2.101)√𝑆𝜀2+ 𝑆𝑌̂2

Donde √𝑆𝜀2+ 𝑆𝑌̂2= √1.17 [1 +201 +(1.00−1.20) 2

0.68 ] . Al simplificar, obtenemos 86.78 < 𝐸(𝑌𝑛+1/1.00) < 91.56.

Al repetir los cálculos anteriores en diferentes niveles de xn+1 pueden obtenerse los intervalos de predicción de 95% para cada uno de los valores correspondientes de Yn+1.

Un estudio de la forma general de los intervalos de confianza presentados en el teorema 3.1 nos proporciona algunas intuiciones. Teniendo en cuenta que a mayor amplitud del intervalo de confianza, mayor es la incertidumbre sobre el punto que se desea predecir, podemos realizar cuatro observaciones a partir de esas formulas:

1. Si todo permanece igual, cuanto mayor sea el tamaño muestral n, más estrecho será el intervalo de confianza. Esto implica que cuando se dispone de más información muestral, la inferencia es más precisa.

(27)

2. Si todo lo demás permanece igual, cuanto mayor sea 𝑠𝜖2, más ancho será el intervalo de confianza. De nuevo, esto es lo que esperábamos, puesto que 𝑠𝜖2 es un estimador de 𝛿𝜖2 o sea, de la varianza de los errores 𝜖𝑖 de la regresión. Como estos errores 𝜖𝑖 = 𝑌𝑖− 𝛿 − 𝛽𝑥𝑖 representan la discrepancia entre los valores observados de las variables dependientes y sus esperanzas dadas, las variables independientes, entonces, cuanto mayor sea la magnitud de esta discrepancia, más imprecisa será nuestra inferencia. 3. Ahora, consideremos que la expresión Sxx es un múltiplo de la varianza muestral de las

observaciones de la variable independiente. De este modo, una varianza grande implica que disponemos de información acerca de un amplio intervalo de valores de esta variable, lo cual permite obtener estimaciones más precisas de la recta de regresión poblacional haciendo que lo correspondientes intervalos de confianza sean más estrechos.

4. Por último, cuanto mayor sea (𝑥𝑛+1− 𝑥̅)2 , más anchos serán los intervalos de confianza para las predicciones. En efecto, nuestra inferencia resulta menos precisa cuanto más lejos se encuentra x n+1 de la media muestral de la variable independiente. Esta es una condición lógica, pues si nuestros datos muéstrales se centran en 𝑥̅ , esperaríamos obtener inferencias más precisas cuando la variable independiente está relativamente más cerca de su valor central que cuando se encuentra alejada de él.

Ejemplo 3.3 Supongamos ahora, en relación a los datos del a tabla 2, que deseamos predecir la ventas al detalle por hogar durante un año en el que la renta disponible por hogar es de 40.000 dólares. En principio, podríamos seguir los procedimientos vistos en esta sección de manera rutinaria y obtener predicciones puntuales por intervalos. No obstante, hacer esto sería extremadamente imprudente, ya que los datos disponibles sugieren, dentro del intervalo observado, la existencia de una relación lineal entre las ventas esperadas y la renta. Sin embargo, no tenemos ninguna experiencia sobre lo que pasa cuando la renta es tan alta como 40.000 dólares. Podemos suponer, claro está que la relación entre estas dos variable son niveles de rentas tan altos continúa siendo lineal, pero esto no se puede comprobar a partir de los datos. Si por el contrario, la relación no es lineal, las predicciones basadas en el supuesto de que si lo es pueden ser totalmente erróneas. La conclusión es que resulta poco aconsejable extrapolar una regresión lineal estimada lejos del rango en el que se dispone de observaciones de la variable independiente.

4 Correlación

4.1 covarianza y coeficiente de correlación

Supongamos que X e Y son un par de variables aleatorias dependientes. Sería deseable disponer, en tal caso, de una medida para la naturaleza para la relación entre ella. Esto es difícil de conseguir, puesto que pueden estar relacionadas de maneras muy distintas (por ejemplo, de manera lineal, cuadrática, exponencial, logarítmitica, etc.).Para simplificar, limitemos nuestra atención a la posibilidad de una relación lineal, por ejemplo, un valor grande de X puede estar asociado en media con un valor grande de Y; y un valor pequeño de x, con valor pequeño de y. en este caso, se presenta en un grafico los pares de valores, dibujar una lineal recta sobre ello puede ser una buena aproximación.

(28)

Consideremos el producto [x-E(X)] [y-E (Y)] y tengamos en cuenta una de las tres situaciones siguientes:

• Si los valores grandes de X tienden a estar asociado con valores grande de Y, y los valores pequeños de X, con valores pequeños de y debemos esperar que este producto sea positivo. Así, para mayor asociación, mayor esperanza de [x-E(X)][y-E(Y)]

• Por el contrario, si los valores grandes de X están asociados con los valores pequeños de Y, y los valores pequeños de X con valores grandes de Y, el valores esperado de este producto debe ser negativo.

• Por ultimo, una esperanza 0 para [x-E(X)] [y-E (Y)] implicara ausencia de relación lineal entre X e Y como explicaremos más adelante.

En consecuencia usaremos el valor esperado de [x-E(X)][y-E(Y)] como medida de la relación lineal en población.

Definición 4.1 Sea (X,Y) un vector aleatorio con función de probabilidad (de densidad) conjunta f y supongamos que tanto X como Y tienen varianzas finitas. La COVARIANZA de X y Y, está definida, entonces, por :

Cov(X, Y):=E ([X-E(X)] [Y-E (Y)])=E (XY)-E(X) E (Y).

De otro lado, si la covarianza de X y Y se divide por el producto de las desviaciones estándares de X y Y, el resultado es una cantidad sin dimensiones llamadas coeficientes de correlación

Definición 4.2 Sea X y Y dos variables aleatorias con varianzas V(X) y V (Y), respectivamente(finitas y positivas). Entonces, el COEFICIENTE DE CORRELACION POBLACIONAL, de X y Y ,simbolizado por Corr(X, Y), está definido por:

Corr(X, Y):=√𝑉(𝑋)𝑉(𝑌)𝐶𝑜𝑣(𝑋,𝑌)

En algunos casos, utilizaremos el símbolo ρ, en vez de Corr(X, Y), para representar el coeficiente de correlación poblacional.

Es importante señalar que el coeficiente de correlación se encuentra en el intervalo [-1,1] (compárese el teorema 4.3.a). De hecho, Corr(X, Y) es la covarianza de dos variables aleatorias estandarizadas X´ =(X-μx)/ σx y Y′= (Y-μy)/σy. Esto significa que el coeficiente de correlación es solo una medida estandarizada de la asociación lineal que existe entre las variables X y Y, en la relación con sus desviaciones. El valor Corr(X, Y)=0 indica la ausencia de cualquier asociación lineal, mientras que los valores-1y1indican relaciones lineal perfectas (compárese con el teorema 4.3.b, c).

Figure

Actualización...

Referencias

Actualización...