Correlación y Regresión Simple (I)

Texto completo

(1)

Correlación y Regresión Simple (I)

(2)

Índice

1 Introducción General ... 3

2 Introducción ... 3

3 Análisis de Correlación ... 4

3.1 Coeficiente de Correlación de Pearson ... 8

4 Objetivo del Análisis de Regresión... 11

5 Resumen ... 13

(3)

Objetivos:

 Comprender las técnicas básicas de inferencia estadística aplicadas en los estudios de Econometría.

 Identificar la correlación lineal entre dos variables y ser capaz de describirla mediante el coeficiente de correlación.

1 Introducción General

En este tema presentamos la técnica del análisis de correlación y de regresión, con el modelo de regresión lineal simple. Presentamos los elementos básicos del análisis utilizado en Econometría, y detallamos el cálculo y significado del coeficiente de correlación entre dos variables.

2 Introducción

En un estudio econométrico, con frecuencia el objetivo es describir la forma en que unos datos observados en la realidad se relacionan con otros, de forma que a partir de los primeros podamos predecir el comportamiento de los otros.

El caso más sencillo es el de explicar si dos datos están relacionados, y en particular si se relacionan de forma lineal. En este tema comenzaremos el desarrollo de un estudio de este tipo, en un proceso de varios pasos:

 Reunimos la información disponible sobre las variables que pensamos que podrían relacionarse.

 Análisis de correlación: estudiamos la muestra de datos en busca de una posible relación. Nos centraremos en el caso más sencillo, la relación de tipo lineal entre dos variables (correlación simple). Veremos cómo se define y cómo se calcula el coeficiente de correlación más comúnmente utilizado, que es una medida para conocer hasta qué punto dos variables se relacionan de forma lineal.

 Si hemos confirmado la correlación lineal, entonces la relación entre los valores observados de las dos variables 𝑥 e 𝑦 se aproximará a la forma de una línea recta:

𝑦 = 𝛽0+ 𝛽1𝑥. El Análisis de regresión consiste en encontrar los valores adecuados de los parámetros de esta ecuación (𝛽0 y 𝛽1) para obtener la recta que mejor se ajusta a las observaciones. Para ello utilizaremos el método de estimación de mínimos cuadrados.

 Para verificar que nuestra recta es adecuada (que no obtendríamos una diferente si la muestra de datos fuera diferente), utilizaremos técnicas de inferencia estadística, realizando una prueba de hipótesis sobre nuestros hallazgos.

“El objetivo de un estudio econométrico es describir la forma en que unos datos observados en la realidad se relacionan con otros”

(4)

3 Análisis de Correlación

Muy a menudo observamos que existe una relación entre dos variables. Si todos los valores de las variables cumplen una relación exacta, se dice que las variables están perfectamente correlacionadas, es decir, la relación es determinista.

Ejemplo:

La longitud L de una circunferencia y su radio r están perfectamente correlacionados pues se verifica exactamente (de forma automática y sin error) que:

L = 2 r

Sin embargo, en un estudio estadístico trabajamos con variables aleatorias por lo que una de las variables no está determinada completamente por otra.

La relación entre el peso (en kg) y la estatura (en cm) de un hombre adulto para una determinada población podría expresarse:

Peso = 0,8 Estatura - 65

En este caso, la expresión no se verifica exactamente sino que se trata de una relación de la que se espera obtener estimaciones.

Para obtener una relación estadística, la primera fase es el análisis de correlación. Este análisis consiste en estudiar los datos de la muestra para saber qué grado de correlación existe entre las dos variables. Este grado se expresa con un número comprendido entre -1 y +1, que se denomina coeficiente de correlación.

Comenzamos con la hipótesis de que existe una relación de tipo lineal entre dos variables aleatorias, 𝑥 e 𝑦, de las que obtenemos t observaciones. Los datos de la muestra son:

(𝑥1, 𝑦1), (𝑥2, 𝑦2) … (𝑥𝑡, 𝑦𝑡) Ejemplo:

Estamos interesados en saber el grado de relación que existe entre el ingreso familiar 𝑥 y la cuantía del seguro de vida 𝑦 del cabeza de familia. Tomamos una muestra aleatoria de 18 familias, obteniéndose los siguientes datos (en miles de dólares):

“La relación es determinista cuando las variables están perfectamente correlacionadas”

(5)

Ingreso Seguro de Vida Ingreso (cont) Seguro de Vida (cont)

45 70 35 65

20 50 40 75

40 60 55 105

40 50 50 110

47 90 60 120

30 55 15 30

25 55 30 40

20 35 35 65

15 40 45 80

Tabla 2. 1

En este caso, consideramos como variable independiente o explicativa (x) el ingreso, y la cuantía del seguro de vida será la variable dependiente o explicada (y).

(6)

Ordenamos los datos respecto a x:

Ingreso Seguro de Vida

15 40

15 30

20 50

20 35

25 55

30 55

30 40

35 65

35 65

40 60

40 50

40 75

45 70

45 80

47 90

50 110

55 105

60 120

Tabla 2. 2

Una vez ordenados los datos, podemos observar que “al aumentar x, también aumenta y”, si bien el aumento de y no es estricto, ya que al pasar de una fila a la siguiente, en ocasiones disminuye después de aumentar.

El siguiente paso consiste en llevar las parejas (𝑥1, 𝑦1), (𝑥2,𝑦2) … (𝑥𝑡, 𝑦𝑡) a un gráfico, conocido como diagrama de dispersión o de nube de puntos.

(7)

Se puede apreciar que la distribución visual de los datos sigue un patrón lineal. Si la relación lineal de dependencia entre x e y fuera exacta, las observaciones se situarían a lo largo de una recta, como en las rectas de la figura 2.2.

En la de la izquierda la correlación lineal perfecta es positiva (crece y al crecer x) y en la de la derecha la correlación es negativa (decrece y al crecer x).

Para avanzar en el análisis de los datos, se divide el diagrama de dispersión en cuatro regiones, dibujando líneas paralelas a los ejes por un punto central, llamado centroide que en este caso consideramos que son las medias aritméticas de las variables (𝑥̅, 𝑦̅).

En nuestro ejemplo las dos paralelas a los ejes se cruzan, como vemos en la figura 2.3.

en ( 𝑥̅ = 35,94 , 𝑦̅ = 66,39),

Figura 2. 2

y

x Figura 2. 1

0 20 40 60 80 100 120 140

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70

(8)

Figura 2. 3

Cualquier punto situado en las regiones I y III apoya una correlación positiva, y cualquier punto en las regiones II y IV, una negativa. Si tenemos t puntos de datos, llamamos t(I) al número de puntos en la primera región, t(II) al número de puntos de la segunda, y así sucesivamente.

Con esta información podemos definir un coeficiente c, que es el coeficiente de correlación, que expresa la correlación entre las variables del estudio, de la siguiente forma:

𝑐 = 𝑡(I) + 𝑡(III) − 𝑡(II) − 𝑡(IV)

𝑡 (2. 1)

En nuestro ejemplo: 𝑡 = 18; 𝑡(I) = 7; 𝑡(II) = 0; 𝑡(III) = 9; 𝑡(IV) = 2

𝑐 = 7 + 9 − 0 − 2 18 = 0,78

El signo positivo de c indica que los puntos están predominantemente en los cuadrantes I y III, y por tanto, existe una correlación positiva entre las variables x e y. El valor absoluto de c puede utilizarse como indicador de la fuerza de esa correlación:

será más fuerte si el valor absoluto está próximo a 1 y débil cuanto más se acerque a 0.

Así pues, podemos decir que entre el nivel de ingreso familiar y la cuantía del seguro de vida del cabeza de familia se da una correlación positiva fuerte.

3.1 Coeficiente de Correlación de Pearson

Sin embargo, el coeficiente c no nos proporciona información sobre el grado de dispersión de los datos. Las siguientes dos figuras tienen un coeficiente c = 1 pero muestran conjuntos de datos muy diferentes.

(9)

El científico inglés Pearson desarrolló un coeficiente que es el más utilizado en la actualidad y que se conoce como coeficiente de correlación lineal de Pearson. Este coeficiente asigna un peso a cada punto en función de su distancia a las líneas de división que pasan por el centroide.

𝑟 = 𝑡 ∑ 𝑥𝑖 𝑦𝑖− ∑ 𝑥𝑖𝑡 𝑦𝑖 𝑡 𝑖=1

𝑡 𝑖=1 𝑖=1

√𝑡 ∑𝑡𝑖=1𝑥𝑖2− (∑𝑡𝑖=1𝑥𝑖)2 √𝑡 ∑𝑡𝑖=1𝑦𝑖2− (∑𝑡𝑖=1𝑦𝑖)2 (2. 2)

Veamos cuál es el coeficiente de correlación lineal de Pearson en nuestro ejemplo del seguro de vida.

25 35 45 55 65 75 85 95 105 115 125

15 20 25 30 35 40 45 50 55 60

25 35 45 55 65 75 85 95 105 115 125

15 20 25 30 35 40 45 50 55 60

Figura 2. 4 Figura 2. 5

(10)

Para facilitar el cálculo organizamos los datos de la siguiente forma:

𝒙𝒊 𝒚𝒊 𝒙𝒊𝟐 𝒚𝒊𝟐 𝒙𝒊 𝒚𝒊

15 40 225 1600 600

15 30 225 900 450

20 50 400 2500 1000

20 35 400 1225 700

25 55 625 3025 1375

30 55 900 3025 1650

30 40 900 1600 1200

35 65 1225 4225 2275

35 65 1225 4225 2275

40 60 1600 3600 2400

40 50 1600 2500 2000

40 75 1600 5625 3000

45 70 2025 4900 3150

45 80 2025 6400 3600

47 90 2209 8100 4230

50 110 2500 12100 5500

55 105 3025 11025 5775

60 120 3600 14400 7200

∑ 647 1195

Y obtenemos

26309 90975 48380

Y obtenemos:

𝑟 = 18 x 48 380 − 64 x 1 195

√18 x 26309 − 6472 x √18 x 90975 − 11952= 0,91026908 Que es, efectivamente, un coeficiente de correlación lineal positiva fuerte.

(11)

4 Objetivo del Análisis de Regresión

El análisis de correlación nos permite establecer si es pertinente llevar a cabo la siguiente fase en la especificación del modelo: el análisis de regresión.

En esta segunda fase se especifica una función y = f(x) que sirve para describir la relación entre las variables, y cuya finalidad no es calcular sin error, sino predecir el valor que tomará una variable para un valor dado de otra variable. Esta función es la ecuación de una recta conocida como recta de regresión.

El modelo viene dado por la ecuación lineal:

𝑦𝑡= 𝛽0+ 𝛽1𝑥𝑡+ 𝑢𝑡 (2. 3)

En el que distinguimos los siguientes elementos:

 Variables, que podemos encontrar mencionadas como:

Y X

Variable dependiente Variable explicada Variable predicha Regresando

Variable independiente Variable explicativa Variable predictor Regresor

 Término de error o perturbación aleatoria:

u : Recoge el efecto de factores distintos a x (factores que no observamos) que afectan a y.

 Relación funcional expresada por la propia fórmula.

 Parámetros.

- 𝛽1 o coeficiente de regresión, es la pendiente de la recta que relaciona x e y. Si 𝛽1= 0 se dice que no existe relación lineal entre las variables.

- 𝛽0 es un término constante y expresa el valor que tendrá y cuando tanto x como u sean cero (si es que esto tiene sentido en el caso concreto de que se trate).

Ejemplo:

Podemos tratar de aplicar este modelo en diversas ocasiones en las que deseamos verificar si hay una relación lineal entre dos variables:

La cosecha de girasol depende de la cantidad de fertilizante utilizada:

“La finalidad del análisis de regresión es predecir el valor que tomará una variable para un valor dado de otra variable”

(12)

Considerando incluidos en 𝑢 factores como la orientación de la parcela, la cantidad de precipitaciones, etc.

Como ya sabemos, si la correlación lineal entre las variables fuera perfecta, los puntos (𝑥𝑡, 𝑦𝑡) se situarían sobre una línea recta:

Pero al tratar con variables aleatorias, los datos de la muestra observada no se alinearán perfectamente, sino que formarán una nube de puntos.

El objetivo principal de la regresión es hallar, a partir de la información contenida en las observaciones de que disponemos, unos estimadores de 𝛽0 y 𝛽1 que designaremos respectivamente como 𝛽̂0 y 𝛽̂1 , de forma que la recta se ajuste lo mejor posible a los puntos (𝑥𝑡, 𝑦𝑡).

Al ser estimaciones, habrá una diferencia (𝑢̂𝑡) entre el valor observado de la variable y el valor ajustado, que se conoce como residuo.

Figura 2. 7

El método de cálculo más sencillo obtener estos estimadores consiste en minimizar la suma de los cuadrados de los residuos.

y

x

Figura 2. 6

(13)

5 Resumen

 Muy a menudo observamos que existe una relación entre dos variables. Si todos los valores de las variables cumplen una relación exacta, se dice que las variables están perfectamente correlacionadas, es decir, la relación es determinista.

 Para obtener una relación estadística, la primera fase es el análisis de correlación.

Este análisis consiste en estudiar los datos de la muestra para saber qué grado de correlación existe entre las dos variables. Este grado se expresa con un número comprendido entre -1 y +1, que se denomina coeficiente de correlación.

 El análisis de correlación nos permite establecer si es pertinente llevar a cabo la siguiente fase en la especificación del modelo: el análisis de regresión.

 En esta segunda fase se especifica una función y = f(x) que sirve para describir la relación entre las variables, y cuya finalidad no es calcular sin error, sino predecir el valor que tomará una variable para un valor dado de otra variable. Esta función es la ecuación de una recta conocida como recta de regresión.

Figure

Actualización...

Referencias

Actualización...