• No se han encontrado resultados

Variables bidimensionales: regresión y correlación

N/A
N/A
Protected

Academic year: 2022

Share "Variables bidimensionales: regresión y correlación"

Copied!
29
0
0

Texto completo

(1)

Variables bidimensionales: regresión y correlación

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

1. Introducción... 2

2. Distribuciones marginales... 4

3. Momentos... 7

3.1 Momentos respecto al origen... 7

3.2 Momentos respecto a la media... 8

4. Matriz de covarianzas... 9

5. Conceptos de ajuste y regresión...12

6. El método de los mínimos cuadrados...13

6.1 Regresión lineal...13

6.2 Regresión parabólica...19

6.3 Regresión polinomica...20

7. Análisis de la correlación...20

7.1 La varianza residual...21

7.2 Coeficiente de determinación...22

7.3 Coeficiente de correlación lineal...23 ANEXO:

El método de los mínimos cuadrados en forma matricial….26

(2)

Variables bidimensionales: regresión y correlación

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

1. INTRODUCCIÓN

Hasta ahora hemos estudiado una sola característica de cada población. Si esa característica era cuantitativa a cada individuo le hacíamos corresponder un número y obteníamos las variables estadísticas unidimensionales.

Ahora vamos a estudiar conjuntamente dos características de una población.

Los dos caracteres observados no tienen porqué ser de la misma clase. Así, se nos puede presentar:

- Dos caracteres cualitativos.

Ej.: El sexo y el color del pelo de una persona.

- Uno cualitativo y otro cuantitativo.

Ej.: La profesión y los años de servicio.

- Dos caracteres cuantitativos.

Ej.: El peso y la edad de una persona.

A cada individuo le vamos a hacer corresponder dos números y así obtenemos las variables estadísticas bidimensionales.

Si llamamos E a la población, una variable estadística bidimensional es una aplicación de E →R2.

A los caracteres les vamos a llamar x e y, cada uno de ellos presentará varias modalidades e respectivamente.

Las parejas de valores, así obtenidas por observación conjunta, pueden representar valores discretos, continuos de distinto tipo y podrán también repetirse un número determinado de veces, dando lugar de esta forma a los conceptos de frecuencia absoluta conjunta, paralelos a los ya estudiados para variables estadísticas unidimensionales.

x1,...,xr y1,...,ys

(3)

Variables bidimensionales: regresión y correlación

Se acostumbra a disponer los resultados en una tabla de doble entrada, donde en la primera columna se colocan los valores de la variable "x" y en la primera fila los valores de la variable "y". En la confluencia de la fila de xi con la columna yj se coloca la frecuencia conjunta nij referida al resultado (xi,yj) correspondiente, es decir, nij es el número de individuos que poseen conjuntamente las modalidades xi e yj , y que llamaremos frecuencia absoluta conjunta del par (xi,yj).

Notaremos por la frecuencia relativa correspondiente al par , que vendrá dada por la expresión ij nij

f = n , siendo n el número total de pares observados.

Por consiguiente, definimos distribución de frecuencias como el conjunto de valores que toma la variable bidimensional con sus respectivas frecuencias absolutas o relativas. Esta distribución se representa mediante la siguiente tabla:

y1 y2 ... yj ... ys x1 n11 n12 ... n1j ... n1s n1.

x2 n21 n22 ... n2j ... n2s n2.

... ... ... ... ... ... ... ...

xi ni1 ni2 ... nij ... nis ni.

... ... ... ... ... ... ... ...

xr nr1 nr2 ... nrj ... nrs nr.

n.1 n.2 ... n.j ... n.s n

donde xi e yj son los valores de las variables x e y, o las marcas de clase si están agrupadas, y,

verificándose, r i. s .j r s ij

i 1 j 1 i 1 j 1

n n n n

= = = =

= = =

∑ ∑ ∑∑

Análogamente, las frecuencias relativas:

s r

i. ij i. i.

j 1 i 1

f f n ; f 1 n

= =

=

=

=

r s

n.j

f =

f = ; f 1

= x1,...,xr

y1,...,ys

fij ( , )x yi j

ni nij n n

j s

j ij

i r

.= . =

= =

;

1 1

(4)

Variables bidimensionales: regresión y correlación

r s

ij

ij .j

i=1 j 1

f n ; f 1

n =

=

∑ ∑

=

Las estadísticas de dos variables suelen representarse en un sistema de ejes cartesianos, tomándose los valores de la variable "x" en el eje de abscisas y los de la variable

"y" en el de ordenadas y señalándose la confluencia en el plano con un punto. El conjunto de puntos así obtenidos, en un número igual al de observaciones conjuntas efectuadas, recibe el nombre de diagrama de dispersión o nube de puntos.

55

Diagrama de dispersi¢n

x y

x i y

j

Como en un diagrama de dispersión no puede quedar reflejado las veces que se repite un par o un intervalo, podemos establecer puntos de tamaño proporcional a la frecuencia, o bien, escribir al lado del punto la correspondiente frecuencia.También se puede recurrir a una representación en tres dimensiones de (x,y): os son para la variable bidimensional y una para expresar las frecuencias.

2. DISTRIBUCIONES MARGINALES EJEMPLO 1:

Consideremos 150 alumnos a los que se les ha preguntado las calificaciones obtenidas en Física y Matemáticas. Así se han obtenido pares de resultados (x=nota en Física, y=nota en Matemáticas), cuya información recogemos en la siguiente tabla de doble entrada:

Física\Matemáticas Suspenso Aprobado

Suspenso 65 15

Aprobado 10 60

(5)

Variables bidimensionales: regresión y correlación

Podemos responder a las siguientes preguntas: 1) ¿Cuántos alumnos han aprobado Física? ¿Cuántos han suspendido? 2) ¿Cuántos alumnos han suspendido Matemáticas? ¿Cuántos han aprobado?

Solucion:

Física\Matemáticas Suspenso Aprobado

Suspenso 65 15 80

Aprobado 10 60 70

75 75 150

Para la primera pregunta hemos de tener en cuenta solamente la variable x (Física).

x

Suspensos 80 Aprobados 70 ni nij

j s

. = =

=

1 frecuencia marginal del valor xi

Distribución marginal de la variable "x" son los valores que toma dicha variable con sus respectivas frecuencias.

x ni..

x1 n1.

x2 n2.

.... ....

xi ni.

.... ....

xr nr.

Para la segunda pregunta hemos de proceder de manera análoga para la variable "y".

y nyj =n.j Suspensos 75 Aprobados 75

r

nxi =ni.

(6)

Variables bidimensionales: regresión y correlación

La tabla representada con la variable "y" con sus frecuencias marginales, recibe el nombre de distribución marginal de la variable "y".

y n.j

y1 n.1 y2 n.2 .... ....

yj n.j .... ....

ys n.s

A partir de las frecuencias absolutas marginales se obtienen las frecuencias relativas marginales.

i. .j

i. .j

n n

f f

n n

= =

Naturalmente, para cada una de las distribuciones marginales pueden hallarse las medias, las varianzas, las desviaciones típicas y cualquier otra medida de las ya consideradas para las estadísticas de una sola variable.

Medias marginales:

r r s s

i i. i i. j .j j .j

i 1 i 1 j 1 j 1

1 1

X x n x f ; Y y n y f

n = = n = =

=

=

=

=

El punto (X,Y) se llama centro de gravedad de la distribución bidimensional o vector de medias.

Varianzas marginales:

r r

2 2 2

x i i. i i.

i 1 i 1

1 (x X) n (x X) f

n = =

σ =

− =

(7)

Variables bidimensionales: regresión y correlación

s s

2 2 2

y j .j j .j

j 1 j 1

1 (y Y) n (y Y) f

n = =

σ =

− =

por tanto, las desviaciones típicas marginales, serán:

r r

2 2

x i i. i i.

i 1 i 1

1 (x X) n (x X) f

n = =

σ =

− =

s s

2 2

y j .j j .j

j 1 j 1

1 (y Y) n (y Y) f

n = =

σ =

− =

Si en vez de dividir por n se divide por n-1 obtenemos las cuasivarianzas marginales .

3. MOMENTOS

3.1. Momentos respecto al origen

r s

h,k h ki j ij

i 1 j 1

m 1 x y n

n = =

=

∑∑

Algunos momentos particulares:

r s

1,0 i ij i i. i i.

i 1 j 1 i i

1 1

m x n x n x f X

n = = n

=

∑∑

=

=

=

r s

0,1 j ij j .j j .j

i 1 j 1 j j

1 1

m y n y n y f Y

n = = n

=

∑∑

=

=

=

r s

1,1 i j ij i j ij

i 1 j 1 i j

m 1 x y n x y f

n = =

=

∑∑

=

∑∑

r s

2 2 2

2,0 i ij i i. i i.

i 1 j 1 i i

1 1

m x n x n x f

n = = N

=

∑∑

=

=

r s

2 2 2

0,2 j ij j .j j .j

i 1 j 1 j j

1 1

m y n y n y f

n = = n

=

∑∑

=

=

S2x y Sy2

m00=1

(8)

Variables bidimensionales: regresión y correlación

3.2. Momentos respecto a la media

r s

h k

h,k i j ij

i 1 j 1

1 (x X) (y Y) n

n = =

µ =

∑∑

− −

Casos particulares interesantes:

r s

1,0 i ij

i 1 j 1

1 (x X) n X X 0

n = =

µ =

∑∑

− = − =

r s 2 2 2 2

2,0 i ij i i. x 2,0

i 1 j 1 i

1 (x X) n 1 (x X) n m X

n = = n

µ =

∑∑

− =

− = σ = −

r s 2 2 2 2

0,2 j ij j .j y 0,2

i 1 j 1 j

1 (y Y) n 1 (y Y) n m Y

n = = n

µ =

∑∑

− =

− = σ = −

r s

1,1 i j ij i j ij j ij i ij

i 1 j 1 i j i j i j

ij i j ij 1,1 xy

i j i j

1 (x X) (y Y) n 1 x y n 1X y n 1Y x n

n n n n

1XY n 1 x y n XY m XY

n n

= =

µ = − − = − − +

+ = − = − = σ

∑∑ ∑∑ ∑∑ ∑∑

∑∑ ∑∑

σxy recibe el nombre de covarianza, de gran importancia práctica, se define como la media aritmética de los productos de las desviaciones de la variable x con respecto a su media aritmética, , por las desviaciones de la variable y con respecto a la media aritmética, .

De la misma forma que en el caso de la varianza, se define la covarianza muestral por

r s

i j ij

xy xy xy

i 1 j 1

(x X)(y Y)n n

S siendo S

n 1 n 1

= =

− −

= = σ

− −

∑∑

.

Cuando las variables x e y son independientes se cumple que la covarianza es nula, en cuyo caso se dice que son incorreladas. El reciproco no es cierto.

Si la covarianza es distinta de cero, entonces las variables son dependientes.

µ0 0, =1

µ0 1, = − =Y Y 0

X Y

(9)

Variables bidimensionales: regresión y correlación

4. MATRIZ DE COVARIANZAS

Llamamos matriz de covarianzas, a la matriz cuadrada simétrica que tiene en la diagonal principal las varianzas marginales (o cuasivarianzas), y fuera de la diagonal principal las covarianzas (o covarianzas muestrales), es decir 2x xy2

yx y

S S

S S

 

Σ =  ; que es simétrica, pues

xy yx

S =S . O bien σ σ

σ σ

x xy

xy y

2 2

 



Se llama varianza generalizada al valor Σ =S S S2 2x y2xy ≥0 (semidefinida positiva) y mide aproximadamente el área ocupado por el conjunto de datos.

EJEMPLO 2:

Las calificaciones obtenidas por 30 alumnos en los exámenes cuatrimestral (x) y final (y) de Matemáticas fueron las siguientes:

x 0 0 1 2 1 3 4 9 2 5 y 2 0 0 5 3 6 8 10 3 7 x 6 1 3 5 0 6 4 4 6 4 y 9 1 6 9 1 9 8 6 10 7 x 3 2 7 2 8 4 6 6 6 7 y 5 4 10 4 9 4 8 10 5 8

Se pide: a) Diagrama de dispersión. b) Formar una tabla de doble entrada sin agrupar los datos en intervalos. c) Hallar las distribuciones marginales: media y varianza de las mismas. d) Determinar la covarianza .

Solución: a)

0 2 4 6 8 10 12

Calificaciones

(10)

Variables bidimensionales: regresión y correlación

b) Realizando el recuento de pares ordenados se obtiene:

x\y 0 1 2 3 4 5 6 7 8 9 10 ni.

0 1 1 1 0 0 0 0 0 0 0 0 3 1 1 1 0 1 0 0 0 0 0 0 0 3 2 0 0 0 1 2 1 0 0 0 0 0 4 3 0 0 0 0 0 1 2 0 0 0 0 3 4 0 0 0 0 1 0 1 1 2 0 0 5 5 0 0 0 0 0 0 0 1 0 1 0 2 6 0 0 0 0 0 1 0 0 1 2 2 6 7 0 0 0 0 0 0 0 0 1 0 1 2 8 0 0 0 0 0 0 0 0 0 1 0 1 9 0 0 0 0 0 0 0 0 0 0 1 1 n.j 2 2 1 2 3 3 3 2 4 4 4 30 c) Distribuciones marginales

xi ni. xini. xi2 ni. yj n.j yjn.j yj2n.j

0 3 0 0 0 2 0 0

1 3 3 3 1 2 2 2

2 4 8 16 2 1 2 4

3 3 9 27 3 2 6 18

4 5 20 80 4 3 12 48

5 2 10 50 5 3 15 75

6 6 36 216 6 3 18 108

7 2 14 98 7 2 14 98

8 1 8 64 8 4 32 256

9 1 9 81 9 4 36 324

30 117 635 10 4 40 400

30 177 1333

Medias Marginales:

i i i.

1 117

X x n

n 30

=

= =3.9; j .j

j

1 177

Y y n

n 30

=

= = 5.9

Varianzas marginales:

2 2 2 2

x i i.

i

1 x n X 635 3.9

n 30

σ =

− = − = 5.96; 2y 2j .j 2 2

j

1 y n Y 1333 5.9

n 30

σ =

− = − = 9.62

(11)

Variables bidimensionales: regresión y correlación

d) Los calculos correspondientes se detallan en la tabla de doble entrada, añadiendo las dos filas siguientes

x\y 0 1 2 3 4 5 6 7 8 9 10 ni.

0 1 1 1 0 0 0 0 0 0 0 0 3 1 1 1 0 1 0 0 0 0 0 0 0 3 2 0 0 0 1 2 1 0 0 0 0 0 4 3 0 0 0 0 0 1 2 0 0 0 0 3 4 0 0 0 0 1 0 1 1 2 0 0 5 5 0 0 0 0 0 0 0 1 0 1 0 2 6 0 0 0 0 0 1 0 0 1 2 2 6 7 0 0 0 0 0 0 0 0 1 0 1 2 8 0 0 0 0 0 0 0 0 0 1 0 1 9 0 0 0 0 0 0 0 0 0 0 1 1 n.j 2 2 1 2 3 3 3 2 4 4 4 30

x ni ij

i 1 1 0 3 8 11 10 9 21 25 28

yj x ni ij

i 0 1 0 9 32 55 60 63 168 225 280 ∑=893

j

Otra forma de calculo sería :

i j ij

x y n = ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ +0 0 1 1 0 1 0 1 1 1 1 1 0 2 1 1 3 1 2 3 1 2 4 2 4 4 1

∑∑

2 5 1 3 5 1 6 5 1 3 6

+ ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ 2 4 6 1+ ⋅ ⋅ +4 7 1 5 7 1 4 8 2⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅6 8 1 7 8 1+ 5 9 1 6 9 2 8 9 1 6 10 2 7 10 1 9 10 1 893

+ ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ = con lo cual , 1,1 i j ij j i ij

i j j i

1 1 893

m x y n y x n 29.767

n n 30

=

∑∑

=

∑ ∑

= =

La covarianza µ = σ =1,1 xy m1,1−XY 29.767 3.9 5.9= − ⋅ = 6.76 La matriz de covarianzas : σ σ

σ σ

x xy

xy y

2 2

 

 = 596 6 76 6 76 9 62

. .

. .

 



En las distribuciones bidimensionales se presentan dos problemas que dan origen a dos teorías:

1.- Teoría de la regresión: que trata de predecir los valores de una variable para valores prefijados de la otra.

2.- Teoría de la correlación: que trata de medir la interdependencia estadística entre dos

(12)

Variables bidimensionales: regresión y correlación

5. CONCEPTOS DE AJUSTE Y REGRESIÓN

Entre las variables marginales de una distribución estadística bidimensional, puede haber diversos tipos de dependencia. Puede haber una dependencia funcional, como por ejemplo entre tiempo y espacio recorrido por un móvil, ya que existe una expresión matemática que los relaciona. Pero puede haber, también, otra dependencia aleatoria en la que conocida una variable no es posible saber exactamente el valor de la otra, pero sí tener una idea aproximada de la misma, como por ejemplo la relación entre talla y peso de un individuo.

El procedimiento a seguir es la observación de una variable estadística bidimensional (x,y) y su representación en una nube de puntos o diagrama de dispersión y observar si se distribuyen alrededor de una linea o tendencia.

Desde un punto de vista gráfico, diremos que un ajuste es la sustitución de un diagrama de dispersión por una línea, que, sin que deba pasar por todos los puntos, (*), se adapte lo mejor posible a todos ellos; y, desde un punto de vista analítico, un ajuste es la sustitución los datos por una dependencia de tipo funcional o exacto, que implica la determinación de los parámetros que caracterizan a tal función analítica.

(*) Obsérvese que la interpolación consiste en obtener una curva que pase por los puntos.

La función que pretendemos obtener será una línea que llamaremos línea de regresión, cuya ecuación puede ser de las formas siguientes:

y a bx= + , recta.

, parábola.

, polinómica.

, exponencial.

, hipérbola.

Dependiendo de la función elegida para el ajuste, la regresión será lineal, parabólica, etc.

y a bx cx= + + 2 y a= 0+a x1 +...+a xn n

y c a= ⋅ kx y= a bx

+ 1

(13)

Variables bidimensionales: regresión y correlación

El interés de la línea de regresión radica en poder predecir los valores de una variable para los valores prefijados de la otra, lo que constituye el problema general de la teoría de la regresión o del ajuste.

Si tratamos de predecir y conocida x, habremos de calcular la línea de regresión de y sobre x, que será y=f(x). Recíprocamente x=g(y) será la línea de regresión de x sobre y.

6. EL MÉTODO DE LOS MÍNIMOS CUADRADOS

Dependiendo de la forma que adopte la nube de puntos sabremos en principio si hemos de emplear una recta, una parábola, etc.

Una vez elegida la línea hemos de estimar los parámetros correspondientes a la misma a partir de los datos observados. La estimación o cuantificación de los parámetros viene determinada por las distintas condiciones que se establezcan previamente. La condición más usual y de mayor utilidad práctica es la denominada de mínimos cuadrados.

Este método de ajuste se fundamenta en considerar como la mejor adaptación, la de una línea tal que sea mínima la suma de los cuadrados de las diferencias entre los valores observados o empíricos y los ajustados o teóricos, correspondientes a los distintos valores de la función analítica elegida para los mismos valores de la variable explicativa.

6.1. Regresión lineal (Ajuste por mínimos cuadrados, a una recta).

Recta de regresión de y sobre x.

Consideremos los datos conseguidos experimentalmente:

( , ) , ( , ) ,....,( , )x y1 1 x y2 2 x yn n Se quiere adaptarlos a una recta y=a+bx

Por consiguiente;

1 1

2 2

y a bx

y a bx

= +

= +

− − − − − − −

(14)

Variables bidimensionales: regresión y correlación

Si los puntos no están sobre una recta y=a+bx. Escogeremos a y b de tal forma que

n n

i i i i

i 1 y y * i 1 y (a bx )

= =

− = − +

∑ ∑

sea mínimo.

De todas las rectas y=a+bx buscaremos la recta que hace mínima la suma de los cuadrados de las desviaciones que representan la distancia vertical de los datos (xi,yi) a los puntos (xi,yi*)

( ) ( )

n 2 n 2

i i i i

i 1 i 1

mí n y y * mín y a bx

= =

− = − −

∑ ∑

Al depender de dos parámetros sus derivadas parciales deben ser nulas:

( ) ( ) ( )

( ) ( ) ( )

n 2 n n

i i i i i i

i 1 i 1 i 1

n 2 n n

i i i i i i i i

i 1 i 1 i 1

y a bx 0 2 y a bx ( 1) 0 y a bx 0 a

y a bx 0 2 y a bx ( x ) 0 y a bx x 0 b

= = =

= = =

∂ − − = ⇒ − − − = ⇒ − − = 

∂ 

∂ − − = ⇒ − − − = ⇒ − − = 

∂ 

∑ ∑ ∑

∑ ∑ ∑

n n n

i i

i 1 i 1 i 1

n n n

i i i i2

i 1 i 1 i 1

y a b x 0

x y a x b x 0

= = =

= = =

− − = ⇒

− − = 



∑ ∑ ∑

∑ ∑ ∑

n n

i i

i 1 i 1

n n n

i i i i2

i 1 i 1 i 1

y an b x x y a x b x

= =

= = =

= + 



= +



∑ ∑

∑ ∑ ∑

Que reciben el nombre de Ecuaciones normales de la recta de regresión de y sobre x

Al dividir por n:

n n

i i

i 1 i 1

n n n n n

2 2

i i i i i i i

i 1 i 1 i 1 i 1 i 1

y x

a b Y a bX

n n

x y x x x y x

a b aX b

n n n n n

= =

= = = = =



= + ⇒ = + 





= + ⇒ = + 

∑ ∑

∑ ∑ ∑ ∑ ∑

Al despejar a en la primera ecuación y sustituir en la segunda

( )

n

n n n i i

2 2 i 1

i i i i

i 1 i 1 i 1 xy

n 2

2 x

i 2

i 1

x y x x x y X Y

aX b Y bX X b b n

n n n x

n X

=

= = =

=

− ⋅ σ

= + = − + ⇒ = =

σ

∑ ∑ ∑ ∑

(15)

Variables bidimensionales: regresión y correlación

Nos indica que el parámetro b de una recta de regresión puede calcularse mediante el cociente entre la covarianza y la varianza de la variable que actúa como independiente.

Este parámetro x xy2

x

by σ

= σ recibe el nombre de coeficiente de regresión de la variable y con respecto a la variable x, y es la pendiente de la recta de y sobre x, por consiguiente, el sentido de crecimiento o decrecimiento, así como el grado de variación, viene determinado por el signo y el valor del coeficiente de regresión b.

La expresión del parámetro "a" una vez conocido el valor b, será:

a Y bX Y xy X

x

= − = − σ σ2

Sustituyendo los valores obtenidos en , se tiene:

y Y xy X x

x

xy x

= −σ + σ

σ

2 σ2 de donde xy2

( )

x

y Y σ x X

− = −

σ que es la ecuación de la recta de regresión de y sobre x. Esta recta permite calcular, aproximadamente, los valores de y dados los de x.

Nota: anulando las derivadas se obtiene el mínimo (y no el máximo) como se puede comprobar con el Hessiano.

Interpretación geométrica.

( ) ( )

n 2 n 2

i i i i

i 1 i 1

mí n y y * mí n y a bx

= =

− = − −

∑ ∑

( )

2 2 2 2

1 1 n n 1 n

mí n (y a bx ) ... (y a bx )  mí n e ... e

=  − − + + − − = + +

como error vertical o distancia vertical

yi ei yi*

xi

y=a+bx y a bx= +

ei =y a bxi− − i =y yii ≡ (yi ≡teórico)

(16)

Variables bidimensionales: regresión y correlación

EJEMPLO 3: Obtener la recta de ajuste por mínimos cuadrados que se adapta a los puntos (0,1), (1,3), (2,4) y (3,4).

Solución:

x y xy x2 y2 0 1 0 0 1 1 3 3 1 9 2 4 8 4 16 3 4 12 9 16 6 12 23 14 42

n i 1 i

X 1 x 1,5

n =

=

=

;

2x n i2 2

i 1

1 x X 1,25

n =

σ =

− =

;

n i

i 1

Y 1 y 3

n =

=

=

;

2y n i2 2

i 1

1 y Y 1,5

n =

σ =

− =

xy i j

i j

1 x y XY 1,25 σ =n

∑∑

− = La recta de regresión de y sobre x:

( ) ( )

xy 2x

y Y x X y 3 1,25 x 1.5

1,25

− =σ − ⇒ − = − ⇒

σ ⇒ y= 1.5 + x

Existe otra recta de regresión que podemos obtener con los mismo datos.

Recta de regresión de x sobre y:

La recta de regresión de x sobre y no se obtiene despejando la x de la ecuación anterior, sino repitiendo un proceso análogo. En lugar de tomar las distancias ei sobre las verticales, se toman sobre las horizontales, (ei=xi*-xi).

(17)

Variables bidimensionales: regresión y correlación

Se demuestra que xy2

( )

y

x X σ y Y

− = −

σ es la recta de regresión de x sobre y, que permite calcular aproximadamente los valores de x dados los de y. Donde

xy 2y

bxy

1 σ

= σ es la

pendiente de la recta de regresión de x sobre y, cuyo coeficiente de regresión es bxy.

EJEMPLO 3: Obtener la recta de ajuste por mínimos cuadrados que se adapta a los puntos (0,1), (1,3), (2,4) y (3,4).

Solución:

La recta de regresión de x sobre y:

( ) ( )

xy 2y

x X y Y x 1.5 1,25 y 3 1,5

− = σ − ⇒ − = − ⇒

σ ⇒ x= 5/6 y - 1

Propiedades de las rectas de regresión:

Las dos rectas de regresión y Y b x X− = yx( − ) , x X b y Y− = xy( − ) se cortan en un punto, que es precisamente el , llamado, por su naturaleza de promedio, centro de gravedad de la distribución.

Por otra parte, es claro que σx2 y σ2yson siempre positivos y, en consecuencia, las pendientes de ambas rectas tienen el mismo signo que la covarianza σxy y aparecen íntimamente ligadas, lo que justifica la denominación de covarianza (varianza conjunta).

( , )X Y

(18)

Variables bidimensionales: regresión y correlación

Una vez construidas las rectas de regresión, la pendiente de la de x sobre y es mayor que la correspondiente a la recta de regresión de y sobre x.

xy

xy xy x

yx yx

y

1 a ' 1

y x tg

b b b

t x a ' b y

g b

y a b x=

⇒ = − ⇒ α =

+ ⇒ β =

= +

tenemos que:

( )

xy yx xy yx

xy yx

yx xy

b1 b 1 b b

tg tg

tg tg 1 tg tg 1 1 b b b

b

− −

α − β

ω = α − β = = =

+ α β + + (1)

En el caso de que la dependencia lineal en estudio sea de tipo exacto o funcional, las dos rectas son recíprocas. Esto es:

yx xy

1 b

b =

de aquí, en consecuencia, si ambas rectas son identicas:

xy yx yx

xy

0º tg tg0º 0 1 b b 0 1 b

ω = ⇔ ω = = ⇔ − = ⇔b =

Cuanto más pequeña sea la tangente del ángulo ω formado por la intersección de las dos rectas, tanto más representativo será el ajuste lineal efectuado.

(19)

Variables bidimensionales: regresión y correlación

EJEMPLO 4.

Con los datos del ejemplo 2, se pide:

a) Calcular ambas rectas de regresión.

b) Estimar la nota final de un alumno que obtuvo un 6 en el parcial.

Solución:

a) Teníamos calculado:

2 2

X 3.9, Y 5.9, = = σ =x 5.96, σ =y 9.62, σxy =6.76 Así pues, las rectas de regresión son:

y sobre x: y−59= 6 76 x− ⇒ =y x+

596 39 113 148

. .

. ( . ) . .

x sobre y: x−39= 6 76 y− ⇒ =x y−

9 62 59 0 7 0 25

. .

. ( . ) . .

b) Esta estimación se hace a partir de la recta de regresión de y sobre x, y=113. x+148. . Como x = 6, se tiene que y =113 6 148 8 26. ⋅ + . = . nota del examen final.

6.2. Regresión parabólica.

Vamos a suponer ahora que a la vista del diagrama de dispersión, es más conveniente ajustar por un polinomio de grado dos (parábola), como caso más sencillo aunque el método empleadoes válido en general para un polinomio de grado n.

Nuestro objetivo es estimar los parámetros a, b, y c a partir de los datos observados, empleando también el método de los mínimos cuadrados.

La función a minimizar es:

y derivando con respecto a los tres parámetros se obtiene:

y∗ a bx cx

= + + 2

f a b c a bx cxi i yj

i j

( , , ) ( )

,

=

+ + 22

(20)

Variables bidimensionales: regresión y correlación

i 2i j

i, j

i 2i j i

i, j

2 2

i i j i

i, j

f (a,b,c) 2 (a bx cx y ) 0 a

f (a,b,c) 2 (a bx cx y ) x 0 b

f (a,b,c) 2 (a bx cx y ) x 0 c

∂ = ⋅ + + − =

∂ = ⋅ + + − ⋅ =

∂ = ⋅ + + − ⋅ =

que aplicando las propiedades del sumatorio y simplificando se obtienen las ecuaciones llamadas normales de la parábola de regresión.

Por último, dividiendo por N queda:

Resolviendo este sistema por la regla de Cramer, se obtienen los parámetros a,b,c de la parábola de regresión.

6.3. Regresión polinómica.

Vamos a suponer ahora que a la vista del diagrama de dispersión, es más conveniente ajustar por un polinomio de grado n. Por ejemplo, si es una parábola escogeremos el grado dos.

Para un polinomio de grado n: y* = a0 + a1 x + ... +an xn

Nuestro objetivo es estimar los parámetros ai, i=0, 1,...., n, a partir de los datos observados, empleando también el método de los mínimos cuadrados.

El procedimiento es similar al anterior planteando las ecuaciones normales y resolviendo el sistema.

aN b x c x y

a x b x c x x y

a x b x c x x y

i i i

i j

i j

i i i

i i

i i j

i j

i i i

i i

i i j

i j

+ + =

+ + =

+ + =

∑ ∑ ∑

∑ ∑ ∑ ∑

∑ ∑ ∑ ∑

2

2 3

2 3 4 2

, ,

,

a b m c m m

a m b m c m m

am b m c m m

+ ⋅ + ⋅ =

⋅ + ⋅ + ⋅ =

+ ⋅ + ⋅ =

10 20 01

10 20 30 11

20 30 40 21

(21)

Variables bidimensionales: regresión y correlación

7. ANÁLISIS DE LA CORRELACIÓN.

Se hace necesario, ahora, completar el análisis de la regresión con la obtención de unas medidas o coeficientes que permitan calibrar el grado de dependencia estadística existente entre las dos variables, o dicho de otro modo, el grado de representatividad o bondad del ajuste realizado.

Llamaremos correlación a la teoria que trata de estudiar la dependencia que existe entre las dos variables que intervienen en una distribución bidimensional.

7.1. La varianza residual

Una vez ajustada la línea de regresión y* a una nube de puntos, observamos que se obtienen unas diferencias entre los distintos valores ajustados o teóricos yi*, y los correspondientes valores observados o empíricos yi.

ei=yi*-yi

La varianza residual se define como la varianza de los errores o residuos

2 n 2

r i i

i 1

1 (y * y ) n =

σ =

En el caso lineal:

( ) ( ) ( )

( ) ( ) ( )( )

( ) ( ) ( )( )

2 2

n n n

xy xy

2 2

r i i 2 i i 2 i i

i 1 i 1 x i 1 x

2 2

n n n

xy xy

i 2 i 2 i i

i 1 i 1 x i 1 x

2 2 2

n n n

xy xy

i 4 i 2 i i

i 1 x i 1 x i 1

1 (y * y ) 1 Y x X y 1 x X y Y

n n n

1 y Y 1 x X 21 x X y Y

n n n

1 y Y 1 x X 2 1 x X y Y

n n n

= = =

= = =

= = =

σ σ

   

σ = − =  + σ − −  =  σ − − −  =

σ σ

 

= − +  σ −  − σ − − =

σ σ

= − + − − − − =

σ σ

∑ ∑ ∑

∑ ∑ ∑

∑ ∑ ∑

2 2

xy xy xy

2 2 2

y 4 x 2 xy y 2

x x x

σ 2σ σ

= σ + σ − σ = σ −

σ σ σ

Como 2xy2 2r 2y

x

σ 0

≥ ⇒ σ ≤ σ

σ y es una medida de dispersión de los datos respecto a la media. Se puede interpretar como la suma de los errores que cometariamos si estimaramos cada valor yi

por y.

También se dice varianza no explicada representa, la parte de la variación de Y que no es capaz de explicar el modelo elegido, puede interpretarse como una medida de la bondad del

(22)

Variables bidimensionales: regresión y correlación

ajuste, valores grandes de la varianza no explicada indican que el modelo no es adecuado. Sin embargo, σ2r no es válida para juzgar la bondad del ajuste, ya que, depende de las unidades de medida. Una forma de evitar este problema es dividir la varianza no explicada por la varianza total de Y (σ2y), así pues, utilizaremos el cociente 2r 2

y

σ σ que representa la proporción de

varianza de Y no explicada por el modelo de regresión.

Así, la medida que usaremos para juzgar la bondad del ajuste es la razón de correlación, también llamada coeficiente de determinación 2 2r2

y

R = −1 σ

σ que representa la proporción de la variación de Y explicada por el modelo de regresión.

2 2

y r

2

2y

varianza explicada varianza residual

R 1

varianza de Y varianza de Y σ − σ

= = = −

σ

7.2. Coeficiente de determinación.

Una medida de proporción de la variación total nos la da el coeficiente de determinación.

2 2 2 2

y r xy

2 r

xy yx

2 2 2 2

y y x y

R =σ − σ = −1 σ = σ =b b

σ σ σ σ

Como σ ≤ σ ⇒ ≤2r 2y 0 R2≤1

R nos mide (en tanto por uno) lo que hemos mejorado nuestra predicción al estimar y.

por medio de la línea de regresión en vez de por la media marginal y .

EJEMPLO 5 Con los datos del ejemplo 3, se pide:

a) Coeficiente de determinación. Interpretarlo.

b) Varianza residual o varianza no explicada para la recta de regresión de y sobre x.

Solución:

2x 1,25

σ =

;

σ =2y 1,5

;

σ =xy 1,25

a) 2 2 22xy 2 2

y x

1,25 5

R R 0,83

1,25 1,5 6

= σ ⇒ = = ≈

σ σ ⋅

. El modelo de regresión explica el 83,3·%

(23)

Variables bidimensionales: regresión y correlación

b) Y la varianza no explicada o varianza residual 2r n i i 2 i 1

1 (y * y ) n =

σ =

se puede obtener a partir de la recta de regresión de y sobre x, en este caso, y=x+1,5

x y y*=x+1,5 (y*-y)2

0 1 1,5 0,25

1 3 2.5 0,25

2 4 3,5 0,25

3 4 4,5 0,25

6 12 1

Así, la varianza no explicada de la variable Y es: 2r n i i 2

i 1

1 (y * y ) 1 1 1

n = 4 4

σ =

− = ⋅ =

Resultado que coincide si hacemos el cálculo con

(

1 R2

)

2y 1 5 1,5 0,25 6

 

− σ = −  =

EJEMPLO 6 Con los datos 5,96, 9,62, 6,76σ =2x σ =2y σxy = , se pide:

a) Coeficiente de determinación. Interpretarlo.

b) Varianza residual y varianza explicada para la recta de regresión de y sobre x.

Solución:

a) 2 2 22xy 2 2

y x

R R 6,76 0,797

5,96 9,62

= σ ⇒ = ≈

σ σ ⋅

El modelo de regresión explica el 79,7·%

b) Así, la varianza explicada de la variable Y es:

2 2

2 2 xy 2 2

y 2 y

x

R R 6,76 7,667

5,96

σ = σ ⇒ σ = ≈

σ

Y la varianza no explicada o varianza residual

2 2 2 2

r y R y 9,62 7,667 1,95

σ = σ − σ = − =

7.3. Coeficiente de correlación lineal.

La raíz cuadrada del coeficiente de determinación se denomina coeficiente de correlación lineal y es igual a la media geométrica de los coeficientes de regresión byx y bxy.

(24)

Variables bidimensionales: regresión y correlación

yx xy

r= ± b b lo que da lugar a:

σ ⇒ σ

= σ σ σ σ

= σ

= 2

2 y x

2xy 2y

xy 2x xy xy 2 byxb

r xy

x y

r σ

=σ σ , siendo el signo(r)=signo(σxy).

El coeficiente de correlación lineal es un número abstracto y es independiente de las unidades utilizadas en las variables, cuyo signo es el de la covarianza, ya que las varianzas son positivas, y comprendido entre -1 y +1.

En efecto:

Como

Interpretación del coeficiente de correlación lineal.

Recordemos que se vio en el epígrafe 6.1. al hablar del ángulo que formaban las rectas de regresión, la expresión (1) :

PRIMER CASO:

Si r=1 la covarianza σxy será positiva, las pendientes de las rectas de regresión son positivas; a valores crecientes de x corresponde valores crecientes de y. Es la correlación perfecta y directa.

Si r=-1 la covarianza σxy será negativa, las pendientes de las rectas de regresión son negativas; a valores crecientes de x corresponde valores decrecientes de y. La correlación es perfecta e inversa.

El ángulo que forman ambas rectas será de y en ambos casos las rectas son coincidentes. Hay dependencia funcional recíproca.

tg tg r b b tg

tg r r

yx xy

α β β

≥ ⇒ 2 = = α ≤1, ≤ ⇔ − ≤ ≤1 1 1

tg b b

b b

xy yx

xy yx

ω = − + 1

0

(25)

Variables bidimensionales: regresión y correlación

SEGUNDO CASO:

Supongamos que r= ⇔0 σxy =0, no hay correlación, es decir, a cualquier valor de x corresponde el mismo y, lo que indica la falta absoluta de dependencia entre las variables, se dice que son incorreladas.

Las rectas de regresión serán:

obviamente perpendiculares.

TERCER CASO:

Si 0 < r < 1, hay correlación positiva. El signo viene caracterizado por la covarianza σxy que consideraremos positiva y por tanto las pendientes de las rectas de regresión son positivas.

Si -1 < r < 0, hay correlación negativa σxy<0. Las pendientes son negativas y, al aumentar los valores de una variable, disminuyen los de la otra. La correlación será “buena“

para valores de r próximos a -1 y “mala” si son próximos a 0.

Señalemos, por último, que el coeficiente de correlación lineal no es propiamente una medida de tipo cuantitativo, sino una medida de tipo cualitativo que indica únicamente el grado de la intensidad de la relación lineal existente entre las variables.

EJEMPLO 7:

Calculemos el coeficiente de correlación para el ejemplo 6.

Solución:

r= σxy = =

σ σ

6 76

5 96 9 62. 0 89

. . .

y Y x X

=

=

(26)

Variables bidimensionales: regresión y correlación

Existe una fuerte dependencia aleatoria directa entre las dos variables. Las estimaciones hechas a partir de las rectas de regresión serán fiables.

Por último, ilustramos los datos con la recta de regresión y sobre x del ejemplo

Observaciones: El que dos variables tengan una correlación lineal alta (sea positiva o negativa) puede no significar una relación de causa-efecto entre ellas.

Observando la matriz de covarianza 2x xy2 2x x y2

xy y x y y

r r

σ σ   σ σ σ 

Σ =σ σ    = σ σ σ  y por tanto

2 2 2

x y(1 r ) 0

Σ = σ σ − ≥ . Si las variables no están correlacionadas entre sí, el determinante toma su valor máximo.

http://asignaturas.topografia.upm.es/matematicas/videos/RegresionyCorrelacion.mp4 http://asignaturas.topografia.upm.es/matematicas/videos/RegresionyCorrelacion.wmv

y = 1,1343x + 1,4762 R² = 0,7964

0 2 4 6 8 10 12 14

0 2 4 6 8 10

(27)

Variables bidimensionales: regresión y correlación

ANEXO

EL MÉTODO DE LOS MÍNIMOS CUADRADOS EN FORMA MATRICIAL

Consideremos los datos conseguidos experimentalmente:

( , ) , ( , ) ,....,( , )x y1 1 x y2 2 x yn n ( , ) , ( , ) ,....,( , )x y1 1 x y2 2 x yn n

Se quiere adaptarlos a una recta y=a+bx Por consiguiente;

1 1

2 2

n n

y a bx

y a bx

y a bx

= +

= +

− − − − − − −

= + en forma matricial:

1 1

n n

y 1 x

. 1 .

. 1 . a . 1 . b

y 1 x

   

   

     

  = ⋅ 

     

   

   

   

o bien y = M v donde

1 1

n n

y 1 x

. 1 .

y . , M 1 . , v a

. 1 . b

y 1 x

   

   

     

   

=  =  =   

   

   

   

Si los puntos no están sobre una recta y M v− ⋅ ≠0. Escogeremos a y b de tal forma que y M v− ⋅ sea mínimo.

Sea v a b

=   

  el vector que minimiza la diferencia a la línea y a= +b x "RECTA DE REGRESIÓN" y y M son fijos, al variar v los vectores Mv forman un subespacio de Rn, espacio de la columna de M. Gráficamente,

(28)

Variables bidimensionales: regresión y correlación

y-Mv

Mv Mv *

y y-Mv *

La solución mínima y M v− ⋅ debe ser ortogonal al subespacio

( ) ( )

( )

( )

t

t t

t t t

t t

y Mv Mv v Mv y Mv 0 v M y Mv 0

v M y M Mv 0 v M y M Mv 0

− ⊥ ∀

− =

⋅ − =

⋅ − = ∀

⇒ − =

(

t

)

1 t

v = M M M y

donde ∃ M M

(

t

)

1 ⇔ r M M

(

t

)

=2 ⇔ x ,..., x1 n no están sobre la vertical.

1

i t

i i2

1 n

n

1 x . .

n x

1 . . . 1

M M . .

x x

x . . . x

. . 1 x

 

 

   

  

⋅ =  =  

 

 

 

∑ ∑ ∑

( )

( )

1 2

1 i i i

t 2 2 2

i i i i i

n x 1 x x

M M x x n x x x n

   − 

=  = − − 

∑ ∑ ∑

∑ ∑ ∑ ∑ ∑

t

1 1

t i

i i

n n

1 x y

. . .

M y . . . y . . . x y

1 x y

   

   

     

   

⋅ =  ⋅  =  

   

   

   

∑ ∑

Por último,

(29)

Variables bidimensionales: regresión y correlación

( )

( )

( )

1 2i i i

t t

2 2 i i i

i i

2i i i i i

2 2

i i i i

i i

y

x x

M M M y 1

x y

x n

n x x

x y x x y

1

x y n x y

n x x

 −   

= − −  ⋅ =

 − 

= −  − + =

∑ ∑

∑ ∑ ∑

∑ ∑ ∑ ∑

∑ ∑ ∑

∑ ∑

( )

( )

2i i i i i

2 2 2

i 2i i 2 i i i i 20 2 11

i i x

i i i i i i i i 11

2

2 2 x

i i 2 2

i i

x y x x y

n n n n

x y x x y x x m Y Xm

n x x n n

n x y x y x y x y m XY

n n n

n x x

x x

n n

 

 − 

 

 −       − 

 −   −    

       σ 

= −−    = −−     = σ− =

∑ ∑ ∑ ∑

∑ ∑ ∑ ∑ ∑ ∑

∑ ∑

∑ ∑ ∑ ∑ ∑ ∑

∑ ∑

∑ ∑

m Y YX X Y Xm Y X

a

x b

xy x

x xy

x xy

x 20

2 2

11 2

2

2 2

2

− + −









=

 −









=

 

 σσ

σ

σ σ

σσ σ

EJEMPLO 3: Obtener la recta de ajuste por mínimos cuadrados que se adapta a los puntos (0,1), (1,3), (2,4) y (3,4).

Solución:

M =









1 0 1 11 2 1 3

, Y = 1 3 4 4









, Mt.M = 4 6 6 14

 

, (Mt.M)-1 = 1 10

7 3

3 2

 

,

(

t

)

1 t

1

a M M M y 1 7 3 1 1 1 1 =3 1.5

b 10 3 2 0 1 2 3 4 1

4

  

 = =  −       

  −       

         

 

⇒ y= 1.5 + x

Referencias

Documento similar

El contar con el financiamiento institucional a través de las cátedras ha significado para los grupos de profesores, el poder centrarse en estudios sobre áreas de interés

Tras establecer un programa de trabajo (en el que se fijaban pre- visiones para las reuniones que se pretendían celebrar los posteriores 10 de julio —actual papel de los

Consecuentemente, en el siglo xviii hay un cambio en la cosmovi- sión, con un alcance o efecto reducido en los pueblos (periferia), concretados en vecinos de determinados pueblos

En cuarto lugar, se establecen unos medios para la actuación de re- fuerzo de la Cohesión (conducción y coordinación de las políticas eco- nómicas nacionales, políticas y acciones

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

95 Los derechos de la personalidad siempre han estado en la mesa de debate, por la naturaleza de éstos. A este respecto se dice que “el hecho de ser catalogados como bienes de

Luis Miguel Utrera Navarrete ha presentado la relación de Bienes y Actividades siguientes para la legislatura de 2015-2019, según constan inscritos en el

Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..