Estadística descriptiva bidimensional

(1)

Estadística descriptiva bidimensional

Estudiamos simultáneamente dos características de los individuos.

Definición 5.

Una variable bidimensional (X, Y) es un par de símbolos que representan dos características de los individuos de una población.

Dada una variable bidimensional (X, Y), consideramos una muestra de tamaño n en la que X toma k valores distintos,

x

₁

, x

₂

, L , x

_k, e Y toma l valores distintos,

y

₁

, y

₂

, L , y

^l.

Obtenemos, por tanto, observaciones del tipo (x_i,y_j)

La frecuencia absoluta de un valor es el número de veces que dicho valor aparece en la muestra. Se representa por y se verifica:

) , (x_i y_j

nij

∑∑

= = k

=

i l

j

ij

n

1 1

La frecuencia relativa de un valor es el cociente de la frecuencia absoluta entre el tamaño de la muestra n, se representa por

) ,

(x_i y_j n_ij

fij

n

f

_ij

= n

^ij se cumple:

∑∑

= =

k

=

i l

j

f

ij

1 1

1 9.1 Tabla de doble entrada

Se trata de una tabla formada por

k ⋅ l

casillas, organizada de forma que es el número de filas y el número de columnas. La casilla con subíndices hace referencia a los elementos de la muestra que presentan simultáneamente las modalidades e .

k

l ij

x

i y_j

Y

X

y

¹

y

₂ … yj _…

y

_l

n

_⋅i

x

1

n

₁₁

n

₁₂ … n₁j _…

n

₁_l

n

₁_⋅

x

2

n

₂₁

n

₂₂ … n₂j _…

n

₂_l

n

₂_⋅

… … … …

x

i

n

_i₁

n

_i₂ … nij _…

n

_il

n

_⋅i

… … … …

x

k

n

_k₁

n

_k₂ … nkj _…

n

_kl

n

_k_⋅ n_⋅j

n

_⋅₁

n

_⋅₂ … n_⋅j _…

n

_⋅_l

n

Dependiendo del tipo de datos, las tablas se denominan “tablas de correlación”, cuando los datos son numéricos o “tablas de contingencia” cuando los datos son cualitativos.

En todo caso, el valor representa la frecuencia absoluta o número de individuos que presentan simultáneamente las modalidades e .

nij

x

i y_j

(2)

9.2 Distribuciones marginales

Nos indican el comportamiento aislado de cada una de las variables X e Y que dan lugar a una variable bidimensional.

Frecuencia absoluta marginal de

x

_i:

∑

=

⋅

= + + + =

^l

j ij il

i i

i

n n n n

n

1 2

1

L

Frecuencia relativa marginal de

x

_i:

n f

_i_⋅

= n

ⁱ^⋅

Frecuencia absoluta marginal de y_j:

∑

=

⋅ = + + + = ^k

i ij kj

j j

j n n n n

n

1 2

1 L

Frecuencia relativa marginal de y_j:

n f

_⋅_j

= n

^⋅^j

Podemos calcular las medidas de tendencia central o dispersión y realizar cualquier tipo de representación gráfica sobre las distribuciones marginales.

Sobre la tabla de doble entrada de una variable bidimensional las frecuencias marginales absolutas están representadas en la última fila,

n

_⋅i y en última columna, n_⋅_j.

9.3 Distribuciones condicionadas

Son las distribuciones de una variable fijada una condición sobre la otra variable.

Vamos a fijarnos en un conjunto más restringido formado por aquellos individuos que han presentado la modalidad . El número de individuos quepresentan dicha modalidad es . La variable

yj n_._j

X definida sobre este conjunto restringido de individuos se denomina “variable condicionada” y se representa mediante . Las frecuencias relativas condicionadas serán

yj

X /

Y₌

j ij j

i n

f n

⋅

/ = para i=1,2,L,k

De la misma manera definimos la variable Y condicionada por , , cuyas frecuencias relativas condicionadas serán

x

i

xi

Y/X₌

⋅

=

i ij i

j

n

f

_/

n

para j=1,2,L,l

9.4 Independencia estadística

El interés del estudio conjunto de dos variables como variable aleatoria bidimensional es sacar conclusiones sobre la posible relación de dependencia entre ellas.

Dos variables son estadísticamente independientes cuando no existe relación alguna entre ellas.

Definición 6.

Dos variables X e Y se dicen independientes si las distribuciones de X condicionadas a cualquier valor o modalidad de Y son iguales. Es decir,

(3)

l il i

i

n n n

⋅

=

= L

2 2 1

1 para todo i=1,2,L,k

Análogamente

⋅

=

k kj j

j

n n n

n n

n L

2 2 1

1 para todo j=1,2,L,l

Se puede demostrar que la relación anterior es equivalente a

n n n n n

n

_ij _i_⋅ _⋅_j

×

=

para todo

i, j

Es decir, las variables X e Y son estadísticamente independientes si la frecuencia relativa conjunta de cada par de valores es igual al producto de las frecuencias relativas marginales.

9.5 Momentos

El momento de órdenes r y s, respecto del punto

( x

₀

, y

₀

)

se define mediante

n

y y x x n M

k

i l

j

s j r i ij rs

∑∑

= =

−

⋅

−

⋅

=

¹ ¹

0

) ( )

(

Revisten especial importancia los momentos con respecto al origen y respecto a las medias

Respecto al origen

n y x n a

k

i l

j

s j r i ij rs

∑∑

= =

⋅

=

¹ ¹

Respecto a las medias

n

y y x x n m

k

i l

j

s j r i ij rs

∑∑

= =

−

⋅

−

⋅

=

¹ ¹

) (

En particular son de interés los siguientes momentos:

o Media de X :

n x n x

a

k

i

∑

i

= ⋅

⋅

=

¹

10

o Media de Y :

n y n y

a

l

j

∑

j

= ⋅

⋅

=

¹

01

o Covarianza de X ,Y :

n

y y x x n s

m

k

i l

j

j i

ij XY

∑∑

= =

−

⋅

−

⋅

=

¹ ¹

11

) (

o Varianza de X :

n x x n s

m

k

i

i i x

∑

= ⋅

⋅ −

=

¹

2

2 20

)

(

(4)

o Varianza de Y:

n y y n s

m

l

j

j j y

∑

= ⋅

⋅ −

=

¹

2

2 02

) (

Se comprueba que estos momentos están relacionados de manera que

•

m

₁₁

= a

₁₁

− a

₁₀

⋅ a

₀₁

• m₂₀ =a₂₀−a₁₀²

• m₀₂ =a₀₂ −a₀₁²

Propiedades:

1. Si dos variables son estadísticamente independientes, su covarianza vale cero. El recíproco, en general, no es cierto.

s

XY

2. Si

s

_XY

> 0

las dos variables crecen o decrecen a la vez.

3. Si

s

_XY

< 0

el crecimiento de una variable implica el decrecimiento de la otra y viceversa.

4. Si

s

_XY

= 0

entonces no existe relación lineal entre las variables.

Regresión lineal (método de mínimos cuadrados). Correlación 10.1 Nube de puntos o diagrama de dispersión

El procedimiento gráfico habitual para representar una variable bidimensional es una nube de puntos o diagrama de dispersión en la que cada valor que aparece en la muestra se representa por un único punto de abscisa y ordenada . En dicha nube de puntos podemos apreciar la posible relación funcional entre las variables.

) , (x_i y_j

x

i y_j

10.2 Regresión lineal, mínimos cuadrados

La regresión consiste en “modelizar” la relación de dependencia entre las variables y predecir los valores de una de ellas (variable dependiente) en función de los valores de la otra (variable independiente o explicativa).

Si los valores de una de las variables, Y, vienen determinados por los valores de otra, X , mediante una función matemática se dice que existe una relación funcional exacta: . Si la relación no es exacta, sino que en ella hay una componente aleatoria, se dice que existe una dependencia estadística:

) (x f Y = error

x f Y = ( )+

La manera de conseguir este objetivo es ajustar una ecuación dada a la nube de puntos de manera que el error sea mínimo, es decir, intentando reducir la componente aleatoria. En nuestro caso como la regresión es lineal, la ecuación será la de una recta.

Sea X la variable independiente e Y la variable dependiente.

Planteamos la ecuación de una recta yˆ =a+b⋅x para estimar Ya partir de X .

Buscamos los valores de a y b para los que la suma de los errores sea cero. Para ello definimos una función, dependiente de a y b, denominada “error cuadrático”.

(5)

El método que vamos a utilizar para ajustar el modelo se denomina de los “mínimos cuadrados” y consiste en minimizar la suma de los cuadrados de los errores cometidos al estimar los valores de

mediante los valores obtenidos por la recta de regresión.

Y

2 2

2

( ˆ ) ( )

) ,

(

_i _i

i i

i i i

i

y y y a b x

e b

a

E = ∑ = ∑ − = ∑ − − ⋅

Para minimizar esta función obtenemos las derivadas parciales respecto de a y de b, que igualamos a cero, obteniendo un sistema de dos ecuaciones con dos incógnitas:

1)

_∂ ^∂ ⁼ ⁻ ^⋅ ∑ ⁻ ⁻ ^⋅ ⁼

i

a b x

y b

a

a E ( , ) 2 ( ) 0

2)

_∂ ^∂ ⁼ ⁻ ^⋅ ∑ ⁻ ⁻ ^⋅ ^⋅ ⁼

i

i i

i

a b x x

y b

a

b E ( , ) 2 ( ) 0

Desarrollando las expresiones y sumando se obtienen las ecuaciones equivalentes:

A.

∑ ⁼ ^⋅ ⁺ ^⋅ ∑

i i i

i

n a b x

y

B.

∑ ^⋅ ⁼ ^⋅ ∑ ⁺ ^⋅ ∑

i i

i

y a x b x

x

²

Resolviendo este sistema resultan los valores:

20 11

m

b= m y

a = a

₀₁

− b ⋅ a

₁₀

A b se le denomina “coeficiente de regresión lineal de Y sobre X ”.

Con a y b obtenemos la recta de regresión de Y sobre X, que expresada en la forma punto- pendiente resulta ser:

) ˆ Y b (X X Y− = ⋅ −

Esto quiere decir que el punto (x,y)pertenece a la recta de regresión.

Análogamente se puede construir la recta de regresión de X sobre Y :

x ˆ = a ' + b ' ⋅ y

En tal caso resultan:

02

' 11

m

b= m y

a ' = a

₁₀

− b ' ⋅ a

₀₁

10.3 Correlación lineal

El coeficiente de correlación lineal de Pearson se define como

02 20

11

m m r m

= ⋅ y toma valores entre -1 y 1.

Si r=1decimos que hay correlación positiva perfecta.

Si r=−1 decimos que hay correlación negativa perfecta.

Si

r < 0

hay correlación lineal negativa y las rectas de regresión son decrecientes.

Si

r > 0

hay correlación lineal positiva y las rectas de regresión son crecientes.

Si

r = 0

las variables son incorreladas o linealmente independientes.

(6)

10.4 Coeficiente de determinación

Se demuestra que la varianza residual, , es la diferencia de la varianza de la variable , , y de la varianza de la variable explicada por

2

se

Y

s

²_y

= m

₀₂ X ,

s

²_ˆy. Dicho de otra manera:

S

_y²

= S

_y²_ˆ

+ S

_e²

El

coeficiente de determinación

R

² es el cociente ₂

2 ˆ y y

s s

y representa el porcentaje de la varianza de Y explicada por X. El valor de este coeficiente está comprendido entre 0 y 1.

Cuanto menor sea la

varianza residual

S_e² mayor será el valor del coeficiente R² y mejor el ajuste por la curva de regresión. Se dice que

R

² mide la bondad del ajuste.

En el caso particular de la regresión lineal se verifica que el

coeficiente de determinación es el cuadrado del coeficiente de correlación:

R

²

= r

²

Se considera que el ajuste es bueno cuando y los pronósticos que se hagan de Y a partir de los valores de X se consideran aceptables o altamente fiables.

8 .

2 >0 R

En general, se verifica

2 2

1 2

y e

s R +s

=

10.5 Otros modelos de regresión

En la práctica se suelen emplear otros modelos dependiendo de la nube de puntos y la posible relación funcional que se pueda presuponer. A continuación se exponen algunos de ellos con su expresión funcional

o Cuadrático:

y ˆ = a + b ⋅ x + c ⋅ x

²

El problema se resuelve como en la regresión lineal por el método de mínimos cuadrados.

La función a minimizar en este caso será:

∑ ⁼ ∑ ⁻ ⁻ ⁻

=

i i

i i i

i

y a bx cx

e c

b a

E ( , , )

²

(

²

)

²

Derivando respecto de a, b y c e igualando a cero se obtendrá un sistema de tres ecuaciones con tres incógnitas, que deberemos resolver:

1.

_∂ ^∂ ⁼ ⁻ ^⋅ ∑ ⁻ ⁻ ⁻ ⁼

i

i i

i

a bx cx

y c

b a

a E ( , , ) 2 (

²

) 0

2.

_∂ ^∂ ⁼ ⁻ ^⋅ ∑ ⁻ ⁻ ⁻ ^⋅ ⁼

i

i i i

i

a bx cx x

y c

b a

b E ( , , ) 2 (

²

) 0

3.

_∂ ^∂ ⁼ ⁻ ^⋅ ∑ ⁻ ⁻ ⁻ ^⋅ ⁼

i

i i i

i

a bx cx x

y c

b a

c E ( , , ) 2 (

²

)

²

0

Este sistema se convierte en el equivalente:

(7)

A.

∑ ⁼ ^⋅ ⁺ ^⋅ ∑ ⁺ ^⋅ ∑

i i

i

a n b x c x

y

²

B.

∑ ⁼ ^⋅ ∑ ⁺ ^⋅ ∑ ⁺ ^⋅ ∑

i i

i

y a x b x c x

x

² ³

C.

∑ ⁼ ^⋅ ∑ ⁺ ^⋅ ∑ ⁺ ^⋅ ∑

i i

i

y a x b x c x

x

² ² ³ ⁴

o Potencia:

y ˆ = A ⋅ x

^B

El problema se resuelve sacando logaritmos y haciendo el cambio de variable adecuado para convertirlo en un sistema lineal. Resuelto este, se deshace el cambio para obtener los resultados apetecidos. Es decir

x B A

yˆ log log

log = + ⋅

Ahora hacemos los cambios: v=logyˆ A a=log

x w=log Para obtener el modelo lineal

v = a + B ⋅ w

Resolviendo éste, obtendremos los valores de

a

y de B.

Para obtener el valor de A hallamos el antilogaritmo de

a

: A=antiloga o Exponencial:

y ˆ = A ⋅ e

^B^⋅^x

La resolución es similar al caso anterior:

x B A yˆ= log + ⋅ log

Cambios: v=logyˆ A a=log Modelo lineal:

v = a + B ⋅ w

Ejemplos

A modo de resumen se exponen los siguientes ejemplos:

Ejemplo 1

En cierto hospital se consideró el número de consultas previas a la hospitalización de 15 pacientes con enfermedades crónicas y el número de días que permanecieron ingresados. Los resultados se muestran en la siguiente tabla:

Nº de consultas 0 0 0 1 1 1 1 2 2 2 3 3 4 4 4

Nº de días 15 15 21 25 31 35 42 35 28 45 52 60 45 65 53

En primer lugar vamos a construir una tabla de doble entrada, siendo X el número de consultas previas a la hospitalización e Y el número de días ingresado. Esta última variable la agruparemos en tres intervalos.

(8)

Y

X ^{[10, 30)} ^{[30, 50)} ^{[50, 70)}

n

^⋅i

0 3 3

1 1 3 4

2 1 2 3

3 2 2

4 1 2 3

n_⋅j _{5 6 4}₁₅

 Media de X: 1.87

15

4 3 3 2 2 3 1 4 0 3

10 = x = ⋅ + ⋅ + ⋅ + ⋅ + ⋅ =

a

 Media de Y: 38 67

15

60 4 40 6 20 5

01= y= ⋅ + ⋅ + ⋅ = ⋅

a

 Varianza de X:

1 . 87 1 . 98

15 4 3 3 2 2 3 1 4 0

3

2

2 2 2 2 2

20

= ⋅ + ⋅ + ⋅ + ⋅ + ⋅ − =

m

 Varianza de Y:

38 . 67 238 . 22

15 60 4 40 6 20

5

2

2 2

2

02

⋅ + ⋅ + ⋅ − =

= m

Covarianza: 1.87 38.67 17.16

15

60 4 2 20

2 1 20 1 1 20 0 3

11 = ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ +L+ ⋅ ⋅ − ⋅ =

m

 Recta de regresión de Ysobre X : 8.67 98

. 1

16 . 17 =

=

b ,

a = 38 . 67 − 8 . 67 ⋅ 1 . 87 = 22 . 64

x

yˆ=22.64+8.67⋅

 Recta de regresión de X sobre Y: 0.072 22

. 238

16 . '= 17 =

b

805 . 0 67 . 38 072 . 0 98 . 1

' = − ⋅ = −

a

805 . 0 072 .

ˆ=0 ⋅y− x

Coeficiente de correlación lineal:

0 . 79 22

. 238 98 . 1

16 .

17 =

= ⋅ r

Ejemplo 2

Se ha medido el contenido de oxígeno, , en mg/l, del lago Worther, en Austria, a una profundidad de

Y

X metros, obteniéndose los siguientes datos:

Profundidad 15 20 30 40 50 60 70

Contenido de oxígeno 6.5 5.6 5.4 6.0 4.6 1.4 0.1

 Media de X: 40.71

7

70 20

15

10 + + + =

= L

a

 Media de Y: 4.23

7

1 . 0 6

. 5 5 . 6

01= + +L+ =

a

(9)

 Varianza de X:

40 . 71 360 . 23 7

70 20

15

² ² ² ₂

20

+ + + − =

= L

m

 Varianza de Y:

4 . 23 5 . 24

7 1 . 0 6

. 5 5 .

6

2

2 2

2

02

= + + L + − =

m

Covarianza: 40.71 4.23 39

7

1 . 0 70 6

. 5 20 5 . 6 15

11 ⋅ + ⋅ + + ⋅ − ⋅ =−

= L

m

 Recta de regresión de Ysobre X : 0.108 23

. 360

39 =−

= −

b ,

a = 4 . 23 + 0 . 108 ⋅ 40 . 71 = 8 . 63

x yˆ=8.63−0.108⋅

7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0

70 60

50 40

30 20

10

profundidad en metros

Lineal Observada

cantidad de oxígeno en mg/l

0 . 898 24

. 5 23 . 360

39 = −

⋅

= − r

Tabla de valores pronosticados y errores:

x

^y yˆ e= y−yˆ

15 6.5 7.01 -0.51

20 5.6 6.47 -0.87

30 5.4 5.39 0.01

40 6.0 4.31 1.69

50 4.6 3.22 1.38

60 1.4 2.14 -0.74

70 0.1 1.06 -0.96

∑ ^x ^{= 285} ∑ ^y ⁼ ²⁹ ^. ⁶ ∑ ^ˆy ⁼ ²⁹ ^. ⁶ ∑ ^e ^{= 0}

(10)

Varianza de yˆ:

4 . 23 4 . 21 7

06 . 1 47

. 6 01 .

7

² ² ² ₂

2

ˆ

+ + + − =

= L

s

y

Varianza residual:

1 . 04

7 ) 96 . 0 ( )

87 . 0 ( ) 51 . 0

(

² ² ²

2

− + − + + − =

= L

s

e

Coeficiente de determinación: 0.803 24

. 5

21 .

2 = 4 =

R ,

r

²

= ( − 0 . 898 )

²

= 0 . 806

Ejemplo 3

La siguiente tabla muestra la longitud de cierta planta, expresada en cm, en función del tiempo, expresado en meses,

Tiempo (meses) 0 1 2 3 4 5 6

Longitud (cm) 13 14 15 25 32 38 47

Modelo exponencial:

y ˆ = A ⋅ e

^B^⋅^x

x

^y v=lny

0 13 2.565 1 14 2.639 2 15 2.708 3 25 3.219 4 32 3.466 5 38 3.638 6 47 3.850

Media de X: 3

7 6 1

0+ + + =

= L

x

Media de V: 3.155

7

850 . 3 639

. 2 565 .

2 + + + =

= L

v

Varianza de X:

3 4

7 6 1

0

2

2 2

2

+ + + − =

= L

s

x

Covarianza: 3 3.155 0.944

7

850 . 3 6 639

. 2 1 565 . 2

0⋅ + ⋅ + + ⋅ − ⋅ =

= L

sXV

Coeficientes: 0.236

4 944 .

0 =

=

B ,

a = v − B ⋅ x = 3 . 155 − 0 . 236 ⋅ 3 = 2 . 447

554

.

447 11

.

2 =

= e A Ecuación:

y ˆ = 11 . 554 ⋅ e

⁰^.²³⁶^⋅^x

(11)

50

40

30

20

10

6 5 4 3 2 1 0

x

Exponencial Observada

y

Tabla de valores pronosticados y errores:

x

^y _yˆ _e= _y−_yˆ

0 13 11.550 1.450

1 14 14.625 -0.625

2 15 18.520 -3.520

3 25 23.451 1.549

4 32 29.696 2.304

5 38 37.603 0.397

6 47 47.616 -0.616

∑ ^x ^{= 21} ^∑

^y⁼¹⁸⁴

^∑

^y⁼¹⁸³^.⁰⁶

∑ ^e ^{= 94} ⁰ ^.

Media de y: 26.286

7

47 14

13+ + + =

= L

y

Varianza de y:

26 . 286 150 . 76

7 47 14

13

² ² ² ₂

2

= + + L + − =

s

y

Varianza de yˆ:

26 . 151 145 . 153

7 616 . 47 625

. 14 55 .

11

2

2 2

ˆ

= + + L + − =

s

y

Varianza residual:

0 . 134 3 . 286

7 ) 616 . 0 ( )

625 . 0 ( ) 45 . 1

(

² ² ² ₂

2

= + − + L + − − =

s

e

Coeficiente de determinación: 0.963 76

. 150

153 .

2 =145 =

R

Covarianza de x,y: 3 26.286 23.856

7

47 6 14

1 13

0⋅ + ⋅ + + ⋅ − ⋅ =

= L

sXY

0 . 9715 76

. 150 4

856 .

23 =

= ⋅

r

(12)

Ejemplo 4

El número de bacterias por unidad de volumen en un cultivo tras X horas viene dado por:

Nº de horas (X) 0 1 2 3 4 5 6

Nº de bacterias (Y) 3 5 7 9 13 20 27

Modelo cuadrático:

y ˆ = a + b ⋅ x + c ⋅ x

²

x

^y _x² _x³ _x⁴ ^x^⋅^y

x

²

⋅ y

0 3 0 0 0 0 0 1 5 1 1 1 5 5

2 7 4 8 16 14 28

3 9 9 27 81 27 81

4 13 16 64 256 52 208 5 20 25 125 625 100 500

6 27 36 216 1296 162 972

21 84 91 441 2275 360 1794

1)

84 = 7 a + 21 b + 91 c

2)

360 = 21 a + 91 b + 441 c

3)

1794 = 91 a + 441 b + 2275 c

Resolviendo el sistema se obtienen:

a = 3 . 643

,

b ≅ 0

,

c = 0 . 643

Ecuación de la parábola:

y ˆ = 3 . 643 + 0 . 643 ⋅ x

²

30 25 20 15 10 5 0

6 5 4 3 2 1 0

tiempo en horas

Cuadrático Observada

número de bacterias

Como en el ejemplo anterior, podríamos calcular los valores pronosticados o “explicados” por la curva de regresión así como los valores residuales. A partir de ahí se obtiene el coeficiente de determinación, comprobándose que es prácticamente 1.