Estadística descriptiva bidimensional
Estudiamos simultáneamente dos características de los individuos.
Definición 5.
Una variable bidimensional (X, Y) es un par de símbolos que representan dos características de los individuos de una población.
Dada una variable bidimensional (X, Y), consideramos una muestra de tamaño n en la que X toma k valores distintos,
x
1, x
2, L , x
k, e Y toma l valores distintos,y
1, y
2, L , y
l.Obtenemos, por tanto, observaciones del tipo (xi,yj)
La frecuencia absoluta de un valor es el número de veces que dicho valor aparece en la muestra. Se representa por y se verifica:
) , (xi yj
nij
∑∑
= = k=
i l
j
ij
n
n
1 1
La frecuencia relativa de un valor es el cociente de la frecuencia absoluta entre el tamaño de la muestra n, se representa por
) ,
(xi yj nij
fij
n
f
ij= n
ij se cumple:∑∑
= =
k
=
i l
j
f
ij1 1
1
9.1 Tabla de doble entrada
Se trata de una tabla formada por
k ⋅ l
casillas, organizada de forma que es el número de filas y el número de columnas. La casilla con subíndices hace referencia a los elementos de la muestra que presentan simultáneamente las modalidades e .k
l ij
x
i yjY
X
y
1y
2 … yj …y
ln
⋅ix
1n
11n
12 … n1j …n
1 ln
1⋅x
2n
21n
22 … n2j …n
2 ln
2⋅… … … …
x
in
i1n
i2 … nij …n
iln
⋅i… … … …
x
kn
k1n
k2 … nkj …n
kln
k⋅ n⋅jn
⋅1n
⋅2 … n⋅j …n
⋅ ln
Dependiendo del tipo de datos, las tablas se denominan “tablas de correlación”, cuando los datos son numéricos o “tablas de contingencia” cuando los datos son cualitativos.
En todo caso, el valor representa la frecuencia absoluta o número de individuos que presentan simultáneamente las modalidades e .
nij
x
i yj9.2 Distribuciones marginales
Nos indican el comportamiento aislado de cada una de las variables X e Y que dan lugar a una variable bidimensional.
Frecuencia absoluta marginal de
x
i:∑
=
⋅
= + + + =
lj ij il
i i
i
n n n n
n
1 2
1
L
Frecuencia relativa marginal de
x
i:n f
i⋅= n
i⋅Frecuencia absoluta marginal de yj:
∑
=
⋅ = + + + = k
i ij kj
j j
j n n n n
n
1 2
1 L
Frecuencia relativa marginal de yj:
n f
⋅j= n
⋅jPodemos calcular las medidas de tendencia central o dispersión y realizar cualquier tipo de representación gráfica sobre las distribuciones marginales.
Sobre la tabla de doble entrada de una variable bidimensional las frecuencias marginales absolutas están representadas en la última fila,
n
⋅i y en última columna, n⋅j.9.3 Distribuciones condicionadas
Son las distribuciones de una variable fijada una condición sobre la otra variable.
Vamos a fijarnos en un conjunto más restringido formado por aquellos individuos que han presentado la modalidad . El número de individuos quepresentan dicha modalidad es . La variable
yj n.j
X definida sobre este conjunto restringido de individuos se denomina “variable condicionada” y se representa mediante . Las frecuencias relativas condicionadas serán
yj
X /
Y=j ij j
i n
f n
⋅
/ = para i=1,2,L,k
De la misma manera definimos la variable Y condicionada por , , cuyas frecuencias relativas condicionadas serán
x
ixi
Y/X=
⋅
=
i ij i
j
n
f
/n
para j=1,2,L,l9.4 Independencia estadística
El interés del estudio conjunto de dos variables como variable aleatoria bidimensional es sacar conclusiones sobre la posible relación de dependencia entre ellas.
Dos variables son estadísticamente independientes cuando no existe relación alguna entre ellas.
Definición 6.
Dos variables X e Y se dicen independientes si las distribuciones de X condicionadas a cualquier valor o modalidad de Y son iguales. Es decir,
l il i
i
n n n
n n n
⋅
⋅
⋅
=
=
= L
2 2 1
1 para todo i=1,2,L,k
Análogamente
⋅
⋅
⋅
=
=
=
k kj j
j
n n n
n n
n L
2 2 1
1 para todo j=1,2,L,l
Se puede demostrar que la relación anterior es equivalente a
n n n n n
n
ij i⋅ ⋅j×
=
para todoi, j
Es decir, las variables X e Y son estadísticamente independientes si la frecuencia relativa conjunta de cada par de valores es igual al producto de las frecuencias relativas marginales.
9.5 Momentos
El momento de órdenes r y s, respecto del punto
( x
0, y
0)
se define medianten
y y x x n M
k
i l
j
s j r i ij rs
∑∑
= =−
⋅
−
⋅
=
1 10
0
) ( )
(
Revisten especial importancia los momentos con respecto al origen y respecto a las medias
Respecto al origen
n y x n a
k
i l
j
s j r i ij rs
∑∑
= =⋅
⋅
=
1 1 Respecto a las medias
n
y y x x n m
k
i l
j
s j r i ij rs
∑∑
= =−
⋅
−
⋅
=
1 1) (
) (
En particular son de interés los siguientes momentos:
o Media de X :
n x n x
a
k
i
i
∑
i= ⋅
⋅
=
=
110
o Media de Y :
n y n y
a
l
j
j
∑
j= ⋅
⋅
=
=
101
o Covarianza de X ,Y :
n
y y x x n s
m
k
i l
j
j i
ij XY
∑∑
= =−
⋅
−
⋅
=
=
1 111
) (
) (
o Varianza de X :
n x x n s
m
k
i
i i x
∑
= ⋅⋅ −
=
=
12
2 20
)
(
o Varianza de Y:
n y y n s
m
l
j
j j y
∑
= ⋅⋅ −
=
=
12
2 02
) (
Se comprueba que estos momentos están relacionados de manera que
•
m
11= a
11− a
10⋅ a
01• m20 =a20−a102
• m02 =a02 −a012
Propiedades:
1. Si dos variables son estadísticamente independientes, su covarianza vale cero. El recíproco, en general, no es cierto.
s
XY2. Si
s
XY> 0
las dos variables crecen o decrecen a la vez.3. Si
s
XY< 0
el crecimiento de una variable implica el decrecimiento de la otra y viceversa.4. Si
s
XY= 0
entonces no existe relación lineal entre las variables.Regresión lineal (método de mínimos cuadrados). Correlación 10.1 Nube de puntos o diagrama de dispersión
El procedimiento gráfico habitual para representar una variable bidimensional es una nube de puntos o diagrama de dispersión en la que cada valor que aparece en la muestra se representa por un único punto de abscisa y ordenada . En dicha nube de puntos podemos apreciar la posible relación funcional entre las variables.
) , (xi yj
x
i yj10.2 Regresión lineal, mínimos cuadrados
La regresión consiste en “modelizar” la relación de dependencia entre las variables y predecir los valores de una de ellas (variable dependiente) en función de los valores de la otra (variable independiente o explicativa).
Si los valores de una de las variables, Y, vienen determinados por los valores de otra, X , mediante una función matemática se dice que existe una relación funcional exacta: . Si la relación no es exacta, sino que en ella hay una componente aleatoria, se dice que existe una dependencia estadística:
) (x f Y = error
x f Y = ( )+
La manera de conseguir este objetivo es ajustar una ecuación dada a la nube de puntos de manera que el error sea mínimo, es decir, intentando reducir la componente aleatoria. En nuestro caso como la regresión es lineal, la ecuación será la de una recta.
Sea X la variable independiente e Y la variable dependiente.
Planteamos la ecuación de una recta yˆ =a+b⋅x para estimar Ya partir de X .
Buscamos los valores de a y b para los que la suma de los errores sea cero. Para ello definimos una función, dependiente de a y b, denominada “error cuadrático”.
El método que vamos a utilizar para ajustar el modelo se denomina de los “mínimos cuadrados” y consiste en minimizar la suma de los cuadrados de los errores cometidos al estimar los valores de
mediante los valores obtenidos por la recta de regresión.
Y
2 2
2
( ˆ ) ( )
) ,
(
i ii i
i i i
i
y y y a b x
e b
a
E = ∑ = ∑ − = ∑ − − ⋅
Para minimizar esta función obtenemos las derivadas parciales respecto de a y de b, que igualamos a cero, obteniendo un sistema de dos ecuaciones con dos incógnitas:
1)
∂ ∂ = − ⋅ ∑ − − ⋅ =
i
i
i
a b x
y b
a
a E ( , ) 2 ( ) 0
2)
∂ ∂ = − ⋅ ∑ − − ⋅ ⋅ =
i
i i
i
a b x x
y b
a
b E ( , ) 2 ( ) 0
Desarrollando las expresiones y sumando se obtienen las ecuaciones equivalentes:
A.
∑ = ⋅ + ⋅ ∑
i i i
i
n a b x
y
B.
∑ ⋅ = ⋅ ∑ + ⋅ ∑
i i
i i
i i
i
y a x b x
x
2Resolviendo este sistema resultan los valores:
20 11
m
b= m y
a = a
01− b ⋅ a
10A b se le denomina “coeficiente de regresión lineal de Y sobre X ”.
Con a y b obtenemos la recta de regresión de Y sobre X, que expresada en la forma punto- pendiente resulta ser:
) ˆ Y b (X X Y− = ⋅ −
Esto quiere decir que el punto (x,y)pertenece a la recta de regresión.
Análogamente se puede construir la recta de regresión de X sobre Y :
x ˆ = a ' + b ' ⋅ y
En tal caso resultan:02
' 11
m
b= m y
a ' = a
10− b ' ⋅ a
0110.3 Correlación lineal
El coeficiente de correlación lineal de Pearson se define como
02 20
11
m m r m
= ⋅ y toma valores entre -1 y 1.
Si r=1decimos que hay correlación positiva perfecta.
Si r=−1 decimos que hay correlación negativa perfecta.
Si
r < 0
hay correlación lineal negativa y las rectas de regresión son decrecientes. Si
r > 0
hay correlación lineal positiva y las rectas de regresión son crecientes. Si
r = 0
las variables son incorreladas o linealmente independientes.10.4 Coeficiente de determinación
Se demuestra que la varianza residual, , es la diferencia de la varianza de la variable , , y de la varianza de la variable explicada por
2
se
Y
s
2y= m
02 X ,s
2ˆy. Dicho de otra manera:
S
y2= S
y2ˆ+ S
e2El
coeficiente de determinaciónR
2 es el cociente 22 ˆ y y
s s
y representa el porcentaje de la varianza de Y explicada por X. El valor de este coeficiente está comprendido entre 0 y 1.
Cuanto menor sea la
varianza residual
Se2 mayor será el valor del coeficiente R2 y mejor el ajuste por la curva de regresión. Se dice queR
2 mide la bondad del ajuste.En el caso particular de la regresión lineal se verifica que el
coeficiente de determinación es el cuadrado del coeficiente de correlación:R
2= r
2Se considera que el ajuste es bueno cuando y los pronósticos que se hagan de Y a partir de los valores de X se consideran aceptables o altamente fiables.
8 .
2 >0 R
En general, se verifica
2 2
1 2
y e
s R +s
=
10.5 Otros modelos de regresión
En la práctica se suelen emplear otros modelos dependiendo de la nube de puntos y la posible relación funcional que se pueda presuponer. A continuación se exponen algunos de ellos con su expresión funcional
o Cuadrático:
y ˆ = a + b ⋅ x + c ⋅ x
2El problema se resuelve como en la regresión lineal por el método de mínimos cuadrados.
La función a minimizar en este caso será:
∑ = ∑ − − −
=
i i
i i i
i
y a bx cx
e c
b a
E ( , , )
2(
2)
2Derivando respecto de a, b y c e igualando a cero se obtendrá un sistema de tres ecuaciones con tres incógnitas, que deberemos resolver:
1.
∂ ∂ = − ⋅ ∑ − − − =
i
i i
i
a bx cx
y c
b a
a E ( , , ) 2 (
2) 0
2.
∂ ∂ = − ⋅ ∑ − − − ⋅ =
i
i i i
i
a bx cx x
y c
b a
b E ( , , ) 2 (
2) 0
3.
∂ ∂ = − ⋅ ∑ − − − ⋅ =
i
i i i
i
a bx cx x
y c
b a
c E ( , , ) 2 (
2)
20
Este sistema se convierte en el equivalente:
A.
∑ = ⋅ + ⋅ ∑ + ⋅ ∑
i i
i i
i
i
a n b x c x
y
2B.
∑ = ⋅ ∑ + ⋅ ∑ + ⋅ ∑
i i
i i
i i
i i
i
y a x b x c x
x
2 3C.
∑ = ⋅ ∑ + ⋅ ∑ + ⋅ ∑
i i
i i
i i
i i
i
y a x b x c x
x
2 2 3 4o Potencia:
y ˆ = A ⋅ x
BEl problema se resuelve sacando logaritmos y haciendo el cambio de variable adecuado para convertirlo en un sistema lineal. Resuelto este, se deshace el cambio para obtener los resultados apetecidos. Es decir
x B A
yˆ log log
log = + ⋅
Ahora hacemos los cambios: v=logyˆ A a=log
x w=log Para obtener el modelo lineal
v = a + B ⋅ w
Resolviendo éste, obtendremos los valores de
a
y de B.Para obtener el valor de A hallamos el antilogaritmo de
a
: A=antiloga o Exponencial:y ˆ = A ⋅ e
B⋅xLa resolución es similar al caso anterior:
x B A yˆ= log + ⋅ log
Cambios: v=logyˆ A a=log Modelo lineal:
v = a + B ⋅ w
EjemplosA modo de resumen se exponen los siguientes ejemplos:
Ejemplo 1
En cierto hospital se consideró el número de consultas previas a la hospitalización de 15 pacientes con enfermedades crónicas y el número de días que permanecieron ingresados. Los resultados se muestran en la siguiente tabla:
Nº de consultas 0 0 0 1 1 1 1 2 2 2 3 3 4 4 4
Nº de días 15 15 21 25 31 35 42 35 28 45 52 60 45 65 53
En primer lugar vamos a construir una tabla de doble entrada, siendo X el número de consultas previas a la hospitalización e Y el número de días ingresado. Esta última variable la agruparemos en tres intervalos.
Y
X [10, 30) [30, 50) [50, 70)
n
⋅i0 3 3
1 1 3 4
2 1 2 3
3 2 2
4 1 2 3
n⋅j 5 6 4 15
Media de X: 1.87
15
4 3 3 2 2 3 1 4 0 3
10 = x = ⋅ + ⋅ + ⋅ + ⋅ + ⋅ =
a
Media de Y: 38 67
15
60 4 40 6 20 5
01= y= ⋅ + ⋅ + ⋅ = ⋅
a
Varianza de X:
1 . 87 1 . 98
15
4 3 3 2 2 3 1 4 0
3
22 2 2 2 2
20
= ⋅ + ⋅ + ⋅ + ⋅ + ⋅ − =
m
Varianza de Y:
38 . 67 238 . 22
15
60 4 40 6 20
5
22 2
2
02
⋅ + ⋅ + ⋅ − =
= m
Covarianza: 1.87 38.67 17.16
15
60 4 2 20
2 1 20 1 1 20 0 3
11 = ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ +L+ ⋅ ⋅ − ⋅ =
m
Recta de regresión de Ysobre X : 8.67 98
. 1
16 . 17 =
=
b ,
a = 38 . 67 − 8 . 67 ⋅ 1 . 87 = 22 . 64
xyˆ=22.64+8.67⋅
Recta de regresión de X sobre Y: 0.072 22
. 238
16 . '= 17 =
b
805 . 0 67 . 38 072 . 0 98 . 1
' = − ⋅ = −
a
805 . 0 072 .ˆ=0 ⋅y− x
Coeficiente de correlación lineal:
0 . 79 22
. 238 98 . 1
16 .
17 =
= ⋅ r
Ejemplo 2
Se ha medido el contenido de oxígeno, , en mg/l, del lago Worther, en Austria, a una profundidad de
Y
X metros, obteniéndose los siguientes datos:
Profundidad 15 20 30 40 50 60 70
Contenido de oxígeno 6.5 5.6 5.4 6.0 4.6 1.4 0.1
Media de X: 40.71
7
70 20
15
10 + + + =
= L
a
Media de Y: 4.23
7
1 . 0 6
. 5 5 . 6
01= + +L+ =
a
Varianza de X:
40 . 71 360 . 23 7
70 20
15
2 2 2 220
+ + + − =
= L
m
Varianza de Y:
4 . 23 5 . 24
7
1 . 0 6
. 5 5 .
6
22 2
2
02
= + + L + − =
m
Covarianza: 40.71 4.23 39
7
1 . 0 70 6
. 5 20 5 . 6 15
11 ⋅ + ⋅ + + ⋅ − ⋅ =−
= L
m
Recta de regresión de Ysobre X : 0.108 23
. 360
39 =−
= −
b ,
a = 4 . 23 + 0 . 108 ⋅ 40 . 71 = 8 . 63
x yˆ=8.63−0.108⋅
7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0
70 60
50 40
30 20
10
profundidad en metros
Lineal Observada
cantidad de oxígeno en mg/l
Coeficiente de correlación lineal:
0 . 898 24
. 5 23 . 360
39 = −
⋅
= − r
Tabla de valores pronosticados y errores:
x
y yˆ e= y−yˆ15 6.5 7.01 -0.51
20 5.6 6.47 -0.87
30 5.4 5.39 0.01
40 6.0 4.31 1.69
50 4.6 3.22 1.38
60 1.4 2.14 -0.74
70 0.1 1.06 -0.96
∑ x = 285 ∑ y = 29 . 6 ∑ ˆy = 29 . 6 ∑ e = 0
Varianza de yˆ:
4 . 23 4 . 21 7
06 . 1 47
. 6 01 .
7
2 2 2 22
ˆ
+ + + − =
= L
s
y Varianza residual:
1 . 04
7
) 96 . 0 ( )
87 . 0 ( ) 51 . 0
(
2 2 22
− + − + + − =
= L
s
e Coeficiente de determinación: 0.803 24
. 5
21 .
2 = 4 =
R ,
r
2= ( − 0 . 898 )
2= 0 . 806
Ejemplo 3
La siguiente tabla muestra la longitud de cierta planta, expresada en cm, en función del tiempo, expresado en meses,
Tiempo (meses) 0 1 2 3 4 5 6
Longitud (cm) 13 14 15 25 32 38 47
Modelo exponencial:
y ˆ = A ⋅ e
B⋅xx
y v=lny0 13 2.565 1 14 2.639 2 15 2.708 3 25 3.219 4 32 3.466 5 38 3.638 6 47 3.850
Media de X: 3
7 6 1
0+ + + =
= L
x
Media de V: 3.155
7
850 . 3 639
. 2 565 .
2 + + + =
= L
v
Varianza de X:
3 4
7 6 1
0
22 2
2
2
+ + + − =
= L
s
xCovarianza: 3 3.155 0.944
7
850 . 3 6 639
. 2 1 565 . 2
0⋅ + ⋅ + + ⋅ − ⋅ =
= L
sXV
Coeficientes: 0.236
4 944 .
0 =
=
B ,
a = v − B ⋅ x = 3 . 155 − 0 . 236 ⋅ 3 = 2 . 447
554.
447 11
.
2 =
= e A Ecuación:
y ˆ = 11 . 554 ⋅ e
0.236⋅x50
40
30
20
10
6 5 4 3 2 1 0
x
Exponencial Observada
y
Tabla de valores pronosticados y errores:
x
y yˆ e= y−yˆ0 13 11.550 1.450
1 14 14.625 -0.625
2 15 18.520 -3.520
3 25 23.451 1.549
4 32 29.696 2.304
5 38 37.603 0.397
6 47 47.616 -0.616
∑ x = 21 ∑
y=184∑
y=183.06∑ e = 94 0 .
Media de y: 26.286
7
47 14
13+ + + =
= L
y
Varianza de y:
26 . 286 150 . 76
7
47 14
13
2 2 2 22
= + + L + − =
s
y Varianza de yˆ:
26 . 151 145 . 153
7
616 . 47 625
. 14 55 .
11
22 2
2 2
ˆ
= + + L + − =
s
y Varianza residual:
0 . 134 3 . 286
7
) 616 . 0 ( )
625 . 0 ( ) 45 . 1
(
2 2 2 22
= + − + L + − − =
s
e Coeficiente de determinación: 0.963 76
. 150
153 .
2 =145 =
R
Covarianza de x,y: 3 26.286 23.856
7
47 6 14
1 13
0⋅ + ⋅ + + ⋅ − ⋅ =
= L
sXY
Coeficiente de correlación lineal:
0 . 9715 76
. 150 4
856 .
23 =
= ⋅
r
Ejemplo 4
El número de bacterias por unidad de volumen en un cultivo tras X horas viene dado por:
Nº de horas (X) 0 1 2 3 4 5 6
Nº de bacterias (Y) 3 5 7 9 13 20 27
Modelo cuadrático:
y ˆ = a + b ⋅ x + c ⋅ x
2x
y x2 x3 x4 x⋅yx
2⋅ y
0 3 0 0 0 0 0 1 5 1 1 1 5 5
2 7 4 8 16 14 28
3 9 9 27 81 27 81
4 13 16 64 256 52 208 5 20 25 125 625 100 500
6 27 36 216 1296 162 972
21 84 91 441 2275 360 1794
1)
84 = 7 a + 21 b + 91 c
2)360 = 21 a + 91 b + 441 c
3)1794 = 91 a + 441 b + 2275 c
Resolviendo el sistema se obtienen:
a = 3 . 643
,b ≅ 0
,c = 0 . 643
Ecuación de la parábola:y ˆ = 3 . 643 + 0 . 643 ⋅ x
230 25 20 15 10 5 0
6 5 4 3 2 1 0
tiempo en horas
Cuadrático Observada
número de bacterias
Como en el ejemplo anterior, podríamos calcular los valores pronosticados o “explicados” por la curva de regresión así como los valores residuales. A partir de ahí se obtiene el coeficiente de determinación, comprobándose que es prácticamente 1.