1. Tabulación de variables estadísticas bidimensionales: distribuciones
bidimensionales de frecuencias.
1.2 Tablas de correlación.
Frecuencias marginales (suma de filas)
Frecuencias marginales (suma de columnas) Ejemplo:
Frecuencias marginales (suma de filas)
Frecuencias marginales (suma de columnas)
Dividiendo todas las frecuencias por el total de observaciones, se obtiene la tabla de correlación de frecuencias relativas
Cuando la frecuencia con la que se presentan los pares (xi , yj) no es mayor de uno, o el número de pares de valores
(xi , yj) es reducido....
Ejemplos:
Frecuencia con la que se presenta el par (xi , yj) 1 [1] Número de pares de valores reducido:[2]
Los pares (xi , yj), son las veces que se repite el hecho de que una Los pares (xi , yj) , representan la cantidad de empresas que con y trabaj
empresa produzca x , con y trabajadores. En este caso a veces hacen una producción x. En este caso hay un número reducido de pares es cero y a veces es uno (xi;yj), es decir, tan sólo 5 pares
... , la tabla se puede representar de otras formas más simplificadas:
[1] [2]
x \ y y1 y2 ... yj ... ys ni
x1 n11 n12 ... n1j ... n1s n1
x2 n21 n22 ... n2j ... n2s n2
... ... ... ... ... ... ... ...
xi ni1 ni2 ... nij ... nis ni
... ... ... ... ... ... ... ...
xr nr1 nr2 ... nrj ... nrs nr
n.j n.1 n.2 ... n.j1 ... n.s N
Nº miembros que aportan
ingresos ni. Li-1 - Li x
100 - 150 125 15 2 1 18
150 - 200 175 10 20 2 32
200 – 300 250 12 30 4 46
300 – 500 400 1 2 1 4
n.j 38 54 8 100
Nº de trabajadores (yj)
350 500 800 1500 1700
Pr od uc ci ón (xi )
1500 1 0 0 0 0
2500 0 1 0 0 0
5000 0 0 1 0 0
10000 0 0 0 1 0
15000 0 0 0 0 1
Nº de trabajadores (yj)
10-15 16-25 26-50 51-100 101-500
Pr od uc ci ón (xi )
100-200 300 0 0 0 0
201-500 0 54 0 0 0
501-1000 0 0 10 0 0
1001-2000 0 0 0 6 0
Producción (xi) Nº de Trabajadores (y.j) Producción (xi) Nº de trabajadores (yj) ni
1500 350 100-200 10-15 300
2500 500 201-500 16-25 54
5000 800 501-1000 26-50 10
10000 1500 1001-2000 51-100 6
15000 1700 2001-5000 101-500 2
1.2 Distribuciones condicionadas de frecuencias
Llamamos variable X condicionada a que Y = yj , y denotaremos (X | Y = yj) a la variable estadística que toma los valores xi con frecuencia absoluta nij.
La frecuencia total de (X | Y = yj) es
n
.j=
∑
i=1
r
n
ijEjemplo:
La distribución de Y condicionada a que
X = 3, es: 8
(Es decir la frecuencia marginal ni.)
1.3 Momentos en las distribuciones bidimensionales
Momentos a de orden h,k ,respecto al origen:
a
hk=
∑
i=1
r
∑
j=1
s
x
ihy
kjn
ij1
N
Donde....
y
kj (variable y)nij (número de veces que se
repite el par)
x
ih(variable x)
N
Algunos momentos relevantes son:
Cuando los momentos se calculan respecto al origen, se utiliza la letra a como notación
x / y 1 2 3
2 1 4 1 6
3 2 4 2 8
4 1 2 1 4
4 10 4 18
x / y 1 2 3
2 1 4 1 6
3 2 4 2 8
4 1 2 1 4
a10 = media marginal de X ,pues en la fórmula
a
hk=
∑
i=1r
∑
j=1s
x
ihy
kjn
ij1
N
, al estar elevada a cero la variable y ,queda sólo la variable
x
i1
, multiplicada por la frercuencia nij... (o lo que resulta igual, multiplicada por la frecuencia
marginal de X = ni.)
a01 = media marginal de Y ,pues en la fórmula
a
hk=
∑
i=1r
∑
j=1s
x
ihy
kjn
ij1
N
, al estar elevada a cero la variable x ,queda sólo la variable
y
kj , multiplicada por la frercuencia nij...(o lo que resulta igual, multiplicada por la frecuenciamarginal de Y = n.j.)
a20 = media del cuadrado de la variable X ,por razones análogas.
a02 = media del cuadrado de la variable Y ,por razones análogas.
a11 = momento producto.
1.3 Momentos
m
de orden
h,k
,respecto
a las medias
de la variable estadística
bidimensional (X,Y):
m
hk=
∑
i=1 r
∑
j=1 s
(
x
i−
a
10)
h(
y
j−
a
01)
k⋅
n
ij⋅
1
N
Donde la explicación es análoga a la de los momentos con respecto al origen, destacando los siguientes momentos relevantes:
m10 = m01 = 0
m20 = varianza de x (S2(x)) ...porque al ser k = 0....
m
hk=
∑
i=1
r
∑
j=1
s
(
x
i−
a
10)
h(
y
j−
a
01)
k⋅
n
ij⋅
1
N
...quedando = varianza m02 = varianza de y (S2(y))...por la misma razón al momento m20.
m11 = covarianza de x,y (Cov(x,y))
A efectos de cálculo de problemas, es interesante saber:
m10 = m01 = 0
m20 = a20 – a210
m02 = a02 – a201
1.4 Independencia estadística
Dos variables estadísticas X e Y son independientes entre sí cuando la variación de una de ellas no influye en la distribución de la otra condicionada por el valor que tome la primera. Por el contrario existirá dependencia cuando los valores de una condicionan la distribución de los valores de la otra.
La condición necesaria y suficiente es que:
n
ijN
=
n
i.N
⋅
n
.jN
Es decir, (por ejemplo):
1
18
≠
4
18
⋅
6
18
1.6 Tablas de contingencia
En las variables cualitativas no tiene sentido la obtención de promedios si se exceptúa la moda en las de escala nominal y la mediana en las de escala original
En las variables cualitativas, las tablas de frecuencias se llaman tablas de contingencia.
Independencia estadística
La deducción de la independencia estadística es igual a la efectuada para las tablas de correlación de variables cuantitativas:
n
ijN
=
n
i.N
⋅
n
.jN
2. Dependencia funcional y dependencia estadística
Dependencia estadística: Dependencia funcional:
Por medio de la regresión se pasa de la dependencia estadística a la dependencia funcional.
2.1 Regresión y correlación lineal simple
Regresión
x / y 1 2 32 1 4 1 6
3 2 4 2 8
4 1 2 1 4
2.1.1. La regresión lineal simple
Partiendo de los datos de una tabla de frecuencias unitarias del tipo:
Se aplica la fórmula:
y
−
a
01=
m
11m
20(
x
−
a
10)
[1]
Donde, como ya se ha visto antes: a01 = media marginal de Y
a10 = media marginal de X
m11 = covarianza de x,y (Cov(x,y))
m20 = varianza de x (S2(x))
Que calculando:
a
01=
1
5
∑
i=1 10y
i
a
01=
1
5
17
a
01=3,4
a
10=
1
5
∑
i=110
x
i
a
10=
1
5
20
a
10=4
m
11=
∑
i=1
r
∑
j=1
s
(
x
i−
a
10)
1(
y
j−
a
01)
1⋅
n
ij⋅
1
N
al ser frecuencias conjuntas unitarias, entonces nij = 1 ,
y...
m
11=
∑
i=1
r
∑
j=1
s
(
x
i−
a
10)
1(
y
j−
a
01)
1⋅
1
N
... luego:m
11=
(
2
−
4
)(
1
−
3,4
)+(
3
−
4
)(
3
−
3,4
)+(
4
−
4
)(
3
−
3,4
)+(
5
−
4
)(
5
−
3,4
)+(
6
−
4
)(
5
−
3,4
)
5
m
11=
13
,
4
5
m
11=
2
,
68
m
20=
∑
i=1r
∑
j=1
s
(
x
i−
a
10)
2(
y
j−
a
01)
0⋅
n
ij⋅
1
N
al ser frecuencias conjuntas unitarias, entonces nij = 1 , y...
m
20=
∑
i=1
r
(
x
i−
a
10)
2⋅
1
N
... luego:m
20=
(
2
−
4
)
2+(
3
−
4
)
2+(
4
−
4
)
2+(
5
−
4
)
2+(
6
−
4
)
25
m
20=2
xi yi
2 1
3 3
4 3
5 5
Sustituyendo ahora en [1] :
y
−
a
01=
m
11m
20(
x
−
a
10)
y
−
3,4
=
2
,
68
2
(
x
−
4
)
y
−
3,4
=
1
,
34
x
−
5
,
36
y
=
1
,
34
x
−
1
,
96
Hemos pasado de tener una tabla de datos como esta:
Con su representación estadística:
...a tener una función que representa a una recta:
y
=
1
,
34
x
−
1
,
96
y Con su representación funcional:
x
2.1.2. Correlación lineal simple
Para un valor de x....cualquiier valor que tome y (yi),de un punto de la nube, será igual al valor que toma y de la
recta (yti), más el margen de error de la recta (ei), con respecto al punto de la nube (los errores por debajo de la recta son
negativos)
y
x
yti
ei (que en este caso es negativo, pues es hacia abajo el error)
yi
xi yi
x
Es decir:
y
i
=
y
ti
+
e
i
, lo que hace que las varianzas de cada uno de los 3 componentes sean:S
2
y
=
S
y
t
2
+
S
ry
2
Varianza de la variable de pendiente observada Varianza residual o varianza de los errores
Varianza de la variable endógena explicada por la regresión
Para hallar las varianzas explicada y residual se pueden utilizar las fórmulas:
Varianza residual:
S
ry2=
m
02−
m
11m
20⋅
m
11Varianza explicada:
S
yt
2
=
m
11m
20¿
m
112.2 Coeficientes de determinación y de correlación simple
El coeficiente de DETERMINACIÓN R2nos dice lo bien que explica una recta una nube de puntos, relacionando la varianza de la primera con respecto a la varianza de la segunda:
R
2=
S
yt2
S
2y (se expresa en tantos por uno o tantos por cien si se multiplica x 100)Por lo tando, al ser un porcentaje,
0
≤
R
2≤
1
y suele aceptarse como un coeficiente de determinación bueno cuando es igual o superior al 75% o al 0,75 por uno.El coeficiente de CORRELACIÓN R nos dice si es muy fiable o no explicar una nube de puntos con una recta ( con independencia de que la nube pueda ser explicada mejor o peor con una parábola, exponencial, etc...):
R
=
√
1
−
S
ry2
S
2y(se expresa en tantos por uno o tantos por cien si se multiplica x 100)
Relación entre la varianza de la variable dependiente, la varianza explicada por la
El campo total de variación del coeficiente de correlación es
−
1
≤
R
≤
1
y suele aceptarse como un coeficiente de determinación bueno cuando es igual o superior al 75% o al 0,75 por uno.Predicción
Uno de los objetivos que persigue la regresión y correlación es hacer predicciones de la variable dependiente o endógena en función de los que toma la independiente o exógena. Las predicciones se efectúan utilizando la recta estimada yti = a + bxi.
dando valores a x, para tener la predicción y.
3. Regresión y correlación lineal múltiple
3.1. Ajuste de un hiperplano mediante la utilización de álgebra matricial.
Considerando la ecuación de un hiperplano:
y
=
b
0+
b
1x
1+
b
2x
2+...
b
kx
k…y como el valor i-ésimo de la variable observada “y” es
y
=
y
ti+
e
i …o también…y
=
b
0+
b
1x
1i+
b
2x
2i+...
b
kx
ki+
e
iAl tener en cuenta todos los datos de una tabla dada, o sea, para todas las i = 1, 2, 3…N , se forma el sistema de ecuaciones:
y
=
b
0+
b
1x
11+
b
2x
21+...
b
kx
k1+
e
1y
=
b
0+
b
1x
12+
b
2x
22+...
b
kx
k2+
e
2y
=
b
0+
b
1x
13+
b
2x
23+...
b
kx
k3+
e
3[
y
1y
2y
3...
y
n]
=
[
1
x
11x
21. ..
x
k11
x
12x
22. ..
x
k21
x
13x
23. ..
x
k3.. . ...
...
. .. ...
1
x
1nx
2n. ..
x
kn]
.
[
b
0b
1b
3.. .
b
k]
+
[
e
1e
2e
3.. .
e
k]
[1]
y
=
x
⋅
b
+
e
…donde y , b , x , y e representan las matrices anteriores
El objetivo es hallar la matriz b =
[
b
0b
1b
3. ..
b
k]
de coeficientes que acompaña a la ecuación [1] …lo que se hace mediante la
fórmula:
b
=
[
x ' x
]
−
1
⋅
x' y
…donde:
[
x ' x]
=[
N∑
i=1
N
x1i . ..
∑
i=1
N
xki
∑
i=1
N
xki
∑
i=1
N
x12i . ..
∑
i=1
N
x1ixki
. .. . .. . .. . ..
∑
i=1
N
xki
∑
i=1N
xkix1i . ..
∑
i=1N
xki2
]
[3]
x ' y=
[
∑
i=1
yi
∑
i=1
N
x1iyi
.. .
∑
i=1
N
xkiyi
]
[4]
…recordando que para hallar la inversa de [x’x]…es decir: [x’x]-1….., se procede de la siguiente forma:
Dada una tabla:
yi x1i x2i
1 1 1
2 3 1
3 4 2
2 4 3
4 5 4
12 17 11
Siendo [x’x] =
[
5 17 11
17 67 44
11 44 31
]
….según [3]PASO 1)
Se halla el adjunto de [x’x] (Adj [x’x] ) como sigue:
1)
Obtenemos el determinante de la matriz [x’x] por Sarrus y que es = 952)
Obtenemos la traspuesta de [x’x] , que al ser simétrica es ella misma =[
5 17 11
17 67 44
11 44 31
]
3)
Obtenemos la matriz de adjuntos (Adj[x’x] ) , que se hace como sigue:a) Tenemos que hallar todos los menores complementarios de
|[
x'x
]
ij
|
. Para hallar el menor complementario de aij , se tachan las columna y fila de a , y se obtiene el determinante de las cuatro cifras que quedan sin tachar. Porejemplo, para hallar el menor complementario de a11 :
[
5 17 11
17 67 44
11 44 31
]
cuyo determinante = 141
al menor complementario a12 , se multiplica por -1
43⋅(−1)=−43
al menor complementario a13 , se multiplica por 1
11
⋅
1
=
11
al menor complementario a21 , se multiplica por -1 …..
al menor complementario a22 , se multiplica por 1 …..
al menor complementario a23 , se multiplica por -1 …..
al menor complementario a31 , se multiplica por 1 …..
al menor complementario a32 , se multiplica por -1 …..
al menor complementario a33 , se multiplica por 1 …..
Con lo que se obtiene finalmente la matriz de adjuntos:
[
141
−
43 11
−
43 34
−
33
11
−
33 46
]
4)
A la cual, sólo queda dividirla por el determinante que se halló en el paso 1 y que = 95:[
14195−43 95 11 95 −43 95 34 95 −33 95 11 95 −33 95 46 95
]
PASO 2)Hallar el valor de x’y , que como se vio anteriormente , según [4] , es:
x ' y=
[
∑
i=1
N
yi
∑
i=1
N
x1iyi
.. .
∑
i=1
N
xkiyi
]
=
[
12
47
31
]
PASO 3)
Con los datos suficientes, ya se puede aplicar la fórmula
b
=
[
x ' x
]
−1⋅
x' y
:b
=[
x ' x
]
−1⋅
x' y
=[
141 95 −43 95 11 95 −43 95 34 95 −33 95 11 95 −33 95 4695
]
.
[
12
47
3.2. Coeficiente de determinación múltiple en el ajuste de un hiperplano
Este coeficiente nos dice la bondad del ajuste. Y sigue siendo la participación de la varianza explicada sobre la varianza total de la obsevada.
Se calcula con la fórmula:
R
2y.123 ....k=
b' x ' y
−
N Y
2
y' y
−
NY
2 …donde:b’ = traspuesta de b (siendo b , según ejemplo del apartado anterior, =
[
0
,
13
0
,
62
0
,
074
]
x’y = traspuesta de x , por y (que según el ejercicio anterior es =
[
12
47
31
]
y’y = traspuesta de y por y …que es igual al sumatorio:
∑
i=1 5y
i2…es decir… N = nº de observaciones