• No se han encontrado resultados

VARIABLE ESTADÍSTICA BIDIMENSIONAL

N/A
N/A
Protected

Academic year: 2022

Share "VARIABLE ESTADÍSTICA BIDIMENSIONAL"

Copied!
88
0
0

Texto completo

(1)

Facultad Ciencias Económicas y Empresariales Departamento de Economía Aplicada

Profesor: Santiago de la Fuente Fernández

VARIABLE ESTADÍSTICA BIDIMENSIONAL

(2)
(3)

Estadística Descriptiva Bidimensional

Facultad Ciencias Económicas y Empresariales Departamento de Economía Aplicada

Profesor: Santiago de la Fuente Fernández

VARIABLE ESTADÍSTICA BIDIMENSIONAL

Cuando se consideran situaciones en la que el estadístico realiza la observación simultanea de dos caracteres en el individuo, se obtienen pares de resultados.        

Los distintos valores de las modalidades que pueden adoptar estos caracteres forman un conjunto de pares, que representamos por (X, Y), y llamaremos variable estadística bidimensional.

Los dos caracteres observados no tienen por qué ser de la misma clase, pudiendo presentarse distintas situaciones:

ƒ Dos caracteres cualitativos: El sexo y color del pelo de una persona.

ƒ Dos caracteres cuantitativos: El peso y la estatura de una persona.

ƒ Uno cuantitativo y otro cualitativo: La profesión y los años de servicio.

Las variables (X, Y) que representan los valores de  dos caracteres cuantitativos, pueden clasificarse:

• X discreta e Y discreta: Número de hijos y número de hermanos de una persona.

• X continua e Y continua: Perímetro craneal y perímetro torácico de una persona.

• X discreta e Y continua: Hijos de una familia y estatura del padre.

• X continua e Y discreta: Temperatura y pulsaciones.

ORDENACIÓN DE LOS DATOS: TABLA DE DOBLE ENTRADA

El par (X, Y) es la unidad del estudio y dos pares serán repetidos solo cuando sus respectivas componentes sean iguales. De otra parte, el número de modalidades que adopta el carácter X no tiene por qué ser el mismo que el que adopta el carácter Y:

      X=(x1,x2,",xk) Y=(y1,y2,",ym)

Para ordenar los datos se utiliza una tabla de doble entrada donde tengan cabida los k valores distintos de la variable X y los m valores distintos de la variable Y. En la tabla se puede expresar el número de veces que se repite cada para de valores posibles (xi,yj) formado en el producto cartesiano de los dos conjuntos numéricos.

    TABLA DE DOBLE ENTRADA        Y

  X y1 y2 … yj … ym

x1 n11 n12 … … … n1m

x2 n21 n22 … … … n2m

… … … …

xi …… …… …… … nij … nim

… … … …

x n n … … n

N ≡ número total observaciones n  ≡ frecuencia absoluta, número deij

veces que aparece repetido el par )

y , x ( i j .

La frecuencia relativa del par se define: 

N fij=nij

(4)

DISTRIBUCIONES MARGINALES

        Y

  X y1 y2 … yj … ym ni

x1 n11 n12 … n1j … n1m n1

x2 n21 n22 … n2j … n2m n2

… … … …

xi ni1 ni2 … nij … nim ni

… … … …

xk nk1 nk2 … nkj … nkm nk

nj n1 n2 … nj … nm

∑ ∑

=

= =

= m

1 j

j k

1 i

i n

n N

       

N n . y . x a

k

1 i

m

1 j

ij j i 11

∑∑

= =

=        syx = a11 − a10.a01 = a11 − x.y  (covarianza)

• DISTRIBUCIÓN  MARGINAL  DE  LA  VARIABLE  X

X x1 x2 … xi … xk

i

n n1 n2 … ni … nk

N

fi=ni f1 f2 … fi … fk

=

= k

1 i

ni

N

1 f

k

1 i

i =

=

      

N n . x x a

k

1 i

i i 10

=

=

=         

N n . x a

k

1 i

2 i i 20

=

=        m20 = s2x = a20 − (a10)2 = a20 − (x)2

• DISTRIBUCIÓN  MARGINAL  DE  LA  VARIABLE  Y

Y y1 y2 … yj … ym

nj n1 n2 … nj … nm

N

fj =nj f1 f2 … fj … fm

=

= m

1 j

n j

N

1 f

m

1 j

j=

=

        

N n . y y a

m

1 j

j j 01

=

=

=      

N n . y a

m

1 j

j 2

j 02

=

=     m02 = s2y = a02− (a01)2 = a02 − (y)2

Las variables (X, Y) son independientes cuando:  ,ij N n N n N

nij i j

⎟⎟ ∀

⎜⎜ ⎞

⎟⎛

⎜ ⎞

=⎛

(5)

0 s ntes

independie )

Y , X (

Si 6 yx =

ntes independie No

) Y , X ( 0

s

Si yx= 6

• DISTRIBUCIÓN  CONDICIONADA  DE  LA  VARIABLE  X para un valor 

Y =yj        Y

  X y1 y2 … yj … ym ni

x1 n11 n12 … n1j … n1m n1

x2 n21 n22 … n2j … n2m n2

… … … …

xi ni1 ni2 … nij … nim ni

… … … …

xk nk1 nk2 … nkj … nkm nk

nj n1 n2 … nj … nm

∑ ∑

=

= =

= m

1 j

j k

1 i

i n

n N

X x1 x2 … xi … xk

) y Y / X (

n = j n1j n2j … nij … nkj

) y Y / X (

f = j f1j f2j … fij … fkj

j j i

j n

) y Y / x ( ) n y Y / X ( f

= =

=

• DISTRIBUCIÓN  CONDICIONADA  DE  LA  VARIABLE  Y  para un valor 

X =xi         Y

  X Y1 Y2 … yj … ym ni

x1 n11 n12 … n1j … n1m n1

x2 n21 n22 … n2j … n2m n2

… … … …

xi ni1 ni2 … nij … nim ni

… … … …

xk nk1 nk2 … nkj … nkm nk

nj n1 n2 … nj … nm

∑ ∑

=

= =

= m

1 j

j k

1 i

i n

n N

Y y1 y2 … yj … ym

) x X / Y (

n = i ni1 ni2 … nij … nim

= =

=

i i i

n ) x X / Y ( ) n x X / Y ( f

(6)

MOMENTOS

Se define el  momento respecto al par de valores (c, v) de órdenes r y s:

N

n ) v y ( ) c x ( )

v , c ( M

k

1 i

s ij j m

1 j

i r

s r

∑∑

= =

=

Tienen especial interés dos casos particulares para los valores c y v

• MOMENTOS RESPECTO AL ORIGEN (c, v) = (0, 0)

N n . y . x N

n ) 0 y ( ) 0 x ( a

k

1 i

ij s j m

1 j

r i k

1 i

ij s j m

1 j

r i s

r

∑∑

∑∑

= = = = =

=

de interés son los particulares:

N 1 n N

n . y . x a

k

1 i

ij m

1 j k

1 i

0 ij j m

1 j

i0

00= = =

∑∑

∑∑

= = = =

       

N n . y . x a

k

1 i

1 ij j m

1 j

1i

11

∑∑

= =

=

N x n x N

n x N

n . y . x a

k

1 i

i i k

1 i

ij m

1 j

i k

1 i

ij 0 j m

1 j

1 i

10=

∑∑

=

∑∑

=

=

=

= =

= =

   

y

N n y N

n y N

n . y . x a

m

1 j

j j k

1 i

ij m

1 j

j k

1 i

ij 1 j m

1 j

0

01= = = =

∑∑

∑∑

=

= =

= =

N n x N

n x N

n . y . x a

k

1 i

2 i i k

1 i

ij m

1 j

2 i k

1 i

ij 0 j m

1 j

2 i 20

∑∑ ∑

∑∑

=

= =

= = = =

=

       

N n y N

n y N

n . y . x a

m

1 j

j 2

j k

1 i

ij m

1 j

2 j k

1 i

ij 2 j m

1 j

0

02

∑∑

∑∑

=

= =

= = = =

=

MOMENTOS CENTRALES O RESPECTO A LAS MEDIAS 

(c,v)=(x,y)

N

n ) y y ( ) x x ( m

k

1 i

s ij j m

1 j

i r

s r

∑∑

= =

=

de interés son los particulares:

arianza cov

N s

n ) y y ( ) x x ( s

m xy

k

1 i

ij j

m

1 j

i yx

11 =

=

=

∑∑

= =

X de ianza var N s

n ) x x ( N

n ) x x ( N

n ) y y ( ) x x (

m 2x

k

1 i

i 2 i k

1 i

ij m

1 j

2 i k

1 i

ij 0 j m

1 j

2 i

20 =

=

=

=

∑∑ ∑∑ ∑

=

= =

= =

(7)

Y de ianza var N s

n ) y y ( N

n ) y y ( N

n ) y y ( ) x x (

m 2y

m

1 j

j 2 j k

1 i

m

1 j

ij 2 j k

1 i

ij 2 j m

1 j

0 i

02 =

=

=

=

∑∑

∑∑

=

= =

= =

‰ Se demuestra fácilmente que,    a a .a a x.y

N

n ) y y ( ) x x ( s

m 11 10 01 11

k

1 i

ij j

m

1 j

i xy

11 = − = −

=

=

∑∑

= =

01 10 11

11 11

k

1 i

m

1 j

ij m

1 j

j j k

1 i

i i k

1 i

ij m

1 j

j i

k

1 i

m

1 j

ij k

1 i

ij m

1 j

j k

1 i

ij m

1 j

i k

1 i

ij m

1 j

j i

k

1 i

ij m

1 j

j i

j i k

1 i

ij j

m

1 j

i xy

11

a . a a

y . x a

y . x y . x x . y a

N n .

y . N x

n . y . N x

n . x . N y

n . y . x

N n .

y . N x

n . y .

N x n . x .

N y n . y . x

N

n ) y . x y . x y . x y . x ( N

n ) y y ( ) x x ( s

m

=

= +

=

= +

=

= +

=

= +

=

=

=

∑∑

∑ ∑

∑∑

∑∑

∑∑

∑∑

∑∑

∑∑

∑∑

= =

=

=

= =

= =

= =

= =

= =

= =

= =

DEPENDENCIA ENTRE LAS VARIABLES (X, Y)

Al observar dos caracteres en cada individuo se presenta el problema de determinar la existencia de algún tipo de dependencia entre ellos. En este sentido, conviene destacar dos tipos de dependencia:

ƒ Dependencia funcional: Entre dos variables X e Y existe dependencia funcional cuando hay una expresión matemáticas que las relacione. Por ejemplo, los radios de una circunferencia (X) y las longitudes (Y).

ƒ Dependencia aleatoria: Entre dos variables X e Y existe dependencia aleatoria cuando no existe una expresión matemática que las relacione. Por ejemplo, la edad de los niños (X) y la edad (Y).

Señalar que existen variables entre las que no existe ningún tipo de dependencia, lo que conlleva a decir que los dos conceptos anteriores no son complementarios.

REGRESIÓN O AJUSTE

La observación de una variable estadística bidimensional (X, Y) comporta la representación de los puntos obtenidos en una nube o diagrama de dispersión. El problema general de regresión se plantea en el intento de ajustar una función de ecuación conocida (recta, parábola, exponencial, hipérbola, polinómica, etc.) a la nube de puntos con el interés de poder obtener una predicción aproximada de una de las variables a partir de la otra.

Naturalmente, que entre todas las funciones que se pueden elegir para ajustar a la nube de puntos, hemos de seleccionar la óptima, esto es, la que mejor encaje sobre los puntos que tenemos, para lo cual recurriremos al método de los mínimos cuadrados.

(8)

Una vez elegida la función, se estiman los parámetros correspondientes de la misma a partir de los datos observados. Por ejemplo, si la función elegida es una parábola:

x2

c x b a

y = + +        hemos de estimar   a, b, c

Por último, una vez realizada la estimación hay que comprobar si efectivamente el ajuste era el idóneo o no. Para ello se emplean cualquiera de los tests construidos para estudiar la bondad del ajuste. El modelo más utilizado es el de la χ   (chi‐cuadrado).2

REGRESIÓN LINEAL MÍNIMO CUADRÁTICA

En el supuesto de que sea la recta la función que mejor se comporta con arreglo a la forma de la nube de puntos, nos encontramos ante una problema de regresión lineal, distinguiendo entre:

ƒ Recta de regresión de Y sobre X: Obteniendo valores aproximados de la Y conocidos los de la X

ƒ Recta de regresión de X sobre Y: Obteniendo valores aproximados de la X conocidos los de la Y

RECTA DE REGRESIÓN DE Y SOBRE X

En cada par (X,Y) al valor observado x  le corresponde uni valor observado y  y otro valor teórico j yˆ  que sería el quei le correspondería en la recta como función, es decir:

i

i a bx

yˆ = +

A la distancia entre estos dos valores (teórico y experimental), la denotamos por dij=yˆi−yj

Para obtener los parámetros a y b, se toman las distancias (errores) al cuadrado para que no se contrarresten los signos positivos y negativos, haciendo mínima su suma:  =

=

j ,i

2 j i j

,i 2

j

,i (yˆ y )

d M

Por otra parte, para simplificar el mecanismo para obtener la recta de regresión de Y (variable dependiente) sobre X (variable independiente), se descartan multiplicidades y suponemos que cada par se repite una sola vez.

Considerando que  yˆi =a+bxi,    =

=

+

j ,i

2 j i j

,i 2

j

,i (a bx y )

d M

Para hallar los valores de  a  y  b que hagan mínima esta función hemos de hallar las derivadas, igualando a cero las ecuaciones resultantes:

(9)

=

− +

=

− + ϑ =

ϑ

=

− +

=

− + ϑ =

ϑ

j ,i

i j i j

,i

i j i

j ,i

j i j

,i

j i

0 ) x ( ) y x b a ( 0

) x ( ) y x b a ( b 2

M

0 ) y x b a ( 0

) y x b a ( a 2

M

Por las propiedades del sumatorio, se obtienen las ecuaciones normales de la regresión:

       

⎪⎪

⎪⎪

= +

= +

⎪⎪

⎪⎪

=

− +

=

− +

∑ ∑

∑ ∑ ∑

∑ ∑

∑ ∑ ∑

i ,ij

j 2 i

i i

i

i i j

j i

i ,ij

j 2 i

i i

i

i i j

j i

y x x

b x a

y x

b a

0 y x x

b x a

0 y x

b a

Dividiendo las expresiones anteriores por N (número total de datos), habiendo supuesto que la frecuencia absoluta de cada par (X, Y) es la unidad, resulta:

⎪⎪

⎪⎪

= +

= +

∑ ∑

∑ ∑

N y x N

x N b

x a

N y N

x N b

1 a

j ,i

j i i

2i i

i

j j i

i

i Considerando los momentos, se tiene:   

⎩⎨

= +

= +

11

20 a

a b x a

y x b a

x b y a = −

sustituyendo en la ecuación ax+ba20 =a11, resulta:

6 6 b(a x ) a xy a

a b x ) x b y

( − + 20 = 11 202 = 112

x xy 20 2

11

s s x a

y x

b a =

= −

       x s y s

a 2

x

xy

=

Finalmente, sustituyendo los  valores obtenidos en la ecuación de la recta  y=a+bx

        = − + x ⇒ s

x s s y s

y 2

x xy 2x

xy (x x)

s y s

y 2

x

xy

=

NOTA.‐ En el supuesto de que no hubiéramos partido de las hipótesis iniciales para el desarrollo, es decir, si hay multiplicidades de (xi,yj) y si cada par se repite n  veces, la ecuación a minimizar seríaij

= +

=

j ,i

ij 2 j i ij

j ,i

2 j

,i n (a bx y ) n

d M

(10)

RECTA DE REGRESIÓN DE X SOBRE Y

Si en lugar de tomar las distancias d  sobre las verticalesij (esto es, sobre la Y) se toman sobre las horizontales ( sobre la X) y se utiliza el mismo método de los mínimos cuadrados, por un proceso idénticamente igual se llega a la ecuación de regresión de X sobre Y:

) y y s ( x s

x 2

y

xy

=

COEFICIENTES DE REGRESIÓN LINEAL

La recta de regresión de Y sobre X:    (x x) s

y s

y 2

x

xy

=

− ,  donde el coeficiente de regresión lineal

2x xy

yx s

b =s  es la pendiente de la recta.

Recta de regresión de Y sobre X, según el coeficiente de regresión 

⎪⎩

⎪⎨

<

=

>

e decrecient 0

horizontal 0

creciente 0

byx

La recta de regresión de X sobre Y:   (y y) s

x s

x 2

y

xy

=

− , donde el coeficiente de regresión lineal

2y yx

xy s

b =s  es la pendiente de la recta.

Recta de regresión de X sobre Y, según el coeficiente de regresión 

⎪⎩

⎪⎨

<

=

>

e decrecient 0

vertical 0

creciente 0

bxy

CORRELACIÓN

Así como la regresión estudia la posible predicción de los valores de una variable a partir de la otra, la correlación estudia el tipo de dependencia que existe entre ambas variables, intentando cuantificarla mediante el cálculo de los coeficientes de correlación.

A continuación se estudian los coeficientes de determinación y correlación lineal.

COEFICIENTE DE CORRELACIÓN LINEAL

ƒ El coeficiente de correlación lineal  R es un número abstracto que determina el grado de ajuste entre una nube de puntos y una recta de regresión. Se define como la media geométrica de los coeficientes de correlación lineal

y x

xy 2y

xy 2x xy xy

yx s s

s s

s s b s

. b

r = = =

(11)

 

RELACIÓN ENTRE LOS COEFICIENTES DE REGRESIÓN Y DE CORRELACIÓN

♦ Recta de regresión de Y sobre X:   (x x) s

y s

y 2

x

xy

=

− ,  coeficiente de regresión lineal  

2x xy

yx s

b =s

(pendiente de la recta), coeficiente de correlación 

y x

xy

s s

r = s  (grado de ajuste)

6 6

6 yx 2x x y

y x xy

2x yx xy

y x

xy 2x xy yx

s s r s s b

s r s

s b s s

s r s

s b s

⎪⎭ =

⎪⎬

⎪⎩

⎪⎨

=

=

⎪⎪

⎪⎪

=

=

x y

yx s

r s

b =

se observa que los dos coeficientes (regresión lineal y correlación lineal) tienen el mismo signo.

♦ Recta de regresión de X sobre Y:   (y y) s

x s

x 2

y

xy

=

− ,  coeficiente de regresión lineal  2

y xy

xy s

b =s

(pendiente de la recta), coeficiente de correlación 

y x

xy

s s

r = s  (grado de ajuste)

6 6

6 xy 2y x y

y x xy

2y xy xy

y x

xy 2y xy xy

s s r s s b

s r s

s b s s

s r s

s b s

⎪⎭ =

⎪⎬

⎪⎩

⎪⎨

=

=

⎪⎪

⎪⎪

=

=

y xy x

s r s

b =

     los dos coeficientes (regresión lineal y correlación lineal) tienen el mismo signo.

VARIANZA RESIDUAL

Es la dispersión de los errores cometidos entre los residuos, dispersión de la suma de las distancias de los valores observados ( o

experimentales) y los valores teóricos (en la recta de regresión).

* Las diferencias se toman al cuadrado para que no se puedan contrarrestar los signos positivos y negativos.

N n d s

ij j ,i

2,ij 2r

=

Para simplificar el mecanismo suponemos que el centro de gravedad se encuentra en el origen )

0 y , 0 x

( = = , con lo que la ecuación de la recta y=a+bx  se reduce a y =bx, partiendo que cada

(12)

Con las hipótesis planteadas:

) 0 y , 0 x

( = =     2

x xy

s

b =s ⎪

⎪⎨

=

=

=

=

=

=

2 02 2 02

y

2 20 2 20

x

11 11

xy

a y a

s

a x a

s

a y x a s

Con lo cual,

= = = + = +

ij j i j

2j i

2i 2 j

,i

j 2 i

2 j 2 i j

,i

j 2 i ij

j 2 i j

,i

2,ij (yˆ y ) (bx y ) (b x y 2bx y ) b x y 2b x y

d

2 yx 2 y 2 x 11 02

2 20 ij

j i j

2 j i

2i j 2

,i 2

j ,i

r2 b a a 2ba b s s 2bs

N y x b N 2

y N

x N b

d

s = = + − = + − = + −

∑ ∑

[ ]

2 2y

[

2

]

y 2 x

2xy 2y

2y 2 x 2xy 2y

xy 2 xy

x xy

2 y xy

2 2 x x xy 2 x 2 xy y xy 2

x yx

2 y 2 x 2 2 r

r 1 s s

s 1 s s s s

s s s

2 s s

s

s s

2 s s

s s s s ) s 2 s b ( b s

b 2 s s b s

⎥ =

⎢⎢

⎡ −

= +

= +

=

=

⎥ +

⎥⎦

⎢⎢

⎡ −

= +

=

− +

=

9 La cota máxima de la varianza residual s  es la varianza que tratamos de explicar mediante el2r modelo de regresión, es decir, la varianza de la variable dependiente. En este caso, s =2r s2y, hecho que sucede cuando r = , esto es cuando las variables son incorreladas.0

9 La cota mínima de la varianza residual s  se obtendrá cuando las variables tienen una2r dependencia funcional  r2 =1

9 2

y 2r

s 100 s licado exp no iaciones var

% =

9 Una forma de definir el coeficiente de determinación:  

2y r2 2

s 1 s

r = −      0≤r2≤1

INTERPRETACIÓN COEFICIENTE DE CORRELACIÓN LINEAL

Se hace una interpretación a partir de la relación con la varianza residual s2r =s2y(1−r2):

Si r=0 ⇒ s2r =s2y y byx =0 y bxy=0.

Las dos rectas son perpendiculares y las variables son INCORRELADAS

Si r=1 ⇒ sr2=0.

Todos los puntos se encuentran situados sobre la recta de regresión, existiendo entre las dos variables una DEPENDENCIA FUNCIONAL (recta de regresión creciente).

(13)

Si r=−1 ⇒ s2r =0.

Todos los puntos se encuentran situados sobre la recta de regresión, existiendo entre las dos variables una DEPENDENCIA FUNCIONAL (recta de regresión decreciente).

 

Si −1<r<0 ó 0<r<1

Las variables están tanto más correladas en cuanto el coeficiente se aproxima más a ‐1 ó 1, respectivamente.

En ambos casos, existe una DEPENDENCIA ALEATORIA entre las variables.

Resaltar que no puede darse el caso de que una recta de regresión sea creciente y la otra decreciente

<

<

<

>

>

>

0 b 0 r 0 b

0 b 0 r 0 b

xy yx

xy yx

DESCOMPOSICIÓN DE LA VARIABILIDAD:

COEFICIENTE DE CORRELACIÓN ‐ VARIANZA RESIDUAL

Sea yˆ  el valor teórico que correspondería en la recta de regresión de Y sobre X: ii =a+bxi. Elevando al cuadrado la descomposición (yi−y)=(yi−yˆi)+(yˆi−y), se obtiene:

 

[ ]





0

n

1 i

i i i n

1 i

i 2 n

1 i

i 2 i n 2

1 i

i i 2 i

n

1 i

i y) (y yˆ ) (yˆ y) (y yˆ ) (yˆ y) 2 (y yˆ ).(yˆ y)

y ( SCT

=

=

=

=

=

=

∑ ∑ ∑ ∑

= + = + +

=

Observemos que,  

− − =

− − + − =

=

=

n

1 i

i i

i n

1 i

i i

i yˆ ).(yˆ y) (y a bx ).(a bx y) y

(

       







0 n

1 i

i i

0 n

1 i

i i

i 0

n

1 i

i

i a bx ) b x (y a bx ) y (y a bx )

y ( a

=

=

=

=

=

=

∑ ∑

+ +

=

con lo cual, 







licada exp cuadrados suma

residual cuadrados

suma total cuadrados

suma SCE

) y yˆ ( SCR

) yˆ y ( SCT

) y y (

n

1 i

i 2 n

1 i

i 2 2 i

n

1 i

i

∑ ∑

= = =

− +

=

Por otro lado,  



 

    

SCT / SCE r

) y y (

) y yˆ (

SCT / SCR

) y y (

) yˆ y ( 1

) y yˆ ( ) yˆ y ( )

y y (

2 n 2

1 i

i n

1 i

2 i

n 2 1 i

i n

1 i

2 i i SCE

n

1 i

i 2 SCR

n

1 i

i 2 i SCT

n 2 1 i

i

=

− +

=

− +

=

∑ ∑

=

=

=

=

=

=

=

(14)

define:  

n 2 1 i

i n

1 i

i 2 2

) y y (

) y yˆ ( SCT r SCE

=

=

=

=

El Coeficiente de Determinación permite, además, seleccionar entre modelos clásicos que tengan el mismo número de regresores, ya que la capacidad explicativa de un modelo es mayor cuanto más elevado sea el valor que tome este coeficiente.

De otra parte,  s s (1 r )

s 1 s N ) y y (

N ) yˆ y 1 (

SCT 1 SCR r

residual ianza var

2 2y r2 2y

2r

s i 2

s i 2 2 i

2y 2r

  6







=

− =

− −

=

=

∑ ∑

Considerando la recta de regresión de Y sobre X, el coeficiente de determinación r  puede2 expresarse:

 

  6

n correlació e

coeficient

y x

xy 2y

2x 2xy i 2

i 2 2 2x xy

i 2

2 2 i

x xy

i 2 i 2 2

s s r s s

s s N

) y y (

N ) x x ( s

s )

y y (

) x x s ( s )

y y (

) y yˆ

r ( = =

⎥ −

⎢ ⎤

− =

⎥⎦

⎢ ⎤

⎡ −

− =

= −

∑ ∑

El coeficiente de correlación lineal r  es un número abstracto que determinará el grado de ajuste entre una nube de puntos y una recta de regresión. Se define como la media geométrica de los coeficientes de regresión lineal:

      

y x

yx 2

y yx 2 x yx xy

yx s s

s s s s b s

b

r= = =

Adviértase que si la varianza residual es cero,  s2r = , se tiene, 0 s2r =s2y(1−r2)=0 6 1−r2=0 con lo cual, r2=1 ⇒ sxy=±sx sy

(15)

EJERCICIOS RESUELTOS DE VARIABLE ESTADÍSTICA BIDIMENSIONAL 1.

  Dada la variable estadística bidimensional (X, Y) con la tabla de frecuencias

X  \  Y 1 2 4 6

1 2 0 1 1

3 3 1 0 1

5 0 1 0 5

Se pide:

a)  

∑∑

= = 3

1 i

4

1 j

nij b) f23, f34, f21 c) 

=

3

1 i

ni  y  

=

4

1 j

n j d)  f(xi/Y=2)  y   f(yj/X=3) e)  a10 y a01 f)  a11 g)  sxy

Solución:

a)

[ ] [ ] [ ] [ ]

[

2 0 1 1

] [

3 1 0 1

] [

0 1 0 5

]

15

n n n n n

n n n n

n n n n

n n n

n 11 12 13 14 21 22 23 24 31 32 33 34

3

1 i

4 i 3 i 2 i 1 i 3

1 i

4

1 j

ij

= + + + + + + + + + + +

=

= + + + + + + + + + + +

= + + +

=

∑∑

= = =

b)  Cada n  representa la frecuencia absoluta del par ij (xi,yj),  la frecuencia relativa se define  N fij=nij ,

donde  N n 15

3

1 i

4

1 j

ij=

=

∑∑

= =

15 0 0 N

f23=n23 = =

15 5 N f34=n34 =

15 3 N f21=n21=

c)

X  \  Y 1 2 4 6 ni

1 2 0 1 1 4

3 3 1 0 1 5

5 0 1 0 5 6

nj 5 2 1 7 15

[ ] [ ] ∑∑

= =

= = + + = + + = = 3

1 i

4

1 j

ij 3

2 1 3

1 i

i n n n 4 5 6 15 n

n

[ ] [ ] ∑∑

4 n = n +n +n +n = 5+2+1+7 =15= 3 4 n

(16)

d)

X  \  Y 1 2 4 6 ni

1 2 0 1 1 4

3 3 1 0 1 5

5 0 1 0 5 n3=6

nj 5 n2=2 1 7 15

Las frecuencias relativas condicionadas f(xi/Y=2)  y  f(yj/X= :3)

X n(xi/Y=2)

2 i i

n ) 2 Y / x ( ) n 2 Y / x ( f

= =

=

1 0 0

2 1 1/2

3 1 1/2

2

n2= 1

Y n(yj/X=3)

= =

=

3 j

j n

) 3 X / y ( ) n 3 X / y ( f

1 0 0

2 1 1/6

4 0 0

6 5 5/6

6

n3 = 1

e)

[ ]

[ ]

(

[

+ + +

] [

+ + + +

] )

=

+

+ +

+ +

= + + +

=

=

∑∑ ∑

= = =

34 3 33 3 32 3 31 3 24 2 23 2 22 2 21 2

14 1 13 1 12 1 11 1 3

1 i

14 3 i 2 i 1 i i 3

1 i

4

1 j

ij i 10

n x n x n x n x n x n x n x n x

n x n x n x n N x 1 N

n n n n x N

n x a

       

[ ] [ ] [ ]

26 , 15 3 49 15

5 . 5 0 . 5 1 . 5 0 . 5 1 . 3 0 . 3 1 . 3 3 . 3 1 . 1 1 . 1 0 . 1 2 .

1 + + + + + + + + + + + = =

=

o también,  3,26

15 49 15

6 . 5 5 . 3 4 . 1 N

n x a

3

1 i

i i

10=

= + + == =

=

6 , 15 3 55 15

7 . 6 1 . 4 2 . 2 5 . 1 N

n y a

4

1 j

j j

01 + + + = =

=

=

=

f)

=

=

∑∑

= =

N n y x a

3

1 i

4

1 j

ij j i 11

(17)

[ ] [ ] [ ]

66 , 15 13 205 15

5 . 6 . 5 0 . 4 . 5 1 . 2 . 5 0 . 1 . 5 1 . 6 . 3 0 . 4 . 3 1 . 2 . 3 3 . 1 . 3 1 . 6 . 1 1 . 4 . 1 0 . 2 . 1 2 . 1 .

1 + + + + + + + + + + + = =

=

g)  sxy=a11−a10a01=13,66−3,26.3,6=1,924

2.  

Las calificaciones obtenidas por un grupo de alumnos en Estadística (E) y Macroeconomía (M):

E 3 4 6 7 5 8 7 3 5 4 8 5 5 8 8 8 5

M 5 5 8 7 7 9 10 4 7 4 10 5 7 9 10 5 7

a)  Hallar la tabla de frecuencias

b) Hallar las distribuciones marginales, media y varianza de las mismas c) Covarianza

Solución:

a)   La variable E (Estadística) toma seis valores diferentes. La variable M (Macroeconomía) toma siete valores distintos, por lo que para formar la tabla bastará hacer el recuento de las veces que se repite cada par.

    E \ M 4 5 6 7 8 9 10 ni

3 1 1 2

4 1 1 2

5 1 4 5

6 1 1

7 1 1 2

8 1 2 2 5

nj 2 4 0 5 1 2 3 17

b)

Ei ni Eini E2i ni Mj nj Mjnj M2jnj

3 2 6 18 4 2 8 32

4 2 8 32 5 4 20 100

5 5 25 125 6 0 0 0

6 1 6 36 7 5 35 245

7 2 14 98 8 1 8 64

8 5 40 320 9 2 18 162

17 99 629 10 3 30 300

17 119 903

• Distribución Marginal de Estadística:

(18)

• Distribución Marginal de Macroeconomía:

17 7 119 N

n M a

M

7

1 j

j j

01= = =

=

=

       53,11

17 903 N

n M a

7

1 j

2 j j

02= = =

=

      s2M=a02−a201=53,11−72=4,11

c)  Para hallar la covarianza:  sxy=a11−a10a01

17

2 . 10 . 8 2 . 9 . 8 1 . 5 . 8 1 . 10 . 7 1 . 7 . 7 1 . 8 . 6 4 . 7 . 5 1 . 5 . 5 1 . 5 . 4 1 . 4 . 4 1 . 5 . 3 1 . 4 . 3 N

n M E a

6

1 i

7

1 j

ij j i 11

+ +

+ +

+ +

+ +

+ +

= +

=

∑∑

= =

47 , 17 43

a11=739=       sxy=a11−a10a01=43,47−5,82.7=2,73

3.

   Dada la tabla de correlaciones. Hallar n  para que las dos variables sean estadísticamente21 independientes y calcular su covarianza en este caso.

X  \  Y 5 7

100 8 4

200 n21 6

Solución:

X  \  Y 5 7 ni

100 8 4 12

200 n21 6 n21+6

nj n21+8 10 n21+18

Por ser independientes:  ,ij N .n N n N

nij i j

=

[

+

]

= →

+ →

= + →

= +

+ 4 n 18 120

18 n 4 120 18

n 10 18 n

12 18

n 4

21 21

21 21

21

4 12 72 n21=120− =

X   \   Y 5 7 ni

100 8 4 12

200 12 6 18

covarianza:  sxy =a11−a10a01

nj 20 10 30

      160

30 18 . 200 12 . 100 N

n x x a

2

1 i

i i

10= =

= + =

=

        5,67

30 10 . 7 20 . 5 N

n y y a

2

1 j

j j

01= = = + =

=

67 , 30 906

27200 30

6 . 7 . 200 12 . 5 . 200 4 . 7 . 100 8 . 5 . 100 N

n y x a

2

1 i

2

1 j

ij j i

11= = + + + = =

∑∑

= =

53 , 0 67 , 5 . 160 67 , 906 a

a a

s = − = − =−

Referencias

Documento similar

1. LAS GARANTÍAS CONSTITUCIONALES.—2. C) La reforma constitucional de 1994. D) Las tres etapas del amparo argentino. F) Las vías previas al amparo. H) La acción es judicial en

DECORA SOLO LAS IMÁGENES QUE NECESITES PARA LLEGAR AL NÚMERO CORRESPONDIENTE... CEIP Sansueña/CEIP Juan XXIII Infantil

Las personas solicitantes deberán incluir en la solicitud a un investigador tutor, que deberá formar parte de un grupo de investigación. Se entiende por investigador tutor la

La solución que se ha planteado, es que el paso o bien se hiciese exclusivamente por el adarve de la muralla, o que una escalera diese acceso por la RM evitando la estancia (De

Imparte docencia en el Grado en Historia del Arte (Universidad de Málaga) en las asignaturas: Poéticas del arte español de los siglos XX y XXI, Picasso y el arte español del

Volviendo a la jurisprudencia del Tribunal de Justicia, conviene recor- dar que, con el tiempo, este órgano se vio en la necesidad de determinar si los actos de los Estados

¿Cómo se traduce la incorporación de ésta en la idea de museo?; ¿Es útil un museo si no puede concebirse como un proyecto cultural colectivo?; ¿Cómo puede ayudar el procomún

Soy algo más que el dolor que siento ahora mismo; soy también la respuesta sincera a ese dolor.» Cuando nos conmueve lo difícil que puede resultar la vida en un momento