ALISIS DE DATOS CON LA HOJA DE C ´ ALCULO EXCEL

Texto completo

(1)

ESTAD´ISTICA DESCRIPTIVA Y AN ´

ALISIS DE

DATOS CON LA HOJA DE C ´

ALCULO EXCEL

Organiza:

INSTITUTO C ´ANTABRO DE ESTAD´ISTICA

http://www.icane.es

Responsable: Francisco Parra Rodr´ıguez

Jefe de Servicio de Estad´ısticas Econ´omicas y Sociodemogr´aficas parra f@icane.es

Colabora: Ma Paz Moral Zuazo

Analista de coyuntura

moral m@icane.es, mpaz.moral@ehu.es

(2)

ESQUEMA DE LA SEMANA: SESI ´

ON 4

1 Introducci´on

2 An´alisis de una variable:

I Descripci´on gr´afica de datos de una variable cualitativa

I Descripci´on gr´afica de datos de una variable cuantitativa

I Descripci´on num´erica de un conjunto de datos

I Medidas de desigualdad

(3)

ESQUEMA DE LA SEMANA: SESI ´

ON 4

5. AN´ALISIS DE DOS VARIABLES: DISTRIBUCI ´ON CONJUNTA

5.1 An´alisis estad´ıstico de dos o m´as variables.

5.2 Variables cualitativas: distribuci´on conjunta, distribuciones marginales y distribuciones condicionadas.

5.3 Variables cuantitativas: distribuci´on conjunta, distribuciones marginales y distribuciones condicionadas. Media de la distribuci´on condicionada. Representaci´on gr´afica.

5.4 Independencia estad´ıstica.

6. MEDIDAS DE ASOCIACI ´ON ENTRE DOS VARIABLES

6.1 El gr´afico de dispersi´on y la relaci´on lineal entre variables.

6.2 La covarianza entre dos variables cuantitativas.

6.3 El coeficiente de correlaci´on entre dos variables cuantitativas.

6.4 Independencia e incorrelaci´on.

(4)

An´

alisis de dos variables: distribuci´

on conjunta

Conjunto de informaci´on: datos de dos caracter´ısticas o variables,X e Y,

para cada individuo. Por tanto, disponemos de un conjunto de N pares:

(x1,y1),(x2,y2), . . . ,(xN,yN)

Ejemplos: de una encuesta realizada el primer d´ıa de clase:

Sexo y ser fumador.

Altura del estudiante y altura de su padre.

Gasto mensual en cine y gasto semanal total.

(5)

5.2 Variables cualitativas: distribuci´

on conjunta.

Ejemplo: sexo y ser fumador

X = Ser fumador (dos categor´ıas: fuma o no fuma).

Y = G´enero (dos categor´ıas: hombre o mujer).

Hombre Mujer

Fuma 3 6

(no fumadores) (no fumadoras en el grupo)

No Fuma 16 7

(no no fumadores) (no no fumadoras)

Tabla A. Distribuci´on conjunta de g´enero-fumador (grupo 16).

Suma: 3+6+16+7 = 32 (total encuestados)

(6)

5.2 Variables cualitativas: distribuciones marginales

Obtener la distribuci´on de una variable a partir de la conjunta.

Hombre Mujer Total(fila)

Fuma 3 6 9

(no de fumadores-as)

No Fuma 16 7 23

(no de no fumadores-as)

Total 19 13

(Columna) (n0de hombres) (no de mujeres)

Tabla B. Distribuciones marginales de g´eneroyfumador.

(7)

5.2 Variables cualitativas: distribuci´

on de frecuencias

relativas

Se obtienen dividiendo la tabla B por el n´umero de observaciones.

Tabla C. Distribuciones de frecuencias relativas

Hombre Mujer Total(fila)

Fuma 0,09375 0,1875 0,28125

No Fuma 0,5 0,21875 0,71875

Total 0,59375 0,40625

(Columna)

con: 0,09375 + 0,1875+0,5 + 0,21875 =0,28125 + 0,71875

=0,59375 + 0,40625= 1

(8)

5.2 Variables cualitativas: distribuci´

on de frecuencias

condicionadas

Tabla D. Distribuciones condicionadas seg´un g´enero

Hombre Mujer

ni|Y=Hombre fi|Y=Hombre ni|Y=Mujer fi|Y=Mujer

Fuma 3 =n11 0,158= nn111 6 =n12 0,462= nn122

No Fuma 16 =n12 0,842= nn211 7 =n22 0,538= nn222

Suma 19 =n•1 1 12 =n•2 1

Por ejemplo, distribuci´on entre fumadores y no fumadores en grupo de

(9)

5.2 Variables cualitativas: distribuciones condicionadas

Tabla E. Distribuciones condicionadas seg´un sea fumador o no

Hombre Mujer Suma

nj|X=Fuma 3 =n11 6 =n12 9 =n1•

fj|X=Fuma 0,33= nn111 0,67= nn121 1

nj|X=No fuma 16 =n21 7 =n22 23 =n2•

fj|X=No fuma 0,70= nn221• 0,30=

n22

n2• 1

Distribuci´on seg´un g´enero en el grupo de fumadores: nj|X=Fuma,fj|X=Fuma, j = 1,2.

Distribuci´on seg´un g´enero en el grupo de no fumadores:

nj|X=No fuma,fj|X=No fuma,j = 1,2.

(10)

5.2 Variables cualitativas: distribuciones condicionadas

Otra forma de presentar las distribuciones condicionadas:

Tabla F. Distribuciones condicionadas seg´un sea fumador o no.

Nota:x1 = fumador; x2 = no fumador.

Condicionada aX =x1 Condicionada aX =x2

Categor´ıa nj|X=x1 fj|X=x1 Categor´ıa nj|X=x2 fj|X=x2

Hombre 3 0,33 Hombre 16 0,70

(11)

5.3 Variables cuantitativas

Las definiciones de

    

   

distribuci´on conjunta,

distribuciones marginales y

distribuciones condicionadas.

se aplican tambi´en al caso de variables cuantitativas, siendox1,x2, . . . ,xk (´oy1,y2, . . . ,y`):

1 con variable discreta: los valores que toma la variableX oY).

2 con variable continua: las marcas de clase de los intervalos en que se

ha dividido el rango de X (´o Y).

(12)

5.3 Variables cuantitativas: Representaci´

on gr´

afica

El conjunto de datos se representa gr´aficamente mediante el diagrama de

dispersi´ono nube de puntos.

Representaci´on de los N pares de puntos:

(x1,y1),(x2,y2), . . . ,(xN,yN)

Representaci´on de los valores que aparecen en la tabla de contingencia:

(13)

5.3 Variables cuantitativas: medias condicionadas

Los valores t´ıpicos de posici´on, dispersi´on o forma vistos para variables cuantitativas pueden aplicarse al caso de las distribuciones condicionadas.

Ejemplo: media de las distribuciones condicionadas del no de hermanos en

funci´on del grupo. Fijamos

X = no hermanos

Y = Grupo

Grupo 1 Grupo 2 Grupo 16 Grupo 31 Total

(y1) (y2) (y3) (y4) (Marginal)

x|yj 1,12 1,3571 1,19 1,11 1,201

(14)

5.4 Independencia estad´ıstica

¿Est´an relacionadas las variablesX e Y?

Se dice que la variable variable Y se distribuye de manera independiente a

X si las distribuciones marginales deY condicionadas a cada valor deX

coinciden entre s´ı y coinciden con la distribuci´on marginal de la variable Y. Es decir, si

fj|X=x1 =fj|X=x2 =. . .=fj|X=xk =f•j ∀j = 1, . . . , `

Se dice que la variable variable X se distribuye de manera independiente a

Y si las distribuciones marginales deX condicionadas a cada valor deY

coinciden entre s´ı y coinciden con la distribuci´on marginal de la variableX. Es decir, si

fi|Y=y1 =fi|Y=y2 =. . .=fi|Y=y` =fi•, ∀i = 1, . . . ,k

(15)

5.4 Independencia estad´ıstica

Se dice que la variables X eY se distribuyen independientemente, las

distribuciones de las variablesX e Y son independientes o queX,Y son variables independientes.

Una condici´on necesaria y suficiente para que dos variables se distribuyan de forma independiente viene dada por la expresi´on:

fij =fi•×f•j, ∀i = 1, . . . ,k ∀j = 1, . . . , `

Ejemplo: Distribuciones de frecuencias relativas.

Hombre Mujer Total (fila)

Fuma 0,168 0,112 0,28

No Fuma 0,432 0,288 0,72

Total 0,60 0,40

(Columna)

(16)

6. Medidas de asociaci´

on entre dos variables

El gr´afico de dispersi´on y la relaci´on lineal entre variables.

La covarianza entre dos variables cuantitativas.

El coeficiente de correlaci´on entre dos variables cuantitativas.

(17)

6.1 El gr´

afico de dispersi´

on

El gr´afico de dispersi´on permite distinguir la posible relaci´on, lineal o no, que existe entre las variables. Se dice que hay

relaci´on lineal positiva entre ambas variables cuando, al aumentar x,

aumentaen promedio el valor de y.

100 200 300 400 500 600 700 800 900 1000 1100 1200

50 100 150 200 250

precio

Superficie (m2 precio con respecto a m2 (con ajuste mínimo-cuadrático)

100 200 300 400 500 600 700 800 900 1000 1100 1200

50 100 150 200 250

precio

Superficie

precio con respecto a m2 (con ajuste mínimo-cuadrático) Y = 55.8 + 3.38X

(18)

6.1 El gr´

afico de dispersi´

on

El gr´afico de dispersi´on permite distinguir la posible relaci´on, lineal o no, que existe entre las variables. Se dice que hay

relaci´on lineal negativa entre ambas variables cuando observamos que

al aumentar x disminuye en promedioel valor de y.

100 200 300 400 500 600 700 800 900 1000 1100 1200

-110 -100 -90 -80 -70 -60 -50 -40 -30 -20

precio

xx

precio con respecto a xx (con ajuste mínimo-cuadrático)

100 200 300 400 500 600 700 800 900 1000 1100 1200

-110 -100 -90 -80 -70 -60 -50 -40 -30 -20

precio

xx

(19)

6.1 El gr´

afico de dispersi´

on

El gr´afico de dispersi´on tambi´en refleja si:

No relaci´on lineal entre ambas variables.

Hay no relaci´onentre ambas variables.

100 200 300 400 500 600 700 800 900 1000 1100 1200

8.5 9 9.5 10 10.5 11 11.5

precio ruido 0 5000 10000 15000 20000 25000 30000 35000

50 100 150 200 250

Y

X Relación no lineal

(20)

6.1 El gr´

afico de dispersi´

on

Ejemplos de relaci´on no lineal:

-5000 0 5000 10000 15000 20000 25000 30000 35000

50 100 150 200 250

Y

X

cc2 con respecto a m2 (con ajuste mínimo-cuadrático) Y = -8.90e+003 + 147.X

0 5000 10000 15000 20000 25000 30000 35000

50 100 150 200 250

Y

X

cc2 con respecto a m2 (con ajuste cuadrático)

Y = -11.7 - 0.0364X + 0.501X^2

-2 -1 0 1 2 3 4

-1.5 -1 -0.5 0 0.5 1 1.5

y3

ruido Relación no lineal

-2 -1 0 1 2 3 4

-1.5 -1 -0.5 0 0.5 1 1.5

y3

(21)

6.2 La covarianza entre dos variables cuantitativas

La covarianzaes una medida del grado de asociaci´on lineal entre dos

variables.

Si se tienen N pares de datos de dos variables, (x1,y1). . .(xN,yN), la covarianza se denota por Sxy y se define:

Sxy =cov(x,y) =

(x1−x)(y1−y) +. . .(xN−x)(yN−y)

N

siendox e y las medias aritm´eticas de las variables. Interpretaci´on:

Su valor no depende del orden de las variables.

Si es mayor que 0, hay relaci´on lineal positiva entre X eY.

Si es menor que cero, hay relaci´on lineal negativaa entreX e Y.

Si es cero, no hay relaci´on lineal.

(22)

6.3 El coeficiente de correlaci´

on entre dos variables

cuantitativas

La covarianza depende de las unidades de medida de las variables, lo que no permite comparar la relaci´on entre distintos pares de variables medidas en unidades diferentes. En estos casos se utiliza el coeficiente de

correlaci´on lineal entre x e y, que se define:

rxy =corr(x,y) =

Sxy

SxSy

Interpretaci´on. Comparte con la covarianza:

Su valor no depende del orden de las variables.

Tiene el mismo signo que la varianza.

(23)

6.3 El coeficiente de correlaci´

on entre dos variables

cuantitativas

rxy =corr(x,y) =

Sxy

SxSy

Interpretaci´on. Adem´as, a diferencia de la covarianza:

Su valor m´aximo es 1 y su valor m´ınimo es -1.

Un coeficiente de correlaci´on igual a uno en valor absoluto indica que las variables est´an relacionadas linealmente de forma exacta y los datos se sit´uan sobre una l´ınea.

I Si el valor del coeficiente de correlaci´on es igual a +1, los datos se sit´uan sobre una l´ınea de pendiente positiva.

I Si el valor del coeficiente de correlaci´on es igual a -1, los datos se sit´uan sobre una l´ınea de pendiente negativa.

(24)

6.3 El coeficiente de correlaci´

on entre dos variables

100 200 300 400 500 600 700 800 900 1000 1100 1200

50 100 150 200 250

precio

Superficie precio con respecto a m2 (con ajuste mínimo-cuadrático) Y = 55.8 + 3.38X

100 200 300 400 500 600 700 800 900 1000 1100 1200

-110 -100 -90 -80 -70 -60 -50 -40 -30 -20

precio

xx precio con respecto a xx (con ajuste mínimo-cuadrático) Y = 121. - 6.82X

cov(precio, superf)= 12.126,6 cov(x, superf)= -6.005,96

corr(precio, superf)= 0,854 corr(x, superf)= -0,852

100 200 300 400 500 600 700 800 900 1000 1100 1200

8.5 9 9.5 10 10.5 11 11.5

precio ruido -2 -1 0 1 2 3 4

-1.5 -1 -0.5 0 0.5 1 1.5

y3

ruido y3 con respecto a ruido (con ajuste cuadrático)

cov(precio, Y)= 57,32 cov(ruido, Y3)= -0,105

(25)

6.3 El coeficiente de correlaci´

on entre dos variables

. Correlaci´on y causalidad

Pe˜na y Romo (1997), p´ag. 129-30, miden la correlaci´on entre:

No de matrimonios en Madrid y Temperatura media en Madrid.

Con observaciones mensuales del a˜no 1992.

Obtienen un coeficiente de correlaci´on entre ambas variables igual a 0,67. Este fen´omeno se conoce comocorrelaci´on espuria: dos variables est´an relacionadas a trav´es de su correlaci´on con una tercera variable. Cuando se mide la relaci´on lineal controlando el efecto de la tercera variable, la correlaci´on disminuye.

(26)

6.3 El coeficiente de correlaci´

on entre dos variables

Ejemplo 2: En el a˜no 1926, Jule estudi´o la relaci´on entre:

matrimonios en la Iglesia de Inglaterra (o/oo sobre total de matrimonios) y

tasa de mortalidad (o/oo sobre poblaci´on)

(27)

6.4 Independencia e incorrelaci´

on

Figure

Actualización...

Referencias

Actualización...