• No se han encontrado resultados

Pr`actica R : 5 Descripci´o de mostres bivariants

Objectius

Usar les capacitats de

R

per explorar i descriure mostres bivariants a par-

tir dels principals gr`afics i estad´ıstics implementats, amb especial atenci´o al

descobriment de relacions de depend`encia entre les variables.

Tipus de variables

En estudiar mostres bivariants, els tractaments que es poden fer a les dades

depenen de la seua natura (tipus), i per tant ´es necesari distingir els tres casos:

(1) qualitativa vs qualitativa, (2) qualitativa vs quantitativa i (1) quantitativa

vs quantitativa, tenint en compte, que la variable quantitativa discreta, encara

que quantitativa, per all`o de les repeticions de les dades, es pot considerar en

ocasions com qualitativa.

Les dades que anem a usar com exemple s´on les emmagatzemades a l’arxiu

s5-descriptiva-2v-dades.txt

Taula 4.6: Dades de l’Exercici 4.5.7

Edat

2

3

4

4

5

5

6

7

7

9

9 10 11 11 12

Resp.

11 12 10 13 11 9

10 7 12 8

7

3

6

5

5

Taula 4.7: Estad´ıstics de l’Exercici 4.5.8

n

= 157

x

s

M´ın

P

25

Med

P

75

M`ax

X

273.0

16.8

223.0 259.6 271.5 292.7 333.0

Y

45.8

3.6

37.9

41.4

48.1

51.1

57.3

s

XY

= 59.27

m <- read.table(file= s5-descriptiva-2v-dades.txt , header=T)

Per a analitzar les dades d’un full de dades en una o unes variables concre-

tes, aquestes s’han de triar amb l’operador[ ](o usant l’operador

$si nom´es

´es una variable). Per exemple:

# per analitzar la var. sexe treballarem amb

m$sexe

#

o m["sexe"] o m[1]

# per analitzar conjuntament sexe i notafinal

m[ c("sexe", "notafinal") ]

# o m[c(1,4)]

Taula de freq¨u`encies

table()

La funci´otable()tamb´e funciona amb mostres multivariants, i crea una taula

de conting`encia (cal recordar que si s’usa sobre alguna variable quantitativa

cont´ınua —sense dades repetides—, seria necessari transformar aquesta varia-

ble en una m´es convenient, tallant en intervals com s’indicava en la p`agina 61).

La taula de freq¨u`encies t´e tantes dimensions com variables, per tant nom´es

es visualitzen b´e les taules de mostres bivariants, que tindran l’aspecte de

matrius. Prova amb:

table(m[c(1,2)])

table(m[c(2,1)])

i observa la difer`encia.

Gr`afics

La funci´oplot()fa diagrames de punts de tots els emparellaments de variables

presents a la mostra. Prova amb:

plot(m)

Observeu com les categories de la variable qualitativa s’han codificat num`e-

ricament en el gr`afic. Pensant nom´es en mostres bivariants, tenim 3 situacions

possibles on els gr`afics

poden ser molt informatius sobre la relaci´o de

depend`encia entre les variables que conformen la mostra:

Qualitativa vs qualitativa:

El millor gr`afic ´es el diagrama de barres

creuat (un per cada variable).

barplot( table(m[c(1,2)]), legend=T ) # nom´es fa falta

barplot( table(m[c(2,1)]), legend=T ) # u dels dos

Caldria ajustar la llegenda per a obtenir un resultat bonic, i tamb´e es

podria afegir un

box()

per emmarcar el gr`afic. La independ`encia entre

les variables s’aprecia quan la composici´o percentual de cada barra ´es

“similar”. En el cas contrari hi hauria indicis de depend`encia entre les

dues variables.

Qualitativa vs quantitativa:

Es presenta, per a cada nivell de la

variable qualitativa, un gr`afic de la quantitativa associat. Hi ha dues

opcions:

– Diagrama de punts

(si hi ha poques dades)

stripchart(m$notafinal ~ m$sexe)

Fa una comparativa de diagrames de punts de la variable ‘notafinal’

agrupats segons els valors la variable ‘sexe’.

– Diagrama de caixa

(si hi ha massa dades per fer un diagrama de

punts)

boxplot(notafinal ~ sexe, data=m)

Fa una comparativa de diagrames de caixa de la variable ‘notafinal’

agrupats segons els valors la variable ‘sexe’.

En ambd´os casos, la independ`encia entre les variables s’aprecia quan la

distribuci´o de punts (o mida de caixa i bigots) ´es “similar” en tots els

casos. Si no, hi hauria indicis de depend`encia entre les dues variables.

Quantitativa vs quantitativa:

Cada dada bivariant forma un punt en

el pla X-Y, i es forma un n´uvol de punts amb tota la mostra.

plot( m[c(3,4)] )

Fa un nuvol de punts amb les variables ‘nivelmat’ i ‘notafinal’. La inde-

pend`encia entre les variables s’aprecia quan el n´uvol de punts no t´e cap

forma definida. En el cas contrari hi hauria indicis de depend`encia entre

les dues variables.

Obtenir el gr`afic ´es senzill, per`o hi ha una s`erie d’arguments que

R

calcula

per defecte i que no sempre s´on els desitjats, com els l´ımits i etiquetes dels

eixos (xlim,

ylim,

xlab,

ylab), colors de les barres i punts i forma d’aquests

(col,

pch), t´ıtol del gr`afic (main,

sub), etc. Podeu consultar l’ajuda per a

aquests casos per a obtenir uns resultats m´es est`etics.

Estad´ıstics

Els estad´ıstics conjunts que es poden calcular amb mostres bivariants quanti-

tatives s´on:

Covari`ancia mostral:

cov( m[c(3,4)] )

Ens d´ona les covari`ancies entre cada parella de variables en forma de ma-

triu. La covari`ancia entre una variable i si mateixa es diu m´es pr`opiament

vari`ancia.

Coeficient de correlaci´o lineal mostral:

cor( m[c(3,4)] )

Ens d´ona els coeficients de correlaci´o entre cada parella de variables en

forma de matriu. El coeficient de correlaci´o entre una variable i si mateixa

sempre val 1.000.

Es poden calcular la resta d’estad´ıstics univariants (p. 63) sobre cada va-

riable quantitativa sencera, o seleccionant nom´es els valors segons criteris que

impliquen els valors de les altres variables, segons interesse.

Exercicis d’ensinistrament

Usa la mostra de dades que figura a l’arxiu

s5-descriptiva-2v-dades.txt

i

emmagatzemada a la variable

m.

1. Considerant les variables SEXE i SISOPER:

(a) Mostra en una taula de freq¨u`encies conjuntes la distribuci´o dels

individus.

(b) Emet un judici sobre el grau d’independ`encia entre les dues variables

de forma intu¨ıtiva, ajudant-te d’algun gr`afic (teoria).

(c) Quin percentatge dels individus de la mostra s´on homes que usen

MacOS? Sol.: 12.5%

(d) Quin percentatge dels homes de la mostra usa MacOS? Sol.: 22.44%

2. Considerant les variables SEXE i NIVELMAT:

(a) Mostra gr`aficament l’efecte del sexe sobre la distribuci´o de puntua-

cions a la prova inicial de nivell matem`atic, amb tres diagrames de

punts que es puguen comparar.

(b) Mostra gr`aficament l’efecte del sexe sobre la distribuci´o de puntua-

cions a la prova inicial de nivell matem`atic, amb diagrames de caixa

que es puguen comparar.

(c) Consideres que el sexe influencia substancialment la distribuci´o de

NIVELMAT? (S´ı o no)

(d) Quin sexe t´e un major nivell... ...(i) segons el diagrama de caixa?

...(ii) segons algun estad´ıstic convenient?

(e) Quin sexe ´es m´es homogeni (respecte al nivell)... ...(i) segons el

diagrama de caixa? ...(ii) segons algun estad´ıstic convenient?

3. Considerant les variables NIVELMAT i NOTAFINAL:

(a) A priori, penses que les dues variables haurien de tenir relaci´o? En

cas afirmatiu, quina seria la variable independent o explicativa, i

quina la variable dependent o explicada?

(b) Representeu gr`aficament les dades segons la l`ogica de l’apartat an-

terior, i contrasta si aquesta mostra incideix en l’apreciaci´o que has

fet de l’apartat anterior.

(c) Calculeu la covari`ancia i el coeficient de correlaci´o lineal entre les

variables. Sol.: sXY

= 5.175220, rXY

= 0.890512