Objectius
Usar les capacitats de
R
per explorar i descriure mostres bivariants a par-
tir dels principals gr`afics i estad´ıstics implementats, amb especial atenci´o al
descobriment de relacions de depend`encia entre les variables.
Tipus de variables
En estudiar mostres bivariants, els tractaments que es poden fer a les dades
depenen de la seua natura (tipus), i per tant ´es necesari distingir els tres casos:
(1) qualitativa vs qualitativa, (2) qualitativa vs quantitativa i (1) quantitativa
vs quantitativa, tenint en compte, que la variable quantitativa discreta, encara
que quantitativa, per all`o de les repeticions de les dades, es pot considerar en
ocasions com qualitativa.
Les dades que anem a usar com exemple s´on les emmagatzemades a l’arxiu
s5-descriptiva-2v-dades.txt
Taula 4.6: Dades de l’Exercici 4.5.7
Edat
2
3
4
4
5
5
6
7
7
9
9 10 11 11 12
Resp.
11 12 10 13 11 9
10 7 12 8
7
3
6
5
5
Taula 4.7: Estad´ıstics de l’Exercici 4.5.8
n
= 157
x
s
M´ın
P
25Med
P
75M`ax
X
273.0
16.8
223.0 259.6 271.5 292.7 333.0
Y
45.8
3.6
37.9
41.4
48.1
51.1
57.3
s
XY= 59.27
m <- read.table(file= s5-descriptiva-2v-dades.txt , header=T)
Per a analitzar les dades d’un full de dades en una o unes variables concre-
tes, aquestes s’han de triar amb l’operador[ ](o usant l’operador
$si nom´es
´es una variable). Per exemple:
# per analitzar la var. sexe treballarem amb
m$sexe
#
o m["sexe"] o m[1]
# per analitzar conjuntament sexe i notafinal
m[ c("sexe", "notafinal") ]
# o m[c(1,4)]
Taula de freq¨u`encies
table()
La funci´otable()tamb´e funciona amb mostres multivariants, i crea una taula
de conting`encia (cal recordar que si s’usa sobre alguna variable quantitativa
cont´ınua —sense dades repetides—, seria necessari transformar aquesta varia-
ble en una m´es convenient, tallant en intervals com s’indicava en la p`agina 61).
La taula de freq¨u`encies t´e tantes dimensions com variables, per tant nom´es
es visualitzen b´e les taules de mostres bivariants, que tindran l’aspecte de
matrius. Prova amb:
table(m[c(1,2)])
table(m[c(2,1)])
i observa la difer`encia.
Gr`afics
La funci´oplot()fa diagrames de punts de tots els emparellaments de variables
presents a la mostra. Prova amb:
plot(m)
Observeu com les categories de la variable qualitativa s’han codificat num`e-
ricament en el gr`afic. Pensant nom´es en mostres bivariants, tenim 3 situacions
possibles on els gr`afics
poden ser molt informatius sobre la relaci´o de
depend`encia entre les variables que conformen la mostra:
Qualitativa vs qualitativa:
El millor gr`afic ´es el diagrama de barres
creuat (un per cada variable).
barplot( table(m[c(1,2)]), legend=T ) # nom´es fa falta
barplot( table(m[c(2,1)]), legend=T ) # u dels dos
Caldria ajustar la llegenda per a obtenir un resultat bonic, i tamb´e es
podria afegir un
box()
per emmarcar el gr`afic. La independ`encia entre
les variables s’aprecia quan la composici´o percentual de cada barra ´es
“similar”. En el cas contrari hi hauria indicis de depend`encia entre les
dues variables.
Qualitativa vs quantitativa:
Es presenta, per a cada nivell de la
variable qualitativa, un gr`afic de la quantitativa associat. Hi ha dues
opcions:
– Diagrama de punts
(si hi ha poques dades)
stripchart(m$notafinal ~ m$sexe)
Fa una comparativa de diagrames de punts de la variable ‘notafinal’
agrupats segons els valors la variable ‘sexe’.
– Diagrama de caixa
(si hi ha massa dades per fer un diagrama de
punts)
boxplot(notafinal ~ sexe, data=m)
Fa una comparativa de diagrames de caixa de la variable ‘notafinal’
agrupats segons els valors la variable ‘sexe’.
En ambd´os casos, la independ`encia entre les variables s’aprecia quan la
distribuci´o de punts (o mida de caixa i bigots) ´es “similar” en tots els
casos. Si no, hi hauria indicis de depend`encia entre les dues variables.
Quantitativa vs quantitativa:
Cada dada bivariant forma un punt en
el pla X-Y, i es forma un n´uvol de punts amb tota la mostra.
plot( m[c(3,4)] )
Fa un nuvol de punts amb les variables ‘nivelmat’ i ‘notafinal’. La inde-
pend`encia entre les variables s’aprecia quan el n´uvol de punts no t´e cap
forma definida. En el cas contrari hi hauria indicis de depend`encia entre
les dues variables.
Obtenir el gr`afic ´es senzill, per`o hi ha una s`erie d’arguments que
R
calcula
per defecte i que no sempre s´on els desitjats, com els l´ımits i etiquetes dels
eixos (xlim,
ylim,
xlab,
ylab), colors de les barres i punts i forma d’aquests
(col,
pch), t´ıtol del gr`afic (main,
sub), etc. Podeu consultar l’ajuda per a
aquests casos per a obtenir uns resultats m´es est`etics.
Estad´ıstics
Els estad´ıstics conjunts que es poden calcular amb mostres bivariants quanti-
tatives s´on:
Covari`ancia mostral:
cov( m[c(3,4)] )
Ens d´ona les covari`ancies entre cada parella de variables en forma de ma-
triu. La covari`ancia entre una variable i si mateixa es diu m´es pr`opiament
vari`ancia.
Coeficient de correlaci´o lineal mostral:
cor( m[c(3,4)] )
Ens d´ona els coeficients de correlaci´o entre cada parella de variables en
forma de matriu. El coeficient de correlaci´o entre una variable i si mateixa
sempre val 1.000.
Es poden calcular la resta d’estad´ıstics univariants (p. 63) sobre cada va-
riable quantitativa sencera, o seleccionant nom´es els valors segons criteris que
impliquen els valors de les altres variables, segons interesse.
Exercicis d’ensinistrament
Usa la mostra de dades que figura a l’arxiu
s5-descriptiva-2v-dades.txt
i
emmagatzemada a la variable
m.
1. Considerant les variables SEXE i SISOPER:
(a) Mostra en una taula de freq¨u`encies conjuntes la distribuci´o dels
individus.
(b) Emet un judici sobre el grau d’independ`encia entre les dues variables
de forma intu¨ıtiva, ajudant-te d’algun gr`afic (teoria).
(c) Quin percentatge dels individus de la mostra s´on homes que usen
MacOS? Sol.: 12.5%
(d) Quin percentatge dels homes de la mostra usa MacOS? Sol.: 22.44%
2. Considerant les variables SEXE i NIVELMAT:
(a) Mostra gr`aficament l’efecte del sexe sobre la distribuci´o de puntua-
cions a la prova inicial de nivell matem`atic, amb tres diagrames de
punts que es puguen comparar.
(b) Mostra gr`aficament l’efecte del sexe sobre la distribuci´o de puntua-
cions a la prova inicial de nivell matem`atic, amb diagrames de caixa
que es puguen comparar.
(c) Consideres que el sexe influencia substancialment la distribuci´o de
NIVELMAT? (S´ı o no)
(d) Quin sexe t´e un major nivell... ...(i) segons el diagrama de caixa?
...(ii) segons algun estad´ıstic convenient?
(e) Quin sexe ´es m´es homogeni (respecte al nivell)... ...(i) segons el
diagrama de caixa? ...(ii) segons algun estad´ıstic convenient?
3. Considerant les variables NIVELMAT i NOTAFINAL:
(a) A priori, penses que les dues variables haurien de tenir relaci´o? En
cas afirmatiu, quina seria la variable independent o explicativa, i
quina la variable dependent o explicada?
(b) Representeu gr`aficament les dades segons la l`ogica de l’apartat an-
terior, i contrasta si aquesta mostra incideix en l’apreciaci´o que has
fet de l’apartat anterior.
(c) Calculeu la covari`ancia i el coeficient de correlaci´o lineal entre les
variables. Sol.: sXY
= 5.175220, rXY
= 0.890512
In document
Estadística bàsica per a l'Enginyeria Tècnica en Informàtica de Gestió
(página 79-83)