ESTADÍSTICA. L'Estadística és la ciència matemàtica relacionada amb la recopilació, anàlisi, interpretació i representació de dades.

Texto completo

(1)

ESTADÍSTICA

1

Conceptes

L'Estadística és la ciència matemàtica relacionada amb la recopilació, anàlisi, interpretació i representació de dades.

Població: conjunt d'elements dels quals volem estudiar alguna característica determinada (per exemple, els alumnes de 2n d’ESO d’una ciutat).

Mostra: subconjunt de la població del qual extraurem les dades per a la realització de l'estudi estadístic (p.ex. alumnes d’eso de l’institut Pou Clar). Per a ser representativa cal que siga aleatòria (elements escollits a l’atzar) i proporcional (els individus de la mostra han de conservar la mateixa proporció que a la població:

si hi ha meitat xics i xiques, p.ex.))

Variable estadística (Xi): propietat que volem estudiar dels elements de la població i que permet classificar- los en diferents modalitats (p.ex., l’altura, o la nota de matemàtiques). Poden ser:

Variable qualitativa és la que es refereix a característiques o qualitats que no poden ser mesurades amb números, ni es poden ordenar (p.ex. estat civil: solter, casat, divorciat, separat, vidu, etc.)

Variable quantitativa és la que s’expressa mitjançant un número, per tant es poden realitzar operacions aritmètiques amb ella. Podem distingir dos tipus:

Variable discreta

Una variable discreta és aquella que pren valors aïllats, és a dir no admet valors intermedis entre dos valors específics. Per exemple:

El nombre de germans de 5 amics: 2, 1, 0, 1, 3.

Variable contínua

Una variable contínua és aquella que pot prendre valors compresos entre dos números. Per exemple:

L’altura dels 5 amics: 1’73, 1’82, 1’77, 1’69, 1’75.

-Normalment es treballa amb intervals, per exemple, d’1’50 a 1’60, d’1’60 a 1’70, etc., on anem agrupant els valors.

-Els intervals solen ser oberts per a l’última xifra, és a dir, l’interval d’1’50 a 1’60 no inclou 1’60, que passa a l’interval següent.

-També es poden considerar les variables discretes com a contínues quan el seu número és molt gran. No és el mateix comptar els cotxes per família en Ontinyent que en Qatar, on la gent molt rica pot tindre centenars d’ells. Així els agruparíem, per exemple, com d’1 a 10, de 10 a 20, etc.

-Com un interval (p.ex. [0, 5)) no és un número amb el qual es puga treballar, es representa amb una marca de classe, que és la mitjana aritmètica dels extrems de l’interval (0+5)/2=2,5.

(2)

estadístiques, assignant a cada dada la seua freqüència corresponent.

Freqüència absoluta (fi)

La freqüència absoluta és el nombre de vegades que apareix un determinat valor en un estudi estadístic.

Es representa per

f

i.

La suma de les freqüències absolutes és igual al nombre total de dades, que es representa per

N

.

Per a indicar resumidament estes sumes s'utilitza la lletra grega

(sigma majúscula) que es llig suma o sumatòria.

Freqüència absoluta acumulada

La freqüència absoluta acumulada és la suma de les freqüències absolutes de tots els valors inferiors o iguals al valor considerat.

Es representa per

F

i.

Freqüència relativa (ni)

La freqüència relativa és el quocient entre la freqüència absoluta d'un determinat valor i el nombre total de dades.

Es pot expressar en tants per cent (0,43 = 43%) i es representa per

n

i.

La suma de les freqüències relatives és igual a 1.

Exemple per a variables discretes

Durant el mes de juliol, en una ciutat s'han registrat les següents temperatures màximes:

32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.

En la primera columna de la taula col·loquem la variable ordenada de menor a major, en la segona fem el recompte i en la tercera anotem la freqüència absoluta.

Xi fi Fi ni

27 1 1 0.032 28 2 3 0.065 29 6 9 0.194 30 7 16 0.226 31 8 24 0.258 32 3 27 0.097 33 3 30 0.097 34 1 31 0.032

31 1

(3)

ESTADÍSTICA

3

Exemple per a variables contínues (dades agrupades per intervals)

Durant 40 sessions s’han registrat el número d’espectadors que han acudit a una projecció. Com el rang és tan gran s’ha optat per considerar les variables (normalment discretes) com a contínues, i agrupar-les.

3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.

1. Es localitzen els valors menor i major de la distribució. En este cas són 3 i 48.

2. Es resten i es busca un nombre enter un poc major que la diferència i que siga divisible pel nombre d'intervals vulguem establir.

En poques paraules: els intervals se solen fer amb números redons.

És convenient que el nombre d'intervals oscil·le entre 6 i 15.

En este cas, 48 - 3 = 45, incrementem el número fins a 50 : 5 = 10 intervals.

Es formen els intervals tenint present que el límit inferior d'una classe pertany a l'interval, però el límit superior no pertany interval (interval obert), es compta en el següent interval.

marca fi Fi ni

[0, 5) 2.5 1 1 0.025

[5, 10) 7.5 1 2 0.025

[10, 15) 12.5 3 5 0.075

[15, 20) 17.5 3 8 0.075

[20, 25) 22.5 3 11 0.075 [25, 30) 27.5 6 17 0.150 [30, 35) 32.5 7 24 0.175 [35, 40) 37.5 10 34 0.250 [40, 45) 42.5 4 38 0.100 [45, 50) 47.5 2 40 0.050

40 1

Com un interval (p.ex. [0, 5)) no és un número amb el qual es puga treballar, es representa amb una marca de classe, que és la mitjana aritmètica dels extrems de l’interval (0+5)/2=2,5. Aquesta marca representa a tot l’interval i és la que utilitzarem per a fer els càlculs.

(4)

En estadística, un histograma és una representació gràfica d’un conjunt de dades numèriques que s’agrupen per classes (variables contínues). Cada barra és proporcional a la freqüència dels valors representats. No hi ha separació entre les barres. En l’eix vertical es representen les freqüències, i en l’eix horitzontal els valors de les variables, normalment assenyalant les marques de classe. S’utilitza quan s’estudia una variable contínua, com a franges d’edats o altura, i els seus valors s’agrupen en classes, és a dir, valors continus.

Diagrama de barres

Un gràfic de barres, també conegut com a gràfic de columnes, és un diagrama amb barres rectangulars de longituds proporcional als valors que representen (variables discretes). Els gràfics de barres són usats per a comparar dos o més valors que no tenen per què estar ordenats, i que poden ser qualitatius (no quantitatius). Les barres poden estar orientades horitzontal o verticalment. A vegades s’usa un gràfic estès en compte d’una barra sòlida.

Diagrama de sectors

Es divideix un cercle en tantes porcions com a classes existisquen, de manera que a cada classe li correspon un arc de cercle proporcional a la seua freqüència absoluta o relativa.

Polígon de freqüències

Un polígon de freqüències es forma unint els extrems de les barres mitjançant segments.

(5)

ESTADÍSTICA

5

PARÀMETRES ESTADÍSTICS

Freqüentment les dades estadístiques necessiten d’una interpretació posterior.

Un paràmetre estadístic és un número que s'obté a partir de les dades d'una distribució estadística.

Els paràmetres estadístics serveixen per a sintetitzar la informació donada per una taula o per una gràfica Com es pot veure al gràfic següent, si representem les notes de dues classes diferents, de l’1 al 5, i fem una mitjana de cada classe obtindrem un valor similar, al voltant de 3. Però són prou diferents. En la primera hi ha molts alumnes molt bons i molts molt dolents. Mentre en la segona la majoria són els que envolten als valors centrals.

Per tant cal definir certs paràmetres estadístics. Alguns centren els valors de la distribució, com la mitjana aritmètica, i altres ens informen sobre la possible desviació de les dades des d’esta mitjana.

Considerarem dos tipus de paràmetres: de centralització i de dispersió

PARÀMETRES DE CENTRALITZACIÓ

Els paràmetres de centralització són valors que informen sobre el valor central al voltant del qual es distribueixen les dades. Els més habituals són: la mitjana aritmètica, la mediana i la moda.

Mitjana aritmètica (

x

) d'una distribució estadística és el quocient entre la suma de tots els valors de X observats i el nombre total d'observacions, N.

Per exemple, si hi ha dues persones que tenen 5 €, 4 persones que tenen 10 € i 3 persones que tenen 20 € (Xi) nº € (fi) nº persones Xi · fi

5 2 10

10 4 40

20 3 60

TOTALS (∑) N=9 110

El símbol ∑ significa sumatori

S i s u m e m t o t s e l s v a l o r s ( 5 + 5 + 1 0 + 1 0 + 1 0 + 1 0 + 2 0 + 2 0 + 2 0 ) s ’ u t i l i t z a l a f ò r m u l a

x = N

x

Però si multipliquem cada valor pel nº de persones s’utilitza

x = N

f

x

Mediana (M) és el valor de la variable que ocupa el valor central de les dades. Si el número de dades és senar es pren el valor central. Si és parell es pren la mitjana aritmètica dels dos valors centrals.

Exemple: tenim el següent conjunt de números

8,3,7,4,11,2,9,4,10,11,4.

Els ordenem: 2,3,4,4,4,7,8,9,10,11,11 En aquesta seqüència la mediana és 7, que és el número central.

I si tinguerem 8,3,7,4,11,9,4,10,11,4, ordenem: 3,4,4,4,7,8,9,10,11,11 i la mediana (Md) está en: els números centrals son 7 i 8; el que fem és sumar 7 + 8 i dividir entre 2. Md= 7.5

(6)

més).

Si en un grup hi ha dos o diverses puntuacions amb la mateixa freqüència i eixa freqüència és la màxima, la distribució és bimodal o multimodal, és a dir, té diverses modes.

1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9

Si dos puntuacions adjacents tenen la freqüència màxima, la moda és la mitjana de les dos puntuacions adjacents.

0, 1, 3, 3, 5, 5, 7, 8 Mo = 4

Quan treballem amb intervals no parlem de moda sinó d’interval modal.

PARÀMETRES DE DISPERSIÓ

Com hem vist abans, els paràmetres de centralització no són suficients en una estadística seriosa.

Necessitem, per tant, paràmetres de dispersió, que són valors que informen sobre el grau de separació o concentració de les dades. Els més habituals són: el rang, la variància i la desviació estàndard. Ens serveixen per a confirmar la veracitat o no dels paràmetres de centralització.

Rang d'una distribució estadística és la diferència entre el valor màxim i el valor mínim de la variable.

2,2,3,3,3,5,5,6,6,6,6,7,7,8,8,8,9,10,11,11,11,11 Rang: 11 – 2 = 9

És important adonar-se’n que no és el mateix una mitjana de 8 per a valors que van de l’1 al 10 que per a valors que van de l’1 al 100.

Variància és la mitjana aritmètica del quadrat de les desviacions respecte a la mitjana d’una distribució estadística.

També s’expressa com a S2o com a σ2.

Però, per a simplificar els càlculs, s’utilitza aquesta altra fórmula:

La variància és sempre un valor positiu (perquè està elevada al quadrat) o 0. Però moltes vegades no ens informa suficientment sobre la desviació de les dades o, al menys, no és massa intuïtiva.

Desviació típica : és l’arrel quadrada de la variància, i ens dóna valors més reals de la possible desviació de les dades, ja que els que ens dóna la variància estan al quadrat. S’expressa com a S o com a σ. Quant més petita siga major serà la concentració de dades al voltant de la mitjana.

Coeficient de variació de Pearson

Si volem treballar amb percentatges de fiabilitat d’una estadística podem utilitzar el coeficient de variació de Pearson. És la relació entre la desviació típica i la mitjana aritmètica:

Per a treballar en forma de percentatges:

(7)

ESTADÍSTICA

7

Així, si utilitzem el valor de la desviació típica el tindrem que comparar amb els valors de la nostra

estadística per a saber si és gran o no. Mentre que el coeficient de variació, al treballar amb percentatges, ens permet comparar distribucions sense tindre en compte els valors reals.

És el que realment ens mostra més netament la fiabilitat duna estadística.

INTERPRETACIÓ. Quina és millor?

En el cas de la variància elevar cada diferencia al quadrat fa que tots els números siguen positius, i també fa que les diferències grans respecte a la mitjana es destaquen. Per contra, és una mesura poc intuïtiva, de difícil valoració. Per això ens sol donar més informació la desviació típica, que ve expressada amb les mateixes unitats i/o proporcions que les dades.

Una desviació típica gran ens indica que hi ha dades molt allunyades de la mitjana, per tant estem a una distribució poc centralitzada i aquesta mitjana aritmètica no és representativa.

Per exemple, les tres mostres (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) tenen una mitjana de 7. Imaginem que són els llibres que tenen en casa quatre famílies diferents. Les seues desviacions típiques són,

respectivament, 7, 5 i 1. Què signifiquen?

 A la primera mostra la desviació sobre la mitjana (7) és de 7. Suposem que totes les famílies tenen 7 llibres però unes no en tenen cap i altres en tenen 14. La mitjana no ens aprofita per a res.

 A l´ultima mostra la desviació de d’1. Dels 7 que se suposa que tenen de mitjana ens en anem 1 a dreta o esquerra, és a dir, la mitjana és més fiable.

Però el que més informació ens donarà és el CV, sobretot si el comparem entre les tres distribucions. I com treballa amb percentatges, podem valorar una estadística com a fiable o no.

CUIDADÍN!!!: A l’examen no us demanen el CV, sols la variància i a desviació típica.

EXEMPLES I INTERPRETACIÓ

Estudiem el número de càries d’una població de 70 persones.

X

i

f

i

F n

i %

X

i

· f

i

X

i 2

· f

i

0 6 6 8,6 0 0

1 17 23 24,3 17 17

2 14 37 20 28 56

3 8 45 11,4 24 72

4 7 52 10 28 112

5 10 62 14,3 50 250

6 4 66 5,7 24 144

7 4 70 5,7 28 196

70 100 199 874

Moda: 1 Mediana: 2

Mitjana

x =

199 = 2,84 càries per persona 70

Rang= 7

Variància

S

2

=

874 70 - 2,842 = 4,41

Desviació

típica

S=

2,1 Coeficient

de variació CV= 2,1

=0,74 = 74%

2,84

(8)

fiable, perquè intenta abastar dades prou disperses (si sobre una mitjana de 2,84 ens desviem 2,1 a dreta o a esquerra, no anem bé) i menys amb un rang de 7. L’elevat valor del coeficient de variació ens ho confirma.

El gràfic ens ajuda a veure que les dades no estan agrupades al voltant d’un sol valor (la mitjana).

És un gràfic de barres per ser una variable discreta.

Veurem ara el número d’insectes trobats a cada arbre d’una plantació. Com el rang és gran els agrupem per intervals.

X

i marca

f

i

F n

i %

X

i

· f

i

X

i 2

· f

i

[0-4) 2 2 2 3,1 4 8

[4-8) 6 5 7 7,8 30 180

[8-12) 10 14 21 21,9 140 1400

[12-16) 14 18 39 28,2 252 3528

[16-20) 18 13 52 20,3 234 4212

[20-24) 22 6 58 9,4 132 2904

[24-28) 26 4 62 6,2 104 2704

[28-32) 30 2 64 3,1 60 1800

64 100 956 16736

Interval modal: 12-16

Mediana: 12-16 (encara que no es calcula així)

Mitjana

x =

956 64 = 14,94

Rang= 32

Variància

S

2

=

16736 64 = -14,942 = 38,3

Desviació

típica

S=

6,19 Coeficient

de variació CV= 6,19

=0,41 = 41%

14,94

Els valors de la variància i de la desviació típica són majors que a l’exercici anterior, però també ho és el rang (o els límits de la mostra). Una desviació de 6,19 sobre una mitjana de 14,9 i un rang de 32 no està del tot malament. Per a saber si és més fiable que en el cas de les càries cal comparar els coeficients de variació.

Encara que no és excessivament petit, en aquest cas és menor, la qual cosa indica, com el gràfic, que les dades estan més agrupades al voltant d’un valor.

És un histograma, per considerar la variable com a contínua.

Figure

Actualización...

Referencias

Actualización...

Related subjects :