ESTADÍSTICA. L'Estadística és la ciència matemàtica relacionada amb la recopilació, anàlisi, interpretació i representació de dades.

Texto completo

(1)

ESTADÍSTICA

1

Conceptes

L'Estadística és la ciència matemàtica relacionada amb la recopilació, anàlisi, interpretació i representació de dades.

Població: conjunt d'elements dels quals volem estudiar alguna característica determinada (per exemple, els

alumnes de 2n d’ESO d’una ciutat).

Mostra: subconjunt de la població del qual extraurem les dades per a la realització de l'estudi estadístic

(p.ex. alumnes d’eso de l’institut Pou Clar). Per a ser representativa cal que siga aleatòria (elements escollits a l’atzar) i proporcional (els individus de la mostra han de conservar la mateixa proporció que a la població: si hi ha meitat xics i xiques, p.ex.))

Caràcter estadístic (Xi): propietat que volem estudiar dels elements de la població i que permet

classificar-los en diferents modalitats (p.ex., l’altura, o la nota de matemàtiques). Poden ser:

Una variable quantitativa és la que s’expressa mitjançant un número, per tant es poden realitzar

operacions aritmètiques amb ella. Podem distingir dos tipus: Variable discreta

Una variable discreta és aquella que pren valors aïllats, és a dir no admet valors intermedis entre dos valors específics. Per exemple:

El nombre de germans de 5 amics: 2, 1, 0, 1, 3.

Variable contínua

Una variable contínua és aquella que pot prendre valors compresos entre dos números. Per exemple: L’altura dels 5 amics: 1.73, 1.82, 1.77, 1.69, 1.75.

Freqüència absoluta (fi) d'un valor és el nombre de vegades que es repeteix aquest.

Freqüència relativa d'un valor és el quocient entre la freqüència absoluta f i el nombre total de dades N.

Paràmetres de centralització i de dispersió

(2)

Els valors de dispersió serien grans. En la segona els valors de la dispersió ens confirmarien que la mitjana és prou fiable. Els més habituals són: el rang, la variància i la desviació estàndard. Ens serveixen per a confirmar la veracitat o no dels paràmetres de centralització.

PARÀMETRES DE CENTRALITZACIÓ

Mitjana aritmètica (

x

)

d'una distribució estadística és el quocient entre la suma de tots els valors de X observats i el nombre total d'observacions, N.

Per exemple, si hi ha dues persones que tenen 5 €, 4 persones que tenen 10 € i 3 persones que tenen 20 €

(Xi) nº € (fi) nº persones Xi · fi

5 2 10

10 4 40

20 3 60

TOTALS (∑) N=9 110

El símbol ∑ significa sumatori

S i su m em t ot s e ls val o rs (5 +5 +1 0 +1 0 +1 0 +1 0 +2 0 +2 0 +2 0 ) s ’u t i lit z a la fò rm u la

x

=

N

x

Però si multipliquem cada valor pel nº de persones s’utilitza

x

=

N

f

x

Mediana (M) és el valor de la variable que ocupa el valor central de les dades. Si el número de dades és

senar es pren el valor central. Si és parell es pren la mitjana aritmètica dels dos valors centrals. Exemple: tenim el següent conjunt de números

8,3,7,4,11,2,9,4,10,11,4.

Els ordenem: 2,3,4,4,4,7,8,9,10,11,11 En aquesta seqüència la mediana és 7, que és el número central. I si tinguerem 8,3,7,4,11,9,4,10,11,4, ordenem: 3,4,4,4,7,8,9,10,11,11 i la mediana (Md) está en: els números centrals son 7 i 8; el que fem és sumar 7 + 8 i dividir entre 2. Md= 7.5

La moda (Mo) d'una distribució estadística és el valor (o valors) de freqüència més alta.

PARÀMETRES DE DISPERSIÓ

S'anomena rang d'una distribució estadística la diferència entre el valor màxim i el valor mínim de la variable.

(3)

ESTADÍSTICA

3

Però, per a simplificar els càlculs, s’utilitza aquesta altra fórmula:

La variància és sempre un valor positiu o 0. Però moltes vegades no ens informa suficientment sobre la desviació de les dades o, al menys, no és massa intuïtiva.

La desviació típica és l’arrel quadrada de la variància, i ens dóna valors més reals de la possible desviació de les dades, ja que els que ens dóna la variància estan al quadrat. S’expressa com a S o com a σ. Quant més petita siga major serà la concentració de dades al voltant de la mitjana.

Si volem treballar amb percentatges de fiabilitat d’una estadística podem utilitzar el coeficient de variació

de Pearson. És la relació entre la desviació típica i la mitjana aritmètica:

Per a treballar en forma de percentatges:

Així, el valor de la desviació típica el tindrem que comparar amb els valors de la nostra estadística per a saber si és gran o no. Mentre que el coeficient de variació, al treballar amb percentatges,ens permet comparar distribucions sense saber tindre en compte els valors reals.

Tipus de diagrames

Histograma

En estadística, un histograma és una representació gràfica d’un conjunt de dades numèriques que s’agrupen per classes (variables contínues). Cada barra és proporcional a la freqüència dels valors representats. No hi ha separació entre les barres. En l’eix vertical es representen les freqüències, i en l’eix horitzontal els valors de les variables, normalment assenyalant les marques de classe. S’utilitza quan s’estudia una variable contínua, com a franges d’edats o altura, i els seus valors s’agrupen en classes, és a dir, valors continus.

Diagrama de barres

Un gràfic de barres, també conegut com a gràfic de

columnes, és un diagrama amb barres rectangulars de

(4)

de cercle proporcional a la seua freqüència absoluta o relativa.

Polígon de freqüències

Un polígon de freqüències es forma unint els extrems de les barres mitjançant segments.

EXEMPLES I INTERPRETACIÓ

Estudiem el número de càries d’una població de 70 persones.

X

i

f

i

F

n

i %

X

i

· f

i

X

i 2

· f

i 0 6 6 8,6 0 0 1 17 23 24,3 17 17 2 14 37 20 28 56 3 8 45 11,4 24 72 4 7 52 10 28 112 5 10 62 14,3 50 250 6 4 66 5,7 24 144 7 4 70 5,7 28 196 70 100 199 874 Moda: 1 Mediana: 2

Mitjana

x

=

199 = 2,84 càries per persona 70

Rang= 7

Variància

S

2

=

874 = -2,842 = 4,41 70

Desviació

típica

S=

2,1 Coeficient de variació CV= 2,1 =0,74 = 74% 2,84

El valor de la desviació típica respecte a la mitjana ens indica que aquesta no sembla molt fiable. L’elevat valor del coeficient de variació ens ho confirma.

(5)

ESTADÍSTICA

5

Veurem ara el número d’insectes trobats a cada arbre d’una plantació. Com el rang és gran els agrupem per intervals.

X

i marca

f

i

F

n

i %

X

i

· f

i

X

i 2

· f

i [0-4) 2 2 2 3,1 4 8 [4-8) 6 5 7 7,8 30 180 [8-12) 10 14 21 21,9 140 1400 [12-16) 14 18 39 28,2 252 3528 [16-20) 18 13 52 20,3 234 4212 [20-24) 22 6 58 9,4 132 2904 [24-28) 26 4 62 6,2 104 2704 [28-32) 30 2 64 3,1 60 1800 64 100 956 16736 Moda: 12-16

Mediana: 12-16 (encara que no es calcula així) Mitjana

x

=

956 = 14,94 64 Rang= 32 Variància

S

2

=

16736 = -14,942 = 38,3 64 Desviació

típica

S=

6,19 Coeficient de variació CV= 14,94 6,19 =0,41 = 41%

Els valors de la variància i de la desviació típica són majors que a l’exercici anterior, però també ho és el rang (o els límits de la mostra). Per a saber si és més fiable que en el cas de les càries cal comparar els coeficients de variació. Encara que no és excessivament petit, en aquest cas és menor, la qual cosa indica, com el gràfic, que les dades estan més agrupades al voltant d’un valor. És un histograma, per

Figure

Actualización...

Referencias

Actualización...