• No se han encontrado resultados

Prova khi quadrat per a la bondat d ajustament

N/A
N/A
Protected

Academic year: 2021

Share "Prova khi quadrat per a la bondat d ajustament"

Copied!
13
0
0

Texto completo

(1)

Prova khi quadrat per a la bondat d’ajustament

La prova khi quadrat per a la bondat d’ajustament és un procediment estadístic que ens permet decidir si una distribució de freqüències empíriques difereix significativament de la distribució de freqüències esperada sota una determinada hipòtesi (hipòtesi nul·la).

El procediment és el següent:

1. Formulem el contrast d’hipòtesi:

H0:les freqüències observades no difereixen significativament de la distribució proposada H1:les freqüències observades sí difereixen significativament de la distribució proposada

 

on H0 rep el nom d’hipòtesi nul·la i H1 el d’hipòtesi alternativa.

2. Creem una taula amb les freqüències observades (oi) i les freqüències esperades (ei). Les freqüències

observades són les dades empíriques que hem obtingut. Les freqüències esperades, que s’han de calcular, són les freqüències teòriques que s’esperen si la hipòtesi nul·la fos certa.

3. A partir de les dades de la taula, calculem el valor de l’estadístic khi quadrat (χ2).

4. Comparem el valor de χ2 obtingut amb el valor crític corresponent que es troba tabulat (veure taula al final),

segons els graus de llibertat i el nivell de significació fixat (definirem aquests dos conceptes més endavant). Si el valor obtingut és més petit que el valor crític, acceptarem H0; en cas contrari, acceptarem H1 amb el risc

corresponent al nivell de significació d’haver-nos equivocat en la decissió. Freqüències observades i freqüències esperades

En fer un contrast d’aquest tipus, necessitarem crear una taula amb les freqüències observades (oi) i les freqüències

esperades (ei).

Suposem que en la mostra de dades observem k resultats possibles, E1, E2, E3, ..., Ek, amb freqüències o1, o2, o3, ..., ok,

respectivament i que, segons la distribució esperada sota la hipòtesi nul·la, aquestes freqüències haurien de ser e1, e2,

e3, ..., ek. Llavors, la taula de freqüències serà la següent:

Resultats E1 E2 E2 ... Ek

Freqüència observada o1 o2 o3 ... ok

Freqüència esperada e1 e2 e3 ... ek

Definició de khi quadrat (χ2)

L’estadistic χ2 proporciona una mesura de la discrepància existent entre les freqüències observades i les freqüències

esperades. El seu valor és

€ χ2=

(

o1− e1

)

2 e1 + o2− e2

(

)

2 e2 +...+ ok− ek

(

)

2 ek = oj− ej

(

)

2 ej j=1 k

(1) Si la mida de la mostra és N, tenim que

oj= j=1 k

ej = j=1 k

N (2) Es pot provar que una altra expressió equivalent a la fórmula (1) és

€ χ2= oj 2 ej j=1 k

− N (3) Observant l’expressió (1), podem veure que χ2

≥ 0. Si χ2 = 0, tenim que necessàriament les freqüències observades i

les esperades coincideixen exactament. Quant més gran sigui el valor de χ2, més gran serà la discrepància entre les

freqüències observades i les esperades. Graus de llibertat

(2)

- ν = k – 1, si les freqüències esperades poden calcular-se sense haver de fer cap estimació de paràmetres poblacionals a partir de la mostra.

- ν = k – 1 - m, si per poder calcular les freqüències esperades necessitem estimar m paràmetres poblacionals a partir de la mostra.

Nivell de significació

El nivell de significació d’un test, α, és la probabilitat màxima amb la qual ens arrisquem a equivocar-nos rebutjant la hipòtesi nul·la quan l’hauríem d’haver acceptat. Per exemple, fixar un nivell de significació α = 0.05 vol dir que existeixen aproximadament 5 possibilitats d’entre 100 de rebutjar la hipòtesi nul·la quan hauria d’acceptar-se. En la pràctica, el més habitual és fixar un nivell de significació de 0.05 o de 0.01.

Si rebutjem la hipòtesi nul·la quan l’hauríem d’haver acceptat estem cometent un error de Tipus I; si l’acceptem quan l’hauríem d’haver rebutjat estem cometent un error de Tipus II.

Realització del test

Una vegada calculat el valor de χ2, el comparem amb el valor crític

χ1−α,ν2 que es troba a la taula que es mostra al final.

- Si χ2

χ1−α,ν2 concluirem que les freqüències observades no difereixen significativament de les esperades i acceptarem H0.

- Si χ2 >

χ1−α,ν2 concluirem que les freqüències observades sí difereixen significativament de les esperades i rebutjarem H0, acceptant H1.

Exemple 1

A partir de la taula 1, determinar si, amb un nivell de significació del 5%, podem acceptar que la població de Mataró es distribueix en un 50% d’homes i un 50% de dones.

Homes Dones Total Habitants 56921 57193 114114

Taula 1. Habitants de Mataró 2004 (idescat) Solució

Formulem el contrast d’hipòtesi:

H0:Els dos sexes es distribueixen al 50% H1:Els dos sexes no es distribueixen al 50%

 

Ara completem la taula amb les freqüències esperades sota la hipòtesi nul·la: Homes Dones oi 56921 57193 ei 57057 57057 Calculem el valor de χ2: € χ2=

(

oj− ej

)

2 ej j=1 k

=

(

o1− e1

)

2 e1 + o2− e2

(

)

2 e2 = 56921− 57057

(

)

2 57057 + 57193 − 57057

(

)

2 57057 = 36992 57057≈ 0.648 Determinem el valor crític,

χ1−α,ν2 :

α = 5% = 0.05 → 1 - α = 0.95

ν = k – 1 = 2 – 1 = 1 (no hem hagut de fer cap estimació sobre la mostra per calcular les freqüències esperades) Llavors, el valor crític és χ2

0.95,1 = 3.84.

Finalment, com que χ2

≈ 0.648 < χ2

0.95,1 = 3.84, podem acceptar que no hi ha una diferència significativa entre el

(3)

Exemple 2

A partir de la Taula 2, determinar si, amb un nivell de significació del 2.5%, podem acceptar que la població de Barcelona es distribueix en un 50% d’homes i un 50% de dones.

Homes Dones Total Habitants 746045 832501 1578546

Taula 2. Habitants de Barcelona 2004 (idescat) Solució

Formulem el contrast d’hipòtesi:

H0:Els dos sexes es distribueixen al 50% H1:Els dos sexes no es distribueixen al 50%

 

Ara completem la taula amb les freqüències esperades sota la hipòtesi nul·la: Homes Dones oi 746045 832501 ei 789273 789273 Calculem el valor de χ2: € χ2=

(

oj− ej

)

2 ej j=1 k

=

(

o1− e1

)

2 e1 + o2− e2

(

)

2 e2 = 746045 − 789273

(

)

2 789273 + 832501− 789273

(

)

2 789273 ≈ 4735.14 Determinem el valor crític,

χ1−α,ν2 :

α = 2.5% = 0.025 → 1 - α = 0.975

ν = k – 1 = 2 – 1 = 1 (no hem hagut de fer cap estimació sobre la mostra per calcular les freqüències esperades) Llavors, el valor crític és χ2

0.975,1 = 5.02.

Finalment, com que χ2

≈ 4735.14 > χ2

0.975,1 = 5.02, rebutjem la hipòtesi de que no hi ha una diferència significativa entre

el percentatge d’homes i de dones a Barcelona.

Exemple 3

S’ha llençat un dau 120 vegades i els resultats han estat els següents:

Cara del dau 1 2 3 4 5 6

Vegades 24 17 15 23 24 17

Contrastar la hipòtesi de que el dau és legal amb un nivell de significació del 5%. Solució

Formulem el contrast d’hipòtesi:

H0:El dau és legal

H1:El dau no és legal

  

Ara completem la taula amb les freqüències esperades sota la hipòtesi nul·la. Sota aquesta hipòtesi, totes les cares tenen la mateixa probabilitat de sortir i, per tant, la freqüència esperada de cada cara és la sisena part del nombre de llençaments:

Cara del dau 1 2 3 4 5 6

oi 24 17 15 23 24 17 ei 20 20 20 20 20 20 Calculem el valor de χ2: € χ2=

(

oj− ej

)

2 ej j=1 k

=

(

o1− e1

)

2 e1 + o2− e2

(

)

2 e2 + o3− e3

(

)

2 e3 + o4− e4

(

)

2 e4 + o5− e5

(

)

2 e5 + o6− e6

(

)

2 e6 = = 24 − 20

(

)

2 20 + 17− 20

(

)

2 20 + 15 − 20

(

)

2 20 + 23− 20

(

)

2 20 + 24 − 20

(

)

2 20 + 17− 20

(

)

2 20 = 21 5 = 4.2

(4)

Determinem el valor crític,

χ1−α,ν2 :

α = 5% = 0.05 → 1 - α = 0.95

ν = k – 1 = 6 – 1 = 5 (no hem hagut de fer cap estimació sobre la mostra per calcular les freqüències esperades) Llavors, el valor crític és χ2

0.95,5 = 11.1.

Finalment, com que χ2

= 4.2 < χ2

0.95,5 = 11.1, acceptem la hipòtesi nul·la i decidim que el dau és legal.

Exemple 4

En els seus experiments amb pèsols, Gregor Mendel va observar que 315 n’eren llisos i grocs, 108 n’eren llisos i verds, 101 n’eren rugosos i grocs i 32 n’eren rugosos i verds. D’acord amb la seva teoria de l’herència, aquest nombres haurien d’estar en la proporció 9 : 3 : 3 : 1. Hem de dubtar d’aquesta teoria amb un nivell de significació de l’1%? I amb un nivell de significació del 5%?

Solució

Formulem el contrast d’hipòtesi: H0:La proporció és 9 :3 :3 :1 H1:La proporció no és 9 :3 :3 :1   

Ara hem de calcular les freqüències esperades sota la hipòtesi nul·la. Sota aquesta hipòtesi, les proporcions esperades són: - llisos i grocs: € 9 9 + 3 + 3 +1= 9 16 - llisos i verds: € 3 9 + 3 + 3 +1= 3 16 - rugosos i grocs: € 3 9 + 3 + 3 +1= 3 16 - rugosos i verds: € 1 9 + 3 + 3 +1= 1 16

La mida de la mostra és 315 + 108 + 101 + 32 = 556. Llavors, les freqüències esperades són: - llisos i grocs: € 9 16⋅ 556 = 312.75 - llisos i verds: € 3 16⋅ 556 = 104.25 - rugosos i grocs: € 3 16⋅ 556 = 104.25 - rugosos i verds: € 1 16⋅ 556 = 34.75

La taula de freqüències observades i esperades és:

Tipus de pèsol llisos igrocs llisos iverds rugosos igrocs rugosos iverds

oi 315 108 101 32 ei 312.75 104.25 104.25 34.75 Calculem el valor de χ2: € χ2=

(

oj− ej

)

2 ej j=1 k

=

(

o1− e1

)

2 e1 + o2− e2

(

)

2 e2 + o3− e3

(

)

2 e3 + o4− e4

(

)

2 e4 = € =

(

315 − 312.75

)

2 312.75 + 108 −104.25

(

)

2 104.25 + 101−104.25

(

)

2 104.25 + 32 − 34.75

(

)

2 34.75 = 196 417≈ 0.47

Determinem els valors crítics,

χ1−α,ν2 : Per a α = 1% = 0.01 → 1 - α = 0.99 Per a α = 5% = 0.05 → 1 - α = 0.95

(5)

ν = k – 1 = 4 – 1 = 3 (no hem hagut de fer cap estimació sobre la mostra per calcular les freqüències esperades) Llavors, els valors crítics són χ2

0.99,3 = 11.3 i χ20.95,3 = 7.81.

Finalment, com que χ2

< χ2

0.99,3 i χ2 < χ20.95,3, en cap cas podem rebutjar la hipòtesi nul·la i, per tant, hem de dir que la

teoria i l’experiment concorden.

Exemple 5

El nombre de llibres deixats en préstecs en una biblioteca pública, durant una setmana, és el que presenta la taula següent:

Dia Dilluns Dimarts Dimecres Dijous Divendres

Nombre de llibres 135 109 119 114 146

Contrastar la hipòtesi de que el nombre de préstecs no depèn del dia de la setmana per a un nivell de significació del 5%.

Solució

Formulem el contrast d’hipòtesi:

H0:El nombre de préstecs no depèn del dia H1:El nombre de préstecs sí depèn del dia

 

Ara completem la taula amb les freqüències esperades sota la hipòtesi nul·la. Sota aquesta hipòtesi, el nombre de préstecs és el mateix cada dia. Com que no coneixem aquesta quantitat, haurem de fer una estimació. Amb les dades de què disposem, l’estimació que podem fer és la mitjana setmanal de préstecs:

Estimació de préstecs diaris:

135 +109 +119+114 +146

5 = 124.6

Llavors, la taula de freqüències observades i freqüències esperades és:

Dia Dilluns Dimarts Dimecres Dijous Divendres

oi 135 109 119 114 146 ei 124.6 124.6 124.6 124.6 124.6 I el valor de χ2: € χ2=

(

oj− ej

)

2 ej j=1 k

=

(

o1− e1

)

2 e1 + o2− e2

(

)

2 e2 + o3− e3

(

)

2 e3 + o4− e4

(

)

2 e4 + o5− e5

(

)

2 e5 = € =

(

135 −124.6

)

2 124.6 + 109 −124.6

(

)

2 124.6 + 119 −124.6

(

)

2 124.6 + 114 −124.6

(

)

2 124.6 + 146 −124.6

(

)

2 124.6 = 4766 623 ≈ 7.65

Determinem el valor crític,

χ1−α,ν2 :

α = 5% = 0.05 → 1 - α = 0.95

ν = k – 1 - m = 5 – 1 - 1 = 3 (hem hagut d’estimar el nombre diari de préstecs sobre la mostra per calcular les freqüències esperades)

Llavors, el valor crític és χ2

0.95,3 = 7.81.

Finalment, com que χ2

< χ2

0.95,3 acceptem la hipòtesi nul·la, encara que amb molt de risc, i decidim que el nombre de

préstecs no depèn del dia de la setmana.

Exercicis

1. Fes el contrast d’hipòtesi per tal de decidir, amb un nivell de significació del 5%, si en les poblacions corresponents a les taules 3 i 4 la distribució per sexes és del 50% d’homes i el 50% de dones.

Homes Dones Total

Habitants 3366329 3446990 6813319

Homes Dones Total

Habitants 21285247 21912437 43197684

(6)

2. Busca la distribució de la població per sexes corresponen a Xina i fes el mateix contrast d’hipòtesi que en l’exercici 1.

3. Llença una moneda 50 vegades, anota els resultats i decideix si la moneda és legal, fent servir un nivell de significació del 5%.

4. En una fàbrica d’ampolles hi ha quatre màquines. Durant una jornada s’hi van seleccionar a l’atzar 300 ampolles de cada màquina. Els nombres d’ampolles defectuoses van ser 3, 13, 15 i 5. Determina, amb un nivell de significació del 5%, si hi ha diferències significatives entre les quatre màquines.

5. Proveu que les fórmules (1) i (3) són equivalents.

6. Després de llençar tres monedes 240 vegades i anotar el nombre de cares que sortien cada vegada, els resultats han estat els següents:

0 cares 1 cara 2 cares 3 cares

Freqüència observada 24 107 96 23

Determina, amb un nivell de significació del 5%, si les monedes són legals.

Ajut: per a calcular les freqüències esperades, fes servir la fórmula de la distribució de probabilitat binomial: Pn(m) = n m       pm(1− p)n−m (4) on: -

Pn(m) és la probabilitat (o freqüència esperada) d’obtenir m cares en llençar n monedes,

- n m       = n! m!(n − m)!, amb n!= n(n −1)(n − 2)⋅ ⋅ ⋅ 3 ⋅ 2 ⋅1,

- p és la probabilitat de sortir cara en llençar una moneda. (Sota la hipòtesi nul·la és p = 0.5) 7. S’ha entrevistat a 480 famílies amb 5 fills i la distribució per sexes ha estat la següent:

5 nois

0 noia 4 nois1 noia 2 noies3 nois 3 noies2 nois 4 noies1 noi 5 noies0 nois

Nombre de famílies 28 82 167 130 60 13

Determina, amb un nivell de significació del 5%, si és igualment probable néixer noi o noia. Ajut: per a calcular les freqüències esperades, aplica la fórmula (4).

8. S’ha demanat a un ordinador que generi, a l’atzar, 400 dígits del 0 al 9. Els resultats han estat els següents:

Dígit 0 1 2 3 4 5 6 7 8 9

Freqüència observada 27 49 46 29 24 33 56 49 31 56

Determina, amb un nivell de significació de l’1%, si podem considerar que els dígits han estat generats a l’atzar

(7)

Prova khi quadrat per a la correlació d’atributs

La prova khi quadrat també es pot fer servir per a mesurar la correlació entre atributs, a partir de les freqüències observades en les diferents categories, tenint en compte simultàniament els atrubuts a estudiar. Habitualment, la hipòtesi nul·la és la d’independència entre els atrubuts, de tal forma que les freqüències esperades seran les freqüències marginals de les categories d’un dels atributs (freqüències de les categories d’un atribut sense tenir en compte els valors de l’altre atribut).

El procediment per a realitzar el test khi quadrat és similar al que se segueix en el test khi quadrat per a la bondat d’ajustament. Per a realitzar aquest test, però, convé abans definir el concepte de taula de contingència.

Taules de contingència

Una taula de contingència h x k és una taula d’h files i k columnes. Cada fila correspon a un valor possible d’un atribut i cada columna correspon a un valor possible d’un altre atribut. Un exemple de taula de contingència amb h = k = 3 és el següent:

Qualificació en matemàtiques Alta Mitja Baixa

Alta 29 32 8

Mitja 23 84 18

Qualificació en llengua

Baixa 8 21 42

En fer un contrast d’hipòtesi sobre una taula de contingència haurem de crear una altra taula de contingència amb les freqüències esperades sota la hipòtesi nul·la.

Realització del test

A partir de la taula de contingència amb les freqüències observades, es crea una nova taula amb les freqüències esperades calculades sota la hipòtesi nul·la. Una vegada creada aquesta taula, es calcula el valor de χ2 i es compara

amb el valor crític

€ χ1−α,ν2 . - Si χ2 ≤

χ1−α,ν2 concluirem que les freqüències observades no difereixen significativament de les esperades i acceptarem H0.

- Si χ2 >

χ1−α,ν2 concluirem que les freqüències observades sí difereixen significativament de les esperades i rebutjarem H0, acceptant H1.

Graus de llibertat

En aplicar el test khi quadrat sobre una taula de contingència h x k, el nombre de graus de llibertat, ν, és:

- ν = (h – 1)(k – 1), si les freqüències esperades poden calcular-se sense haver de fer cap estimació de paràmetres poblacionals a partir de la mostra.

- ν = (h – 1)(k – 1) - m, si per poder calcular les freqüències esperades necessitem estimar m paràmetres poblacionals a partir de la mostra.

Coeficient de contingència

El coeficient de contingència és una mesura del grau d’associació o dependència entre els atributs d’una taula de contingència. El seu valor ve donat per l’expressió

C = χ 2 χ2+ N (5)

Quant més gran sigui C, més gran serà el grau d’associació. El valor màxim de C depèn del nombre de files, h, i de columnes, k, de la taula, però mai no pot ser més gran que 1. En una taula de contingència quadrada (h = k), el valor màxim de C és

(k −1)/k.

Coeficient de correlació d’atributs en taules k x k

El coeficient de correlació d’atributs en taules k x k també és una mesura del grau d’associació o dependència entre els atributs d’una taula de contingència quadrada. El seu valor ve donat per l’expressió

(8)

r = χ2

N(k −1) (6) El valor de r sempre es troba entre 0 i 1. Quant més gran sigui r, més gran elevat és el grau d’associació entre els atributs.

Exemple 6

300 persones que pateixen certa malaltia són dividides en dos grups, G1 i G2, de 150 persones cadascun. S’administra un compost a cada individu, però únicament el compost administrat al grup G1 conté un medicament contra al malatia. Després d’un temps es contabilitzen sans i malalts i s’obtenen les següents dades:

Freqüències observades

Van sanar No van sanar Total

G1 (amb medicament) 113 37 150

G2 (sense medicament) 98 52 150

Total 211 89 300

Decideix, amb un nivell de significació de l’1%, si el medicament fa efecte sobre la malatia. Solució

Formulem el contrast d’hipòtesi:

H0:El medicament no fa efecte H1:El medicament sí fa efecte

  

Ara creem la taula amb les freqüències esperades sota la hipòtesi nul·la. Sota aquesta hipòtesi, no hem de tenir en compte si es va administrar el medicament i, per tant, només hem de comptar el total de persones que van sanar (211) i el total de persones que no ho van fer (89), i dividir-los en els dos grups:

Freqüències esperades sota H0

Van sanar No van sanar Total

G1 (amb medicament) 105.5 44.5 150 G2 (sense medicament) 105.5 44.5 150 Total 211 89 300 Calculem el valor de χ2: € χ2=

(

oj− ej

)

2 ej j=1 k

=

(

o1− e1

)

2 e1 + o2− e2

(

)

2 e2 + o3− e3

(

)

2 e3 + o4− e4

(

)

2 e4 = € =

(

113 −105.5

)

2 105.5 + 98−105.5

(

)

2 105.5 + 37− 44.5

(

)

2 44.5 + 52− 44.5

(

)

2 44.5 = 67500 18779≈ 3.59

Determinem el valor crític,

χ1−α,ν2 :

α = 1% = 0.01 → 1 - α = 0.99

ν = (h – 1)(k – 1) = (2 – 1)( 2 – 1) = 1 (no hem hagut de fer cap estimació sobre la mostra per calcular les freqüències esperades)

Llavors, el valor crític és χ2

0.99,1 = 6.63. Per tant, com que χ2 = 3.59 < χ20.99,1 = 6.63, hem d’acceptar la hipòtesi nul·la i

decidim que, segons aquest test, el medicament no és eficient.

Exemple 7

Un operador de telefonia mòbil vol esbrinar si hi ha associació entre la compra de telèfons mòbils i l’edat del consumidor. Després de fer 2000 enquestes, s’obtenen les següents dades:

18-24 25-54 55-64 ≥ 65 Total

Té mòbil 415 462 421 342 1640

No té mòbil 85 38 79 158 360

(9)

Decideix, amb un nivell de significació del 5%, si el consum de telèfons mòbils es distribueix independentment de l’edat del consumidor.

Solució

Formulem el contrast d’hipòtesi:

H0:No hi ha associació entre consum i edat H1:Sí hi ha associació entre consum i edat

 

Creem la taula amb les freqüències esperades sota la hipòtesi nul·la. Sota aquesta hipòtesi, el percentatge de persones que té mòbil no depèn de l’edat i és

1640

2000⋅100 = 82%

i llavors la taula de freqüències esperades serà la següent:

Freqüències esperades sota H0

18-24 25-54 55-64 ≥ 65 Total Té mòbil 410 410 410 410 1640 No té mòbil 90 90 90 90 360 Total 500 500 500 500 2000 Calculem el valor de χ2: € χ2=

(

oj− ej

)

2 ej j=1 k

=

(

o1− e1

)

2 e1 + o2− e2

(

)

2 e2 + o3− e3

(

)

2 e3 + o4− e4

(

)

2 e4 + € +

(

o5− e5

)

2 e5 + o6− e6

(

)

2 e6 + o7− e7

(

)

2 e7 + o8− e8

(

)

2 e8 = € =

(

415 − 410

)

2 410 + 462 − 410

(

)

2 410 + 421− 410

(

)

2 410 + 342 − 410

(

)

2 410 + € =

(

85 − 90

)

2 90 + 38− 90

(

)

2 90 + 79 − 90

(

)

2 90 + 158 − 90

(

)

2 90 = 37370 369 ≈ 101.27

Determinem el valor crític,

χ1−α,ν2 :

α = 5% = 0.05 → 1 - α = 0.95 ν = (h – 1)(k – 1) = (2 – 1)( 4 – 1) = 3. Llavors, el valor crític és χ2

0.95,3 = 7.81.

Finalment, com que χ2

> χ2

0.95,2, hem de rebutjar la hipòtesi nul·la i decidir que, segons aquest test, les proporcions de

propietaris de telèfons mòbils no són iguals en els diferents grups d’edats.

Exemple 8

La taula següent mostra els resultats d’un experiment realitzat per a investigar l’efecte de la vacunació d’animals de laboratori contra una malaltia en particular. Fent servir nivells de significació de l’1% i del 5%, proba la hipòtesi de que no existeix diferència entre el grup vacunat i el no vacunat.

Malalts Sans

Vacunats 9 42

No vacunats 17 28

Solució

Formulem el contrast d’hipòtesi:

H0:La vacuna no afecta

H1:La vacuna sí afecta

 

(10)

Malalts Sans Total

Vacunats 9 42 51

No vacunats 17 28 45

Total 26 70 96

Creem la taula amb les freqüències esperades sota la hipòtesi nul·la. Sota aquesta hipòtesi, la proporció d’animals malalts no depèn de la vacunació i és

€ 26 96= 13 48

I ara creem la taula amb les freqüències esperades sota la hipòtesi nul·la:

Malalts Sans Vacunats € 13 48de 51= 221 16 € 51−221 16 = 595 16 No vacunats € 13 48de 45 = 195 16 € 45−19516 =525 16

Freqüències esperades sota H0 Calculem el valor de χ2: € χ2=

(

oj− ej

)

2 ej j=1 k

=

(

o1− e1

)

2 e1 + o2− e2

(

)

2 e2 + o3− e3

(

)

2 e3 + o4− e4

(

)

2 e4 = € = 9 −221 16       2 221 16 + 17−195 16       2 195 16 + 42 −595 16       2 595 16 + 28 −525 16       2 525 16 =27104 5525 ≈ 4.91

Determinem el valor crític,

€ χ1−α,ν2 : α = 1% = 0.01 → 1 - α = 0.99 α = 5% = 0.05 → 1 - α = 0.95 ν = (h – 1)(k – 1) = (2 – 1)(2 – 1) = 1. Llavors, els valors crítics són χ2

0.99,1 = 6.63 i χ20.95,1 = 3.84.

Finalment, tenim que χ2

< χ2

0.99,1 però χ2 > χ20.95,1. Això ens indica que amb un nivell de significació de l’1% hem

d’acceptar la hipòtesi nul·la i decidim que la vacuna no és efectiva, però, amb un nivell de significació de l’5% l’hem de rebutjar. Així doncs, aquest test no és suficient fiable per tal de decidir sobre l’eficiència de la vacuna.

Exemple 9

Calcula el coeficient de correlació corresponent a la taula de l’exemple 8 i interpreta el resultat. Solució

El coeficient de correlació corresponent a una taula de contingència k x k ve donat per la fórmula (6):

r = χ 2 N(k −1) En aquest cas tenim que χ2 =

€ 27104 5525 , N = 96 i k = 2. Per tant, r = χ 2 N(k −1)= 27104 5525 96 ⋅1 = 847 16575 ≈ 0.23

El valor de r sempre es troba entre 0 i 1, i quant més gran més associació. Així, en aquest cas, hem de descartar una associació clara entre sanar i haver estat vacunat.

(11)

Exercicis

9. Un professor fa classes als grups A i B. Per a avaluar un tema, decideix posar el mateix examen als dos grups. Els resultats són els següents:

Aprovats Suspesos

Classe A 62 18

Classe B 58 21

Prova, amb un nivell de significació del 5%, si no hi ha diferències significatives entre les dues classes. Calcula també el coeficient de correlació d’atributs i interpreta el resultat.

10. Un grup de pacients que pateixen cefalea freqüentment va ser dividit en dos grups. En un grup es va administrar una pastilla dolça contra la cefalea a cada pacient. En l’altre grup es va administrar a cada pacient una pastilla de sucre, sense cap medicament. Els resultats van ser els següents:

Van millorar No van millorar Amb medicament 70 16 Sense medicament 130 56

Prova, amb un nivell de significació de l’1%, si hi ha diferències entre les pastilles amb medicament i les de sucre.

11. Respecte una proposta del govern d’un ajuntament, es va demanar l’opinió en dos barris A i B de la ciutat. Els resultats van ser:

A favor En contra Abstenció

Barri A 68 62 30

Barri B 94 49 20

Determina, amb un nivell de significació del 5%, si hi ha diferències significatives d’opinió entre els dos barris. 12. La taula següent mostra les qualificacions d’un grup d’alumnes en matemàtiques i llengua:

Qualificacions de matemàtiques Alta Mitja Baixa

Alta 29 32 8

Mitja 23 84 18

Qualificacions de llengua

Baixa 8 21 42

Prova la hipòtesi de que els resultats obtinguts en matemàtiques són independents dels resultats obtinguts en llengua amb nivells de significació de l’1% i del 5%. Calcula el coeficient de correlació d’atributs i interpreta el resultat.

13. La taula següent mostra el nombre d’accidents en què els conductors s’han vist implicats, en funció de l’edat: Edat del conductor

[21-30] [31-40] [41-50] [51-60] [61-70] 0 2326 3166 3020 2462 2581 1 255 237 199 257 196 2 106 87 77 52 46 Nombre d’accidents > 2 29 33 21 16 21

Prova la hipòtesi de que el nombre d’accidents és independent de l’edat del conductor, amb nivells de significació de l’1% i del 5%.

14. Calcula el coeficient de correlació corresponent a la taula segúent i interpreta el resultat. Color de cabell

Ros No ros

Blau 59 30

Color

(12)

15. A partir de les taules 3 i 4 de l’exercici 1, determina, amb un nivell de significació del 5%, si es pot considerar que el percentatge d’homes i dones és el mateix a Catalunya i a Espanya.

(13)

Referencias

Documento similar

Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..

a) Descriure quines són les TIC més usades en la comunicació dels actors vinculats amb l’esport: organitzacions esportives, organitzacions comercials esportives, mitjans

examinar l’evolució de la representació del cos gros femení a les produccions audiovisuals dels últims anys per tal de comprovar si està havent-hi un avenç o una

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y

Sí La recepció robotitzada Sí Masculí 23-30 anys Formació professional (Cicle formatiu) Actiu Personal de base. No La recepció tradicional Sí Femení 23-30 anys Batxillerat

[r]

[r]