Prova khi quadrat per a la bondat d’ajustament
La prova khi quadrat per a la bondat d’ajustament és un procediment estadístic que ens permet decidir si una distribució de freqüències empíriques difereix significativament de la distribució de freqüències esperada sota una determinada hipòtesi (hipòtesi nul·la).
El procediment és el següent:
1. Formulem el contrast d’hipòtesi:
€
H0:les freqüències observades no difereixen significativament de la distribució proposada H1:les freqüències observades sí difereixen significativament de la distribució proposada
on H0 rep el nom d’hipòtesi nul·la i H1 el d’hipòtesi alternativa.
2. Creem una taula amb les freqüències observades (oi) i les freqüències esperades (ei). Les freqüències
observades són les dades empíriques que hem obtingut. Les freqüències esperades, que s’han de calcular, són les freqüències teòriques que s’esperen si la hipòtesi nul·la fos certa.
3. A partir de les dades de la taula, calculem el valor de l’estadístic khi quadrat (χ2).
4. Comparem el valor de χ2 obtingut amb el valor crític corresponent que es troba tabulat (veure taula al final),
segons els graus de llibertat i el nivell de significació fixat (definirem aquests dos conceptes més endavant). Si el valor obtingut és més petit que el valor crític, acceptarem H0; en cas contrari, acceptarem H1 amb el risc
corresponent al nivell de significació d’haver-nos equivocat en la decissió. Freqüències observades i freqüències esperades
En fer un contrast d’aquest tipus, necessitarem crear una taula amb les freqüències observades (oi) i les freqüències
esperades (ei).
Suposem que en la mostra de dades observem k resultats possibles, E1, E2, E3, ..., Ek, amb freqüències o1, o2, o3, ..., ok,
respectivament i que, segons la distribució esperada sota la hipòtesi nul·la, aquestes freqüències haurien de ser e1, e2,
e3, ..., ek. Llavors, la taula de freqüències serà la següent:
Resultats E1 E2 E2 ... Ek
Freqüència observada o1 o2 o3 ... ok
Freqüència esperada e1 e2 e3 ... ek
Definició de khi quadrat (χ2)
L’estadistic χ2 proporciona una mesura de la discrepància existent entre les freqüències observades i les freqüències
esperades. El seu valor és
€ χ2=
(
o1− e1)
2 e1 + o2− e2(
)
2 e2 +...+ ok− ek(
)
2 ek = oj− ej(
)
2 ej j=1 k∑
(1) Si la mida de la mostra és N, tenim que€ oj= j=1 k
∑
ej = j=1 k∑
N (2) Es pot provar que una altra expressió equivalent a la fórmula (1) és€ χ2= oj 2 ej j=1 k
∑
− N (3) Observant l’expressió (1), podem veure que χ2≥ 0. Si χ2 = 0, tenim que necessàriament les freqüències observades i
les esperades coincideixen exactament. Quant més gran sigui el valor de χ2, més gran serà la discrepància entre les
freqüències observades i les esperades. Graus de llibertat
- ν = k – 1, si les freqüències esperades poden calcular-se sense haver de fer cap estimació de paràmetres poblacionals a partir de la mostra.
- ν = k – 1 - m, si per poder calcular les freqüències esperades necessitem estimar m paràmetres poblacionals a partir de la mostra.
Nivell de significació
El nivell de significació d’un test, α, és la probabilitat màxima amb la qual ens arrisquem a equivocar-nos rebutjant la hipòtesi nul·la quan l’hauríem d’haver acceptat. Per exemple, fixar un nivell de significació α = 0.05 vol dir que existeixen aproximadament 5 possibilitats d’entre 100 de rebutjar la hipòtesi nul·la quan hauria d’acceptar-se. En la pràctica, el més habitual és fixar un nivell de significació de 0.05 o de 0.01.
Si rebutjem la hipòtesi nul·la quan l’hauríem d’haver acceptat estem cometent un error de Tipus I; si l’acceptem quan l’hauríem d’haver rebutjat estem cometent un error de Tipus II.
Realització del test
Una vegada calculat el valor de χ2, el comparem amb el valor crític
€
χ1−α,ν2 que es troba a la taula que es mostra al final.
- Si χ2
≤
€
χ1−α,ν2 concluirem que les freqüències observades no difereixen significativament de les esperades i acceptarem H0.
- Si χ2 >
€
χ1−α,ν2 concluirem que les freqüències observades sí difereixen significativament de les esperades i rebutjarem H0, acceptant H1.
Exemple 1
A partir de la taula 1, determinar si, amb un nivell de significació del 5%, podem acceptar que la població de Mataró es distribueix en un 50% d’homes i un 50% de dones.
Homes Dones Total Habitants 56921 57193 114114
Taula 1. Habitants de Mataró 2004 (idescat) Solució
Formulem el contrast d’hipòtesi:
€
H0:Els dos sexes es distribueixen al 50% H1:Els dos sexes no es distribueixen al 50%
Ara completem la taula amb les freqüències esperades sota la hipòtesi nul·la: Homes Dones oi 56921 57193 ei 57057 57057 Calculem el valor de χ2: € χ2=
(
oj− ej)
2 ej j=1 k∑
=(
o1− e1)
2 e1 + o2− e2(
)
2 e2 = 56921− 57057(
)
2 57057 + 57193 − 57057(
)
2 57057 = 36992 57057≈ 0.648 Determinem el valor crític,
€
χ1−α,ν2 :
α = 5% = 0.05 → 1 - α = 0.95
ν = k – 1 = 2 – 1 = 1 (no hem hagut de fer cap estimació sobre la mostra per calcular les freqüències esperades) Llavors, el valor crític és χ2
0.95,1 = 3.84.
Finalment, com que χ2
≈ 0.648 < χ2
0.95,1 = 3.84, podem acceptar que no hi ha una diferència significativa entre el
Exemple 2
A partir de la Taula 2, determinar si, amb un nivell de significació del 2.5%, podem acceptar que la població de Barcelona es distribueix en un 50% d’homes i un 50% de dones.
Homes Dones Total Habitants 746045 832501 1578546
Taula 2. Habitants de Barcelona 2004 (idescat) Solució
Formulem el contrast d’hipòtesi:
€
H0:Els dos sexes es distribueixen al 50% H1:Els dos sexes no es distribueixen al 50%
Ara completem la taula amb les freqüències esperades sota la hipòtesi nul·la: Homes Dones oi 746045 832501 ei 789273 789273 Calculem el valor de χ2: € χ2=
(
oj− ej)
2 ej j=1 k∑
=(
o1− e1)
2 e1 + o2− e2(
)
2 e2 = 746045 − 789273(
)
2 789273 + 832501− 789273(
)
2 789273 ≈ 4735.14 Determinem el valor crític,
€
χ1−α,ν2 :
α = 2.5% = 0.025 → 1 - α = 0.975
ν = k – 1 = 2 – 1 = 1 (no hem hagut de fer cap estimació sobre la mostra per calcular les freqüències esperades) Llavors, el valor crític és χ2
0.975,1 = 5.02.
Finalment, com que χ2
≈ 4735.14 > χ2
0.975,1 = 5.02, rebutjem la hipòtesi de que no hi ha una diferència significativa entre
el percentatge d’homes i de dones a Barcelona.
Exemple 3
S’ha llençat un dau 120 vegades i els resultats han estat els següents:
Cara del dau 1 2 3 4 5 6
Vegades 24 17 15 23 24 17
Contrastar la hipòtesi de que el dau és legal amb un nivell de significació del 5%. Solució
Formulem el contrast d’hipòtesi:
€
H0:El dau és legal
H1:El dau no és legal
Ara completem la taula amb les freqüències esperades sota la hipòtesi nul·la. Sota aquesta hipòtesi, totes les cares tenen la mateixa probabilitat de sortir i, per tant, la freqüència esperada de cada cara és la sisena part del nombre de llençaments:
Cara del dau 1 2 3 4 5 6
oi 24 17 15 23 24 17 ei 20 20 20 20 20 20 Calculem el valor de χ2: € χ2=
(
oj− ej)
2 ej j=1 k∑
=(
o1− e1)
2 e1 + o2− e2(
)
2 e2 + o3− e3(
)
2 e3 + o4− e4(
)
2 e4 + o5− e5(
)
2 e5 + o6− e6(
)
2 e6 = = 24 − 20(
)
2 20 + 17− 20(
)
2 20 + 15 − 20(
)
2 20 + 23− 20(
)
2 20 + 24 − 20(
)
2 20 + 17− 20(
)
2 20 = 21 5 = 4.2Determinem el valor crític,
€
χ1−α,ν2 :
α = 5% = 0.05 → 1 - α = 0.95
ν = k – 1 = 6 – 1 = 5 (no hem hagut de fer cap estimació sobre la mostra per calcular les freqüències esperades) Llavors, el valor crític és χ2
0.95,5 = 11.1.
Finalment, com que χ2
= 4.2 < χ2
0.95,5 = 11.1, acceptem la hipòtesi nul·la i decidim que el dau és legal.
Exemple 4
En els seus experiments amb pèsols, Gregor Mendel va observar que 315 n’eren llisos i grocs, 108 n’eren llisos i verds, 101 n’eren rugosos i grocs i 32 n’eren rugosos i verds. D’acord amb la seva teoria de l’herència, aquest nombres haurien d’estar en la proporció 9 : 3 : 3 : 1. Hem de dubtar d’aquesta teoria amb un nivell de significació de l’1%? I amb un nivell de significació del 5%?
Solució
Formulem el contrast d’hipòtesi: € H0:La proporció és 9 :3 :3 :1 H1:La proporció no és 9 :3 :3 :1
Ara hem de calcular les freqüències esperades sota la hipòtesi nul·la. Sota aquesta hipòtesi, les proporcions esperades són: - llisos i grocs: € 9 9 + 3 + 3 +1= 9 16 - llisos i verds: € 3 9 + 3 + 3 +1= 3 16 - rugosos i grocs: € 3 9 + 3 + 3 +1= 3 16 - rugosos i verds: € 1 9 + 3 + 3 +1= 1 16
La mida de la mostra és 315 + 108 + 101 + 32 = 556. Llavors, les freqüències esperades són: - llisos i grocs: € 9 16⋅ 556 = 312.75 - llisos i verds: € 3 16⋅ 556 = 104.25 - rugosos i grocs: € 3 16⋅ 556 = 104.25 - rugosos i verds: € 1 16⋅ 556 = 34.75
La taula de freqüències observades i esperades és:
Tipus de pèsol llisos igrocs llisos iverds rugosos igrocs rugosos iverds
oi 315 108 101 32 ei 312.75 104.25 104.25 34.75 Calculem el valor de χ2: € χ2=
(
oj− ej)
2 ej j=1 k∑
=(
o1− e1)
2 e1 + o2− e2(
)
2 e2 + o3− e3(
)
2 e3 + o4− e4(
)
2 e4 = € =(
315 − 312.75)
2 312.75 + 108 −104.25(
)
2 104.25 + 101−104.25(
)
2 104.25 + 32 − 34.75(
)
2 34.75 = 196 417≈ 0.47Determinem els valors crítics,
€
χ1−α,ν2 : Per a α = 1% = 0.01 → 1 - α = 0.99 Per a α = 5% = 0.05 → 1 - α = 0.95
ν = k – 1 = 4 – 1 = 3 (no hem hagut de fer cap estimació sobre la mostra per calcular les freqüències esperades) Llavors, els valors crítics són χ2
0.99,3 = 11.3 i χ20.95,3 = 7.81.
Finalment, com que χ2
< χ2
0.99,3 i χ2 < χ20.95,3, en cap cas podem rebutjar la hipòtesi nul·la i, per tant, hem de dir que la
teoria i l’experiment concorden.
Exemple 5
El nombre de llibres deixats en préstecs en una biblioteca pública, durant una setmana, és el que presenta la taula següent:
Dia Dilluns Dimarts Dimecres Dijous Divendres
Nombre de llibres 135 109 119 114 146
Contrastar la hipòtesi de que el nombre de préstecs no depèn del dia de la setmana per a un nivell de significació del 5%.
Solució
Formulem el contrast d’hipòtesi:
€
H0:El nombre de préstecs no depèn del dia H1:El nombre de préstecs sí depèn del dia
Ara completem la taula amb les freqüències esperades sota la hipòtesi nul·la. Sota aquesta hipòtesi, el nombre de préstecs és el mateix cada dia. Com que no coneixem aquesta quantitat, haurem de fer una estimació. Amb les dades de què disposem, l’estimació que podem fer és la mitjana setmanal de préstecs:
Estimació de préstecs diaris:
€
135 +109 +119+114 +146
5 = 124.6
Llavors, la taula de freqüències observades i freqüències esperades és:
Dia Dilluns Dimarts Dimecres Dijous Divendres
oi 135 109 119 114 146 ei 124.6 124.6 124.6 124.6 124.6 I el valor de χ2: € χ2=
(
oj− ej)
2 ej j=1 k∑
=(
o1− e1)
2 e1 + o2− e2(
)
2 e2 + o3− e3(
)
2 e3 + o4− e4(
)
2 e4 + o5− e5(
)
2 e5 = € =(
135 −124.6)
2 124.6 + 109 −124.6(
)
2 124.6 + 119 −124.6(
)
2 124.6 + 114 −124.6(
)
2 124.6 + 146 −124.6(
)
2 124.6 = 4766 623 ≈ 7.65Determinem el valor crític,
€
χ1−α,ν2 :
α = 5% = 0.05 → 1 - α = 0.95
ν = k – 1 - m = 5 – 1 - 1 = 3 (hem hagut d’estimar el nombre diari de préstecs sobre la mostra per calcular les freqüències esperades)
Llavors, el valor crític és χ2
0.95,3 = 7.81.
Finalment, com que χ2
< χ2
0.95,3 acceptem la hipòtesi nul·la, encara que amb molt de risc, i decidim que el nombre de
préstecs no depèn del dia de la setmana.
Exercicis
1. Fes el contrast d’hipòtesi per tal de decidir, amb un nivell de significació del 5%, si en les poblacions corresponents a les taules 3 i 4 la distribució per sexes és del 50% d’homes i el 50% de dones.
Homes Dones Total
Habitants 3366329 3446990 6813319
Homes Dones Total
Habitants 21285247 21912437 43197684
2. Busca la distribució de la població per sexes corresponen a Xina i fes el mateix contrast d’hipòtesi que en l’exercici 1.
3. Llença una moneda 50 vegades, anota els resultats i decideix si la moneda és legal, fent servir un nivell de significació del 5%.
4. En una fàbrica d’ampolles hi ha quatre màquines. Durant una jornada s’hi van seleccionar a l’atzar 300 ampolles de cada màquina. Els nombres d’ampolles defectuoses van ser 3, 13, 15 i 5. Determina, amb un nivell de significació del 5%, si hi ha diferències significatives entre les quatre màquines.
5. Proveu que les fórmules (1) i (3) són equivalents.
6. Després de llençar tres monedes 240 vegades i anotar el nombre de cares que sortien cada vegada, els resultats han estat els següents:
0 cares 1 cara 2 cares 3 cares
Freqüència observada 24 107 96 23
Determina, amb un nivell de significació del 5%, si les monedes són legals.
Ajut: per a calcular les freqüències esperades, fes servir la fórmula de la distribució de probabilitat binomial: € Pn(m) = n m pm(1− p)n−m (4) on: - €
Pn(m) és la probabilitat (o freqüència esperada) d’obtenir m cares en llençar n monedes,
- € n m = n! m!(n − m)!, amb n!= n(n −1)(n − 2)⋅ ⋅ ⋅ 3 ⋅ 2 ⋅1,
- p és la probabilitat de sortir cara en llençar una moneda. (Sota la hipòtesi nul·la és p = 0.5) 7. S’ha entrevistat a 480 famílies amb 5 fills i la distribució per sexes ha estat la següent:
5 nois
0 noia 4 nois1 noia 2 noies3 nois 3 noies2 nois 4 noies1 noi 5 noies0 nois
Nombre de famílies 28 82 167 130 60 13
Determina, amb un nivell de significació del 5%, si és igualment probable néixer noi o noia. Ajut: per a calcular les freqüències esperades, aplica la fórmula (4).
8. S’ha demanat a un ordinador que generi, a l’atzar, 400 dígits del 0 al 9. Els resultats han estat els següents:
Dígit 0 1 2 3 4 5 6 7 8 9
Freqüència observada 27 49 46 29 24 33 56 49 31 56
Determina, amb un nivell de significació de l’1%, si podem considerar que els dígits han estat generats a l’atzar
Prova khi quadrat per a la correlació d’atributs
La prova khi quadrat també es pot fer servir per a mesurar la correlació entre atributs, a partir de les freqüències observades en les diferents categories, tenint en compte simultàniament els atrubuts a estudiar. Habitualment, la hipòtesi nul·la és la d’independència entre els atrubuts, de tal forma que les freqüències esperades seran les freqüències marginals de les categories d’un dels atributs (freqüències de les categories d’un atribut sense tenir en compte els valors de l’altre atribut).
El procediment per a realitzar el test khi quadrat és similar al que se segueix en el test khi quadrat per a la bondat d’ajustament. Per a realitzar aquest test, però, convé abans definir el concepte de taula de contingència.
Taules de contingència
Una taula de contingència h x k és una taula d’h files i k columnes. Cada fila correspon a un valor possible d’un atribut i cada columna correspon a un valor possible d’un altre atribut. Un exemple de taula de contingència amb h = k = 3 és el següent:
Qualificació en matemàtiques Alta Mitja Baixa
Alta 29 32 8
Mitja 23 84 18
Qualificació en llengua
Baixa 8 21 42
En fer un contrast d’hipòtesi sobre una taula de contingència haurem de crear una altra taula de contingència amb les freqüències esperades sota la hipòtesi nul·la.
Realització del test
A partir de la taula de contingència amb les freqüències observades, es crea una nova taula amb les freqüències esperades calculades sota la hipòtesi nul·la. Una vegada creada aquesta taula, es calcula el valor de χ2 i es compara
amb el valor crític
€ χ1−α,ν2 . - Si χ2 ≤ €
χ1−α,ν2 concluirem que les freqüències observades no difereixen significativament de les esperades i acceptarem H0.
- Si χ2 >
€
χ1−α,ν2 concluirem que les freqüències observades sí difereixen significativament de les esperades i rebutjarem H0, acceptant H1.
Graus de llibertat
En aplicar el test khi quadrat sobre una taula de contingència h x k, el nombre de graus de llibertat, ν, és:
- ν = (h – 1)(k – 1), si les freqüències esperades poden calcular-se sense haver de fer cap estimació de paràmetres poblacionals a partir de la mostra.
- ν = (h – 1)(k – 1) - m, si per poder calcular les freqüències esperades necessitem estimar m paràmetres poblacionals a partir de la mostra.
Coeficient de contingència
El coeficient de contingència és una mesura del grau d’associació o dependència entre els atributs d’una taula de contingència. El seu valor ve donat per l’expressió
€ C = χ 2 χ2+ N (5)
Quant més gran sigui C, més gran serà el grau d’associació. El valor màxim de C depèn del nombre de files, h, i de columnes, k, de la taula, però mai no pot ser més gran que 1. En una taula de contingència quadrada (h = k), el valor màxim de C és
€
(k −1)/k.
Coeficient de correlació d’atributs en taules k x k
El coeficient de correlació d’atributs en taules k x k també és una mesura del grau d’associació o dependència entre els atributs d’una taula de contingència quadrada. El seu valor ve donat per l’expressió
€
r = χ2
N(k −1) (6) El valor de r sempre es troba entre 0 i 1. Quant més gran sigui r, més gran elevat és el grau d’associació entre els atributs.
Exemple 6
300 persones que pateixen certa malaltia són dividides en dos grups, G1 i G2, de 150 persones cadascun. S’administra un compost a cada individu, però únicament el compost administrat al grup G1 conté un medicament contra al malatia. Després d’un temps es contabilitzen sans i malalts i s’obtenen les següents dades:
Freqüències observades
Van sanar No van sanar Total
G1 (amb medicament) 113 37 150
G2 (sense medicament) 98 52 150
Total 211 89 300
Decideix, amb un nivell de significació de l’1%, si el medicament fa efecte sobre la malatia. Solució
Formulem el contrast d’hipòtesi:
€
H0:El medicament no fa efecte H1:El medicament sí fa efecte
Ara creem la taula amb les freqüències esperades sota la hipòtesi nul·la. Sota aquesta hipòtesi, no hem de tenir en compte si es va administrar el medicament i, per tant, només hem de comptar el total de persones que van sanar (211) i el total de persones que no ho van fer (89), i dividir-los en els dos grups:
Freqüències esperades sota H0
Van sanar No van sanar Total
G1 (amb medicament) 105.5 44.5 150 G2 (sense medicament) 105.5 44.5 150 Total 211 89 300 Calculem el valor de χ2: € χ2=
(
oj− ej)
2 ej j=1 k∑
=(
o1− e1)
2 e1 + o2− e2(
)
2 e2 + o3− e3(
)
2 e3 + o4− e4(
)
2 e4 = € =(
113 −105.5)
2 105.5 + 98−105.5(
)
2 105.5 + 37− 44.5(
)
2 44.5 + 52− 44.5(
)
2 44.5 = 67500 18779≈ 3.59Determinem el valor crític,
€
χ1−α,ν2 :
α = 1% = 0.01 → 1 - α = 0.99
ν = (h – 1)(k – 1) = (2 – 1)( 2 – 1) = 1 (no hem hagut de fer cap estimació sobre la mostra per calcular les freqüències esperades)
Llavors, el valor crític és χ2
0.99,1 = 6.63. Per tant, com que χ2 = 3.59 < χ20.99,1 = 6.63, hem d’acceptar la hipòtesi nul·la i
decidim que, segons aquest test, el medicament no és eficient.
Exemple 7
Un operador de telefonia mòbil vol esbrinar si hi ha associació entre la compra de telèfons mòbils i l’edat del consumidor. Després de fer 2000 enquestes, s’obtenen les següents dades:
18-24 25-54 55-64 ≥ 65 Total
Té mòbil 415 462 421 342 1640
No té mòbil 85 38 79 158 360
Decideix, amb un nivell de significació del 5%, si el consum de telèfons mòbils es distribueix independentment de l’edat del consumidor.
Solució
Formulem el contrast d’hipòtesi:
€
H0:No hi ha associació entre consum i edat H1:Sí hi ha associació entre consum i edat
Creem la taula amb les freqüències esperades sota la hipòtesi nul·la. Sota aquesta hipòtesi, el percentatge de persones que té mòbil no depèn de l’edat i és
€
1640
2000⋅100 = 82%
i llavors la taula de freqüències esperades serà la següent:
Freqüències esperades sota H0
18-24 25-54 55-64 ≥ 65 Total Té mòbil 410 410 410 410 1640 No té mòbil 90 90 90 90 360 Total 500 500 500 500 2000 Calculem el valor de χ2: € χ2=
(
oj− ej)
2 ej j=1 k∑
=(
o1− e1)
2 e1 + o2− e2(
)
2 e2 + o3− e3(
)
2 e3 + o4− e4(
)
2 e4 + € +(
o5− e5)
2 e5 + o6− e6(
)
2 e6 + o7− e7(
)
2 e7 + o8− e8(
)
2 e8 = € =(
415 − 410)
2 410 + 462 − 410(
)
2 410 + 421− 410(
)
2 410 + 342 − 410(
)
2 410 + € =(
85 − 90)
2 90 + 38− 90(
)
2 90 + 79 − 90(
)
2 90 + 158 − 90(
)
2 90 = 37370 369 ≈ 101.27Determinem el valor crític,
€
χ1−α,ν2 :
α = 5% = 0.05 → 1 - α = 0.95 ν = (h – 1)(k – 1) = (2 – 1)( 4 – 1) = 3. Llavors, el valor crític és χ2
0.95,3 = 7.81.
Finalment, com que χ2
> χ2
0.95,2, hem de rebutjar la hipòtesi nul·la i decidir que, segons aquest test, les proporcions de
propietaris de telèfons mòbils no són iguals en els diferents grups d’edats.
Exemple 8
La taula següent mostra els resultats d’un experiment realitzat per a investigar l’efecte de la vacunació d’animals de laboratori contra una malaltia en particular. Fent servir nivells de significació de l’1% i del 5%, proba la hipòtesi de que no existeix diferència entre el grup vacunat i el no vacunat.
Malalts Sans
Vacunats 9 42
No vacunats 17 28
Solució
Formulem el contrast d’hipòtesi:
€
H0:La vacuna no afecta
H1:La vacuna sí afecta
Malalts Sans Total
Vacunats 9 42 51
No vacunats 17 28 45
Total 26 70 96
Creem la taula amb les freqüències esperades sota la hipòtesi nul·la. Sota aquesta hipòtesi, la proporció d’animals malalts no depèn de la vacunació i és
€ 26 96= 13 48
I ara creem la taula amb les freqüències esperades sota la hipòtesi nul·la:
Malalts Sans Vacunats € 13 48de 51= 221 16 € 51−221 16 = 595 16 No vacunats € 13 48de 45 = 195 16 € 45−19516 =525 16
Freqüències esperades sota H0 Calculem el valor de χ2: € χ2=
(
oj− ej)
2 ej j=1 k∑
=(
o1− e1)
2 e1 + o2− e2(
)
2 e2 + o3− e3(
)
2 e3 + o4− e4(
)
2 e4 = € = 9 −221 16 2 221 16 + 17−195 16 2 195 16 + 42 −595 16 2 595 16 + 28 −525 16 2 525 16 =27104 5525 ≈ 4.91Determinem el valor crític,
€ χ1−α,ν2 : α = 1% = 0.01 → 1 - α = 0.99 α = 5% = 0.05 → 1 - α = 0.95 ν = (h – 1)(k – 1) = (2 – 1)(2 – 1) = 1. Llavors, els valors crítics són χ2
0.99,1 = 6.63 i χ20.95,1 = 3.84.
Finalment, tenim que χ2
< χ2
0.99,1 però χ2 > χ20.95,1. Això ens indica que amb un nivell de significació de l’1% hem
d’acceptar la hipòtesi nul·la i decidim que la vacuna no és efectiva, però, amb un nivell de significació de l’5% l’hem de rebutjar. Així doncs, aquest test no és suficient fiable per tal de decidir sobre l’eficiència de la vacuna.
Exemple 9
Calcula el coeficient de correlació corresponent a la taula de l’exemple 8 i interpreta el resultat. Solució
El coeficient de correlació corresponent a una taula de contingència k x k ve donat per la fórmula (6):
€
r = χ 2 N(k −1) En aquest cas tenim que χ2 =
€ 27104 5525 , N = 96 i k = 2. Per tant, € r = χ 2 N(k −1)= 27104 5525 96 ⋅1 = 847 16575 ≈ 0.23
El valor de r sempre es troba entre 0 i 1, i quant més gran més associació. Així, en aquest cas, hem de descartar una associació clara entre sanar i haver estat vacunat.
Exercicis
9. Un professor fa classes als grups A i B. Per a avaluar un tema, decideix posar el mateix examen als dos grups. Els resultats són els següents:
Aprovats Suspesos
Classe A 62 18
Classe B 58 21
Prova, amb un nivell de significació del 5%, si no hi ha diferències significatives entre les dues classes. Calcula també el coeficient de correlació d’atributs i interpreta el resultat.
10. Un grup de pacients que pateixen cefalea freqüentment va ser dividit en dos grups. En un grup es va administrar una pastilla dolça contra la cefalea a cada pacient. En l’altre grup es va administrar a cada pacient una pastilla de sucre, sense cap medicament. Els resultats van ser els següents:
Van millorar No van millorar Amb medicament 70 16 Sense medicament 130 56
Prova, amb un nivell de significació de l’1%, si hi ha diferències entre les pastilles amb medicament i les de sucre.
11. Respecte una proposta del govern d’un ajuntament, es va demanar l’opinió en dos barris A i B de la ciutat. Els resultats van ser:
A favor En contra Abstenció
Barri A 68 62 30
Barri B 94 49 20
Determina, amb un nivell de significació del 5%, si hi ha diferències significatives d’opinió entre els dos barris. 12. La taula següent mostra les qualificacions d’un grup d’alumnes en matemàtiques i llengua:
Qualificacions de matemàtiques Alta Mitja Baixa
Alta 29 32 8
Mitja 23 84 18
Qualificacions de llengua
Baixa 8 21 42
Prova la hipòtesi de que els resultats obtinguts en matemàtiques són independents dels resultats obtinguts en llengua amb nivells de significació de l’1% i del 5%. Calcula el coeficient de correlació d’atributs i interpreta el resultat.
13. La taula següent mostra el nombre d’accidents en què els conductors s’han vist implicats, en funció de l’edat: Edat del conductor
[21-30] [31-40] [41-50] [51-60] [61-70] 0 2326 3166 3020 2462 2581 1 255 237 199 257 196 2 106 87 77 52 46 Nombre d’accidents > 2 29 33 21 16 21
Prova la hipòtesi de que el nombre d’accidents és independent de l’edat del conductor, amb nivells de significació de l’1% i del 5%.
14. Calcula el coeficient de correlació corresponent a la taula segúent i interpreta el resultat. Color de cabell
Ros No ros
Blau 59 30
Color
15. A partir de les taules 3 i 4 de l’exercici 1, determina, amb un nivell de significació del 5%, si es pot considerar que el percentatge d’homes i dones és el mateix a Catalunya i a Espanya.