Introducció
• Si la variable d'interès és categòrica la forma
de resumir-la és mitjançant una proporció.
• Podem plantejar diversos tests
– Sobre una variable (proves amb proporcions)
• La proporció (% d’afectats) coincideix amb un valor donat?
• La proporció (% d’afectats) és la mateixa en dues
poblacions?
– Sobre dues variables (khi-quadrat i relacionades)
• Hi ha associació entre dues variables categòriques?
• Hi ha relació entre els valors d’una variable categòrica
abans i després d’un tractament?
VARIABLES QUALITATIVES 1 variable 1 població Contrast 1 proporció 2 poblacions Contrast dues proporcions 2 Variables Independents n>5 Test khi-quadrat n<5 Test de Fisher Dependents Test Mcnemar
Resum
1.
INTRODUCCIO
2.
Contrastos per a una proporció
3.
Contrastos per a dues proporcions
4.
Anàlisi de taules de contingència
1.
Prova khi-quadrat
2.
Test de Fisher
3
5
6
Contrast per a una proporció
• Objectiu: comprovar si la proporció de successos en una variable
categòrica observada en una població s’ajusta a una proporció de
referència p
0.
• Suposarem que es disposa d’una mostra de mida n.
• Farem servir un
test
normal, i requereix n 30 , n·p
0= ≥ 5, n·q
0= ≥ 5
• El contrast bilateral es planteja com: H
0: p = p
0vs H
1: p ≠ p
0• També es poden plantejar els tests unilaterals esquerra o dret
H
0: p = p
0vs H
1: p < p
0o be
H
0: p = p
0vs H
1: p > p
07
Cas 1: contrast d’una proporció
Segons la bibliografia mèdica, al període 1950-1980, el percentatge d'individus obesos (criteri mèdic definit d'acord al índex de massa corporal IMC ≥ 30 kg/m2) era d'un
15% en la població d'homes de més de 55 anys.
Una mostra aleatòria de la població obtinguda per enquesta a diferents Comunitats Autònomes, efectuada entre 2000 i 2003, va recollir que d'un total de 723 homes més grans de 55 anys, 142 eren obesos.
Atès l'interès en la salut pública, amb un nivell de significació del 5%, es pot considerar que la població d'homes més grans de 55 anys del període 2000-2003 te el mateix percentatge d'obesos que el que figura en la bibliografia?
Es compleixen les condicions:
•
n 30•
n p0 = 723 (0.15) = 108.45 ≥ 5•
n q0 = 723 (0.85) = 614.55 ≥ 5Contrast de proporcions amb R
• Els tests de proporcions
amb R commander
necessiten que
proporcionem tot el
vector de dades.
• La instrucció d’R
prop.test
permet
fer-ho amb els comptatges
> prop.test(x=142, n=723, p=0.15)
1-sample proportions test with continuity correction
data: 142 out of 723, null probability 0.15
X-squared = 11.8493, df = 1,
p-value = 0.0005768
alternative hypothesis: true p is not equal to 0.15
95 percent confidence interval:
0.1684325 0.2276606
sample estimates: p
Contrasts de proporcions amb Rcmdr
• Els tests de proporcions
amb R commander
necessiten que
proporcionem tot el vector
de dades.
• Proporció menop a la
“població” = ?
10
Comparació entre (dues) proporcions
• Objectiu: comprovar si una variable binomial mesurada en dues poblacions diferents presenta la mateixa proporció de successos en totes dues.
• es disposa d’una mostra aleatòria simple per a cadascuna de les poblacions, de grandària respectiva n1i n2. és la freqüència relativa de successos a la població i.
• també es resol mitjançant una aproximació a la normal. El test requereix
• El contrast bilateral es planteja com: H0: p1 = p2 vs H1: p1 ≠ p2 • També es poden plantejar els tests unilaterals esquerra o dret
H0: p1 = p2 vs H1: p1 < p2 o bé H0: p1 = p2 vs H1: p > p2
5
~
,
5
~
,
30
,
30
2 1 1 2 2 1
n
n
p
n
p
n
~
ip
11
Cas 2: Comparació de proporcions
• per tal de detectar una certa variant de càncer de còlon es disposa de dues tècniques. Es vol comparar la seva efectivitat en la detecció, és a dir, la seva sensibilitat.
• una de les referències bibliogràfiques descriu que en una mostra de 210 pacients amb aquesta variant de càncer, la tècnica histoquímica clàssica el va detectar en 189 dels pacients.
• es processen amb una tècnica molecular alternativa altres 145 mostres de pacients amb aquesta variant de càncer, dels quals la tècnica en detecta 138 positius.
• les condicions d’aplicació del test es verifiquen, ja que:
Detecció
Prova Positiva Negativa Histoquímica 189 21 Molecular 138 7
5
138
~
5
189
~
210
30
145
30
2 2 1 1 2 1
p
n
p
n
n
n
Comparació de proporcions amb R
• Amb la comparació de
proporcions passa el
mateix que amb una
sola
– R commander necessita
les dades
– L’ordre prop.test ho fa
directament
– El plugin EZR permet
calcular IC per a la
diferència de proporcions
> #####Confidence interval for a difference between two
proportions#####
> prop.diff.conf(189, 210, 138, 142, 95) [1] Difference : -0.072
[1] 95% confidence interval : 0.121 -0.023
13
Relació entre variables categòriques
• taula de contingència : classificació d'observacions d'acord a 2 característiques qualitatives, una d'elles determina les files i l'altre les columnes.
• quan la mostra correspon a una única població amb individus classificats d'acord a 2 variables qualitatives, l'objectiu és determinar si existeix relació entre les variables: és una prova d'independència.
• quan cada fila correspon a una mostra d'una població diferent
l'objectiu és determinar si les diferents poblacions tenen diferències significatives en la variable estudiada: és una prova d'homogeneïtat de poblacions. Clasif B1 B2 … Bs Total A1 n11 n12 … n1s n1 A2 n21 n22 … n2s n2 … … … … … Ar nr1 nr2 … nrs nr Total n1 n2 ns N
14
Prova d‘independència
• Objectiu: comprovar en una única població la possible dependència de dues variables categòriques A, amb categories (A1 ,..., Ar), i B, amb categories (B1,..., Bs):
• si son independents, les probabilitats en la població han de verificar p(Ai ∩ Bj) = p(Ai) p(Bj) per a i=1,...,r i j=1,...,s amb i ≠j • Per tant
H0: p(Ai ∩ Bj) = pi pj per a i=1,...,r i j=1,...,s amb i ≠j H1 : alguna de les igualtats anteriors no és certa.
• Aquest test requereix que un 80% de les categories tinguin 5 o
15
Cas 3: prova de independència
Es vol comprovar si hi ha una possible relació entre la gravetat del tumor que presenten pacients amb càncer de colon i la mutació d’un cert gen que es pot detectar de forma molt precisa mitjançant una nova tècnica molecular.
es classifica la gravetat del tumor en 3 graus, d’acord a la seva infiltració i altres criteris patològics
la mutació BRAF-V600E es presenta com positiva (mutació) o negativa (sensemutació).
En termes de contrast d’hipòtesis:
H0: La gravetat del tumor i la mutació son independents.
H1: La gravetat del tumor i la mutació estan relacionats
Classificació Braf - Braf + Total
Grau 1 97 5 102
Grau 2 81 7 88
Grau 3 32 18 50
16
Obtenció de les freqüències esperades
la fórmula per les freqüències esperades sota la hipòtesis de independència és:
eij = ( ni· · n·j ) / N
Cap freqüència esperada és menor que 5
Observades Braf - Braf + Total
Grau 1 97 5 102
Grau 2 81 7 88
Grau 3 32 18 50
Total 210 30 240
Esperades Braf - Braf +
Grau 1 102·210 / 240 = 89.25 102·30 / 240 = 12.75 Grau 2 88·210 / 240 = 77.00 11.00
Càlcul de l’estadístic
• Hem observat això
• Si fossin independents
esperaríem això
• Quan més difereixin
més evidència tenim
en contra d’H
0 17Observades Braf - Braf +
Grau 1 97 5
Grau 2 81 7
Grau 3 32 18
Esperades Braf - Braf + Grau 1 89.25 12.75 Grau 2 77.00 11.00 Grau 3 43.75 6.25 (nij-eij)2/e ij Braf - Braf + Grau 1 (97-89.25)2/89.25=0.6730 4.710 Grau 2 0.2078 1.4545 Grau 4 3.1557 22.0900
Calcul de khi quadrat amb R
Pearson's Chi-squared test data: .Table
X-squared = 32.2918, df = 2, p-value = 9.726e-08
fisher.test(.Table)
Fisher's Exact Test for Count Data
data: .Table
p-value = 1.578e-06
alternative hypothesis: two.sided
El test de Fisher
• El test khi quadrat pot ser inexacte amb mostres
petites.
• El test de Fisher calcula la probabilitat d’observar el
valor de test igual o més gran al observat construïnt
totes les possibles taules
– Amb un mateix nombre d’observacions
– I els mateixos totals de files i columnes
• S’anomena test exacte perque no fa servir una
distribució sino que es calcula de nou per cada taula
de dades Millor opció que la khi-quadrat
• Test de dades aparellades amb dades categòriques.
– Per exemple si interessa determinar si un individu presenta
certa característica abans o després d’una intervenció.
• En un aquest estudi trobem 4 possibles resultats
– Característica present abans i després de la intervenció
– Característica absent abans i després de la intervenció
– Característica present abans i absent després de la
intervenció.
– Característica absent abans i present després de la
intervenció.
Taula per al test de McNemar
Condició 1\2
Present
Absent
Present
n
11
n
12
Test de Mc Nemar
• H
0: La probabilitat que la característica estigui present
no canvia al fer la intervenció
• H
A: La probabilitat es veu afectada per la intervenció.
• No es tracta com una taula de contingència sino com
un test de proporcions aparellades.
|)
|
(
2
)
05
.
0
96
.
1
(
|
|
:
.
.
:
.
.
2 / 21 12 21 12 obs obs obsz
Z
P
val
P
if
z
z
R
R
n
n
n
n
z
S
T
Presentació del cas 4
• Subjectes de l’estudi: 165 dones a les que es va demanar
d’informar, després d’haver rebut un implant de silicona,
si aquest s’havia deteriorat.
– Aquesta possibilitat es va confirmar quirúrgicament
• Condicions (Cadascuna en totes les dones)
– Auto informe de Presencia/Absencia de problemes
– Confirmació quirúrgica de Presencia/Absencia
SELF * SURGICAL Crosstabulation
Count 69 28 97 5 63 68 74 91 165 Rupture No Rupture SELF Total Rupture No Rupture SURGICAL Total