1
TEMA 9: CONTRASTES NO PARAMÉTRICOS
9.1. Contrastes de bondad de ajuste
9.1.1. Contraste Chi-cuadrado
9.1.2. Contraste de Kolmogorov-Smirnov
9.2. Contraste
2de independencia para tablas de contingencia
9.3. Contrastes para comparar dos distribuciones
9.3.1. Contraste
2de homogeneidad
9.3.2. Contraste de Kolmogorov-Smirnov
1. CONTRASTES DE BONDAD DE AJUSTE
Unos datos (x1,...,xn) de una m.a.s. de una v.a. X H0 : X F(x;)
H1 : X F(x;)
(1º) H0 especifica completamente la distribución ejemplo: H0 : X N(0,1)
(2º) H0 especifica forma de la distribución, pero no parámetros (deben estimarse):
ejemplo: H0 : X N(,)
1.1. CONTRASTE CHI-CUADRADO (Pearson,1900)
Agrupar datos en k clases excluyentes y exhaustivas A1,...,Ak =UAi, AiAj=
ni= {nº observaciones en la clase Ai } = frec. observada (Oi) en la clase Ai ni =n
pi=pH0(Ai)=p(XAi /H0 es cierta) pi =1
3
1-
Discrepancias entre lo observado y lo esperado: 2=
k 1 i i 2 i i E ) E O ( = k 1 i i 2 i i ) ( np np n Región crítica: C={ 2= k 1 i i 2 i i ) ( np np n } Calcular / (C) 0 H p = ¿ Distribución de 2 ?
(1º) H0 especifica completamente la distribución
2 = k 1 i i 2 i i ) ( np np n n~ 2 1 k
(2º) Hay que estimar r parámetros 2=
k 1 i i 2 i i ˆ ) ˆ ( p n p n n n ~ 2 1 k r 2
Región Aceptación Región crítica
¡¡ Buena aproximación si n>30, npi 1 o npi 5 !!
4
Ejemplo 1:
Casas (1996, p. 506)
En una empresa constructora se ha observado el nº
accidentes diarios ocurridos durante 130 días
obteniéndose los siguientes datos (1ª-2ª columnas)
¿ H 0 : X (0,9) ? X = Nº accidentes Nº días ( n i) p i Frec.esp. np i i i i np np n 2 ) ( X =0 X =1 X =2 X =3 X 4 69 42 15 4 0 0,4066 0,3656 0,1647 0,0494 0,0134 52,9 47,6 21,4 6,4 1,7 4,90 0,66 1,91 0,9 1,7 TOTAL 130 1 130 2 obs =10,0 7 p i= 0H p ( X = i )=p( (0,9)= i )=e -0,9 (0,9) i / i !, i =0,1,2,… Grados de libertad = k- 1=5-1=4 2 4 =0,05 C={ 2 2 4 (0,95)=9,49} Rechaza H 0 =0,01 C={ 2 2 4 (0,99)=13,3} No Rechaza
5
Ejemplo 2:
El servicio de maternidad de un hospital
dispone de los pesos al nacer de los últimos 1000
varones nacidos vivos. ¿Se ajustan estos datos a una
distribución normal? =0.01 X = peso n i Marca clase x i p i Frec.esp. np i i i i np np n 2 ) ( X 2 2 <X 2.5 2.5 <X 2.75 2.75 <X 3 3 <X 3.25 3.25 <X 3.5 3.5 <X 3.75 3.75 <X 4 4 <X 4.5 4.5 <X 5 X >5 1 10 29 82 154 228 244 137 105 9 1 1.75 2.25 2.625 2.875 3.125 3.375 3.625 3.875 4.25 4.75 5.25 0,0001 0,0061 0,0242 0,0752 0.1603 0.2341 0.2341 0.1603 0.0999 0.0061 0.0001 0.1 6.1 24.2 75.2 160.3 234.1 234.1 160.3 99.9 6.1 0.1 3.69 0.96 0.61 0.25 0.16 0.42 3.4 0.32 2.31 TOTAL 1000 1 1000 2 obs =12.12 Estimar parámetros X = n n x i i =3.5; S X = 2 X n n x i 2 i 0.4 ¿ H 0 : X N(3.5, 0.4) ? p 1= 0H p ( X 2)= ( 4. 0 5. 3 2 )= (-3.75)=0.0001 P 4= 0H p (2.75< X 3)= (-1.25)- (-1.875)=0.0752 Grados de libertad = k- r- 1=9-2-1=6 2 6 =0,01 2 6 (0,99)=16,8 C={ 2 16,8} No Rechaza 6.2 10 11 6.2 1.2. CONTRASTE DE KOLMOGOROV-SMIRNOV
Compara la función de distribución empírica de la muestra con la función de distribución teórica bajo H0 (F(x) continua y totalmente especificada)
Ordenar los datos (x1,x2...,xn) en orden creciente: (x(1) x(2) ... x(n)) 0 si x < x(1) Función de distribución empírica: Fn(x) =
n x x que son } º n { i = n k si x(k)x<x(k+1) 1 si x > x(n)
Máxima discrepancia entre func. distribución empírica y teórica: Dn=max |Fn(x) – F(x)|
Región crítica: Rechazar H0 si Dn es “grande” C={ Dn= max |Fn(x) – F(x)| }
Calcular el valor crítico tal que p(C/H0 cierta)= ¿Distribución de Dn bajo H0?
Si F(x) en H0 totalmente especificada Tablas Massey
Si F(x) en H0 es una Normal N(,) Tablas Lilliefors
7
Cálculo de D
n: (Peña, 2001, p.467)
(a) 1 F n( x ) F( x ) F( x (i) ) D .m á x im a = |F n( x (i-1) ) -F( x (i) ) | F n( x (i-1) ) x (i-1) x (i) x (i+1) (b) 1 F n( x ) F( x ) F n( x (i) ) D.máxima= |F n( x (i) ) -F( x (i) ) | F( x (i) ) x (i-1) x (i) x (i+1)
x
(i)calcular:
{
|F
n(
x
(i-1))-F(
x
(i))|,|F
n(
x
(i))-F(
x
(i))|}
8Ejemplo 3:
H
0:
X
(1)
F(
x
)
=1-e
-x, si
x
>0
x (.) F n( x ) F( x ) F n( x (i-1) )-F( x (i) ) F n( x (i))-F( x (i)) Sup D n ---- 0.09 0.12 0.18 0.70 0.93 1.80 3.02 3.90 4.10 4.65 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.0861 0.1131 0.1647 0.5034 0.6054 0.8347 0.9512 0.9798 0.9834 0.9904 -0.0861 0.0139 -0.0131 0.0869 0.0353 0.1353 -0.2034 -0.1034 -0.2054 -0.1054 -0.3347 -0.2347 -0.3512 -0.2512 -0.2798 -0.1798 -0.1834 -0.0834 -0.0904 0.0096 D n=0.3512 Región crítica ( =0.05): C={D n 0.41} No rechazo9
2. CONTRASTE DE INDEPENDENCIA PARA
TABLAS DE CONTINGENCIA
H
0: las características A y B son
independientes Notación: En A hay r clases distintas: A 1,...,A r ( =UA i, A i A j= ) En B hay s clases distintas: B 1,...,B s ( =UB j,B i B j= ) H 0 : p ( A i B j) = p ( A i) p ( B j) Metodología: Clasificar las n observaciones en función de A y B Tabla de contingencia A B B 1 B 2 … B j … B s A 1 n 11 n 12 … n 1 j … n 1s n 1. : : : : : : A i n i1 n i2 … n ij … n is n i. : : : : : : A r n r1 n r2 … n rj … n rs n r. n .1 n .2 … n .j … n .s n
¡¡ sólo
n
es fijo, las demás
n
ij,
n
i.,
n
.jaleatorias !!
Estadístico: Chi-cuadrado: 2 =
r 1 i s 1 j ij ij ij E ) E O( 2 10 1- O ij = frecuencia observada de A i B j= n ij n ij= n p ij= p ( A i B j/H 0 es cierta ) = p ( A i) p ( B j) = p i.p .j p ij= 1 E ij=frecuencia esperada de A i B j=E(B( n , p ij))= np i.p .j Estimar p i., p .j . p iˆ= n .in , j . pˆ= n n j. E ij = j i p p n ˆ ˆ = n n.n j. i Discrepancias entre lo observado y lo esperado:
2 = r 1 i s 1 j ij ij ij E ) E O( 2 = rs 2 1 i1 j
)
(
n n.n n n.n n j. i j. i ij Región crítica: C={ 2 } Calcular / (C) 0H p = ¿ distribución de 2 ? Grados libertad=[( r x s )-1] - [( r -1)+( s -1)] = ( r -1)x( s -1) 2 = rs 2 1 i1 j ) ( n n.n n n.n n j. i j. i ij n ~ 2 ) 1 )( 1 ( s r 2 )1 )(1 ( s r Región Aceptación Región crítica11
Ejemplo 4:
Canavos (1988, p.373) Una empresa evalúa
una propuesta de fusión con una corporación. El consejo
de dirección desea conocer la opinión de los accionistas
al respecto para ver si ésta es independiente del nº de
acciones que cada uno posee. Una m.a.s. de 250
accionistas proporciona esta información:
Nº acciones A favor En contra Indecisos Total <200 200-1000 >1000 38 (30,40) 30 (31,60) 32 (38) 29 (39,52) 42 (41,08) 59 (49,4) 9 (6,08) 7 (6,32) 4 (7,60) 76 79 95 100 130 20 250 E 11 = n nn .1 1. = 250 76x100 =30,4; E 12 = n nn .2 1. = 250 76x130 =39,52;... 2 obs = 33 2 1 i1 j ij ij ij E ) E O( = 4, 30 ) 4, 30 38( 2 +…+ 6, 7 ) 6, 7 4( 2 =10,8 Grados de libertad=(r-1)(s-1)=4 Distribución 2 4 Si =0,1 2 4 (0,9)=7,78 C={ 2 7,78} Como 2 obs =10,8>7,78 Se Rechaza H 0 12
3. CONTRASTES PARA COMPARAR DOS
DISTRIBUCIONES
3.1. CONTRASTE 2 DE HOMOGENEIDAD H 0: distribución de B igual en distintos grupos
H
1
: hay diferencias entre los grupos
Notación: s =nº de modalidades o clases de B: {B 1,…, B s} r
=nº de grupos distintos de la población
n
i= nº individuos seleccionados grupo
i ( n i= n) H 0 : p (B j/grupo 1 )=...= p (B j/grupo r )= p .j j =1,.., s Metodología Clasificar los n
i de cada grupo en las
s clases de B Tabla de contingencia Gru p o B B 1 B 2 … B j … B s 1 n 11 n 12 … n 1 j … n 1s n 1. : : : : : : i n i1 n i2 … n ij … n is n i. : : : : : : r n r1 n r2 … n rj … n rs n r. n .1 n .2 … n .j … n .s n ¡ sólo n ij, n .j
son aleatorios, los demás
n , n i. fijos !
13 Estadístico de Contraste: 2 = r 1 i s 1 j ij ij ij E ) E O( 2 O ij =
observaciones del grupo
i en B j= n ij n ij= n E
ij=frecuencia esperada de la clase B
jen el grupo i en caso de ser H 0 cierta = n i p (B j/grupo i )= n i p .j ¡¡ p .j desconocidas j . pˆ= n n j. E ij= j i p n .ˆ = n n.n j. i !! ¡ estimamos s-1 parámetros !
Discrepancias entre lo observado y lo esperado:
2 = r 1 i s 1 j ij ij ij E ) E O( 2 = rs 2 1 i1 j ) ( n n.n n n.n n j. i j. i ij
¡ Igual que en el caso de independencia !
Región crítica: C={ 2 } Calcular / (C) 0H p = Grados libertad= r x(nº clases–1)-(nº parámetros) =[ r x( s -1)] - ( s -1) = ( r -1)x( s -1)
¡ Igual que en el caso de independencia !
Región crítica: C={ 2 = rs 2 1 i1 j ) ( n n.n n n.n n j. i j. i ij }
Distribución del estadístico bajo H
0: 2 n ~ 2 )1 )(1 ( s r 14 Ejemplo 5:
Al final del curso, cinco profesores de
una misma asignatura califican a los alumnos de la
siguiente forma Profesor Aprobado Suspenso Total A B C D E 68 90 70 120 50 57 60 30 30 50 125 150 100 150 100 398 227 625
¿Puede concluirse que existen diferencias
significativas en el sistema de calificación empleado
por los distintos profesores?
=0.05 H 0 : p (aprobar/A)= p (aprobar/B)=....= p (aprobar/E) Frecuencias esperadas Profesor Aprobado Suspenso Total A B C D E 79.6 95.5 63.7 95.5 63.7 45.5 54.5 36.3 54.5 36.3 125 150 100 150 100 398 227 625 2 obs =
52 2 1 i1 j ij ij ij E ) E O( = 6, 79 ) 6, 79 68( 2 +…+ 3, 36 )3 , 36 50( 2 =32.62 (r-1)(s-1)=4 2 4(0,95)=9,49 C={ 2 9,49} Como 2 obs =32.62 >9,49 Se Rechaza H 015
3.2. CONTRASTE DE KOLMOGOROV-SMIRNOV
Dos muestras aleatorias independientes de dos
distribuciones
¿las distribuciones son iguales?
(X
1,...,
X
n1
)
m.a.s. de una distribución
F X continua (Y 1,..., Y n2 )
m.a.s. de una distribución
F Y continua H 0 : F X ( x )=F Y ( x ) H 0 : F X ( x ) F Y ( x )
Comparar funciones de distribución empíricas
F
n1
= Función de distribución empírica de
X
F
n2
= Función de distribución empírica de
Y Estadístico de contraste: D n1,n2 =max |F n1 ( x ) - F n2 ( x )|
Región crítica: Rechazar H
0 si D n1,n2 es “grande” C={ D n1,n2 =max |F n1 ( x ) - F n2 ( x )| } Calcular / 0H p (C)= ¿Distribución de D n1,n2 ? Muestras pequeñas n 1= n 2 Tablas XI.b Muestras grandes Tablas XI.a : p ( 2 1 n, n 2 1 2 1 D n n n n ) 16
Ejemplo 6:
Comparar el rendimiento de dos vendedores.
Observar durante 8 días el nº ventas diarias:
A: 10, 7,12, 15, 4, 2, 7, 11
B: 3, 5, 16, 9, 8, 13, 6, 5
¿ Ambos vendedores son igualmente eficientes?
Muestra Valores F n1 ( x ) F n2 ( x ) |F n1 ( x ) - F n2 ( x )| A B A B,B B A,A B B A A A B A B 2 3 4 5 6 7 8 9 10 11 12 13 15 16 1/8 1/8 2/8 2/8 2/8 4/8 4/8 4/8 5/8 6/8 7/8 7/8 1 1 0 1/8 1/8 3/8 4/8 4/8 5/8 6/8 6/8 6/8 6/8 7/8 7/8 1 1/8 0 1/8 1/8 2/8 0 1/8 2/8 1/8 0 1/8 0 1/8 0 =5%: C={D n1,n2 0,75}. D n1,n2 =0,25 C Acepto H 0