Implicaciones del dise˜
no de muestreo y el
m´
etodo de estimaci´
on del error est´
andar
Direcci´on de Pruebas y Medici´on, Subdirecci´on de An´alisis
M.C. Jos´e Gustavo Rodr´ıguez Jim´enez
Objetivos de la presentaci´
on
Responder:
1
¿Qu´
e es el dise˜
no de una muestra?
2
¿Qu´
e consecuencias puede acarrear ignorarlo?
3¿C´
omo influye el m´
etodo de estimaci´
on del error
Introducci´
on
La Distribuci´on de Muestreo de la Media(extra´ıda de M´endez et al (2004))
La teor´ıa dice...
Esto se satisface cuando tenemos
muestras
aleatorias simples.
Introducci´
on (continuaci´
on)
En el caso general, seaQ una caracter´ıstica de la poblaci´on, que se desea estimar medianteQ, podemos decir que aunque la muestrab ya no sea aleatoria simple:
Bajo un
dise˜
no muestral complejo
se satisface el teorema central del l´ımite.
El cual asegura que para un tama˜no de muestra grande. b
Q−Q q
V(Qb)
∼N(0,1)
Podemos encontrar el intervalo de confianza al (1−α)100 % aproximado mediante b Q±z(1−α 2) q b V(Q)b
Ejemplo de un muestreo con Dise˜
no muestral
complejo
Caracter´ısticas del conteo r´
apido 2012
Las unidades muestrales en este caso son las casillas electorales.
La variable de respuesta es la cantidad de votos por casilla y por partido pol´ıtico
El estad´ıstico de inter´es es la proporci´on (o porcentaje) de votos a favor de cada partido
El margen de error planeado fue de ±05 % con intervalos del 95 % de confianza.
En una sola etapa se seleccionaron mediante muestreo sistem´atico n = 7597 casillas de un total deN= 143456 repartidas en 483 estratos.
Resultados del Conteo r´
apido
Partido Porcentaje Poblacionales* IC estimados
JVM 2540 % (2510,2603) EPN 3815 % (3793,3855) AMLO 3164 % (3090,3186) GQT 230 % (227,257) No registrados 006 % -Nulos 242 %
El Dise˜
no Muestral
ElDise˜no de la muestra es la forma en que se toman los elementos de la poblaci´on.
Un dise˜no muestral es Complejo si tiene al menos una de las siguientes caracter´ısticas:
1 Estratificaci´on. 2 Conglomeramiento. 3 Varias etapas de selecci´on.
4 La probabilidad de selecci´on de los elementos es diferente entre
Formas de selecci´
on mas usuales
Hay diversas formas aleatorias de extraer muestras.
Estas formas provocan que la probabilidad de que un elemento de la poblaci´on de inter´es se encuentre en la muestra sea diferente.
Las formas m´as comunes son:
1 Muestreo Aleatorio Simple (MAS) (la probabilidad de selecci´on
es constante).
2 Muestreo con probabilidad proporcional al tama˜no
(PPT)(selecci´on con mayor probabilidad para las unidades grandes).
3
Muestreo sistem´
atico
.
4 Muestreo sistem´atico PPT.Muestreo Sistem´
atico
Ejemplo
Supongamos que se quiere extraer una muestra de tama˜no 3 de una poblaci´on de tama˜no 7.
El primer paso es seleccionar un n´umero bajo MAS entre 0 y 7. A partir de donde se encuentre dicho n´umero se
seleccionar´a la unidad que se encuentre a distancia 73 y as´ı sucesivamente hasta completar el tama˜no de muestra.
Estratificaci´
on
La poblaci´on es dividida enH subconjuntos disjuntos entre si llamados Estratos Muestrales.
La selecci´on de las unidades en cada estrato es independiente entre si.
Eso significa que la muestra global se forma uniendo H muestras independientes entre s´ı.
Los estratos se construyen principalmente por dos razones:
Es la forma m´as econ´omica dereducir el error est´andar. Permite tener m´as control en la aplicaci´on de encuestas.
Conglomeramiento
En muchas ocasiones los elementos de la poblaci´on se agrupan de manera natural en racimos que llamaremos
Conglomerados ounidades primarias de muestreo(UPM). Seleccionar bajo alg´un mecanismo aleatorio a los
conglomerados aumenta el error est´andar pero resulta muy conveniente para reducir los costos de un levantamiento.
El Dise˜
no Muestral de EXCALE
La Poblaci´on de alumnos se estratifica en mas de 100 estratos. Al interior de cada estrato se procede de la siguiente manera: 1 En la primer etapa de selecci´on se extrae una muestra
sistem´atica de UPM (escuelas).
2 En la segunda etapa se extrae una muestra de estudiantes al interior de las escuelas seleccionadas en la primer etapa bajo muestreo aleatorio simple.
Implicaciones del dise˜
no muestral
No considerar el dise˜
no muestral nos lleva a una
mala estimaci´
on del error est´
andar.
Lo cual tiene dos consecuencias graves:
1 Los intervalos de confianza pueden no contener al valor poblacional.
2 Las pruebas de hip´otesis pueden arrojar resultados err´oneos. ¡A´un no he dicho nada respecto a como afecta el m´etodo de estimaci´on del error est´andar!.
Ejemplo: Pruebas de Hip´
otesis
Supongamos que estamos empleando una base de EXCALE y que ignoramos el dise˜no de la muestra.
Obtenemos quebθ= 505 y q
b
V(bθ) = 25 (err´oneo).
Es usual suponer que el estimador tiene una distribuci´on normal (otro error),z(0975)= 196 con α= 005.
Se quiere hacer la prueba H0 :µ0 = 500VS H1 :µ0 6= 500.
El estad´ıstico de prueba es bθ−µ0 q b V(bθ) = 505−500 25 = 2>196 Estamos en la regi´on de rechazo de H0=⇒ µ0 6= 500.
Ejemplo pruebas de hip´
otesis (continuaci´
on)
el p value esP(|z|>2) =P(z >2) +P(z <) = 2P(z >2) = 2 (1−P(z <2)) = 00455<005 La prueba resultasignificativa =⇒ RechazoH0 a una
significancia de 005.
Palabras de Yates citadas por Kish (1972):
Si se tiene un intervalo de confianza, es l´ogico querer transformarlo para construir una prueba de hip´otesis. Sin embargo, se ha visto que cuando las muestras son grandes, tales pruebas son
inadecuadas.Si la muestra tiene un tama˜no suficientemente grande, la relaci´on m´as d´ebil y menos significativa
Ejemplo pruebas de hip´
otesis (continuaci´
on)
Ahora supongamos que en el muestreo de EXCALE NO
ignoramos el dise˜no de la muestra. Obtenemos quebθ= 505 y
q b
V(bθ) = 3.Error aproximado
mediante BRR
Adem´as empleamos 80 replicaciones, asumiendo que la distribuci´on del estimador es t,t(80,0975)= 199 con
α= 005.
Se quiere hacer la prueba H0 :µ0 = 500VS H1 :µ0 6= 500.
El estad´ıstico de prueba es b θ−µ0 q b V(bθ) = 505−500 3 = 166666>199 Estamos en la regi´on de NO rechazo de H0=⇒ µ0 = 500.
Ejemplo pruebas de hip´
otesis (continuaci´
on)
el p value es
P(|t|>1666) = 00995>005 La prueba no es significativa. NO RechazoH0 a una
significancia de 005. Rust K.F. (1996) dice:
Con la reciente difusi´on de los m´etodos de estimaci´on por remuestreo. se ha visto que ´estos proveen una forma robusta de hacer pruebas de significancia.
¿C´
omo considero el dise˜
no muestral?
Con software estad´ıstico est´andar (SAS,SPSS,R, etc.) se necesita Identificar los Estratos.
Identificar los Conglomerados de la primer etapa. Los factores de expansi´on.
Con el m´odulo de PISAse necesita.
Identificaci´on de los Conglomerados de la primer etapa (escuelas).
Los factores de expansi´on.
Los pesos de replicaci´on: Estos pesos no forman parte del dise˜no muestral, sino son parte del m´etodo de estimaci´on del error est´andar.
¡Dudas, Preguntas, comentarios!
¡Muchas gracias por su
Contacto
Direcci´on de Pruebas y Medici´on, Subdirecci´on de An´alisis M.C. Jos´e Gustavo Rodr´ıguez Jim´enez
Tel´efono: 54820900 ext.1080 Correo: [email protected]
Referencias
Rust K.F., Rao J.N.K.,(1996) Variance Estimation for Complex Surveys Using Replication Techniques,Statistical Methods in Medical Research, 5, p´ag.283-310.
Ignacio M´endez, Guillermina Eslava y Patricia Romero
(2004) Conceptos b´asicos de muestreo, IIMAS-UNAM.
Kish, L.(1972) Muestreo de Encuestas, Trillas ,p´ag. 678.
S¨arndal, C.E., Swensson, B., y Wretman J.H. (1991)