Implicaciones del disen o de muestreo y el me todo de estimacio n del error esta ndar

(1)

Implicaciones del dise˜

no de muestreo y el

m´

etodo de estimaci´

on del error est´

andar

Dirección de Pruebas y Medición, Subdirección de Análisis

M.C. Jos´e Gustavo Rodr´ıguez Jim´enez

(2)

Objetivos de la presentaci´

on

Responder:

1

¿Qu´

e es el dise˜

no de una muestra?

2

¿Qu´

e consecuencias puede acarrear ignorarlo?

3

¿C´

omo influye el m´

etodo de estimaci´

on del error

(3)

Introducci´

on

La Distribuci´on de Muestreo de la Media(extra´ıda de M´endez et al (2004))

La teor´ıa dice...

Esto se satisface cuando tenemos

muestras

aleatorias simples.

(4)

Introducci´

on (continuaci´

on)

En el caso general, seaQ una caracter´ıstica de la poblaci´on, que se desea estimar medianteQ, podemos decir que aunque la muestrab ya no sea aleatoria simple:

Bajo un

dise˜

no muestral complejo

se satisface el teorema central del l´ımite.

El cual asegura que para un tama˜no de muestra grande. b

Q−Q q

V(Qb)

∼N(0,1)

Podemos encontrar el intervalo de confianza al (1−α)100 % aproximado mediante b Q±z(1−α 2) q b V(Q)b

(5)

Ejemplo de un muestreo con Dise˜

no muestral

complejo

(6)

Caracter´ısticas del conteo r´

apido 2012

Las unidades muestrales en este caso son las casillas electorales.

La variable de respuesta es la cantidad de votos por casilla y por partido pol´ıtico

El estad´ıstico de inter´es es la proporci´on (o porcentaje) de votos a favor de cada partido

El margen de error planeado fue de ±05 % con intervalos del 95 % de confianza.

En una sola etapa se seleccionaron mediante muestreo sistem´atico n = 7597 casillas de un total deN= 143456 repartidas en 483 estratos.

(7)

Resultados del Conteo r´

apido

Partido Porcentaje Poblacionales* IC estimados

JVM 2540 % (2510,2603) EPN 3815 % (3793,3855) AMLO 3164 % (3090,3186) GQT 230 % (227,257) No registrados 006 % -Nulos 242 %

(8)

El Dise˜

no Muestral

ElDise˜no de la muestra es la forma en que se toman los elementos de la poblaci´on.

Un dise˜no muestral es Complejo si tiene al menos una de las siguientes caracter´ısticas:

1 _{Estratificaci´}_on. 2 _{Conglomeramiento.} 3 _{Varias etapas de selecci´}_on.

4 _{La probabilidad de selecci´}_{on de los elementos es diferente entre}

(9)

Formas de selecci´

on mas usuales

Hay diversas formas aleatorias de extraer muestras.

Estas formas provocan que la probabilidad de que un elemento de la poblaci´on de inter´es se encuentre en la muestra sea diferente.

Las formas m´as comunes son:

1 _{Muestreo Aleatorio Simple (MAS) (la probabilidad de selecci´}_on

es constante).

2 _{Muestreo con probabilidad proporcional al tama˜}_no

(PPT)(selecci´on con mayor probabilidad para las unidades grandes).

3

Muestreo sistem´

atico

.

4 _{Muestreo sistem´}_{atico PPT.}

(10)

Muestreo Sistem´

atico

Ejemplo

Supongamos que se quiere extraer una muestra de tamaño 3 de una población de tamaño 7.

El primer paso es seleccionar un n´umero bajo MAS entre 0 y 7. A partir de donde se encuentre dicho n´umero se

seleccionar´a la unidad que se encuentre a distancia 7₃ y as´ı sucesivamente hasta completar el tama˜no de muestra.

(11)

Estratificaci´

on

La poblaci´on es dividida enH subconjuntos disjuntos entre si llamados Estratos Muestrales.

La selecci´on de las unidades en cada estrato es independiente entre si.

Eso significa que la muestra global se forma uniendo H muestras independientes entre s´ı.

Los estratos se construyen principalmente por dos razones:

Es la forma más económica dereducir el error estándar. Permite tener más control en la aplicación de encuestas.

(12)

(13)

Conglomeramiento

En muchas ocasiones los elementos de la poblaci´on se agrupan de manera natural en racimos que llamaremos

Conglomerados ounidades primarias de muestreo(UPM). Seleccionar bajo alg´un mecanismo aleatorio a los

conglomerados aumenta el error est´andar pero resulta muy conveniente para reducir los costos de un levantamiento.

(14)

(15)

El Dise˜

no Muestral de EXCALE

La Poblaci´on de alumnos se estratifica en mas de 100 estratos. Al interior de cada estrato se procede de la siguiente manera: 1 _{En la primer etapa de selecci´}_{on se extrae una muestra}

sistem´atica de UPM (escuelas).

2 _{En la segunda etapa se extrae una muestra de estudiantes al} interior de las escuelas seleccionadas en la primer etapa bajo muestreo aleatorio simple.

(16)

(17)

Implicaciones del dise˜

no muestral

No considerar el dise˜

no muestral nos lleva a una

mala estimaci´

on del error est´

andar.

Lo cual tiene dos consecuencias graves:

1 _{Los intervalos de confianza pueden no contener al valor} poblacional.

2 _{Las pruebas de hip´}_{otesis pueden arrojar resultados err´}_oneos. ¡Aún no he dicho nada respecto a como afecta el método de estimación del error estándar!.

(18)

Ejemplo: Pruebas de Hip´

otesis

Supongamos que estamos empleando una base de EXCALE y que ignoramos el dise˜no de la muestra.

Obtenemos quebθ= 505 y q

b

V(bθ) = 25 (err´oneo).

Es usual suponer que el estimador tiene una distribuci´on normal (otro error),z(0975)= 196 con α= 005.

Se quiere hacer la prueba H0 :µ0 = 500VS H1 :µ0 6= 500.

El estad´ıstico de prueba es bθ−µ₀ q b V(bθ) = 505−500 25 = 2>196 Estamos en la regi´on de rechazo de H0=⇒ µ0 6= 500.

(19)

Ejemplo pruebas de hip´

otesis (continuaci´

on)

el p value es

P(|z|>2) =P(z >2) +P(z <) = 2P(z >2) = 2 (1−P(z <2)) = 00455<005 La prueba resultasignificativa =⇒ RechazoH0 a una

significancia de 005.

Palabras de Yates citadas por Kish (1972):

Si se tiene un intervalo de confianza, es l´ogico querer transformarlo para construir una prueba de hip´otesis. Sin embargo, se ha visto que cuando las muestras son grandes, tales pruebas son

inadecuadas.Si la muestra tiene un tamaño suficientemente grande, la relación más débil y menos significativa

(20)

Ejemplo pruebas de hip´

otesis (continuaci´

on)

Ahora supongamos que en el muestreo de EXCALE NO

ignoramos el dise˜no de la muestra. Obtenemos quebθ= 505 y

q b

V(bθ) = 3.Error aproximado

mediante BRR

Adem´as empleamos 80 replicaciones, asumiendo que la distribuci´on del estimador es t,t(80,0975)= 199 con

α= 005.

Se quiere hacer la prueba H0 :µ0 = 500VS H1 :µ0 6= 500.

El estad´ıstico de prueba es b θ−µ0 q b V(bθ) = 505−500 3 = 166666>199 Estamos en la regi´on de NO rechazo de H0=⇒ µ0 = 500.

(21)

Ejemplo pruebas de hip´

otesis (continuaci´

on)

el p value es

P(|t|>1666) = 00995>005 La prueba no es significativa. NO RechazoH0 a una

significancia de 005. Rust K.F. (1996) dice:

Con la reciente difusión de los métodos de estimación por remuestreo. se ha visto que éstos proveen una forma robusta de hacer pruebas de significancia.

(22)

¿C´

omo considero el dise˜

no muestral?

Con software estad´ıstico est´andar (SAS,SPSS,R, etc.) se necesita Identificar los Estratos.

Identificar los Conglomerados de la primer etapa. Los factores de expansi´on.

Con el m´odulo de PISAse necesita.

Identificaci´on de los Conglomerados de la primer etapa (escuelas).

Los factores de expansi´on.

Los pesos de replicación: Estos pesos no forman parte del diseño muestral, sino son parte del método de estimación del error estándar.

(23)

¡Dudas, Preguntas, comentarios!

¡Muchas gracias por su

(24)

Contacto

Dirección de Pruebas y Medición, Subdirección de Análisis M.C. José Gustavo Rodr´ıguez Jiménez

Tel´efono: 54820900 ext.1080 Correo: [email protected]

(25)

Referencias

Rust K.F., Rao J.N.K.,(1996) Variance Estimation for Complex Surveys Using Replication Techniques,Statistical Methods in Medical Research, 5, p´ag.283-310.

Ignacio M´endez, Guillermina Eslava y Patricia Romero

(2004) Conceptos b´asicos de muestreo, IIMAS-UNAM.

Kish, L.(1972) Muestreo de Encuestas, Trillas ,p´ag. 678.

S¨arndal, C.E., Swensson, B., y Wretman J.H. (1991)