Anexo No. 3
CÁLCULO DEL TAMAÑO DE LA MUESTRA Y EL ERROR DE DISEÑO MUESTRAL
La Obtención del Tamaño de la Muestra como un Proceso Iterativo
Para el caso de diseños de muestras complejas como la presente, es recomendable utilizar la aproximación gráfica de Dalenius1 que se reduce en realidad a un proceso iterativo, mediante el cual se va modificando los tamaños de muestras dentro de cada estrato y el tamaño de muestra general en base a nueva información obtenida del proceso mismo. En nuestro caso, los pasos a realizar son los siguientes:
Iteración 1.
Paso 1.1. Obtención de Parámetros.
Paso 1.2. Cálculo de tamaño de muestra óptimo.
Paso 1.3. Aplicación del diseño por conglomerados y cálculo del Efecto del Diseño (EDIS)
Iteración 2
Paso 2.1. Refinamiento de los valores del Efecto del Diseño.
Paso 2.2 Refinamiento de los Márgenes de Error
Paso 2.3 Obtención de los nuevos tamaños de muestra.
Iteración 1.
Paso 1.1. Obtención de Parámetros. Obtención de los parámetros relevantes en nuestro caso:
- proporciones de encuestas anteriores
- costos de toma de muestra por dominio de estudio - margen de error aceptable
- nivel de confianza
- efecto del diseño (EDIS) conservador
A continuación listamos estos valores para nuestro caso:
Tabla A3.1
Datos Iniciales para el Diseño de la Muestra
Dominio deEstudio
Total Beneficiarios
(Nh)
Prevalencia de Desnutrición
Crónica (ph)
Costo Relativo de Recoger Datos (ch)
(Lima Met = 1)
Márgenes de Error Máximos Aceptables Lima
Metropolitana 10,736 0.10 1.0 ≤10%
Costa 12,171 0.20 2.0 ≤10%
Sierra 14,111 0.40 3.0 ≤10%
Selva 3,272 0.19 3.0 ≤10%
Total 40,290 ≤ 5%
1 Véase, por ejemplo, Cochran, Sampling Techniques, en el capítulo titulado Further Issues on Stratified Sampling.
Los valores Nh los proporciona el Anexo 5 en medio magnético de la bases de la convocatoria. Los ph se obtuvieron tras procesar la data del ENDES 2000, y los ch los ha dado el experto en toma de muestras de campo. Además del EDIS conservador de 2.0.
Paso 1.2. Cálculo de tamaño de muestra óptimo. Con los datos anteriores, obtener:
- el tamaño de la muestra total
- el tamaño de la muestra para cada nivel de inferencia.
Hacemos esto mediante la asignación de Neyman con costos diferentes o asignación óptima. Dicha asignación minimiza el margen de error para un costo fijo, o bien, minimiza el costo para un margen de error fijo.
Debemos elegir una muestra irrestricta con un margen de error del 2.5% para que el error sea de 5% después de la aplicación del efecto del diseño.
Nuestro diseño es estratificado con toma polietápica de conglomerados dentro de cada estrato. Así, pues, calcularemos primero el tamaño de muestra para muestreo estratificado aleatorio que es el diseño aleatorio puro más cercano a nuestro caso, con un margen de error del 2.5%.
Asignación óptima o de Neyman. Influencia de los costos. Si el costo de tomar datos para cada elemento de la muestra fuera el mismo, entonces lo ideal sería aplicar la asignación de Neyman o asignación óptima para minimizar el tamaño de la muestra dado un margen de error fijo o para minimizar el margen de error dado un tamaño de muestra fijo.
Sin embargo, en nuestro caso los costos no son iguales. Se estima que tomar los datos de una unidad de análisis en Lima Metropolitana es 0.5 veces el costo de tomar una fuera de Lima Metropolitana. Se asume que los costos fuera de Lima pueden ser considerados iguales.
Por ello, utilizaremos la asignación de Neyman modificada, que tomando en cuenta los costos, minimiza estos dado un margen de error fijo y viceversa, minimiza el error dado un costo fijo.
(Ec. A3.1)
∑
== L
h
h h h h
h h h h h
c q p N
c q p w N
1
/ /
;
(Ec. A3.2)
∑
∑
=
=
+
= L
h h h h
L
h h
h h h
q p Z N
E N
w q p N n
2 1 2 /
2 2
1 2
α
y
(Ec. A3.3) nh = wh x n
en donde:
N tamaño total de la población a estudiar
Nh tamaño total de la población a estudiar en el estrato h n tamaño de muestra total
nh tamaño de muestra tomado en el estrato h
wh proporción del tamaño de la muestra asignada al estrato h con respecto al tamaño de muestra total (= nh/n)
ch costo de tomar datos de un elemento en el estrato h
E: margen de error aceptable, normalmente 0.05 (5%.) En nuestro caso, previniendo un efecto del diseño = 2.00 estamos tomando E = 0.025 (2.5%) ph proporción con la característica de interés en el estrato h
qh = 1 - ph
Zα/2 valor de la variable normal estándar para un nivel de confianza dado. Para un nivel de confianza del 95%, Za/2 = 1.96.
Aplicando las ecuaciones A3.1 a A3.3 a los datos de la Tabla A3.1 obtenemos los datos que se muestran en la Tabla A3.2.
Tabla A3.2
Pesos Asignados a y Márgenes de Error de cada Dominio de Estudio y Márgenes de Error para cada
Estrato h wh nh margen error
Lima Metropolitana 1 0.28995 227 3.9%
Costa 2 0.21669 170 4.8%
Sierra 4 0.28435 223 5.3%
Selva 6 0.08171 64 9.8%
Total 1.00000 784 2.6%
Paso 1.3. Aplicación del diseño por conglomerados y cálculo del Efecto del Diseño (EDIS) Una vez obtenidos los tamaños de muestra, tanto para el total como para cada dominio de estudio, aplicamos el diseño por conglomerados polietápico para obtener:
- márgenes de error para la muestra total
- márgenes de error para cada nivel de inferencia
- efecto del diseño, tanto para la muestra total como para cada nivel de inferencia Aquí observamos si los márgenes de error son aceptables para todos los casos. De ser así, el proceso termina aquí y tomamos esta muestra.
De lo contrario, observamos los verdaderos valores del Efecto del Diseño. Como hemos elegido un Efecto del Diseño conservador, esperamos que éste sea menor que el estimado originalmente. Si éste no es el caso, el proceso termina aquí y diremos que no es posible tomar una muestra que satisfaga todas las restricciones exigidas.
Si en realidad habíamos sobrestimado el Efecto del Diseño, entonces tenemos posibilidad de mejorar la muestra y pasamos a la siguiente iteración.
Aplicación. Una vez hallada la muestra y la manera en que se distribuye entre todos los estratos, procedemos a calcular el verdadero margen de error de nuestro diseño y ver si nuestro EDIS estaba sobrestimado o subestimado.
Para esto aplicamos las dos ecuaciones siguientes. Primero para cada estrato h encontramos la varianza V(ph) y que está dada por:
(Ec A3.4)
donde
(Ec A3.5)
N el número de conglomerados en el estrato
n el número de conglomerados seleccionados en una muestra irrestricta aleatoria dentro del estrato
Mi el número de elementos en el conglomerado i
mi el número de elementos seleccionados en una muestra aleatoria del conglomerado i
M el número de elementos de la población
N
M = M el tamaño del conglomerado promedio en el estrato
pi proporción de elementos en el conglomerado i que cae dentro de la categoría de interés.
Nótese que en las ecuaciones A3.4 y A3.5 hemos dejado de usar el subíndice h con el fin de facilitar la notación. Así, en lugar de escribir, por ejemplo, Mhi para significar el número de elementos en el conglomerado i del estrato h, hemos denotado simplemente Mi. Tómese en cuenta que esto se debe hacer para cada estrato. En nuestro caso esto tiene que hacerse seis veces. Mientras esto quede claro, entonces no hay peligro de ambigüedad.
Alimentamos una hoja de cálculo Excel con la fórmulas anteriores y los datos siguientes Tabla A.3.
Valores de los Parámetros para el Cálculo de Mediante el Diseño Muestral por Conglomerados
Estrato # CG # WW # MC # nñ Lima
Metrop.
Lima 1 20 197 197 1576 Lima 2 12 113 113 920 Lima 3 13 126 141 1128 Lima 4 15 129 152 1216 Lima 5 19 205 224 1792 Lima 6 21 193 208 1664
Lima 7 11 66 102 816
Callao 19 147 203 1624 TOTAL 130 1,176 1,340 10736
Costa Urbana
Cañete 5 59 59 470
Chiclayo 16 216 216 1726 Chimbote 17 216 244 1952 Huacho 11 127 141 1128
Ica 11 115 117 939
Piura 13 156 179 1429 Tacna 12 141 141 1128 Trujillo 9 118 120 960 Tumbes 9 114 114 912
Arequipa 2 28 29 235
Estrato # CG # WW # MC # nñ
TOTAL 105 1290 1360 10879
Costa
Rural Cañete 2 31 31 250
Chiclayo 1 15 15 122
Chimbote 1 11 12 96
Ica 2 19 20 157
Piura 4 55 63 507
Tacna 1 12 12 96
Trujillo 1 8 8 64
TOTAL 12 151 162 1292
Sierra
Urbana Abancay 7 71 71 568 Andahuaylas 4 49 50 394
Ayacucho 4 50 50 400
Cajamarca 7 100 107 856 Cusco 11 112 148 1184 Huancavelica 8 115 119 952
Huancayo 6 75 75 600
Huaraz 8 97 97 776
Moquegua 8 102 102 816
Pasco 5 69 69 552
Puno 21 295 303 2424
Estrato # CG # WW # MC # nñ Arequipa 14 196 206 1645
TOTAL 103 1332 1396 11167
Sierra
Rural Andahuaylas 9 130 131 1040 Cajamarca 7 95 101 808
Huancayo 1 12 12 96
Pasco 2 24 24 192
Arequipa 7 96 101 808
TOTAL 26 357 369 2944
Selva
Urbana Nororiental 4 55 55 440
Huánuco 4 51 55 440
Iquitos 15 185 189 1512 Pucallpa 8 110 110 880
TOTAL 31 401 409 3272
GRAN
TOTAL 46 407 4707 5036 40290
Estrato # CG # WW # MC # nñ
Errores Muestrales Con el Diseño por Conglomerados
Estrato Error Muestral Efecto del
Diseño
Lima Metropolitana 4.9%
1.29
Costa Urbana 6.4%
1.40
Costa Rural 18.8%
1.08
Sierra Urbana 7.9%
1.54
Sierra Rural 17.9%
1.44
Selva Urbana 13.0%
1.23
Finalmente, estimamos la varianza del estimador de la proporción a nivel nacional mediante:
(Ec A3.6) ˆ( ) ˆ( )
1
2
1
h L
h L
h h h
st V p
M p M
V
∑
∑
=
=
=
en donde
V(pst) es el estimador la varianza de la proporción del diseño total
V(ph) es el estimador de la varianza de la proporción en cada estrato
Aplicando la Ecuación a los datos de la Tabla A3.4 obtenemos los siguientes resultados:
(Ec. A3.7)
V(pst)= 0.00032
Error Estándar (EE) = 0.018
Margen de error = 0.036
Efecto del diseño (EDIS) = 1.437
En efecto, vemos que sobrestimamos el efecto del diseño pues éste es menor que el valor de 2.00 que le habíamos asignado (en realidad es 1.437.) Como el efecto del diseño es pequeño, nuestro margen de error también permanece más pequeño de lo previsto (3.6%)
Por otro lado, la Tabla A3.4 nos muestra que hay márgenes de error inaceptables para tres Dominios de Estudio, a saber, Costa Rural, Sierra Rural y Selva Urbana, con errores de 18.8%, 17.9% y 13.0%, respectivamente.
TNR = 8%
Iteración 2
Paso 2.1. Refinamiento de los valores del Efecto del Diseño. En los niveles de inferencia con márgenes de error inaceptables, se espera que el tamaño de muestra aumente y el EDIS, en consecuencia, disminuya. En los niveles de inferencia con márgenes de error menores al máximo aceptable, se puede disminuir el tamaño de muestra y en consecuencia, que el EDIS aumente. En este último caso, la literatura especializada nos dice que es razonable dividir el EDIS entre 1.1. En ningún caso el EDIS refinado será menor que 1.
Tabla A3.5
Efectos de Diseño Refinados
Estrato Error Muestral Efecto del
Diseño
Lima Metropolitana 4.9% 1.29
Costa 6.4% 1.40
Costa 18.8% 1.08
Sierra 7.9% 1.54
Sierra 17.9% 1.31
Selva 13.0% 1.12
Paso 2.2 Refinamiento de los Márgenes de Error Hacemos uso de los EDIS refinados, y procedemos a hacer a considerar los márgenes de error para una toma de muestra independiente por dominio de estudios teniendo ya una mejor idea de cómo quedarán afectados los márgenes de error tras la aplicación del diseño por conglomerados. Los datos que proporcionamos aquí son:
- margen de error permitido para cada nivel de inferencia.
- EDIS para cada nivel de inferencia.
Para obtener:
- margen de error para MAS para cada nivel de inferencia, que resulta de dividir los márgenes de error permitidos entre sus correspondientes EDIS refinados.
TABLA A3.6
Errores Muestrales para Cada Nivel de Inferencia
Dominio de Estudio Total
Beneficiarios Error MAS Efecto del Diseño
(Conservador) Error Muestral
TOTAL NACIONAL 40,290 3.0% 1.44 4.4%
Lima Metropolitana 10,736 5.0% 1.29 6.5%
Costa 12,171 6.5% 1.40 9.1%
Sierra 11,167 5.5% 1.54 8.5%
Selva 3,272 8.9% 1.12 10.0%
De lo contrario, vemos si ya no tenemos posibilidad de procesar los EDIS, márgenes de error y costos, tras lo cual termina el proceso y decimos que no hay una muestra que satisfaga todas las restricciones exigidas.
Si dicha posibilidad existe, repetimos la iteración 2 cuantas veces sean necesarias.
Normalmente, el tamaño de muestra o la determinación de la imposibilidad de satisfacer las restricciones, debe hallarse en no más de dos iteraciones
Aplicación
Aplicamos lo anteriormente dicho para obtener los resultados de la Tabla A3.7 que cumple con los requerimientos de los márgenes de error estipulados en la Tabla A3.1 y cuyos valores exactos se dan en la Tabla A3.7.
TABLA A3.7
Tamaños de Muestra y Márgenes de Error Asociados Dominio de
Estudio Total
Beneficiarios Tasa de No Respuesta
Beneficiarios
a Medir
Error MAS Efecto del Diseño (Conservador)
Error Muestral
TOTALNACIONAL 40,290 649
3.0% 1.44 4.4%
Lima
Metropolitana 10,736 8.0% 135
5.0% 1.29 6.5%
Costa 12,171 8.0% 219
6.5% 1.40 9.1%
Sierra 14,111 8.0% 295
5.5% 1.54 8.5%
Selva 3,272 8.0% 73