Evaluación de Impacto del PNWW Anexo 3. Anexo No. 3

(1)

Anexo No. 3

CÁLCULO DEL TAMAÑO DE LA MUESTRA Y EL ERROR DE DISEÑO MUESTRAL

La Obtención del Tamaño de la Muestra como un Proceso Iterativo

Para el caso de diseños de muestras complejas como la presente, es recomendable utilizar la aproximación gráfica de Dalenius¹ que se reduce en realidad a un proceso iterativo, mediante el cual se va modificando los tamaños de muestras dentro de cada estrato y el tamaño de muestra general en base a nueva información obtenida del proceso mismo. En nuestro caso, los pasos a realizar son los siguientes:

Iteración 1.

Paso 1.1. Obtención de Parámetros.

Paso 1.2. Cálculo de tamaño de muestra óptimo.

Paso 1.3. Aplicación del diseño por conglomerados y cálculo del Efecto del Diseño (EDIS)

Iteración 2

Paso 2.1. Refinamiento de los valores del Efecto del Diseño.

Paso 2.2 Refinamiento de los Márgenes de Error

Paso 2.3 Obtención de los nuevos tamaños de muestra.

Iteración 1.

Paso 1.1. Obtención de Parámetros. Obtención de los parámetros relevantes en nuestro caso:

- proporciones de encuestas anteriores

- costos de toma de muestra por dominio de estudio - margen de error aceptable

- nivel de confianza

- efecto del diseño (EDIS) conservador

A continuación listamos estos valores para nuestro caso:

Tabla A3.1

Datos Iniciales para el Diseño de la Muestra

Dominio de

Estudio

Total Beneficiarios

(Nh)

Prevalencia de Desnutrición

Crónica (ph)

Costo Relativo de Recoger Datos (ch)

(Lima Met = 1)

Márgenes de Error Máximos Aceptables Lima

Metropolitana 10,736 0.10 1.0 ≤10%

Costa 12,171 0.20 2.0 ≤10%

Sierra 14,111 0.40 3.0 ≤10%

Selva 3,272 0.19 3.0 ≤10%

Total 40,290 ≤ 5%

1 Véase, por ejemplo, Cochran, Sampling Techniques, en el capítulo titulado Further Issues on Stratified Sampling.

(2)

Los valores Nh los proporciona el Anexo 5 en medio magnético de la bases de la convocatoria. Los ph se obtuvieron tras procesar la data del ENDES 2000, y los ch los ha dado el experto en toma de muestras de campo. Además del EDIS conservador de 2.0.

Paso 1.2. Cálculo de tamaño de muestra óptimo. Con los datos anteriores, obtener:

- el tamaño de la muestra total

- el tamaño de la muestra para cada nivel de inferencia.

Hacemos esto mediante la asignación de Neyman con costos diferentes o asignación óptima. Dicha asignación minimiza el margen de error para un costo fijo, o bien, minimiza el costo para un margen de error fijo.

Debemos elegir una muestra irrestricta con un margen de error del 2.5% para que el error sea de 5% después de la aplicación del efecto del diseño.

Nuestro diseño es estratificado con toma polietápica de conglomerados dentro de cada estrato. Así, pues, calcularemos primero el tamaño de muestra para muestreo estratificado aleatorio que es el diseño aleatorio puro más cercano a nuestro caso, con un margen de error del 2.5%.

Asignación óptima o de Neyman. Influencia de los costos. Si el costo de tomar datos para cada elemento de la muestra fuera el mismo, entonces lo ideal sería aplicar la asignación de Neyman o asignación óptima para minimizar el tamaño de la muestra dado un margen de error fijo o para minimizar el margen de error dado un tamaño de muestra fijo.

Sin embargo, en nuestro caso los costos no son iguales. Se estima que tomar los datos de una unidad de análisis en Lima Metropolitana es 0.5 veces el costo de tomar una fuera de Lima Metropolitana. Se asume que los costos fuera de Lima pueden ser considerados iguales.

Por ello, utilizaremos la asignación de Neyman modificada, que tomando en cuenta los costos, minimiza estos dado un margen de error fijo y viceversa, minimiza el error dado un costo fijo.

(Ec. A3.1)

∑

=

= _L

h

h h h h

h h h h h

c q p N

c q p w N

1

/ /

;

(Ec. A3.2)

∑

=

+

= _L

h h h h

L

h h

h h h

q p Z N

E N

w q p N n

2 1 2 /

2 2

1 2

α

y

(Ec. A3.3) nh = wh x n

(3)

en donde:

N tamaño total de la población a estudiar

Nh tamaño total de la población a estudiar en el estrato h n tamaño de muestra total

nh tamaño de muestra tomado en el estrato h

wh proporción del tamaño de la muestra asignada al estrato h con respecto al tamaño de muestra total (= nh/n)

ch costo de tomar datos de un elemento en el estrato h

E: margen de error aceptable, normalmente 0.05 (5%.) En nuestro caso, previniendo un efecto del diseño = 2.00 estamos tomando E = 0.025 (2.5%) ph proporción con la característica de interés en el estrato h

qh = 1 - ph

Zα/2 valor de la variable normal estándar para un nivel de confianza dado. Para un nivel de confianza del 95%, Za/2 = 1.96.

Aplicando las ecuaciones A3.1 a A3.3 a los datos de la Tabla A3.1 obtenemos los datos que se muestran en la Tabla A3.2.

(4)

Tabla A3.2

Pesos Asignados a y Márgenes de Error de cada Dominio de Estudio y Márgenes de Error para cada

Estrato h wh nh margen error

Lima Metropolitana 1 0.28995 227 3.9%

Costa 2 0.21669 170 4.8%

Sierra 4 0.28435 223 5.3%

Selva 6 0.08171 64 9.8%

Total 1.00000 784 2.6%

Paso 1.3. Aplicación del diseño por conglomerados y cálculo del Efecto del Diseño (EDIS) Una vez obtenidos los tamaños de muestra, tanto para el total como para cada dominio de estudio, aplicamos el diseño por conglomerados polietápico para obtener:

- márgenes de error para la muestra total

- márgenes de error para cada nivel de inferencia

- efecto del diseño, tanto para la muestra total como para cada nivel de inferencia Aquí observamos si los márgenes de error son aceptables para todos los casos. De ser así, el proceso termina aquí y tomamos esta muestra.

De lo contrario, observamos los verdaderos valores del Efecto del Diseño. Como hemos elegido un Efecto del Diseño conservador, esperamos que éste sea menor que el estimado originalmente. Si éste no es el caso, el proceso termina aquí y diremos que no es posible tomar una muestra que satisfaga todas las restricciones exigidas.

Si en realidad habíamos sobrestimado el Efecto del Diseño, entonces tenemos posibilidad de mejorar la muestra y pasamos a la siguiente iteración.

Aplicación. Una vez hallada la muestra y la manera en que se distribuye entre todos los estratos, procedemos a calcular el verdadero margen de error de nuestro diseño y ver si nuestro EDIS estaba sobrestimado o subestimado.

Para esto aplicamos las dos ecuaciones siguientes. Primero para cada estrato h encontramos la varianza V(ph) y que está dada por:

(Ec A3.4)

donde

(5)

(Ec A3.5)

N el número de conglomerados en el estrato

n el número de conglomerados seleccionados en una muestra irrestricta aleatoria dentro del estrato

Mi el número de elementos en el conglomerado i

mi el número de elementos seleccionados en una muestra aleatoria del conglomerado i

M el número de elementos de la población

N

M = M el tamaño del conglomerado promedio en el estrato

pi proporción de elementos en el conglomerado i que cae dentro de la categoría de interés.

Nótese que en las ecuaciones A3.4 y A3.5 hemos dejado de usar el subíndice h con el fin de facilitar la notación. Así, en lugar de escribir, por ejemplo, Mhi para significar el número de elementos en el conglomerado i del estrato h, hemos denotado simplemente Mi. Tómese en cuenta que esto se debe hacer para cada estrato. En nuestro caso esto tiene que hacerse seis veces. Mientras esto quede claro, entonces no hay peligro de ambigüedad.

Alimentamos una hoja de cálculo Excel con la fórmulas anteriores y los datos siguientes Tabla A.3.

Valores de los Parámetros para el Cálculo de Mediante el Diseño Muestral por Conglomerados

Estrato # CG # WW # MC # nñ Lima

Metrop.

Lima 1 20 197 197 1576 Lima 2 12 113 113 920 Lima 3 13 126 141 1128 Lima 4 15 129 152 1216 Lima 5 19 205 224 1792 Lima 6 21 193 208 1664

Lima 7 11 66 102 816

Callao 19 147 203 1624 TOTAL 130 1,176 1,340 10736

Costa Urbana

Cañete 5 59 59 470

Chiclayo 16 216 216 1726 Chimbote 17 216 244 1952 Huacho 11 127 141 1128

Ica 11 115 117 939

Piura 13 156 179 1429 Tacna 12 141 141 1128 Trujillo 9 118 120 960 Tumbes 9 114 114 912

Arequipa 2 28 29 235

Estrato # CG # WW # MC # nñ

TOTAL 105 1290 1360 10879

Costa

Rural Cañete 2 31 31 250

Chiclayo 1 15 15 122

Chimbote 1 11 12 96

Ica 2 19 20 157

Piura 4 55 63 507

Tacna 1 12 12 96

Trujillo 1 8 8 64

TOTAL 12 151 162 1292

Sierra

Urbana Abancay 7 71 71 568 Andahuaylas 4 49 50 394

Ayacucho 4 50 50 400

Cajamarca 7 100 107 856 Cusco 11 112 148 1184 Huancavelica 8 115 119 952

Huancayo 6 75 75 600

Huaraz 8 97 97 776

Moquegua 8 102 102 816

Pasco 5 69 69 552

Puno 21 295 303 2424

Estrato # CG # WW # MC # nñ Arequipa 14 196 206 1645

TOTAL 103 1332 1396 11167

Sierra

Rural Andahuaylas 9 130 131 1040 Cajamarca 7 95 101 808

Huancayo 1 12 12 96

Pasco 2 24 24 192

Arequipa 7 96 101 808

TOTAL 26 357 369 2944

Selva

Urbana Nororiental 4 55 55 440

Huánuco 4 51 55 440

Iquitos 15 185 189 1512 Pucallpa 8 110 110 880

TOTAL 31 401 409 3272

GRAN

TOTAL 46 407 4707 5036 40290

(6)

Estrato # CG # WW # MC # nñ

(7)

Errores Muestrales Con el Diseño por Conglomerados

Estrato Error Muestral Efecto del

Diseño

Lima Metropolitana 4.9%

1.29

Costa Urbana 6.4%

1.40

Costa Rural 18.8%

1.08

Sierra Urbana 7.9%

1.54

Sierra Rural 17.9%

1.44

Selva Urbana 13.0%

1.23

Finalmente, estimamos la varianza del estimador de la proporción a nivel nacional mediante:

(Ec A3.6) ˆ( ) ˆ( )

1

2

1

h L

h h h

st V p

M p M

V

∑

=

= 











=

en donde

V(pst) es el estimador la varianza de la proporción del diseño total

V(ph) es el estimador de la varianza de la proporción en cada estrato

Aplicando la Ecuación a los datos de la Tabla A3.4 obtenemos los siguientes resultados:

(Ec. A3.7)

V(pst)= 0.00032

Error Estándar (EE) = 0.018

Margen de error = 0.036

Efecto del diseño (EDIS) = 1.437

En efecto, vemos que sobrestimamos el efecto del diseño pues éste es menor que el valor de 2.00 que le habíamos asignado (en realidad es 1.437.) Como el efecto del diseño es pequeño, nuestro margen de error también permanece más pequeño de lo previsto (3.6%)

Por otro lado, la Tabla A3.4 nos muestra que hay márgenes de error inaceptables para tres Dominios de Estudio, a saber, Costa Rural, Sierra Rural y Selva Urbana, con errores de 18.8%, 17.9% y 13.0%, respectivamente.

(8)

TNR = 8%

Iteración 2

Paso 2.1. Refinamiento de los valores del Efecto del Diseño. En los niveles de inferencia con márgenes de error inaceptables, se espera que el tamaño de muestra aumente y el EDIS, en consecuencia, disminuya. En los niveles de inferencia con márgenes de error menores al máximo aceptable, se puede disminuir el tamaño de muestra y en consecuencia, que el EDIS aumente. En este último caso, la literatura especializada nos dice que es razonable dividir el EDIS entre 1.1. En ningún caso el EDIS refinado será menor que 1.

Tabla A3.5

Efectos de Diseño Refinados

Estrato Error Muestral Efecto del

Diseño

Lima Metropolitana 4.9% 1.29

Costa 6.4% 1.40

Costa 18.8% 1.08

Sierra 7.9% 1.54

Sierra 17.9% 1.31

Selva 13.0% 1.12

Paso 2.2 Refinamiento de los Márgenes de Error Hacemos uso de los EDIS refinados, y procedemos a hacer a considerar los márgenes de error para una toma de muestra independiente por dominio de estudios teniendo ya una mejor idea de cómo quedarán afectados los márgenes de error tras la aplicación del diseño por conglomerados. Los datos que proporcionamos aquí son:

- margen de error permitido para cada nivel de inferencia.

- EDIS para cada nivel de inferencia.

Para obtener:

- margen de error para MAS para cada nivel de inferencia, que resulta de dividir los márgenes de error permitidos entre sus correspondientes EDIS refinados.

TABLA A3.6

Errores Muestrales para Cada Nivel de Inferencia

Dominio de Estudio Total

Beneficiarios Error MAS Efecto del Diseño

(Conservador) Error Muestral

TOTAL NACIONAL 40,290 3.0% 1.44 4.4%

Lima Metropolitana 10,736 5.0% 1.29 6.5%

Costa 12,171 6.5% 1.40 9.1%

Sierra 11,167 5.5% 1.54 8.5%

Selva 3,272 8.9% 1.12 10.0%

(9)

De lo contrario, vemos si ya no tenemos posibilidad de procesar los EDIS, márgenes de error y costos, tras lo cual termina el proceso y decimos que no hay una muestra que satisfaga todas las restricciones exigidas.

Si dicha posibilidad existe, repetimos la iteración 2 cuantas veces sean necesarias.

Normalmente, el tamaño de muestra o la determinación de la imposibilidad de satisfacer las restricciones, debe hallarse en no más de dos iteraciones

Aplicación

Aplicamos lo anteriormente dicho para obtener los resultados de la Tabla A3.7 que cumple con los requerimientos de los márgenes de error estipulados en la Tabla A3.1 y cuyos valores exactos se dan en la Tabla A3.7.

TABLA A3.7

Tamaños de Muestra y Márgenes de Error Asociados Dominio de

Estudio Total

Beneficiarios Tasa de No Respuesta

Beneficiarios

a Medir

Error MAS Efecto del Diseño (Conservador)

Error Muestral

TOTAL

NACIONAL 40,290 649

3.0% 1.44 4.4%

Lima

Metropolitana 10,736 8.0% 135

5.0% 1.29 6.5%

Costa 12,171 8.0% 219

6.5% 1.40 9.1%

Sierra 14,111 8.0% 295

5.5% 1.54 8.5%

Selva 3,272 8.0% 73