Parte 3. Técnicas de muestreo

(1)

Parte 3. Técnicas de muestreo

3.1 Introducción al muestreo

¿Es posible determinar con cierta precisión (error) las características de una población (finita) a partir de los resultados obtenidos en una muestra?. Cada observación a elemento tomado de la población contiene cierta

cantidad de información acerca del parámetro de interés. Ya que la información cuesta dinero, el investigador debe determinar qué tanta información debe comprar.

La cantidad de información contenida en una muestra depende del número de elementos muestreados y de la variabilidad de los datos. Este último factor puede ser controlado por el método de selección de la muestra.

Algunas DEFINICIONES básicas (recordemos...):

Elemento o individuo: Objeto (persona, empresa, animal, planta, etc.) sobre

el cuál se toma una medición de cierta característica de interés.

Población: Conjunto de elementos de interés para el investigador.

La población de interés debe de estar definida completa y cuidadosamente, lo cuál no siempre resulta fácil en la práctica. EJEMPLO: Se desea conocer

los hábitos y actitudes de los consumidores de goma de mascar de la ciudad de México. Se tienen las siguientes preguntas:

(2)

1. ¿Cómo definir a un consumidor de goma de mascar?, por ejemplo, aquel que consume al menos una goma de mascar diariamente.

2. ¿Qué significa que sea un consumidor de goma de mascar de la ciudad de México?, por ejemplo, que lleve al menos 10 años viviendo en esta ciudad.

NOTA: Una vez definida la población de interés detalladamente, las

conclusiones que se obtienen a partir de una muestra de dicha población, únicamente se aplican a dicha población.

Unidades de muestreo: Son colecciones disjuntas (mutuamente

excluyentes) de elementos de la población que cubren la población completa (exhaustivos).

En el ejemplo de los hábitos y costumbres de los consumidores de goma de mascar, una unidad de muestreo puede ser un individuo o un hogar. Si se eligen los hogares, un individuo debe de pertenecer a un solo hogar.

En algunas ocasiones es difícil definir unidades de muestreo que sean mutuamente excluyentes. En estudios de ecosistemas de animales, tomar parcelas circulares como unidades de muestreo resulta conveniente sin embargo es imposible cubrir todo un campo sin que haya intersección entre parcelas. En este caso se trata de disminuir la intersección lo más posible. El INEGI considera como unidades de muestreo las AGEB’s (área geo-estadística básica) para realizar encuestas.

Marco muestral: Es una lista de unidades de muestreo.

En la práctica, la mayoría de los marcos muestrales presentan imperfecciones sobretodo cuando el tamaño de la población es muy grande, por ejemplo:

(3)

1. Marco muestral incompleto: Elementos de la población que no están incluidos en el marco muestral.

2. Duplicados. Elementos de la población que se consideran más de una vez en el marco muestral y se suponen como elementos distintos.

3. Elementos extraños. Elementos que no pertenecen a la población objeto de estudio y que se incluyen en el marco muestral.

Muestra: Es una colección de unidades de muestreo seleccionadas de un

marco muestral.

EJEMPLO 23: El presidente de la República está interesado en conocer el

porcentaje de habitantes mayores de edad que están a favor de la inversión extranjera en electricidad.

Individuo: Ciudadano de la República Mexicana

Población: Todos los ciudadanos de la República Mexicana. Unidad de muestreo: individuo.

Marco muestral: Padrón electoral del IFE.

¿Cómo seleccionar la muestra?

Existen varios métodos de selección de muestras, estos métodos son llamados diseños muestrales.

DISEÑO MUESTRAL: Es el procedimiento mediante el cuál se obtiene la

muestra. Asigna un probabilidad de selección a cada una de las posibles muestras de tamaño n tomadas de una población de tamaño N.

(4)

Los diseños muestrales más utilizados son: 1. Muestreo aleatorio simple (MAS)

2. Muestreo aleatorio estratificado (MAE)

3. Muestreo aleatorio por conglomerados (MAC) 4. Muestreo sistemático (MS)

¿Qué diseño muestral debo utilizar?

Si nuestro objetivo es estimar un parámetro poblacional θ mediante un estimador puntual con un error de estimación de a lo más B unidades con una confianza de 1−α, i.e.,

θˆ

(

θˆ −θ ≤ B

)

=1−α

P ,

entonces “el mejor” diseño muestral es aquel que proporciona la precisión deseada al mínimo costo.

Muestreo probabilístico vs. muestreo no probabilístico

MUESTREO PROBABILÍSTICO: el azar es el que selecciona la muestra. Se

conoce la probabilidad de selección de cada posible muestra.

MUESTREO NO PROBABILÍSTICO: cualquier otra cosa distinta al azar

selecciona la muestra, por ejemplo: conveniencia, cuotas. VENTAJAS del muestreo probabilístico:

1. No hay sesgo de selección

2. Es posible cuantificar el error de muestreo (error de estimación) y construir IC.

(5)

ALGUNAS DEFINICIONES: Sean

N =número total de individuos en la población, X = variable de interés,

{

x₁,x₂,_Kx_N

}

= conjunto de valores de la variable X en la población, n = tamaño de muestra (n ≤ N),

{

X₁,X₂,_KX_n = muestra (conjunto de v.a.’s),

Xi = v.a. que toma valores en el conjunto

{

x₁,x₂,Kx_N

}

, i = 1,...,n.

CANTIDADES POBLACIONALES: Generalmente, el objetivo de un diseño

muestral es estimar un parámetro poblacional, que puede ser una media, un porcentaje o un total. o Media poblacional:

∑

= = µ N 1 i i X x N 1 o Total poblacional:

∑

= = µ = τ N 1 i i X X N x

o Porcentaje de la población con la categoría “C”:

si entonces,    ∈ = e.o.c. 0 C x si 1 y_i i

∑

= = N 1 i i C _N y 1 p

Una cantidad poblacional de gran utilidad es o Varianza poblacional:

(

)

∑

= µ − = σ N 1 i 2 X i 2 X _N x 1

(6)

3.2 Muestreo aleatorio simple

El muestreo aleatorio simple (MAS) o muestreo aleatorio irrestricto es uno de los procedimientos de muestreo más sencillos y sirve para comparar la eficiencia de distintos métodos de muestreo.

DEFINICIÓN: MAS. Es un diseño muestral en el cual cada posible muestra

de tamaño n (sin reemplazo) tiene la misma probabilidad de ser seleccionada.

o Si hay _ posibles muestras ⇒ cada muestra tiene probabilidad      n N       n N 1

o P(un individuo sea seleccionado) =

N n n N 1 n 1 N =             − − o Xi ∼ U

{

x₁,x₂,_Kx_N

}

, i = 1,...,n. ¿Cómo seleccionar una MAS?

Seleccionar una MAS no es tan sencillo como parece. Hay varias formas: 1. En un sombrero colocar N números de identificación numerados del 1

al N. Extraer n números del sombrero sin reemplazo.

2. Enlistar los N individuos de la población colocándoles un número de identificación. Generar números aleatorios de una distribución U{1,...,N} y seleccionar el individuo cuya identificación corresponda al número generado, desechar los números que se repitan y continuar hasta lograr tener una muestra de tamaño n.

(7)

3. Enlistar los N individuos de la población colocándoles un número de identificación. Generar un número aleatorio U{1,...,N} y seleccionar el individuo cuya identificación coincida con el número generado. Quitar al individuo seleccionado de la lista y reasignar los números de identificación de manera consecutiva. Generar un número aleatorio U{1,...,N−1} y proceder similarmente hasta tener n individuos.

ESTIMACIÓN EN MAS.

Estimación de la media:

Un estimador puntual de la media µX es

∑

= = = µ n 1 i i X _n X 1 X ˆ Propiedades:

( )

X _X E =µ ∴ X es insesgado para µX

( )

      − − σ = 1 N n N n X Var 2 X

Para poder estimar Var

( )

X es necesario estimar σ2

X. Usualmente, 2 2 X S ˆ = σ , pero

( )

2 2_X 1 N N S E σ − = ⇒ S2_{es sesgado para σ}2 X ∴ 2 2 X S N 1 N ~ ₌ − σ es insesgado para σ2 X.

Así que un estimador insesgado de Var

( )

X esta dado por,

donde

∑

(

)

= − − = n 1 i 2 i 2 _X _X 1 n 1 S .

( )

      − = N n 1 n S X ar Vˆ 2

(8)

Nota: La cantidad

(

es llamado factor de corrección por población finita (cpf). Nótese que este factor difiere del encontrado en

)

N n 1−

(

X

)

Var . En la práctica la cpf puede despreciarse si

(

1−n N

)

≥0.95 o si n≤N 20.

Estimación del total:

Un estimador puntual del total de una v.a. cuantitativa τX es

∑

= = = τ n 1 i i X _n X N X N ˆ Propiedades:

( )

ˆX X E τ =τ ∴ τˆX =NX es insesgado para τX

( )

      − − σ = τ 1 N n N n N ˆ Var 2 X 2 X

Un estimador insesgado de Var

( )

τ esta dado por, ˆ_X

( )

      − = τ N n 1 n S N ˆ ar Vˆ 2 2 X

Estimación de una proporción:

Un estimador puntual de la proporción pC es

∑

= = = n 1 i i C _n Y 1 Y pˆ Propiedades:

( )

Y p_X E = ∴ Y es insesgado para pX

( )

(

)

      − − − = 1 N n N n p 1 p Y Var C C

(9)

( )

Y esta dado por,

( )

(

)

      − − − = N n 1 1 n pˆ 1 pˆ Y ar Vˆ C C

INTERVALOS DE CONFIANZA EN MAS.

Para la construcción de IC en MAS se usa un análogo del TCL para poblaciones finitas. Si N y N−n son “grandes”, entonces la distribución de muestreo de θ un estimador puntual de θ, se puede aproximar mediante una distribución normal, i.e.,

ˆ

( ) ( )

(

θ θ

)

≈

θˆ _N _E ˆ _,_Var ˆ

Por lo tanto, al estimar la varianza, podemos encontrar IC aproximados para µX, τX y pC, i.e.,               − ± ∈ µ _α N n 1 n s z X 2 2 / X ,               − ± ∈ τ _α N n 1 n s N z X N 2 2 / X y

(

)

            − − − ± ∈ _α N n 1 1 n pˆ 1 pˆ z pˆ p C C 2 / C X con (1−α)100% de confianza. TAMAÑO DE MUESTRA EN MAS.

El número de observaciones necesarias para estimar un parámetro poblacional θ con un error de estimación máximo de B unidades con una confianza de 1−α se obtiene al resolver _B=_z_α_/₂ _Var

( )

θˆ _,

(10)

o Para la media µX:

(

)

(

)

₂ 2X 2 / 2 2 X z B 1 N N n σ + − σ = α o Para la proporción pC:

Igual que para la media tomando σ2_X =p_C

(

1− p_C

)

NOTA: En la práctica, un valor aproximado de σ2_X se puede obtener

mediante conocimientos de expertos, estudios previos o una encuesta piloto. Un último recurso sería:

Para la media: Si se satisface la aproximación normal, utilizando la regla empírica aproximadamente 4σ ≅ Rango ∴ σ ≅ Rango/4.

Para la proporción: Un tamaño de muestra máximo se obtendría tomando pC = 0.5.

¿Cuándo usar MAS?

El MAS generalmente se usa en las siguientes situaciones:

1. No existe información adicional sobre la población que nos permita dividirla en subgrupos.

(11)

3.3 Muestreo aleatorio estratificado (MAE)

Recordemos que uno de los objetivos del muestreo es maximizar la cantidad de información con el menor número de encuestas posibles.

El muestreo aleatorio estratificado se lleva a cabo cuando existe información adicional acerca de la variable de interés en la población que nos permite dividir la población en subgrupos (estratos) exhaustivos y mutuamente excluyentes de tal forma que cada elemento de la población pertenezca a uno y sólo uno de estos grupos.

DEFINICIÓN: MAE. Es un diseño muestral en el que la población es

dividida en estratos (exhaustivos y mutuamente excluyentes) y la muestra es obtenida al seleccionar una MAS de cada estrato.

Dada la definición de MAE, es necesario introducir nueva notación: o L = número de estratos

o Ni = número de elementos de la población en el i-ésimo estrato L

2

1 N N

N

N= + +_L+

o W_i = N_i N= fracción o peso del i-ésimo estrato, i = 1,...,L

o xij = el valor de la variable X para el j-ésimo individuo en el estrato i, ∴

{

x11,Kx1N₁,x21,Kx2N₂,K,xL1,KxLN_L

}

es el conjunto de valores de la

variable X en la población

o ni = tamaño de muestra del i-ésimo estrato,

∑

= = L 1 i i n

(12)

¿Cómo seleccionar una MAE?

Dividir a la población en estratos claramente especificados de tal manera que cada individuo pertenezca exclusivamente a un solo estrato. Tomar una MAS de cada estrato de tamaño ni (usando las técnicas vistas en MAS) tal que . Las muestras seleccionadas en cada estrato deben ser independientes.

L

1 n

n

n = +_L+

CANTIDADES POBLACIONALES: Dada la estratificación, los parámetros

poblacionales de interés se pueden expresar como, o Media poblacional:

∑

= = µ = µ = µ L 1 i i i L 1 i i i X _N N W , donde

∑

= = Ni 1 j ij i i _N x 1

µ es la media poblacional en el estrato i. o Total poblacional:

∑

= = τ = µ = µ = τ L 1 i i L 1 i i i X X N N ,

donde

∑

es el total poblacional en el estrato i. = = µ = τ Ni 1 j ij i i i N x

o Porcentaje de la población con la categoría “C”:

si entonces,    ∈ = e.o.c. 0 C x si 1 y_ij ij

∑

= = = = L 1 i i i L 1 i i i C _N p N p W p donde

∑

= = Ni 1 j ij i i _N y 1

(13)

ESTIMACIÓN EN MAE.

Estimación de la media:

∑

= = = µ L 1 i i i est X X WX ˆ

donde X es el estimador por MAS de µi , es decir, _i

∑

= = ni 1 j ij i i X n 1 X . Propiedades:

(

X_est

)

_X

E =µ ∴ X es insesgado para µX _est

(

)

_      − − σ =

∑

= N 1 n N n W X Var i i i i 2 i L 1 i 2 i est

Un estimador insesgado para Var

(

X_est

)

esta dado por,

(

)

_∑

=      −       = L 1 i i i i 2 i 2 i est N n 1 n S W X ar Vˆ

donde S es la varianza muestral del estrato i. 2_i

Un estimador puntual del total τX es

∑

= = = τ L 1 i i i est X NX N X ˆ Propiedades:

( )

ˆ_X _X

(14)

( )

_∑

=      − − σ = τ L 1 i i i i i 2 i 2 i X _N ₁ n N n N ˆ Var

( )

τ esta dado por, ˆ_X

donde es el estimador por MAS de ppˆ_i i , es decir,

∑

= = ni 1 j ij i i _n Y 1 pˆ . Propiedades:

(

pˆ_Cest

)

p_C

E = ∴ pˆ_Cest es insesgado para pC

(

)

(

)

_      − − − =

∑

= N 1 n N n p 1 p W pˆ Var i i i i i i L 1 i 2 i Cest

Un estimador insesgado para Var

(

pˆ_Cest

)

esta dado por,

( )

_∑

=      −       = τ L 1 i i i i 2 i 2 i X N n 1 n S N ˆ ar Vˆ

∑

=

L 1 i i i Cest

W

pˆ

(

)

_∑

(

)

=      ₋       − − = L 1 i i i i i i 2 i Cest N n 1 1 n pˆ 1 pˆ W pˆ ar Vˆ

(15)

INTERVALOS DE CONFIANZA EN MAE.

Al igual que en MAS, se utilizará un análogo al TCL para poblaciones finitas. En este caso, si Ni y Ni−ni son “grandes” para i = 1,...,L, entonces la distribución de muestreo de θˆ un estimador puntual de θ, se puede aproximar mediante una distribución normal.

Por lo tanto, al estimar la varianza, podemos encontrar IC aproximados para µX, τX y pC, i.e.,               −       ± ∈ µ

∑

= α L 1 i i i i 2 i 2 2 i 2 / est X _N n 1 n S N N z X ,               −       ± ∈ τ

∑

= α L 1 i i i i 2 i 2 i 2 / est X _N n 1 n S N z X N y

(

)

              − − − ± ∈

∑

= α i i i i i L 1 i 2 2 i 2 / Cest X _N n 1 1 n pˆ 1 pˆ N N z pˆ p con (1−α)100% de confianza. TAMAÑO DE MUESTRA EN MAE.

( )

θˆ _{junto con la} condición de que n_i =nω_i, para i = 1,...,L.

(

)

∑

= = σ + ω σ = _L 1 i 2 i i 2 2 2 L 1 i i 2 i 2 i N z B N N n

(16)

o Para el total τX:

(

)

∑

= α = σ + ω σ = L 1 i 2 i i 2 2 / 2 L 1 i i 2 i 2 i N z B N n o Para la proporción pC:

Igual que para la media tomando σ_i2 =p_i

(

1−p_i

)

Note que ω_i =n_i n y que W_i =N_i N.

Para determinar el valor de se utilizan las mismas sugerencias que para la determinación del tamaño de muestra en MAS.

2 i

σ

TAMAÑO DE MUESTRA POR ESTRATO.

¿Cómo dividir n entre los distintos tamaños de muestra individuales n1,n2,...,nL?, i.e., ¿cómo determinar ωi?.

Distintas asignaciones ⇒ distinta varianza para la media muestral.

Los esquemas de asignación del tamaño de muestra por estrato dependen de 3 factores:

1. Número total de elementos en cada estrato, Ni.

2. Variabilidad de las observaciones dentro de cada estrato, σi.

3. El costo por obtener una observación de cada estrato, ci.

Existen 3 formas principales de asignar la muestra por estrato que minimizan Var

(

X_est

)

:

(17)

o Asignación óptima para un costo fijo:

∑

= σ σ = ω _L 1 k k k k i i i i c N c N o Asignación de Neyman: Si c1 =LcL,

∑

= σ σ = ω _L 1 k k k i i i N N

o Asignación proporcional al tamaño del estrato: Si además σ₁2 =_Lσ2_L,

i i L 1 k k i i _N W N N N = = = ω

∑

=

¿Cuándo usar MAE?

Los motivos principales para usar MAE en lugar de MAS son:

1. El error máximo de estimación es más pequeño que el producido por una muestra aleatoria simple del mismo tamaño. Esto se logra si las mediciones dentro de los estratos son homogéneas.

2. Menor costo por encuesta debido a la estratificación.

3. Se pueden obtener estimadores de parámetros poblacionales para subgrupos de la población (estratos).

(18)

3.4 Muestreo aleatorio por conglomerados (MAC)

Otra manera de maximizar la cantidad de información con el menor número de encuestas posibles es mediante un muestreo aleatorio por conglomerados, ya que algunas veces proporciona más información por unidad de costo que los otros dos diseños anteriores.

El muestreo aleatorio por conglomerados se lleva a cabo cuando por conveniencia las unidades de muestreo no son individuos (unidad de muestreo mínima) sino conglomerados de individuos que simplifican la obtención del marco muestral, como por ejemplo, familias, hogares, manzanas, edificios, colonias, etc.

DEFINICIÓN: MAC. Es un diseño muestral en el que las unidades de

muestreo son conglomerados de individuos, se selecciona una MAS de conglomerados y la muestra esta formada por todos los individuos pertenecientes a los conglomerados seleccionados.

Dada la definición de MAC, es necesario introducir nueva notación:

o N = número de conglomerados en la población

o n = número de conglomerado seleccionados

o mi = número de elementos en el conglomerado i, i = 1,...,N o

∑

= número total de elementos en la población

= = N 1 i i m M o

∑

= = n 1 i i m n 1

(19)

o

N M

M= = tamaño promedio del conglomerado en la población

o xij=el valor de la variable X del j-ésimo individuo en el conglomerado i,

∴

{

}

N 2 1 21 2m N1 Nm m 1 11, x ,x , x , ,x , x x _K _K _K _K es el conjunto de valores de la variable X en la población

o xi = total de todas las observaciones en el i-ésimo conglomerado,

∑

= = mi 1 j ij i x x

¿Cómo seleccionar una MAC?

Dividir a la población en conglomerados claramente especificados de tal manera que cada individuo pertenezca exclusivamente a un solo conglomerado. Tomar una MAS de tamaño n de conglomerados (usando las técnicas vistas en MAS), quedando una muestra de individuos de tamaño

∑

. = n 1 i i m

CANTIDADES POBLACIONALES: Dada la agrupación en conglomerados, los

parámetros poblacionales de interés se pueden expresar como,

o Media poblacional:

∑

= = = = = µ _N 1 i i N 1 i i N 1 i i X m x x M 1 . o Total poblacional:

∑

= = µ = τ N 1 i i X X M x ,

(20)

o Porcentaje de la población con la categoría “C”: si entonces,    ∈ = e.o.c. 0 C x si 1 y_ij ij

∑

= = = = = _N 1 i i N 1 i i N 1 i i C m y y M 1 p

donde es el total de elementos en la categoría C en el conglomerado i.

∑

= = mi 1 j ij i y y ESTIMACIÓN EN MAC. Estimación de la media:

∑

= = = = µ _n 1 i i n 1 i i X m X X ˆ

X es llamado estimador de razón.

Propiedades: Los estimadores de razón son generalmente sesgados.

( )

X X

E =µ si m₁=_L=m_N∴ en este caso X es insesgado para µX Un estimador para Var

(

X

)

esta dado por,

( )

_∑

(

)

= −       −       − = n 1 i 2 i i 2 _n ₁ X m X 1 M Nn n N X ar Vˆ

(21)

M puede ser estimado por m si se desconoce M. Este estimador de

(

X

Var

)

es un estimador sesgado y es un buen estimador si n ≥ 20. El sesgo desaparece cuando m₁=m₂ =_L=m_N.

Estimación 1 del total (si M es conocido): Un estimador puntual del total τX es

Un estimador de

( )

1 X

ˆ

Var τ esta dado por,

Estimación 2 del total (si M es desconocido): Un estimador puntual del total τX es

donde

∑

= = n 1 i i t X n 1

X es un estimador insesgado de la media por conglomerado. X M ˆX₁ = τ

( )

_∑

(

)

= −       −       − = = τ n 1 i 2 i i 2 X _n ₁ X m X 1 n n N N X ar Vˆ M ˆ ar Vˆ 1 t X NX ˆ ₂ = τ Un estimador de

( )

2 X ˆ

Var τ esta dado por,

( )

_∑

(

)

= −       −       − = = τ n 1 i 2 t i t 2 X _n ₁ X X 1 n n N N X ar Vˆ N ˆ ar Vˆ 2

Si existe gran variación entre los tamaños de los conglomerados y si los tamaños están altamente correlacionados con los totales por conglomerado,

(22)

⇒

( )

2 X

ˆ

Var τ es generalmente mayor que

( )

1 X

ˆ Var τ .

Un estimador para Var

(

pˆ_C

)

esta dado por,

( )

_∑

(

)

= −       −       − = n 1 i 2 C i i 2 C Y m pˆ 1 n 1 M Nn n N pˆ ar Vˆ

∑

= =

=

_n 1 i i n 1 i i C

m

Y

pˆ

Este estimador de Var

( )

pˆ_C es un buen estimador si n ≥ 20. Si , entonces y

N 2

1 m m

m = =_L= pˆ_C Vˆar

( )

pˆC son insesgados.

TAMAÑO DE MUESTRA EN MAC.

( )

θˆ _{. Note que el} tamaño de muestra depende tanto del número como del tamaño de conglomerados. Dados los tamaños de los conglomerados, el número de conglomerados necesarios esta dado por:

(23)

(

)

2 2c 2 / 2 2 2 c z M NB N n σ + σ = α donde, σ2

c es la varianza poblacional entre los totales de los

conglomerados y puede ser estimada por

(

)

∑

= − − = n 1 i 2 i i 2 c _n ₁ X m X 1 S

o Para el total τX (usando ˆτ_X₁ =MX):

(

)

₂ 2c 2 / 2 2 c z N B N n σ + σ = α

o Para el total τX (usando ˆτX₂ =NXt):

(

)

₂ 2t 2 / 2 2 t z N B N n σ + σ = α

donde, σ2t es la varianza poblacional entre los totales de los

conglomerados y puede ser estimada por

(

)

∑

= − − = n 1 i 2 t i 2 c _n ₁ X X 1 S o Para la proporción pC:

Igual que para la media, pero σ2

c puede ser estimada por

(

)

∑

= − − = n 1 i 2 i i 2 c Y m pˆ 1 n 1 S

(24)

El MAC es menos costoso que el MAS o el MAE

1. Si el costo por obtener un marco que liste todos los elementos poblacionales es elevado y en cambio es fácil obtener un marco de conglomerados.

2. Si el costo por obtener observaciones se incrementa con la distancia que separa los elementos.

3. Si las mediciones dentro de los conglomerados son heterogéneas entre sí.

NOTA: Los elementos de un conglomerado deben de estar geográficamente

cerca uno de otro para reducir los gastos de transporte.

DIFERENCIA ENTRE LA CONSTRUCCIÓN de estratos y conglomerados:

Con respecto a la variable de interés, 1. Los estratos:

o Deben ser homogéneos (semejantes) internamente, tanto como sea posible, y

o Deben de diferir, tanto como sea posible, uno de otro 2. Los conglomerados:

o Deben de ser tan heterogéneos (diferentes) internamente, tanto como sea posible, y

o Deben de ser similares uno y otro

Una forma de reducir el error de estimación en MAC es realizar un muestreo proporcional al tamaño del conglomerado en lugar de un MAS de conglomerados, i.e., seleccionar cada conglomerado con probabilidad

M m_i .

(25)

3.5 Muestreo Sistemático (MS)

Tanto el MAS, el MAE y el MAC requieren de un trabajo detallado en el proceso de selección de la muestra. Una manera de simplificar el proceso de selección de la muestra es el muestreo sistemático.

La idea básica del muestreo sistemático es seleccionar individuos a intervalos iguales a lo largo de una lista. Para iniciar el proceso de selección es necesario seleccionar un punto aleatoriamente.

DEFINICIÓN: MS. Es un diseño muestral en el que la muestra es obtenida al

seleccionar aleatoriamente un elemento de los primeros k elementos del marco muestral y posteriormente seleccionar cada k-ésimo elemento. La muestra así obtenida es llamada muestra sistemática de 1 en k.

¿Cómo seleccionar una MS?

Enlistar los N individuos de la población en un orden estratégico, seleccionar un número aleatorio entre 1 y k y luego seleccionar cada k-ésimo individuo de la lista hasta lograr un tamaño de muestra n.

¿Cómo escoger k?: n N k≤ ESTIMACIÓN EN MS. Estimación de la media:

∑

= = µ_X _sy n X_i n 1 X ˆ

(26)

Propiedades:

( )

Xsy X E =µ ∴ X es insesgado para µX _sy

( )

= σ

{

1+

(

n−1

)

ρ

}

n X Var 2 X sy ,

donde ρ = correlación entre los pares de elementos dentro de la muestra sistemática.

Un estimador de Var

( )

X_sy esta dado por el estimador de la varianza de X en un MAS, i.e., donde

∑

(

= − − = n 1 i 2 i 2 _X _X 1 n 1

₎

S . Se tienen 3 situaciones:

Si la población es aleatoria (sin orden, ρ = 0) ⇒ Var

( )

X_sy ≅Var

( )

X Si la población es ordenada (ρ < 0) ⇒ Var

( )

X_sy <Var

( )

X

Si la población es periódica (cíclica, ρ > 0) ⇒ Var

( )

X_sy >Var

( )

X

Un estimador puntual del total de una v.a. cuantitativa τX es

Propiedades:

( )

ˆ_X _X

E τ =τ ∴ τˆ =_X NX_sy es insesgado para τX Un estimador de Var

(

τˆ_X

)

esta dado por,

( )

      − = N n 1 n S X ar Vˆ _sy 2 sy X NX ˆ = τ

( )

      − = τ N n 1 n S N ˆ ar Vˆ 2 2 X

(27)

∑

= = = n 1 i i sy Csy _n Y 1 Y pˆ Propiedades:

( )

Ysy pX E = ∴ Y es insesgado para pX Un estimador de Var

( )

Y_sy esta dado por,

( )

(

)

      − − − = N n 1 1 n pˆ 1 pˆ Y ar Vˆ _sy Csy Csy

Si N es desconocida, la cpf

(

1−n N

)

puede ser omitida justificando que N es relativamente grande con respecto a n.

TAMAÑO DE MUESTRA EN MS.

( )

θˆ _.

o Para la media µX: Recordemos que para el caso de la media, Var

( )

Y_sy depende tanto de σ2_{X como de “rho” ρ que deben de ser conocidos para} poder despejar n!. Como éstos casi nunca se tienen, se usará la fórmula para el tamaño de muestra en MAS,

(28)

(

)

(

)

₂ 2X 2 / 2 2 X z B 1 N N n σ + − σ = α

si la población es ordenada ⇒ n es muy grande, y si la población es periódica ⇒ n es muy pequeña o Para la proporción pC:

Igual que para la media tomando σ2_X =p_C

(

1−p_C

)

¿Cuándo usar MS?

Los motivos principales para usar MS en lugar de MAS son:

1. Es más fácil de llevar a cabo en el campo y por lo tanto está menos expuesto a errores de selección cometidos por los encuestadores.

2. Puede proporcionar mayor información por unidad de costo, debido a que se extiende uniformemente sobre toda la población.

3. Se puede implementar aún cuando se desconozca el tamaño de la población N.