16. Estudios de muestreo
116.1. Por qué tomar sólo una muestra cuando la población es finita?
Los estudios de muestreo son empleados por el ecólogo que desea obtener información para construir mapas de comunidades de plantas, por el silvicultor que desea conocer el rendimiento de madera de un bosque, y por el gerente de un servicio de evaluación (Rating) que desea determinar la popularidad de programas de TV entre los televidentes. Los estudios también se usan para pronosticar la recolección de la cosecha, identificar las condiciones sociales y económicas prevalecientes, como desempleo, cuidado de la salud, e inflación, y para examinar las actitudes de personas hacia la legislación propuesta. Un barómetro de opiniones públicas, tan importante para una democracia, se proporciona prontamente por los estimativos basados en una muestra de la reacción pública a los efectos de tales eventos como una nueva regulación salarial, un cambio mayor en políticas de comercio, o las acciones de líderes mundiales.
Cuando cualquier característica de la población es de interés, un censo o una evaluación completa de todos los miembros de la población puede proporcionar razonablemente toda la información deseada. Sin embargo, las circunstancias a menudo no hacen posible una evaluación tan extensa. Tanto consideraciones de costo como la falta de personal calificado y, si se requiere, los equipos altamente especializados pueden limitar severamente el tamaño de un estudio propuesto. Por estas razones y/o cuando se desea obtener rápidamente información bastante exacta, es prudente renunciar a un censo y estudiar una muestra "representativa" de la población en cuestión.
El propósito principal de este capítulo es presentar al lector los procedimientos para recoger tal muestra y los métodos para analizar los datos muestreados. Cuando se planea y se ejecuta adecuadamente el estudio, muestras consistentes de unos pocos centenares de unidades pueden proporcionar información exacta acerca de una población de centenares de miles.
Las técnicas de la inferencia examinadas en este capítulo no son diferentes de los procedimientos discutidos anteriormente, excepto que los últimos han estado basados principalmente en el supuesto de una población infinita donde una muestra aleatoria está conformada de variables aleatorias distribuidas independiente e idénticamente. Los problemas del estudio de muestras tratados aquí involucran poblaciones finitas (aunque a menudo bastante grandes) y con la excepción del caso de muestreo simple con reemplazamiento, las observaciones en estudios de encuestas no pueden, estrictamente hablando, ser consideradas independientes.
Para facilitar una comprensión de la naturaleza del estudio muestral, que es común a muchos campos de aplicación, empezamos con unas pocas definiciones y luego discutimos la idea de sesgo y el método de selección de muestras aleatorias. Seguidamente introducimos el concepto de estratificación, que nos lleva a un método ligeramente más complejo pero muy útil de obtener una muestra representativa de una población.
16.2. La especificación de la población y la característica de interés
Una vez que se ha tomado la decisión de obtener información por medio de un estudio muestral, nos enfrentamos inmediatamente con dos tareas: definir cuidadosamente la población que deseamos estudiar, y seleccionar la característica o características para ser tomadas en cuenta.
La población objetivo es la población sobre la que nosotros deseamos hacer inferencias con base en una muestra.
1 Traducción del capítulo 16 “Sample Surveys” del libro “Statistical Concepts And Methods”, Gouri K.
Aunque especificar una población puede parecer procedimiento sencillo, algunos casos dudosos pueden presentar dificultades en estudios incluso muy simples. Para dirigir un estudio de las actividades de ocio de estudiantes de la universidad, por ejemplo, tendríamos que decidir si incluir o no los estudiantes de tiempo parcial y estudiantes que están tomando menos del número mínimo especificado de créditos porque cancelaron cursos durante el semestre.
La población a ser muestreada debe coincidir con la población objetivo. Cuando la población muestreada difiere substancialmente siendo más restrictiva, debe tenerse en cuenta que cualquier conclusión alcanzada sólo podría aplicarse a la población muestreada. Una dificultad práctica mayor encontrada en esta fase puede ser la construcción de una lista de todos los miembros de la población a ser muestreada. Los miembros individuales de la población son llamados unidades de muestreo o unidades, y una lista de todos los miembros de la población se llama una estructura (o marco). Construir una estructura es una parte básica de cualquier proceso objetivo de selección de la muestra. ¿Puede Usted imaginar las dificultades de construir una estructura (marco) para gatos que viven en una ciudad o para las personas que beben excesivamente?, Sin embargo normalmente es posible desarrollar una estructura razonablemente buena dedicándole algún tiempo e imaginación al problema de la estructura de la población objetivo.
La característica es la información básica de interés acerca de las unidades de muestreo.
La característica puede ser la opinión de una persona sobre los programas de bienestar o la cantidad de dólares gastados en obras de caridad. Nuestra discusión en Sección 16.3 ilustra los conceptos subyacentes de estudio muestral (muestreo de encuestas) en términos de una sola característica, aunque varias características se estudien simultáneamente en la mayoría de estudios a gran escala.
16.3. Muestreo Probabilístico
Una vez se han especificado la población objetivo y las características, se enfoca la atención en escoger un método para obtener una muestra que será representativa de toda la población en cuanto concierne a la característica particular de interés. Para ser capaces de emplear correctamente los métodos estadísticos para deducir inferencias sobre una población a partir de una muestra, es esencial que la aleatoriedad entre en el proceso de selección de una manera explícita. Específicamente, antes de que se haga la elección a partir de la estructura, el método de selección debería especificar la probabilidad de que cualquier miembro particular o grupo de miembros sea incluido en la muestra. Todos los métodos de muestreo que satisfacen este criterio son llamados muestreos probabilísticos. Las probabilidades conocidas de las unidades de ser incluidas en la muestra permiten determinar estimativos puntuales y de intervalos de confianza para el valor de una cantidad (parámetro) de la población. Las dos formas más básicas de muestreo probabilístico denominadas “Muestreo Aleatorio Simple” y “Muestreo Estratificado” son examinados en este capítulo.
Una muestra que no es al menos aproximadamente una muestra probabilística se llama muestra no probabilística (no aleatoria). Los métodos de muestreo no probabilísticos tienen el serio inconveniente de que no puede darse ninguna valoración de la varianza o de la incertidumbre del estimativo. Siempre que sea posible, deben evitarse los métodos de selección no probabilísticos.
16.4. Sesgo y sus fuentes
En el muestreo probabilístico, se define el sesgo como la diferencia entre el valor esperado del estimador y la cantidad de población que está siendo estimada.
Sesgo = E ( estimador) – (valor de la población objetivo)
Cuando esta diferencia es cero, se dice que el estimador es insesgado. Cuando se escoge un estimador hay que tener cuidado para estar seguro de que no esté subestimando o sobrestimando sistemáticamente la cantidad poblacional. El criterio de no sesgo se usa para salvaguardar contra este problema indeseable.
defectuoso, las observaciones mismas de la muestra pueden diferir de lo que se intenta medir. Aunque se use la fórmula adecuada para un estimador insesgado, la muestra puede producir estimativos sesgados. Al estimar el peso medio de una población de niños, puede demostrarse que el peso medio muestral es un estimador insesgado bajo el muestreo aleatorio simple. Pero si el nivel cero de la balanza del peso está en error, cada medida será afectada por este error constante y el estimativo será sesgado. Los cuestionarios pobremente redactados también pueden ser fuente de observaciones distorsionadas, debido a que los encuestados pueden contestar frecuentemente las preguntas incorrectamente. Preguntas que son demasiado técnicas pueden generar muchas respuestas que son puras adivinanzas.
Aparte del sesgo introducido por un dispositivo de medida defectuoso, una fuente mayor de sesgo es a menudo la existencia de una diferencia sustancial entre la población muestreada y la población objetivo. Una de las situaciones más dramáticas en que se presentó este problema fue el fracaso de la encuesta de Literary Digest para predecir un ganador en la elección en Estados Unidos 1936 entre los candidatos presidenciales F. D. Roosevelt y A. Landon. Aunque se realizó una encuesta a gran escala, estos encuestadores sacaron su muestra de fuentes tales como directorios telefónicos y listados de dueños de automóvil. En esos días, tales lujos eran mucho más comunes entre los grupos de ingresos altos, y la muestra por consiguiente falló al no representar adecuadamente los grupos de ingresos bajos. Dado que el apoyo para el candidato Republicano era más fuerte en clases de ingresos altos, la encuesta predijo erróneamente la derrota para Roosevelt. Además, el muestreo fue no probabilístico; y no se podía establecer ningún límite de error en el porcentaje estimado de votos, incluso para la población muestreada. La metida de pata fue realzada aún mas por ignorar el 75% de quienes no respondieron.
Otra fuente primaria de sesgo surge cuando hay un número grande de personas que no contestan la encuesta. Quienes no contestan difieren típicamente de los que responden con respecto a la característica estudiada, haciendo que la población realmente muestreada sea bastante diferente de la población objetivo. A menudo se realiza un estudio de seguimiento de quienes no contestan para rectificar esta posible fuente de sesgo. Además, el sustituir unidades que están convenientemente disponibles por unidades que no responden puede introducir sesgo. Un entrevistador que no encuentra nadie en casa en la residencia designada puede decidir entrevistar los vecinos, quines pueden tener un estilo de vida completamente diferente de los sujetos designados inicialmente.
16.5. Usando una tabla de números aleatorios
Estamos ahora listos para examinar los aspectos técnicos de la extracción de una muestra aleatoria. Dada una lista de miembros de la población, podemos numerarIos de 1 a N y también podemos numerar un juego de bolas pequeñas de 1 a N. Estas balotas pueden ponerse entonces en una urna, mezcladas, y sacadas una a la vez hasta que hayamos seleccionado n balotas donde n es el tamaño deseado de la muestra. Los miembros de la población que correspondan a los números de las bolas muestreadas pueden entonces ser incluidos en la muestra, y las características de estas unidades pueden ser medidas.
Como se ilustra en la Sección 16.6, se prefiere usar muestreo sin reemplazar una bola sacada antes de sacar la próxima. Sin embargo, recordemos por el momento, los dos tipos principales de muestreo originalmente
xaminados en el Capítulo 5: e
Muestreo aleatorio con reemplazamiento: Las balotas se reemplazan después de cada extracción individual Muestreo aleatorio sin reemplazamiento: Las balotas no se reemplazan después de cada extracción individual
El modelo en que está basada la tabla de números aleatorios asegura que todos los dígitos simples tienen la misma probabilidad de ocurrencia de 1/10, que todos los pares de dígitos 00, 01, ...,99 tienen una probabilidad de ocurrencia igual a 1/100, y así sucesivamente. ¿Cómo puede ayudarnos tal tabla a escoger una muestra aleatoria de una población finita específica? Para ilustrar el uso de la tabla de números aleatorios, suponga que tenemos 40 latas de sopas deshidratadas para acampar, y que deseamos tomar una muestra de tamaño
n = 4 para estudiar su condición. Nuestro primer paso es numerar las cajas de 1 a 40 o apilarlas en algún orden de tal forma que puedan ser identificadas. En la tabla 14 del apéndice, los dígitos
deben escogerse de a dos a la vez porque la población de tamaño N =40 es un número de dos dígitos. Empezamos seleccionando arbitrariamente una página, una fila, y una columna de la tabla. Suponga que nuestra selección es fila 60, y la columna 4. Leemos los pares de dígitos en las columnas 4 y 5,
13 02 18 74 39 13 74 33
Ignoramos los números mayores que 40 y también cualquier número repetido cuando aparezca una segunda vez, como el 13. Se continúa leyendo pares de dígitos hasta que cuatro unidades diferentes hayan sido seleccionadas.
13 2 18 33
Entonces se examinan los contenidos de las latas seleccionadas2.
Para muestreos a gran escala o las aplicaciones frecuentes, se recomienda usar la tabla Un millón de números aleatorios, publicada por la Rand Corporation, o un generador de número aleatorios de un computador, adecuadamente probado.
16.6. Muestreo aleatorio simple
Según la terminología establecida para muestreo de encuestas, el muestreo sin reemplazamiento es conocido como muestreo aleatorio simple. Para ver por qué este método siempre es preferido al muestreo con reemplazamiento, suponga que tenemos N = 4 unidadesµ1, µ2, µ3, y µ4 en la población, y que las
correspondientes medidas de las características son:
5
x
1*=
x
*2=
3
x
*3=
1
x
*4=
2
Para los propósitos de esta discusión, los valores podrían ser el número de las personas que viven en cada una de cuatro unidades habitacionales que constituyen una población. Se realizará una comparación entre el muestreo aleatorio con y sin reemplazamiento para una muestra de tamaño n = 2. Primero se listan todas las posibles muestras no ordenadas de tamaño n = 2, de acuerdo a los valores que pueden tomar las variables:
CON REEMPLAZAMIENTO SIN REEMPLAZAMIENTO
(5, 5) (3, 3) (1, 1) (2, 2) (3, 1) (1, 2) (5, 3) (3, 1) (1, 2) (5, 1) (3, 2)
(5, 1) (3, 2) (5, 2)
(5, 2)
En esta tabla, podemos observar que cualquier muestra que se pueda obtener en muestreo sin reemplazamiento, también es posible obtenerla con reemplazamiento. Sin embargo, las muestras que contienen valores repetidos no se pueden obtener al realizar el muestreo sin reemplazamiento. Dado que al medir una unidad más de una vez no se está obteniendo información adicional, es de esperase que con un
muestreo sin reemplazamiento tiende a recogerse mas información sobre la población de la que puede obtenerse con muestreo con reemplazamiento
.
Continuando con nuestro ejemplo, podríamos preguntarnos que tanto se acerca la media muestral de
X
=(X1+ X2)/2, a la media poblacional (5 + 3 + 1 + 2)/4 =2.75 en cada uno de los dos casos. Aunque en esteejemplo conocemos la media de la población, en aplicaciones reales no podría conocerse sin un censo completo.
Muestreo con reemplazamiento
La muestra no ordenada (5,3) consta de la unión de [5 primero, luego 3] y [3 primero, luego 5]. La probabilidad de cada una de estos dos últimos eventos es 1/16, porque cada uno de los cuatro valores tiene igual probabilidad de aparecer en cada experimento. Por consiguiente, para esta muestra,
x
=(5+3)/2=4 tiene una probabilidad asociada de 2/16. Procediendo de esta manera, podemos obtener la distribución completa dex
; a partir de esta distribución, se calculan la esperanza y la varianza.Distribución de
2
2
1
X
X
X
=
+
Valor de
x
1 1.5 2 2.5 3 3.5 4 5Probabilidad 1/16 2/16 3/16 2/16 3/16 2/16 2/16 1/16
( )
2
.
75
16
1
5
...
16
2
5
.
1
16
1
1
×
+
×
+
+
×
=
=
X
E
( )
( )
8
.
656
16
1
5
...
16
2
5
.
1
16
1
1
2 2 22
=
×
+
×
+
+
×
=
X
E
(
2
.
75
)
1
.
094
656
.
8
)
(
X
=
−
2=
Var
Muestreo sin reemplazamiento
Cada una de las seis muestras es igualmente probable al realizar el muestreo sin reemplazamiento.
Distribución de
2
2
1
X
X
X
=
+
Valor de
x
1.5 2 2.5 3 3.5 4Probabilidad 1/6 1/6 1/6 1/6 1/6 1/6
( )
2
.
75
6
1
4
...
6
1
2
6
1
5
.
1
×
+
×
+
+
×
=
=
X
E
( )
( )
8
.
292
6
1
4
...
6
1
2
6
1
5
.
1
2 2 22
=
×
+
×
+
+
×
=
X
E
(
2
.
75
)
0
.
729
292
.
8
)
(
X
=
−
2=
Var
Usando cualquiera de los 2 métodos de muestreo, la media muestral
X
presenta un valor esperado igual a la media poblacional. Sin embargo, la varianza deX
es más pequeña cuando se realiza el muestreo sin reemplazamiento, de manera que la distribución deX
se concentra más alrededor de la media. Estas conclusiones, que pueden demostrarse que son válidas sin importar el tamaño de la población o de la muestra, han respaldado el método de muestrear sin reemplazamiento, es decir al muestreo aleatorio simple.Antes de estudiar los estimadores, definamos las cantidades básicas poblacionales dentro de un marco conceptual general. La población consista de N unidades donde la característica tiene un valor de en la
unidad u
* i
x
1,
x
*2 en la unidad u2,...x
N* en la unidad uN . La media poblacional es entonces el promedio de las∑
=
=
µ
=
N
1
i
x*i
n
1
l
poblaciona
Media
Cuando definimos la varianza poblacional sobre una población finita, usamos el divisor N, y no N–1, en analogía con la fórmula para varianza muestral. Estrictamente hablando, el término varianza poblacional debería reservarse para la expresión con el divisor de N, pero aquí nos hemos tomado la libertad para evitar la introducción de la última cantidad3.
(
)
∑
=
−
µ
=
σ
=
N
1
i
xi
2
N
1
2
l
poblaciona
Varianza
Un propósito principal del muestreo es tratar de obtener la media poblacional µ. Las inferencias acerca de la media población están basadas en la media muestral
X
, calculada a partir de las n unidades seleccionadas por el muestreo aleatorio simple. Por otra parte, la varianza poblacional desconocida puede estimarse usando la varianza muestral S2Muestra aleatoria simple: X1, X2,..., Xn
∑
=
=
=
n1 i
X
in
1
X
muestral
Media
(
)
∑
−
=−
=
=
n 1 i 2 2X
X
S
n
1
1
i
muestral
Varianza
Afirmamos, sin probar, que E(
X
)=µ (la media poblacional), por lo cualX
es un estimador insesgado de µ. También, E(S2)=σ2, de tal manera que la varianza muestral es un estimador insesgado de σ2. La varianza deX
viene dada por:( )
1
N
1
n
f
donde
,
f
1
n
2
1
N
)
1
n
(
1
N
n
2
1
N
n
N
n
2
)
X
(
V
−
−
=
−
σ
=
−
−
−
−
σ
=
−
−
σ
=
donde f = (n –1)/(N –1) es aproximadamente igual a la proporción de la población incluida en la muestra. Es importante observar que el tamaño finito de la población reduce la varianza de
X
desde el valor para población infinita σ2/n hasta σ2(1- f)/n. El factor (1 - f) es llamado factor de corrección para población finita.Cuando la proporción de muestreo f es menor que 0.1 puede ser ignorado.
Propiedades de
X
y S2 con muestreo aleatorio simple( )
X
=
µ
E
( )
1
N
1
n
f
donde
,
f
1
n
2
)
X
(
V
−
−
=
−
σ
=
( )
S2
=
σ
2
E
)
f
1
(
n
X
de
estimada
estándar
Desviación
=
σ
−
Para aquellos que no están muy familiarizados con el asunto, puede parecerles sorprendente que de información muestreada de un pequeño porcentaje de la población, se pueda determinar con una buena
3
En la versión original del libro, se calcula la varianza poblacional usando N-1 en el divisor y no N, y como
precisión, un valor de la población. La inspección de la expresión para Var(
X
), proporciona una explicación para ello, porque muestra que la desviación estándar deX
decrece esencialmente como 1/n
. Por consiguiente, una muestra de unos pocos miles, produce un valor pequeño para la desviación estándar del estimativoX
, cualquiera que sea el tamaño de la población.Inferencias acerca de µ bajo muestreo aleatorio simple
Estimador puntual:
X
Límite aproximado del error al 95%:
1
N
1
n
f
,
)
f
1
(
n
S
2
−
−
=
−
±
donde
n
X
X
X
=
1+
...
+
n y(
)
(
n
1
)
X
X
s
n
1
2 i 2
−
−
=
∑
El límite de error
±
2
s
1
−
f
/
n
es aproximado, pero esta aproximación es bastante buena cuando tanto el tamaño de la muestra n como N-n son muy grandes. Bajo estas circunstancias, la distribución deX
es casi normal yX
±
2
s
1
−
f
/
n
puede considerarse como un intervalo de confianza del 95% para µ..4Ejemplo 16.1 Alguien que está interesado en determinar como gastan su tiempo los directores de escuelas primarias, realiza un muestreo aleatorio simple usando 12 escuelas de las 30 que hay en un distrito particular. A los 12 directores se les pregunta cuanto tiempo a la semana necesitan para manejar problemas de disciplina. De las respuestas se concluye que
X
=9.1 horas S2=22.3Obtenga un límite aproximado del error al 95% para estimar µ, el número medio de horas semanales que dedican a solucionar problemas disciplinarios todos los directores del distrito.
El estimativo es
x
=9.1, y el factor f=(n-1/(N-1) = 11/29=.38. El valor de f es demasiado grande para ser ignorado, y el limite aproximado del error es:(
f
)
n
s
−
±
2
1
=±
2
22
12
.
3
0
.
62
=
±
2
.
15
Ejemplo 16.2 Se manifiesta el interés en conocer la cantidad de dinero que gastan los estudiantes cada mes en alojamiento. Una muestra aleatoria de 160 estudiantes de una universidad que tiene una población de 32,400 da las siguientes estadísticas, en US$:
X
=$105.30 S2=453.6Encuentre un intervalo de confianza aproximado del 95% para la cantidad media poblacional. El intervalo de confianza aproximado es
f
n
s
x
±
2
1
−
=32399
159
1
160
6
.
453
2
3
.
±
−
105
= (101.94, 108.66)El factor de corrección finita puede ser ignorado porque es extremadamente pequeño. Ignorando este factor, el intervalo de confianza será (101.93, 108.67), que es casi igual al que calculamos antes.
Un resumen completo de la información obtenida de la muestra, requiere algo más que el cálculo de
X
y el límite del error. Los métodos descriptivos discutidos en el Capítulo 2 se aplican igualmente aquí. Debería4 Para calcular el intervalo exacto se reemplaza 2 por
construirse un histograma para obtener una visión de la manera en que los valores se distribuyen sobre la población. También es aconsejable el registro de cualquier valor extremo y calcular otras medidas descriptivas si la distribución no parece ser simétrica.
16.7. Muestreo para determinar una proporción
Algunas veces deseamos estimar en la población la proporción de unidades que tengan cierto atributo. Ésta puede ser la proporción de personas desempleadas o la proporción de electores que apoyan un asunto particular. El valor 1 se le asigna a las unidades que tienen el atributo de interés, y el valor 0 a las restantes unidades. De este modo, la población se divide en dos grupos o tipos, según el valor numérico de la característica. Bajo el muestreo aleatorio simple, referido como "muestreo sin reemplazamiento", se sabe que la distribución hipergeométrica describe el número de unidades X en la muestra que poseen el atributo en cuestión.
La tabla siguiente presenta las composiciones de la población y de la muestra:
La proporción muestral es un estimador insesgado
Cantidad Población Muestra
Total numero de unidades N N
Número de unidades con el atributo dado M X
Proporción de unidades con el atributo dado
θ
=
MNn
x
p
=
θ
=
=
n
X
E
)
P
(
E
y la varianza está dada por( ) (
)
−
−
−
=
1
N
n
N
n
θ
1
θ
P
Var
Por supuesto, podríamos estimar esta varianza reemplazando θ por . Sin embargo, generalmente se
emplea el siguiente estimador insesgado
X
/
n
(
)
−
−
−
−
1
N
n
N
1
n
P
1
P
Los procedimientos de inferencia para proporciones y para totales pueden resumirse en:
Los resultados para la población total M se derivaron de:
Muestreo aleatorio simple: Inferencia sobre proporciones.
Estimador puntual de p:
n
X
P
=
Límite aproximado del error al 95% para p:
(
) (
)
)
1
N
(
n
N
)
1
n
(
P
1
P
2
−
−
−
−
±
Estimador puntual del total de la población M =Np:
N
P
n
X
N
M
∧=
=
Límite aproximado del error al 95% para M:
−
−
−
−
±
1
N
n
N
1
n
)
P
1
(
P
2
N
2( )
(
) (
(
)
)
1
N
n
N
1
n
P
1
P
P
Var
N
n
X
Var
N
n
X
N
Var
2 2N
2−
−
−
−
=
=
=
En el capítulo 5, concluimos que el muestreo sin reemplazamiento es casi lo mismo que el muestreo con reemplazamiento cuando el tamaño de la población N es grande y la fracción de muestreo (n1)/(N-1) es pequeña. Para muestreo con reemplazamiento se aplica la distribución binomial, y la varianza de X/n es θ(1-θ)/n, la cual difiere de la expresión anterior por la ausencia del factor (N - n)/(N - 1). Este factor hace la varianza más pequeña para muestreo aleatorio simple. En todo caso, incrementando el tamaño de la muestra n, la varianza del estimador X/n decrece a la tasa 1/n. Una conclusión es que la varianza de la proporción de votos a favor basada en un tamaño de muestra de 5000 es aproximadamente igual para poblaciones de 100.000 y un millón. Este resultado, que no es intuitivo, explica parcialmente por qué las predicciones de elecciones modernas basadas en solamente una pequeña fracción del electorado a menudo son tan exitosas en pronosticar los resultados de la elección.
Ejemplo 16.3. Suponga que tenemos una población de tiendas de campaña u1, u2, u3, u4, u5, u6, donde u2 y u4
no son herméticas. Consideremos estimar la proporción de tiendas de campaña defectuosas en la población con base en una muestra aleatoria simple de 2.
Cada una de las siguientes muestras son igualmente probables; los valores para X = número de tiendas de campaña defectuosas en la muestra están dados en paréntesis:
u1 ,u 2(1) u 2,u 3(1) u3 ,u 4(1) u4 ,u 5(1) U5,u 6(0)
u1 ,u 3(0) u2 ,u 4(2) u3 ,u 5(0) u4 ,u 6(1)
u1 ,u 4(1) u2 ,u 5(1) u3 ,u 6(0)
u1 ,u 5(0) u2 ,u 6(1)
u1 ,u 6(0)
La distribución de X y la media para esta población son:
X 0 1 2 E(X)= 0 x 6/15 + 1x 8/15 + 2x 1/15 = 2/3
P(X=x) 6/15 8/15 1/15 E(X/n)= 1/2 x 2/3 = 1/3
Observe que E (X/n) = 1/3, que corresponde a la proporción de la población. El estudiante interesado también
debería verificar que P [X = x] está dada por la distribución hipergeométrica:
−
2
6
/
x
2
4
x
2
Si nuestra muestra consta de u2 y u5, entonces nuestra estimación de la proporción poblacional es 1/2, y la
varianza estimada de la proporción de la muestra es:
(
)
(
)
1
2
1
1
2
6 2
6 2 1
1
6
−
−
−
=
Ejemplo 16.4. Para investigar irregularidades electorales, una muestra aleatoria simple de tamaño 60 es tomada de la lista de 1024 votantes inscritos en un barrio particular. Se encuentra en la muestra que 12 personas se registraron en direcciones inexistentes.
¿Qué podemos estimar para el barrio?
Tenemos que: N = 1024, n = 60, y x = 12, de tal manera que
2
.
0
60
12
n
x
P
=
=
=
es una estimación de la proporción poblacional. La varianza de
P
es estimada por:( )( ) (
)
0
.
0026
)
1
60
(
1023
60
1024
8
.
0
2
.
0
)
P
(
Var
=
−
−
=
16.8. Muestreo aleatorio estratificado
El objetivo principal de un diseño muestral es hacer uso eficiente del presupuesto asignado para un estudio obteniendo un estimativo tan preciso como sea posible de una cantidad de la población. El muestreo aleatorio simple es la técnica de muestreo más básica que no sólo asegura una muestra representativa sino que también produce una estimación de la cantidad de una población y una especificación de la precisión. Muchas ramificaciones han evolucionado a partir de este concepto central del muestreo aleatorio simple que permite alcanzar inferencias más precisas para diferentes tipos de poblaciones. Uno de los diseños prácticamente más útiles, llamado muestreo aleatorio estratificado, primero divide la población en segmentos homogéneos y después toma muestras aleatorias simples de esas subpoblaciones individuales.
Al principio, puede parecer sorprendente que la técnica del muestreo aleatorio simple pueda ser mejorada. Para clarificar este punto, consideremos una ciudad en la cual los distritos del norte son predominantemente áreas con altos ingresos y los distritos del sur son primariamente áreas con bajos ingresos. Para determinar el costo promedio de vivienda en toda la ciudad, es intuitivamente aparente que muestras aleatorias simples relativamente pequeñas tomadas separadamente de cada uno de los distritos, es probable que muestren información más exacta que un único muestreo tomado en toda la ciudad. La esencia de la estratificación es que ésta saca provecho de la homogeneidad conocida de las subpoblaciones, de tal forma sólo se requieran muestras relativamente pequeñas para estimar las características de cada subpoblación. Estas estimaciones individuales pueden entonces ser fácilmente combinadas para producir una estimación de toda la población. Además de la economía en el tamaño de la muestra, un valioso subproducto del esquema de muestreo estratificado es que las estimaciones obtenidas para diferentes partes de la población se pueden usar posteriormente para hacer comparaciones.
Para una descripción general del muestreo aleatorio estratificado y los métodos de inferencia asociados con este procedimiento, suponemos que la población está dividida en h subpoblaciones o estratos de tamaños conocidos N1, N2,...,Nh tal que las unidades en cada estrato sean homogéneas respecto a la característica en cuestión. La media y la varianza desconocidas para el i-ésimo estrato son denotadas por µi y σi2,
espectivamente. r
Estructura de población
Estrato
1 2 ... h
Tamaño (conocido) N1 N2 ... Nh
Media µ1 µ2 ... µh
Varianza σi2 σ22 ... σh2
Tamaño de toda la población:
∑
=
=
h1 i
N
iN
Media de toda la población:
µ
∑
=
µ
=
h
1
i
N
/
i
Ni
El muestreo aleatorio estratificado consiste en tomar muestras aleatorias simples independientes de tamaños predeterminados n1, n2,...,nhde los estratos 1, 2, 3,...., h, respectivamente, y medir la característica para cada unidad muestreada. Denotando la j-ésima observación del i-ésimo estrato por Xij podemos registrar el resumen de estadísticas:
Estructura de la muestra
Estratos 1 2 ... h
Tamaño de cada muestra n1 N2 nh
Media muestral
X
1
X
2X
hVarianza muestral
S2
1
S22
S2
h
Donde
∑
=
=
ni
1
j
Xij
ni
1
Xi
∑
(
)
=
−
−
=
ni
1
j
Xij
Xi
2
1
Aplicando la propiedad del muestreo aleatorio simple a las subpoblaciones individuales, la media muestral
X
i un estimador insesgado de ui y su varianza esVar (
X
i ) =n
i 2 iσ
−
N
n
i i1
porque la media global de la población µ es el promedio ponderado:
µ
+
+
µ
+
µ
=
µ
h
N
Nh
...
2
N
N2
1
N
N1
donde cada Ni es un tamaño de subpoblación conocida, un estimador insesgado de µ se obtiene como:
X
N
X
N
X
N
X
st=
N
1 1+
N
2 2+
...
+
N
h hEl sufijo st indica el hecho de que el estimador es construido a partir de muestras estratificadas. Además, debido a la independencia de las muestras, la varianza de
X
st es la suma de las varianzas de las componentes, donde:( )
−
−
−
σ
=
=
1
Ni
1
ni
1
ni
2
i
N2
N2i
Xi
Var
N2
N2i
Xi
N
Ni
Var
Al establecer los limites de error y los intervalos de confianza, la varianza desconocida
σ
puede estimarsepor la correspondiente varianza muestral simple
s
.2 i 2
i
Estimación de
µ
por muestreo estratificado
Estimador puntual:
X
N
X
N
X
N
X
hN
X
i 1 i i h h 2 2 1 1 stN
1
N
...
N
N
+
+
+
=
∑
==
µ
=
)
(
E
X
st( )
(
)
(
)
(
)
σ
−
−
+
+
σ
−
−
+
σ
−
−
=
nh
2
h
1
Nh
nh
Nh
N2h
...
n2
2
2
1
N2
n2
N2
N22
n1
2
1
1
N1
n1
N1
N2
1
N2
1
Xst
Var
ni
2
i
1
Ni
)
ni
Ni
(
h
1
i
N2i
N2
1
σ
−
−
∑
=
=
Límite aproximado del error al 95% para
µ
:
n
S
N
n
N
N
X
i 2 i i i i h 1 i 2 i st1
)
(
N
2
−
−
±
∑
=Incidentalmente, debería observarse que el estimador insesgado Xst es generalmente diferente de la media
muestral combinada
∑
==
+
+
+
=
h 1 i i h h 2 2 1 1n
X
n
X
n
X
n
,
donde
n
n
...
n
n
X
Sin embargo,
X
yX
st coinciden cuando los tamaños de muestra de los estratos prueban cumplen queN
n
,...,
N
n
,
N
n
N
n
N
n
N
Esta situación se la denomina asignación proporcional debido al hecho de que el tamaño de la muestra total n es asignado a los diferentes estratos en forma proporcional al tamaño del estrato.
Ejemplo 16.5 Cada árbol en el huerto de manzanas mostrado en la figura 16.1 está marcado con su cosecha medido en fanegas (medida para granos equivalente a 38.23 litros). Los árboles de las tres últimas filas son más jóvenes que los otros. Estime la cosecha media de la población por árbol, basado en muestras estratificadas de tamaño 6 para la subpoblación de las primeras cinco filas y de tamaño 2 de la subpoblación de las últimas tres filas.
Producción del Huerto de Manzanas
7 8 5 6 6 10 7 6 5 4 4 7 6 6 3 8 4 7 8 10 8 4 6 6 6 4 6 4 8 7 9 8 6 3 9 9 7 8 11 9
6 3 4 3 5 2 4 3 5 3 3 4 5 4 3 4 4 5 4 3 3 4 3 6
Figura 16.1 La huerta de manzanas del ejemplo 16.5, indicando la cosecha en fanegas para cada árbol
Aquí, N1 = 40, N2 = 24, n1 = 6, n1 = 2.
Leyendo parejas de números de una tabla de números aleatorios, uno por fila y uno por columna, seleccionamos árboles con los valores:
__
Estrato 1: 6 4 7 6 7 9 X1 = 6.5, s12 = 2.7
__
Estrato 2: 5 4 X2 = 4.5 s22 = 0.5
ºº
Nuestro estimador puntual de µ es:
5.75
4.5
64
24
6.5
64
40
N
N
X
N
X
N
X
st=
1 1+
2 2=
+
=
con un límite del error del 95% de:
86
.
0
2
5
.
0
1
24
)
2
24
(
6
7
.
2
)
1
40
6
40
(
1
/
2
64
2
n2
S22
1
)
N2
(
n1
S2
1
1
)
N1
(
1
/
2
N
2
24
40
N
n
N
N
n
N
2 22 2 2
2 1
1 2
1
−
=
±
−
−
+
−
−
=
±
−
+
−
−
±
Comenzamos esta discusión declarando que pueden hacerse inferencias más precisas con respecto a las diferentes poblaciones usando muestreo estratificado que usando muestreo aleatorio simple. Consideremos ahora una situación ideal para ver por qué esto es verdad. Suponga que deseamos obtener información sobre salarios y que la oficina de nómina nos dice que N1=20 obreros están en un nivel salarial y N2=4 están en otro.
Claramente, dada esta estratificación, tomando una muestra de tamaño 1 de cada estrato se mantendría el sueldo medio correcto con respecto a la población de 24 obreros. Si se tomara una muestra aleatoria simple, la media de las dos observaciones de la muestra sería todavía insesgada. Sin embargo es posible que las dos observaciones pudieran seleccionarse del mismo estrato. Si los niveles de salario de los dos estratos fueran $100 y $400, por ejemplo, entonces la media de la muestra seria $100, $250 ó $400. Esta estimación variará en repetidas observaciones de la muestra, mientras que el muestreo estratificado proporciona un resultado exacto. Una comparación similar se extiende a situaciones más prácticas cuando la población se divide internamente en estratos homogéneos.
Ejemplo 16.6. Compare la varianza de [, basada en una muestra aleatoria simple de tamaño 8, con la varianza de [st para el huerto de manzanas dado en la figura 16.1.
Media de la población: µ = 5.5625 Varianza de la población: σ2 = 4.66
y cálculos por separado para los primeros 40 árboles del primer estrato y para el segundo estrato de 24 árboles nos da:
Media µi
Varianza
σ
i
2
Estrato 1 6.635 3.984
Estrato 2 3.795 0.781
Por consiguiente, con
Muestreo Aleatorio Simple Muestreo Aleatorio Estratificado
−
−
+
−
−
=
n2
σ
2
2
1
2
)
n2
N2
(
n1
σ
1
2
1
)
n1
N1
(
N2
1
)
Xst
(
V
N
N
N
221 2 1
)
1
N
1
n
1
(
n
2
)
X
(
V
−
−
−
σ
=
Var ([) =
)
63
7
1
(
8
66
.
4
−
Var ([st) =
−
+
−
2
781
.
0
23
)
2
24
(
6
98
.
3
39
)
6
40
(
1
24
40
64
2 2 2= 0.52 = 0.28
y el estimador basado en muestreo estratificado tiene una menor varianza.
16.9. Asignación de tamaños de muestras
Aunque el tamaño total de la muestra n está generalmente limitado por el presupuesto disponible para el estudio, la asignación del tamaño de la muestra de cada estrato depende del criterio del investigador. Intuitivamente, la opción más plausible es la asignación proporcional que relaciona los tamaños de las muestras de los estratos en proporción a los tamaños de las subpoblaciones.
Asignación proporcional:
n
n
N
N
i
i
=
i = 1…..hLa asignación proporcional está motivada por el concepto de una muestra representativa: si un estrato comprende una gran porción de la población total, deberá contribuir en buena proporción a la muestra.
Debido a que nuestra principal meta es mejorar la precisión de nuestra estimación (es decir reducir su varianza), un criterio más importante de asignación de los tamaños de muestras debe ser la minimización de
( )
X
stVar
. Esto es factible cuando las varianzas de los estratos son conocidas, o al menos cuando hay disponibles algunas estimaciones de éstas mediante una prueba piloto. Específicamente, la asignación nσ
2 i1, …,
nk con (n1 + … + nk ) = n fijo que minimiza
Var
( )
X
st está dado por:σ
∑
=
σ
=
j
h
1
j
N j
i
Ni
n
ni
:
óptima
Asignación
Esto requiere que el tamaño de la muestra sea proporcional al producto del tamaño del estrato y la desviación estándar del estrato. Cuando todas las desviaciones estándares de los estratos son iguales, la asignación
Ejemplo 16.7 Los tamaños de tres pequeños pueblos son: N1 = 40,000, N2 = 20,000 y N3 = 30,000. Se va
a tomar una muestra aleatoria estratificada aleatoria con un tamaño total de muestra de n = 400. Determine el tamaño de la muestra que debe ser tomada de cada pueblo utilizando (a) asignación proporcional y (b) asignación óptima cuando de un estudio previo se conocen estimativos burdos de las desviaciones estándares, que son σ1 = 20, σ2 = 12 y σ3 = 14.
(a)
asignación proporcional:
n
n
N
= 400(4/9) = 178N
i
1
=
n
n
N
N
i
2
=
= 400(2/9) = 89n
n
N
N
i
3
=
= 400(3/9) = 133(b) asignación óptima:
N1σ1 = 800,000
N2σ2 = 240,000 N3σ3 = 420,000
Total = 1,460,000
n1 =
n
N
N
i i1 1
400
800
1460
219
σ
σ
∑
=
=
n2 =n
N
N
i i2 2
400
240
1460
66
σ
σ
∑
=
=
n3 =
n
N
N
i i3 3
400
420
1460
115
σ
σ
∑
=
=
Concluimos esta discusión planteando las situaciones para las cuales la estratificación es una técnica de muestreo beneficiosa. Primero, la estratificación generalmente crea una reducción en la varianza del estimador de una característica de una población. Esta reducción puede ser sustancial si cada estrato es homogéneo pero difiere de los otros con respecto a la característica. Segundo, si se requieren estimativos para ciertas subdivisiones de una población, puede ser útil tratar las subdivisiones como estratos para obtener estos estimativos. Por ejemplo, podemos querer estimar los ingresos de los miembros de cierto grupo minoritario mientras realizamos un estudio de los ingresos de una población urbana.
16.10. Muestreo estratificado para determinar una proporción
Las técnicas de estratificación también proveen estimaciones mejoradas de la proporción de la población. La notación y la estructura son:
Estratos
1 2 .... h Combinado
Población Tamaño N1 N2 .... Nh
∑
=
=
h1 i
N
iN
Proporción θ1 θ2 .... θh
∑
=
=
θ
h
1
i
N
pi
Ni
Muestra Tamaño n1 n2 .... nh
∑
=
=
h1 i
n
in
Conteo X1 X2 .... Xh
Proporción
n
X
P
1 1 1
=
n
X
P
2 2
2
=
....n
X
P
h h h
=
Muestra estratificada: Inferencia sobre una proporción
Estimador puntual:
N
Pi
1
i
Ni
N
1
Ph
N
Nh
...
P2
N
N2
P1
N
N1
st
∑
=
=
+
+
+
=
P
Límite del error aproximado al 95%:
∑
=
−
−
−
−
±
h
1
i
ni
1
)
Pi
1
(
Pi
1
Ni
)
ni
Ni
(
N2
i
N
2
=
∑
=
−
−
−
−
±
h
1
i
ni
1
)
Pi
1
(
Pi
1
Ni
)
ni
Ni
(
N
Ni
2
2
Con relación a la asignación de los tamaños muestrales, la distribución proporcional ni=n(Ni/N) puede
implementarse convenientemente. La asignación óptima que minimiza la varianza de
P
strequiere que ni seaproporcional a
)
i
1
(
i
i
N
θ
−
θ
, oAsignación optima
∑
=
−
−
=
h
1
j
N
j
θ
j
(
1
θ
j
)
)
i
θ
1
(
i
θ
i
N
n
i
n
Obviamente, una implementación de la asignación óptima requiere algún conocimiento previo acerca del valor aproximado de la proporción de cada estrato θi.
Muchos estudios, particularmente los que consisten en enviar un cuestionario por correo a un número de personas seleccionadas, son frecuentemente puestos en peligro porque hay un gran número de personas que no responden. Si un estudio requiere información sobre el salario actual de los que se han graduado alrededor de 1975, las personas que ganan bajos salarios están menos dispuestos a responder que las personas que ganan salarios altos. El estimativo muestral estará entonces seriamente sesgado hacia el lado de los de altos salarios. Para remediar esto, podríamos considerar los que no responden como un estrato e iniciar algún tipo de entrevistas de seguimiento hasta obtener la información necesaria de al menos unos pocos de los que no responden. Podríamos entonces combinar esta información con los datos obtenidos previamente para llegar al estimador de toda la población.
Ejemplo 16.8 Ciertos estudiantes que van a una gran universidad del medio oeste, y viven en apartamentos, son encuestados por teléfono. Una de las preguntas de la encuesta es si se les exigió o no un depósito de seguridad para el apartamento. Originalmente, 200 estudiantes fueron seleccionados de un directorio del campo universitario, ignorando aquellos estudiantes que viven en otras residencias. Los depósitos de seguridad fueron requeridos para 108 de 160 estudiantes que respondieron en tres intentos de la encuesta. Los 40 que no respondieron fueron tratados como un estrato y 4 fueron seleccionados aleatoriamente para ser tenidos en cuenta en un estudio de seguimiento. De los 4 estudiantes, a uno se le solicitó hacer un deposito de seguridad.
Estime la proporción de estudiantes que viven en apartamentos a quienes se les solicitó hacer un depósito de seguridad.
Podemos suponer que la población se divide en dos estratos en las mismas proporciones que aquellas que se observaron en la muestra. En otras palabras, asumimos que N1/N es lo mismo proporción que 160/200 =.8, y
que N2/N es lo mismo que 40/200=.2. El estimador se convierte entonces en
59
.
0
4
1
2
.
0
160
108
8
.
0
N
N
p
N
p
N
p
2 21 1
st
=
+
=
+
=
Tomando los factores 1 – (n1-1)/(N1-1) y 1 – (n2-1)/(N2-1)como 1, el límite aproximado del error con una
( )
( )
116
.
0
3
4
3
4
1
2
2
.
0
159
60
52
160
108
2
8
.
0
2
/
1
2
+
=
±
±
16.11. Otros métodos de muestreo
La aleatorización y la estratificación constituyen los conceptos básicos del muestreo. Sin embargo, se han diseñado muchos otros métodos bien sea para explotar estructuras específicas de la población o por conveniencia administrativa. Aquí describiremos algunos de estos métodos adicionales y discutiremos sus ventajas y desventajas.
16.11.1. El Muestreo Sistemático
Como el nombre lo sugiere, el muestreo sistemático, implica seleccionar las unidades de manera sistemática y por lo tanto de una manera no aleatoria. El propósito de esta técnica es usualmente seleccionar unidades de manera uniforme por toda la población. Específicamente si k = N/n, donde N es el tamaño de la población y n
es el tamaño de la muestra deseado, este método toma una unidad de los primeros k elementos de la población y a partir de ahí cada k-ésimo elemento. Generalmente se introduce un factor aleatorio, escogiendo la primera unidad al azar. Sin embargo, la selección de la primera unidad determina el resto de los elementos escogidos en la muestra.
La mayor ventaja del muestreo sistemático es su conveniencia operacional, especialmente cuando la muestra debe ser seleccionada de una lista, como una lista de estudiantes, un directorio telefónico o un grupo de tarjetas. El muestreo sistemático puede mirarse como una aproximación al muestreo aleatorio simple si el orden en la lista no es relevante a la característica en cuestión, como por ejemplo la "edad del estudiante" cuando la lista está organizada en orden alfabético según el apellido. También, si se miran los conjuntos consecutivos de k unidades como estratos, un muestreo sistemático tendrá la apariencia de un muestreo estratificado. Sin embargo, el rendimiento de una muestra sistemática puede ser muy inferior al de un muestreo estratificado correctamente ejecutado, debido a que en este caso los estratos son construidos arbitrariamente sin considerar la homogeneidad interna.
A pesar de todo lo atrayente que pueda parecer, el muestreo sistemático a menudo produce una muestra no representativa cuando la lista contiene alguna periodicidad escondida. Por ejemplo, en una lista de jugadores de fútbol, organizados por equipo, un muestreo sistemático de cada primer lugar podría contener solo los nombres de los arqueros.
16.11.2. El Muestreo por Conglomerados
En muchas situaciones puede lograrse un ahorro substancial en los costos haciendo un análisis con grupos o
conglomerados de unidades muestrales seleccionados al azar, en lugar de hacer un muestreo aleatorio simple de toda la población. Suponga que se va a seleccionar una muestra de la población de todos los estudiantes de quinto grado de una región en particular. Podemos ver cada escuela en dicha región como un conglomerado de las unidades muestrales básicas, los estudiantes de quinto grado. En el muestro por conglomerados, primero escogemos una muestra aleatoria de unas pocas escuelas en la región y luego se entrevistan todos los estudiantes de quinto en dichas escuelas.
la población, que un grupo de 100 estudiantes analizados en cada una de las cuatro escuelas especificadas. Por eso la elección entre los dos métodos de muestreo debe ser guiada por consideraciones de costo y por el grado de precisión deseada en los estimativos.
La mayoría de los resultados de las encuestas de muestreo, tales como la encuesta Gallup, los índices de precios al consumidor, y las cifras de desempleo que aparecen regularmente en los periódicos y otros medios de información masivos, no solo emplean estratificación y muestreo aleatorio sin reemplazamiento sino que también utilizan estratos dentro de estratos o incluso una combinación de muestreo por conglomerados y muestreo estratificado. A veces se usan métodos más sofisticados como el muestreo doble y el muestreo probabilístico proporcional al tamaño para obtener muestras representativas y estimadores precisos. Las ideas presentadas aquí ofrecen tan solo una introducción a algunos de los conceptos básicos que definen el la planeación de un muestreo por encuestas. Cochran[2] es una excelente referencia para estudiantes interesados en familiarizarse con técnicas de muestreo avanzadas.
Cuando se emplea un método de muestreo no probabilístico, deben tomarse precauciones extras para evitar el sesgo. Si al entrevistador se le da demasiada amplitud, puede incluir en la muestra los individuos fáciles de contactar. Las opiniones de la gente que camina al medio día en las calles de una gran ciudad, pueden diferir de aquellas que están en sus casas al medio día; un estimativo de la proporción de los estudiantes que no trabajan en vacaciones, ciertamente no puede estar basada en las muestras recogidas en una playa.
16.12. Planeación de un estudio muestral
En las secciones previas presentamos unos pocos métodos básicos de muestreo y de procedimientos de inferencia asociados con el muestreo aleatorio simple y estratificado. Planear y elaborar un estudio muestral es usualmente un proceso mucho más intrincado que requiere cuidadosa reflexión de las complejidades involucradas en la estructura de una población, en la factibilidad práctica de los métodos de muestreo, en la coordinación y supervisión del trabajo de campo, y finalmente, en el procesamiento y análisis de los datos. Para presentar brevemente estos elementos, analizaremos a continuación los pasos principales involucrados en la planeación y la ejecución de una encuesta. Debido a la diversidad de poblaciones al igual que a las facilidades y que el personal disponibles para un muestreo pueden presentar diversas dificultades al ejecutar un estudio; nuestra exposición tratará de ser ilustrativa en lugar de exhaustiva.
Propósito del Estudio
La necesidad de una clara definición del propósito del estudio no puede ser sobredimensionada. Sin establecer el objetivo de una investigación, incluyendo lo que esperamos aprender de los datos, cualquier deliberación acerca de la elección de diferentes métodos de muestreo no tendría ningún significado. Si no se sabe lo que se está buscando, no se sabrá donde buscar. La recompensa, por el cuidado y la planeación invertidos en la definición inicial del propósito de un estudio tan específicamente como sea posible, es que la información vital no será pasada por alto cuando las unidades sean muestreadas.
Población Objetivo
La población de la cual se hacen las inferencias, llamada población objetivo, debe ser definida tan claramente como sea posible. En el transcurso del desarrollo de un estudio, debe tenerse cuidado en asegurar que la población muestreada no se desvíe drásticamente de la población objetivo. Cuando la población muestreada se restringe por conveniencia práctica, debemos ser precavidos al extender las inferencias a la población objetivo.
¿Que Datos Deberían Recogerse?
estudiantes o jubilados. Por encima de cualquier otra consideración, las preguntas deben limitarse a puntos relevantes, y la brevedad debe ser una consideración primaria. Cada pregunta debe pasar esta prueba: ¿Qué información pertinente dará la respuesta?.
¿Qué método de Muestreo debe ser Utilizado?
Determinar el método de muestreo a ser usado y la escogencia del tamaño de la muestra son elementos importantes en la planeación de un estudio. La selección de una método de muestreo apropiado se basa en factores como la estructura de la población, el tipo de información buscada y, las facilidades administrativas y el personal disponible para ejecutar el estudio. Junto con la elección del método apropiado de muestreo, debe determinarse el tamaño de la muestra especificando el grado de precisión deseado en los estimadores. También debe verificarse si el tamaño elegido de la muestra es factible con el presupuesto destinado para el estudio.
Estudio Piloto
Con frecuencia, es conveniente gastar una porción del presupuesto en realizar un estudio a pequeña escala llamado prueba piloto o pre-test. Una prueba piloto es la oportunidad de poner a prueba el cuestionario para detectar y corregir cualquier irregularidad seria o situación inadecuada. Una encuesta piloto también puede dar información o sugerencias para mejorar el diseño del estudio. En el muestreo estratificado, por ejemplo, la información sobre las varianzas puede obtenerse a partir del estudio piloto, información que puede ser utilizada para lograr una elección más adecuada (cerca de la óptima) de los tamaños muestrales en el estudio a gran escala.
Análisis de los Datos
Una vez que se ha completado la encuesta, la fuerza de las técnicas gráficas y numéricas puede ser empleada en su totalidad para interpretar los resultados. Histogramas y tablas de frecuencia conjuntas ayudan a mostrar la correlación entre las respuestas. Inventiva en crear gráficos puede sugerir interesantes relaciones y conclusiones. En el reporte de los estimativos de las cantidades poblacionales, debe darse la información sobre la incertidumbre en términos de errores probabilísticos o intervalos de confianza.
Referencias
1.- A Million Random Digits with 100,000 Normal Deviates. The RAND Corporation. The Free Press, New York, 1995.
2.- Cochran, W. G., Sampling Techniques, 2nd Ed., JohnWiley & Sons, New York, 1963.
EJERCICIOS
1. Discutir las alternativas apropiadas para hacer un muestreo y el marco o estructura en cada uno de los estudios siguientes:
(a) Un departamento de justicia estatal desea estimar, en un área metropolitana en particular, la duración promedio de detención antes del juicio de las personas que son arrestadas por cometer un delito grave. (b) La división de mercadeo de una compañía farmacéutica desea determinar el porcentaje de hospitales en
el país que usa su marca de solución desinfectante para esterilizar equipo quirúrgico.
(c) Un cuerpo de gobierno universitario está interesado en estudiar opinión estudiantil sobre un cambio reciente en el calendario académico propuesto por un comité de facultad.
(d) Un juez elegido desea determinar cómo se siente su distrito electoral sobre un artículo propuesto en la legislación contra la obscenidad.
(e) Una agencia de salud pública estatal está emprendiendo un proyecto para evaluar la calidad del cuidado de la salud en el estado. Parte del proyecto está diseñado para estimar el promedio del gasto anual para el cuidado dental en el que incurren las familias.
2. Para cada estudio (encuesta) en el Ejercicio 1, discuta:
(a) La construcción de la estructura o marco y cualquier dificultad que podría encontrarse en el proceso. (b) Los métodos apropiados para realizar el muestreo: por teléfono, mandando por correo una encuesta, u
otros métodos pertinentes.
(c) Las ventajas y las posibles desventajas de usar su método propuesto
3. Identifique las causas principales de sesgo en cada una de las situaciones siguientes: