APUNTES TEORIA DE MUESTREO

(1)

APUNTES TEORIA DE MUESTREO

TECNICAS ESTADISTICAS PARA LA INVESTIGACION SOCIAL

FACULTAD DE CIENCIAS POLITICAS Y SOCIALES

UNIVERSIDAD NACIONAL DE CUYO

(2)

TEORIA DE MUESTREO

En la planificación de muestreo hay dos momentos: el cuánto y el cómo

Cuánto: hace referencia al tamaño de la muestra, o sea cuántas unidades se deben seleccionar

Cómo: es el método mediante el cuál seleccionamos las unidades de análisis que conformarán la muestra.

En este apartado estudiaremos el “como”.

Para ello comenzaremos por algunas definiciones.

1. Definiciones

DEFINICIÓN DE MUESTRA

⇒ Una muestra es en general, una parte representativa de una población o universo, cuyas características debe reproducir en pequeño lo más exactamente posible.

⇒ _{Las muestras tienen el fundamento matemático que dice que, elegida correctamente,}

se puede realizar estimación o generalización al conjunto de la población con de una confianza determinada y con un margen de error que se puede determinar estadísticamente.

⇒ Una buena muestra debe asegurar una ALTA CONFIABILIDAD Y UNA DETERMINADA PRECISION EN LAS ESTIMACIONES (la precisión es la terminología con la que se expresa el error muestral)

Trabajar con muestras es muy ventajoso, y un muchos casos es preferible a trabajar con toda la población.

Todas las ventajas del muestreo se relacionan directamente con la pequeñez de la muestra en relación al universo

⇒ _{Costo reducido} ⇒ _{Mayor rapidez}

⇒ _{Mayores posibilidades: personal más calificado para todo el proceso de investigación.} ⇒ _{Mayor exactitud: disminución de los errores de no muestreo: personal más calificado,}

mayor supervisión del trabajo de campo y del procesamiento de los resultados.

(3)

intención de votos, los elementos son los ciudadanos habilitados para votar. En un informe habitacional, los elementos son las viviendas de la ciudad en estudio.

UNIDADES DE MUESTREO: contienen los elementos que se utilizan para seleccionar la muestra. En un muestreo de elementos, los elementos de la población son también las unidades de muestreo. En un muestreo de conglomerados las unidades de selección o de muestreo son grupos de elementos llamados conglomerados. Por ejemplo, para realizar una encuesta de vivienda se pueden sortear directamente las viviendas a encuestar (muestreo de elementos), o sortear las manzanas de una localidad, en cuyo caso las manzanas serían conglomerados de viviendas.

MARCO O LISTA: cuando los elementos de la población son identificados se llama a la población y a su sistema de identificación marco o lista. La identificación se puede hacer de diferentes formas por lo que se pueden obtener marcos diferentes para una misma población. Con el marco es posible seleccionar una muestra de elementos de la población con probabilidad conocida de selección. Una práctica ampliamente aceptada para asignar probabilidades es la utilización de la tabla de números aleatorios.

Por ejemplo, si se desea sortear alumnos para realizar una evaluación de rendimiento académico por muestreo, un marco posible puede provenir del listado administrativo de los alumnos, pero si ésta es defectuosa una alternativa es sortear los bancos de la escuela donde se sientan los alumnos. En el primer caso el marco poblacional es el listado, en el segundo es una planta de las aulas donde están identificados los bancos.

Otros ejemplos son: mapa de catastro, historias clínicas de un hospital, listado de clientes de un comercio.

FRACCION DE MUESTREO: la fracción de muestreo es el porcentaje que representa la muestra con relación al universo. Se obtiene dividiendo la muestra por el universo.

Si por ejemplo el universo es de 3000 y se ha seleccionado una muestra de 600 la fracción de muestreo es de 0.20; 20% (f=n/m= 600/3000=0,20)

2. Tipos de muestreo

Podemos hablar de dos tipos de muestreo

⇒ Muestreo Probabilístico

⇒ Muestro No Probabilístico

(4)

1) Muestra probabilística: es aquella en que todos los elementos de la población tienen una probabilidad conocida (y no es cero) de ser seleccionados para integrar la muestra.

2) Si el método de selección es tal que, cada muestra posible tiene igual probabilidad de selección, se lo denomina muestreo aleatorio.

3) Es posible evaluar objetivamente la precisión de los resultados muestrales: el error de muestreo puede ser medido objetivamente. En otras palabras es posible calcular el margen de error

(Fórmula del margen de error: z*s/√n)

El error de muestreo hace referencia a cuán cerca se reproduce con la muestra los resultados que se obtendrían con un censo, utilizando los mismos métodos de medición y control. Por ejemplo, si en un censo se ha obtenido que la edad media de un conjunto de alumnos universitarios es de 22 años, y en una muestra se obtiene 23 años, el error muestral es 1.

Los errores que se alcanzan por otras fuentes se denominan errores de no muestreo. Éstos pueden provenir de preguntas sesgadas, equivocaciones en la codificación o en la carga de datos, etc. Los errores de no muestreo pueden ser igualmente importantes o mayores que los de muestreo.

MUESTREO NO PROBABILISTICO

Surge como alternativa al muestreo probabilística. No cumple con las tres condiciones del muestreo probabilístico.

⇒ No se utilizan métodos aleatorios en el proceso de selección de los elementos que

componen la muestra. Toma una parte fácilmente accesible de la población y por lo tanto no todas las muestras tienen la misma probabilidad de ser seleccionadas y no todos los elementos del universo tienen una probabilidad conocida de ser seleccionados para integrar la muestra.

Por ejemplo, seleccionar a la ventura, tomar una parte accesible de la población, entrevistar a voluntarios, seleccionar a las unidades que se consideran típicas (selección intencional)

(5)

3. Métodos aleatorios de selección de las unidades de muestreo

En estos métodos cada unidad de muestreo tiene una probabilidad conocida y distinta de cero de ser incluida en la muestra.) Hay 3 muy conocidos

1) Tómbola: enumerar todos los elementos y luego ir sacando de a uno hasta completar el número de la muestra

2) Tabla de número aleatorios: son tablas con listas de números colocados al azar o por sorteo.

3) Sistemático (se verá luego en tipo de muestreo)

4. Tipos de muestreo

Para seleccionar una muestra representativa se deben seguir ciertas reglas o métodos que permitan obtener una fracción de la población que efectivamente represente al universo. En otras palabras, se debe realizar la selección de la muestra de tal manera que todas ellas tengan igual probabilidad de ser seleccionadas.

Se verán 5 tipos de muestreos 1) Muestreo aleatorio simple 2) Muestreo aleatorio estratificado 3) Muestreo sistemático

4) Muestreo por conglomerados de igual tamaño en una etapa y en dos etapas 5) Muestreo por cuotas (semiprobabilístico)

1. ALEATORIO SIMPLE: consiste en seleccionar los elementos (uno a uno) a través de algún método de selección aleatorio (tómbola, tabla de números aleatorios, sistemático) hasta cumplir con el tamaño de la muestra. Su importancia radica en que todos lo siguientes tipo de muestreo se basan en este.

(6)

interés. Por ejemplo, en un estudio de rendimiento académico de los alumnos de la Facultad, se puede realizar un muestreo estratificado por carrera, lo cual supone que dentro de cada carrera, el rendimiento tiene un comportamiento homogéneo.

Ventajas:

a) Es muy eficiente en relación al error de muestreo: si se realizan dos estudios en la misma población, y en uno se utiliza un método estatificado y en el otro cualquier otro método, el error de muestreo será menor en la muestra estratificada.

De todas maneras, si la estratificación no resulta en estratos homogéneos con respecto a la variable de interés no habrá ganancias en el error de muestreo.

b) Permite utilizar, dentro de los estratos, diferentes técnicas de selección de los elementos que conformarán la muestra. Por ejemplo, para seleccionar una muestra de personas se puede estratificar entre las que habitan en viviendas colectivas y aquellas que habitan viviendas individuales, realizando un muestreo sistemático de las viviendas individuales y un muestreo aleatorio de las viviendas colectivas.

c) Permiten obtener conclusiones para el estrato.

Por ejemplo, en una encuesta de instituciones públicas de la provincia, cuya muestra había sido realizada por estratos y donde cada estrato era un departamento, se puede obtener conclusiones para cada departamento, siempre y cuando el tamaño de la muestra en cada estrato sea suficientemente grande.

Desventaja:

La principal desventaja práctica es que para realizarlo se requiere mayor información. Es decir se requiere un marco de la población clasificada por estratos. En el ejemplo del rendimiento académico de los alumnos de la Facultad, es necesario tener clasificados a los alumnos por carrera.

El muestreo estratificado se clasifica en tres tipos según el tamaño que se le asigna a cada estrato

⇒ proporcional

⇒ óptimo

⇒ arbitrario

(7)

que se desea extraer una muestra de 50 alumnos. Si el muestreo es estratificado proporcional el tamaño de la muestra del primer estrato es de 45 alumnos y el del segundo es de 5 alumnos.

Muestreo estratificado óptimo: se utiliza cuando el tamaño de los estratos es muy dispar (algunos muy grandes y otros muy pequeños) y hace muy ineficiente el uso del estratificado proporcional. Para calcular el tamaño de los estratos, no sólo se tiene en cuenta el tamaño de cada estrato en la población, sino también su respectiva varianza, es decir su variabilidad.

Muestreo estratificado arbitrario: cuando el tamaño asignado a cada estrato se realiza según el criterio del investigador.

3. SISTEMATICO: es un muestreo aleatorioen el que se sistematiza la selección de las unidades de análisis.

Se enumera de 1 a N todas las unidades de la población. Se recorre el marco y se toma una unidad cada k-ésimo elemento empezando con un caso elegido al azar entre los k primeros elementos.

K es un número entero que indica cada cuantos elementos se selecciona uno. K se calcula de la

siguiente manera: K=N/n. En palabras K es el cociente entre el tamaño de la población y el tamaño de la muestra.

El primer elemento se selecciona al azar entre 1 y k y se lo denomina arranque aleatorio r.

Ejemplo:

Si la población es de 200 unidades y la muestra de 50 unidades K=200/50=4. Por lo tanto, se selecciona un elemento cada 4 elementos.

Antes de comenzar se sortea el número de arranque, el cual debe ser un número entro 1 y 4 (entre el primer elemento del marco y K)

Si r=2, luego el primer elemento seleccionado será el 2, el segundo r+k=2+4=6, el tercero r+2k=2+8=10, el cuarto r+3k=2+12=14¸ el quinto r+4k=2+16=18, el sexto r+5k=2+20=22y así hasta llegar a los 50 elementos.

En el marco o lista partiendo del número de arranque 2, se selecciona una unidad cada cuatro elementos:

1 2 3 4 5 6 7 8 9 10 11 12 13

(8)

La muestra reflejará en forma proporcional cualquier estratificación que exista en el ordenamiento de la población. Es decir, se producen, automáticamente, n estratos ya que el intervalo k ha dividido a la población en n zonas.

Para realizar las estimaciones utilizando el muestreo sistemáticos debe suponerse como válidos que la variable esté bastante mezclada en la población, pues así la muestra sistemática es equivalente a la que surge de un muestreo aleatorio simple..

Existen dos situaciones en que el muestreo sistemático produce sesgos y por lo tanto no es aconsejable utilizarlo: cuando e listado presenta periodicidades o características cíclicas.

a) Periodicidad: cuando el listados de los elementos presenta un orden determinado en relación a la variable en estudio.

Por ejemplo, en un estudio sobre la composición etaria de un grupo de familias, la variable en estudio es la edad y el marco es el listado de los componentes de las familias. Si dicho listado está realizado de tal manera que cada miembro de la familia está ordenado de mayor a menor, se dice que existe una periodicidad en el listado, pues en cada familia aparecería primero los adultos y luego los adolescentes o niños. Esta periodicidad produce un sesgo en los resultados con respecto al valor parámetro.

El promedio obtenido de edad variará mucho según el número de arranque pues si se sortea un número pequeño, la muestra estará comprendida por más adultos que si se sortea un número más alto, dónde la muestra terminará conformada por más jóvenes.

Marco y listado con los miembros de las familias ordenados por edad

40 30 10 8 50 45 15 13 60 59

30 24 24 22 2 1 50 49 15 12

Si r=1 y K= 4 en la primera muestra se seleccionan los siguientes elementos: 40, 50, 60, 24, 50. El promedio de edad obtenido es de 44,8 años

Si r=3 y K4 en la segunda muestra se selecciona el 8, 13, 24, 1, 12. En este acaso el promedio obtenido es de edad obtenido es de 11,6 años.

(9)

parámetro es de 26,75 año, muy lejano a los obtenidos en las muestras. Esto se debe a la periodicidad en el listado de los elementos.

b) Características cíclicas: estas son más comunes en las series de tiempo. Supóngase que se desea estimar las características de los clientes de en un supermercado con una encuesta. Para ello se hace un muestreo sistemático en el tiempo, cada siete días (k=7) durante tres meses. Si el arranque aleatorio cae en sábado (r= 6), la encuesta se realizará durante los tres meses los días sábados y probablemente producirá una caracterización de los clientes distinta a si se hubiera realizado un día lunes.

Una desventaja importante en este tipo de muestreo se presenta en la aplicación de la selección de los elementos cuando la lista presenta blancos o elementos extraños repartidos entre los de la población.

4. Muestreo por conglomerados de igual tamaño (en una y en dos etapas): cuando en el muestreo se seleccionan unidades muestrales que contienen varios elementos, se denomina muestreo por conglomerados. En estos casos la unidad de muestreo es un conglomerado de elementos. Los conglomerados pueden ser de igual tamaño o de desigual tamaño. En la mayoría de las situaciones los conglomerados son de desigual tamaño.

Por ejemplo, en una ciudad, los elementos de la población que se desean estudiar pueden ser las viviendas y las unidades de muestreo las manzanas.

Las situaciones que se pueden presentar en muestreo por conglomerados son las siguientes:

Muestreo por conglomerados en una etapa: los elementos seleccionados son aquellos que integran los conglomerados seleccionados. Por ejemplo, en un estudio de viviendas de un barrio, dónde las manzanas son los conglomerados y las viviendas que integran dichas manzanas los elementos, se seleccionan las manzanas y luego la muestra queda conformada por todas las viviendas de las manzanas seleccionadas.

Muestreo de conglomerados en dos etapas: en esta situación existen dos etapas de muestreo. Primera etapa: los conglomerados son las unidades de muestreo

(10)

En cada etapa se requiere un marco para las unidades de muestreo.

Por ejemplo en un muestreo de viviendas de un barrio dónde las manzanas son los conglomerados y las viviendas los elementos, en la primera etapa se seleccionan manzanas y en la segunda etapa se seleccionan algunas viviendas de las manzanas seleccionadas en la primera etapa.

Ejemplo

A= cantidad de conglomerados en la población B= cantidad de elementos por conglomerado A*B= N (Población total)

n= tamaño de la muestra

a= cantidad de conglomerados en la muestra

b= cantidad de elementos por conglomerados en la muestra a= n/B para el muestreo por conglomerado en una etapa a=n/b para el muestreo por conglomerado en dos etapas

Se desea realizar un muestreo por conglomerados en una etapa de un barrio donde las viviendas son los elementos y las manzanas los conglomerados.

El gráfico de la derecha representa un barrio con 6 manzanas con 4 viviendas cada una. Por lo tanto, A=6 y B=4 y la población total es A*B=24.

Si se quiere obtener una muestra de 8 (n=8) elementos a través de un muestreo por conglomerados en una etapa debemos sortear 2 conglomerados (pues a=8/4=2), luego la muestra queda conformada por las 4 viviendas de cada conglomerado.

Si queremos obtener una muestra de 8 elementos pero a través de un muestreo por conglomerados en dos etapas debemos sortear 4 conglomerados (pues a=8/2=4). Una vez seleccionados dichos conglomerados, debemos realizar la segunda etapa de muestreo dónde se seleccionarán las viviendas de los conglomerados sorteados en la primera etapa.

5. MUESTREO POR CUOTAS: Estrictamente no es un tipo de muestreo probabilístico sino semiprobabilístico. Es muy utilizado en los estudios de mercado y sondeo de opinión.

Se asienta sobre la base de un buen conocimiento de la población.

El investigador establece ciertos pasos para obtener una muestra que sea similar a la población

1 2 5 6

3 4 7 8

9 10 13 14 11 12 15 16

(11)

ejerciendo ciertos controles sobre algunas características de sus elementos.

Se estiman los tamaños de los subconjuntos de la población, generalmente en base a los censos. Luego se calculan proporcionalmente cuotas respecto al tamaño de los subconjuntos en la población. En la última etapa los encuestadores deben buscar personas que cumplan con dichas cuotas.

Para trabajar con este tipo de muestreo se debe confeccionar una lista con las características relevantes que deben ser controladas (ej. Edad, sexo, nivel socioeconómico, nivel educativa) y conocer la distribución de esas características en la población (disponer de información censal) En líneas generales mantiene semejanzas con el muestreo estratificado pero sin su carácter aleatorio.

Se lo puede denominar muestreo estratificado con una selección más o menos no aleatoria de los estratos. Estrictamente no se pueden aplicar fórmulas de error de muestreo, pero los resultados obtenidos nos permiten realizar inferencias bastante precisas. (Véase al caso de las encuestas de intención de voto)

Bibliografía:

Diblasi Lidia, “Introducción a la teoría de muestreo” Facultad de Ciencias Políticas y Sociales, Universidad Nacional de Cuyo. Mendoza, 1997.

Blanch Nidia y Joekes Silvia, “Diseño de experimentos y selección de muestras aleatorias de poblaciones finitas” Facultad de Ciencias Económicas, Universidad Nacional de Córdoba. Octava

edición, marzo 2005.