4.4. Proceso de recolección de datos
4.4.3. Teoría de muestras en el proceso de recolección de datos
4.4.3.1. Error de muestreo
Una muestra es un conjunto de n unidades de muestreo seleccionadas entre las N
unidades que componen la población, siendo el muestreo el procedimiento seguido para elegir las n unidades.
La estimación de la muestra estará afectada por un error denominado error de muestreo (e) que es la diferencia entre el valor del parámetro de la población y el valor hallado mediante la muestra. Si la muestra es probabilística puede calcularse la magnitud de dicho error, por ejemplo, en un muestreo aleatorio simple el error de muestreo se calcula mediante la expresión siguiente:
s 1 e z X z f n
(4.1)
donde:σ(X) es el error típico de la media muestral
z es el grado de confianza de la estimación
s es la desviación típica muestral de la variable analizada
n es el tamaño de la muestra
1-f es el factor de corrección para poblaciones finitas, donde f es la fracción de muestreo (f=n/N)
Si se trabaja con variables categóricas la expresión del error muestral es diferente, por lo que este se halla a partir de la siguiente expresión:
1 1 pq e z f n
(4.2)
donde:z,n y f tiene el mismo significado de la fórmula anterior
p es la proporción en la muestra para la categoría de examen
q = 1 – p
4.4.3.2. Tamaño mínimo de muestra
Existen 3 estrategias de muestreo que se emplean habitualmente a la hora de realizar estimaciones de modelos de elección discreta a partir de datos basados en la elección: muestreo aleatorio simple, muestreo aleatorio estratificado y muestreo basado en la elección. Este último solo se utiliza en estudios en los que se conoce a priori el reparto modal, y no puede emplearse cuando se consideran datos PD en los que se introduce una alternativa de transporte no existente en el mercado actual (Rose & Bliemer, 2013), por lo que no se tiene en cuenta para la presente investigación.
Muestreo aleatorio simple: basta con sustituir en las fórmulas anteriores el error
e por el que el analista está dispuesto a aceptar, y resolver la ecuación tomando el tamaño muestral n como incógnita. Si se supone que la población es suficientemente grande en relación con la muestra se puede obviar el factor de corrección para poblaciones finitas, por lo que esta primera aproximación puede obtenerse mediante la siguiente expresión:
2 2 1 z pq n n e
(4.3)
Es una opinión ampliamente difundida que el tamaño de la muestra debe ser proporcional al de la población (para más información véase Corbetta, 2007). Dado que el tamaño de esta última no interviene en la aproximación inicial, debe realizarse una segunda aproximación con la introducción del factor de corrección para poblaciones finitas, sólo cuando se requiere que el tamaño de la muestra no sea despreciable en relación con el tamaño de la población (es decir, cuando n sea superior al 5 % de N, o lo que es lo mismo, f= n/N >0.05). Si se tiene en cuenta este factor la anterior expresión queda como sigue:
2 2 1 z pq(1 ) n n f e
(4.4)
Sustituyendo f por su valor (n/N) se obtienen expresiones bastante complejas. Para simplificar su utilización, este proceso suele separarse en 2 fases: primero se aplica la ecuación (4.3) que proporciona una primera medida n0. Si el valor
de n0 calculado es inferior al 5% de N, se emplea como tamaño de la muestra.
Pero si este valor es superior al límite, es necesario introducir el factor de corrección y se puede pasar de n0 al valor correcto de n mediante la expresión
siguiente: 0 0
1
n
n
n
N
(4.5)
Las anteriores expresiones solamente son válidas si las observaciones obtenidas son independientes entre encuestados, por lo que si se consideran datos PD a la hora de aplicar estas expresiones no puede simplemente aumentarse el número de situaciones de elección presentadas para disminuir el tamaño de muestra mínima. Puede verse una ecuación equivalente a las anteriores en Rose y Bliemer (2013, p. 1023) en la que se pone de manifiesto este hecho.
Muestreo aleatorio estratificado: con esta tipología de muestreo se procede dividiendo la población en un número de grupos mutuamente excluyentes, cada uno de los cuales representa una proporción de la misma. Las características que pueden considerarse como criterio de selección de estos grupos pueden ser de varios tipos, como por ejemplo el nivel de ingresos, sexo, edad, etc. (Hensher et al., 2005, p. 190).
A la hora de calcular el tamaño mínimo de muestra con esta tipología de muestreo puede procederse de 2 formas. En primer lugar puede aplicarse el procedimiento anterior sobre el total de la población (N) y posteriormente repartir de forma proporcional el tamaño de n obtenido entre todos los estratos. En segundo lugar puede procederse calculando el tamaño mínimo de muestra sobre cada uno de los estratos, sumando el valor obtenido para obtener el total. Con el primer procedimiento se obtiene un tamaño de muestra muy inferior que el obtenido con el segundo, lo que se debe a que mientras que en
el primer procedimiento el nivel de confianza se aplica sobre el total de la población, en el segundo se aplica sobre cada uno de los estratos.
En el anexo A12 se muestra el procedimiento de cálculo del tamaño mínimo de muestra mediante estos procedimientos para el caso de A Coruña, cuya población del Campus de Elviña era, en 2012-2013, N=9234. Mediante el muestreo aleatorio simple se obtuvo un tamaño de muestra n=384.16, que es el mismo valor que se obtendría mediante el primer procedimiento de muestreo aleatorio estratificado (teniendo en cuenta las facultades o escuelas universitarias como criterio de estratificación). Por su parte, mediante el segundo procedimiento de muestreo aleatorio estratificado se obtiene un valor de n=1786.79.