Teoría del Muestreo, sus Implicaciones e Importancia

(1)



Teoría del Muestreo, sus

Implicaciones e

Importancia

(2)

Índice

1 Introducción ... 3

2 Conceptos Básicos ... 3

2.1 Características y Parámetros de Interés ... 3

2.2 Muestra Aleatoria ... 4 2.3 Muestras Probabilísticas ... 5 2.4 Diseño Muestral ... 5 2.5 Mecanismo de Selección ... 6 2.6 Probabilidades de Inclusión ... 6 2.7 Estadística y Estimador ... 7

3 Muestreo Aleatoria Simple Sin Reemplazo (MAS) ... 7

3.1 Estadística y Estimador ... 7

3.2 Mecanismo de Selección ... 7

3.3 Estimación para el Total de Y y su Varianza en el MAS ... 9

3.4 Estimación para el Promedio de Y y su varianza en el MAS ... 11

4 Resumen ... 11

(3)

Objetivos

 Objetivo 1: Conocer la base de la teoría de la inferencia estadística, el estudio de recolección de muestras y la estimación de parámetros por el muestreo.

 Objetivo 2: Estudiar las muestras aleatorias simples.

1 Introducción

En esta unidad centraremos nuestro interés en la base de la teoría de la inferencia estadística, el estudio de recolección de muestras y estimación de parámetros por el muestreo. Es preciso mencionar que solo se hará un breve repaso de una extensa y cuidadosa teoría, debido a la complejidad y pertinencia de algunos de sus conceptos. Siendo el caso de las muestras aleatorias simples el eje sobre el cual desarrollaremos los contenidos temáticos, en busca de su utilidad final, la estimación de parámetros poblacionales.

2 Conceptos Básicos

Conocida una población o universo de nuestro interés, el cual está conformado por 𝑁 elementos y que notaremos como 𝑈 etiquetado como sigue 𝑈 = {1,2, … , 𝑁}, se define entonces una característica de interés 𝑦 la cual tiene como naturaleza ser una observación medida directamente en 𝑈 y no una realización de una 𝑣. 𝑎 como en unidades anteriores, tomará entonces 𝑦 el valor 𝑦𝑘 en el 𝑘-ésimo elemento.

El objetivo de hacer muestreo será el de estimar una característica de interés determinada en un parámetro poblacional a partir de la observación de un subconjunto con ciertas características de los elementos del universo. A continuación mostraremos los parámetros más comúnmente conocidos y de mayor interés.

2.1 Características y Parámetros de Interés

 El total poblacional: Determina el valor total de una característica de interés en una población, se denota por 𝒕𝒚 y se define como sigue:

𝑡

𝑦

= ∑ 𝑦

𝑘

𝑁

𝑘=1

 El promedio poblacional: Determina el valor promedio de una de una característica de interés en una población, se denota por 𝒚̅𝑼 y se define como sigue:

𝑦̅

𝑈

=

1 𝑁

∑ 𝑦

𝑘 𝑁 𝑘=1

=

𝑡

_𝑁

𝑦 “El objetivo del muestreo es estimar una

característica de interés determinada en un parámetro poblacional”

(4)

 La varianza poblacional: Determina la dispersión de los valores observados de la característica de interés con respecto a su valor medio, determinando la variabilidad existente en la población, se denota por 𝑺𝒚𝑼𝟐 y se define como sigue:

𝑆

𝑦𝑈2

=

∑

𝑁𝑘=1

(𝑦

𝑘

− 𝑦̅

𝑈

)

2

𝑁 − 1

Ejemplo 1: Suponga que se tiene una población 𝑼 tal que está etiquetada de la siguiente manera 𝑼 = {𝟏,𝟐, 𝟑, 𝟒, 𝟓} y se quiere estimar una variable de interés 𝒚 para cada elemento en el universo entonces: U yk 1 35 2 36 3 40 4 23 5 37

Tabla 1: Tabla ejemplo 1

 Para el total tenemos que:

𝑡

𝑦

= ∑ 𝑦

𝑘

𝑁

𝑘=1

= 35 + 36 + 40 + 23 + 37 = 171

 Para el promedio tenemos que:

𝑦̅

𝑈

=

1 𝑁

∑ 𝑦

𝑘 𝑁 𝑘=1

=

𝑡

_𝑁

𝑦

=

171 ₅

= 34.2

 Para la varianza tenemos que:

𝑆

𝑦𝑈2

=

∑

𝑁𝑘=1

(𝑦

𝑘

− 𝑦̅

𝑈

)

2

𝑁 − 1

=

[(35 − 34.2)

2

_{+ ⋯ + (37 − 34.2)}

2

_]

4 = 34.16

2.2 Muestra Aleatoria

Es un subconjunto del universo que se extrae mediante un modelo estadístico de selección, se denotara por 𝑺 y llamaremos 𝒔 a una instancia o realización de ella y queda definida de la siguiente forma:

(5)

El número de elementos en 𝒔 es llamado tamaño de muestra y existen casos particulares donde no es fijado de antemano, en consecuencia se hace variable.

 Muestra aleatoria sin reemplazo

Se dice que una muestra aleatoria es sin reemplazo si la selección de los elementos que han sido seleccionados no vuelven a ser parte de la población.

 Muestra aleatoria con reemplazo

Se dice que una muestra aleatoria es con reemplazo si la selección de los elementos que han sido seleccionados vuelven a ser parte de la población, es decir, un elemento puede ser seleccionado más de una vez.

2.3 Muestras Probabilísticas

No toda muestra aleatoria es de tipo probabilística, dando lugar a distintos tipos de muestreo que dada su metodología de recolección o desconocimiento de los modelos probabilísticos que garanticen su validez se convierten en mecanismos sin ninguna significancia a la hora de hacer estimaciones. A continuación se mencionan los requerimientos que hacen a una muestra aleatoria una muestra probabilística.

Una muestra es probabilística cuando:

 Se puede definir el conjunto de todas las posibles muestras derivadas del proceso de selección.

 Es posible conocer de antemano la probabilidad de selección de todas y cada una de las posibles muestras anteriormente mencionadas.

 El proceso de selección garantiza la existencia de una probabilidad mayor a cero para cada uno de los elementos del universo.

 El mecanismo aleatorio de selección que se utilice garantiza la igualdad de probabilidades de selección para cada muestra en el conjunto de todas las posibles muestras.

2.4 Diseño Muestral

Los componentes básicos de un estudio de muestreo son en primera instancia las probabilidades de selección asignadas a todas y cada una de las muestras posibles en el universo y en segunda instancia el procedimiento con el cual se miden los datos una vez observados. Así el primer componente se refiere a un diseño de muestreo y el segundo a un estimador concepto que veremos con más detalle a lo largo de este curso.

 Diseño de muestreo

Desde un punto de vista teórico estricto, un diseño de muestreo es una función 𝒑(𝒔), que a cada muestra posible le asigna una probabilidad de selección.

 Diseño de muestreo sin reemplazo

Un diseño de muestreo se dice sin reemplazo, si todas las muestras en el conjunto de todas las posibles muestras son sin reemplazo.

 Diseño de muestreo con reemplazo

Un diseño de muestreo se dice con reemplazo, si todas las muestras en el conjunto de todas las posibles muestras son con reemplazo.

“El número de elementos en el modelo estadístico de selección es llamado tamaño de la muestra”

“Sin reemplazo: si la selección de los elementos que han sido

seleccionados no vuelven a ser parte de la población”

“Con reemplazo: si la selección de los elementos que han sido seleccionados vuelven a ser parte de la población”

“Los componentes básicos de un estudio de muestreo son las probabilidades de selección y el procedimiento con el cual se miden los datos”

(6)

 Diseños de muestreo con tamaño de muestra fijo

Un diseño de muestreo se dice de tamaño de muestra fijo, si todas las muestras en el conjunto de todas las posibles muestras tienen el mismo tamaño de muestra.

2.5 Mecanismo de Selección

Son procedimientos secuenciales ordenados que se utilizan para seleccionar muestras probabilísticas.

2.6 Probabilidades de Inclusión

Las probabilidades de inclusión de primer orden llamadas 𝝅𝒌para el elemento 𝒌 se definen

como la suma de las probabilidades de selección que contienen al elemento 𝒌 en particular y de manera análoga se definen las probabilidades de inclusión de segundo orden para los elementos 𝒌 y 𝒍 en muestras que los contienen simultáneamente.

Ejemplo 2: Suponga que se tiene un diseño de muestreo genérico 𝒑(∙) tal que a la población 𝑼 mostrada en el ejemplo 1 asigna probabilidades de selección a muestras de tamaño 2 como sigue: (Nota: Cuando a un diseño de muestreo se le cita de forma genérica la notación utilizada es 𝒑(∙), es decir, el (∙) indica un diseño de muestreo cualquiera aplicado a una muestra 𝒔 en particular):

Muestra de tamaño 2 𝒑(𝒔) 1-2 0.13 1-3 0.20 1-4 0.15 1-5 0.10 2-3 0.15 2-4 0.04 2-5 0.02 3-4 0.06 3-5 0.07 4-5 0.08

Nuestro interés es el de obtener la probabilidad de que el elemento 𝐤 = 𝟏 sea incluido en la muestra, es decir, 𝛑𝟏 entonces será igual a la suma de las probabilidades de selección de

las muestras que contienen a elemento 𝐤 = 𝟏.

𝜋

1

= 0.13 + 0.20 + 0.15 + 0.10 = 0.58

“Un mecanismo de selección es un procedimiento secuencial ordenado que se utiliza para seleccionar muestras probabilísticas”

(7)

2.7 Estadística y Estimador

Se llama estadística a una función que varía en consecuencia de los resultados de un experimento aleatorio. Cuando es utilizada para estimar a un parámetro recibe el nombre de estimador y los valores que toman se les llama por estimaciones.

3 Muestreo Aleatoria Simple Sin Reemplazo (MAS)

En este apartado veremos la forma más simple de hacer muestreo, el muestreo aleatorio simple tiene como característica el suponer que el comportamiento de la característica de interés es similar en todos los individuos de la población, es decir, supone homogeneidad en la población.

Debido a esto el diseño asigna probabilidades de inclusión idénticas a todos y cada uno de los elementos de la población haciendo de esta su característica principal.

3.1 Estadística y Estimador

Se dice un muestreo aleatorio simple sin reemplazo a aquel diseño cuyas posibles muestras de tamaño 𝒏 fijado de antemano tienen la misma probabilidad de ser seleccionadas. Así:

𝑝(𝑠) = {

1 (

𝑁_𝑛

)

𝑠𝑖 # 𝑠 = 𝑛

0 𝑐 𝑐.

3.2 Mecanismo de Selección

Con el avanzado estado de las máquinas computadoras el proceso de extracción de una muestra se hizo algo determinante a la hora de un estudio por muestreo, agilizando cálculos y garantizando los resultados, los mecanismos de selección se convirtieron en parte inherente del plan de muestreo.

A continuación mostramos dos de las más conocidos y utilizados en a la hora de extraer una muestra aleatoria simple.

 Método del coordinado negativo

El método se resume en los siguientes pasos

- Genere 𝑵 números aleatorios 𝝃𝒌 de una 𝒗. 𝒂 distribuida Uniforme (𝟎, 𝟏).

- Asignar cada 𝝃𝒌a cada elemento de la población.

- Ordenar ascendente o descendentemente con respecto a cada 𝝃𝒌.

- A continuación seleccione los 𝒏 primero o últimos según el ordenamiento del paso anterior y esta selección se convierte en su muestra.

“Estadística: función que varía en consecuencia de los resultados de un experimento aleatorio”

“Estimador: una estadística que se utiliza para estimar un parámetro”

(8)

Ejemplo 3: Para la población 𝑼 que estamos siguiendo en los ejemplos anteriores, seleccionemos una muestra de tamaño 2 con el método del coordinado negativo.

- Se generan 5 números aleatorios 𝝃𝒌 debido a que en nuestro universo

𝑵 = 𝟓.

𝜉

1

= 0.28691106, 𝜉

2

= 0.97110167, 𝜉

3

= 0.86655545,

𝜉

4

= 0.71795016, 𝜉

5

= 0.95200564

- Se asigna 𝜉𝑘 a cada elemento de la población.

𝑈 𝜉𝑘 1 0.28691106 2 0.97110167 3 0.86655545 4 0.71795016 5 0.95200564

Tabla 3: Ejemplo 3 (a)

- Se ordenan los 𝑘 elementos de 𝑈 en este caso descendentemente con respecto a 𝜉𝑘. 𝑈 𝜉𝑘 1 0.28691106 4 0.71795016 3 0.86655545 5 0.95200564 2 0.97110167

Tabla 4: Tabla ejemplo 3 (b)

- Así nuestra muestra de tamaño 2 está conformada como sigue:

𝑠

1

= {1,4}

 Método de selección y rechazo

El método se resume en los siguientes pasos:

- Realizar 𝝃𝒌 distribuido uniforme (𝟎, 𝟏)

- Calcular:

𝑐

𝑘

=

𝑛 − 𝑛

𝑘

𝑁 − 𝑘 + 1

(9)

- Si 𝝃𝒌< 𝒄𝒌 , entonces el elemento 𝒌 pertenece a la muestra.

- Detener el proceso cuando 𝒏 = 𝒏𝒌

Ejemplo 4: Se dese extraer una muestra de tamaño 𝒏 = 𝟒 de una población 𝑼 cualquiera de

𝑵 = 𝟏𝟎 , con el mecanismo de selección y rechazo, el proceso se muestra como sigue en la

siguiente tabla:

k Numerador Denominador 𝐶𝑘 𝜉𝑘 Decisión

1 4 10 0,4 0,70554751 0 2 4 9 0,44444444 0,53342402 0 3 4 8 0,5 0,57951862 0 4 4 7 0,57142857 0,28956246 1 5 3 6 0,5 0,30194801 1 6 2 5 0,4 0,7747401 0 7 2 4 0,5 0,01401764 1 8 1 3 0,33333333 0,76072359 0 9 1 2 0,5 0,81449002 0 10 1 1 1 0,7090379 1

Luego la muestra aleatoria está conformada por los elementos:

𝑠

1

= {4,5,7,10}

Nótese que como se dio en este ejemplo el método garantiza que los 𝒏 elementos siempre sean seleccionados, es decir, el método siempre converge.

3.3 Estimación para el Total de Y y su Varianza en el MAS

Las expresiones para la estimación del total y su varianza en el muestreo aleatorio simple vienen dadas por:

𝑡̂

𝑦

=

𝑁

𝑛

∑ 𝑦

𝑘 𝑠

𝑉𝑎𝑟(𝑡̂

𝑦

) =

𝑁

2

𝑛

(1 −

𝑛

𝑁

) 𝑆

𝑦𝑈2

(10)

𝑉𝑎𝑟

̂ (𝑡̂

𝑦

) =

𝑁

2

𝑛

(1 −

𝑛

𝑁

) 𝑆

𝑦𝑆2

Con 𝑺𝒚𝑺𝟐 y 𝑺𝒚𝑼𝟐 las varianzas muestral y poblacional respectivamente.

Ejemplo 5: Supongamos que para la muestra extraída en el ejemplo 4 tomamos las mediciones de una variable 𝒚 continua con los valores como sigue:

𝒌 𝒚𝒌

4 19

5 56

7 70

10 60

Entonces nuestro interés será el de estimar el total y con su respectiva varianza estimada.

 El total vendría dado por:

𝑡̂

𝑦

=

𝑁

_𝑛

∑ 𝑦

𝑘

𝑠

=

10 ₄

∙ (19 + 56 + 70 + 60) = 512.5

 Para estimar la varianza del estimador tenemos que como se muestra en ecuación, esta depende de la varianza muestral que se calcula como sigue:

𝑆

𝑦𝑆2

=

∑

𝑘∈𝑆

(𝑦

𝑘

− 𝑦̅

𝑠

)

2

𝑛 − 1

= 496.92

Con lo que:

𝑉𝑎𝑟

̂ (𝑡̂

𝑦

) =

𝑁

2

𝑛

(1 −

𝑛

𝑁

) 𝑆

𝑦𝑆2

=

10

2

4 (1 −

4

10 ) ∙ (496.92) = 7453.75

 Es necesario brindar una medida del error para determinar la calidad de las estimaciones, para ello se utiliza el coeficiente de variación estimado 𝒄𝒗𝒆 como sigue:

𝑐𝑣𝑒 =

√𝑉𝑎𝑟

̂ (𝑡̂

𝑦

)

𝑡̂

𝑦

× 100% =

√7453.75

512.5 × 100% ≅ 17%

Lo que puede considerarse como una pobre estimación debido a que 𝒄𝒗𝒆 > 𝟓% se consideran estimaciones de baja calidad, esto puede ser al poco número de elementos de la población con tamaño de muestra pequeño.

(11)

3.4 Estimación para el Promedio de Y y su varianza en el MAS

Las expresiones para la estimación del promedio y su varianza en el muestreo aleatorio simple vienen dadas por:

𝑦̅̂ =

𝑡̂

𝑦

𝑁

=

∑ 𝑦

𝑆 𝑘

𝑛

= 𝑦̅

𝑆

𝑉𝑎𝑟(𝑦̅̂) =

1 𝑁

2

𝑉𝑎𝑟(𝑡̂

𝑦

) =

1 𝑛

(1 −

𝑛

𝑁

) 𝑆

𝑦𝑈2

𝑉𝑎𝑟

̂ (𝑦̅̂) =

_𝑁

1

₂

𝑉𝑎𝑟

̂ (𝑡̂

𝑦

) =

1 𝑛

(1 −

𝑛

𝑁

) 𝑆

𝑦𝑆2

Ejemplo 6: Considerando los datos del ejemplo anterior, damos estimaciones para la media y la varianza estimada de la variable de interés 𝒚.

𝑦̅̂ =

𝑡̂

𝑦

𝑁

=

512.5

4 = 𝑦̅

𝑆

= 51.25

Con lo que queda demostrado que el estimador (MAS) 𝒚̅𝑺 es el soporte de toda la inferencia

estadística vista desde un punto clásico. Para la estimación de la varianza tenemos que:

𝑉𝑎𝑟

̂(𝑦̅̂) =

_𝑁

1

₂

𝑉𝑎𝑟

̂ (𝑡̂

𝑦

) =

_𝑛

1 (1 −

_𝑁

𝑛

) 𝑆

𝑦𝑆2

=

1

10

2

∙ (7453.75) =

1

4 (1 −

4

10 ) (496.92)

= 74.5375

Con igual medida de calidad para el caso del total, debido a que se trata de los mismos valores.

4 Resumen

 El objetivo de hacer muestreo será el de estimar una característica de interés determinada en un parámetro poblacional a partir de la observación de un subconjunto con ciertas características de los elementos del universo.

 El muestreo aleatorio simple tiene como característica el suponer que el comportamiento de la característica de interés es similar en todos los individuos de la población, es decir, supone homogeneidad en la población. Debido a esto el diseño asigna probabilidades de inclusión idénticas a todos y cada uno de los elementos de la población haciendo de esta su característica principal.

(12)

5 Referencias Bibliográficas

 Miranda, I. E., Palacín, F., Sánchez, M. L., Márquez, M., Chía, A. R., Navas, A. S., y otros. (3ra. Edición 2006). Estadística Descriptiva y Probabilidad. Cádiz: Servicio de Publicaciones de la Universidad de Cádiz.

 Montgomery, D., & R., R. (2da. Edición 2008). Probabilidad y Estadística Aplicada a la Ingeniería. México: Limusa Wiley.

 Walpole, R., Myers, R., & Myers, S. y. (2007). Probabilidad y Estadística para Ingeniería y Ciencias. México: Pearson.