MUESTREO Y ESTIMACIÓN

(1)

MUESTREO Y ESTIMACIÓN

1.- MUESTREO

Todo estudio estadístico tiene por objeto analizar determinada característica en una población. Lo ideal es poder observar dicha característica en todos los individuos de una población, pero en la mayoría de los casos esto no es posible.

Considera, por ejemplo, los estudios estadísticos cuyo objeto es:

• Conocer la estatura media de las españolas mayores de edad: requeriría excesivo tiempo y dinero tallar una a una a los millones de mujeres objeto del estudio.

• Conocer la proporción de cerillas defectuosas de una partida: sería absurdo probar cada una de ellas, pues esto supondría destruír toda la partida.

En ambos casos estudiaremos solamente una parte de la población, es decir, una muestra. Una vez recogida la muestra, se procede al

análisis de los parámetros de la muestra para, a partir de ellos, obtener información sobre la característica de la población que se quiere estudiar.

La parte de la estadística cuya finalidad es extraer conclusiones acerca de la población a la que pertenecen los datos de la muestra se denomina estadística inferencial.

Siguiendo con los ejemplos anteriores:

• Podemos intuir la estatura media de las españolas mayores de edad (media poblacional

µ

) a partir de la estatura media observada en algunas de ellas (media muestral x).

• Podemos aproximar la proporción de cerillas defectuosas de la partida (proporción poblacional p) a partir de la proporción observada en una muestra (proporción muestral

pˆ).

No obstante, x no es exactamente

µ

, ni pˆ es exactamente p.

Al trabajar con muestras, hay que diferenciar los parámetros observados en la muestra (parámetros estadísticos o simplemente estadísticos) de los parámetros reales correspondientes a la población (parámetros poblacionales o simplemente parámetros).

La fiabilidad de las conclusiones acerca de la población, obtenidas a partir de una muestra, dependerá de lo representativa que sea la muestra elegida. De ahí la importancia de una buena elección de la muestra.

Ejercicios

1) Razona cuáles de los siguientes estudios estadísticos pueden efectuarse sobre toda la población y con cuáles es preferible hacer una muestra:

a) Preferencias musicales de los alumnos de tu centro escolar.

b) Preferencias deportivas de los españoles con edades comprendidas entre 16 y 19 años. c) Número de veces, en un año, que asisten a algún espectáculo los vecinos de tu escalera. d) Ingresos medios de los trabajadores de tu comunidad autónoma.

2) Explica por qué la muestra elegida en cada uno de los casos siguientes no es representativa: a) Para conocer el porcentaje de españoles a los que les gusta el fútbol, un periódico

deportivo realiza una encuesta entre sus lectores.

b) Para conocer los hábitos de lectura de los españoles, una empresa de encuestas entrevista a 100 universitarios.

c) Para conocer los gustos musicales de los españoles, se encuesta a 200 personas a la salida de un concierto.

(2)

Tipos de muestreo

La manera más eficaz de conseguir que una muestra sea representativa es elegirla al azar. En este caso decimos que se ha obtenido mediante muestreo aleatorio.

Veamos algunos tipos diferentes y la forma de aplicarlos para seleccionar a 5 alumnos entre los 36 de una clase.

1º. MUESTREO ALEATORIO SIMPLE

-

Numeramos de 1 a N los N individuos de la población (numeramos los alumnos en el orden de la lista alfabética de clase).

-

Efectuamos un sorteo para seleccionar los

n

individuos que han de formar la muestra. Para realizar el sorteo pueden generarse números aleatorios mediante un ordenador o mediante una calculadora. (Efectuamos el sorteo generando números aleatorios con la calculadora. Para seleccionar los números entre 1 y 36, consideramos las dos primeras cifras decimales de los números generados, despreciando el 00 y los mayores que 36. Un resultado podría ser: 00, 32, 88, 90, 20, 5, 41, 14, 61, 34 32, 20, 5, 14, 34)

Si después de cada extracción devolvemos el individuo seleccionado a la población para que pueda volver a ser elegido el muestreo es con reemplazamiento. En caso contrario, el muestreo es sin reemplazamiento.

2º. MUESTREO ALEATORIO SISTEMÁTICO

-

Numeramos de 1 a N los N individuos de la población (numeramos los alumnos en el orden de la lista alfabética de clase).

-

Elegimos por sorteo un individuo cualquiera. Supongamos que el número asignado a este individuo es el N₀. (Obtenemos un número al azar comprendido entre 1 y 36 usando la calculadora. Supongamos que se obtiene el número 24).

-

Hallamos k, el entero más próximo a n N

donde

n

es el tamaño de la muestra.

(Hallamos el cociente 7,2 5 36 ₌ = n N . Por tanto, k =7)

-

Seleccionamos el individuo N0 y los siguientes de k en k a partir de N0, teniendo

en cuenta que, al sobrepasar N, debemos empezar de nuevo. (Seleccionamos los 5 alumnos que corresponden a los números siguientes: 24, 31, 2, 9, 16)

Este proceso es más rápido que el muestreo aleatorio simple, pero para que la muestra sea representativa hemos de asegurarnos de que al numerar los individuos de la población no se ha seguido ninguna regularidad.

3º. MUESTREO ALEATORIO ESTRATIFICADO PROPORCIONAL

La población está formada por grupos o estratos diferenciados y queremos que todos los grupos estén representados proporcionalmente. (La población está dividida en dos grupos diferenciados:21 chicas y 15 chicos)

-

Obtenemos de forma proporcional el tamaño de las submuestras correspondientes a cada estrato. (Obtenemos el tamaño de cada submuestra:

08 , 2 5 36 15 ; 92 , 2 5 36 21 2 2 1 1 _ = = _ =

= n n n n ; por tanto, la muestra se compone de 3 chicas y 2 chicos)

-

Seleccionamos cada submuestra por muestreo aleatorio simple, o bien, sistemático.

Ejercicio

En un centro escolar estudian 350 alumnos de ESO y 150 alumnos de Bachillerato. Explica cómo se puede seleccionar una muestra de 50 alumnos usando los tres métodos de muestreo aleatorio descritos anteriormente.

(3)

1.1.- DISTRIBUCIONES DE MUESTREO

Supongamos que se quiere estudiar un parámetro de cierta población. Una forma de hacerlo sería considerar un estadístico adecuado y una muestra, calcular el estadístico correspondiente a dicha muestra y considerar como aproximación del parámetro poblacional el valor del estadístico.

A partir de ahora consideraremos o bien que la población es infinita o bien que las muestras se obtienen por muestreo aleatorio simple con reemplazamiento.

Observa que si consideramos otra muestra y realizamos la misma operación obtenemos, en principio, estadísticos diferentes.

Para obtener una mejor aproximación del parámetro poblacional podemos proceder de la siguiente manera:

-

Se consideran todas las muestras posibles de tamaño

n

.

-

Se calcula el valor del estadístico para cada una de las muestras.

-

Se considera la variable aleatoria que asigna a cada muestra el valor del estadístico que proporciona.

Esta variable aleatoria tiene una distribución de probabilidad, a la que llamaremos distribución

muestral del estadístico considerado.

Los parámetros de esta distribución nos darán una buena aproximación del parámetro poblacional objeto de estudio.

Según cuál sea el estadístico considerado, puede hablarse de la distribución muestral de las medias, de las proporciones, de las varianzas, de las medianas, …

• Distribución muestral de las medias

Supongamos que se quiere estudiar la media

µ

de una población.

Para ello consideramos todas las muestras posibles de tamaño

n

de la población objeto de

estudio,

M

₁

,

M

₂

,...

y calculamos sus medias,

x

₁

,

x

₂

,...

Sea X la variable aleatoria que asigna a cada muestra su media: X :Mi →xi

La variable aleatoria X se denomina media muestral y la distribución que sigue la variable aleatoria X se llama distribución muestral de las medias.

Ejemplo Supongamos una población formada por los siguientes salarios expresados en euros: 600, 900, 1200, 1500. Efectuamos una muestra aleatoria simple con repetición de 16 muestras de tamaño dos y calculamos la media de cada muestra; obtenemos, así, la media muestral x_i representada en la tercera fila.

1 X 600 600 600 600 900 900 900 900 1200 1200 1200 1200 1500 1500 1500 1500 2 X 600 900 1200 1500 600 900 1200 1500 600 900 1200 1500 600 900 1200 1500 i x

La media muestral es una variable aleatoria de la que podemos calcular su distribución de probabilidad sin más que hacer el recuento de los datos de la tercera fila.

X 600 750 900 1050 1200 1350 1500 p

(4)

Si

µ

y

σ

son la media y la desviación típica poblacionales, y

X

µ

y

X

σ

son la media y la desviación típica de X se verifica que:



µ

_X =

µ

y

σ

_X= n

σ

 Si la población tiene distribución normal, X es normal

 Si la población no tiene distribución normal, a medida que

n

crece, X se aproxima a una normal. Se considera que la aproximación es buena a partir de n=30:

        ≈ n N

X

µ

,

σ

n≥30 (Teorema central del límite)

Ejemplo Consideremos una población formada por 5 bolas numeradas del 1 al 5.

a) Estudiar la distribución de las medias muestrales de las muestras de tamaño 2 con devolución.

Muestras de tamaño 2: Medias:

Hay 25 muestras de tamaño 2 x₁=1, x₂ =1,5 x₃=2 ... Distribución de las medias muestrales:

Media de X : 9 1 3 i i i x x p = =



⋅ = Desviación típica de X: 9 2 2 1 1 i i i s x p x = =



⋅ − =

b) Comprobar la veracidad del teorema anterior. Media y desviación típica poblacional:

1 2 3 4 5 3 5 µ= + + + + = 12 22 32 42 52 ₃2 ₂ 5 σ = + + + + − = Comprobamos que: 3 y x 3

µ= = La media poblacional y la media muestral son iguales. 2 y s 1

σ = = La varianza poblacional y la muestral no son iguales, pero sí se cumple: 2

1

2 2

n

σ ₌ σ ₌ ₌

Ejercicio El cociente intelectual de los universitarios se distribuye normalmente N

(

100,11 .

)

a) Elegida una persona al azar, calcula la probabilidad de que su cociente intelectual esté entre 100 y 103.

(5)

• Distribución muestral de las proporciones

Supongamos que se quiere estudiar qué proporción, p, de una población cumple cierta característica.

Para ello se consideran todas las muestras posibles de tamaño

n

,

M

₁

,

M

₂

,...

y se calcula la

proporción en cada una

p

ˆ

₁

,

p

ˆ

₂

,...

Sea Pˆ la variable aleatoria que asigna a cada muestra su proporción:

P

ˆ

:

M

i

→

p

ˆ

i

La distribución de probabilidad de esta variable aleatoria Pˆ se llama distribución muestral de las proporciones. Si

µ

_Pˆ y

σ

_Pˆ son la media y la desviación típica de Pˆ, respectivamente, se verifica que: 

µ

Pˆ=p y

σ

Pˆ=

(

)

n

p

⋅

1 −

 A medida que

n

crece (n≥30), Pˆ se aproxima a una normal:

(

)

_       _⋅ ₋ ≈ n p p p N Pˆ , 1

2.- ESTIMACIÓN

El objetivo de la estadística inferencial es deducir el comportamiento de una población, generalmente grande, a partir del comportamiento de una muestra, de tamaño más manejable.

En particular, es frecuente estimar (aproximar) un parámetro de la población objeto de estudio (

µ

,p...) a partir de un estadístico obtenido de una muestra de ella o, al menos, averiguar entre qué límites se encuentra tal parámetro con una probabilidad determinada. En el primer caso diremos que hemos efectuado una

estimación puntual; en el segundo, una estimación

por intervalos de confianza.

2.1.- ESTIMACIÓN PUNTUAL

Para estimar la media

µ

de una población podemos utilizar la media muestral, x, y para estimar qué proporción p de una población cumple una cierta característica podemos utilizar la proporción muestral pˆ.

Ejemplo Deseamos conocer la estatura media,

µ

,de todos los escolares de una ciudad. Si tomamos una muestra de tamaño n = 100, ¿qué valor elegiremos como el más aproximado a

µ

? Si la media de la muestra es 165 cm, podemos afirmar que µ es “aproximadamente 165 cm”; pero está claro que esto es inexacto, ya que la media de una muestra no coincide, en general, con la media de la población. Diremos que 165 es solo una estimación puntual de

µ

.

Por el Teorema central del límite, sabemos que E X

( )

=µ; diremos entonces que x_n es un estimador insesgado (o centrado) de .µ Esto no ocurre con la desviación típica de la muestra, por lo que si se toma como estimador puntual de la desviación poblacional, se dirá que es un

estimador sesgado (o no centrado). Para la desviación típica poblacional también existe un estimador insesgado: la raíz cuadrada de la cuasi-varianza 2 2

1 1 n n n n s s s n − = = ₋ , que no trataremos aquí.

Parece natural elegir siempre el estadístico homónimo al parámetro, pero esto no es siempre lo más acertado. Así, por ejemplo, se puede demostrar que la varianza muestral s_n2 no es el estadístico que mejor aproxima la varianza poblacional

σ

2. En este caso, es preferible usar el estadístico

2 2 1 1 n n n s s n − = ⋅

− . Observa que, para valores de

n

grandes, s_n₋₁2 ≈s_n2, por lo que pueden utilizarse indistintamente ambos estadísticos.

(6)

2.2.- ESTIMACIÓN POR INTERVALOS DE CONFIANZA

Supongamos que decidimos estimar el valor de un parámetro

λ

por intervalos de confianza. Nuestro objetivo será encontrar un intervalo I, obtenido a partir de una muestra, tal que contenga al parámetro

λ

.

En primer lugar hay que fijar la probabilidad 1−

α

con la que deseamos que el intervalo I buscado contenga al parámetro

λ

.

Llamamos nivel de confianza al número 1−

α

y nivel de significación al número

α

.

Si I es el intervalo tal que P(

λ

∈I)=1−

α

, se dice que I es el intervalo de confianza para el parámetro

λ

con nivel de confianza 1−

α

(o con nivel de significación

α

).

• Intervalo de confianza para la media

Se desea estimar la media,

µ

, de una población con una desviación típica,

σ

, conocida. Para esto se recurre a una muestra de tamaño

n

en la que se obtiene una media muestral x.

Si la población de partida es normal, o si el tamaño de la muestra es n≥30, entonces el intervalo de confianza de

µ

con un nivel de confianza de

(

1 −

α

)

⋅

100 %

es:

      ⋅ + ⋅ − n z x n z x _α

σ

_α

σ

2 2 , Demostración

Tenemos que demostrar que, bajo las condiciones del teorema, se cumple:

α

σ

µ

σ

α α = −      ⋅ + < < ⋅ − 1 2 2 _n z X n z X P Veámoslo:

Puesto que la media muestral X se distribuye _      n

N

µ

,

σ

, obtenemos el intervalo característico correspondiente a una probabilidad 1−

α

:

α

σ

µ

σ

µ

α α = −      ⋅ + < < ⋅ − 1 2 2 _n z X n z P _α

σ

µ

_α

σ

= −

α

     ⋅ < − < ⋅ − 1 2 2 _n z X n z P

α

σ

µ

σ

α α = −      − ⋅ < − < − ⋅ − 1 2 2 X n z X n z P

α

σ

µ

σ

α α = −      + ⋅ − > > + ⋅ 1 2 2 X n z X n z P

α

σ

µ

σ

α α = −      ⋅ + < < ⋅ − 1 2 2 _n z X n z X P

(7)

Observaciones

• Una vez extraída la muestra, su media x estará o no estará en el intervalo

n z

σ

µ

± α ⋅

2

. Pero ya no podremos hablar de la probabilidad de que tal cosa ocurra, aunque por ser

µ

desconocida nosotros ignoremos si ocurre o no. Por eso, en lugar de hablar de probabilidad, diremos que tenemos un nivel de confianza 1−

α

de que

µ

esté en dicho intervalo.

• Si la desviación típica,

σ

, de la población es desconocida hay estimarla a partir de la muestra. La forma más correcta de hacerlo es mediante

σ

ˆ_n, pero para valores relativamente grandes de

n

, podemos utilizar la desviación típica muestral

σ

_n. El intervalo

de confianza para

µ

quedaría, por tanto, del siguiente modo:       ⋅ + ⋅ − n z x n z x

σ

n

σ

n α α 2 2 ,

Ejemplo La venta de un cierto material sigue una distribución normal de desviación típica 450 euros. Se toma una muestra de 34 elementos del material para estimar el precio medio poblacional. La media de la muestra es x=3490. Halla el intervalo de confianza para el precio medio de dicho material con un nivel de confianza del 99% (

2 2,58 z_α  ₌ ). 450 450 3490 2,58 3490 2, 48 0.99 34 34 P_ − ⋅ < <µ + ⋅ _=    I C. .=

(

3291,3689

)

Relación entre nivel de confianza, error admisible y tamaño de la muestra

Como acabamos de ver, el

(

1 −

α

)

⋅

100 %

de las muestras cumplen que

n z x−

µ

< _α ⋅

σ

2 . El valor n z E= _α ⋅

σ

2

se llama error máximo admisible (el error máximo admisible para una estimación de la media de la población es la máxima diferencia entre la estimación y el valor real con un nivel de confianza de 1−

α

; es el radio del intervalo de confianza)

Depende de

α

y de

n

del siguiente modo:

- Cuanto mayor sea el tamaño de la muestra, menor es E (más estrecho es el intervalo, es decir, más afinaremos en la estimación).

- Cuanto mayor sea 1−

α

(es decir, cuanto más seguros queramos estar de nuestra estimación), mayor es E (cuanto mayor es 1−

α

mayor es

2

α

z

).

- CALCULAR EL TAMAÑO DE LA MUESTRA DADOS E y

α

Si nos fijan el error máximo admisible, E, y el nivel de confianza, 1−

α

, el mínimo tamaño que debe tener una muestra para conseguir estas condiciones se obtiene despejando

n

en la

expresión de E: 2 2 2         ⋅ =  ⋅ = E z n n z E

σ

α α

Observemos que el tamaño de la muestra es: - Tanto mayor cuanto mayor sea

2

α

z

, o sea, cuanto menor sea

α

y mayor sea 1−

α

. Es decir, para aumentar el nivel de confianza debemos aumentar el tamaño de la muestra.

- Tanto mayor cuanto menor sea E. Es decir, para ser más precisos en la estimación tenemos que aumentar el tamaño de la muestra.

(8)

Ejercicio De la duración de un proceso sabemos que

σ

=0,5 s. ¿Cuál es el número de medidas que hay que realizar para que, con un 99% de confianza, el error de la estimación no exceda de 0,1 s?

- DETERMINAR EL NIVEL DE CONFIANZA CONOCIENDO E y

n

Si se nos fija el error máximo admisible, E, y el tamaño de la muestra,

n

, el nivel de confianza

con el que se realiza la estimación se obtiene del siguiente modo:

σ

α α n E z n z E = ⋅  = 2 2 Conocido 2 α

z

, la curva normal nos dará el valor de

2

α

_{. De aquí se obtiene el nivel de confianza}

α

− 1 .

Ejercicios

1) Al medir el tiempo de reacción, un psicólogo sabe que la desviación típica del mismo es 0,5 segundos. Desea estimar el tiempo medio de reacción con un error máximo de 0,1 segundos, para lo cual realiza 100 experiencias. ¿Con qué nivel de confianza podrá dar el intervalo

(

x

−

0 ,

1 ;

x

+

0 ,

1 )

?

2) Un coronel desea estimar la estatura media de todos los soldados de su regimiento con un error menor de 0,5 cm utilizando una muestra de 30 soldados. Sabiendo que la desviación típica es

σ

=5,3 cm, ¿cuál será el nivel de confianza con el que se realiza la estimación?

Intervalo de confianza para una proporción

Se desea estimar la proporción, p,de individuos con una cierta característica que hay en una población. Para eso se recurre a una muestra de tamaño

n

, en la que se obtiene una proporción

muestral pˆ.

Si el tamaño de la muestra es grande (n≥30), el intervalo de confianza de p con un nivel de confianza

(

1 ₋

α

)

⋅100% es:

(

)

(

)

        ₋ ⋅ + − ⋅ − n p p z p n p p z pˆ ˆ1 ˆ , ˆ ˆ 1 ˆ 2 2 α α Demostración

La proporción, Pˆ, en muestras de tamaño

n

, se distribuye _

      n pq p N ,

(

q

=

1 −

p

)

El intervalo característico de Pˆ para una probabilidad 1−

α

es:













⋅

+

⋅

−

n

pq

z

p

n

pq

z

p

2 2

,

_α α Por tanto: _α _α = −

α

                ⋅ + ⋅ − ∈ ˆ , ˆ 1 2 2 n pq z P n pq z P p P

(9)

Como la proporción p que se quiere estimar no se conoce, se emplea para realizar los cálculos pˆ y ˆq= −1 pˆ ; es decir, una vez extraída la muestra y obtenida la proporción muestral ˆ ,

p debemos estimar los valores de p y q por pˆ y 1−pˆ. Así, el intervalo de confianza es:

(

)

(

)

        ₋ ⋅ + − ⋅ − n p p z p n p p z pˆ ˆ1 ˆ , ˆ ˆ 1 ˆ 2 2 α α

La igualdad anterior pretende servir para estimar el valor de p mediante un intervalo.

Al igual que ocurría con el intervalo de confianza para la media, podemos aquí definir el error máximo admisible, 2 pq E z n α

= ⋅ , que tiene el grave inconveniente de estar en función de p. Bastará con estimar los valores de p y q por pˆ y

1 −

pˆ

. De este modo, el error máximo

admisible (cota de error) para la estimación de p es:

(

)

n

p

z

E

ˆ

1 ˆ

2

−

⋅

=

α

Para calcular, por ejemplo, el tamaño de una muestra para una determinada confianza con un error prefijado, no hay más que despejar n en la fórmula del error, obteniendo:

2 ˆ ˆ z n pq E α     = _ _  

Ejemplo En una muestra de 40 personas, 15 dan positivo en una prueba de agresividad. Hallar el intervalo de confianza al nivel del 95% para estimar el parámetro poblacional, proporción de positivos. ( 2 1,96 z_α  ₌ ) 15 0,375 0,625 15 0,375 0,625 1,96 1,96 40 40 40 40 P_ − ⋅ ⋅ < <p + ⋅ ⋅ _    I C. .=

(

0, 225;0,525

)

Es decir, entre el 22,5% y el 52,5% dan positivo con un margen de error 0,525 0, 225− =0,30  30%