TEMA 9 : MUESTREO Y ESTIMACIÓN. TEST DE HIPÓTESIS

(1)

TEMA 9 : MUESTREO Y ESTIMACIÓN. TEST DE HIPÓTESIS

MUESTREO

Cualquier estudio estadístico tiene por objeto analizar una determinada característica en una población.

En muchos casos es imposible observar dicha característica en todos los individuos de la población, por lo que el estudio se realiza sobre una parte de ella llamada muestra.

Por ejemplo: conocer la proporción defectuosa de cerillas en una partida. Sería absurdo probar todas las cerillas porque supondría destruir toda la partida.

Al trabajar con muestras, hay que diferenciar los parámetros estadísticos de la muestra, llamados estadísticos, de los parámetros reales correspondientes a la población, llamados parámetros poblacionales o simplemente parámetros.

La fiabilidad o no de las conclusiones sobre la población, obtenidas a partir de la muestra, dependerá de lo representativa que sea la muestra elegida, de ahí la importancia en la elección de ésta. Una muestra obtenida por un procedimiento que no contempla el que todos los individuos de la población tengan la misma oportunidad de ser elegidos se denomina muestra sesgada. Las conclusiones a partir de una muestra sesgada son poco fiables. Por ejemplos, los sondeos de opinión por teléfono.

TIPOS DE MUESTREO

1. Muestreo aleatorio simple

Consiste en efectuar un sorteo para determinar los individuos que han de formar parte de la muestra.

Para realizar el sorteo se pueden generar números aleatorios mediante un ordenador, calculadora, etc.

2. Muestreo aleatorio sistemático

Se enumeran los individuos de la población y se elige un número al azar x. Después hallamos el numero entero más próximo a k

n

N  (N=tamaño de la población y n= tamaño de la muestra) y seleccionamos los siguientes individuos de k en k, a partir de x.

Ejemplo: Elegir una muestra de tamaño 7 en una clase de 36 alumnos.

Obtenemos un número al azar entre 1 y 36, por ejemplo, el 19. Como 36/7=5,14..., la muestra estará formada por los individuos: 19, 24, 29, 34, 3, 8 y 13.

3. Muestreo aleatorio estratificado proporcional

Se utiliza cuando la población está formada por grupos o estratos bien diferenciados y queremos que todos los grupos queden representados proporcionalmente. Obtenemos primero el tamaño de las submuestras correspondientes a cada estrato y a continuación seleccionamos cada submuestra por cualquiera de los dos métodos anteriores. Elegir la misma muestra de tamaño 7 del ejemplo anterior en una clase formada por 21 chicas y 15 chicos.

(2)

Tema IX: Muestreo y estimación. Test de hipótesis Ricardo Trujillo Pérez

Como 2,8...

36 7 15 7

36 ... 15

08 , 36 4

7 21 7

36

21      m m  

y n n

Por lo tanto, la muestra estará formada por 4 chicas y 3 chicos. A continuación se seleccionan las submuestras con cualquiera de los métodos anteriores.

DISTRIBUCIONES DE MUESTREO

Para obtener información de un parámetro de la población a partir de muestras procederemos de la siguiente forma:

o Se consideran todas las muestras posibles de un tamaño determinado n.

o Se calcula el estadístico para cada una de las muestras.

o Se considera la variable aleatoria que asigna a cada muestra el valor de su estadístico.

Esta variable aleatoria tiene una distribución de probabilidad a la que llamaremos distribución muestral del estadístico considerado. Los parámetros de esta distribución nos darán una buena aproximación del parámetro poblacional objeto del estudio. Según el parámetro estudiado, puede hablarse de distribución muestral de medias, de proporciones, de medianas, etc.

DISTRIBUCIÓN MUESTRAL DE MEDIAS

Supongamos que se quiere estudiar la media  de una población. Para ello consideramos todas las muestras posibles de tamaño n: M₁,M₂,M₃,....y calculamos sus medias x₁,x₂,x₃,... A continuación consideramos la variable aleatoria X que asigna a cada muestra su media: X :M_i x_i. La variable aleatoria X se denomina media muestral y la distribución que sigue la variable aleatoria X se denomina distribución muestral de medias. Se puede demostrar, aunque no lo haremos durante el curso, que:

o La variable aleatoria X tiene:









X n

X 





o Si la población tiene distribución normal entonces X también (Teorema central del límite).

o Si la población no tiene distribución normal, a medida que n aumenta, X se aproxima a una distribución normal (Ley de los grandes números).

o Se considera una buena aproximación a partir de n=30. En el caso de que la población no siga una distribución normal y n<30, X se aproxima a una distribución llamada t de STUDENT, también acampanada.

EJEMPLOS:

a. Una máquina fabrica bombillas que tienen una duración media de 700 horas y una desviación típica de 150 horas. ¿Cuál es la probabilidad de que la media de duración en una muestra de 100 bombillas sea inferior a 650 horas?

(3)

En este caso 700 y  150. Como n30 ) (700,15) 10

,150 700

( N

N

X  

 . Así pues:

0004 , 0 9996 , 0 1 ) 33 , 3 ( 1 ) 33 , 3 ( ) 33 , 3 ( 15 )

700 ( 650

) 650

(X   p Z    p Z   p Z   P Z    

p

b. El peso de las peras de una cosecha se distribuyen normalmente con media 125 gr y

 =20 gr. Halla:

 Probabilidad de que una pera elegida al azar pese más de 130 gr.

 Probabilidad de que el peso medio en una muestra de 25 peras sea mayor de 130 gr.

Como la distribución es normal, X N(125,20).

Así: ) ( 0,25) 1 ( 0,25) 0,4013

20 125 ( 130

) 130

(       





 p Z p Z p Z

X

p (a)

En (b), como X es normal resulta que X también. X 4) 5 ,20 125

( 

 N . Así pues:

1056 , 0 ) 25 , 1 ( 1 ) 25 , 4 1

125 ( 130

) 130

(      





 p Z p Z

X p

c. Se supone que la distribución de la temperatura del cuerpo humano en la población tiene de media 37º y desviación típica 0,85º. Se elige una muestra de 105 personas.

Determina:

 Probabilidad de que la media sea inferior o igual a 36,9º.

 Probabilidad de que la media esté comprendida entre 36,5º y 37,5º.

Como 0,083)

105 85 , , 0 37

( 

N

X :

En (a) 1,20) ( 1,20) 1 ( 1,20)1 0,8849 0,1151

083 , 0

37 9 , ( 36 ) 9 , 36

(X   p Z     p z   p z  

p .

En (b),

1 ) 02 , 6 0

( 2 ) 02 , 6 02

, 6 ( 083 )

, 0

37 5 , 37 083

, 0

37 5 , (36 ) 5 , 37 5

, 36

(  X   p  Z    p  Z   p Z  

P

DISTRIBUCIÓN MUESTRAL DE LAS PROPORCIONES

Supongamos que se quiere estudiar en qué proporción, p, una población cumple cierta característica.

Para ello consideramos todas la muestras posibles de tamaño n: M₁,M₂,M₃,.... y calculamos la

(4)

Tema IX: Muestreo y estimación. Test de hipótesis Ricardo Trujillo Pérez proporción en cada una de ellas: p₁, p₂, p₃,..... Sea P la variable aleatoria que asigna a cada muestra su proporción:

i

i p

M

P:  . La distribución de probabilidad de esta variable aleatoria P se llama distribución muestral de las proporciones. Se puede demostrar, aunque no lo haremos durante el curso, que:

o La variable aleatoria P tiene:

 









 

 n

p p

p

P P

 1



o A medida que n aumenta (n30), P se aproxima a una normal. P

 







  

 n

p p p

N 1

,

EJEMPLO: En las elecciones, el 52% de la población votó al candidato A. Si antes de las elecciones se hubiese hecho un sondeo en una muestra de 500 habitantes, ¿cuál hubiese sido la probabilidad de obtener menos de un 59% de votos para ese candidato, suponiendo que se mantiene la intención del voto?

Consideramos la v.a. P que asigna a cada muestra de 500 votantes la proporción de votos para el candidato A. Sabemos que p=0,52 y n=50030, luego:

) 022 , 0 , 52 , 0 ( 500 )

48 , 0 52 , , 0 52 , 0

( N

N

P  

 .Así:

1814 , 0 ) 91 , 0 ( 1 ) 91 , 0 ( ) 91 , 022 0

, 0

52 , 0 5 , ( 0 ) 5 , 0

(        





 p Z p Z p Z

P p

ESTIMACIÓN

Suele ser frecuente estimar (aproximar) un parámetro de la población objeto de estudio (,p,,....) a partir de un estadístico obtenido de una muestra de ella o averiguar entre qué límites se encuentra tal parámetro con una probabilidad determinada. En el primer caso diremos que hemos efectuado una estimación PUNTUAL y en el segundo una estimación por INTERVALOS DE CONFIANZA.

ESTIMACIÓN PUNTUAL

Hasta ahora se obtenía la información de muestras extraídas al azar a partir de poblaciones conocidas.

Ahora bien, desde el punto de vista práctico es más interesante el proceso contrario, es decir, deducir el comportamiento de una población a partir del comportamiento de una muestra (objetivo principal de la estadística inferencial). Por ejemplo, para estimar la media poblacional  podemos utilizar la media muestral, pero también otros estadísticos como la mediana muestral, la moda muestral, etc. Por eso, hemos de estudiar qué estadístico proporciona una estimación más fiable del parámetro poblacional.

Para ello necesitamos el concepto de estimador.

Se llama estimador S de un parámetro poblacional  a la variable aleatoria que asocia a cada una de las muestras de tamaño n, el valor de un estadístico dado con valores próximos a . El problema es como saber si S toma valores próximos a , si su valor es desconocido ya que es lo que pretendemos estimar. Esta información la podemos obtener a partir de la distribución muestral del estimador.

(5)

Se dice que un estimador S de un parámetro  es insesgado si _S  . Por ejemplo, sabemos que la media muestral es un estimador insesgado de la media poblacional: _X  . En caso contrario diremos que es insesgado. Si _S  tendrá sesgo negativo y si _S  tendrá sesgo positivo.

Por otra parte, entre dos estimadores insesgados de un mismo parámetro, será más conveniente aquel cuyos valores estén más concentrados en torno a _S , es decir, aquel cuya varianza sea menor.

Entre dos estimadores, diremos que es más eficiente el que tiene menor varianza(²).

Se dice que un estimador es consistente si la probabilidad de que estén muy próximos la estimación y el parámetro poblacional aumente y se aproxima a 1 cuando aumenta el tamaño de la muestra.

Así pues, consideraremos que un estimador es bueno si es insesgado, lo más eficiente posible y consistente. En general podemos decir que la media poblacional  se aproxima por la media muestral

x, la varianza ² por 2n y la proporción p por p . ESTIMACIÓN POR INTERVALOS DE CONFIANZA

El objetivo en este caso es encontrar un intervalo I, obtenido a partir de la muestra, que contenga al parámetro  con una probabilidad elevada. En primer lugar hay que fijar la probabilidad 1 con la que deseamos que el intervalo I buscado contenga al parámetro . Al número 1 se la llama NIVEL DE CONFIANZA y a  nivel de significación. Si I es un intervalo tal que p



I



1, diremos que I es el intervalo de confianza para el parámetro  con nivel de confianza 1.

DETERMINACIÓN DEL INTERVALO DE CONFIANZA

Supongamos que queremos hacer una estimación por intervalos de confianza con un nivel de confianza de 1 del parámetro . Sea S el estimador insesgado del parámetro (_S ) y supongamos que S tiene una distribución normal S  N(_S,_S)(esto ocurre con la media y proporción muestral si n30). Se trata de determinar un intervalo I tal que ^p



^^^I



^¹^^^.

Como S  N(_S ,_S), al tipificarla S N(0,1) Z

S

 



 

 . Como la distribución de Z está

tabulada, podemos hallar un intervalo _



 







2 2

, _

 z z

I tal que p(ZI)=1

2

(z_ valor crítico).

Como -   

2 2



 z z

z z_ _S S z_ _S 

2 2

S

S S z

z

S _     _ 

2 2

. Luego



 





  _  ,  _  )1 (

2 2

S

S S z

z S

p . Así pues, conocido el valor del estimador en una muestra

M (S(M)=ˆ ), el intervalo de confianza será: _



 



    

 z _S z _S

I_  _   _ 

2 2

, ˆ

ˆ (*)

(6)

En el caso de la media poblacional sabemos que si la población original es normal o n30, )

, (

n N

X    . Así pues: _



 



    



n z x n z x

I  



2 2

, , siendo x la media de la muestra. En el caso en que  sea desconocida y suponiendo n30, se puede aproximar  por

1 ) ( )

( 1·

ˆ 1 ¹

2 1

2







 

 



 



n x x n

x x n

n n

n

i i n

n 

 , siendo _n la desviación típica asociada a la

muestra. A ˆ2n se le denomina cuasivarianza. También se puede aproximar por _n, para valores grandes de n.

En el caso de la proporción, sabemos que si n30,

 

1 ) ,

( n

p p p

N

p  

 , luego si calculamos el

valor de la proporción correspondiente a una muestra M ( p ), tenemos que el intervalo de confianza con un nivel de confianza de 1 es, según la fórmula

(*),

   



 



  



 

 



 n

p z p

n x p z p

p

I 1

1 ,

2 2



TAMAÑO MUESTRAL Y ERROR DE ESTIMACIÓN

Sabemos que existen diversos métodos para elegir una muestra representativa de la población. Por otra parte, es de esperar que la fiabilidad de las estimaciones es mayor cuanto más grande sea el tamaño de la muestra, aunque motivos económicos, operativos o de tiempo, no aconsejan trabajar con muestras muy grandes. El tamaño de la muestra se elige en función del error máximo que queramos asumir en las estimaciones que hagamos a partir de ella. Supongamos que queremos aproximar un parámetro poblacional  utilizando el estimador S. Sabemos que el intervalo de confianza con nivel 1 es:

_



 



    

 z _S z _S

I_  _   _ 

2 2

, ˆ ˆ

Por lo tanto podemos asegurar que  z_ _S

2

con lo que el error máximo cometido al aproximar

 por  es : E z_ _S

2

. Obsérvese que

2

z está fijado pero _S depende del tamaño de la muestra (n), con lo que podemos hacer que el error aumente o disminuya según el tamaño de la muestra.

EJEMPLOS:

1. Las puntuaciones de una pruebas en una cierta universidad siguen una distribución normal con desviación típica de 2 puntos. Determina el intervalo de confianza para la puntuación media con un nivel de significación del 5% si en una muestra de 25 alumnos dicha puntuación ha sido de 5,3.

(7)

En nuestro caso  0,05, x 5,3,  2 y n25. Como sabemos que



 



    



n z x n z x

I  



2 2

, , sólo tenemos que hallar, mediante las tablas, el valor crítico

2

z . 

El valor crítico es tal que p(ZI)=1 ( _



 







2 2

, _

 z z

I ).

Así, p(ZI)=0,95 0,975

2 95 , 5 0 , 0 ) (

2









 p Z z_ 1,96

2



z_ . Luego el intervalo de confianza es:



4,516,6,084



25 96 2 , 1 3 , 5 , 25 96 2 , 1 3 ,

5 



 



    

 I

2. Un diputado quiere saber, con una probabilidad del 95%, entre qué valores se encontrará la proporción poblacional de las personas que lo votaron. Para ello contrata a una empresa de sondeos que escoge aleatoriamente una muestra de 1000 personas de las cuales 520 están a favor del candidato.

Sabemos que en la muestra p =0,52, n=1000 y que

   



 



        

 n

p z p

n x p z p

p

I 1

1 ,

2 2



 .

Sólo nos falta determinar el valor crítico

2

z . Es tal que ( )

2 2



 Z z

z

p    =1=0,95

2

z =1,96.

Así pues:



0,489,0,551



1000 48 , 0 52 , 96 0 , 1 52 , 0 1000 ,

48 , 0 52 , 96 0 , 1 52 ,

0 



 



      

 I

Margen máximo de error: E z_ _S

2

= 1000

48 , 0 52 , 96 0 ,

1   =0,03096

3. Se está estudiando el contenido de plata de una misma cantidad de cierto mineral. Para ello, se toman 36 porciones de ese mineral t se observan las cantidades de plata en mg.

Estas son:

5,2 4,7 5,4 4,9 4,8 5 4,7 5,3 5,1 4,9 5,2 4,6 5 5,4 4,8 4,8 5,1 5 4,6 4,9 5,3 4,7 4,4 5,3 5,1 5,5 5,2 4,8 4,7 5,2 4,8 4,5 5,4 5 4,6 4,9 Halla el intervalo de confianza para el contenido medio de plata con un nivel de

confianza del 90%.

En este caso, n=36 y 1=0,9. En la muestra

279 , 0 96 , 36 4

85 , 96 889

, 36 4

56 ,

178 2 2

2







 





^



_x

n f y x

n f

x xⁱ ⁱ _n ⁱ ⁱ

(8)

Así: 0,2829 1 

  _n

n n 

 . Como el valor crítico

2

z es tal que ( )

2 2



 Z z

z

p    =0,9



2

z =1,645. Por lo tanto:



 



    

 x z n

n z x

I  



2 2

, =



⁴^,⁸⁸²^,⁵^,⁰³⁷



36 2829 , 645 0 , 1 96 , 4 , 36 2829 , 645 0 , 1 96 ,

4 



 



    

El error máximo cometido será: E z_ _S

2

=

n

z 

 

2

=

36 2829 , 645 0 ,

1  =0,07757,75%.

4. Para estudiar la proporción de enfermos de hepatitis que pueden curarse mediante un nuevo tratamiento, se aplica éste a 100 pacientes. Sabiendo que han sanado 87 de ellos, halla el intervalo de confianza para la proporción de efectividad con nivel de significación del 1% y 5%.

En el primer caso  0,01, p 0,87 yn100. El valor crítico será

2

z tal que )

(

2 2



 Z z

z

p    =0,99



2

z =2,576. Luego:

   



 



        

 n

p z p

n x p z p

p

I 1

1 ,

2 2



 =



 



      

100 13 , 0 87 , 576 0 , 2 87 , 0 100 ,

13 , 0 87 , 576 0 , 2 87 ,

0 =



⁰^,⁷⁸³⁴^,⁰^,⁹⁵⁶⁶



. Por último, el error máximo será:

z S

E _ 

2

=

 

n p z p 

 1

2

 =2,5760,0336=0,0866

En el segundo caso  0,05, p0,87 y n100. El valor crítico será

2

z tal que )

(

2 2



 Z z

z

p    =0,95

2

z =1,96. Luego:

   



 



        

 n

p z p

n x p z p

p

I 1

1 ,

2 2



 = _



 



      

100 13 , 0 87 , 96 0 , 1 87 , 0 100 ,

13 , 0 87 , 96 0 , 1 87 ,

0 =

(9)



⁰^,⁸⁰⁴^,⁰^,⁹³⁵⁹



. Por último, el error máximo será:

z S

E _ 

2

=

 

n p z p 

 1

2

 =1,960,0336=0,0658.

TEST DE HIPÓTESIS

Es muy frecuente tomar decisiones sobre la población a partir de la información obtenida de una muestra. Para tomar estas decisiones debemos formular previamente una hipótesis sobre la población e investigar su veracidad o falsedad. Esta hipótesis se llama hipótesis nula y se representará por H . ₀ Cualquier hipótesis distinta se denomina hipótesis alternativa y se representará por H . Los ₁

procedimientos estadísticos que proporcionan los criterios para decidir si las muestras observadas difieren significativamente de los resultados esperados, y por lo tanto, si la hipótesis se acepta o rechaza, son los llamados test de hipótesis.

A continuación describiremos cual es el procedimiento para realizar un test de hipótesis. Nos centraremos en el estudio de tests cuya finalidad sea, decidir, con nivel de significación , si un determinado parámetro poblacional es igual, menor o mayor que un cierto valor.

Supongamos que queremos decidir, con nivel de significación  , si cierto parámetro poblacional  cumple  ₀, ₀ o ₀ a partir de la información obtenida de una muestra M. Para ello:

1. Planteamos las hipótesis. Según el caso se pueden plantear tres tipos de test.

























0 1

0 0

0 1

0 0

0 1

0 0

: 3 : :

2 : :

1 :



H TEST H

2. Escogeremos un estimador S del parámetro . Se le denomina estadístico de contraste.

Supondremos que es insesgado (_S ) y que sigue una distribución normal )

,

( _S

N   .

3. Determinaremos la región crítica o de rechazo ( R ). Esta región es un conjunto de números reales tal que si el valor del estadístico de contraste en la muestra M cae dentro de R, entonces rechazaremos H . ₀

4. Calcularemos el valor del estadístico de contraste en la muestra M y aceptaremos o rechazaremos H según el valor obtenido. ₀

REGIONES CRÍTICAS

TEST 1: Si  S(M)(valor del estadístico en la muestra) se aleja de ₀, parece lógico rechazar H y acaptarla en caso contrario. El problema es determinar si ₀  está o no alejado

(10)

Tema IX: Muestreo y estimación. Test de hipótesis Ricardo Trujillo Pérez de ₀. Como el nivel de significación es  , la región crítica deberá cumplir p



 R



 y



^ ^^R



^¹^^

p . Así pues la región crítica R debe ser una región con valores alejados de ₀. Tomamos una región simétrica alejada de ₀:



,₀k

 

 ₀k,



. Para determinarla basta con calcular k de tal forma que p(₀k S ₀ k)1, siendo S el estimador del parámetro . Suponiendo H cierta ₀



S N⁽0,S⁾



y tipificando S tenemos:



 

 S ⁰ N(0,1) Z

S

 ( _   _)1

2 2

z Z z

p y determinamos

2

z por las tablas. 

Así pues,     

2 0 2



 

 z

z S

S

S S z

z   

  _     _ 

2 0 2

0 y por lo tanto k  z_ _S

2

.

Luego podemos decir que la región de aceptación es _







   

 z _S Z _S

R  _   _

2 0 2

0 , .

(11)

TEST 2: En este test













0 1

0 0

: :



 H

H , luego rechazaremos solo si  toma valores alejados de

0 pero mayores que él. Es decir, la región crítica es R



₀ k,



. Para determinar k, igual que en el caso anterior, consideramos el estadístico tipificado S ⁰ N(0,1)

Z

S

 

 

 y

hallaremos k tal que:



   

 ) 1

(S ₀ k

p  p(Z  z_)1 y hallamos z por las tablas. Así _

S S

z S

S z  







    

 

0

0 y, por lo tanto, la región de aceptación es



z S



R ,₀ _  .

TEST 3: Procediendo análogamente obtendríamos que R



,₀ z_ _S



, siendo z tal _ que p(Z z_)1.

(12)

TABLAS

(13)

(14)

RESUMEN FÓRMULAS NOTABLES

DISTRIBUCIÓN MUESTRAL DE MEDIAS

Sus parámetros son









X n

X 





A medida que n aumenta, X se aproxima a una distribución normal ( , )

n N

X    .

DISTRIBUCIÓN MUESTRAL DE PROPORCIONES

Sus parámetros son

 









 

 n

p p

p

P P

 1



A medida que n aumenta (n30), P se aproxima a

una normal. P

 







  

 n

p p p

N 1

, .

INTERVALO DE CONFIANZA DE LA MEDIA



 



    

 x z n

z n x

I  



2 2

,

Siendox la media de la muestra, n el tamaño de la muestra,  la desviación típica y

2

z el valor crítico tal que ( _   _)1

2 2

z Z z

p con Z N(0,1)como

tipificación de ( , ) n N

X    .

En el caso que  sea desconocida y suponiendo

30

n , se puede aproximar  por _n _n n

n 

 

 

ˆ 1 ,

siendo _n la desviación típica asociada a la muestra.

A ˆ2n se le denomina cuasivarianza.

INTERVALO DE CONFIANZA DE PROPORCIÓN

   



 



  



 

 



 n

p z p

n p p z p

p

I 1

1 ,

2 2



Siendo p la proporción de la muestra, n su tamaño y

2

z el valor crítico tal que ( _   _)1

2 2

z Z z

p con

) 1 , 0 ( N

Z  como tipificación de p .

ERROR DE ESTIMACIÓN

n z

E 

 



2

, siendo

2

z el valor crítico antes mencionado y  la desviación típica. En el caso que

 sea desconocida y suponiendo n30, se puede aproximar como en el caso anterior.

ERROR DE ESTIMACIÓN

E=

 

n p z  p 1

2

 , siendo p la proporción de la muestra, n su tamaño y

2

z el valor crítico, es decir, tal que ( _   _)1

2 2

z Z z

p con Z  N(0,1)como

tipificación de p .

(15)

TEST DE HIPÓTESIS I









0 1

0 0

: 1 :



 H TEST H

REGIÓN DE ACEPTACIÓN







   

 z _S Z _S

R  _   _

2 0 2

0 ,

Siendo ₀ el valor del parámetro poblacional en el test correspondiente, _S la desviación típica del estimador y

2

z el valor crítico, es decir, tal que ( _   _)1

2 2

z Z z

p , con

) 1 , 0

0 ( S N Z

S

 

 

 la tipificación del

estimador.

TEST DE HIPÓTESIS II

TEST 2













0 1

0 0

: :



 H H

REGIÓN DE ACEPTACIÓN



z S



R ,₀ _  Siendo ₀ el valor del parámetro poblacional en el

test correspondiente, _S la desviación típica del estimador

y z_ el valor crítico, es decir, tal que p(Z  z_)1, con

) 1 , 0

0 ( S N Z

S

 

 

 la

tipificación del estimador.

TEST DE HIPÓTESIS III









0 1

0 0

: 3 :



 H TEST H

REGIÓN DE ACEPTACIÓN



^ ^ ^^



 ₀ z _S,

R  _ 

Siendo ₀ el valor del parámetro poblacional en el

test correspondiente, _S la desviación típica del estimador y z_ el valor

crítico,es decir, tal que

  

 ) 1 (Z z

p , con

) 1 , 0

0 ( S N Z

S

 

 

 la

tipificación del estimador.

EJEMPLOS DE SELECTIVIDAD

(16)

EXÁMENES SELECTIVIDAD ESTADÍSTICA RICARDO TRUJILLO PÉREZ 23. Se ha comprobado en repetidos estudios que el número de pulsaciones en reposo de ciertos deportistas sigue una distribución normal. En una muestra de 50 de esos deportistas, se obtiene una media de 47 pulsaciones por minuto y una cuasi-desviación típica de 7 pulsaciones por minuto. ¿Se puede rechazar a un nivel de significación de 0.01 que el número medio de pulsaciones por minuto es 45? Justificar la respuesta.

General / Septiembre/10

El test que debemos utilizar es









m p H

m p TEST H

/ 45 :

/ 45 1 :

1 0



 y la región de aceptación

de H0 es







   

 z _S z _s

R  _  , _·

2 0 2

0

0 = _







   

n z n

z   

 _ , _·

2 0 2

0 = _



 



   

50

· 7 576 , 2 45 , 50 576 7 , 2 45

=



42,4499,47'5501



, ya que si =0,01

2

z =2,576 y además n50 y 7 p/m. Como la media de la muestra es 47 p/m y está en la región de aceptación deH0 , debemos aceptar la hipótesis H₀ : 45 p/m y no rechazarla.

24. En una encuesta realizada en una población, se ha obtenido que 3700 de 4000 jóvenes encuestados tienen reproductor en formato MP3. Determinar, justificando la respuesta:

a) La estimación puntual que podríamos dar para el porcentaje de jóvenes que poseen reproductor de música en formato MP3.

b) El error máximo que cometeríamos con dicha estimación, con una confianza del 90%

Específica / Septiembre/10 a. Como la estimación es puntual utilizamos la distribución muestral de proporciones.

Sabemos que 0,925

4000 3700 



 _P

p  , ya que el tamaño de la muestra es n=4000. Es decir, el 92,5%.

b. Sabemos que el error viene dado por

E=

 

n p z p 

 1

2

 = _



 



 

 4000

075 , 0 925 , 645 0 ,

1 =0,00685.

25. En una ciudad se está realizando un estudio para comprobar si los alumnos matriculados en secundaria utilizan Internet para el estudio. En la ciudad hay 900 alumnos matriculados en 1º de E.S.O., 1360 en 2º de E.S.O., 1280 en 3º de E.S.O. y 940 en 4º de E.S.O. Se selecciona mediante muestreo estratificado aleatorio una muestra de 672 alumnos con afijación

proporcional.

a) ¿Cuántos alumnos de cada uno de los cursos hay en la muestra?

b) Si en 4º de E.S.O. contestan afirmativamente 120 alumnos ¿Cuál es la estimación de la proporción de alumnos que utiliza Internet en ese curso?

c) Para un nivel de confianza del 95%, obtener el error máximo cometido con la estimación puntual anterior. Justificar las respuestas.

Junio/11

(17)

a. Atendiendo a un criterio de proporcionalidad, los tamaños de las submuestras deberán ser:

672 4480

900 x

 x135 alumnos de 1º ESO

672 4480

1360  x  x204 alumnos de 2º ESO

672 4480 1280 x

 x192 alumnos de 3º ESO

672 4480

940  x  x141 alumnos de 4º ESO

b. Como la estimación es puntual utilizamos la distribución muestral de proporciones.

Sabemos que 0,85106

141 120 



 _P

p  , ya que el tamaño de la submuestra es n=141.

Es decir, el 85’11%.

c. Sabemos que el error viene dado por

E=

 

n p z  p 1

2

 = _



 



  

141 1489 , 0 8511 , 96 0 ,

1 =0,0587.

26. Una biblioteca desea estimar el porcentaje de libros infantiles que posee. La biblioteca está compuesta de 4 salas (Norte, Sur, Este y Oeste) con 2500, 2740, 4000 y 6900 libros, respectivamente. Se selecciona mediante muestreo estratificado aleatorio una muestra del 5% de los libros con afijación proporcional.

a) ¿Cuántos libros, de cada una de las salas hay en la muestra?

b) Si en la muestra de la sala Sur hay 30 libros infantiles, ¿Cuál es la estimación de la proporción de libros infantiles en esa sala?

c) Para un nivel de confianza del 90%, obtener el error máximo cometido con la estimación puntual anterior. Justificar las respuestas

Septiembre/11 a. Atendiendo a un criterio de proporcionalidad, los tamaños de las submuestras

deberán ser:

762 15240

2500  x  x125 libros sala Norte.

762 15240

2740 x

  x137 libros sala Sur.

762 15240

4000  x  x200 libros sala Este.

(18)

EXÁMENES SELECTIVIDAD ESTADÍSTICA RICARDO TRUJILLO PÉREZ 762

15240

69000  x  x345 libros sala Oeste.

Sabemos que 0,219878

137 30 



 _P

p  , ya que el tamaño de la submuestra es n=137.

Es decir, el 21’90%.

c. Sabemos que el error viene dado por

E=

 

n p z  p 1

2

 = _



 



  

137 7811 , 0 2189 , 645 0 ,

1 =0,0581.

27. Una muestra de 2000 familias es seleccionada aleatoriamente en cierta ciudad. Se comprueba que 300 de ellas disponen de acceso a Internet desde su domicilio.

Determinar, justificando la respuesta:

a) El intervalo de confianza al 99% para el porcentaje de familias de esa ciudad que disponen de acceso a Internet desde su domicilio.

b) El error máximo que cometeríamos, con una confianza del 99%, si estimamos que dicho porcentaje es un 15%.

Junio/12

a. Sabemos que el intervalo de confianza es

   



 



        

 n

p z p

n p p z p

p

I 1

1 ,

2 2



 . Como 0,15, 0,01

2000

300  

 

p y, por lo

tanto

2

z =2,576, tenemos que:



⁰^'¹²⁹⁴^,⁰^'¹⁷⁰⁶



2000 85 , 0 15 , 576 0 , 2 15 ' 0 2000 ,

85 , 0 15 , 576 0 , 2 15 ,

05 0

,

0 



 



      

 I

b. Sabemos que el error viene dado por E=

 

n p z  p 1

2

 = _



 



 

 2000 85 , 0 15 , 576 0 ,

2 =0,0206.

28. En un estudio realizado por un laboratorio, sobre una muestra de 500 cigarrillos, se ha obtenido que

 

5000

500

1





 i

xi , donde x_i representa el número de de miligramos de nicotina del i-ésimo cigarrillo , i=1,2,…….,500. Se sabe, además, que el número de miligramos de nicotina por cigarrillo sigue una distribución normal con varianza 16.

Con un nivel de confianza del 90%, ¿podríamos rechazar la hipótesis propuesta por el fabricante, de que el número medio de miligramos de nicotina en un cigarrillo es 9?

Justificar la respuesta

Septiembre/12

(19)









mg H

mg TEST H

9 :

9 1 :

1 0



 y la región de aceptación de

H0 es







   

 z _S z _s

R  _  , _·

2 0 2

0

0 = _







   

n z n

z   

 _ , _·

2 0 2

0 = _



 



   

500

· 4 645 , 1 9 , 500 645 4 , 1

9 =



8,7057,9'2943



, ya que si  =0,1

2

z =1,645 y además n500 y 4mg. Como la media de la muestra es

 

/500 10

500

1





 i

xi

x mg y no está en la región de aceptación deH0 , debemos rechazar la hipótesis H₀ : 9 mg .

29. Una compañía de zapatillas ha sacado un nuevo modelo. En su publicidad indican que los atletas de medio fondo pueden disminuir el tiempo de sus marcas en 4 segundos.

Se realizan pruebas a 100 atletas y se observa que el tiempo medio de disminución fue de 3.5 segundos. Se sabe que la distribución de ese tiempo es normal con desviación típica 4 segundos. Con un nivel de confianza del 95%, ¿podríamos aceptar que la hipótesis de la compañía es cierta?

Justificar la respuesta.

Junio/13









seg H

seg TEST H

4 :

4 1 :

1 0



 y la región de aceptación de

H0 es







   

 z _S z _s

R  _  , _·

2 0 2

0

0 = _







   

n z n

z   

 _ , _·

2 0 2

0 = _



 



   

100

· 4 96 , 1 4 , 100 96 4 , 1

4 =



3'216,4'784



, ya que si  _=0,05

2

z =1,96 y además ⁿ^¹⁰⁰^y ^⁴^seg. Como la media de la muestra es ^x^³^,⁵ seg y está en la región de aceptación deH0 , debemos aceptar la hipótesis H₀ : 4 seg_.

30. El cociente intelectual de una persona se obtiene tras la repetición de diferentes tests.

Se sabe que los resultados de dichos tests se distribuyen según una normal con desviación típica 10 y media desconocida  . Se le realizan a una persona 9 tests obteniendo los siguientes resultados: 105, 106, 109, 115, 100, 117, 116, 114, 108.

a) Calcular el intervalo de confianza al 95%

b) Al 95% de confianza ¿se puede rechazar la hipótesis de que  es 120?

Justificar las respuestas

Septiembre/13

(20)

EXÁMENES SELECTIVIDAD ESTADÍSTICA RICARDO TRUJILLO PÉREZ

a. Sabemos que el intervalo de confianza es :



 



    



n z x n z x

I  



2 2

, = _



 



   

9

·10 96 , 1 110 , 9 96 10 , 1

110 =



103'4667,116'5333



, ya que si

 _=0,05

2

z =1,96 y además n⁹^, ¹⁰ y la media de la muestra es

 

^/⁹ ⁹⁹⁰^/⁹ ¹¹⁰

9

1





 i

xi

x .

b. El test que debemos utilizar es







 120 :

120 1 :

1 0



 H

TEST H y la región de aceptación de

H0 es







   

 z _S z _s

R  _  , _·

2 0 2

0

0 = _







   

n z n

z   

 _ , _·

2 0 2

0 = _



 



   

9

·10 96 , 1 120 , 9 96 10 , 1

120 =



113'4667,126'5333



, ya que si  =0,05

2

z =1,96 y además n9 y 10. Como la media de la muestra es ^x ^¹¹⁰ y no está en la región de aceptación deH0 , debemos rechazar la hipótesis H₀ : 120 .

31. Una compañía aérea tiene contratada una empresa para la recuperación de los equipajes perdidos de sus pasajeros. Para comprobar la eficiencia de la empresa, la compañía desea saber la proporción de equipajes recuperados. Para ello realiza una encuesta a 122 pasajeros que perdieron el equipaje. De eltos, 103 lo recuperaron.

(a) ¡.Cuál es la estimación de la proporción de equipajes recuperados?

(b) Obtener el intervalo de confianza al 99% para la estimación puntual anterior.

Justificar In respuesta

JUNIO 14

Sabemos que el intervalo de confianza es

   



 



        

 n

p z p

n p p z p

p

I 1

1 ,

2 2



 .

Como ⁰^,⁸⁴⁴³^, ⁰^,⁰¹ 122

103  

 

p y, por lo tanto

2

(21)



⁰^'⁷⁵⁹⁷^,⁰^'⁹²⁸⁹



122 1557 , 0 8443 , 576 0 , 2 8443 ' 0 122 ,

1557 , 0 8443 , 576 0 , 2 8443 ,

01 0

,

0 



 



      

 I

32. En un país en vías de desarrollo se quiere estimar la proporción de mujeres en su poblacíón. El país se compone de 4 regiones (A, B, C y D) con 1 millón, 2 millones, 2.5 millones y 7 millones de habitantes respectivamente. Se selecciona una muestra aleatoria estratificada del 1 % de la población con afijación proporcional.

(a) ¿Cuántos habitantes, de cada una de las regiones, hay en la muestra?

(b) Si en la muestra de la región A hay 5100 mujeres, ¿cuál es la estimación de la proporción de mujeres en esa región?

(c) Obtener el intervalo de confianza al 90 % para la estimación puntual anterior.

Justificar las respuestas

JULIO 14 a. Atendiendo a un criterio de proporcionalidad, los tamaños de las submuestras

deberán ser:

(Tamaño de la muestra: 1% de 12,5 millones=125.000 personas)

125 , 0 5 , 12

1 x

  x0,0110.000 personas en la región A

125 , 0 5 , 12

2  x  x0,0220.000 personas en la región B

125 , 0 5 , 12

5 ,

2 x

  x0,02525.000 personas en la región C

125 , 0 5 , 12

7  x  x0,0770.000 personas en la región D

Sabemos que 0,51

10000 5100 



 _P

p  , ya que el tamaño de la submuestra es n=10.000.

Es decir, el 51%.

c. Sabemos que el intervalo de confianza es

   



 



        

 n

p z p

n p p z p

p

I 1

1 ,

2 2



 . Como p^⁰^,⁵¹^, ^⁰^,¹ y, por lo tanto

2

(22)

EXÁMENES SELECTIVIDAD ESTADÍSTICA RICARDO TRUJILLO PÉREZ



⁰^'⁵⁰¹⁸^,⁰^'⁵¹⁸²



10000 49 , 0 51 , 645 0 , 1 51 ' 0 10000 ,

49 , 0 51 , 645 0 , 1 51 ,

1 0

,

0 



 



      

 I

33. Una compañía produce bolsas de golosinas y en el envase indica que pesan 454 g.

Una clase de alumnos desea comprobar si es cierto. Seleccionan al azar 50 bolsas y obtienen una media de 451.22 g. Se sabe que el peso de las bolsas se distribuye según una distribución normal con varianza 70 g². Con un nivel de confianza del 95%, ¿se puede rechazar la hipótesis de que las bolsas pesan 454 g? Justificar la respuesta.

JUNIO 15









gr H

gr TEST H

454 :

454 1 :

1 0



 y la región de aceptación

de H0 es







   

 z _S z _s

R  _  , _·

2 0 2

0

0 = _







   

n z n

z   

 _ , _·

2 0 2

0 = _







   

50

· 70 96 , 1 454 , 50 96 70 , 1

454 =



451'68,456'32



, ya que si  =0,05

2

z =1,96 y además n50 y  70 gr. Como la media de la muestra es x 451,22 gr y no está en la región de aceptación deH0 , debemos rechazar la hipótesis H₀ : 454 gr .

34. Se realizó un estudio para determinar la resistencia a la rotura de dos tipos de vigas.

Para una muestra aleatoria formada por 30 vigas de hormigón la resistencia media muestral fue de 29.8 unidades. También se obtuvo una muestra aleatoria de 30 vigas de acero obteniendo una resistencia media muestral de 32.7 unidades. Se supone que las distribuciones de la resistencia a la rotura de los dos tipos de viga son normales con varianza 16. Con un nivel de confianza del 95%, ¿se puede rechazar la hipótesis de que los dos tipos de viga tienen la misma resistencia a la rotura? Justificar la respuesta.

JULIO 15 El test que debemos utilizar es



 





2 1 1

2 1 0

: 1 :



 H TEST H











 0 :

0 :

2 1 1

2 1 0



 H

H , cuya

región de aceptación H₀ es:











      



2 2 2 1

2 1 2 2

2 2 1

2 1 2

0 0 ,0

n z n

R    



 = _







   

30 16 30

· 16 96 , 1 30, 16 30 96 16 ,

1 =



2'024,2'024



. Como la diferencia de las medias de la muestra es x₁x₂ 29.832.72.9 unidades y no está en la región de aceptación deH0 , debemos rechazar la hipótesis

2 1

0 :  

H (que los dos tipos de viga tienen la misma resistencia a la rotura).