9- Intervalos de confianza

Texto completo

(1)

9- Intervalos de confianza

9.1 – Introducción

Se ha visto como construir a partir de una muestra aleatoria un estimador puntual de un parámetro desconocido. En esos casos necesitábamos dar algunas características del estimador, como por ejemplo si era insesgado o su varianza.

A veces resulta más conveniente dar un intervalo de valores posibles del parámetro desconocido, de manera tal que dicho intervalo contenga al verdadero parámetro con determinada probabilidad. Específicamente, a partir de una muestra aleatoria se construye un intervalo

(

Θˆ1,Θˆ2

)

donde los extremos Θ y ˆ1 Θ son dos estadísticos, tal que ˆ2 P

(

θ∈

(

Θˆ1,Θˆ2

)

)

=1−α donde θ es el parámetro desconocido a estimar y

α

es un valor real entre cero y uno dado de antemano. Por ejemplo si

05 . 0 =

α , se quiere construir un intervalo

(

Θˆ1,Θˆ2

)

tal que P

(

θ∈

(

Θˆ1,Θˆ2

)

)

=0.95, o escrito de otra forma P

(

Θˆ1 ≤θ ≤Θˆ2

)

=0.95

Esta probabilidad tiene el siguiente significado: como Θ y ˆ1 Θ son estadísticos, los valores que ˆ2 ellos toman varían con los valores de la muestra, es decir si x1,x2,...,xn son los valores medidos de la muestra entonces el estadístico Θ tomará el valor ˆ1 θ1 y el estadístico Θ tomará el valor ˆ2 θ2. Si medimos nuevamente la muestra obtendremos ahora valores x1´,,x2,,...,xn, y por lo tanto Θ toma-ˆ1 rá el valor θ1, y el estadístico Θ tomará el valor ˆ2 θ2,, diferentes en general de los anteriores. Esto significa que si medimos la muestra 100 veces obtendremos 100 valores diferentes para Θ y ˆ1 Θ ˆ2 y por lo tanto obtendremos 100 intervalos distintos, de los cuales aproximadamente 5 de ellos no contendrán al verdadero parámetro.

Al valor 1−α se lo llama nivel de confianza del intervalo. También se suele definir como nivel de

confianza al

(

1−α

)

100%

La construcción repetida de un intervalo de confianza para µ se ilustra en la siguiente figura

(2)

9.2 – Intervalo de confianza para la media de una distribución normal, varianza conocida. El método general para construir intervalos de confianza es el siguiente llamado método del pivo-te:

Supongamos el siguiente caso particular, sea

(

X1,X2,...,Xn

)

una muestra aleatoria de tamaño n de una v.a. X donde X ~ N(µ,σ2), σ2 conocido, se quiere construir un intervalo de confianza para

µ de nivel 1−α. Supongamos α =0.05.

1- tomamos un estimador puntual de µ, sabemos que µˆ= X es un estimador con buenas

propie-dades.

2- a partir de µˆ = X construimos el estadístico

n X Z σ µ −

= . Notar que Z (pivote) contiene al

ver-dadero parámetro µ y que bajo las condiciones dadas Z ~ N(0,1)

3- como conocemos la distribución de Z, podemos plantear: hallar un número z tal que

(

zZz

)

=0.95 P

Por la simetría de la distribución normal estándar podemos escribir

(

zZz

)

( )

z −Φ

( )

z =2Φ

( )

z −1=0.95 PΦ z

( )

=0.975 ⇒ z=1.96 Por lo tanto

(

1.96 1.96

)

1.96 1.96 =0.95           ≤ − ≤ − = ≤ ≤ − n X P Z P σ µ Despejamos µ: 95 . 0 96 . 1 96 . 1 96 . 1 96 . 1 96 . 1 96 . 1 96 . 1 96 . 1 =       + ≤ ≤ − =       − ≤ − ≤ − − = =       ≤ − ≤ − =           ≤ − ≤ − n X n X P X n X n P n X n P n X P σ µ σ σ µ σ σ µ σ σ µ Entonces 95 . 0 96 . 1 ; 96 . 1 96 . 1 96 . 1 =            + − ∈ =       + ≤ ≤ − n X n X P n X n X P σ µ σ µ σ σ

Es decir el intervalo de confianza para µ es 

     + − n X n

X 1.96 σ ; 1.96 σ y tiene nivel de

confian-za 0.95 o 95%. Aquí n X 1.96 σ ˆ 1 = − Θ y n X 1.96 σ ˆ 2 = + Θ

Repetimos el procedimiento anterior y construimos un intervalo de confianza para µ con nivel de

(3)

1-Partimos de la esperanza muestral

= = n Xi n X 1 1 1

para una muestra aleatoria

(

X1,X2,...,Xn

)

de tamaño n. Sabemos que es un estimador insesgado y consistente de µ .

2-Construimos el estadístico ~ N n / σ µ X Z = − (0,1)

La variable aleatoria Z cumple las condiciones necesarias de un pivote

Para construir un intervalo de confianza al nivel de confianza 1-α partiendo del pivote Z,

comen-zamos por plantear la ecuación

P

(

zZz

)

=1- α , donde la incógnita es el número real z.

Si reemplazamos la v.a. Z por su expresión tenemos:

=       + =       =       ≤ − ≤ − n σ z X µ n σ z X P n σ z µ X n σ z P z n / σ µ X z P 1- α

Multiplicando todos los miembros de la desigualdad por -1 (el orden de los miembros se invierte) llegamos a: =      + ≤ ≤ − n σ z X µ n σ z X P 1-α Evidentemente, si definimos       + = Θ − = Θ n z X n z X σ σ 2 1 ˆ ˆ

, hemos construido dos estadísticos Θ y ˆ1 Θ tales que ˆ2 P

(

Θˆ1≤µ≤Θˆ2

)

=1-α, es decir hemos construido el intervalo de confianza bilateral deseado

[

Θˆ1,Θˆ2

]

. Todos los elemen-tos que forman los estadísticos Θ y ˆ1 Θ son conocidos ya que el número z verifica la ecuación ˆ2 anterior, es decir (ver figura):

α z 2 α

z

2 α

z

2 α 2 α 2 α z z =

(4)

(

z Z z

)

( )

z

( )

z

P − ≤ ≤ =Φ −Φ − =1-α donde Φ

( )

z es la Fda para la v.a. Z ~ N(0,1)

Recordando que Φ

( )

z =1−Φ

( )

z , esta ecuación queda:

( )

z −Φ

( )

z

Φ =2Φ

( )

z −1=1-α, o bien (ver figura anterior),

( )

2 1 α z = − Φ o de otra forma 2 ) (Z > zP .

Al valor de z que verifica esta ecuación se lo suele indicar

2

α

z . En consecuencia, el intervalo de confianza bilateral al nivel de significación 1-α queda:

[

]

      + − = Θ Θ n z X n z X α σ α σ 2 2 2 1,ˆ , ˆ En consecuencia: Ejemplo:

Un ingeniero civil analiza la resistencia a la compresión del concreto. La resistencia está

distribui-da aproximadistribui-damente de manera normal, con varianza 1000 (psi)2. Al tomar una muestra aleatoria

de 12 especímenes, se tiene que x =3250 psi.

a) Construya un intervalo de confianza del 95% para la resistencia a la compresión promedio. b) Construya un intervalo de confianza del 99% para la resistencia a la compresión promedio.

Compare el ancho de este intervalo de confianza con el ancho encontrado en el inciso a). Solución:

La v. a. de interés es Xi: “resistencia a la compresión del concreto en un espécimen i”

Tenemos una muestra de n=12 especímenes.

Asumimos que ~ (µ,σ2)

N

Xi para i=1,2,3,...,12 con σ2 =1000

a) Queremos un intervalo de confianza para µ de nivel 95%. Por lo tanto α =0.05

El intervalo a utilizar es      + − n z X n z X α σ α σ 2 2 , .

Buscamos en la tabla de la normal estándar el valor de 0.025 1.96

2 = = z zα Reemplazando:       =       × + × − 3232.10773, 3267.89227 12 1000 96 . 1 3250 , 12 1000 96 . 1 3250

b) repetimos lo anterior pero ahora α =0.01

Si

(

X1,X2,...,Xn

)

una muestra aleatoria de tamaño n de una v.a. X donde X ~N(µ,σ2), σ2 conocido, un intervalo de confianza para µ de nivel 1−α es

     + − n z X n z X α σ α σ 2 2 , (8.1)

(5)

El intervalo a utilizar es      + − n z X n z X α σ α σ 2 2 , .

Buscamos en la tabla de la normal estándar el valor de 0.005 2.58

2 = = z zα Reemplazando:       =       × + × − 3226.44793, 3273.55207 12 1000 58 . 2 3250 , 12 1000 58 . 2 3250

La longitud del intervalo encontrado en a) es: 35.78454 La longitud del intervalo encontrado en b) es: 47.10414

Notar que la seguridad de que el verdadero parámetro se encuentre en el intervalo hallado es ma-yor en el intervalo b) que en el a), pero la longitud del intervalo b) es mama-yor que la del intervalo a). Al aumentar el nivel de confianza se perdió precisión en la estimación, ya que a menor longitud hay mayor precisión en la estimación.

En general la longitud del intervalo es

n z L α σ 2 2 = Notar que:

a) si n y σ están fijos, a medida que α disminuye tenemos que

2

α

z aumenta, por lo tanto L

aumenta.

b) si α y σ están fijos, entonces a medida que n aumenta tenemos que L disminuye.

Podemos plantearnos la siguiente pregunta relacionada con el ejemplo anterior: ¿qué tamaño n de muestra se necesita para que el intervalo tenga nivel de confianza 95% y longitud la mitad de la longitud del intervalo hallado en a)?

Solución: el intervalo hallado en a) tiene longitud 35.78454, y queremos que el nuevo intervalo tenga longitud 17.89227 aproximadamente. Planteamos:

89227 . 17 1000 96 . 1 2 89227 . 17 2 /2 ≤ ⇒ × × ≤ = n n z L α

σ

Despejando n : 48 89227 . 17 1000 96 . 1 2 2 ≥ ⇒ ≤         × × n n

O sea, hay que tomar por lo menos 84 especímenes para que el intervalo tenga la longitud pedida.

En general, si queremos hallar n tal que l

n z

L= α

σ

2

2 , donde l es un valor dado, entonces

despejando n 2 2 2           ≥ l z n σ α

(6)

Si estimamos puntualmente al parámetro µ con X estamos cometiendo un error en la estimación menor o igual a n z L

σ

α 2

2 = , que se conoce como precisión del estimador

Ejemplo: Se estima que el tiempo de reacción a un estímulo de cierto dispositivo electrónico está distribuido normalmente con desviación estándar de 0.05 segundos. ¿Cuál es el número de medi-ciones temporales que deberá hacerse para que la confianza de que el error de la estimación de la esperanza no exceda de 0.01 sea del 95%?

Nos piden calcular n tal que 0.01

2 = z2 n < L

σ

α con α =0.05. Por lo tanto 2 025 . 0 01 . 0 05 . 0       ≥ z n . Además z0,025=1.96. Entonces

(

196 5

)

9604 01 0 05 0 2 2 975 0 . . . . z n .  = × =      ≥ .

O sea hay que tomar por lo menos 97 mediciones temporales.

Ejemplo:

Supongamos que X representa la duración de una pieza de equipo y que se probaron 100 de esas piezas dando una duración promedio de 501.2 horas. Se sabe que la desviación estándar poblacio-nal es σ =4 horas. Se desea tener un intervalo del 95% de confianza para la esperanza poblaciopoblacio-nal

( )

X µ

E = .

Solución:

En este caso, si bien no conocemos cuál es la distribución de X tenemos que el tamaño de la mues-tra es n=100 >30 (muestra grande) por lo tanto el intervalo buscado es

      + − n z X n z X α σ α σ 2 2 , Puesto que 1-α =0.95 0.025 2 05 . 0 95 . 0 1− = → = = →α α

De la tabla de la normal estandarizada obtenemos z0,025=1.96. Entonces reemplazando:

      + − 100 4 96 . 1 , 100 4 96 . 1 X X

Para el valor particular x =501.2 tenemos el intervalo

Para muestras tomadas de una población normal, o para muestras de tamaño n≥30, de una

población cualquiera, el intervalo de confianza dado anteriormente en (8.1), proporciona buenos resultados.

En el caso de que la población de la que se extrae la muestra no sea normal pero n≥30, el

ni-vel de confianza del intervalo (8.1) es aproximadamente 1−α.

Pero para muestras pequeñas tomadas de poblaciones que no son normales no se puede garanti-zar que el nivel de confianza sea 1−α si se utiliza (8.1).

(7)

      =     + =       + − 500.4, 502.0 10 4 96 . 1 2 . 501 , 10 4 96 . 1 2 . 501 4 96 . 1 , 100 4 96 . 1 n x x . Al establecer que      0 502 4

500. , . es un intervalo al 95% de confianza de µ estamos diciendo que

la probabilidad de que el intervalo

     0 502 4

500. , . contenga a µ es 0.95. O, en otras palabras, la

probabilidad de que la muestra aleatoria

(

X1,X2,...,Xn

)

tome valores tales que el intervalo

aleato-rio      + − 100 4 96 . 1 , 100 4 96 . 1 X

X defina un intervalo numérico que contenga al parámetro fijo

desconocido µ es 0.95.

9.3 - Intervalo de confianza para la media de una distribución normal, varianza desconocida

Nuevamente como se trata de encontrar un intervalo de confianza para µ nos basamos en la

espe-ranza muestral

= = n Xi n X 1 1 1

que sabemos es un buen estimador de µ . Pero ahora no podemos usar como pivote a

n / σ µ X Z = −

porque desconocemos σ y una condición para ser pivote es que, excepto por el parámetro a

esti-mar ( en este caso µ ), todos los parámetros que aparecen en él deben ser conocidos. Entonces pro-ponemos como pivote una variable aleatoria definida en forma parecida a Z pero reemplazando σ por un estimador adecuado.

Ya vimos que la varianza muestral definida

(

)

2 1 1 2 1 1

= − − = n Xi X n S ,

donde X es la esperanza muestral, es un estimador insesgado de la varianza poblacional V

( )

X , es decir, E

( )

S2 =V

( )

X =σ2 n∀ . Entonces estimamos σ con S y proponemos como pivote a la va-riable aleatoria n / S µ X T = − .

Pero para poder usar a T como pivote debemos conocer su distribución.

Se puede probar que la distribución de T es una distribución llamada Student con parámetro n-1. Nota: Una v.a. continua tiene distribución Student con k grados de libertad, si su f.d.p. es de la forma

(8)

(

)

∞ < < ∞ −       +             Γ     + Γ = + x k x k k k x f k 1 1 2 2 1 ) ( 2 1 2 π Notación: T ~tk

La gráfica de la f.d.p. de la distribución Student tiene forma de campana como la normal, pero

tiende a cero más lentamente. Se puede probar que cuando k →∞ la fdp de la Student tiende a la

fdp de la N(0, 1).

En la figura siguiente se grafica f(x) para diferentes valores de k

k =1 k=6

- - - k =∞

Anotaremos tα,k al cuantil de la Student con k grados de libertad que deja bajo la fdp a derecha un área de

α

, y a su izquierda un área de 1−α.

Luego, para construir el intervalo de confianza buscado a partir del pivote T procedemos como en los casos anteriores:

Comenzamos por plantear la ecuación

P

(

tTt

)

=1- α , donde la incógnita es el número real t.

Si reemplazamos la v.a. T por su expresión, tenemos sucesivamente (multiplicando por S/ n y

restandoX ): =       + − ≤ − ≤ − − =       ≤ − ≤ − =       ≤ − ≤ − n S t X µ n S t X P n S t µ X n S t P t n / S µ X t P 1-α

Multiplicando todos los miembros de la desigualdad por -1 (el orden de los miembros se invierte) llegamos a: -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4

(9)

=      + n S t X µ n S t X P 1- α Evidentemente, si definimos       + = Θ − = Θ n S t X n S t X 2 1 ˆ ˆ

, hemos construido dos estadísticos Θ y ˆ1 Θ tales que ˆ2 P

(

Θˆ1 ≤µ≤Θˆ2

)

=1-α , veamos quien es el número t que verifica la ecuación, es decir (ver figura):

(

t T t

)

F

( )

t F

( )

t

P − ≤ ≤ = − − =1- α donde F

( )

t es la Fda para la v.a. T tn1.

Por la simetría de la distribución t de Student se deduce fácilmente de la figura anterior que

( )

t F

( )

t

F − =1− , entonces:

( )

t F

( )

t

F − − =2F

( )

t −1=1-α , o bien (ver figura anterior),

( )

2

1 α

t

F = − .

Al valor de t que verifica esta ecuación se lo suele indicar

1 , 2n

tα . En consecuencia, el intervalo de

confianza bilateral al nivel de significación 1- α queda:

      + − − − n S t X n S t X n n , 1 2 1 , 2 , α α con 2 1 1 , 2 α α = −       − n t F . En consecuencia:

Si

(

X1,X2,...,Xn

)

una muestra aleatoria de tamaño n de una v.a. X donde X ~ N(µ,σ2),

2

σ desconocido, un intervalo de confianza para µ de nivel 1−α es

     + − n S t X n S t X 2 2 , α α (8.2) 2 α t − 2 α t libertad de grados 4 = k 2 α 2 α

(10)

Ejemplo:

Se hicieron 10 mediciones sobre la resistencia de cierto tipo de alambre que dieron valores

10 2 1,x ,...,x x tales que

= = = 10 1 48 10 10 1 i i . x x ohms y

(

)

= − = 10 2 9 1 ! i i x x S = 1.36 ohms. Supóngase que X~N(µ2).

Se desea obtener un intervalo de confianza para la esperanza poblacional µ al 90 %. Tenemos que 1−α=0.90→ α= 10. →α/2=0.05

De la Tabla de la t de Student tenemos que t0.05,9 =1.8331. Entonces el intervalo de confianza buscado es:       + − =       + − − − 10 36 . 1 8331 . 1 48 . 10 , 10 36 . 1 8331 . 1 48 . 10 , 1 , 2 1 , 2 n S t X n S t X n n α α Esto es:

[

9.69, 11.27

]

.

9.4 – Intervalo de confianza para la diferencia de dos medias, varianzas conocidas

Supongamos que tenemos dos variables aleatorias independientes normalmente distribuidas:

(

)

(

)

   2 2 2 2 2 1 1 1 σ , µ N ~ X σ , µ N ~ X

y suponemos que las varianzas 2

1

σ y σ son conocidas. 22

Sean además

(

X11,X12,...,X1n1

)

una muestra aleatoria de tamañon de 1 X 1

(

X21,X22,...,X2n2

)

una muestra aleatoria de tamañon2 de X2.

Deseamos construir un intervalo al nivel de confianza 1−α para la diferencia de esperanzas

2 1 µ

µ − .

Ya sabemos cuál es la distribución del promedio de variables aleatorias normales independientes:

Si la muestra aleatoria se toma de una distribución normal, σ2 es desconocido y el tamaño de la

muestra grande, entonces se puede probar que al reemplazar σ por S, el estadístico

( )

0,1 N n / S µ X Z = − ∼ aproximadamente

y puedo construir el intervalo para µcomo antes:       + − n S z X n S z X 2 2 , α

(11)

             =       =

= = 2 1 1 2 2 2 2 2 2 2 1 1 2 1 1 1 1 1 1 1 n i i n i i n σ , µ N ~ X n X n σ , µ N ~ X n X

Consideremos ahora la diferencia Y = X1X2. Si X y 1 X tienen distribución normal y son in-2 dependientes, su diferencia también es normal, con esperanza igual a la diferencia de las esperan-zas y la varianza es la suma de las varianesperan-zas:

      + − − 2 2 2 1 2 1 2 1 2 1 ~N , n n X X µ µ σ σ . Por lo tanto

(

)

( )

1 , 0 N ~ 2 2 2 1 2 1 2 1 2 1 n n X X Z σ σ µ µ + − − −

= , es decir, tiene distribución normal estandarizada.

La v.a. Z cumple con toda las condiciones para servir de pivote y construiremos nuestro intervalo en forma análoga a cómo hicimos en los casos anteriores:

Comenzamos por plantear la ecuación

P

(

zZz

)

=1-α , donde la incógnita es el número real z.

Reemplazamos la v.a. Z por su expresión y tenemos sucesivamente (multiplicando por σ/ n y restandoX ):

(

)

(

)

(

)

σ σ

(

µ µ

)

(

)

σ σ α σ σ µ µ σ σ σ σ µ µ − =         + + − − ≤ − − ≤ + − − − = =         + ≤ − − − ≤ + − =               ≤ + − − − ≤ − 1 2 2 2 1 2 1 2 1 2 1 2 2 2 1 2 1 2 1 2 2 2 1 2 1 2 1 2 1 2 2 2 1 2 1 2 2 2 1 2 1 2 1 2 1 n n z X X n n z X X P n n z X X n n z P z n n X X z P

Multiplicando todos los miembros de la desigualdad por -1 (el orden de los miembros se invierte) llegamos a: σ σ

(

µ µ

)

σ σ = −α         + + − ≤ − ≤ + − − 1 2 2 2 1 2 1 2 1 2 1 2 2 2 1 2 1 2 1 n n z X X n n z X X P Evidentemente, si definimos

(12)

       + − − = Θ + − − = Θ , ˆ ˆ 2 2 2 1 2 1 2 1 2 2 2 2 1 2 1 2 1 1 n n z X X n n z X X σ σ σ σ

habremos construido dos estadísticos Θ y ˆ1 Θ tales que ˆ2 P

(

Θˆ1

(

µ1−µ2

)

≤Θˆ2

)

=1-α , es decir habremos construido el intervalo de confianza bilateral deseado

[

1,Aˆ2

]

. Todos los elementos que forman los estadísticos Θ y ˆ1 Θ son conocidos ya que el número z verifica la ecuación anterior, ˆ2 es decir:

(

z Z z

)

( )

z

( )

z

P − ≤ ≤ =Φ −Φ − =1- α donde Φ

( )

z es la Fda para la v.a. Z ~ N(0,1)

o bien, según vimos:

( )

2 1 α z = − Φ que anotamos 2 α z

En consecuencia, el intervalo de confianza bilateral al nivel de significación 1-α queda:

        + + − + − − 2 2 2 1 2 1 2 2 1 2 2 2 1 2 1 2 2 1 , n n z X X n n z X X α σ σ α σ σ Por lo tanto Ejemplo:

Se utilizan dos máquinas para llenar botellas de plástico con detergente para máquinas lavaplatos. Se sabe que las desviaciones estándar de volumen de llenado son σ1 =0.10 onzas de líquido y

15 . 0

2 =

σ onzas de líquido para las dos máquinas respectivamente. Se toman dos muestras

aleato-rias, n1 =12 botellas de la máquina 1 y n2 =10 botellas de la máquina 2. Los volúmenes

prome-dio de llenado son x1 =30.87 onzas de líquido y x2 =30.68 onzas de líquido. Asumiendo que ambas muestras provienen de distribuciones normales

Construya un intervalo de confianza de nivel 90% para la diferencia entre las medias del volumen de llenado.

Solución:

Como 1−α =0.90 entonces α =0.10

Si X y 1 X son dos variables aleatorias independientes normalmente distribuidas: 2

(

2

)

1 1 1 ~N µ ,σ

X ,X2 ~ N

(

µ222

)

y suponemos que las varianzas σ y 12 σ son conocidas. Un 22

intervalo de confianza para la diferencia µ1−µ2 de nivel 1−α es

+

+

+

2 2 2 1 2 1 2 2 1 2 2 2 1 2 1 2 2 1

,

n

n

z

X

X

n

n

z

X

X

α

σ

σ

α

σ

σ

r

(8.3)

(13)

Por lo tanto 0.05 1.65 2 = = z zα El intervalo será

(

)

(

)

        + + − + − − 10 15 . 0 12 10 . 0 65 . 1 68 . 30 87 . 30 ; 10 15 . 0 12 10 . 0 65 . 1 68 . 30 87 . 30 2 2 2 2 O sea      281620 . 0 ; 09837 . 0

Si se conocen las desviaciones estándar y los tamaños de las muestras son iguales (es decir n

n

n1 = 2 = ), entonces puede determinarse el tamaño requerido de la muestra de manera tal que la

longitud del intervalo sea menor que l

(

12 22

)

2 2 2 2 2 1 2 2 2 σ σ σ σ α α +           ≥ ⇒ ≤ + = l z n l n n z L Ejemplo:

De una muestra de 150 lámparas del fabricante A se obtuvo una vida media de 1400 hs y una des-viación típica de 120 hs. Mientras que de una muestra de 100 lámparas del fabricante B se obtuvo una vida media de 1200 hs. y una desviación típica de 80 hs.

Halla los límites de confianza del 95% para la diferencia las vidas medias de las poblaciones A y B.

Para muestras tomadas de dos poblaciones normales, o para muestras de tamaño n1 ≥30 y

30

2 ≥

n , de dos poblaciones cualesquiera, el intervalo de confianza dado anteriormente en

(8.3), proporciona buenos resultados.

En el caso de que la población de la que se extrae la muestra no sea normal pero n1≥30 y

30

2 ≥

n , el nivel de confianza del intervalo (8.3) es aproximadamente 1−α.

Si las muestras aleatorias se toma de una distribución normal, donde σ1 y σ2son desconocidos, 30

1≥

n y n2 ≥30, entonces se puede probar que al reemplazar σ1 por S1 y σ2 por S2, el

esta-dístico ( ) (0,1) 1 2 1 1 2 1 2 1 2 1 N n S n S X X ≈ + − − − µ µ . aproximadamente

y puedo construir el intervalo para µ1−µ2 como antes:         + + − + − − 1 2 1 1 2 1 2 2 1 1 2 1 1 2 1 2 2 1 , n S n S z X X n S n S z X X α α , (8.4)

(14)

Solución:

Sean las variables aleatorias:

:

1

X “duración en horas de una lámpara del fabricante A”

:

2

X “duración en horas de una lámpara del fabricante B”

No se dice cuál es la distribución de estas variables, pero como n1 =150 y n2 =100

podemos usar el intervalo dado en (8.4)

Tenemos que x1 =1400, x2 =1200, s1 =120 y s2 =80. Además 1−α =0.95 z z0.025 1.96 2 = = → α Entonces el intervalo es       =         + − − + − − 175.2077; 224.7922 100 80 150 120 96 . 1 1200 1400 ; 100 80 150 120 96 . 1 1200 1400 2 2 2 2

Observación: como este intervalo no contiene al cero, podemos inferir que hay diferencia entre las medias con probabilidad 0.95, es más, podemos inferir que la media del tiempo de duración de las lámparas del fabricante A es mayor que la media del tiempo de duración de las lámparas del fabri-cante B con probabilidad 0.95 .

9.5 – Intervalo de confianza para la diferencia de dos medias, varianzas desconocidas

Nuevamente supongamos que tenemos dos variables aleatorias independientes normalmente dis-tribuidas:

(

)

(

)

   2 2 2 2 2 1 1 1 σ , µ N ~ X σ , µ N ~ X

y suponemos que las varianzas σ y 12 σ son desconocidas . 22

Sean además

(

X11,X12,...,X1n1

)

una muestra aleatoria de tamañon de 1 X 1

(

X21,X22,...,X2n2

)

una muestra aleatoria de tamañon de 2 X . 2

Pero ahora n o 1 n no son mayores que 30 2

Supongamos que es razonable suponer que las varianzas desconocidas son iguales, es decir

σ σ

σ1 = 2 =

Deseamos construir un intervalo al nivel de confianza 1−α para la diferencia de esperanzas

2 1 µ

µ −

Sean X y 1 X las medias muestrales y 2 S y 12 S las varianzas muestrales. Como 22 S y 12 S son 22

los estimadores de la varianza comúnσ2, entonces construimos un estimador combinado de σ2.

Este estimador es

(

)

(

)

2 1 1 2 1 2 2 2 2 1 1 2 − + − + − = n n S n S n Sp

Se puede comprobar que es un estimador insesgado de σ2.

(15)

(

)

2 1 2 1 2 1 1 1 n n S X X T p + − − − = µ µ r

tiene distribución Student con n1+n2−2 grados de libertad

Por lo tanto se plantea la ecuación

α α = −α       ≤ ≤ − − + − + , 2 1 2 2 , 2n1 n2 n1 n2 t T t P o α

(

µ µ

)

α = −α               ≤ + − − − ≤ − − + − + 1 1 , 2 1 2 2 1 2 1 2 1 2 , 2 1 2 n1 n2 p n n t n n S X X t P r

Despejamos µ −1 µ2 y queda la expresión

α µ µ α = −α       + ≤ − ≤ + − − − + − + 1 1 1 1 1 2 1 2 , 2 2 1 2 1 2 , 2 2 1 2 1 2 1 n n S t n n S t X X P p n n p n n Entonces Ejemplo:

Se piensa que la concentración del ingrediente activo de un detergente líquido para ropa, es afecta-da por el tipo de catalizador utilizado en el proceso de fabricación. Se sabe que la desviación es-tándar de la concentración activa es de 3 g/l, sin importar el tipo de catalizador utilizado. Se reali-zan 10 observaciones con cada catalizador, y se obtienen los datos siguientes:

Catalizador 1: 57.9, 66.2, 65.4, 65.4, 65.2, 62.6, 67.6, 63.7, 67.2, 71.0 Catalizador 2: 66.4, 71.7, 70.3, 69.3, 64.8, 69.6, 68.6, 69.4, 65.3, 68.8

a) Encuentre un intervalo de confianza del 95% para la diferencia entre las medias de las concen-traciones activas para los dos catalizadores. Asumir que ambas muestras fueron extraídas de po-blaciones normales con varianzas iguales.

b) ¿Existe alguna evidencia que indique que las concentraciones activas medias dependen del cata-Si X y1 X son dos variables aleatorias independientes normalmente distribuidas: 2

(

2

)

1 1 1 ~N µ ,σ

X ,X2 ~N

(

µ222

)

y suponemos que las varianzas 2

1

σ y 2 2

σ son desconocidas e iguales, es decir σ12

Un intervalo de confianza para la diferencia µ1−µ2 de nivel 1−α es n n S t n n X X n n S t n n X X p p 2 1 2 , 2 / 2 1 2 1 2 , 2 / 2 1 1 1 ; 1 1 2 1 2 1 + − + + − − α + − α + − (8.5)

(16)

Solución:

Sean las variables aleatorias

:

1

X “ concentración del ingrediente activo con catalizador 1”

:

2

X “ concentración del ingrediente activo con catalizador 2”

Asumimos que ambas variables tienen distribución normal con varianzas iguales Estamos e3n las condiciones para usar (8.5)

Tenemos que x1 =65.22, x2 =68.42 , s1 =3.444, s2 =2.224 , n1 =n2 =10 Calculamos

(

)

(

)

8.4036 2 10 10 224 . 2 9 444 . 3 9 2 1 1 2 2 2 1 2 2 2 2 1 1 2 = − + × + × = − + − + − = n n S n S n Sp Por lo tanto Sp = 8.4036=2.89890

Buscamos en la tabla de la Student 0.025,18 2.060

2 , 2 1 2 = = − + t t n n α Entonces el intervalo es

[

5.8706; 0.52935

]

10 1 10 1 89890 . 2 060 . 2 42 . 68 22 . 65 ; 10 1 10 1 89890 . 2 060 . 2 42 . 68 22 . 65 − − = =       + × − − + × − −

b) Existe alguna evidencia que indique que las concentraciones activas medias dependen del cata-lizador utilizado, pues el 0 no pertenece al intervalo.

En muchas ocasiones no es razonable suponer que las varianzas son iguales. Si no podemos ga-rantizar que las varianzas son iguales, para construir un intervalo de confianza de nivel 1−α para

2 1 µ µ − utilizamos es estadístico 1 2 1 1 2 1 2 1 2 1 * ( ) n S n S X X T + − − − = µ µ

Se puede probar que T tiene aproximadamente una distribución Student con * ν grados de

liber-tad donde

(

)

(

) (

)

1 1 2 2 2 2 2 1 2 1 1 1 2 2 2 2 1 2 1 − + − + = n n S n n S n S n S

ν si ν no es entero, se toma el entero más próximo a ν

Por lo tanto planteamos la ecuación α ν α ν α = −       ≤ ≤ − 1 , 2 * , 2 t T t P Y despejando µ1−µ2 el intervalo es

(17)

        + + − + − − 2 2 2 1 2 1 , 2 2 1 2 2 2 1 2 1 , 2 2 1 , n S n S t X X n S n S t X X ν α ν α Entonces Ejemplo:

Una muestra de 6 soldaduras de un tipo tenía promedio de prueba final de resistencia de 83.2 ksi y desviación estándar de 5.2. Y una muestra de 10 soldaduras de otro tipo tenía resistencia promedio de 71.3 ksi y desviación estándar de 3.1. supongamos que ambos conjuntos de soldaduras son muestras aleatorias de poblaciones normales. Se desea encontrar un intervalo de confianza de 95% para la diferencia entre las medias de las resistencias de los dos tipos de soldaduras.

Solución:

Ambos tamaños muestrales son pequeños y las muestras provienen de poblaciones normales. No podemos asumir igualdad de varianzas. Entonces aplicamos (8.6)

Tenemos que x1 =83.2, x2 =71.3 , s1 =5.2, s2 =3.1 , n1=6; n2 =10 Como 1−α =0.95 entonces 0.025 2 = α Además

(

)

(

) (

)

( ) ( )

7.18 7 9 10 1 . 3 5 6 2 . 5 10 1 . 3 6 2 . 5 1 1 2 2 2 2 2 2 2 2 2 2 1 2 1 1 1 2 2 2 2 1 2 1 = +       + = − + − + = n n S n n S n S n S ν

Entonces buscamos en la tabla de la Student t0.025,7 =2.365 Por lo tanto el intervalo es

      =         + + − + − − = =         + + − + − − 43 . 17 , 37 . 6 10 1 . 3 6 2 . 5 365 . 2 3 . 71 2 . 83 ; 10 1 . 3 6 2 . 5 365 . 2 3 . 71 2 . 83 , 2 2 2 2 2 2 2 1 2 1 , 2 2 1 2 2 2 1 2 1 , 2 2 1 n S n S t X X n S n S t X X ν α ν α

Si X y1 X son dos variables aleatorias independientes normalmente distribuidas: 2

(

2

)

1 1 1 ~N µ ,σ

X ,X2 ~N

(

µ222

)

y suponemos que las varianzas 2

1

σ y 2 2

σ son desconocidas y distintas

Un intervalo de confianza para la diferencia µ −1 µ2 de nivel aproximadamente 1−α es         + + − + − − 2 2 2 1 2 1 , 2 2 1 2 2 2 1 2 1 , 2 2 1 , n S n S t X X n S n S t X X ν α ν α (8.6) Donde

(

)

(

) (

)

1 1 2 2 2 2 2 1 2 1 1 1 2 2 2 2 1 2 1 − + − + = n n S n n S n S n S ν

(18)

9.6 – Intervalo de confianza para µ −1 µ2 para datos pareados

Hasta ahora se obtuvieron intervalos de confianza para la diferencia de medias donde se tomaban

dos muestras aleatorias independientes de dos poblaciones de interés. En ese caso se tomaban n 1

observaciones de una población y n observaciones de la otra población. 2

En muchas situaciones experimentales, existen solo n unidades experimentales diferentes y los datos están recopilados por pares, esto es cada unidad experimental está formada por dos observa-ciones.

Por ejemplo, supongamos que se mide el tiempo en segundos que un individuo tarda en hacer una maniobra de estacionamiento con dos automóviles diferentes en cuanto al tamaño de la llanta y la relación de vueltas del volante. Notar que cada individuo es la unidad experimental y de esa unidad experimental se toman dos observaciones que no serán independientes. Se desea obtener un inter-valo de confianza para la diferencia entre el tiempo medio para estacionar los dos automóviles. En general, supongamos que tenemos los siguientes datos

(

X11,X21

) (

; X12,X22

)

;...;

(

X1n ,X2n

)

1 .

Las variables aleatorias X y 1 X tienen medias 2 µ1 y µ2 respectivamente. Sea Dj = X1jX2j con j=1,2,...,n. Entonces E

( ) (

Dj =E X1jX2j

) ( ) ( )

= E X1jE X2j1−µ2 y

( ) (

) ( ) ( )

(

)

(

1 2

)

2 2 2 1 2 1 2 1 2 1 X V X V X 2Cov X ,X 2Cov X ,X X V D V j = jj = j + jj j =σ +σ − Estimamos E

( )

Dj1−µ2 con

(

)

1 2 1 2 1 1 1 1 X X X X n D n D n j j j n j j = − = − =

= =

En lugar de tratar de estimar la covarianza, estimamos la V

( )

Dj con

(

)

= − − = n j j D D D n S 1 2 1 1 Anotamos µD1−µ2 y σ2D =V

( )

Dj

Asumimos que Dj ~ N

(

µDD2

)

con j=1,2,...,n

Las variables aleatorias en pares diferentes son independientes, no lo son dentro de un mismo par. Para construir el intervalo de confianza notar que

1 / ∼ − − = n D D t n S D T µ

entonces al plantear la ecuación P

(

tTt

)

=1-α , deducimos que

1 , 2 − = n t t α

Por lo tanto el intervalo de confianza para µD1−µ2 de nivel 1−α se obtendrá al sustituir T en la ecuación anterior y despejar µD1−µ2

(19)

     + − − − n S t D n S t D D n D n , 1 2 1 , 2 ; α α Entonces Ejemplo:

Consideramos el ejemplo planteado al comienzo. Deseamos un intervalo de nivel 0.90 Sean las variables aleatorias

j

X1 : “tiempo en segundos que tarda el individuo j en estacionar automóvil 1” con j=1,2,...,n

j

X2 : “tiempo en segundos que tarda el individuo j en estacionar automóvil 2” con j=1,2,...,n Medimos estas variables de manera que tenemos las siguientes observaciones

Automóvil 1 Automóvil 2 diferencia sujeto (observación x1j) (observación x2j) D j

1 37.0 17.8 19.2 2 25.8 20.2 5.6 3 16.2 16.8 -0.6 4 24.2 41.4 -17.2 5 22.0 21.4 0.6 6 33.4 38.4 -5.0 7 23.8 16.8 7.0 8 58.2 32.2 26.0 9 33.6 27.8 5.8 10 24.4 23.2 1.2 11 23.4 29.6 -6.2 12 21.2 20.6 0.6 13 36.2 32.2 4.0 14 29.8 53.8 -24.0

A partir de la columna de diferencias observadas se calcula D =1.21 y SD =12.68

Además 0.05,13 1.771 1 , 2 = = − t t n

α , entonces el intervalo para la diferencia µD =µ1−µ2 de nivel 0.90

es       =       × + × − 4.79; 7.21 14 68 . 12 771 . 1 21 . 1 ; 14 68 . 12 771 . 1 21 . 1

Cuando las observaciones se dan de a pares

(

X11,X21

) (

; X12,X22

)

;...;

(

X1n ,X2n

)

1 , y las

diferen-cias

j j j X X

D = 12 son tales que Dj ~N

(

µDD2

)

para j=1,2,...,n, un intervalo de confianza de nivel 1−α para µD1−µ2 es      + − − − n S t D n S t D D n D n , 1 2 1 , 2 ; α α (8.7)

(20)

9.7 – Intervalo de confianza para la varianza de una distribución normal

Supongamos que se quiere hallar un intervalo de confianza para la varianza σ2 de una

distribu-ción normal.

Sea

(

X1,X2,...,Xn

)

una muestra aleatoria de una v.a. X, donde X ~ N(µ,σ2).

Tomamos como estimador puntual de σ2 a

(

)

2 1 1 2 1 1

= − − = n Xi X n S

Luego a partir de este estimador puntual construimos el estadístico

(

2

)

2 1 σ S n X = −

Este estadístico contiene al parámetro desconocido a estimar σ2 y tiene una distribución conocida,

se puede probar que X tiene una distribución llamada ji-cuadrado con n-1 grados de libertad Observación: Si X es una v.a. continua se dice que tiene distribución ji-cuadrado con k grados de libertad si su f.d.p. es

( )

0 2 2 1 ) ( 2 1 2 2 >       Γ = xex k x f k x k Notación: X~χk2

La distribución ji-cuadrdo es asimétrica. En la figura siguiente se grafica la densidad para diferen-tes valores de k 10 20 30 40 50 60 0.02 0.04 0.06 0.08 0.1 0.12

Anotaremos χ2α,k al cuantil de la ji-cuadrado con k grados de libertad que deja bajo la fdp a

dere-cha un área de α, y a su izquierda un área de 1−α. Propiedades:

1- Se puede probar que si X1,X2,...,Xn son variables aleatorias independientes con distribución )

1 , 0 (

N entonces Z = X12+ X22+...+ Xn2 tiene distribución ji-cuadrado con n grados de libertad. 30 15 2 = = = k k k

(21)

2- Si X1,X2,...,Xn son variables aleatorias independientes tal que X tiene distribución ji-i cuadrado con k grados de libertad, entonces i Z = X1+ X2+...+Xn tiene distribución ji-cuadrado con k grados de libertad donde k =k1+k2+...+kn

3- Si Xk2 entonces para k grande

     1 , 1 2 ~ 2X N k aproximadamente.

Para desarrollar el intervalo de confianza planteamos hallar dos números a y b tales que

P

(

aXb

)

=1−α es decir

(

)

α σ = −     ≤ − ≤ 12 1 2 b S n a P

Se puede probar que la mejor elección de a y b es: 2

1 , 2 1− − = n a χ α y 2 1 , 2 − = n b χα Por lo tanto

(

)

χ α σ χ α α = −       ≤ − ≤ − − − 1 1 2 1 , 2 2 2 2 1 , 2 1 n n S n P y despejando σ2 se llega a

(

)

(

)

α χ σ χα α = −         − ≤ ≤ − − − − 1 1 1 2 1 , 2 1 2 2 2 1 , 2 2 n n S n S n P Entonces 2 α α − 1 2 1 , 2 1−αn− χ 2 1 , 2n− α χ 2 α 5 = k

(22)

Observación: un intervalo de confianza para σ de nivel 1−α, es

(

)

(

)

          − − − − − 2 1 , 2 1 2 2 1 , 2 2 1 ; 1 n n S n S n α α χ χ Ejemplo:

Un fabricante de detergente líquido está interesado en la uniformidad de la máquina utilizada para

llenar las botellas. De manera específica, es deseable que la desviación estándar σ del proceso de

llenado sea menor que 0.15 onzas de líquido; de otro modo, existe un porcentaje mayor del desea-ble de botellas con un contenido menor de detergente. Supongamos que la distribución del volu-men de llenado es aproximadavolu-mente normal. Al tomar una muestra aleatoria de 20 botellas, se ob-tiene una varianza muestral S2 =0.0153. Hallar un intervalo de confianza de nivel 0.95 para la verdadera varianza del volumen de llenado.

Solución:

La v.a. de interés es X: “ volumen de llenado de una botella” Se asume que X ~ N(µ,σ2) con σ desconocido.

Estamos en las condiciones para aplicar (8.8)

Tenemos que 1−α = 0.95 → α =0.05 → 2 02.975,19 8.91 1 , 2 1− − = χ = χ α n y 32.85 2 19 , 025 . 0 2 1 , 2 = = − χ χα n Además S2 =0.0153 Por lo tanto el intervalo es

(

)

(

)

(

)

(

)

(

0.00884; 0.0326

)

91 . 8 0153 . 0 1 20 ; 85 . 32 0153 . 0 1 20 1 ; 1 2 1 , 2 1 2 2 1 , 2 2 =       − × − × =           − − − − − n n S n S n α α χ χ Y un intervalo para σ es

(

0.00884; 0.0326

)

=

(

0.09; 0.1805

)

Por lo tanto con un nivel de 0.95 los datos no apoyan la afirmación que σ <0.15

9.8 – Intervalo de confianza para el cociente de varianzas de dos distribuciones normales

Si

(

X1,X2,...,Xn

)

es una muestra aleatoria de una v.a. X, donde X ~ N(µ,σ2), un intervalo de confianza para σ2 de nivel 1−α es

(

)

(

)

          − − − − − 2 1 , 2 1 2 2 1 , 2 2 1 ; 1 n n S n S n α α χ χ (8.8)

(23)

175 Supongamos que se tienen dos poblaciones normales e independientes con varianzas desconocidas

2 1

σ y σ22 respectivamente. Se desea encontrar un intervalo de nivel 1−α para el cociente de las

dos varianzas 2 2 2 1 σ σ .

Se toma una muestra aleatoria de tamaño n de una de las poblaciones y una muestra de tamaño 1

2

n de la otra población. Sean 2 1

S y 2 2

S las dos varianzas muestrales. Consideramos el estadístico 2 1 2 1 2 2 2 2 σ σ S S F =

Notar que F contiene al parámetro de interés 2

2 2 1 σ σ , pues 2 2 2 1 2 1 2 2 σ σ × × = S S F

Se puede probar que F tiene una distribución llamada Fisher con n2 −1 y n1−1 grados de libertad. Observación:

Sea X una variable aleatoria continua, se dice que tiene distribución Fisher con u grados de libertad en el numerador y v grados de libertad en el denominador si su fdp es de la forma

< <∞       +             Γ       Γ             + Γ = +x x v u v u x v u v u x f u v u u 0 1 2 2 2 ) ( 2 1 2 2

En particular si W e Y son variables aleatorias independientes ji-cuadrado con u y v grados de liber-tad respectivamente, entonces el cociente

v Y u W F =

Tiene una distribución Fisher con u grados de libertad en el numerador y v grados de libertad en el

denominador. Notación: F ~ Fu,v

La gráfica de una distribución Fisher es similar a la de una ji-cuadrado, es asimétrica. Anotamos

v u

fα, , al cuantil que deja a su derecha un área de α bajo la curva de densidad. 20 ; 15 = = v u α

(24)

Existe la siguiente relación entre los cuantiles de una Fu,v y de una Fv,u u v v u f f , , , , 1 1 α α = −

Planteamos la siguiente ecuación P

(

aFb

)

=1−α y se pede probar que la mejor elección de a y b es : 1 , 1 , 2 1− 2− 1− = n n f a α y 1 , 1 , 2 2− 1− = n n f b α Entonces α σ σ α α = −       ≤ ≤ − − − − − , 1, 1 1 2 2 1 2 1 2 2 2 2 1 , 1 , 2 1 n2 n1 n2 n1 f S S f P Despejando el cociente 2 2 2 1 σ σ queda : α σ σ α α = −       ≤ ≤ − − − − − , 1, 1 1 2 2 2 2 1 2 2 2 1 1 , 1 , 2 1 2 2 2 1 1 2 1 2 n n n n S f S f S S P Por lo tanto 20 ; 15 = = v u 2 α 2 α 1 , 1 , 2 1− n2− n1− f α 1 , 1 ,n2− n1− fα

(25)

Ejemplo:

Una compañía fabrica propulsores para uso en motores de turbina. Una de las operaciones consiste en esmerilar el terminado de una superficie particular con una aleación de titanio. Pueden emplear-se dos procesos de esmerilado, y ambos pueden producir partes que tienen la misma rugosidad superficial promedio. Interesaría seleccionar el proceso que tenga la menor variabilidad en la rugo-sidad de la superficie. Para esto se toma una muestra de 12 partes del primer proceso, la cual tiene una desviación estándar muestral S1 =5.1 micropulgadas, y una muestra aleatoria de 15 partes del

segundo proceso, la cual tiene una desviación estándar muestral S2 =4.7 micropulgadas. Se desea

encontrar un intervalo de confianza de nivel 90% para el cociente de las dos varianzas.

Suponer que los dos procesos son independientes y que la rugosidad de la superficie está distribui-da de manera normal.

Solución:

Estamos en las condiciones para aplicar (8.9)

Buscamos en la tabla de la Fisher 0.39

58 . 2 1 1 14 , 11 , 05 . 0 11 , 14 , 95 . 0 1 , 1 , 2 1 2 1 = = = = − − − f f f n n α y 0.05,14,11 2.74 1 , 1 , 2 2 1 = = − − f f n n α Entonces el intervalo es

[

0.46; 3.23

]

2.74 7 . 4 1 . 5 ; 39 . 0 7 . 4 1 . 5 2 2 2 2 =      

Como este intervalo incluye al 1, no podemos afirmar que las desviaciones estándar de los dos procesos sean diferentes con una confianza de 90%.

9.9 – Intervalo de confianza para una proporción

Sea una población de tamaño N (eventualmente puede ser infinito) de cuyos individuos nos

inter-esa cierta propiedad A. Supongamos que la probabilidad de que un individuo de la población

veri-fique A es p=P

( )

A .El significado del parámetro p es, en consecuencia, el de proporción de

indi-viduos de la población que verifican la propiedad A. Podemos definir una variable

aleatoria X que mide a los individuos de la población la ocurrencia o no de la propiedad i A . La variable aleatoria tendrá la distribución:

Si se tienen dos poblaciones normales e independientes con varianzas desconocidas 2

1

σ y 2

2

σ

respectivamente, entonces un intervalo de nivel 1−α para el cociente de las dos varianzas

2 2 2 1 σ σ es      − − − − − , 1, 1 2 2 2 2 1 1 , 1 , 2 1 2 2 2 1 1 2 1 2 ; n n n n f S S f S S α α (8.9)

(26)

( )

( )

(

)

( )

(

)

    − = = = = = = = , 1 0 0 1 1 p X P p p X P p x p i i

es decir, Xi es una v.a. que toma sólo dos valores: 1 (si el individuo verifica A) con probabilidad p

y 0 (cuando no verifica A) con probabilidad 1-p. Esto es equivalente a decir que Xi tiene una

distri-bución binomial con parámetros 1 y p: Xi ~ B(1,p).

Supongamos que consideramos una muestra aleatoria

(

X1,X2...,Xn

)

de tamaño n . Si formamos

el estadístico X = X1+X2+...+ Xn , es evidente que esta v.a. mide el número de individuos de la muestra de tamaño n que verifican la propiedad A. Por lo tanto por su significado X es una v.a. cuya distribución es binomial con parámetros n y p: X~B(n,p). De acuerdo con esto, la variable aleatoria Pˆ definida:

n X

Pˆ = representa la proporción de individuos de la muestra que verifican la

propiedad A.

Observemos que siendo Xi ~ B(1,p) es E

( )

Xi = . Y, dado que X~B(n,p), también es p

( )

( )

np p n X E n n X E E = = =     

= 1 1 , es decir Pˆ es un estimador insesgado de p . Esto es de

espe-rar pues

= = = n i i X n n X P 1 1 ˆ .

Pero además, es fácil ver que Pˆ es estimador consistente de p . En efecto, tenemos que E

( )

= , p pero también es

( )

(

)

(

)

n p p p np n n X V V = − = −      = 12 1 1 .

Deseamos construir un intervalo de confianza de p. Es razonable basarnos en el estimador

insega-do Pˆ . Consideramos como pivote a la variable aleatoria

(

)

n p p p Z − − =

1 cuya distribución es, para n suficientemente grande, aproximadamente N(0,1). En

efecto: Siendo n X n X n X Pˆ= 1 + 2 +...+ n , es

( )

= =       = n i i p n X E P E 1 ˆ y

( )

(

)

= − =       = n i i n p p n X V P V 1 1 ˆ Por lo tanto:

(

1

)

~

( )

0,1 ˆ N n p p p P Z grande n − − = ,

El pivote puede ponerse en una forma más conveniente si tenemos en cuenta que, según vimos

recién, Pˆ es estimador consistente de p y en consecuencia, en el denominador reemplazamos el

(27)

( )

− ≈ − = n P P p P Z ˆ 1 ˆ ˆ N(0,1). aproximadamente si n es grande

Partiendo de este pivote podemos seguir los mismos pasos de los casos anteriores para llegar al siguiente intervalo de confianza al nivel 1−α de p:

( )

( )

        + − − n P P z P n P P z Pˆ ˆ1 ˆ , ˆ ˆ1 ˆ 2 2 α α con 2 1 2 α α= −       Φ z . Entonces Observaciones:

1- Este procedimiento depende de la aproximación normal a la distribución binomial. Por lo tanto el intervalo (8.10) se puede utilizar si nPˆ >10 y n(1− Pˆ)>10, es decir, la muestra debe contener un mínimo de diez éxitos y diez fracasos.

2- La longitud del intervalo es

( )

n P P z L 2 ˆ1 ˆ 2 −

= α , pero esta expresión está en función de Pˆ

Si nos interesa hallar un valor de n de manera tal que la longitud L sea menor que un valor deter-minado, podemos hacer dos cosas:

a) tomar una muestra preliminar, con ella estimar p con Pˆ y de la expresión anterior despejar n, lo que lleva a

( )

P

( )

P l z n l n P P z L ˆ1 ˆ 2 ˆ 1 ˆ 2 2 2 2 −           ≥ ⇒ ≤ − = α α

b) si no tomamos una muestra preliminar, entonces acotamos Pˆ

( )

1− Pˆ ≤0.5×

(

1−0.5

)

, entonces

( )

(

)

2 2 2 2 5 . 0 1 5 . 0 2 ˆ 1 ˆ 2           ≥ ⇒ ≤ − ≤ − = l z n l n z n P P z L α α α Ejemplo:

Si Pˆ es la proporción de observaciones de una muestra aleatoria de tamaño n que verifican una propiedad de interés, entonces un intervalo de confianza para la proporción p de la población

que cumple dicha propiedad de nivel aproximadamente 1−α es

( )

( )

        + − − n P P z P n P P z Pˆ ˆ1 ˆ , ˆ ˆ1 ˆ 2 2 α α (8.10)

(28)

Un fabricante de componentes compra un lote de dispositivos de segunda mano y desea saber la proporción de la población que están fallados. Con ese fin experimenta con 140 dispositivos elegi-dos al azar y encuentra que 35 de ellos están fallaelegi-dos.

a) Calcular un intervalo de confianza del 99% para la proporción poblacional p.

b) ¿De qué tamaño deberá extraerse la muestra a fin de que la proporción muestral no difiera de la proporción poblacional en más de 0.03 con un 95% de confianza?

Solución:

a) El tamaño de la muestra es n=140 (muestra grande)

La proporción muestral es 0.25 140 35 ˆ = = P El nivel de confianza es 1−α =0.99→ α =0.01 → 0005 2 . α = .

De la tabla de la normal estandarizada vemos que z0.005 =2.58. Entonces el intervalo buscado es:

(

)

(

)

[

]

34441 . 0 , 15558 . 0 140 25 . 0 1 25 . 0 58 . 2 25 . 0 , 140 25 . 0 1 25 . 0 58 . 2 25 . 0 =      − + − −

b) Buscamos el tamaño n de la muestra tal que con un 95% de confianza la proporción muestral Pˆ

esté a una distancia 0.03 de la proporción poblacional p, es decir buscamos n tal que

03 . 0

2 ≤

L

, por lo tanto como α =0.05 → 0.025

2 =

α

si tomamos la muestra anterior como pre-liminar :

( )

0.25

(

1 0.25

)

800.3333 03 . 0 2 96 . 1 2 ˆ 1 ˆ 2 2 2 2 =      × × = −           ≥ P P l z n α

Por lo tanto hay que tomar una muestra de tamaño por lo menos 801. como ya se tomó una

mues-tra de tamaño 140, hay que tomar omues-tra adicional de tamaño 801−140=661

Supongamos que no tomamos una muestra inicial, entonces directamente planteamos

1067.1111 03 . 0 2 96 . 1 2 2 2 =      × =           ≥ l z n α

Entonces hay que tomar una muestra de tamaño 1068 por lo menos.

9.10 – Intervalo de confianza para la diferencia entre dos proporciones

Supongamos que existen dos proporciones de interés p1 y p2 y es necesario obtener un intervalo

Figure

Actualización...

Referencias

Actualización...

Related subjects :