Intervalos de confianza: Definiciones

(1)

Tema 3: Estimaci´ on estad´ıstica de modelos probabilistas.

(segunda parte)

Estructura de este tema:

1 T´ecnicas de muestreo y estimaci´on puntual.

2 Estimaci´on por intervalos de confianza.

3 Contrastes de hip´otesis.

(2)

Planteamiento del problema

SeaX₁, . . . ,X_n una m.a. de una poblaciónX con función de distribuciónFθ, siendoθ un parámetro desconocido: X ∼Fθ. Laestimación puntualnos proporciona un valor concreto como aproximación de un parámetro desconocido: ˆθ. Sin embargo, en general no se precisa la incertidumbre existente en dicha

estimaci´on.

Laestimación por intervalos de confianzanos proporciona un intervalo de valores donde el parámetroθ se puede encontrar, especificando además el grado de fiabilidad de la estimación.

Observaci´on: Cuando decimos que el estimador deµes, p.e., 7.15, lo que estamos diciendo en realidad es que es, aproximadamente, 7,15. Para

cuantificar este “aproximadamente” lo hacemos con los Intervalos de Confianza.

Probabilidad y Estad´ıstica. Profesora: Eva Tour´ıs Estimaci´on por intervalos de confianza 2

(3)

Intervalos de confianza: Definiciones

Unintervalo de confianza, IC,para el par´ametroθ es un intervalo, calculado a partir de la muestra , que contiene aθcon un alto grado de fiabilidad.

La f´ormula general de los intervalos que vamos a estudiar es:

IC(θ) = (ˆθ∓Margen de error) Elmargen de error(oerror m´aximo) depende

• de la precisi´on del estimador utilizado,

• delgrado de fiabilidad con el que queremos que el intervalo contenga al par´ametro.

Elgrado de fiabilidad de que el verdadero valor del par´ametro se encuentre en el IC construido, se denominanivel de confianzay se denota por 1−α, dondeα es un valor entre 0 y 1 fijado previamente.

(4)

Elnivel de confianza1−α es la probabilidad de que θ se encuentre en el intervalo construido (IC):

1−α=P{θ∈IC(θ)}=P{θ∈(ˆθ∓Margen de error)}

Elnivel de significancia α es la probabilidad de equivocarnos al afirmar que el par´ametro se encuentra en el IC obtenido:

α=P{θ /∈IC(θ)}=P{θ /∈(ˆθ∓Margen de error)}

Obs: Habitualmente se trabaja con niveles de confianza del 90%

(α= 0.1),del 95% (α= 0.05) y del 99% (α= 0.01).

(5)

¿C´ omo construir Intervalos de Confianza?

Ejemplo “ilustrativo”: IC para la media de una poblaci´on normal (con varianzaσ² conocida)

La resistencia de ciertos componentes eléctricos fabricados en un proceso es una v.a. que sigue una distribución Normal con media desconocida (en ohmios) y desviación t´ıpica conocidaσ = 0.25 ohmios²: X ∼N(µ,0.25).

Queremos estimar la concentraci´on media,µ, con un nivel de confianza del 95%.

Primer paso: De una muestra de 12 observaciones obtenemos que la concentraci´on media es ¯x= 24.93. Esto significa queµ≈24.93.

Obs: Por supuesto,µ6= 24.93. Si tomáramos otras 12 piezas distintas nos habr´ıa resultado una estimación deµdiferente. Un IC es una forma de precisar qué significaµ≈24.93.

Segundo paso: Queremos construir un IC de la forma (¯x∓C) que contenga al verdadero valorµ. ¿C´omo ser´a C?...

(6)

Teniendo en cuenta que siX ∼N(µ, σ), entonces ¯X ∼N

µ,^√^σ_n

, buscamos un n´umero C tal que:

P{X¯−C < µ <X¯+C}= 1−α ⇐⇒

P{µ−C <X¯ < µ+C}= 1−α ⇐⇒

Z=^X^¯^−µ

σ/√

n∼N(0,1)

P{ −C σ/√

n <Z < C σ/√

n}= 1−α ⇐⇒

P{Z ≥ C σ/√

n

| {z }

z_α/2

}= α

2 =⇒ C =z_α/2 σ

√n

Por tanto IC1−α(µ) =

¯

x−z_α/2 σ

√n, x¯+z_α/2 σ

√n

=

¯

x∓ z_α/2 σ

√n

| {z }

error m´aximo

(7)

Si particularizamos a un nivel de confianza del 95% y tama˜no muestral 12, se cumple:

IC_95%(µ) = (¯x∓1.96·0.072) es decir: ¯x−1.96·0.072< µ <x¯+ 1.96·0.072.

Podemos afirmar que, aproximadamente para el 95% de las muestras de tama˜no 12, se cumple que µ∈( ¯X∓0.1411).

Decimos que (24.93∓0.1411) es un IC paraµa un nivel de confianza del 95%.

Cuestiones:

• Con los mismos datos del ejemplo anterior calcula los IC cuyos nivel de confianza sean 90% y 99%.

• Si ¯x= 24.93 pero la muestra era de 36 observaciones en lugar de 12. Calcula un IC de nivel 95%.

• Si ¯x= 24.93 con una muestra de 36 observaciones pero σ= 1 en lugar de σ= 0.25. Calcula un IC de nivel 95%.

(8)

F´ormula general: Un IC con nivel de confianza 1−α para la media de una poblaci´on normal con σ conocida viene dado por:

IC1−α(µ) =

¯

x∓z_α/2 σ

√n

Aparecen tres cantidades variables: la confianza, 1−α;el tama˜no muestral,n;el error m´aximo,z_α/2^√^σ_n.

• A mayor tama˜no muestral,n, se reduce el intervalo de confianza (se reduce el error).

• A mayor confianza exigida, 1−α, aumenta el intervalo de confianza (aumenta el error).

Cualesquiera dos de estas tres cantidades permiten determinar la otra tercera.

Fijado un nivel de confianza, podemos encontrar el tamaño de la muestra necesario para que el error de la estimación sea tan pequeño como queramos.

Esto ocurre en el resto de los intervalos de confianza que veremos.

(9)

Interpretaci´on del nivel de confianza

• Si para estimar un parámetro hemos recogido muchas muestras, con cada muestra obtendremos distintos intervalos de confianza. Entre éstos algunos contendrán el verdadero valor del parámetro y otros no.

• Al tomar muchos intervalos, la proporci´on de ellos que

contiene al par´ametro ser´a aproximadamente el (1−α)100%.

Ejemplo: Se extraen 100 muestras de tama˜non= 20 de una poblaci´on normal con mediaµ= 0 y σ= 1.

Para cada muestra se calcula ¯x y el intervalo de confianza paraµ de nivel 95% (suponemos varianza poblacional conocida) es:

IC_95%(µ) =

¯

x∓z_0.025 σ

√n

=

¯

x∓1.96 1

√20

.

(10)

x₁⁽¹⁾, . . . ,x₂₀⁽¹⁾ → IC⁽¹⁾_95%(µ) =

¯

x⁽¹⁾∓1.96/√ 20

. x₁⁽²⁾, . . . ,x₂₀⁽²⁾ → IC⁽²⁾_95%(µ) =

¯

x⁽²⁾∓1.96/√ 20

. ...

x₁⁽¹⁰⁰⁾, . . . ,x₂₀⁽¹⁰⁰⁾ → IC⁽¹⁰⁰⁾_95% (µ) =

¯

x⁽¹⁰⁰⁾∓1.96/√ 20

. Se representa un histograma de las 100 medias obtenidas, as´ı como los 100 intervalos (en verde si contienen el valor 0 y en rojo si no).

Medias

Frecuencias

−0.4 −0.2 0.0 0.2 0.4 0.6

0510152025

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−3−2−10123

Intervalos

(11)

Ejemplo 3.4: Con el fin de determinar las imprecisiones en la velocidad de transmisión en un servidor de la universidad, se descarga un fichero de 2Mb de él y se anota el tiempo necesario para la descarga. Suponemos que la variable “Tiempo de descarga de ficheros de 2 Mg” sigue una distribución Normal con desviación t´ıpica de 0,12 seg². En el d´ıa de hoy se extrae una muestra aleatoria de 60 cuyo tiempo medio es de 4,07 seg.

(a) Hallar un IC del 99% para el tiempo medio de descarga del servidor el d´ıa de hoy.

(b) Sin realizar los c´alculos, determinar si un IC del 95% para la media poblacional tendr´ıa mayor, menor o la misma longitud que el de (a).

(c) Se decide que mañana se tomará una muestra de 20. Sin realizar los cálculos, determinar si un IC del 99% para el tiempo medio de descarga mañana tendr´ıa mayor, menor o la misma longitud que el de (a).

(d) Se sabe que la desviaci´on t´ıpica poblacional para la descarga de hoy es de 0,15 seg². Sin realizar los c´alculos, determinar si un IC del 99%

para el tiempo medio de descarga hoy tendr´ıa mayor, menor o la misma longitud que el de (a).

(12)

Siguiente objetivo:

Acabamos de ver c´omo se deduce el IC para el par´ametro µde una v.a. X ∼N(µ, σ), conσ un datoconocido:

IC(µ) =

¯

x−z_α/2 σ

√n, x¯+z_α/2 σ

√n

=

¯

x∓z_α/2 σ

√n

La idea es ver c´omo son los IC de los distintos par´ametros asociados a las distribuciones que hemos estudiado en clase:

• IC(µ) siX ∼N(µ, σ), conσ un datodesconocido,

• IC(σ) siX ∼N(µ, σ), conµ un datoconocido odesconocido,

• IC(µ) e IC(σ) siX ∼N(µ, σ) con ambos par´ametros desconocidos.

• IC(p) siX ∼Bernoulli(p)

• IC(λ) si X ∼Poisson(λ)

Todas estos intervalos se “basan” en el intervalo anterior, pero necesitamos estudiar unas “variantes” de la distribuci´on normal.

(13)

Distribuciones asociadas a la normal

Las siguientes distribuciones de probabilidad aparecen de modo natural a partir de muestras de distribuciones normales.

La distribuci´on χ² de Pearson

SeanX₁, . . . ,X_n v.a. independientes id´enticamente distribuidas (i.i.d.) con distribuci´onN(0,1). La variable aleatoriaPn

i=1X_i² sigue una distribuci´on χ² de Pearson con n grados de libertad:

n

X

i=1

X_i² ∼χ²_n;α

n→ ∞ ⇒χ²_n;α →z_α∼N(0,1)

0 0.2 0.4 0.6 0.8 1

Densidad de la χ²_n

χ²₁ χ²₂ χ²₃ χ²₄ χ²₅

(14)

La distribuci´on t de Student

SeanY,X₁, . . . ,X_n v.a.i.i.d. con distribuci´onN(0,1). La variable aleatoria Y

q1 n

Pn i=1X_i²

sigue una distribuci´ont de Student con n grados de libertad:

Y q1

n

Pn i=1X_i²

∼tn;α

n→ ∞ ⇒tn;α→zα ∼N(0,1)

−5 0 5

0 0.1 0.2 0.3 0.4

Densidad de la t

N(0,1) t₅ t2

(15)

(16)

La distribuci´on F de Fisher

SeanX1, . . . ,Xm,Y1, . . . ,Ynv.a.i.i.d. con distribuci´onN(0,1). La

v.a. 1

m

Pm i=1X_i²

1 n

Pn j=1Y_j²

sigue una distribuci´onF de Fisher con my n grados de libertad:

1 m

Pm i=1X_i²

1 n

Pn

j=1Y_j² ∼F_m,n;α

m,n→ ∞ ⇒Fm,n;α →zα∼N(0,1)

0 1 2 3 4 5 6

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

Densidad de la F

F5,3

F4,6

(17)

Tablas de la distribuci´on F_n₁_,n₂

Normal (α= 0.05) y negrita(α= 0.01).

n1 grados de libertad: primer sub´ındice.

n2: grados de libertad: segundo sub´ındice.

TABLA 4: DISTRIBUCIÓN F DE FISHER Puntos de Porcentaje de la distribución F

5 % (normal) y 1 % (negritas) puntos para la distribución de F n1 grados delibertad (para el mayor cuadrado medio)

1 2 3 4 5 6 7 8 9 10 11 12 14 16 20 24 30 40 50 75 100 200 500

1 161 199 216 225 230 234 237 239 241 242 243 244 245 246 248 249 250 251 252 253 253 254 254 254 1

4052 4999 5404 5624 5764 5859 5928 5981 6022 6056 6083 6107 6143 6170 6209 6234 6260 6286 6302 6324 6334 6350 6360 6366 2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.40 19.41 19.42 19.43 19.45 19.45 19.46 19.47 19.48 19.48 19.49 19.49 19.49 19.50 2

98.50 99.00 99.16 99.25 99.30 99.33 99.36 99.38 99.39 99.40 99.41 99.42 99.43 99.44 99.45 99.46 99.47 99.48 99.48 99.48 99.49 99.49 99.50 99.50 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.76 8.74 8.71 8.69 8.66 8.64 8.62 8.59 8.58 8.56 8.55 8.54 8.53 8.53 3

34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23 27.13 27.05 26.92 26.83 26.69 26.60 26.50 26.41 26.35 26.28 26.24 26.18 26.15 26.13 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.94 5.91 5.87 5.84 5.80 5.77 5.75 5.72 5.70 5.68 5.66 5.65 5.64 5.63 4

21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.45 14.37 14.25 14.15 14.02 13.93 13.84 13.75 13.69 13.61 13.58 13.52 13.49 13.46 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.70 4.68 4.64 4.60 4.56 4.53 4.50 4.46 4.44 4.42 4.41 4.39 4.37 4.37 5

16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.96 9.89 9.77 9.68 9.55 9.47 9.38 9.29 9.24 9.17 9.13 9.08 9.04 9.02 6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.03 4.00 3.96 3.92 3.87 3.84 3.81 3.77 3.75 3.73 3.71 3.69 3.68 3.67 6

13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.79 7.72 7.60 7.52 7.40 7.31 7.23 7.14 7.09 7.02 6.99 6.93 6.90 6.88 7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.60 3.57 3.53 3.49 3.44 3.41 3.38 3.34 3.32 3.29 3.27 3.25 3.24 3.23 7

12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.54 6.47 6.36 6.28 6.16 6.07 5.99 5.91 5.86 5.79 5.75 5.70 5.67 5.65 8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.31 3.28 3.24 3.20 3.15 3.12 3.08 3.04 3.02 2.99 2.97 2.95 2.94 2.93 8

11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.73 5.67 5.56 5.48 5.36 5.28 5.20 5.12 5.07 5.00 4.96 4.91 4.88 4.86 9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.10 3.07 3.03 2.99 2.94 2.90 2.86 2.83 2.80 2.77 2.76 2.73 2.72 2.71 9

10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.18 5.11 5.01 4.92 4.81 4.73 4.65 4.57 4.52 4.45 4.41 4.36 4.33 4.31 10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.94 2.91 2.86 2.83 2.77 2.74 2.70 2.66 2.64 2.60 2.59 2.56 2.55 2.54 10

10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.77 4.71 4.60 4.52 4.41 4.33 4.25 4.17 4.12 4.05 4.01 3.96 3.93 3.91 Ejemplo:

Para n1 = 9, n2 = 12 grados de libertad:

P[ F > 2.80 ] = 0.05 P [ F > 4.39 ] = 0.01

n2 n2

(18)

Intervalos de confianza en poblaciones normales:

X ∼ N(µ, σ)

Propiedad: Sea X1, . . . ,Xn una muestra aleatoria de una v.a. X, tal queX ∼N(µ, σ). Entonces, los estimadores insesgados ˆµ= ¯X y ˆσ² =S_x² son v.a. independientes que verifican:

X¯ ∼N

µ, σ

√n

⇔ X¯−µ

√σ n

∼N(0,1) X¯−µ

Sx

√n

∼tn−1

(n−1)S_x²

σ² ∼χ²_n−1

(19)

Intervalos de confianza en poblaciones normales:

X ∼ N(µ, σ)

Intervalos de confianza para la media µ al nivel de confianza 1−α:

•Si σ es conocido: recordemos que ˆµ= ¯X y usamos z_α/2 IC1−α(µ) =

¯

x−z_α/2 σ

√n,x¯+z_α/2 σ

√n

=

¯

x∓z_α/2 σ

√n

.

•Si σ es desconocido: recordemos adem´as que ˆσ =S_x y en lugar de buscarz_α/2 en las tablas buscamostn−1,α/2

IC1−α(µ) =

¯

x∓t_n−1;α/2 s

√n

si n≤30 IC1−α(µ) =

¯

x∓z_α/2 s

√n

si n>30

(20)

Ejemplo 3.5: En el estudio de la temperatura m´axima que puede alcanzar una resistencia, consideremos la v.a. “tiempo que tarda en alcanzarla”. Se obtiene la siguiente muestra:

1.7 1.6 1.8 1.9 (en segundos) Asumiendo normalidad en los datos:

(a) Estima el tiempo medioµ para toda la poblaci´on de resistencias.

La estimaci´on deµes la media muestral: µ≈µˆ= ¯x

¯

x= 1.7 + 1.6 + 1.8 + 1.9

4 = 1.75.

(b) Halla el error t´ıpico de la estimaci´on anterior: E.T.(¯x)= sx

√n

s_x²=(1.7−1.75)²+ (1.6−1.75)²+ (1.8−1.75)²+ (1.9−1.75)²

3 = 0.017

Por tantosx =√

0.017≈0.13 yE.T.(¯x)= sx

√n = 0.13

2 = 0.065.

(21)

(c) Calcula un intervalo de confianzapara µal 90%.

Como t_3;0.05= 2.353

IC_90%(µ) = (1.75∓2.353×0.065) = (1.597,1.903).

Podemos afirmar que 1.597< µ <1.903 con un nivel de confianza del 90%.

(d) Calcula otro intervalo, pero ahora con un nivel del 95%.

Como t3;0.025 = 3.182, un I.C. con nivel de confianza 1−α = 0.95 es

IC_95%(µ) = (1.75∓3.182×0.065) = (1.543,1.957).

Podemos afirmar que 1.543< µ <1.957 con un nivel de confianza del 95%.

(22)

Intervalos de confianza en poblaciones normales:

X ∼ N(µ, σ)

IC para la varianza σ² al nivel de confianza 1−α:

Recordemos que ⁿ⁻¹_σ2 S_x² ∼χ²_n−1 y P_σ2

n

χ²_{n−1;1−α/2}< (n−1)S_x²

σ² < χ²_n−1;α/2o

= 1−α ⇐⇒

P_σ2

n(n−1)S_x²

χ²_n−1;α/2 < σ² < (n−1)S_x² χ²_{n−1;1−α/2}

o

= 1−α Por tanto,

IC1−α(σ²) = (n−1)s_x²

χ²_n−1;α/2 , (n−1)s_x² χ²_{n−1;1−α/2}

!

(23)

Ejemplo 3.2 (cont.): Se contabiliza el tiempo (en milisegundos) de acceso a un registro de una base de datos. Debido a

imprecisiones en los aparatos, las medidas tienen distribuci´on normal. Se toma una muestra aleatoria de siete tiempos

1,5 2,1 1,9 2,3 2,5 3,2 3,0 (ms) Utilizando estos datos (asumiendo normalidad) construye un IC al 90% para la desviaci´on t´ıpica.

(24)

Intervalos de confianza en poblaciones normales

IC para la diferencia de medias de dos poblaciones normales independientes,X ∼N(µ1, σ) e Y ∼N(µ2, σ), al nivel de confianza1−α:

•Si σ es desconocido: Recordemos que ˆσ=S_x y _S^X^¯^−µ

x/√

n ∼tn−1. Por lo tanto

IC1−α(µ₁−µ₂) = x¯−y¯∓t_m+n−2;α/2s_p r1

m +1 n

! , donde

s_p² = (m−1)s₁²+ (n−1)s₂² m+n−2

es una media ponderada de las cuasivarianzas muestrales s₁²= 1

m−1

m

X

i=1

(x_i −x)¯ ² y s₂² = 1 n−1

n

X

i=1

(y_i−y)¯ ².

(25)

Ejemplo 3.6: La resistencia de ciertos componentes eléctricos fabricados en un proceso es una v.a. que sigue una distribución Normal. Un sistema acopla 2 componentes en serie, A y B, y se realizó un experimento para comparar la resistencia promedio para cada componente (X eY respectivamente).

Se realizaron 24 observaciones del proceso (doce de ellas para el A y las otras doce para el B) y se obtuvieron los siguientes datos:

Para A: ¯x = 26.8 ohmios,s_x² = 15.57 ohmios²; Para B: ¯y = 32.6 ohmios,s_y² = 17.54 ohmios².

Queremos saber si estos datos muestrales proporcionan evidencia de que B realmente tiene mayor resistencia o es fruto del azar.

Para ello contesta a los siguientes apartados:

(a) Calcular un intervalo de confianza del 95% para la diferencia.

(Suponer varianzas iguales).

(b) Teniendo en cuenta el resultado anterior ¿cu´al de los dos componentes tiene mayor resistencia?

(26)

Intervalos de confianza en poblaciones normales

IC para la diferencia de medias de dos poblaciones normales independientes,X ∼N(µ₁, σ₁) e Y ∼N(µ₂, σ₂), al nivel de confianza1−α:

•Si σ1 yσ2 son conocidas

IC1−α(µ1−µ2) = x¯−y¯∓z_α/2 rσ₁²

m +σ₂² n

! .

•Si σ₁ yσ₂ son desconocidas

IC1−α(µ₁−µ₂) = x¯−y¯∓t_f_;α/2 rs₁²

m +s₂² n

!

dondef es el entero m´as pr´oximo a

s2 1 m+^s

22 n

2

(s2 1/m)2 m−1 +^(s

2 2/n)2 n−1

.

(27)

Intervalos de confianza en poblaciones normales

IC para el cociente de las varianzas de dos poblaciones normales independientes,X ∼N(µ1, σ1) e Y ∼N(µ2, σ2), al nivel de confianza1−α:

IC1−α

σ₁² σ₂²

=

s₁²/s₂² Fm−1;n−1;α/2

, s₁²/s₂² Fm−1;n−1;1−α/2

. Observaci´on: F_n₁_;n₂;1−C = 1

Fn2;n1;C

Ejemplo 3.4 (cont.): En el estudio sobre la velocidad de transmisi´on en los servidores de la universidad, se quieren comparar dos de ellos: Servidor I y Servidor II; para lo que se estudia el “Tiempo de descarga de ficheros de 2 Mg” en cada uno (asumimos normalidad en los datos). Se realizan 56 observaciones: 31 con el Servidor I y 25 con el Servidor II; y se obtienen unas cuasivarianzas de 50 y 35 respectivamente. ¿Podemos afirmar, al nivel 90%, que el Servidor I tiene mayor varianza?

(28)

Datos emparejados:

Sea (X1,Y1), . . . ,(Xn,Yn) una muestra aleatoria de (X,Y) donde X e Y no son independientes, pero los pares (Xi,Yi) son

independientes entre s´ı.

DenotemosE(X) =µ₁ yE(Y) =µ₂ y supongamos que D=X −Y ∼N(µ=µ₁−µ₂, σ). Entonces

D1 =X1−Y1, . . . ,Dn =Xn−Yn es una muestra aleatoria de D.

Podemos construir intervalos de confianza paraµ=µ1−µ2 y para σ como mostramos en las transparencias correspondientes a una v.a con distribuci´on: D∼N(µ, σ).

(29)

Ejemplo “ilustrativo”: Para comparar la eficiencia de dos compiladores de cierta marca conocida, se consideraron las variables:

X =“tiempo de ejecuci´on (en seg.) para el Compilador A”

Y =“tiempo de ejecuci´on (en seg.) para el Compilador B”.

A continuaci´on se seleccionaron al azar 14 programas y se ejecutaron con cada uno de los compiladores. Los resultados aparcen en la siguiente tabla:

1 2 3 4 5 6 7 8 9 10 11 12 13 14

X 2.9 4.0 3.4 3.2 3.8 5.2 3.9 3.9 2.5 6.5 5.5 4.0 5.3 4.3 Y 3.9 3.9 3.3 4.3 3.2 3.5 2.7 2.4 3.6 2.1 4.0 3.9 4.0 2.0 Se desea estudiar si estos datos muestrales permiten concluir que el Compilador B es m´as eficiente que el Compilador A.

Resolver este apartado suponiendo que la distribuci´on de los tiempos de ejecuci´on son Normales

(30)

El problema se ha reducido a trabajar con una v.a.: D ∼N(µ, σ);

dondeµ=µX −µY yσ desconocido, por lo tanto hallamos di =xi −yi

1 2 3 4 5 6 7 8 9 10 11 12 13 14

2.9 4.0 3.4 3.2 3.8 5.2 3.9 3.9 2.5 6.5 5.5 4.0 5.3 4.3 3.9 3.9 3.3 4.3 3.2 3.5 2.7 2.4 3.6 2.1 4.0 3.9 4.0 2.0

−1.0 0.1 0.1 −1.1 0.6 1.7 1.2 1.5 −1.1 4.4 1.5 0.1 1.3 2.3

IC_90%(µ) =

d¯∓t_n−1;α/2· s_d

√n

=

d¯∓t_13;0.05· s_d

√14

donde

d¯= 1 14

14

X

i=1

di = 0.83 t_13;0.05= 1.771

s_d = s

P14

i=1(di −d¯)²

13 = 1.39

(31)

Intervalos de confianza para otras distribuciones

Teorema Central del L´ımite: SeaX₁, . . . ,X_n una muestra aleatoria de una v.a. X (discreta o continua) yn grande. Entonces

X¯ ∼N E(X),

rVar(X) n

≡ X¯−E(X) qVar(X)

n

∼N(0,1)

(32)

Intervalos de confianza para otras distribuciones

Intervalo de confianza al1−α para el par´ametro p de una Bernoulli

SeaX1, . . . ,Xn una m.a. de X∼Bernoulli(p). Recordemos que E(X) =p,V(X) =p(1−p) y ˆp= ¯X. Entonces

IC1−α(p) = x¯∓z_α/2

rx(1¯ −x)¯ n

!

(paran grande) Intervalo para diferencia de proporciones de Bernoullis SeanX₁, . . . ,X_m e Y₁, . . . ,Y_n m.a.i. de X ∼Bernoulli(p₁) e Y ∼Bernoulli(p2) respectivamente, tal que ˆp1 = ¯X y ˆp2 = ¯Y. Utilizando los intervalos construidos en secci´on “correspondiente”

obtenemos

IC1−α(p₁−p₂) = x¯−y¯∓z_α/2

rx(1¯ −x)¯

m +y(1¯ −y)¯ n

!

(param y n grandes)

(33)

Ejemplo 3.7: Se van a celebrar unas elecciones y el presidente de un cierto partido pol´ıtico quiere hacer un sondeo de opini´on.

Después de extraer una muestra aletoria simple de tamaño 1000, se observó que 550 personas pensaban votarle a él. ¿Podemos afirmar con un confianza del 99% que dicho presidente será reelegido?.

(34)

Intervalos de confianza para otras distribuciones

Intervalo de confianza al1−α para el par´ametro λde una Poisson

SeaX1, . . . ,Xn una muestra de X ∼Pois(λ). Recordemos que E(X) =V(X) =λy ˆλ= ¯X. Entonces

IC1−α(λ) = x¯∓z_α/2 rx¯

n

!

(paran grande) Intervalo para diferencia de proporciones de Poissones SeanX₁, . . . ,X_m e Y₁, . . . ,Y_n m.a.i. de X ∼Pois(λ₁) e Y ∼Pois(λ2) respectivamente, tal que ˆλ1= ¯X y ˆλ2= ¯Y. Utilizando los intervalos construidos en secci´on “correspondiente”

obtenemos

IC1−α(λ₁−λ₂) = x¯−y¯∓z_α/2 rx¯

m +y¯ n

!

(param yn grandes)

(35)

Ejemplo 3.8: Admitiendo que el número de erratas por página de cierto libro sigue una distribución de Poisson, determinar un intervalo de confianza al 95% del número medio de erratas por página que contiene dicho libro, teniendo en cuenta que se eligieron al azar y con reemplazamiento 100 páginas en las que se observó una media muestral de 0.04 erratas por página.

(36)

M´ınimo tama˜ no muestral

Elerrorcometido al estimar un par´ametro θmediante un intervalo de confianza IC1−α(θ) es la semilongitud del intervalo.

Observaci´on: Esta definici´on tiene sentido principalmente en intervalos del tipo IC1−α(θ) = (ˆθ∓semilongitud).

Objetivo: Determinar el m´ınimo tama˜no muestral n necesario para que el error cometido al estimarθmediante un intervalo de

confianza sea menor que una cierta cantidad.

Queremos que la estimaci´on por intervalo de confianza tenga una determinada precisi´on.

El valor den obtenido debe tomarse como orientativo,

especialmente cuando la semilongitud del intervalo dependa de la muestra observada.

(37)

Ejemplo 3.9: Supongamos que la altura de los individuos de cierta población sigue una distribuciónN(µ,7.5). Hallar el m´ınimo tamaño muestral necesario para estimar la altura media con un margen de error inferior a 2 y con una confianza del 90%.

Determinar el error t´ıpico.