Tema 4. Intervalos de confianza

(1)

Tema 4. Intervalos de confianza

Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 4: Intervalos de confianza 1

(2)

Definici´ on

SeaX una v.a. con distribución de probabilidad dada por un modelo paramétrico cuya expresión matemática es totalmente conocida a excepción de algún parámetro desconocidoθ.

SeaX₁, . . . ,X_n una muestra aleatoria de la poblaci´onX. Fijamos 0< α <1. Sea (T₁,T₂) un intervalo tal que Ti =Ti(X1, . . . ,Xn) parai = 1,2 y

1−α = Pθ{T₁(X1, . . . ,Xn)< θ <T2(X1, . . . ,Xn)}

= P_θ{θ∈(T₁,T₂)}.

Entonces, para cada observaci´on (x₁, . . . ,x_n) de la muestra, el intervalo (T₁(x₁, . . . ,x_n),T₂(x₁, . . . ,x_n)) es unintervalo de confianzapara θal nivel de confianza 1−α.

(3)

Para construir un intervalo de confianza se utiliza elmétodo de la cantidad pivotal. Se puede ver una descripción de este método en el libroEstad´ıstica Aplicada de Julián de la Horra (ver gu´ıa docente de la asignatura).

Nosotros utilizamos directamente las expresiones de los intervalos de confianza que aparecen en el formulario que se puede bajar de la web de la asignatura.

Por ejemplo, seax₁, . . . ,x_n una muestra observada de

X ∼N(µ, σ). Si σ es conocido un intervalo de confianza para µal nivel de confianza 1−α es

IC1−α(µ) =

¯

x−z_α/2 σ

√n,x¯+z_α/2 σ

√n

=

¯

x∓z_α/2 σ

√n

.

(4)

Interpretaci´on intuitiva de un intervalo de confianza:

Si se observan 100 muestras de tama˜non deX ∼F_θ y se

construyen los correspondientes 100 intervalos de confianza paraθ, IC1−α(θ), aproximadamente en (1−α)100 de ellos est´a el

par´ametro desconocidoθ:

x₁⁽¹⁾, . . . ,xn⁽¹⁾ → IC⁽¹⁾_1−α(θ) x₁⁽²⁾, . . . ,xn⁽²⁾ → IC⁽²⁾_1−α(θ) ...

x₁⁽¹⁰⁰⁾, . . . ,xn⁽¹⁰⁰⁾ → IC⁽¹⁰⁰⁾_1−α(θ)

Ver fichero Excel100Ics.xlxs.

(5)

Por qu´e construir un intervalo de confianza

Ejemplo 2.17 (cont.):Una genetista pes´o 28 corderos hembra al nacer. Los pesos fueron:

4.3 5.2 6.2 6.7 5.3 4.9 4.7 5.5 5.3 4.0 4.9 5.2 4.9 5.3 5.4 5.5 3.6 5.8 5.6 5.0 5.2 5.8 6.1 4.9 4.5 4.8 5.4 4.7

Si suponemos queX = peso de un cordero al nacer sigue una distribuci´on N(µ,σ), los e.m.v.

de los par´ametros son ˆµ= ¯x= 5.168 y ˆσ² = 0.413.

Pesos de corderos al nacer

3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0

0.00.20.40.6 Frecuencia

relativa Distribución normal

(6)

Ejemplo 2.17 (cont.):Estas estimaciones puntuales están sujetas aerror de muestreo. No es un meroerror de medida debido a, por ejemplo, la precisión de la báscula. La muestra es “imperfecta”,

“incompleta” porque se han pesado s´olo 28 corderos, en lugar de pesar toda la poblaci´on de corderos Rambouillet de las mismas caracter´ısticas.

ˆ

µ= ¯x = 5.168 es una estimaci´on puntual razonable de µ= “Peso esperado de un cordero hembra Rambouillet nacido en abril y con las caracter´ısticas fijadas en el estudio”, porque sabemos que E( ¯X) =µ.

Para evaluar la fiabilidad o precisi´on de esta estimaci´on puntual ˆ

µ= ¯x podemos considerar la desviaci´on t´ıpica del estimador, pV( ¯X) =σ/√

n, o una estimaci´on de la misma,s/√

n (error t´ıpico de la media muestral). Pero también podemos calcular el intervalo de confianza para el parámetro desconocidoµ, que parece más fácil de interpretar.

(7)

Distribuciones asociadas a la normal

Son distribuciones de probabilidad de ciertos estad´ısticos construidos a partir de muestras de distribuciones normales.

La distribuci´on χ² de Pearson

SeanX₁, . . . ,X_n v.a. independientes id´enticamente distribuidas (i.i.d.) con distribuci´onN(0,1). La variable aleatoriaPn

i=1X_i² sigue una distribuci´on χ² de Pearson conn grados de libertad:

n

X

i=1

X_i² ∼χ²_n

0 2 4 6 8

0 0.2 0.4 0.6 0.8 1

Densidad de la χ²_n

χ²₁ χ²₂ χ²₃ χ²₄ χ²₅

(8)

La distribuci´on t de Student

SeanY,X₁, . . . ,X_n v.a.i.i.d. con distribuci´onN(0,1). La variable aleatoria Y

q1 n

Pn i=1X_i²

sigue una distribuci´ont de Student con n grados de libertad,tn.

−5 0 5

0 0.1 0.2 0.3 0.4

Densidad de la t

N(0,1) t₅ t2

(9)

La distribuci´on F de Fisher

SeanX₁, . . . ,X_m,Y₁, . . . ,Y_nv.a.i.i.d. con distribuci´onN(0,1). La

v.a. 1

m

Pm i=1X_i²

1 n

Pn j=1Y_j²

sigue una distribuci´on F de Fisher con m yn grados de libertad, F_m,n.

0 1 2 3 4 5 6

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

Densidad de la F

F5,3

F4,6

(10)

Intervalos de confianza en poblaciones normales

Propiedad:Sea X₁, . . . ,X_n una muestra aleatoria deX ∼N(µ, σ).

Entonces ¯X yS² son v.a. independientes, X¯ ∼N

µ, σ

√n

, n−1

σ² S² ∼χ²_n−1 y X¯−µ

√S n

∼tn−1

•Sea x₁, . . . ,x_n una muestra de X ∼N(µ, σ). Si σ es conocido un intervalo de confianza paraµal nivel de confianza 1−α es

IC1−α(µ) =

¯

x−z_α/2 σ

√n,x¯+z_α/2 σ

√n

=

¯

x∓z_α/2 σ

√n

.

•Si σ es desconocido, IC1−α(µ) =

¯

x∓t_n−1;α/2 s

√n

y

IC1−α(σ²) = (n−1)s²

χ²_n−1;α/2 , (n−1)s² χ²_{n−1;1−α/2},

! .

(11)

Ejemplo 4.1: Se sabe que una solución estándar de glucosa es 5.05 mM. Se analiza repetidamente mediante el método de la glucosa oxidasa obteniendo

5.15 5.06 5.21 5.18 5.26 .

Suponiendo normalidad, calcular un intervalo de confianza paraµ, la concentraci´on media de glucosa, y decidir si hay alguna

evidencia de error sistem´atico.

Elerror sistemáticoes el que provoca que todas las observaciones de un experimento sean erróneas en el mismo sentido, demasiado grandes o demasiado pequeñas. Entonces las medidas tienensesgo.

5.00 5.05 5.10 5.15 5.20 5.25 5.30 Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 4: Intervalos de confianza 11

(12)

•Seanx1, . . . ,xm e y1, . . . ,yn muestras independientes de X ∼N(µ₁, σ) eY ∼N(µ₂, σ) respectivamente (σ desconocido).

Entonces

IC1−α(µ₁−µ₂) = x¯−y¯∓t_m+n−2;α/2s_p r1

m +1 n

! ,

donde

s_p² = (m−1)s₁²+ (n−1)s₂² m+n−2

es una media ponderada de las cuasivarianzas muestrales s₁²= 1

m−1

m

X

i=1

(x_i −x)¯ ² y s₂² = 1 n−1

n

X

i=1

(y_i−y)¯ ².

(13)

Ejemplo 4.2: La mostaza silvestre (Brassica campestris) tiene un ciclo de crecimiento rápido que la hace adecuada para estudiar factores que afectan al crecimiento de las plantas. En un estudio se trató 7 plantas con Ancymidol y se comparó con 8 plantas de control a las que se les suministró agua potable. Se midieron las alturas de las plantas tras 15 d´ıas de crecimiento, obteniéndose:

Control (X) 15.0 13.2 19.8 14.6 20.3 13.9 21.2 19.3 Ancymidol (Y) 13.2 14.5 11.0 5.8 12.8 7.1 7.7

Suponiendo que estas variables siguen distribuciones normales homoced´asticas, calcular un intervalo de confianza para la

diferencia media de crecimiento entre ambos tipos de tratamiento.

(14)

•Seanx₁, . . . ,x_m e y₁, . . . ,y_n muestras aleatorias independientes deX ∼N(µ1, σ1) eY ∼N(µ2, σ2) respectivamente (σ1 yσ2

desconocidas). Entonces IC1−α

σ₁² σ₂²

=

s₁²/s₂² Fm−1;n−1;α/2

, s₁²/s₂² Fm−1;n−1;1−α/2

.

Observaci´on: Fm;n;1−α = 1 Fn;m;α

Ejemplo 4.2 (cont.):Calcular un intervalo de confianza al 90 % para el cociente de las varianzas.

(15)

•Datos emparejados:Sea (X1,Y1), . . . ,(Xn,Yn) una muestra aleatoria de (X,Y) dondeX e Y no son independientes, pero los pares (Xi,Yi) son independientes entre s´ı.

DenotemosE(X) =µ₁ yE(Y) =µ₂ y supongamos que D=X −Y ∼N(µ=µ1−µ2, σ). Entonces

D₁ =X₁−Y₁, . . . ,D_n =X_n−Y_n es una muestra aleatoria de D.

Podemos construir intervalos de confianza paraµ=µ1−µ2 y para σ como se indic´o en la p´agina 10.

(16)

Ejemplo 4.3: (Ensayo cl´ınico cruzado) Se quiere comparar el efectoX de un nuevo medicamento con el efecto Y de otro ya comercializado. Se administran ambos a 14 personas con

insuficiencia respiratoria, asignando aleatoriamente a cada paciente un tratamiento, y manteni´endolo durante un mes. Luego se le da el tratamiento alternativo durante otro mes. En la cuarta semana de cada tratamiento se observa FEV1 (forced expiratory volume), el volumen de aire que un paciente expulsa en un segundo, tras una inhalaci´on profunda.

Paciente X Y D Paciente X Y D

1 2.9 3.9 -1.0 8 3.9 2.4 1.5

2 4.0 3.9 0.1 9 2.5 3.6 -1.1

3 3.4 3.3 0.1 10 6.5 2.1 4.4

4 3.2 4.3 -1.1 11 5.5 4.0 1.5

5 3.8 3.2 0.6 12 4.0 3.9 0.1

6 5.2 3.5 1.7 13 5.3 4.0 1.3

7 3.9 2.7 1.2 14 4.3 2.3 2.0

Calcular un intervalo de confianza al 90 % para la diferencia media de FEV1 con ambos medicamentos.

(17)

Intervalos de confianza para otras distribuciones

Intervalo para una proporci´on p

SeaX₁, . . . ,X_n una muestra de X∼Bernoulli(p). Por el TCL, X¯ ^aprox∼ N E(X),

rV_X n

!

=N p,

rp(1−p) n

!

'N p,

rp(1ˆ −p)ˆ n

! ,

siendo ˆp= ¯X. Por tanto, IC1−α(p) = x¯∓z_α/2

rx(1¯ −x)¯ n

!

(aproximadamente, paran grande) Ejemplo 4.4: Un laboratorio de cosmética se plantea comercializar una crema para tratar una afección cutánea

espec´ıfica. Para conocer la eficacia de la crema se prueba en una muestra de 50 personas con dicha enfermedad cut´anea. Al cabo de un mes de su uso continuado se observa una clara remisi´on de la enfermedad en 38 de los voluntarios. Construir un intervalo de confianza para la probabilidad de que el producto sea efectivo.

(18)

M´ınimo tama˜ no muestral

El error cometido al estimar un par´ametro θmediante un intervalo de confianza IC1−α(θ) es la semi-amplitud del intervalo.

Observaci´on: Esta definici´on tiene sentido principalmente en intervalos del tipo IC1−α(θ) = (ˆθ∓semilongitud).

Objetivo:Determinar el m´ınimo tama˜no muestral n necesario para que el error cometido al estimarθmediante un intervalo de

confianza sea menor que una cierta cantidad.

Motivación: Queremos que la estimación por intervalo de confianza tenga una determinada precisión.

El valor den obtenido debe tomarse como orientativo,

especialmente cuando la semilongitud del intervalo dependa de la muestra observada.