ESTADÍSTICA 1 o CC. Ambientales Tema 3: Estimación puntual y por intervalos

(1)

ESTAD´ISTICA 1

^o

CC. Ambientales Tema 3: Estimaci´ on puntual

y por intervalos

I Muestra aleatoria. Inferencia estad´ıstica param´etrica I Estimaci´on puntual

I Intervalos de confianza

I Distribuciones asociadas a la normal

I Intervalos de confianza en poblaciones normales I Intervalos de confianza para otras distribuciones

(2)

Muestra aleatoria Inferencia estad´ıstica param´ etrica

Inconveniente:La distribuci´on de probabilidad de la v.a. X de inter´es suele ser desconocida.

Objetivo:Estudiar una v.a. numérica X en una población a partir de la información contenida en una muestra aleatoria de individuos de esa población.

Una muestra aleatoria (simple) de tama˜no n de X es una colecci´on X₁, . . . , X_n tal que

• cada Xi tiene la misma distribuci´on de probabilidad que X ;

• las v.a. X1, . . . , Xn son independientes entre s´ı.

Extraeremos informaci´on acerca de la distribuci´on de probabilidad de X , que es desconocida, a partir de la muestra X1, . . . , X_n de X .

Estad´ıstica (Ambientales). Profesora: Amparo Ba´ıllo Tema 3: Estimaci´on puntual y por intervalos 2

(3)

Simplificaci´on del problema → Estad´ıstica param´etrica:

Supondremos que la distribución de probabilidad de X pertenece a una familia paramétrica de distribuciones concreta (Poisson, normal, . . . ). En este caso, para determinar totalmente la distribución de X solo queda especificar el valor de uno o varios parámetros (λ para la Poisson, µ y σ para la normal).

Los par´ametros que nos van a interesar en este curso son:

• Media y Varianza poblacional(µ y σ²) cuando X ∼ N(µ, σ).

• Proporci´on p de individuos de una poblaci´on que presentan cierta caracter´ıstica.

• Media poblacional(λ) cuando X ∼ Poisson(λ).

(4)

Notaci´on en inferencia param´etrica:

Par´ametro: θ

Espacio paramétrico: Θ, conjunto de posibles valores del parámetro Si X es discreta: función de masa Pθ.

Si X es continua: funci´on de densidad fθ.

Partes de la inferencia param´etrica:

• Estimación puntual:Estimar los parámetros desconocidos a partir de la información de la muestra aleatoria X1, . . . , X_n.

• Estimaci´on por intervalos de confianza

• Contrastes de hip´otesis param´etricas

(5)

Estimaci´ on puntual

Unestimador puntual, ˆθ, de un par´ametro θ es una funci´on real de la muestra, X1, . . . , Xn, que aproxima el valor de θ. Es aleatorio.

Unaestimación (puntual) es el valor numérico concreto que toma un estimador al ser aplicado a una realización muestral x1, . . . , x_n concreta observada.

Tanto el estimador como la estimaci´on se denotan utilizando el s´ımbolo:b (p.e. ˆµ, ˆσ, ˆp, ˆλ) .

Estimadores naturales de la media y varianza poblacional (µ y σ²):

• Media muestral: ˆµ = ¯X = X₁+· · · + Xn

n = 1

n

X

i =1

X_i

• Varianza muestral: ˆσ² = S²= 1 n− 1

n

X

i =1

(Xi− ¯X)²

(6)

Determina en estos ejemplos el parámetro poblacional de interés, su correspondiente estimador y la estimación a partir de los datos.

Ejemplo 3.1: Se est´a estudiando la presencia de cierto microorganismo letal en el aire. En uno de los experimentos se analizaron 35 muestras aleatorias y se observ´o que 6 de ellas conten´ıan el germen.

Ejemplo 3.2: Un laboratorio examina el contenido de azufre en un yacimiento de carb´on en Texas. Debido a imprecisiones en los aparatos, las medidas tienen distribuci´on normal. Se toman 10 muestras aleatorias del yacimiento y se analizan. La media observada es 0.88.

(7)

Un mismo estimador puede tomar diferentes valores num´ericos (diferentes estimaciones), ya que su valor depende totalmente de la muestra concreta observada.

Ejemplo 3.2 (cont.):Los valores observados de azufre fueron:

0.73 0.80 0.90 1.24 0.82 0.72 0.57 1.18 0.54 1.30

¯

x= s² =

Se vuelve al mismo yacimiento y se recogen otras muestras diferentes, obteni´endose los siguientes contenidos en azufre:

1.56 1.22 1.32 1.39 1.33 1.54 1.04 2.25 1.49 1.28

¯

x= s² =

(8)

Antes de la observaci´on:

X₁, . . . , X_n−→





 X¯ S²

T = T (X1, . . . , X_n)

son v.a.’s

Si tomo observaciones concretas de la poblaci´on:

x₁, . . . , x_n−→







¯ x s²

t = T (x1, . . . , xn)

son n´umeros.

Si tomo nuevas observaciones de la poblaci´on:

˜

x1, . . . , ˜xn−→







¯˜x

˜ s²

t˜= T (˜x₁, . . . , ˜x_n)

son otros n´umeros.

(9)

Sea X1, . . . , Xn una muestra aleatoria de una población X cuya distribución de probabilidad es conocida pero depende de un parámetro desconocido θ = (θ1, . . . , θ_k).

Objetivos de la estimaci´on puntual:

• Aproximar/estimar el valor de θ mediante estimadores ˆθ.

• Estudiar m´etodos para hallar estimadores.

• Decidir qu´e estimadores son razonables.

Si X es una v.a. discreta, lafunci´on de masa de la muestraes:

P(x1, . . . , xn) = P{X1= x1, . . . , Xn= xn} = P(x1)· · · P(xn) Si X es continua con densidad f ,la funci´on de densidad de la muestraes:

f(x1, . . . , x_n) = f (x1)· · · f (xn)

(10)

Construcci´on de estimadores puntuales 1. M´etodo de los momentos

El estimador por elm´etodo de los momentos, ˆθ= (ˆθ1, . . . , ˆθ_k), se obtiene al resolver el sistema











E_θ[X ] = _n¹Pn i =1X_i, E_θ[X²] = ¹_nPn

i =1X_i²,

· · ·

Eθ[X^k] = _n¹Pn i =1X_i^k

Observación: Presenta el inconveniente de que la solución puede no pertenecer al espacio paramétrico.

(11)

2. M´etodo de m´axima verosimilitud (MV)

Dada la muestra x1, . . . , xn, la funci´on de verosimilitud es L(θ) = L(θ; x1, . . . , x_n) =

P_θ(x1)· · · Pθ(xn) si X es discreta f_θ(x1)· · · fθ(xn) si X es continua Mide lo veros´ımil que es el valor de un par´ametro θ = (θ1, . . . , θk) teniendo en cuenta la muestra observada.

El estimador demáxima verosimilitud (emv), ˆθ = ( ˆθ1, . . . , ˆθk), es el punto de máximo de la verosimilitud L(θ), que coincide con el punto de máximo de log(L(θ)).

En la pr´actica, para hallar el emv, resolvemos el sistema de ecuaciones

∂ ln(L(θ))

∂θ1

= 0 , . . . , ∂ ln(L(θ))

∂θk

= 0.

(12)

Ejemplo 3.3: Un método para estudiar las sustancias que causan mutaciones consiste en matar a ratones hembra 17 d´ıas después de aparearse y examinar sus úteros en busca de embriones muertos.

La tabla que sigue proporciona datos de 309 hembras.

N^o embriones Recuento muertos de hembras

0 125

1 113

2 52

3 13

4 4

5 1

6 1

7 o m´as 0

Total 309

No embriones Frecuencia Probabilidad

muertos relativa Poisson

0 0.405 e^λ^ˆ

1 0.366 e^λ^ˆλˆ

2 0.168 e^λ^ˆλˆ²/2

3 0.042 e^λ^ˆλˆ³/3!

4 0.013 e^λ^ˆλˆ⁴/4!

5 0.003 e^λ^ˆλˆ⁵/5!

6 0.003 e^λ^ˆλˆ⁶/6!

7 o m´as 0 e^λ^ˆλˆ⁷/7!

0 1 2 3 4 5 6 7 8 9

0.00.10.20.30.4

Frecuencia relativa Distribución de Poisson

(13)

Ejemplos importantes:

Distribuci´on de X emv Bernoulli(p) pˆ= ¯x Poisson(λ) ˆλ = ¯x N(µ,σ) µ = ¯ˆ x

ˆ

σ² = n− 1 n s²

Ejemplo 3.3 (cont.): ˆλ = ¯x = 0.91586

N^o embriones Frecuencia Probabilidad muertos relativa Poisson

0 0.405 0.400

1 0.366 0.367

2 0.168 0.169

3 0.042 0.051

4 0.013 0.012

5 0.003 0.002

6 0.003 0.000

7 o m´as 0 0.000

(14)

Sesgo y Error Cuadr´atico Medio

Una medida del comportamiento del estimador ˆθ es su error cuadr´atico medio(ECM)

Eh

(ˆθ− θ)²i

= Vθ(ˆθ) + (Sesgo(ˆθ))², siendo Sesgo(ˆθ) = E (ˆθ)− θ.

Si E (ˆθ) = θ se dice que el estimador ˆθ es insesgado.

Sesgo

Sesgo(ˆθ) = E(ˆθ)− θ.

Un buen estimador debe ser insesgado o tener un sesgo peque˜no.

Estimador insesgado:

13.2. Insesgadez

Insesgadez

θ

5

θ θ Sesgo positivo:

13.2. Insesgadez

Insesgadez

θ

5

θ θ

Sesgo negativo:

13.2. Insesgadez

Insesgadez

θ

5

θ θ

(15)

Propiedades de la media muestral ¯X :

Sea X1, . . . , Xn una muestra aleatoria de una v.a. X con E (X ) = µ y varianza V (X ) = σ².

• Si X tiene distribución normal, entonces la distribución de los valores que toma X¯ es también normal.

Si X ∼ N(µ, σ) =⇒ X¯ ∼ N

µ, σ

√n

.

• Teorema central del l´ımite (TCL): Si n es grande, la distribuci´on de ¯X esaproximadamente normal aunque X no sea normal.

Si n es grande =⇒ X¯ ^aprox∼ N

µ, σ

√n

.

(16)

Distribuci´on de la media muestral

(17)

Ejemplo 3.4: De acuerdo con la Organización Mundial de la Salud un individuo tiene sobrepeso si su ´ındice de masa corporal (IMC) es superior a 25. Se sabe que el IMC de una población es una variable con distribución normal de media µ = 26 y desviación t´ıpica σ = 6. Si se seleccionan aleatoriamente 100 individuos y se calcula la media de sus IMC, ¿cuál es la probabilidad de que esta media sea superior a 25.5?

Otras propiedades:Sea X1,· · · , Xn una muestra aleatoria de una v.a. X con media y varianza poblacional µ y σ² respectivamente

• La media muestral ¯X es unestimador insesgado de la media de la poblaci´on: E ( ¯X) = µ.

• La varianza muestral SX² es unestimador insesgado de la varianza de la poblaci´on: E (S_X²) = σ².

(18)

Error t´ıpico o relativo

Elerror t´ıpicode un estimador es su desviaci´on t´ıpica (o una estimaci´on de la misma).

El error t´ıpico de la media ¯X es su desviaci´on t´ıpica, se( ¯X) = σ

√n

pero en la pr´actica σ es un par´ametro poblacional desconocido.

Resulta natural estimar σ² con la varianza muestral s². Los programas inform´aticos proporcionan el siguiente error t´ıpico de la media muestral

se( ¯X) = s

√n.

(19)

Ejemplo 1.2 (cont.): Contaminaci´on por Hg en el pescado

Estadísticos descriptivos

N Mínimo Máximo Media

Desviación estándar Estadístico Estadístico Estadístico Estadístico

Error

estándar Estadístico LONG

N válido (por lista)

171 25,2 65,0 39,971 ,6513 8,5172

171

(20)

Ejemplo 3.5: En SPSS se pueden generar observaciones aleatorias de algunas distribuciones, por ejemplo, generamos una muestra de tama˜no 20 de una N(2,1). Pinchamos en Transformar -> Calcular variable

Estadísticos descriptivos

N Media

Desviación estándar Estadístico Estadístico

Error estándar Estadístico X

N válido (por lista)

20 1,6618 ,22998 1,02850

20

Página 1

(21)

Intervalos de confianza

Sea X1, . . . , X_n una muestra aleatoria de una población X con función de distribución Fθ, siendo θ un parámetro desconocido.

Fijamos 0 < α < 1. Sea (T1, T2) un intervalo tal que Ti = Ti(X1, . . . , Xn) para i = 1, 2 y

1− α = Pθ{T1(X1, . . . , Xn) < θ < T2(X1, . . . , Xn)}

= Pθ{θ ∈ (T1, T₂)}.

Entonces, para cada observaci´on (x1, . . . , x_n) de la muestra, el intervalo IC0.95(θ) = (T1(x1, . . . , xn), T2(x1, . . . , xn)) es un intervalo de confianzapara θ al nivel de confianza 1− α.

Elnivel de significanciaα es la probabilidad de equivocarnos al afirmar que el par´ametro se encuentra en el IC obtenido:

α = P_θ{θ /∈ (T1, T₂)}.

(22)

Construcci´on de un intervalo de confianza:

• Buscamos una cantidad pivotal para θ, que es una funci´on C(X1, . . . , Xn; θ) cuya distribuci´on no depende de θ.

Ejemplo 3.6: Sea (X1, . . . , X10) una muestra aleatoria de X ∼ N(µ, 1). Entonces una cantidad pivotal para µ es

• A continuaci´on buscamos dos valores c1 y c2 tales que P_θ{c1< C (X1, . . . , Xn; θ) < c2} = 1 − α.

(23)

Ejemplo 3.6 (cont.):

• Finalmente se despeja θ de la desigualdad c1<C (X1, . . . , Xn; θ)<c2. Ejemplo 3.6 (cont.):

Para la muestra 1.7 2.1 2.3 2.4 1.9 1.6 2.0 2.1 2.1 1.8 tenemos ¯x = e IC0.95(µ) =

(24)

Habitualmente se trabaja con niveles de confianza del 90 % (α = 0.1),del 95 % (α = 0.05) y del 99 % (α = 0.01).

Si se observan 100 muestras de tama˜no n de X ∼ Fθ y se

construyen los correspondientes 100 intervalos de confianza para θ, IC1−α(θ), aproximadamente en (1− α)100 de ellos est´a el

par´ametro desconocido θ:

x₁⁽¹⁾, . . . , xn⁽¹⁾ → IC⁽¹⁾_1−α(θ) x₁⁽²⁾, . . . , x_n⁽²⁾ → IC⁽²⁾1−α(θ) ...

x₁⁽¹⁰⁰⁾, . . . , xn⁽¹⁰⁰⁾ → IC⁽¹⁰⁰⁾_1−α (θ)

Ver fichero Excel 100Ics.xlxs.

(25)

Distribuciones asociadas a la normal

Son distribuciones de probabilidad de ciertos estad´ısticos construidos a partir de muestras de distribuciones normales.

La distribuci´on χ² de Pearson

Sean X1, . . . , X_n v.a. independientes id´enticamente distribuidas (i.i.d.) con distribuci´on N(0, 1). La variable aleatoriaPn

i =1X_i² sigue una distribuci´on χ² de Pearson con n grados de libertad:

n

X

i =1

X_i² ∼ χ²n

0 2 4 6 8

0 0.2 0.4 0.6 0.8 1

Densidad de la χ²_n

χ²₁ χ²₂ χ²₃ χ²₄ χ²₅

(26)

La distribuci´on t de Student

Sean Y , X1, . . . , X_n v.a.i.i.d. con distribuci´on N(0, 1). La variable aleatoria Y

q1 n

Pn i =1X_i²

sigue una distribuci´on t de Student con n grados de libertad, tn.

−5 0 5

0 0.1 0.2 0.3 0.4

Densidad de la t

N(0,1) t₅ t2

(27)

La distribuci´on F de Fisher

Sean X1, . . . , X_m, Y₁, . . . , Y_nv.a.i.i.d. con distribuci´on N(0, 1). La

v.a. 1

m

Pm i =1X_i²

1 n

Pn j =1Y_j²

sigue una distribuci´on F de Fisher con m y n grados de libertad, F_m,n.

0 1 2 3 4 5 6

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

Densidad de la F

F5,3

F4,6

(28)

Intervalos de confianza en poblaciones normales

Propiedad:Sea X1, . . . , X_n una muestra aleatoria de X ∼ N(µ, σ).

Entonces ¯X y S² son v.a. independientes, X¯ ∼ N

µ, σ

√n

, n− 1

σ² S² ∼ χ²n−1 y X¯− µ

√S n

∼ tn−1

•Sea x1, . . . , x_n una muestra de X ∼ N(µ, σ). Si σ es conocidoun intervalo de confianza para µ al nivel de confianza 1− α es

IC1−α(µ) =

¯ x− zα/2

√σ

n, ¯x+ z_α/2 σ

√n

=

¯ x∓ zα/2

√σ n

.

•Si σ es desconocido, IC1−α(µ) =

¯

x∓ tn−1;α/2

√s n

y

IC1−α(σ²) = (n− 1)s²

χ²_n−1;α/2 , (n− 1)s² χ²_{n−1;1−α/2},

! .

(29)

Ejemplo 3.7: El envenenamiento por DDT causa temblores y convulsiones. En un estudio se ha administrado una dosis de DDT a 4 ratones y se ha medido posteriormente en cada uno el periodo absolutamente refractario, es decir, el tiempo que tardan sus nervios en recuperarse tras un est´ımulo:

1.7 1.6 1.8 1.9 (en milisegundos) Asumiendo normalidad en los datos:

(a) Estima el periodo absolutamente refractario medio µ para toda la poblaci´on de ratones de la misma cepa sujeta al mismo tratamiento con DDT.

La estimaci´on de µ es la media muestral: µ≈ ˆµ = ¯x

¯

x= 1.7 + 1.6 + 1.8 + 1.9

4 = 1.75.

(30)

Ejemplo 3.7 (cont.)

(b) Halla el error t´ıpico de la estimaci´on anterior.

s²=(1.7− 1.75)²+ (1.6− 1.75)²+ (1.8− 1.75)²+ (1.9− 1.75)²

3 = 0.017

Por tanto s =√

0.017≈ 0.13 y se(¯x)= sx

√n = 0.13

2 = 0.065.

(c) Calcula un intervalo de confianza para µ al 90 %.

IC90 %(µ) = [1.75∓t^3;0.05·0.065] = [1.75∓2.353·0.065] = [1.597 , 1.903]

es decir, 1.597≤ µ ≤ 1.903 con un nivel de confianza del 90 %.

(d) Calcula otro intervalo, pero ahora con un nivel del 95 %.

IC_{95 %}(µ) = [1.75∓t3;0.025·0.065] = [1.75∓3.182·0.065] = [1.543 , 1.957]

es decir, 1.543≤ µ ≤ 1.957 con un nivel de confianza del 95 %.

(31)

Ejemplo 3.8: Un aumento de la concentraci´on de colesterol en la sangre contribuye a dificultar su circulaci´on y, a la larga, producir enfermedades card´ıacas y circulatorias graves. Se ha recogido una muestra aleatoria de siete personas con niveles de Colesterol LDL

1.5 2.1 1.9 2.3 2.5 3.2 3.0 (dg /dl)

Utilizando estos datos, construye un intervalo de confianza al 90 % para la desviaci´on t´ıpica.

Nota:suponer normalidad en los datos.

(32)

Ejemplo 3.5 (cont.):Con SPSS calculamos un IC de la media para los datos generados de una normal

Descriptivos

Estadístico Error estándar

X Media

95% de intervalo de confianza para la media

Límite inferior Límite superior Media recortada al 5%

Mediana Varianza Desviación estándar Mínimo Máximo Rango Rango intercuartil Asimetría Curtosis

1,6618 ,22998

1,1805 2,1432 1,6366 1,6712 1,058 1,02850 ,14 3,63 3,49 1,53

,305 ,512

-,523 ,992

Página 1

(33)

•Sean x1, . . . , xm e y1, . . . , yn muestras independientes de X ∼ N(µ¹, σ) e Y ∼ N(µ², σ) respectivamente (σ desconocido).

Entonces

IC1−α(µ1− µ2) = x¯− ¯y ∓ tm+n−2;α/2sp

r 1 m +1

n

! ,

donde la varianza combinada

s_p² = (m− 1)s1²+ (n− 1)s2²

m+ n− 2

es una media ponderada de las cuasivarianzas muestrales

s₁²= 1 m− 1

m

X

i =1

(xi − ¯x)² y s₂² = 1 n− 1

n

X

i =1

(yi− ¯y)².

(34)

Ejemplo 3.9: Se quiere comparar la grasa corporal (en kg) entre nadadoras y corredoras ol´ımpicas. Se observan los siguientes datos:

Corredoras Nadadoras

11.2 7.6 8.2 9.2 14.1 12.7 9.2 10.7 10.1 7.3 3.7 5.5 15.1 13.7 8.7 14.3

9.4 6.9 8.3 5.0 11.4 11.9

Suponiendo que estas variables siguen distribuciones normales homoced´asticas, calcular un intervalo de confianza para la diferencia media de grasa entre ambos tipos de deportistas.

(35)

•Sean x1, . . . , xm e y1, . . . , yn muestras aleatorias independientes de X ∼ N(µ1, σ₁) e Y ∼ N(µ2, σ₂) respectivamente (σ1 y σ2

desconocidas). Entonces IC1−α

σ₁² σ₂²

=

s₁²/s₂² Fm−1;n−1;α/2

, s₁²/s₂² Fm−1;n−1;1−α/2

.

Observaci´on: F_m;n;1−α = 1 F_n;m;α

Ejemplo 3.9 (cont.):Suponiendo que la distribuci´on de la grasa corporal en nadadoras y corredoras es normal con distintas medias y distintas varianzas, calcular un intervalo de confianza al 90 % para el cociente de las varianzas.

(36)

•Datos emparejados:Sea (X1, Y1), . . . , (Xn, Yn) una muestra aleatoria de (X , Y ) donde X e Y no son independientes, pero los pares (Xi, Yi) son independientes entre s´ı.

Denotemos E (X ) = µ1 y E (Y ) = µ2 y supongamos que D= X − Y ∼ N(µ = µ1− µ2, σ). Entonces

D1 = X1− Y¹, . . . , Dn = Xn− Yⁿ es una muestra aleatoria de D.

Podemos construir intervalos de confianza para µ = µ1− µ2 y para σ como se indic´o en la p´agina 28.

(37)

Ejemplo 3.10: Ensayo cl´ınico cruzado.Se quiere comparar el efecto X de un nuevo medicamento con el efecto Y de otro ya comercializado. Se administran ambos a 14 personas con

insuficiencia respiratoria, asignando aleatoriamente a cada paciente un tratamiento, y manteni´endolo durante un mes. Luego se le da el tratamiento alternativo durante otro mes. En la cuarta semana de cada tratamiento se observa FEV1 (forced expiratory volume), el volumen de aire que un paciente expulsa en un segundo, tras una inhalaci´on profunda.

Paciente X Y D Paciente X Y D

1 2.9 3.9 -1.0 8 3.9 2.4 1.5

2 4.0 3.9 0.1 9 2.5 3.6 -1.1

3 3.4 3.3 0.1 10 6.5 2.1 4.4

4 3.2 4.3 -1.1 11 5.5 4.0 1.5

5 3.8 3.2 0.6 12 4.0 3.9 0.1

6 5.2 3.5 1.7 13 5.3 4.0 1.3

7 3.9 2.7 1.2 14 4.3 2.3 2.0

Calcular un intervalo de confianza al 90 % para la diferencia media de FEV1 con ambos medicamentos.

(38)

Intervalos de confianza para otras distribuciones

Intervalo de confianza para el par´ametro p de una Bernoulli Sea x1, . . . , xn una muestra de X∼Bernoulli(p). Entonces

IC1−α(p) = x¯∓ zα/2

rx(1¯ − ¯x) n

!

(para n grande)

Intervalo para diferencia de proporciones de Bernoullis Sean x1, . . . , xm e y1, . . . , yn muestras de X ∼ Bernoulli(p¹) e Y ∼ Bernoulli(p2) respectivamente, tal que ˆp₁ = ¯x y ˆp₂ = ¯y.

Entonces, para m y n grandes, IC1−α(p1− p2) = x¯− ¯y ∓ zα/2

rx(1¯ − ¯x)

m +y¯(1− ¯y) n

!

(39)

Ejemplo 3.11: Koshy et al. (2010)¹ estudian el efecto del tabaquismo de los padres sobre el ´ındice de masculinidad, también llamado razón de sexo, la razón de hombres por mujeres en un determinado territorio, expresada en tanto por ciento. Para ello toman una muestra de 363 nacimientos de padres fumadores crónicos (ambos) en la que 158 bebés fueron varones y el resto niñas. Calcular un intervalo de confianza para la proporción de varones nacidos de ambos padres fumadores crónicos.

1Koshy et al. (2010). Parental smoking and increased likelihood of female births. Annals of Human Biology.

(40)

Ejemplo 3.12: Un laboratorio farmac´eutico desarrolla un nuevo medicamento para prevenir los resfriados. La compa˜n´ıa afirma que el producto es igual de efectivo en hombres que en mujeres. Para comprobarlo observan una muestra de 100 mujeres y 200 hombres sobre los que prueban el medicamento. Al final del estudio un 38 % y un 51 % respectivamente de las mujeres y hombres de la muestra se hab´ıan resfriado.

Calcular un intervalo de confianza al 95 % para la diferencia entre la proporci´on de mujeres y la de hombres que se resfr´ıan a´un habiendo tomado el medicamento.

(41)

Intervalo de confianza para el par´ametro λ de una Poisson Sea x1, . . . , xn una muestra de X ∼ Pois(λ). Recordemos que E(X ) = V (X ) = λ y ˆλ = ¯x. Entonces, para n grande,

IC1−α(λ) = x¯∓ zα/2

r ¯x n

! .

Ejemplo 3.3 (cont.):Calcular un intervalo de confianza al 95 % para el par´ametro λ.

(42)

M´ınimo tama˜ no muestral

El error cometido al estimar un par´ametro θ mediante un intervalo de confianza IC1−α(θ) es la semi-amplitud del intervalo.

Observaci´on: Esta definici´on tiene sentido principalmente en intervalos del tipo IC1−α(θ) = (ˆθ∓ semilongitud).

Objetivo:Determinar el m´ınimo tama˜no muestral n necesario para que el error cometido al estimar θ mediante un intervalo de

confianza sea menor que una cierta cantidad.

Motivación: Queremos que la estimación por intervalo de confianza tenga una determinada precisión.

El valor de n obtenido debe tomarse como orientativo,

especialmente cuando la semilongitud del intervalo dependa de la muestra observada.

(43)

Ejemplo 3.13: Se quiere estimar la proporción de manat´ıes en el Caribe que han sido heridos por hélices de barcos. ¿A cuántos manat´ıes tendremos que examinar para asegurar que la estimación tiene un error máximo del 10 % con un nivel de confianza del 95 %?