INFERENCIA ESTAD´ISTICA
Gonzalo Garc´ıa Alarc´on Estrada
FUNDAMENTOS DE ESTAD´ISTICA 2017-2 UNAM - Facultad de Ingenier´ıa
17 de marzo de 2017
FEN ´OMENO ALEATORIO (POBLACI ´ON)
MODELAR
MUESTRA
INFERIR
INFERENCIA PARAM´ETRICA X ∼ fX(x ; θ)
INFERENCIA NO PARAM´ETRICA X ∼???
INFERENCIA CL´ASICA (par´ametros fijos pero desconocidos)
INFERENCIA BAYESIANA
(par´ametros son v.a., tiene una distribuci´on inicial)
P(A|B ) = P(B |A)P(A) P(B )
Definiciones b´ asicas
Definici´on 1
Llamaremos espacio parametral al conjunto de posibles valores que pueden tomar los par´ametros de una distribuci´on. Se denotar´a como Θ.
Suponer que X ∼ N(0, σ2), i.e.
fX = 1
√
2πσ2e−2σ2x 2 entonces Θ =
Definiciones b´ asicas
Definici´on 2
Suponer que se tiene una poblaci´on (o fen´omeno aleatorio) que es modelado por una funci´on de densidad dada por fX(x ; θ) con θ un vector de par´ametros desconocidos. Decimos que
X = (X1, X2, . . . , Xn) es una muestra aleatoria (m.a.) de tama˜no n si:
1. cada Xi ∼ fX(x ; θ)
2. Xi es independiente de Xj si i 6= j (Se dice que X1, X2, . . . , Xn son v.a.i.i.d.)
Definiciones b´ asicas
Definici´on 3
Llamaremos muestra observada al vector de mediciones o datos tomados de la poblaci´on (o fen´omeno aleatorio).
x = (X1= x1, X2 = x2, . . . , Xn= xn)
Definiciones b´ asicas
Definici´on 4
Sea X1, X2, . . . , Xnm.a. de un fen´omeno aleatorio, una estad´ıstica es cualquier funci´on de la muestra que NO depende de par´ametros desconocidos.
T : Rn→ R T = T (X1, X2, . . . , Xn)
Definiciones b´ asicas
Definici´on 5
Un estimador es una estad´ıstica que tiene al espacio parametral como contradominio.
T : Rn→ Θ
NOTACI ´ON: Denotaremos a un estimador de cierto vector de par´ametros θ = (θ1, . . . , θp) como ˆθ
ˆθ = ˆθ(X1, X2, . . . , Xn)
= ˆθ1(X1, X2, . . . , Xn), ˆθ2(X1, X2, . . . , Xn), . . . , ˆθp(X1, X2, . . . , Xn)
¡¡N ´OTESE QUE LOS ESTIMADORES SON VARIABLES ALEATORIAS!!
Un solo par´ametro desconocido:
θ = ˆˆ θ(X1, X2, . . . , Xn)
Definiciones b´ asicas
Definici´on 6
Una estimaci´on es el valor que toma el estimador al ser evaluado con una muestra observada.
ˆθ(X1 = x1, X2= x2, . . . , Xn= xn) ∈ Θ ⊆ Rp
θ(Xˆ 1 = x1, X2= x2, . . . , Xn= xn) ∈ Θ ⊆ R
X como estimador de µ¯
E( ¯X ) Var ( ¯X )
TLC
Teorema 1
Teorema del l´ımite central:
Sea X1, X2, . . . , Xn m.a. de una distribuci´on FX tal que E(Xi) = µ y Var (Xi) = σ2 ∀i = 1, . . . , n (ambos finitos), entonces:
X¯aprox∼ N(µ,σ2 n ) o bien, otra forma de verlo es:
√n
X − µ¯ σ
aprox
∼ N(0, 1)
MEDIA MUESTRAL COMO V.A.
Considerar una m.a., X = (X1, X2, . . . , Xn), cuya distribuci´on tiene media µ y varianza σ2:
E( ¯X ) = Var ( ¯X ) =
VARIANZA MUESTRAL COMO V.A.
Considerar una m.a., X = (X1, X2, . . . , Xn), cuya distribuci´on tiene media µ y varianza σ2:
Recordar
n
P
i =1
(xi− ¯x )2=
n
P
i =1
xi2− n¯x2y que E(W2) = Var (W ) + (E(W ))2
(n − 1)S2=
n
P
i =1
Xi2− n ¯X2
(n − 1)E(S2) = E
n
X
i =1
Xi2
!
− nE( ¯X2)
= nE(X12) − nE( ¯X2)
∴ E(S2) = σ2
Var (S2) . . . no se puede decir mucho sin suponer alguna distribuci´on
EJEMPLO:
El periodo de tiempo que un cajero de un banco atiende a un cliente es en promedio de 3.2 min con una desviaci´on est´andar de 1.6 min. Considerando que se atienden 64 clientes, cu´al es la probabilidad de que el tiempo promedio que le toma al cajero atender a estos clientes sea entre 3.2 min y 3.4 min?
periodo de tiempo que el cajero atiende a un cliente Xi ∼ ???
pero sabemos que E(Xi) = µ = 3.2 min y que Var (Xi) = σ2 = (1.6)2
se observa una muestra de tama˜no n = 64
...traduciendo el problema...
Sea X = (X1, X2, . . . , Xn) m.a. de tama˜no n = 64 de una poblaci´on con media µ = 3.2 y desviaci´on est´andar σ2= (1.6)2.
P{3.2 ≤ ¯X ≤ 3.4}
suponiendo que la muestra es suficientemente grande como para aplicar el TLC ⇒
X¯ ∼ N(µ,a σ2 n ) ∴
P{3.2 ≤ ¯X ≤ 3.4} = P 3.2 − µ σ/√
n ≤ X − µ¯ σ/√
n ≤ 3.4 − µ σ/√
n
= P 3.2 − 3.2
0.2 ≤ Z ≤ 3.4 − 3.2 0.2
= P {0 ≤ Z ≤ 1}
= P{Z ≤ 1} − P{Z ≤ 0}
= FZ(1) − FZ(0) → en R: pnorm(1,0,1) - pnorm(0,0,1)
= 0.3413447 ' 34.1 %
en el caso de una muestra de una poblaci´on con una DISTRIBUCI ´ON NORMAL
... es decir...
Considerar una m.a., X = (X1, X2, . . . , Xn), de una poblaci´on normal con media µ y varianza σ2
... es decir...
Xi ∼ N(µ, σ2), ∀i ∈ {1, . . . , n} y son independientes:
como E( ¯X ) = µ y Var ( ¯X ) = σ2/n ⇒ Z = X − µ¯
σ/√
n ∼ N(0, 1)
DISTRIBUCI ´ON CONJUNTA DE ¯X Y S2 (caso normal):
Recordar
n
P
i =1
(yi− ¯y )2=
n
P
i =1
yi2− n¯y2y considerando yi= xi− µ (∴ ¯y = ¯x − µ)
n
X
i =1
(xi− ¯x )2 =
n
X
i =1
(xi − µ)2− n(¯x − µ)2
pero como X1, X2, . . . , Xn es una m.a. normal ⇒ Pn
i =1
(Xi − ¯X )2
σ2 +n( ¯X − µ)2
σ2 =
Pn i =1
(Xi− µ)2 σ2
reescribiendo:
n
P
i =1
(Xi − ¯X )2
σ2 + √n( ¯X − µ) σ
2
=
n
X
i =1
Xi− µ σ
2
n
P
i =1
(Xi − ¯X )2
σ2 + √n( ¯X − µ) σ
2
| {z }
∼χ2
(1)
=
n
X
i =1
Xi− µ σ
2
| {z }
∼χ2(n)
y se puede demostrar que:
n
P
i =1
(Xi− ¯X )2
σ2 ∼ χ2(n−1)
Teorema 2
Si X = (X1, X2, . . . , Xn) es una m.a. de una poblaci´on normal con media µ y varianza σ2 ⇒
X y S¯ 2 son v.a. independientes y adem´as ¯X ∼ N(µ,σn2) y
(n−1)S2
σ2 ∼ χ2(n−1)
EJEMPLO:
El tiempo que le toma a un CPU procesar cierto trabajo distribuye normal con media 20 s y desviaci´on est´andar de 3 s. Si se observan 15 de esos trabajos, cu´al es la probabilidad de que la varianza muestral supere 12 s?
µ = 20s, σ2 = 9s, n = 15
P{S2 > 12} = P (14)S2
9 > (14)12 9
= P{χ2(14)> 18.67}
= 1 − P{χ2(14)≤ 18.67}
= 1 − Fχ2
(14)(18.67) → en R: pchisq(18.67, 14)
= 1 − 0.8220542
= 0.1779458 ' 17.8 %