Estimación de Parámetros. Estimación de Parámetros

(1)

Capítulo 7

Estimación de Parámetros

Estadística Computacional Estadística Computacional II Semestre 2007 II Semestre 2007

Prof. Carlos Valle

Página : www.inf.utfsm.cl/~cvalle e-mail : [email protected]

C.Valle

2

El objetivo de la estimación de parámetros es proveer de

métodos que permitan determinar con cierta precisión, el

vector de parámetros desconocidos

ϑ

, de un modelo

estadístico f(x ;

ϑ

) a partir de una muestra aleatoria de

una población bajo estudio.

1. Método de estimación Puntual

2. Método de estimación por Intervalos

(2)

3

1. Método de estimación Puntual:

Se busca un estimador

ϑ

que, con base en los

datos muestrales, dé origen a una estimación

univaluada del valor del parámetro.

2. Método de estimación por Intervalos:

Se determina un intervalo aleatorio I(

ϑ

), donde

con cierta probabilidad, se encuentra el valor del

parámetro

ϑ

.

4

La idea detrás de la estimación puntual es bastante

simple. Cuando muestreamos desde una población

descrita por su función de densidad o cuantía,

conocer significa conocer la población entera.

Por lo tanto, es natural contar con métodos para

encontrar buenos estimadores del parámetro .

Estimación Puntual

) | (x θ f θ θ

(3)

5

Un estimador es una regla que nos indica cómo obtener un parámetro de un modelo, basándose en la información contenida en una muestra ( M={ f ( x | θθθθ) : θθ ∈θθ∈∈ Θ∈ΘΘΘ }}}} modelo )

T :

χ

τ

⊂ Θ

x

T (

x

) = T (

X

₁

, X

₂

,...., X

_n

)

T (x) : Estimador de θ, variable aleatoria, función de la muestra, que no depende del parámetro θ.

(T (x) es una estadísticabasada en la Información

χ

)

χ

={

x : xes una muestra aleatoria} Espacio de Información

♦En lo que sigue = T (X₁, X₂,..., X_n) estimador de θ.

Definición de Estimador

θ

ˆ

6

Métodos de Estimación Puntual

♦

Método de Momentos

(4)

7

Momentos Observados

k r m_r =µ_r, =1,..., ] [ , / 1 ] [ , / 1 ] [ , / 1 1 2 2 1 2 2 1 1 1 1 1 k k n i k i k n i i n i i X E X n m X E X n m X E X n m = = = = = =

∑

= = =

µ

Μ Μ Μ

y resolvemos el sistema de ecuaciones:

Momentos Observados

(centrados en cero)

8

El método de MV es la técnica más popular para

derivar estimadores. Sea X

₁

,X

₂

,…,X

_n

, una muestra

desde una población con función de densidad

La

función de verosimilitud

se define como:

Para cada punto X

_i

de la muestra, es el estimador

de los parámetros en el cual alcanza su valor

máximo como función del verdadero valor .

Método de Máxima Verosimilitud

) ,..., , | (x ₁ ₂ _k f

θ

) | (x θ L θ) θ

∏

= = = n i i k k n f x x x x L θ x L 1 1 2 2 1 1 1, ,.., | , ,.., ) ( | , ,.., ) ( ) | ( θ θ θ θ θ θ

(5)

9

Si la función de verosimilitud es diferenciable (en ),

el estimador de máxima verosimilitud (EMV) del

verdadero valor es aquel que resuelve:

No obstante, habría que chequear que se cumple:

Método de Máxima Verosimilitud

k i θ x L i ,..., 1 , 0 ) | ( = = ∂ ∂

θ

θ) θ k j i θ x L j i ,..., 1 , 0 , ) | ( _ˆ 2 = <         ∂ ∂ ∂ =θ θ

θ

θ 10

Dependiendo de la p.d.f, puede resultar muy

complicada la función de verosimilitud, es por ello que

es más fácil trabajar con la

función de

log-verosimilitud

, definida como:

Equivalentemente, el EMV es el valor de para el

cual se cumple:

Método de Máxima Verosimilitud

∑

₌ = = n i f xi k θ x L θ x 1ln ( | 1, 2,..., ) ) | ( ln ) | ( θ θ θ λ k i θ x i ,..., 1 , 0 ) | ( = = ∂ ∂ λ

θ

θ θˆ

(6)

11

Error Cuadrático Medio (ECM):

El ECM de un estimador del parámetro es

El ECM mide el promedio de la diferencias cuadrática entre el estimador y el verdadero valor del parámetro, y ha sido por mucho tiempo una medida razonable del desempeño de todo estimador puntual.

Una medida alternativa podría ser . No obstante, la medida cuadrática que utiliza ECM tiene ventajas sobre otras medidas: primero que es tratable analíticamente, y segundo que tiene la siguiente interpretación ( dilema sesgo/ variancia):

θˆ ≡ T E[(T −

θ

)2] |] [|T −θ E 12

Métodos de Evaluación de E.Puntual

] 2 [ ] [ ) (T =E T −

θ

2 =E T2 − T

θ

+

θ

2 ECM 2 2 2 2 2 2 )) ( ( ] [ ) ] [ ( ] [ ] [ 2 ]) [ ( ] [ ] [ 2 ] [ T Sesgo T V T E T V T E T E T V T E T E + = − + = + − + = + − = θ θ θ θ θ θ − = [ ] ) (T E T Sesgo

Donde se define el

Sesgo (Bias)

de un estimador puntual

como:

(7)

13

Métodos de Evaluación de E.Puntual

El ECM incorpora dos componentes, una que mide la variabilidad del estimador (precisión) y la otra que mide su sesgo (cercanía al verdadero valor).

Un buen estimador tiene un ECM pequeño, i.e. tiene varianza y sesgo pequeños. Parece razonable entonces escoger como el mejor estimador de , la estadística que tenga el ECM más pequeño posible de entre todos posibles los estimadores

θ θ

14

Métodos de Evaluación de E.Puntual

Error Cuadrático Medio (ECM): No obstante, no existe

ningún estimador que minimice el ECM para todos los posibles valores de . Es decir, un estimador puede tener un ECM mínimo para algunos valores de , mientras que otro estimador tendrá la misma propiedad, pero para otros valores de .

θ

θ θ

Ejemplo: Considere la m.a. X

₁

,X

₂

,…,X

_n

de alguna

distribución tal que y . Considere

las estadísticas (estimadores):

como posibles estimadores de .

X X n T n i i = =

∑

=1 1 1

[ ]

X_i = µ E

[ ]

_σ2 = i X V

∑

= + = n i i X n T 1 2 1 1 µ y

(8)

15

Estimadores Consistentes:

Es razonable esperar que un buen estimador de un parámetro sea cada vez mejor conforme crece el tamaño de la muestra.

Esto es, conforme la información de una v.a. se vuelve más completa, la distribución de muestreo de un buen estimador se encuentra cada vez más centrada alrededor del parámetro .

θ

16

Métodos de Evaluación de E.Puntual

Estimadores Consistentes:

Sea el estimador del parámetro , y sea una secuencia de estimadores que representan a con base en muestras de tamaño 1,2..,n, respectivamente. Se dice que es un estimador consistente para si

(

|

)

1 ,

,

0 lim

_n_→_∞

P

T

_n

−

θ

≤

ε

=

∀

θ

∀

ε

>

θ T T₁,T₂,...,T_n T θ

Obs.: Esta definición proviene del concepto de Convergencia en Probabilidad. Como ejemplo, anteriormente demostramos que la media muestral es un estimador consistente de la media poblacional .

T

µ

n

(9)

17

Métodos de Evaluación de E.Puntual

Estimadores Insesgados de Varianza Mínima:

Es difícil determinar un estimador con mínimo ECM para todo valor de . Sin embargo, podemos efectuar esta búsqueda dentro de una clase de estimadores llamados “estimadores insesgados”. Si un estimador se encuentra dentro de esta clase, se tiene que:

Entonces, dentro de la clase de estimadores insesgados, podemos comparar éstos según su varianza.

θ T ] [ ) (T V T ECM = y ] [T =θ E 18

Métodos de Evaluación de E.Puntual

Estimadores Insesgados de Varianza Mínima:

Sea X₁,X₂,…,X_n una m.a. de una distribución cuya densidad tiene la forma . Si es un estimador insesgado de , entonces la varianza de debe satisfacer la siguiente desigualdad:

Esta desigualdad establece un límite inferior para la varianza de un estimador de (denominado “cota inferior de Cramér-Rao”). θ ) | (x θ f T T 1 2 ) | ( ln ] [ −                       ∂ ∂ ≥ θ θ X f nE T V θ

(10)

19

Estimadores Eficientes:

Si es un estimador insesgado del parámetro , se dice que es un estimador eficiente si se cumple que:

1 2 ) | ( ln ] [ −                       ∂ ∂ = θ θ X f nE T V θ T _T

Por lo tanto, el estimador eficiente de es el estimador de mínima varianza, cuyo valor corresponde a la cota inferior de Cramér-Rao.

El estimador eficiente de , si se puede encontrar, es el mejor estimador insesgado de , en el contexto del ECM.

θ

20

Métodos de Evaluación de E.Puntual

Ejemplo: Sean X₁,X₂,…,X_n una m.a. de una distribución Poisson de parámetro . Encuentre el estimador eficiente de .λ

λ

Solución: Consideremos una distribución Poisson.

dada por , y su esperanza y varianza están dadas por y . Luego:

! / ) | (x e x p λ −λλx = λ µ= = ] [X E V[X]=σ2 =λ ) ! ln( ) ln( ) | ( ln p x λ =x λ −λ− x λ λ λ λ λ − = − = ∂ ∂ p x x x 1 ) | ( ln

(11)

21

Métodos de Evaluación de E.Puntual

Ejemplo: Entonces:

Y por la definición de eficiencia, el estimador eficiente Tde debe ser tal que se cumpla:

De aquí inferimos que el estimador eficiente de es la media muestral: . 2 2 ) | ( ln     − =               ∂ ∂ λ λ λ λ x E x p E

[

]

λ λ λ λ 1 ] [ 1 2 2 2 − = = = E x V X n n n T V 2 / 1 ] [

λ

σ

λ

= = = λ λ X T = 22

Métodos de Evaluación de E.Puntual

Eficiencia Relativa:

Se define la eficiencia relativa del estimador T₂respecto del estimador T₁como:

La varianza de un estimador insesgado es la cantidad más importante para decidir qué tan bueno es. Si T₁y T₂ son dos cualesquiera estimadores insesgados de :

Se dice que T₁ es más eficiente que T₂si .V[T₁]≤V[T₂] θ ) ( ) ( ) , ( 2 1 1 2 T ECM T ECM T T ef = ] [ ] [ ) , ( 2 1 1 2 T V T V T T ef =

(12)

23

Una estadística suficientede un parámetro es aquella que utiliza toda la información contenida en la m.a. con respecto a

Estimadores Suficientes:

Sea X₁,X₂,…,X_n una m.a. de una distribución con densidad de probabilidad . Se dice que T = T(X₁,X₂,…,X_n) es suficiente para sí y sólo si la función de verosimilitud puede factorizarse de la siguiente forma:

para cualquier valor t = T(x₁,x₂,…,x_n) de T (realización) y en donde no contiene al parámetro .

θ ) | (x θ f ) ,..., ( ) | ( ) | ,..., , ( ) | (x θ L x₁ x₁ x_n h t g x₁ x_n L =

θ

=

θ

θ ) ,..., (x₁ x_n g θ θ 24

Métodos de Evaluación de E.Puntual

Estimadores Suficientes:

Ejemplo: Sea X₁,X₂,…,X_n una m.a. de una distribución Poisson con pdf .

Demostrar que el estimador eficiente de es a su vez suficiente. ! / ) | (x e x p

λ

−λ

λ

x = λ Solución: ) | ( ) | ( ) | ( ) | ,..., , (x₁ x₁ x_n

λ

p x₁

λ

p x₂

λ

p x_n

λ

L = Λ

∏

= − − − − ∑ = ⋅ ⋅ ⋅ = = n i i n x n x x x x e x e x e x e n i i n 1 2 1 ! / ! / ! / ! / 1 2 1 λ λ λ λ

λ

Λ

(13)

25

Métodos de Evaluación de E.Puntual

Estimadores Suficientes: Solución: con

(

|

)

( , ,..., ) ) | ,..., , ( 1 1 ₁ 1 2 n n i i n h x g x x x x x x L λ =

∑

₌ λ

(

n _λ

)

_λ x nλ i xi e h n i i − = ∑ = =

∑

_| 1 1

Entonces es una estadística suficiente para . Dado que el estimador eficiente es una función uno a uno de esta estadística, también es suficiente para .

∑

= n i 1xi λ X X λ 26

Propiedades de los Estimadores

Máximo Verosímiles

Todo estimador máximo verosímiles es:

Asintóticamente insesgados

Asintóticamente normales

Asintóticamente eficientes

Invariantes bajo transformaciones biunívocas

(14)

27

En la práctica, interesa no sólo dar una estimación

de un parámetro, sino que además, un intervalo

que permita precisar la incertidumbre existente en

la estimación.

Definición: Sea

x

m.a.

∝

f ( x ,

θ

)

. Sean

θ

₁

=T

₁

(

x

),

θ

₂

=T

₂

(

x

) dos estadísticas de

θ

: T

₁

≤

T

₂

∧

∧ ∀

∧

∀

x

∈

χ

;

P

[θ

₁

≤

≤ θ

θ

θ ≤

≤ θ

≤

θ

₂

]]]]

= 1 -

α

=

γγγγ

Entonces el I =

[θ

₁

;

θ

₂

]]]]

se llama intervalo aleatorio

de confianza del 100

γγγγ

% para

θ

( 0 <

α

< 1 ).

28

Fijado

α

, el problema de determinar

θ

₁

y

θ

₂

puede

resolverse encontrando una variable aleatoria

Q(

x

,

θ

) cuya distribución esté totalmente definida,

que sea independiente de

θ

.

La variable Q(

x

,

θ

) se denomina “Cantidad Pivotal”.

La construcción del intervalo de confianza se

efectúa con base en el mejor estimador del

parámetro desconocido

θ

.

(15)

29

1. Encontrar una cantidad Q.

2. P

[[[[

q

₁

≤

Q

≤

q

₂

]]]]

= 1 -

α

=

γγγγ

3. Invertir P

[θ

₁

≤

≤ θ

≤

θ ≤

θ

≤

≤ θ

θ

₂

]]]]

=

γγγγ

, obteniendo así un

intervalo I=

[θ

₁

;

θ

₂

]]]]

de confianza para

θ

de nivel

100 γγγγ

%.

Obs: Para muestras grandes existe una v. a. Q asintótica

ya que para , se tiene

θ

ˆ

_MV

(

ˆ

)

(0;1) ˆ N Z Q MV MV _≈ − = = θ σ θ θ

Método de la Cantidad Pivotal

(

)

[

MV z MV

]

I = θˆ ± ₁₋_α ₂σ θˆ El intervalo para

θ

estaría dado por:

donde el cuantil puede obtenerse de la tabla de la distribución Normal estándar.

2 / 1−α z

30

I. C. para cuando suponemos normalidad con varianza conocida:

Considerando como estimador de la media poblacional como la media muestral , deseamos construir un intervalo de confianza tal que:

Donde y

Estimación por Intervalos

µ

)]

(

)

(

[

1 )]

(

)

(

[

g

₁

X

g

₂

P

T

₁

x

T

₂

x

P

µ

<

µ

=

−

α

=

<

µ

<

2 / ) ; ( ) ( 1 α µ µ =

∫

∞ − g x d x f ( ; ) /2 ) ( 2 α µ µ =

∫

∞ g x d x f ) ; (x µ

f es la función de densidad de la distribución de muestreo de , y y son funciones de , las cuales no contienen a ningún otro parámetro desconocido.

X

X g₁(µ) g₂(µ) µ

(16)

31

I. C. para cuando suponemos normalidad con

varianza conocida:

Puesto que , la v.a. , entonces:

µ

α σ µ σ µ µ _α _α _= −      + < < − = < < ( )] ₋ ₋ 1 ) ( [ 1 2 1 /2 1 /2 n z X n z X P g X g P ) , ( ~ N µ σ X ~ (0,1) ) / ( ) ( N n X Z σ µ − = considerando y , además de se tiene: 2 / 1 1 / ) ( α σ µ µ z q n g = = − 2 / 1 2 2 / ) ( α σ µ µ − = = − z q n g α σ µ σ µ _α _α γ = −      + < < − = ₋ ₋ 1 ) ( ₁ _/₂ ₁ _/₂ n z X n z X P I 2 / 1 2 1 2 / α α =q =−q =−z− z 1) 32

Luego, el intervalo de confianza del para la media poblacional es:

Estimación por Intervalos

µ

)% 1 (

100 −α

      ± =       + − = ₋ ₋ ₋ n z x n z x n z x I ₁ _α_/₂ σ , ₁_α_/₂ σ ₁_α_/₂ σ 2 / 1−α z 1)

(17)

33

I. C. para cuando suponemos normalidad con varianza desconocida:

Sabemos que cuando se muestrea una v.a. , donde tanto como son desconocidos, la v.a.

sigue una distribución t-Student con (n-1) gl., donde Ses la desviación estándar y nes el tamaño de la muestra.

Por lo tanto, es posible determinar el valor del cuantil de T, para el cual:

Estimación por Intervalos

µ

α

α α

<

=

−

₋ ₋ ₋ ₋

]

1 [

t

₁ _/₂_,_n ₁

T

t

₁ _/₂_,_n ₁

P

µ

σ

) , ( ~N µσ X n S X T / µ − = 1 , 2 / 1− n− t _α 2) 34

Entonces:

Estimación por Intervalos

µ

2)

α

µ

_α α = −      + < < − ₁₋ _/₂_, ₋₁ ₁₋ _/₂_, ₋₁ 1 n S t X n S t X P _n _n

Luego, el intervalo de confianza del para la media poblacional es:

)% 1 (

100 −α

donde el cuantil puede obtenerse de la tabla de la distribución t-Student con (n-1) grados de libertad.

      ± =       + − = ₋ ₋ ₋ ₋ ₋ ₋ n s t x n s t x n s t x I ₁_α_/₂_,_n ₁ , ₁_α_/₂_,_n ₁ ₁_α_/₂_,_n ₁ 1 , 2 / 1− n− t _α

(18)

35

I. C. para la diferencia de medias ( distribuciones

normales independientes):

Sean X₁,X₂,…,X_n y Y₁,Y₂,…,Y_mdos m.a. provenientes de dos distribuciones normales independientes, con medias y y varianzas y , respectivamente.

Se desea construir un intervalo de confianza para la diferencia , con el supuesto que se conocen las varianzas.

Es sabido que la v.a. 3) X

µ

Y

µ

2 X

σ

2 Y

σ

) 1 , 0 ( ~ ) ( 2 2 N m n Y X Z Y X Y X σ σ µ µ + − − − = Y X

µ

−

36

I.Confianza para la diferencia de medias cuando se

muestrean dos distribuciones normales independientes:

Por lo tanto, es posible determinar el valor del cuantil para el cual

Estimación por Intervalos

α

α α < < = − − − − ] 1 [ z₁ _/₂ Z z₁ _/₂ P 2 / 1−α z 3) α σ σ µ µ σ σ α α = −         + + − < − < + − − − − 1 2 2 2 / 1 2 2 2 / 1 m n z Y X m n z Y X P X Y Y X Y X         + ± − = − − m n z y x I X Y 2 2 2 / 1 2 1 ) (µ µ _α σ σ γ Entonces:

2 / 1−α z

(19)

37

I. C. para la diferencia de medias ( distribuciones normales independientes):

Si las varianzas se desconoce, pero son iguales, entonces la v.a.

El intervalo está dado por:

donde el estimado combinado de la varianza común es:

Estimación por Intervalos

3) ) ( ~ 1 1 ) ( k Student t m n S Y X Z p Y X ₋ + − − − = µ µ k=n +m −2 k s m s n s_p X Y 2 2 2 ( −1) +( −1) = gl         + ± − = − − m n s t y x I_γ(µ₁ µ₂) ₁_α_/₂_,_k _p 1 1 38

I.C. para cuando suponemos normalidad con media

desconocida:

Sabemos que cuando se muestrea una v.a. , donde tanto como son desconocidos, la v.a.

sigue una distribución Ji-cuadrada con (n-1) gl., donde Ses la desviación estándar y nes el tamaño de la muestra.

Por lo tanto, es posible determinar el valor de los cuantiles y tales que

Estimación por Intervalos

2

σ

α

χ

α −

<

−α −

]

=

1 −

[

2 /2,n 1 21 /2,n 1

P

µ

σ

) , ( ~N µ σ X 2 2 2 ( 1) σ χ = n− S 1 , 2 / 2 − n α

χ

4) 1 , 2 / 1 2 − −α n

χ

(20)

39

:

Luego, el intervalo de confianza del , para la varianza, con base en los datos de una muestra de tamaño n

es:

)% 1 (

100 −α

donde los cuantiles y se obtienen de la tabla de la distribución Ji-Cuadrada con (n-1) g.l.

      − − = − − − 2 /2, 1 2 1 , 2 / 1 2 2 ) 1 ( , ) 1 ( n n s n s n I α α χ χ 1 , 2 / 2 − n α

χ

21−α/2,n−1

4) I. C. para cuando suponemos normalidad con media desconocida:

σ

40

I. C. para el cuociente de dos varianzas (distribuciones

normales independientes):

Sean X₁,X₂,…,X_n y Y₁,Y₂,…,Y_mdos m.a. de dos

distribuciones normales independientes, con medias y y varianzas y , respectivamente.

Se desea construir un intervalo de confianza para el cuociente .

Es sabido que la v.a.

Estimación por Intervalos

5) X

µ

_Y 2 X

σ

2 Y

σ

) 1 , 1 ( ~ / ₂ 2 2 2 − − = S S F n m F Y Y X X σ σ 2 2

/

_X Y

σ

(21)

41

I. C. para el cuociente de dos varianzas (distribuciones normales independientes):

Por lo tanto, es posible determinar los cuantiles ay btales que:

Estimación por Intervalos

[

Fa <F <Fb

]

=1−α P donde 1 , 1 , 2 / 1 1 − − − = m n a f F α 1 /2, 1, 1 1 − − − = m n b f F α y       = ₂ 2 2 2 , X Y b X Y a s s F s s F I

donde los cuantiles F_ay F_b pueden obtenerse de la tabla de la distribución Fcon (n-1) y (m-1) grados de libertad.

El intervalo está dado por:

42

Intervalo de Confianza

Cantidad

Pivotal

µ

media la Para n X z       − = σ µ₀ n S X t       − = µ0 (σconocido) (σdesconocido) 2 variancia la

σ

Para

(

)

2 ₁ 2 2 2 1 − − = n S n χ σ χ

∼

(22)

43 2 1 Diferencia

µ

−

µ

(

)

₍

₎

2 2 1 2 1 2 1 2 1 2 1+ − + − − − n n P t n n n n S X X µ µ 2 2 2 1 /σ σ p ( 1 1) 2 2 2 1 2 1− n − n F S S ,

∼

(

)

(

)

2 2 2 2 1 2 1 2 1 2 1 2 1+ −∆− + − − − n n P t n S n S S X X µ µ

∼

(

1 ˆ

)

( )

0,1 ˆ ˆ N p p n p n X mv mv mv − −

∼

2 2 2 1 2 σ σ σ = a desconocid 2 2 2 1 2 σ σ σ ≠ a desconocid