Estimador de Máxima Verosimilitud

(1)

Tratamiento Estad´ıstico de Señales Pablo Musé, Ernesto López, Luis Di Martino

{pmuse,elopez,dimartino}@fing.edu.uy

Departamento de Procesamiento de Se˜nales Instituto de Ingenier´ıa El´ectrica

Facultad de Ingenier´ıa

(2)

Estimador de M´

axima Verosimilitud

I En el problema de estimación de parámetros, una alternativa al estimador MVU es el Estimador de Máxima Verosimilitud (MLE, Maximum Likelihood Estimator) [Kay, 1993].

I Es la herramienta más popular para obtenerestimadores prácticosy puede ser usado en problemas de estimación complejos, o en problemas dondeel MVU no existe o no puede encontrarse.

I Tiene caracter´ısticas deseables si el conjunto de datos es suficientemente grande

I es asint´oticamente eficiente

I es consistente

I es invariante ante re-parametrizaciones

I En muchos casos no puede encontrarse una fórmula cerrada del estimador MLE y debe buscarse empleando métodos númericos.

(3)

I Se observa un conjunto de datos{x[0],x[1], . . .x[N−1]} que dependen de cierto par´ametro desconocidoθque se quiere estimar.

I Especificaci´on del modelo: los datos son generados por un proceso aleatorio caracterizado con cierta PDF,

p(x;θ),

que depende del par´ametro desconocido.

I Al variar el parámetro desconocido, se cambia la PDF que modela la generación los datos. El modelo es definido como una familia de PDFs indexada por el parámetro desconocido.

I Para estimar el par´ametro desconocido, la idea es encontrar la PDF de la familia que es mas probable de haber generado los datos observados.

(4)

Ejemplo

Se quiere estimar el nivel de DC (par´ametroA) en WGN cuando se observa una sola muestra,

x[0] =A+w[0], dondew[0]∼ N(0, σ2)

I En este caso, la PDF de los datos esx[0]∼ N(A, σ2),

p(x[0];A) = √1 2πσ2exp − 1 2σ2(x[0]−A) 2 Familia de PDFs indexada por el par´ametro desconocido. 0 2 4 6 0 0.5 1 x[0] p(x[0];A=1) 0 2 4 6 0 0.5 1 x[0] p(x[0];A=2) 0 2 4 6 0 0.5 1 x[0] p(x[0];A=3) 0 2 4 6 0 0.5 1 x[0] p(x[0];A=4)

(5)

I Dado un valor del par´ametro, la correspondiente PDF indica que algunos datos son mas probables de ser observados que otros.

I En particular, dado A=A0, la probabilidad de observar un valor de x[0] en un intervalo de tama˜no ∆ centrado enx0es

Pr x[0]∈ x0− ∆ 2,x0+ ∆ 2 = Z x0+∆2 x0−∆2 p(x;A=A0)dx ≈p(x[0] =x0;A=A0)∆

I Por ejemplo, siA= 1 (conσ2_{= 1}_/_4),

Pr x[0]∈ 1−∆ 2,1 + ∆ 2 ≈0.798∆ Pr x[0]∈ 2−∆ 2,2 + ∆ 2 ≈0.108∆ 0 1 2 0 0.108 0.5 0.798 1 x[0] p(x[0];A=1)

(6)

I En realidad, los datos fueron observados, as´ı que el problema a resolver es el inverso: dados los datos y el modelo definido por la familia de PDFs, hay que encontrar la PDF mas probable de haber producido los datos.

I La función de verosimilitudes la PDF del parámetro fijando el valor de los datos. Conceptualmente, indica la probabilidad del parámetro desconocido luego de observados los datos.

I Por ejemplo, la probabilidad de observarx[0] cercano a 2 para cada valor de Aes aprox. p(x[0] = 2;A)∆. 2 3 4 0 0.5 1 A p(x[0]=2;A) I Si la observaci´on fue efectivamentex[0] = 2, inferir

A= 3 no ser´ıa razonable, ya que la probabilidad de haber

observadox[0] = 2 es peque˜na.

I Es mas probable queA= 2 sea el par´ametro verdadero, ya que conduce a una probabilidad alta de haber observadox[0] = 2.

(7)

I Por lo tanto, si se observ´o x[0] =x0, se elige como estimador ˆAel

valor que maximiza p(x[0] =x0;A), la funci´on de verosimilitud

fijando los datos enx=x0, sobre todo el dominio v´alido deA.

Estimador de M´

axima Verosimilitud

Si la PDF de los datos es

x∼p(x;θ),

el estimador de m´axima verosimilitud (MLE) es ˆ

θMLE= arg max

θ∈Dθ

lnp(x;θ)

El estimador MLE se define como el valor deθ que maximiza el logaritmo dep(x;θ) fijandox, es decir, el valor que maximiza de funci´on de

(8)

Nivel de DC en WGN - Variante

Los datos observados son

x[n] =A+w[n] conn= 0,1, . . . ,N−1 yw[n]∼ N(0,A)∀n,

dondeAes desconocido. El par´ametro desconocido se refleja en la media y en la varianza. Se quiere encontrar el estimador MVU.

Determinaci´

on de la CRLB

I Para encontrar el MVU, una alternativa es determinar la CRLB y ver si existe alg´un estimador cuya varianza la alcance.

I La PDF de los datos es,

p(x;A) = N−1 Y n=0 1 √ 2πAexp − 1 2A(x[n]−A) 2 = 1 (2πA)N2 exp " − 1 2A N−1 X n=0 (x[n]−A)2 # . (1)

(9)

Determinaci´

on de la CRLB

I Tomando el logaritmo queda,

lnp(x;A) =−N 2 ln 2π− N 2 lnA− 1 2A N−1 X n=0 (x[n]−A)2.

I Se aplica la derivada primera a la funci´on de verosimiltud,

∂lnp(x;A) ∂A =− N 2A+ 1 A N−1 X n=0 (x[n]−A) + 1 2A2 N−1 X n=0 (x[n]−A)2 (2) ? =I(A)(g(x)−A)

I La derivada de la funci´on de verosimilitud parece no poder

factorizarse de la forma requerida.

(10)

Determinaci´

on de la CRLB

I De todas formas es posible determinar la CRLB. Derivando nuevamente se obtiene [ejercicio],

∂2_ln_p₍_x_;_A₎ ∂A2 = N 2A2 − N A − 2 A2 N−1 X n=0 (x[n]−A)− 1 A3 N−1 X n=0 (x[n]−A)2

I Tomando la esperanza se llega a,

E ∂2lnp(x;A) ∂A2 = N 2A2 − N A − 1 A3NA =−N A+ 1 2 A2

I Por lo tanto, la CRLB para este problema es var( ˆA)≥ A

2

(11)

B´

usqueda del MVU mediante estad´ısticos suficientes

I Se busca un estad´ıstico suficiente deAen base a la factorizaci´on de Neyman-Fisher, p(x;A) =g(T(x),A)h(x). I Observando que 1 A N−1 X n=0 (x[n]−A)2= 1 A N−1 X n=0 x2[n]−2Nx¯+NA,

la PDF de los datos (ecuaci´on 1) se puede expresar como,

p(x;A) = 1 (2πA)N2 exp " −1 2 1 A N−1 X n=0 x2[n] +NA !# | {z } g(T(x),A) exp(Nx¯) | {z } h(x)

I Se concluye que un estad´ıstico suficiente deAesT(x) =

N−1 X

n=0 x2[n].

(12)

B´

usqueda del MVU mediante estad´ısticos suficientes

I Luego hay que verificar si el estad´ıstico suficiente es completo. Para eso hay que buscar una funci´ong que lo haga insesgado,

E " g N−1 X n=0 x2[n] !# =A Como E "N−1 X n=0 x2[n] # =NE x2[n] =N var(x[n]) +E2(x[n]) =N(A+A2),

no existe una forma obvia de elegirg.

(13)

C´

alculo del MLE

I El MLE se define como ˆ

AMLE = arg max A>0

lnp(x;A)

I De (1), la PDF de los datos es,

p(x;A) = 1 (2πA)N2 exp " − 1 2A N−1 X n=0 (x[n]−A)2 # .

I Considerando la PDF como funci´on deA, se convierte en la funci´on de verosimilitud.

I Para maximizar la funci´on de verosimilitud logar´ıtmica se diferencia y se iguala a 0. De (2), la derivada es ∂lnp(x;A) ∂A =− N 2A+ 1 A N−1 X n=0 (x[n]−A) + 1 2A2 N−1 X n=0 (x[n]−A)2

(14)

C´

alculo del MLE

I Igualando a 0 y despejando se llega a que: Aˆ2+ ˆA− 1 N N−1 X n=0 x2[n] = 0. I Resolviendo el polinomio de segundo grado en ˆAse obtienen las dos soluciones:

ˆ A=−1 2± v u u t 1 N N−1 X n=0 x2_[_n_{] +}1 4

I Se elige la soluci´on que produce estimadores positivos, en acuerdo con el rango posible de

A,A>0. ˆ A=−1 2+ v u u t 1 N N−1 X n=0 x2_[_n_{] +}1 4 (4)

I Hay que verificar que la

soluci´on corresponde al m´aximo y no al m´ınimo [ejercicio] ∂2_ln_p₍_x_;_A₎ ∂A2 _A_{= ˆ}_A <0

(15)

An´

alisis del estimador MLE: sesgo

E( ˆA) =E  − 1 2+ v u u t 1 N N−1 X n=0 x2_[_n_{] +}1 4   6 =−1 2 + v u u tE 1 N N−1 X n=0 x2_[_n_] ! +1 4 =−1 2 + r A+A2₊1 4 =−1 2 + s A+1 2 2 =A El estimador no es insesgado

(16)

An´

alisis del estimador MLE: comportamiento asint´

otico

I Definiendo u= 1 N N−1 X n=0 x2[n].

el estimador MLE encontrado es una transformaci´ong(u) no lineal de u, ˆ A=g(u) =−1 2 + r u+1 4  g0(u) = 1 2 q u+1₄  

I Cuando N es grande, la PDF deuest´a muy concentrada alrededor de su mediau0, con u0=E(u) =E 1 N N−1 X n=0 x2[n] ! =A+A2.

I Los valores probables deu se encuentran en un intervalo peque˜no en torno a su media u0 siN es grande.

(17)

An´

alisis del estimador MLE: comportamiento asint´

otico

I En un intervalo peque˜no en torno au0la funci´ong(u) es

aproximadamente lineal: linealidad estad´ıstica de transformaciones.

I Linealizandog(u) en torno au0 se tiene que,

g(u)≈g(u0) + dg(u) du _u₌_u 0 (u−u0) (5)

I Teniendo en cuenta queu0=A+A2,

g(A2+A) =−1 2 + r A2₊_A₊1 4 =A dg(u) du _u₌_A2₊_A = 1 2 q u+1₄ u=A2₊_A = 1 2 A+1₂ y sustituyendo en (5), se llega a que paraN grande ˆ A≈A+ 1 2 A+1₂ " 1 N N−1 X n=0 x2[n]−(A+A2) # (6)

(18)

An´

alisis del estimador MLE: comportamiento asint´

otico

I De (6), la media asint´otica es

E( ˆA) =A+ 1 2 A+1₂ " E 1 N N−1 X n=0 x2[n] ! −(A+A2) # =A,

concluyendo queAˆes asint´oticamente insesgado.

I La varianza asint´otica es,

var( ˆA) = 1 2 A+1₂ !2 var 1 N N−1 X n=0 x2[n] ! = 1 4 N A+1₂2 var(x 2_[_n_]) (7) I Siξ∼ N(µ, σ2), entonces, var(ξ2) =E(ξ4)−E2(ξ2) = 4µ2σ2+ 2σ4 I Comox[n]∼ N(A,A) var(x2[n]) = 4A3+ 2A2 = 4A2 A+1 2 (8)

(19)

An´

alisis del estimador MLE: comportamiento asint´

otico

I Sustituyendo la ecuaci´on (8) en la (7), la varianza asint´otica queda,

var( ˆA) = 1 4 N A+1₂24A 2 A+1 2 = A 2 N A+1₂ = CRLB(A) La CRLB(A) fue calculada antes, indicada en la ecuaci´on (3).

concluyendo queAˆalcanza la CRLB asint´oticamente.

I Como el estimador es asintóticamente insesgado y alcanza asintóticamente la CRLB,es asintóticamente eficiente.

I El estimador es adem´asconsistente. Esto significa que se cumple que lim

N→∞Pr

n

(20)

An´

alisis del estimador MLE: comportamiento asint´

otico

I PDF gaussiana: por el Teorema Central del L´ımite, la variable

aleatoriau=_N1PN_n₌₀−1x2[n] es gaussiana conN→ ∞, y como Âes lineal enusi Nes grande (ecuación 6), también tiene PDF

gaussiana.

I Como el MLE es asint´oticamente insesgado, alcanza asint´oticamente la CRLB y tiene PDF gaussiana, la PDF del MLE es

ˆ

A∼ Na (A,I−1(A)) ∼a: “asint´oticamente distribuido como” Este resultado es general y es la justificaci´on de la optimalidad del MLE.

I N pequeño: si bien el estimador es asintóticamente óptimo,no puede afirmarse nada sobre su desempeño si el conjunto de datos es pequeño. Es posible que existan mejores estimadores.

I En ocasiones, el estimador MLE conduce al estimador eficiente para un conjunto de datos finito.

(21)

MLE de nivel de DC en WGN

Se observanN muestras del nivel de continua en WGN,

x[n] =A+w[n]conn= 0,1, . . . ,N−1 yw[n]∼ N(0, σ2)∀n

El par´ametro a estimar esA. La varianzaσ2del ruido es conocida.

I La PDF de los datos es p(x;A) = 1 (2πσ2₎N2 exp " − 1 2σ2 N−1 X n=0 (x[n]−A)2 # I La funci´on de verosimilitud logar´ıtmica es lnp(x;A) =−lnh(2πσ2)N2 i − 1 2σ2 N−1 X n=0 (x[n]−A)2 I Para encontrar el m´aximo, se deriva y se iguala a cero, ∂lnp(x;A) ∂A = 1 σ2 N−1 X n=0 (x[n]−A) = 0

(22)

MLE de nivel de DC en WGN

I El MLE queda, ˆ A= 1 N N−1 X n=0 x[n] = ¯x.

I Como la media muestral es el estimador eficiente deA,el MLE es eficiente en este caso.

(23)

Teorema

Si existe un estimador eficiente, el m´etodo de m´axima verosimilitud permite encontrarlo.

Demostraci´on:

I Por el teorema de Cramer-Rao, si existe un estimador eficiente, existen las funcionesg(x) yI(θ) tal que

∂lnp(x;θ)

∂θ =I(θ)(g(x)−θ). (9)

El estimador eficiente es ˆθef =g(x) con varianzaI−1(θ).

I Como el MLE es el valor de θque maximiza la funci´on de verosimilitud logar´ıtmica se tiene que

∂lnp(x;θ) ∂θ _θ_{= ˆ}_θ MLE =I(ˆθMLE)(g(x)−θˆMLE) = 0 y por lo tanto ˆ θMLE=g(x) = ˆθef.

(24)

Teorema: Propiedades asint´

oticas del MLE

Si la PDFp(x, θ) de los datos satisface ciertas condiciones de regularidad, el MLE del par´ametro desconocidoθes asint´oticamente distribuido como,

ˆ

θ∼ Na (θ,I−1(θ))

I I(θ) es la informaci´on de Fisher evaluada en el valor verdadero del par´ametro desconocido.

I Las condiciones de regularidad son:

I Existencia de las derivadas primera y segunda de la funci´on de verosimilitud

I Condici´on de regularidad de la CRLB.

I El MLE es asint´oticamente eficiente y por lo tantoasint´oticamente ´

optimo.

Observaciones

I La expresi´on anal´ıtica de la PDF verdadera (no asint´otica) del MLE es en general imposible de derivar (ver el ejemplo I).

I En la práctica, no se sabe cuan grande debe serN para que se cumplan las propiedades asintóticas. Se suelen usar simulaciones en computadora para estudiar el desempeño.

(25)

Nivel de DC en WGN - Variante

Se quiere determinar el tama˜no necesario de los datos para que se cumplan los resultados asint´oticos.

I Previamente se encontr´o que

Estimador MLE CRLB PDF asint´otica

ˆ A=−1 2+ v u u t 1 N N−1 X n=0 x2_[_n_{] +}1 4 var( ˆA)≥ A2 N(A+1₂) ˆ A∼ Na A, A 2 N(A+1 2) !

I Una estrategia podr´ıa ser encontrar la PDF exacta de Ây establecer para que valor deN está cerca de la PDF asintótica.

I En principio es posible encontrar la PDF verdadera en este ejemplo, pero ser´ıa extremadamente tedioso.

I Es posible estimar experimentalmente la media y la varianza del estimador como [ E( ˆA) = 1 M M X i=1 ˆ Ai var( ˆ\A) = 1 M M X i=1 ˆ Ai−E[( ˆA) 2

(26)

Nivel de DC en WGN - Variante

I Se generan N muestras dex[n] usando un valor deA= 1 y se calcula ˆAusando la ecuaci´on 4.

I Se repite el experimento M= 10000 y se calcula la media y la varianza muestral E[( ˆA) yvar( ˆ\A) para distintos valores de N.

50 100 150 200 250 300 0.96 0.97 0.98 0.99 1

Media muestral de al variar N en M = 10000 experimentos.

Media muestral Valor asintotico 50 100 150 200 250 300 0.64 0.66 0.68

Varianza muestral de (x N) al variar N.

N

I Los valores asintóticos son ˆ A= 1 Nvar( Â) =2 3 I ConN>20 se ve que [ E( Â)>0.99

(27)

Nivel de DC en WGN - Variante

I Para comparar la PDF verdadera con la PDF asint´otica, se repiten

M = 20000 experimentos conN= 5 yN= 200 y se grafican los estimadores en histogramas.

0 0.5 1 1.5 2 0

0.5 1

Histograma con N = 5 en M = 20000 experimentos.

0.85 0.9 0.95 1 1.05 1.1 1.15 0 2 4 6 8

PDF asintotica I La PDF asint´otica es ˆ A∼ Na 1,2/3 N I ConN= 5 I Se observa el sesgo en el estimador. I La PDF verdadera no tiene forma de gaussiana. I ConN= 200 se

cumplen bien las propiedades asint´oticas.

(28)

MLE de la fase de una sinusoide

Se quiere estimar la faseφde una sinusoide contaminada con WGN,

x[n] =Acos(2πf0n+φ) +w[n] conn= 0,1, . . . ,N−1,

dondew[n]∼ N(0, σ2_{) para todo}_n_y_A_y_f

0conocidos

I Un estimador eficiente no puede encontrarse mediante la teor´ıa la teor´ıa de Cramer-Rao o estad´ısticos suficientes.

I La CRLB para el problema es: var( ˆφ)≥ 2σ

2 NA2

I Para encontrar el MLE hay que maximizarp(x;φ), con

p(x;φ) = 1 (2πσ2₎N₂ exp " − 1 2σ2 N−1 X n=0 (x[n]−Acos(2πf0n+φ))2 # .

I que es equivalente a minimizar

J(φ) =

N−1 X

n=0

(29)

MLE de la fase de una sinusoide

I Diferenciando respecto a φse tiene que

∂J(φ) ∂φ = 2A N−1 X n=0 (x[n]−Acos(2πf0n+φ)) sen(2πf0n+φ)

I y al igualar a 0 se llega a que el MLE cumple que

N−1 X n=0 x[n] sen(2πf0n+ ˆφ) =A N−1 X n=0 cos(2πf0n+ ˆφ) sen(2πf0n+ ˆφ)

I El lado derecho de la igualdad es aproximadamente 0 sif0no es

cercano a 0 o a 1/2, por lo que el MLE cumple aproximadamente que

N−1 X

n=0

(30)

MLE de la fase de una sinusoide

I Expandiendo t´erminos se llega a que

N−1 X n=0 x[n] sen(2πf0n) cos( ˆφ) =− N−1 X n=0 x[n] cos(2πf0n) sen( ˆφ)

I y despejando se obtiene que el MLE es aproximadamente

ˆ φ=−arctan N−1 P n=0 x[n] sen(2πf0n) N−1 P n=0 x[n] cos(2πf0n) . (11)

I En este ejemplo, la varianza asint´otica del estimador MLE es

var( ˆφ) = 1 NA2 2σ2 = 1 Nη donde η= A2 2 σ2 es la SNR. I La PDF asint´otica es ˆφ∼ Na (φ,1/Nη)

(31)

MLE de la fase de una sinusoide

I Para determinar la cantidad de datos para que se cumplan las propiedades asint´oticas se realiza una simulaci´on en computadora

A= 1, f0= 0.08, φ=π/4, σ2= 0.05 (⇒SNR = 10 = 10 dB) 50 100 150 200 250 300 0.7 0.75 0.8 0.85 0.9

Media muestral del estimador al variar N en M = 10000 experimentos.

Media muestral Media muestral_{Valor asintotico}

50 100 150 200 250 300

0.1 0.15 0.2

Varianza muestral del estimador (x N) al variar N.

N

N x varianza muestral

I Los valores asintóticos son ˆ φ= π 4 Nvar( Â) = 1 10 I Se necesita N>100 para alcanzar los valores asintóticos.

I Hay valores deN

preferenciales para el sesgo.

(32)

MLE de la fase de una sinusoide

I Para comparar la PDF verdadera con la PDF asint´otica, se repiten

M = 20000 experimentos conN= 20 yN= 200. 0.6 0.7 0.8 0.9 1 0 2 4 6

0.7 0.72 0.74 0.76 0.78 0.8 0.82 0.84 0.86 0 5 10 15 20

Estimador PDF asintotica I La PDF asint´otica es ˆ A∼ Na π 4, 1 10N I ConN= 20 el sesgo es considerable. I ConN= 200 se cumplen bien las propiedades asint´oticas.

I El estimador MLE es malo si el conjunto de datos es chico.

(33)

MLE de la fase de una sinusoide

I Se quiere analizar el desempe˜no del estimador al variar la SNR.

I Para eso se repite el experimento fijandoN en 100 y se calcula la media y la varianza cambiando la SNR.

−15 −10 −5 0 5 10

0.5 0.6 0.7 0.8

Media muestral del estimador al variar la SNR en M = 10000 experimentos.

Media muestral Media muestral_{Valor asintotico}

−15 −10 −5 0 5 10

−30 −20 −10 0

Varianza muestral del estimador (x N) al variar la SNR.

SNR (dB)

N x varianza muestral (dB)

I Con SNRs peque˜nas, la varianza supera la CRLB considerablemente. Solo con SNRs altas se alcanza la cota.

I Las condiciones asint´oticas no solo dependen deN, si no tambi´en de la SNR.

(34)

Resumen

I La PDF asint´otica del estimador MLE es v´alida solo si elconjunto de datos es suficientemente grande.

I En problemas de estimación de parámetros de señales en ruido,las condiciones asintóticas también dependen la SNR.

I Para establecer la cantidad de datos necesaria para que se cumplan las propiedades asint´oticas en un problema en particular, se deben realizar simulaciones en computadora.

I En algunos casos, el estimador no alcanza la distribuci´on asint´otica aunque la cantidad de datos y/o la SNR sean arbitrariamente grandes.

I En este ejemplo, el estimador MLE encontrado anal´ıticamente es aproximado. Para encontrar el MLE exacto, es posible encontrar el m´ınimo de la ecuación (10) numéricamente empleando técnicas de optimización.

(35)

I En ocasiones, es necesario estimar unafunción del parámetroθ. I Por ejemplo, en el problema de estimación del nivel de DCAen

WGN, podr´ıa interesar calcular la potenciaA2 de la señal. I El MLE de una función del parámetroθ se obtiene fácilmente a

partir del MLE deθ.

Ejemplo I: Nivel de DC transformado en WGN

Se consideran los datos

x[n] =A+w[n]conn= 0,1, . . . ,N−1 yw[n]∼ N(0, σ2)∀n,

dondeσ2_{es desconocido y se quiere estimar el MLE de}_α_{= exp(}_A₎_.

I La PDF de los datos es p(x;A) = 1 (2πσ2₎N₂ exp " − 1 2σ2 N−1 X n=0 (x[n]−A)2 # , −∞<A<∞

(36)

Ejemplo I: Nivel de DC transformado en WGN

I Como αes una transformación uno a uno de A(la función exponencial es biyectiva), es posible re-parametrizar la PDF en función deα, pT(x;α) = 1 (2πσ2₎N₂ exp " − 1 2σ2 N−1 X n=0 (x[n]−lnα)2 # , α >0. (12) El sub´ındiceT refleja que la PDF es parametrizada respecto al parámetro transformado.

I Para encontrar el MLE de α, hay que maximizar (12) enα, llegando a N−1 X n=0 (x[n]−ln ˆα)1 ˆ α= 0 ⇒ αˆ= exp(¯x)

I x¯ es el MLE deA, entonces: ˆα= exp( ˆA)

I Propiedad de invarianza: El MLE del parámetro transformado es la transformación del MLE del parámetro original.

(37)

Ejemplo II: Nivel de DC transformado en WGN

I Se considera ahora la transformaci´onα=A2_{para el conjunto de}

datos del ejemplo anterior.

I Al intentar re-parametrizar la PDF deArespecto aαse observa que

A=±√α,

ya que en este caso la transformaci´on no es uno a uno.

I Para caracterizar todas las posibles PDFs se requiere dos conjuntos de PDFs, pT₁(x;α) = 1 (2πσ2₎N₂ exp " − 1 2σ2 N−1 X n=0 (x[n]−√α)2 # , α≥0 pT₂(x;α) = 1 (2πσ2₎N2 exp " − 1 2σ2 N−1 X n=0 (x[n] +√α)2 # , α >0

I El MLE deαse obtiene como ˆα= arg max

α

(38)

Ejemplo II: Nivel de DC transformado en WGN

I Equivalentemente, el MLE puede encontrarse como el valor deαque maximizala funci´on de verosimilitud modificada, construida como

¯

pT(x, α) = max

α {pT1(x;α),pT2(x;α)}, para cada α≥0 I En este ejemplo, el MLE ˆαes

ˆ α= arg max α≥0 {pT1(x;α),pT2(x;α)} = " arg max √ α≥0 pT1(x; √ α),pT2(x; √ α) #2 = arg max −∞<A<∞ p(x;A) 2 = ˆA2 = ¯x2 La propiedad de invarianza se cumple aunque la transformaci´on no sea biyectiva.

(39)

Teorema: propiedad de invarianza del MLE

El MLE del parámetroα=g(θ), donde la PDFp(x, θ) está parametrizada porθ, está dado por

ˆ

α=g(ˆθ),

donde ˆθes el MLE deθ.

I El MLE deθ se obtiene maximizandop(x, θ).

I Sig no es una funci´on uno a uno, ˆαmaximiza la funci´on de verosimilitud modificada ¯pT(x, α), definida como

¯

pT(x, α) = max

(40)

I An´alogamente al caso escalar, el MLE para un vector de par´ametros

θ es el valor que maximiza la funci´on de verosimilitud p(x;θ) sobre todo el rango v´alido deθ.

I Asumiendo que la funci´on de verosimilitud es diferenciable, el MLE se encuentra como

∂lnp(x;θ)

∂θ =0.

I En caso de existir múltiples soluciones, el MLE es aquella que maximiza la función de verosimilitud, es decir, la que produce el máximo global.

(41)

Nivel de DC en WGN

Se consideran las observaciones del nivel de continua en WGN,

x[n] =A+w[n]conn= 0,1, . . . ,N−1 yw[n]∼ N(0, σ2)∀n

dondeAyσ2_{son desconocidos.}

I En este caso, el vector de par´ametros esθ= Aσ2T

.

I La funci´on de verosimilitud logar´ıtmica queda

lnp(x;θ) =−N 2 ln 2π− N 2 lnσ 2₋ 1 2σ2 N−1 X n=0 (x[n]−A)2.

I y las derivadas son (ejercicio)

∂lnp(x;θ) ∂A = 1 σ2 N−1 X n=0 (x[n]−A) ∂lnp(x;θ) ∂σ2 =− N 2σ2+ 1 2σ4 N−1 X n=0 (x[n]−A)2

(42)

Nivel de DC en WGN

I Resolviendo paraAen la primer ecuaci´on se tiene que 1 ˆ σ2 N−1 X n=0 (x[n]−Aˆ) = 0 ⇒ Aˆ= ¯x

I Resolviendo paraσ2 en la segunda ecuaci´on y usando que ˆA= ¯x

− N 2 ˆσ2+ 1 2 ˆσ22 N−1 X n=0 (x[n]−Aˆ)2= 0 ⇒ σˆ2₌ 1 N N−1 X n=0 (x[n]−x¯)2 I El MLE resulta en ˆ θ=     ¯ x 1 N N−1 P n=0 (x[n]−x¯)2     .

(43)

Teorema: Propiedades asint´

oticas del MLE

Si la PDFp(x,θ) de los datosx satisface ciertas condiciones de regularidad, el MLE del par´ametro desconocidoθ es asint´oticamente distribuido como,

ˆ

θ∼ Na (θ,I−1(θ))

I I(θ) es la matriz de informaci´on de Fisher evaluada en el valor verdadero del par´ametro desconocido.

I Las condiciones de regularidad son:

I Existencia de las derivadas de primer y segundo orden de la funci´on de verosimilitud. I Adem´as, E ∂lnp(x;θ) ∂θ =0 ∀θ

(44)

Kay, S. M. (1993).

Fundamentals of Statistical Signal Processing, Volume I: Estimation Theory, chapter 7.