Tratamiento Estad´ıstico de Se˜nales Pablo Mus´e, Ernesto L´opez, Luis Di Martino
{pmuse,elopez,dimartino}@fing.edu.uy
Departamento de Procesamiento de Se˜nales Instituto de Ingenier´ıa El´ectrica
Facultad de Ingenier´ıa
Estimador de M´
axima Verosimilitud
I En el problema de estimaci´on de par´ametros, una alternativa al estimador MVU es el Estimador de M´axima Verosimilitud (MLE, Maximum Likelihood Estimator) [Kay, 1993].
I Es la herramienta m´as popular para obtenerestimadores pr´acticosy puede ser usado en problemas de estimaci´on complejos, o en problemas dondeel MVU no existe o no puede encontrarse.
I Tiene caracter´ısticas deseables si el conjunto de datos es suficientemente grande
I es asint´oticamente eficiente
I es consistente
I es invariante ante re-parametrizaciones
I En muchos casos no puede encontrarse una f´ormula cerrada del estimador MLE y debe buscarse empleando m´etodos n´umericos.
I Se observa un conjunto de datos{x[0],x[1], . . .x[N−1]} que dependen de cierto par´ametro desconocidoθque se quiere estimar.
I Especificaci´on del modelo: los datos son generados por un proceso aleatorio caracterizado con cierta PDF,
p(x;θ),
que depende del par´ametro desconocido.
I Al variar el par´ametro desconocido, se cambia la PDF que modela la generaci´on los datos. El modelo es definido como una familia de PDFs indexada por el par´ametro desconocido.
I Para estimar el par´ametro desconocido, la idea es encontrar la PDF de la familia que es mas probable de haber generado los datos observados.
Ejemplo
Se quiere estimar el nivel de DC (par´ametroA) en WGN cuando se observa una sola muestra,
x[0] =A+w[0], dondew[0]∼ N(0, σ2)
I En este caso, la PDF de los datos esx[0]∼ N(A, σ2),
p(x[0];A) = √1 2πσ2exp − 1 2σ2(x[0]−A) 2 Familia de PDFs indexada por el par´ametro desconocido. 0 2 4 6 0 0.5 1 x[0] p(x[0];A=1) 0 2 4 6 0 0.5 1 x[0] p(x[0];A=2) 0 2 4 6 0 0.5 1 x[0] p(x[0];A=3) 0 2 4 6 0 0.5 1 x[0] p(x[0];A=4)
I Dado un valor del par´ametro, la correspondiente PDF indica que algunos datos son mas probables de ser observados que otros.
I En particular, dado A=A0, la probabilidad de observar un valor de x[0] en un intervalo de tama˜no ∆ centrado enx0es
Pr x[0]∈ x0− ∆ 2,x0+ ∆ 2 = Z x0+∆2 x0−∆2 p(x;A=A0)dx ≈p(x[0] =x0;A=A0)∆
I Por ejemplo, siA= 1 (conσ2= 1/4),
Pr x[0]∈ 1−∆ 2,1 + ∆ 2 ≈0.798∆ Pr x[0]∈ 2−∆ 2,2 + ∆ 2 ≈0.108∆ 0 1 2 0 0.108 0.5 0.798 1 x[0] p(x[0];A=1)
I En realidad, los datos fueron observados, as´ı que el problema a resolver es el inverso: dados los datos y el modelo definido por la familia de PDFs, hay que encontrar la PDF mas probable de haber producido los datos.
I La funci´on de verosimilitudes la PDF del par´ametro fijando el valor de los datos. Conceptualmente, indica la probabilidad del par´ametro desconocido luego de observados los datos.
I Por ejemplo, la probabilidad de observarx[0] cercano a 2 para cada valor de Aes aprox. p(x[0] = 2;A)∆. 2 3 4 0 0.5 1 A p(x[0]=2;A) I Si la observaci´on fue efectivamentex[0] = 2, inferir
A= 3 no ser´ıa razonable, ya que la probabilidad de haber
observadox[0] = 2 es peque˜na.
I Es mas probable queA= 2 sea el par´ametro verdadero, ya que conduce a una probabilidad alta de haber observadox[0] = 2.
I Por lo tanto, si se observ´o x[0] =x0, se elige como estimador ˆAel
valor que maximiza p(x[0] =x0;A), la funci´on de verosimilitud
fijando los datos enx=x0, sobre todo el dominio v´alido deA.
Estimador de M´
axima Verosimilitud
Si la PDF de los datos es
x∼p(x;θ),
el estimador de m´axima verosimilitud (MLE) es ˆ
θMLE= arg max
θ∈Dθ
lnp(x;θ)
El estimador MLE se define como el valor deθ que maximiza el logaritmo dep(x;θ) fijandox, es decir, el valor que maximiza de funci´on de
Nivel de DC en WGN - Variante
Los datos observados son
x[n] =A+w[n] conn= 0,1, . . . ,N−1 yw[n]∼ N(0,A)∀n,
dondeAes desconocido. El par´ametro desconocido se refleja en la media y en la varianza. Se quiere encontrar el estimador MVU.
Determinaci´
on de la CRLB
I Para encontrar el MVU, una alternativa es determinar la CRLB y ver si existe alg´un estimador cuya varianza la alcance.
I La PDF de los datos es,
p(x;A) = N−1 Y n=0 1 √ 2πAexp − 1 2A(x[n]−A) 2 = 1 (2πA)N2 exp " − 1 2A N−1 X n=0 (x[n]−A)2 # . (1)
Determinaci´
on de la CRLB
I Tomando el logaritmo queda,lnp(x;A) =−N 2 ln 2π− N 2 lnA− 1 2A N−1 X n=0 (x[n]−A)2.
I Se aplica la derivada primera a la funci´on de verosimiltud,
∂lnp(x;A) ∂A =− N 2A+ 1 A N−1 X n=0 (x[n]−A) + 1 2A2 N−1 X n=0 (x[n]−A)2 (2) ? =I(A)(g(x)−A)
I La derivada de la funci´on de verosimilitud parece no poder
factorizarse de la forma requerida.
Determinaci´
on de la CRLB
I De todas formas es posible determinar la CRLB. Derivando nuevamente se obtiene [ejercicio],
∂2lnp(x;A) ∂A2 = N 2A2 − N A − 2 A2 N−1 X n=0 (x[n]−A)− 1 A3 N−1 X n=0 (x[n]−A)2
I Tomando la esperanza se llega a,
E ∂2lnp(x;A) ∂A2 = N 2A2 − N A − 1 A3NA =−N A+ 1 2 A2
I Por lo tanto, la CRLB para este problema es var( ˆA)≥ A
2
B´
usqueda del MVU mediante estad´ısticos suficientes
I Se busca un estad´ıstico suficiente deAen base a la factorizaci´on de Neyman-Fisher, p(x;A) =g(T(x),A)h(x). I Observando que 1 A N−1 X n=0 (x[n]−A)2= 1 A N−1 X n=0 x2[n]−2Nx¯+NA,
la PDF de los datos (ecuaci´on 1) se puede expresar como,
p(x;A) = 1 (2πA)N2 exp " −1 2 1 A N−1 X n=0 x2[n] +NA !# | {z } g(T(x),A) exp(Nx¯) | {z } h(x)
I Se concluye que un estad´ıstico suficiente deAesT(x) =
N−1 X
n=0 x2[n].
B´
usqueda del MVU mediante estad´ısticos suficientes
I Luego hay que verificar si el estad´ıstico suficiente es completo. Para eso hay que buscar una funci´ong que lo haga insesgado,
E " g N−1 X n=0 x2[n] !# =A Como E "N−1 X n=0 x2[n] # =NE x2[n] =N var(x[n]) +E2(x[n]) =N(A+A2),
no existe una forma obvia de elegirg.
C´
alculo del MLE
I El MLE se define como ˆ
AMLE = arg max A>0
lnp(x;A)
I De (1), la PDF de los datos es,
p(x;A) = 1 (2πA)N2 exp " − 1 2A N−1 X n=0 (x[n]−A)2 # .
I Considerando la PDF como funci´on deA, se convierte en la funci´on de verosimilitud.
I Para maximizar la funci´on de verosimilitud logar´ıtmica se diferencia y se iguala a 0. De (2), la derivada es ∂lnp(x;A) ∂A =− N 2A+ 1 A N−1 X n=0 (x[n]−A) + 1 2A2 N−1 X n=0 (x[n]−A)2
C´
alculo del MLE
I Igualando a 0 y despejando se llega a que: Aˆ2+ ˆA− 1 N N−1 X n=0 x2[n] = 0. I Resolviendo el polinomio de segundo grado en ˆAse obtienen las dos soluciones:ˆ A=−1 2± v u u t 1 N N−1 X n=0 x2[n] +1 4
I Se elige la soluci´on que produce estimadores positivos, en acuerdo con el rango posible de
A,A>0. ˆ A=−1 2+ v u u t 1 N N−1 X n=0 x2[n] +1 4 (4)
I Hay que verificar que la
soluci´on corresponde al m´aximo y no al m´ınimo [ejercicio] ∂2lnp(x;A) ∂A2 A= ˆA <0
An´
alisis del estimador MLE: sesgo
E( ˆA) =E − 1 2+ v u u t 1 N N−1 X n=0 x2[n] +1 4 6 =−1 2 + v u u tE 1 N N−1 X n=0 x2[n] ! +1 4 =−1 2 + r A+A2+1 4 =−1 2 + s A+1 2 2 =A El estimador no es insesgadoAn´
alisis del estimador MLE: comportamiento asint´
otico
I Definiendo u= 1 N N−1 X n=0 x2[n].el estimador MLE encontrado es una transformaci´ong(u) no lineal de u, ˆ A=g(u) =−1 2 + r u+1 4 g0(u) = 1 2 q u+14
I Cuando N es grande, la PDF deuest´a muy concentrada alrededor de su mediau0, con u0=E(u) =E 1 N N−1 X n=0 x2[n] ! =A+A2.
I Los valores probables deu se encuentran en un intervalo peque˜no en torno a su media u0 siN es grande.
An´
alisis del estimador MLE: comportamiento asint´
otico
I En un intervalo peque˜no en torno au0la funci´ong(u) esaproximadamente lineal: linealidad estad´ıstica de transformaciones.
I Linealizandog(u) en torno au0 se tiene que,
g(u)≈g(u0) + dg(u) du u=u 0 (u−u0) (5)
I Teniendo en cuenta queu0=A+A2,
g(A2+A) =−1 2 + r A2+A+1 4 =A dg(u) du u=A2+A = 1 2 q u+14 u=A2+A = 1 2 A+12 y sustituyendo en (5), se llega a que paraN grande ˆ A≈A+ 1 2 A+12 " 1 N N−1 X n=0 x2[n]−(A+A2) # (6)
An´
alisis del estimador MLE: comportamiento asint´
otico
I De (6), la media asint´otica esE( ˆA) =A+ 1 2 A+12 " E 1 N N−1 X n=0 x2[n] ! −(A+A2) # =A,
concluyendo queAˆes asint´oticamente insesgado.
I La varianza asint´otica es,
var( ˆA) = 1 2 A+12 !2 var 1 N N−1 X n=0 x2[n] ! = 1 4 N A+122 var(x 2[n]) (7) I Siξ∼ N(µ, σ2), entonces, var(ξ2) =E(ξ4)−E2(ξ2) = 4µ2σ2+ 2σ4 I Comox[n]∼ N(A,A) var(x2[n]) = 4A3+ 2A2 = 4A2 A+1 2 (8)
An´
alisis del estimador MLE: comportamiento asint´
otico
I Sustituyendo la ecuaci´on (8) en la (7), la varianza asint´otica queda,var( ˆA) = 1 4 N A+1224A 2 A+1 2 = A 2 N A+12 = CRLB(A) La CRLB(A) fue calculada antes, indicada en la ecuaci´on (3).
concluyendo queAˆalcanza la CRLB asint´oticamente.
I Como el estimador es asint´oticamente insesgado y alcanza asint´oticamente la CRLB,es asint´oticamente eficiente.
I El estimador es adem´asconsistente. Esto significa que se cumple que lim
N→∞Pr
n
An´
alisis del estimador MLE: comportamiento asint´
otico
I PDF gaussiana: por el Teorema Central del L´ımite, la variablealeatoriau=N1PNn=0−1x2[n] es gaussiana conN→ ∞, y como ˆAes lineal enusi Nes grande (ecuaci´on 6), tambi´en tiene PDF
gaussiana.
I Como el MLE es asint´oticamente insesgado, alcanza asint´oticamente la CRLB y tiene PDF gaussiana, la PDF del MLE es
ˆ
A∼ Na (A,I−1(A)) ∼a: “asint´oticamente distribuido como” Este resultado es general y es la justificaci´on de la optimalidad del MLE.
I N peque˜no: si bien el estimador es asint´oticamente ´optimo,no puede afirmarse nada sobre su desempe˜no si el conjunto de datos es peque˜no. Es posible que existan mejores estimadores.
I En ocasiones, el estimador MLE conduce al estimador eficiente para un conjunto de datos finito.
MLE de nivel de DC en WGN
Se observanN muestras del nivel de continua en WGN,
x[n] =A+w[n]conn= 0,1, . . . ,N−1 yw[n]∼ N(0, σ2)∀n
El par´ametro a estimar esA. La varianzaσ2del ruido es conocida.
I La PDF de los datos es p(x;A) = 1 (2πσ2)N2 exp " − 1 2σ2 N−1 X n=0 (x[n]−A)2 # I La funci´on de verosimilitud logar´ıtmica es lnp(x;A) =−lnh(2πσ2)N2 i − 1 2σ2 N−1 X n=0 (x[n]−A)2 I Para encontrar el m´aximo, se deriva y se iguala a cero, ∂lnp(x;A) ∂A = 1 σ2 N−1 X n=0 (x[n]−A) = 0
MLE de nivel de DC en WGN
I El MLE queda, ˆ A= 1 N N−1 X n=0 x[n] = ¯x.I Como la media muestral es el estimador eficiente deA,el MLE es eficiente en este caso.
Teorema
Si existe un estimador eficiente, el m´etodo de m´axima verosimilitud permite encontrarlo.
Demostraci´on:
I Por el teorema de Cramer-Rao, si existe un estimador eficiente, existen las funcionesg(x) yI(θ) tal que
∂lnp(x;θ)
∂θ =I(θ)(g(x)−θ). (9)
El estimador eficiente es ˆθef =g(x) con varianzaI−1(θ).
I Como el MLE es el valor de θque maximiza la funci´on de verosimilitud logar´ıtmica se tiene que
∂lnp(x;θ) ∂θ θ= ˆθ MLE =I(ˆθMLE)(g(x)−θˆMLE) = 0 y por lo tanto ˆ θMLE=g(x) = ˆθef.
Teorema: Propiedades asint´
oticas del MLE
Si la PDFp(x, θ) de los datos satisface ciertas condiciones de regularidad, el MLE del par´ametro desconocidoθes asint´oticamente distribuido como,
ˆ
θ∼ Na (θ,I−1(θ))
I I(θ) es la informaci´on de Fisher evaluada en el valor verdadero del par´ametro desconocido.
I Las condiciones de regularidad son:
I Existencia de las derivadas primera y segunda de la funci´on de verosimilitud
I Condici´on de regularidad de la CRLB.
I El MLE es asint´oticamente eficiente y por lo tantoasint´oticamente ´
optimo.
Observaciones
I La expresi´on anal´ıtica de la PDF verdadera (no asint´otica) del MLE es en general imposible de derivar (ver el ejemplo I).
I En la pr´actica, no se sabe cuan grande debe serN para que se cumplan las propiedades asint´oticas. Se suelen usar simulaciones en computadora para estudiar el desempe˜no.
Nivel de DC en WGN - Variante
Se quiere determinar el tama˜no necesario de los datos para que se cumplan los resultados asint´oticos.
I Previamente se encontr´o que
Estimador MLE CRLB PDF asint´otica
ˆ A=−1 2+ v u u t 1 N N−1 X n=0 x2[n] +1 4 var( ˆA)≥ A2 N(A+12) ˆ A∼ Na A, A 2 N(A+1 2) !
I Una estrategia podr´ıa ser encontrar la PDF exacta de ˆAy establecer para que valor deN est´a cerca de la PDF asint´otica.
I En principio es posible encontrar la PDF verdadera en este ejemplo, pero ser´ıa extremadamente tedioso.
I Es posible estimar experimentalmente la media y la varianza del estimador como [ E( ˆA) = 1 M M X i=1 ˆ Ai var( ˆ\A) = 1 M M X i=1 ˆ Ai−E[( ˆA) 2
Nivel de DC en WGN - Variante
I Se generan N muestras dex[n] usando un valor deA= 1 y se calcula ˆAusando la ecuaci´on 4.
I Se repite el experimento M= 10000 y se calcula la media y la varianza muestral E[( ˆA) yvar( ˆ\A) para distintos valores de N.
50 100 150 200 250 300 0.96 0.97 0.98 0.99 1
Media muestral de al variar N en M = 10000 experimentos.
Media muestral Valor asintotico 50 100 150 200 250 300 0.64 0.66 0.68
Varianza muestral de (x N) al variar N.
N
I Los valores asint´oticos son ˆ A= 1 Nvar( ˆA) =2 3 I ConN>20 se ve que [ E( ˆA)>0.99
Nivel de DC en WGN - Variante
I Para comparar la PDF verdadera con la PDF asint´otica, se repiten
M = 20000 experimentos conN= 5 yN= 200 y se grafican los estimadores en histogramas.
0 0.5 1 1.5 2 0
0.5 1
Histograma con N = 5 en M = 20000 experimentos.
0.85 0.9 0.95 1 1.05 1.1 1.15 0 2 4 6 8
Histograma con N = 200 en M = 20000 experimentos.
PDF asintotica I La PDF asint´otica es ˆ A∼ Na 1,2/3 N I ConN= 5 I Se observa el sesgo en el estimador. I La PDF verdadera no tiene forma de gaussiana. I ConN= 200 se
cumplen bien las propiedades asint´oticas.
MLE de la fase de una sinusoide
Se quiere estimar la faseφde una sinusoide contaminada con WGN,
x[n] =Acos(2πf0n+φ) +w[n] conn= 0,1, . . . ,N−1,
dondew[n]∼ N(0, σ2) para todonyAyf
0conocidos
I Un estimador eficiente no puede encontrarse mediante la teor´ıa la teor´ıa de Cramer-Rao o estad´ısticos suficientes.
I La CRLB para el problema es: var( ˆφ)≥ 2σ
2 NA2
I Para encontrar el MLE hay que maximizarp(x;φ), con
p(x;φ) = 1 (2πσ2)N2 exp " − 1 2σ2 N−1 X n=0 (x[n]−Acos(2πf0n+φ))2 # .
I que es equivalente a minimizar
J(φ) =
N−1 X
n=0
MLE de la fase de una sinusoide
I Diferenciando respecto a φse tiene que∂J(φ) ∂φ = 2A N−1 X n=0 (x[n]−Acos(2πf0n+φ)) sen(2πf0n+φ)
I y al igualar a 0 se llega a que el MLE cumple que
N−1 X n=0 x[n] sen(2πf0n+ ˆφ) =A N−1 X n=0 cos(2πf0n+ ˆφ) sen(2πf0n+ ˆφ)
I El lado derecho de la igualdad es aproximadamente 0 sif0no es
cercano a 0 o a 1/2, por lo que el MLE cumple aproximadamente que
N−1 X
n=0
MLE de la fase de una sinusoide
I Expandiendo t´erminos se llega a queN−1 X n=0 x[n] sen(2πf0n) cos( ˆφ) =− N−1 X n=0 x[n] cos(2πf0n) sen( ˆφ)
I y despejando se obtiene que el MLE es aproximadamente
ˆ φ=−arctan N−1 P n=0 x[n] sen(2πf0n) N−1 P n=0 x[n] cos(2πf0n) . (11)
I En este ejemplo, la varianza asint´otica del estimador MLE es
var( ˆφ) = 1 NA2 2σ2 = 1 Nη donde η= A2 2 σ2 es la SNR. I La PDF asint´otica es ˆφ∼ Na (φ,1/Nη)
MLE de la fase de una sinusoide
I Para determinar la cantidad de datos para que se cumplan las propiedades asint´oticas se realiza una simulaci´on en computadora
A= 1, f0= 0.08, φ=π/4, σ2= 0.05 (⇒SNR = 10 = 10 dB) 50 100 150 200 250 300 0.7 0.75 0.8 0.85 0.9
Media muestral del estimador al variar N en M = 10000 experimentos.
Media muestral Media muestralValor asintotico
50 100 150 200 250 300
0.1 0.15 0.2
Varianza muestral del estimador (x N) al variar N.
N
N x varianza muestral
I Los valores asint´oticos son ˆ φ= π 4 Nvar( ˆA) = 1 10 I Se necesita N>100 para alcanzar los valores asint´oticos.
I Hay valores deN
preferenciales para el sesgo.
MLE de la fase de una sinusoide
I Para comparar la PDF verdadera con la PDF asint´otica, se repiten
M = 20000 experimentos conN= 20 yN= 200. 0.6 0.7 0.8 0.9 1 0 2 4 6
Histograma con N = 20 en M = 20000 experimentos.
0.7 0.72 0.74 0.76 0.78 0.8 0.82 0.84 0.86 0 5 10 15 20
Histograma con N = 200 en M = 20000 experimentos.
Estimador PDF asintotica I La PDF asint´otica es ˆ A∼ Na π 4, 1 10N I ConN= 20 el sesgo es considerable. I ConN= 200 se cumplen bien las propiedades asint´oticas.
I El estimador MLE es malo si el conjunto de datos es chico.
MLE de la fase de una sinusoide
I Se quiere analizar el desempe˜no del estimador al variar la SNR.
I Para eso se repite el experimento fijandoN en 100 y se calcula la media y la varianza cambiando la SNR.
−15 −10 −5 0 5 10
0.5 0.6 0.7 0.8
Media muestral del estimador al variar la SNR en M = 10000 experimentos.
Media muestral Media muestralValor asintotico
−15 −10 −5 0 5 10
−30 −20 −10 0
Varianza muestral del estimador (x N) al variar la SNR.
SNR (dB)
N x varianza muestral (dB)
I Con SNRs peque˜nas, la varianza supera la CRLB considerablemente. Solo con SNRs altas se alcanza la cota.
I Las condiciones asint´oticas no solo dependen deN, si no tambi´en de la SNR.
Resumen
I La PDF asint´otica del estimador MLE es v´alida solo si elconjunto de datos es suficientemente grande.
I En problemas de estimaci´on de par´ametros de se˜nales en ruido,las condiciones asint´oticas tambi´en dependen la SNR.
I Para establecer la cantidad de datos necesaria para que se cumplan las propiedades asint´oticas en un problema en particular, se deben realizar simulaciones en computadora.
I En algunos casos, el estimador no alcanza la distribuci´on asint´otica aunque la cantidad de datos y/o la SNR sean arbitrariamente grandes.
I En este ejemplo, el estimador MLE encontrado anal´ıticamente es aproximado. Para encontrar el MLE exacto, es posible encontrar el m´ınimo de la ecuaci´on (10) num´ericamente empleando t´ecnicas de optimizaci´on.
I En ocasiones, es necesario estimar unafunci´on del par´ametroθ. I Por ejemplo, en el problema de estimaci´on del nivel de DCAen
WGN, podr´ıa interesar calcular la potenciaA2 de la se˜nal. I El MLE de una funci´on del par´ametroθ se obtiene f´acilmente a
partir del MLE deθ.
Ejemplo I: Nivel de DC transformado en WGN
Se consideran los datos
x[n] =A+w[n]conn= 0,1, . . . ,N−1 yw[n]∼ N(0, σ2)∀n,
dondeσ2es desconocido y se quiere estimar el MLE deα= exp(A).
I La PDF de los datos es p(x;A) = 1 (2πσ2)N2 exp " − 1 2σ2 N−1 X n=0 (x[n]−A)2 # , −∞<A<∞
Ejemplo I: Nivel de DC transformado en WGN
I Como αes una transformaci´on uno a uno de A(la funci´on exponencial es biyectiva), es posible re-parametrizar la PDF en funci´on deα, pT(x;α) = 1 (2πσ2)N2 exp " − 1 2σ2 N−1 X n=0 (x[n]−lnα)2 # , α >0. (12) El sub´ındiceT refleja que la PDF es parametrizada respecto al par´ametro transformado.
I Para encontrar el MLE de α, hay que maximizar (12) enα, llegando a N−1 X n=0 (x[n]−ln ˆα)1 ˆ α= 0 ⇒ αˆ= exp(¯x)
I x¯ es el MLE deA, entonces: ˆα= exp( ˆA)
I Propiedad de invarianza: El MLE del par´ametro transformado es la transformaci´on del MLE del par´ametro original.
Ejemplo II: Nivel de DC transformado en WGN
I Se considera ahora la transformaci´onα=A2para el conjunto de
datos del ejemplo anterior.
I Al intentar re-parametrizar la PDF deArespecto aαse observa que
A=±√α,
ya que en este caso la transformaci´on no es uno a uno.
I Para caracterizar todas las posibles PDFs se requiere dos conjuntos de PDFs, pT1(x;α) = 1 (2πσ2)N2 exp " − 1 2σ2 N−1 X n=0 (x[n]−√α)2 # , α≥0 pT2(x;α) = 1 (2πσ2)N2 exp " − 1 2σ2 N−1 X n=0 (x[n] +√α)2 # , α >0
I El MLE deαse obtiene como ˆα= arg max
α
Ejemplo II: Nivel de DC transformado en WGN
I Equivalentemente, el MLE puede encontrarse como el valor deαque maximizala funci´on de verosimilitud modificada, construida como
¯
pT(x, α) = max
α {pT1(x;α),pT2(x;α)}, para cada α≥0 I En este ejemplo, el MLE ˆαes
ˆ α= arg max α≥0 {pT1(x;α),pT2(x;α)} = " arg max √ α≥0 pT1(x; √ α),pT2(x; √ α) #2 = arg max −∞<A<∞ p(x;A) 2 = ˆA2 = ¯x2 La propiedad de invarianza se cumple aunque la transformaci´on no sea biyectiva.
Teorema: propiedad de invarianza del MLE
El MLE del par´ametroα=g(θ), donde la PDFp(x, θ) est´a parametrizada porθ, est´a dado por
ˆ
α=g(ˆθ),
donde ˆθes el MLE deθ.
I El MLE deθ se obtiene maximizandop(x, θ).
I Sig no es una funci´on uno a uno, ˆαmaximiza la funci´on de verosimilitud modificada ¯pT(x, α), definida como
¯
pT(x, α) = max
I An´alogamente al caso escalar, el MLE para un vector de par´ametros
θ es el valor que maximiza la funci´on de verosimilitud p(x;θ) sobre todo el rango v´alido deθ.
I Asumiendo que la funci´on de verosimilitud es diferenciable, el MLE se encuentra como
∂lnp(x;θ)
∂θ =0.
I En caso de existir m´ultiples soluciones, el MLE es aquella que maximiza la funci´on de verosimilitud, es decir, la que produce el m´aximo global.
Nivel de DC en WGN
Se consideran las observaciones del nivel de continua en WGN,
x[n] =A+w[n]conn= 0,1, . . . ,N−1 yw[n]∼ N(0, σ2)∀n
dondeAyσ2son desconocidos.
I En este caso, el vector de par´ametros esθ= Aσ2T
.
I La funci´on de verosimilitud logar´ıtmica queda
lnp(x;θ) =−N 2 ln 2π− N 2 lnσ 2− 1 2σ2 N−1 X n=0 (x[n]−A)2.
I y las derivadas son (ejercicio)
∂lnp(x;θ) ∂A = 1 σ2 N−1 X n=0 (x[n]−A) ∂lnp(x;θ) ∂σ2 =− N 2σ2+ 1 2σ4 N−1 X n=0 (x[n]−A)2
Nivel de DC en WGN
I Resolviendo paraAen la primer ecuaci´on se tiene que 1 ˆ σ2 N−1 X n=0 (x[n]−Aˆ) = 0 ⇒ Aˆ= ¯x
I Resolviendo paraσ2 en la segunda ecuaci´on y usando que ˆA= ¯x
− N 2 ˆσ2+ 1 2 ˆσ22 N−1 X n=0 (x[n]−Aˆ)2= 0 ⇒ σˆ2= 1 N N−1 X n=0 (x[n]−x¯)2 I El MLE resulta en ˆ θ= ¯ x 1 N N−1 P n=0 (x[n]−x¯)2 .
Teorema: Propiedades asint´
oticas del MLE
Si la PDFp(x,θ) de los datosx satisface ciertas condiciones de regularidad, el MLE del par´ametro desconocidoθ es asint´oticamente distribuido como,
ˆ
θ∼ Na (θ,I−1(θ))
I I(θ) es la matriz de informaci´on de Fisher evaluada en el valor verdadero del par´ametro desconocido.
I Las condiciones de regularidad son:
I Existencia de las derivadas de primer y segundo orden de la funci´on de verosimilitud. I Adem´as, E ∂lnp(x;θ) ∂θ =0 ∀θ
Kay, S. M. (1993).
Fundamentals of Statistical Signal Processing, Volume I: Estimation Theory, chapter 7.