Modelos ARMA
Francisco J. Gonz´alez Serrano
Universidad Carlos III de Madrid
Modelos ARMA
En este cap´ıtulo nos centramos en la familia de los procesos estacionarios ARMA (AutoRegressive Moving Average).
La importancia de estas t´ecnicas param´etricas radica en su flexibilidad.
Existe un gran n´umero de funciones de autocovarianza γ(•) que pueden aproximarse por la de
procesos ARMA.
Procesos ARMA(p, q)
Definici´on: {Xt} es un proceso ARMA(p, q) si {Xt} es estacionario y si para cada t
Xt − φ1Xt−1 − · · · φpXt−p = Zt + θ1Zt−1 +· · · + θqZt−q , (1)
• {Zt} ∼ WN(0, σ2).
{Xt} es un proceso ARMA(p, q) con media µ si {Xt − µ} es un proceso ARMA(p, q).
Notaci´on (m´as compacta) para describir estos procesos:
φ(B)Xt = θ(B)Zt (2)
• φ(•) y θ(•) son dos polinomios de ´ordenes p y q.
• B es el operador desplazamiento.
Propiedades procesos ARMA(p, q)
Existencia y unicidad:
• Para que exista una soluci´on estacionaria {Xt} que satisfaga
φ(B)Xt = θ(B)Zt , (3)
φ(z) = 1 − φ1z − φ2z2 − · · · − φpzp 6= 0, ∀|z| = 1 . Causalidad
• Un proceso es causal si existen constantes {ψj} tal que Xt =
X∞ j=0
ψjZt−j , ∀t . (4)
y P∞
j=0|ψj| < ∞ (estabilidad).
• La propiedad de causalidad es equivalente a la condici´on
φ(z) = 1 − φ1z − φ2z2 − · · · − φpzp 6= 0, ∀|z| ≤ 1 ,
• La secuencia {ψj} est´a determinada por la relaci´on ψ(z) = P∞
j=0ψjzj = θ(z) φ(z) (1− φ1z − · · · − φpzp)(ψ0 + ψ1z + · · · ) = 1 + θ1z + · · · + θqzq
• Si se relacionan los coeficientes asociados a las potencias zj, se puede escribir que ψj −
p
X
k=1
φkψj−k = θj , j = 0, 1, . . . (5) verific´andose que θ0 = 1, θj = 0 para j > q y ψj = 0 para j < 0.
Funci´on de autocorrelaci´on de procesos ARMA
Proceso causal ARMA(p, q) definido por:
φ(B)Xt = θ(B)Zt, con {Zt} ∼ WN(0, σ2) . (6)
M´etodo 1. La condici´on de causalidad Xt =
X∞ j=0
ψjZt−j , ∀t . (7)
implica que el cociente θ(z)/φ(z), se puede desarrollar como θ(z)
φ(z) = X∞
j=0
ψjZt−j , para |z| ≤ 1 . obteni´endose finalmente que
γ(h) = E(Xt+hXt) = σ2 X∞
j=0
ψjψj+|h| . (8)
ACVF. Ejemplo
Consideremos el proceso
Xt − φXt−1 = Zt + θZt−1, con {Zt} ∼ WN(0, σ2) (9) y |φ| < 1.
Su ACVF viene dada por
γ(0) = σ2 X∞
j=0
ψj2 = σ2
1 + (θ + φ)2 X∞
j=0
φ2j
= σ2
1 + (θ + φ)2 1− φ2
, γ(1) = σ2
X∞ j=0
ψj+1ψj
= σ2
θ + φ + (θ + φ)2 1 − φ2
, y
γ(h) = φh−1γ(1), h ≥ 2 .
Funci´on de autocovarianza
M´etodo 2. A partir de
Xt − φ1Xt−1 − · · · φpXt−p = Zt + θ1Zt−1 +· · · + θqZt−q , (10) puede deducirse que los procesos {Zt} y {Xt−k} guardan relaciones de dependencia estad´ıstica
´unicamente cuando k < p.
• Si se expresa Xt = P∞
n=0ψnZt−n, entonces, E [ZtXt−k] =
X∞ n=0
ψnE [ZtZt−k−n] k < p.
• Como el proceso {Zt} es WN(0, σ2),
◦ E [ZtZt−k−n] = σ2δn+k
E [ZtXt−k] = σ2 X∞
n=0
ψnδn+k = σ2ψ−k . (11)
• Si se multiplican los dos extremos de φ(B)Xt = θ(B)Zt por Xt−k, k = 0, 1, . . . y se calcula
la esperanza matem´atica,
γ(k) − φ1γ(k − 1) − . . . − φpγ(k − p) = σ2 X∞
j=0
θk+jψj, 0 ≤ k < m (12a) γ(k) − φ1γ(k − 1) − . . . − φpγ(k − p) = 0, k ≥ m, (12b) donde m = m´ax(p, q + 1), ψj = 0 para j < 0, θ0 = 1 y θj = 0 para j 6∈ {0, . . . , q}
Funci´on de autocovarianza. Ejemplo
Consideremos el proceso ARMA(1, 1)
Xt − φXt−1 = Zt + θZt−1, con {Zt} ∼ WN(0, σ2) (13) y |φ| < 1.
La Ecuaci´on
γ(k) − φ1γ(k − 1) − . . . − φpγ(k − p) = σ2 X∞
j=0
θk+jψj, 0 ≤ k < m (14) se puede plantear como
γ(0) − φγ(−1) = γ(0) − φγ(1) = σ2(1 + θ(θ + φ)) (15a) y
γ(1) − φγ(0) = σ2θ . (15b)
La resoluci´on del par de ecuaciones anterior proporciona los valores γ(0) y γ(1).
Finalmente, la Ecuaci´on (homog´enea)
γ(k) − φ1γ(k − 1) − . . . − φpγ(k − p) = 0, k ≥ m, (16)
responde a la expresi´on
γ(k) − φγ(k − 1) = 0 , k ≥ 2 (17)
cuya soluci´on es
γ(h) = φh−1γ(1) , h ≥ 1
La funci´on de autocorrelaci´on (parcial)
Recordemos que la funci´on de autocorrelaci´on (AutoCorrelation Function, ACF), ρ(•), de un proceso ARMA se define como
ρ(h) = γ(h) γ(0)
y que su versi´on muestral, es decir, aquella obtenida a partir de un conjunto finito de observaciones {x1, . . . , xn} se representa por
ˆ
ρ(h) = γ(h)ˆ ˆ γ(0)
La funci´on de autocorrelaci´on parcial (Partial AutoCorrelation Function, PACF), α(•), de un proceso ARMA {Xt} se define por
α(0) = 1 y
α(h) = φhh, h ≥ 1
donde φhh es la ´ultima componente de
φh = Γ−1h γh , (18)
con
Γh = [γ(i − j)]hi,j=1
y γh = [γ(1), γ(2), . . . , γ(h)]T.
PACF de un proceso AR(p)
La PACF de un proceso AR(p) es cero para h > p.
Demo:
• El mejor predictor lineal del proceso causal AR(p)
Xt − φ1Xt−1 − · · · − φpXt−p = Zt , {Zt} ∼ WN(0, σ2) , en funci´on de X1, . . . , Xh, siendo h ≥ p, es
Xˆh+1 = φ1Xh + φ2Xh−1 + . . . + φpXh+1−p.
• Cuando h = p, φhh (X1) es φp y cuando h > p, φhh = 0.
• Por tanto,
α(p) = φp y
α(h) = 0 para h > p
• Para los valores h < p, el c´alculo de los valores α(h) se obtiene de
φh = Γ−1h γh , (19)
PACF de un proceso MA(q)
Proceso MA(q)
Xt = Zt + θ1Zt−1 + · · · + θqZt−q, con {Zt} ∼ WN(0, σ2) (20) La funci´on de autocovarianza (ACVF) responde a la expresi´on:
γ(h) = (
σ2Pq−|h|
j=0 θjθj+|h|, si |h| ≤ q,
0, si |h| > q (21)
donde se ha supuesto que θ0 = 1.
La ACVF de los procesos MA(q) se desvanece a partir del instante q.
Supongamos ahora que q = 1
γ(0) = σ2 1 + θ12 y
γ(1) = σ2θ1 A partir de
φh = Γ−1h γh , (22)
se pueden calcular la PACF sin m´as que hacer α(h) = φh(h).
• Para h = 0, α(0) = 1.
• Para h = 1,
γ(0)φ1(1) = γ(1) . (23)
α(1) = φ1(1) = γ(1)
γ(0) = θ1
1 + θ12 . (24)
• Para h = 2 resulta,
γ(0) γ(1) γ(1) γ(0)
φ2(1) φ2(2)
= γ(1) 0
, (25)
donde se ha tenido en cuenta que γ(h) = 0 para h > 1 (proceso MA(1)). Por tanto, α(2) = − γ2(1)
γ2(0) − γ2(1) = − θ12
1 + θ12 + θ14 . (26)
• En general, la PACF en la muestra h vale
α(h) = φh(h) = − (−θ1)h
1 + θ21 + · · · + θ12h
(27)
La PACF muestral
Si {Xt} es una serie AR(p).
• La PACF obtenida a partir de los valores observados {x1, . . . , xn} tiene que reflejar las propiedades intr´ısecas de la PACF.
• En particular, si la PACF muestral presenta valores significativamente diferentes de cero para el intervalo 0 ≤ h ≤ p y despreciables para h > p, el modelo AR(p) resulta adecuado.
Ejemplos. Gasolinera
Descuadres diarios en la medida de la capacidad de un tanque de una gasolinera de Colorado.
0 10 20 30 40 50 60
−100
−50 0 50 100
Días
Galones
• Si la cantidad de combustible almacenado en el tanque al final del d´ıa t es yt,
• si at representa la diferencia entre la cantidad dispensada y la medida reflejada en el surtidor,
• entonces, el descuadre xt se define como xt = yt − yt−1 + at.
• En ausencia de errores en la medida de la capacidad y de fugas, xt = 0.
• En la pr´actica, estos errores de medida permiten considerar a las cantidades anteriores como variables aleatorias: Yt, At, Xt, con t = 1, . . . , 57.
Funci´on de autocorrelaci´on (ACF).
0 2 4 6 8 10 12 14 16 18 20
−0.5 0 0.5 1
Muestra
ACF
• Se ha supuesto un modelo MA(1) para dibujar los l´ımites ±1,96n−1/2(1 + 2 ˆρ2(1))1/2 (n = 57).
• ˆρ(h) permanece dentro de los l´ımites anteriores para h > 1, lo cual es compatible con el
modelo
Xt = µ + Zt + θZt−1, {Zt} ∼ WN(0, σ2) . (28) Para estimar la media del descuadre utilizamos el promedio temporal ¯x57 = −4,035.
Para los par´ametros θ, σ2 utilizaremos la versi´on muestral de la funci´on de autocovarianza (ACVF):
(1 + θ2)σ2 = ˆγ(0) = 3415,72 θσ2 = ˆγ(1) = −1719,95
La soluci´on (aproximada) del sistema anterior es θ = −1 y σ2 = 1708, con lo cual resulta el modelo MA(1):
Xt = −4,035 + Zt − Zt−1, {Zt} ∼ WN(0, 1708) .
Manchas solares
Serie correspondientes al n´umero de manchas solares S1, . . . , S100 aparecidas en el periodo 1770-1869
17700 1780 1790 1800 1810 1820 1830 1840 1850 1860 1870
20 40 60 80 100 120 140 160
Años
Numero de manchas solares
Funci´on de autocorrelaci´on parcial (PACF) muestral. Se representan los l´ımites ±1,96/√ 100.
Como α(h) ∈ ±1,96/√
100, h > 2, aplicamos modelo AR(2):
Xt − φ1Xt−1 − φ2Xt−2 = Zt , {Zt} ∼ WN(0, σ2) . (29) donde Xt = St − 46,93
0 5 10 15 20 25 30 35 40
−0.6
−0.4
−0.2 0 0.2 0.4 0.6 0.8 1
Muestra
PACF
Una forma sencilla de ajustar este modelo a los datos consiste en hacer que coincidan los valores de la autocovarianza muestral en las muestras 0, 1 y 2 con los del modelo AR(2).
• Multiplicando cada lado de la ecuaci´on
Xt − φ1Xt−1 − · · · − φpXt−p = Zt
por Xt−k y tomando la esperanza matem´atica, se obtienen las ecuaciones de Yule-Walker
Γpφ = γp (30)
y
σ2 = γ(0) − φTγp (31)
donde Γp es la matriz de autocovarianza [γ(i − j)]pi,j=1 y γp = (γ(1), . . . , γ(p))T. Para el caso p = 2 resulta
γ(0) = γ(1)φ1 + γ(2)φ2 + σ2 γ(0)φ1 + γ(1)φ2 = γ(1) γ(1)φ1 + γ(0)φ2 = γ(2) sustituyendo γ(k) por ˆγ(k), donde
ˆ
γ(0) = 1382,2, ˆγ(1) = 1114,4 ˆγ(2) = 591,73 , resulta:
1382,2 = 1114,4φ1 + 591,73φ2 + σ2 1382,2φ1 + 1114,4φ2 = 1114,4 1114,4φ1 + 1382,2φ2 = 591,73 Finalmente, el modelo AR(2) responde a la expresi´on
Xt − 1,3175Xt−1 + 0,6342Xt−2 = Zt, con {Zt} ∼ WN(0, 289,179) . (32)
Predicci´on de procesos ARMA
Algoritmo de innovaciones: permite predecir procesos de segundo orden (y media 0) sin que
´estos tengan que ser necesariamente estacionarios.
Simplificaci´on cuando se aplica a procesos ARMA(p, q) causales
φ(D)Xt = θ(D)Zt , con {Zt} ∼ WN(0, σ2) .
• Idea: aplicar el procedimiento sobre el proceso transformado
Wt = 1
σXt, t = 1, . . . , m Wt = 1
σφ(D)Xt, t > m
(33) donde
m = m´ax(p, q) (34)
◦ {Wt} es un proceso MA para t > m.
Funci´on de autocovarianza de longitud finita.
Simplificaci´on algoritmo de innovaciones.
◦ Se ha expresado cada Xn, n ≥ 1, como una combinaci´on lineal de Wj, con 1 ≤ j ≤ n, y viceversa.
• Si se conoce la funci´on de autocovarianza de {Xt}, las covarianzas κ(i, j) = E(Wi, Wj) son:
κ(i, j) =
γX(i − j)/σ2, 1 ≤ i, j ≤ m 1
σ2 [γX(i − j) −Pp
r=1φrγX(r − |i − j|)] , m´ın(i, j) ≤ m,
m < m´ax(i, j) ≤ 2m Pq
r=0θrθr+|i−j|, m´ın(i, j) > m
0, en otro caso.
(35)
• Aplicando el algoritmo de innovaciones a {Wt} resulta
Wˆn+1 = Pn j=1ϑnj
Wn+1−j − ˆWn+1−j
, 1 ≤ n < m Wˆn+1 = Pq
j=1ϑnj
Wn+1−j − ˆWn+1−j
, n ≥ m (36)
◦ ϑnj = 0, para n ≥ m y para j > q
◦ n = E(Wn+1 − ˆWn+1)2
Propiedad: el mejor predictor lineal de una variable aleatoria Y , PnY , en funci´on de {X1, · · · , Xn, 1}, es el mismo que si expresamos Y en funci´on de {W1, · · · , Wn, 1}.
Wˆn+1 = PnWn+1 , ˆXn+1 = PnXn+1 Como Pn es un operador lineal, y como
Wt = 1
σXt, t = 1, . . . , m Wt = 1
σφ(D)Xt, t > m
(37)
es una combinaci´on lineal de Xt, resulta que
Wˆt = 1
σXˆt, 1 ≤ t ≤ m
Wˆt = 1
σ h ˆXt − φ1Xt−1 − · · · − φpXt−p
i, t > m
(38)
Teniendo en cuenta que
Xt − ˆXt = σ h
Wt − ˆWti
∀t ≥ 1 (39)
se obtiene
Xˆn+1 =
Pn
j=1ϑnj
Xn+1−j − ˆXn+1−j
, 1 ≤ n < m φ1Xn+ · · · + φpXn+1−p +Pq
j=1ϑnj
Xn+1−j − ˆXn+1−j
, n ≥ m (40)
y
E(Xn+1 − ˆXn+1)2 = σ2E(Wn+1 − ˆWn+1)2 = σ2n (41)
Predicci´on de procesos ARMA. Ejemplo
Consideremos el proceso ARMA(1,1)
Xt − φXt−1 = Zt + θZt−1 , con {Zt} ∼ WN(0, σ2) . (42) donde |φ| < 1.
En este caso, ˆXn+1 = φXn + θn1
Xn − ˆXn
, n ≥ 1.
Para calcular θn1 es necesario obtener previamente la ACVF γ(0) = σ2
X∞ j=0
ψj2
= σ2
1 + (θ + φ)2 X∞
j=0
φ2j
= σ2
1 + (θ + φ)2 1− φ2
= σ2 1 + 2θφ + θ2 1 − φ2
, γ(1) = σ2
X∞ j=0
ψj+1ψj
= σ2
θ + φ + (θ + φ)2 1 − φ2
, y
γ(h) = φh−1γ(1), h ≥ 2 .
Introduciendo estas expresiones en la ecuaci´on
κ(i, j) =
γX(i − j)/σ2, 1 ≤ i, j ≤ m
1
σ2 [γX(i − j) −Pp
r=1φrγX(r − |i − j|)] , m´ın(i, j) ≤ m
m < m´ax(i, j) ≤ 2m Pq
r=0θrθr+|i−j|, m´ın(i, j) > m
0, en otro caso.
(43)
resulta
κ(i, j) =
1 + 2θφ + θ2
1− φ2 , i = j = 1 1 + θ2, i = j ≥ 2
θ, |i − j| = 1, i ≥ 1
0, en otro caso.
(44)
Con estos valores, el algoritmo de innovaciones se reduce a
0 = 1 + 2θφ + θ2
1 − φ2 (45a)
θn1 = θ
n−1 , n = 1 + θ2
1 − 1
n−1
(45b) A partir de las ecuaciones anteriores se puede observar que
n → 1 y, como consecuencia, que θn1 → θ
Ilustraci´on: predicci´on del proceso ARMA(1,1):
Xt − 0,5Xt−1 = Zt + 0,2Zt−1 , con {Zt} ∼ WN(0, σ2) . (46)
• La matriz de covarianzas [κ(i, j)] viene dada por:
κ=
1,6533 0,2000 0 0 0 0
0,2000 1,0400 0,2000 0 0 0
0 0,2000 1,0400 0,2000 0 0 0 0 0,2000 1,0400 0,2000 0
0 0 0 0,2000 1,0400 0,2000
... ... ... ... ... ...
(47)
• Algoritmo de innovaciones proporciona los valores
n Xn+1 n θn1 Xˆn+1
1 1.1238 1.6533 0.1210 0 2 1.2606 1.0158 0.1969 0.1359 3 0.5546 1.0006 0.1999 0.8517 4 0.8158 1.0000 0.2000 0.2179 5 1.0050 1.0000 0.2000 0.5275 6 1.4233 1.0000 0.2000 0.5980 7 1.0941 1.0000 0.2000 0.8767 8 -0.1898 1.0000 0.2000 0.5905 9 -0.2167 1.0000 0.2000 -0.2510 10 -0.0455 1.0000 0.2000 -0.1015
Estimaci´on de par´ametros del modelo ARMA
Analizaremos cuatro t´ecnicas que permiten hacer una estimaci´on preliminar de los par´ametros φ = (φ1, . . . , φp)T, θ = (θ1, . . . , θq)T y σ2 a partir de las observaciones x1, . . . , xn de un
proceso ARMA(p, q) causal definido por
φ(D)Xt = θ(D)Zt , con {Zt} ∼ WN(0, σ2) . (48) 1. Estimaci´on de Yule-Walker: AR.
2. Algoritmo de Burg: AR.
3. Algoritmo de innovaciones: ARMA.
4. Algoritmo Hannan-Rissanen: ARMA.
Estimaci´on de Yule-Walker
Se utiliza para ajustar modelos autorregresivos puros.
• Puede adaptarse a modelos con q > 0, aunque sus prestaciones son peores que las alcanzadas cuando q = 0.
La condici´on de causalidad permite expresar el proceso Xt en la forma Xt =
X∞ j=0
ψjZt−j (49)
donde ψj ↔ Ψ(z) = 1 Φ(z).
Multiplicando cada lado de la igualdad por Xt−j y calculando la esperanza matem´atica se obtienen las conocidas ecuaciones de Yule-Walker:
Γpφ = γp (50a)
y
σ2 = γ(0) − φTγp (50b)
donde Γp = [γ(i − j)]pi,j=1 y γp = (γ(1), . . . , γ(p))T.
La versi´on “muestral” de las ecuaciones anteriores es
φˆ = ˆR−1p ρˆp (51a)
y
ˆ
σ2 = ˆγ(0)h
1 − ˆρTpRˆ −1p ρˆpi
(51b) donde
ˆ
ρp = ( ˆρ(1), . . . , ˆρ(p))T = 1 ˆ
γ(0)γˆp (51c)
Estimaci´on de Yule-Walker AR(p)
La distribuci´on de los estimadores de Yule-Walker:
φˆ ≈ N(φ, 1
nσ2Γ−1p ). (52)
Por tanto φpj ∈
"
φˆpj ± Φ1−α/2
r ˆjj n
#
, donde ˆjj es el elemento j-´esimo de la diagonal de ˆpΓˆp, con probabilidad (1 − α).
Selecci´on del orden
1. Supongamos que φ(D)Xt = Zt con {Zt} ∼ IID(0, σ2).
• Si ajustamos un modelo AR(m) (m > p), ˆφm = ˆR−1m ρˆm, entonces ˆφmm (PACF) sigue un modelo N (0, 1
n).
◦ Elegir p como el valor entero m m´as peque˜no para el que
| ˆφkk| < ±1,96/√ n
2. Elegir p y φp que minimizan el estad´ıstico AICC
AICC = −2 log L(φp, S(φp)/n) + 2(p + 1)n
n − p − 2 (53)
donde L es la funci´on de verosimilitud gaussiana
L(φ, σ2) = 1
p(2πσ2)n0· · · n−1
exp (
− 1 2σ2
n
X
j=1
(Xj − ˆXj(φ))2
j−1
)
, (54)
σ2 = 1
nS(φ) (55)
y
S(φ) =
n
X
j=1
(Xj − ˆXj(φ))2
j−1 (56)
AICC = n
log(2πσ2) + Xn−1
j=0
log(j) + 1 nσ2
n
X
j=1
(Xj − ˆXj(φ))2
j−1 + 2(p + 1) (n − p − 2)
(57)
Estimaci´on de Yule-Walker AR(p). Ejemplo
´Indice Dow-Jones de industriales entre el 28 de agosto y el 18 de diciembre de 1972.
0 10 20 30 40 50 60 70 80
108 110 112 114 116 118 120 122 124 126
Días
Índice Dow−Jones
0 10 20 30 40 50 60 70 80
−0.6
−0.4
−0.2 0 0.2 0.4 0.6 0.8 1 1.2
Muestra
ACF
(a) (b)
Funci´on de autocorrelaci´on muestral: ca´ıda muy lenta.
• Sugerencia: aplicar una operaci´on de diferenciado.
La nueva serie Yt = (1 − D)Dt ya no presenta desviaciones apreciables del comportamiento estacionario.
Valores muestrales de la funci´on de autocovarianza: ˆγ(0) = 0,17992, ˆγ(1) = 0,0759, γ(2) = 0,04885, etc.ˆ
0 10 20 30 40 50 60 70 80
−1
−0.5 0 0.5 1 1.5 2
Días
Índice Dow−Jones diferenciado
0 10 20 30 40 50 60 70 80
−0.05 0 0.05 0.1 0.15 0.2
Muestra
ACVF
(a) (b)
Aplicando estos valores al algoritmo de Levinson-Durbin resulta φˆ11 = ˆρ(1) = γ(1)ˆ
ˆ
γ(0) = 0,4219 ˆ1 = ˆγ(0)1 − ˆρ2(1) = 0,1479 φˆ22 = h
γ(2) − ˆˆ φ11γ(1)ˆ i
/ˆ1 = 0,1138 φˆ22 = ˆφ11 − ˆφ11φˆ22 = 0,3739
ˆ2 = ˆ1h
1 − ˆφ222i
= 0,1460.
Funci´on de autocovarianza parcial (PACF) de la serie {Yt}.
0 5 10 15 20 25 30
−0.2 0 0.2 0.4 0.6 0.8 1
Retardo
PACF
• L´ımites ±1,96/√
77 sugieren modelo AR(1).
Correcci´on de la media: Xt = (Yt − 0,1336)
• Modelo para {Xt}
Xt − 0,4219Xt−1 = Zt , con {Zt} ∼ WN(0, 0,1479) . (58) Modelo para {Yt}:
(Yt − 0,1336) − 0,4219 (Yt−1 − 0,1336) = Zt , con {Zt} ∼ WN(0, 0,1479). (59)
Si suponemos que los datos realmente proceden de un modelo AR con p = 1, los intervalos de confianza del 95 % para el coeficiente autorrecurrente ˆφ11 = 0,4219 es
φˆ11 ± 1,96
r 1 ˆ
γ(0)n (60)
0,4219 ± 1,96
s 0,1479
(0,17992)77 = (0,2194, 0,6244) (61)
Algoritmo de Burg
El algoritmo de Yule-Walker calcula los coeficientes ˆφp1, . . . , ˆφpp con los que se construye el
“mejor” predictor lineal de Xp+1 en funci´on de {Xp, . . . , X1}; para ello ha de suponerse que los valores (verdaderos) de la funci´on de autocorrelaci´on de {Xt} coinciden en la muestras 1, . . . , p con los de la muestral.
El algoritmo de Burg estima los coeficientes de la PACF {φ11, φ22, . . .} minimizando sucesivamente las sumas de los errores de predicci´on de orden 1 hacia adelante y hacia atr´as respecto de los
coeficientes φii. A continuaci´on se aclara el algoritmo.
A partir de la observaciones {x1, . . . , xn} de un proceso estacionario de media 0, Xt, definimos:
Error de predicci´on hacia adelante. eFi (t), t = i + 1, . . . , n y 0 ≤ i < n, es la diferencia entre xt y la mejor estima lineal de xt en funci´on de los i t´erminos precedentes.
eFi (t) = xt − ˆxFt = xt − ` (xt−1, . . . , xt−i) (62) Error de predicci´on hacia atr´as. eBi (t), t = i + 1, . . . , n y 0 ≤ i < n, es la diferencia entre xt−i
y la mejor estima lineal de xt−i en funci´on de los i t´erminos siguientes.
eBi (t) = xt−i − ˆxBt−i = xt−i − ` (xt−i+1, . . . , xt) (63)
Es f´acil demostrar que estas secuencias de error satisfacen las recursiones
eB0 (t) = eF0 (t) = xt (64a)
eBi (t) = eBi−1(t − 1) − φiieFi−1(t) (64b) eFi (t) = eFi−1(t) − φiieBi−1(t − 1) (64c) Las estima de Burg ˆφ11 se halla minimizando
σ12 = 1 2(n − 1)
n
X
t=2
(eB1 (t))2 + (eF1 (t))2
(65) respecto de φ11. Es f´acil demostrar que φ11 satisface
φ11 = 2 d(1)
n
X
t=2
eF0(t)eB0 (t − 1) , (66)
donde
d(1) =
n
X
i=2
x2i + x2i−1 =
n
X
i=2
(eF0(t))2 + (eB0 (t − 1))2 . (67) Una vez calculado el valor ˆφ11, se obtienen los valores num´ericos de eB1 (t), eF1 (t) y σ21.
Sustituy´endolos en las expresiones (64) es posible obtener los errores para i = 2. Ahora, la
minimizaci´on de
σ22 = 1 2(n − 2)
n
X
t=3
(eB2 (t))2 + (eF2 (t))2
(68) conduce hacia el valor
φˆ22 = 2 d(2)
n
X
t=3
eF1(t)eB1 (t − 1) , (69)
donde
d(2) =
1 − ˆφ211
d(1) − (eF1 (2))2 − (eB1 (n))2. (70)
El proceso anterior puede repetirse sucesivamente hasta obtener la estima
PpXp+1 = φp1Xp +· · · + φppX1 (71) donde los coeficientes φpj se obtienen aplicando el algoritmo de Levinson-Durbin:
φp1 ...
φp,p−1
=
φp−1,1 ...
φp−1,p−1
− φpp
φp−1,p−1 ...
φp−1,1
(72)
La distribuci´on (para un n´umero elevado de muestras) de los coeficientes proporcionados por el
algoritmo de Burg es id´entica a la correspondiente a la estimaci´on de Yule-Walker:
φˆp ∼ N(φ, 1
nσ2Γp) (73)
Para concluir, a continuaci´on se resume el algoritmo de Burg.
d(1) =
n
X
i=2
x2i + x2i−1 , (74)
φˆii = 2 d(i)
n
X
t=i+1
eFi−1(t)eBi−1(t − 1) , (75)
d(i + 1) =
1 − ˆφ2ii
d(i) − (eFi (i + 1))2 − (eBi (n))2 , (76) σi2 = 1
2(n − i)
h1− ˆφ2ii
d(i)i
(77)
Algoritmo de Burg: Ejemplo
Ejemplo 0.1 Volvemos a considerar el ´ındice (diferenciado y corregido en media) de
Dow-Jones de industriales, aunque esta vez aplicaremos el algoritmo de Burg. El resultado es el modelo
Xt − 0,4371Xt−1 = Zt ∼ WN(0, 0,1423) (78) N´otese la peque˜na diferencia respecto del modelo obtenido con el algoritmo de Yule-Walker.
Como veremos m´as adelante, el modelo obtenido con el m´etodo de Burg tiene una mayor verosimilitud, lo cual quiere decir que minimiza el estad´ıstico AICC. Los l´ımites de confianza para el coeficiente φ son: 0,4371 ± 0,4371
2,1668 = (0,2354, 0,6388).
Algoritmo de Burg: Ejemplo
Ejemplo 0.2 En este ejemplo consideramos el problema de ajustar un modelo a la serie correspondiente al nivel del lago Hur´on sin haber eliminado previamente la tendencia; esta serie vuelve a mostrarse en la Figura 1.
1880 1890 1900 1910 1920 1930 1940 1950 1960 1970 6
7 8 9 10 11 12
Figura 1: Nivel del lago Hur´on.
Su funci´on de autocorrelaci´on (ACF) y la funci´on de autocorrelaci´on parcial (PACF) se muestran en las Figura 2. La PACF muestral indica que el modelo AR(2) se puede ajustar
0 5 10 15 20 25 30 35 40
−0.2 0 0.2 0.4 0.6 0.8 1
Muestra
ACF
0 5 10 15 20 25 30 35 40
−0.2 0 0.2 0.4 0.6 0.8 1
retardo
PACF
(a) (b)
Figura 2: (a) Funci´on de autocorrelaci´on muestral. (b) Funci´on de autocorrelaci´on parcial.
bien a los datos corregidos en media, Xt = Yt − 9,0041. Si se utiliza el algoritmo de Burg se obtiene el modelo
Xt − 1,0449Xt−1 + 0,2456Xt−2 = Zt {Zt} ∼ WN(0, 0,4706) (79)
siendo los l´ımites del 95 % de confianza
φ1 : 1,0449 ± 1,0449
5,5295 = (0,8559, 1,2339) φ2 : −0,2456 ± 0,2456
1,2997 = (−0,4346, −0,0566) . (80)
Si hubi´esemos utilizado el algoritmo de Yule-Walker, el resultado hubiera sido
Xt − 1,0538Xt−1 + 0,2668Xt−2 = Zt {Zt} ∼ WN(0, 0,4920) (81) siendo los l´ımites del 95 % de confianza
φ1 : 1,0538 ± 1,0538
5,5227 = (0,8630, 1,2446) φ2 : −0,2668 ± 0,2668
1,3980 = (−0,4576, −0,0760) . (82)
Al igual que en el ejemplo anterior, el modelo de Burg proporciona una varianza de ruido menor y una verosimilitud gaussiana mayor.
Algoritmo de Innovaciones
Lo mismo que se han utilizado modelos autorregresivos, tambi´en podemos utilizar el modelo de promedio m´ovil
Xt = Zt + ˆθm1Zt−1 +· · · + ˆθmmZt−m {Zt} ∼ WN(0, ˆm) (83) cuyos par´ametros θmj y m se calculan con el algoritmo de innovaciones.
Los l´ımites de confianza de los par´ametros ˆθq = ˆθm1, . . . , ˆθmqT
vienen determinados por
θˆmj ± 1,96n−1/2
j−1
X
i=0
θmi2
!1/2
. (84)
Para la selecci´on del orden pueden seguirse las siguientes t´ecnicas.
• Conocemos que para procesos MA(q), la funci´on de autocorrelaci´on ρ(m) es cero para m > q. Es m´as, conocemos por la f´ormula de Bartlett que la funci´on de autocorrelaci´on muestral ˆρ(m), para m > q tiene una distibuci´on normal de media ρ(m) = 0 y varianza
n−11 + 2ρ2(1) + · · · + 2ρ2(q)
Por tanto, y como receta pr´actica, consideraremos que los valores de la funci´on de autocorrelaci´on muestral son distintos de cero cuando sus valores absolutos superan el l´ımite 1,96/√
n.
• Para modelos AR, ressulta m´as sistem´atico encontrar el orden q y el vector de par´ametros θˆq = ˆθm1, . . . , ˆθmqT
que minimizan el estad´ıstico AICC
AICC = −2 log {L(θq, S(θq)/n)} + 2(q + 1)n/(n − q − 2) , (85) donde L es la funci´on de verosimilitud gaussiana.
Algoritmo de Innovaciones cuando p, q > 0
La condici´on de causalidad asegura que se cumple Xt =
X∞ j=0
ψjZt−j (86)
donde los coeficientes ψj satisfacen
ψj = θj +
m´ın(j,p)
X
i=1
φiψj−i, j = 0, 1, . . . (87) y θ0 = 1, θj = 0 para j > q. Para estimar ψ1, . . . , ψp+q se pueden utilizar las estimas
proporcionadas por el algoritmo de innovaciones, ˆθm1, . . . , ˆθm,p+q. As´ı, si se sustituye ψj por ˆθmj, se obtiene
θˆmj = θj +
m´ın(j,p)
X
i=1
φiθˆm,j−i, j = 1, . . . , p + q . (88)
El vector de coeficiente ˆφ se obtiene a partir de la resoluci´on de las ´ultimas q ecuaciones anteriores:
θˆm,q+1 θˆm,q+1
...
θˆm,q+p
=
θˆm,q θˆm,q−1 · · · ˆθm,q+1−p
θˆm,q+1 θˆm,q · · · ˆθm,q+2−p
... ... . .. ...
θˆm,q+p−1 θˆm,q+p−2 · · · θˆm,q
φ1 φ2
...
φp
. (89)
Una vez que se obtiene el vector ˆφ se procede a la estima de ˆθ: θˆj = ˆθmj +
m´ın(j,p)
X
i=1
φˆiθˆm,j−i, j = 1, . . . , q . (90) Para finalizar, la varianza del ruido se obtiene a partir de la ecuaci´on
ˆ
σ2 = 1 n
n
X
t=1
Xt − ˆXt2
t−1 (91)
Algoritmo Hannan-Rissanen
La derivaci´on del vector de coeficientes ´optimo (en el sentido de minimizaci´on del error cuadr´atico medio) φ = (φ1, . . . , φp)T en un modelo AR(p) es un problema lineal. Sin embargo, cuando q > 0, la estimaci´on se vuelve no lineal. En efecto, para un modelo ARMA(p, q), no solo se realiza la
regresi´on de Xt sobre Xt−1, . . . , Xt−p sino tambi´en sobre las cantidades (no observadas) Zt−1, . . . , Zt−q.
Para resolver este inconveniente, se propuso el algoritmo de Hannan-Risanen.
1. Elegir un modelo AR(m) con m > m´ax(p, q) y ajustarlo a los datos siguiendo el m´etodo de Yule-Walker. Definir los residuos estimados como
Zˆt = Xt − ˆφm1Xt−1 − · · · − ˆφmmXt−m (92) con t = m + 1, . . . , n.
2. Estimar el vector de par´ametros β = (φT, θT)T a partir de la regresi´on lineal de Xt sobre el vector (Xt−1, . . . , Xt−p, ˆZt−1, . . . , ˆZt−q). Este vector de par´ametros, por tanto, debe minimizar
S(β) =
n
X
t=m+1
Xt − φ1Xt−1 − · · · − φpXt−p − θ1Zˆt−1 − · · · − θqZˆt−q2
. (93)
Este procedimiento proporciona el estimador de Hannan-Rissanen βˆ = ZTZ−1
ZTXn (94)
donde Xn = (Xm+1, . . . , Xn)T y
Z =
Xm Xm−1 · · · Xm−p+1 Zˆm Zˆm−1 · · · ˆZm−q+1 Xm+1 Xm · · · Xm−p+2 Zˆm+1 Zˆm · · · ˆZm−q+2
... ... . .. ... ... ... . .. ...
Xn−1 Xn−2 · · · Xn−p Zˆn−1 Zˆn−2 · · · Zˆn−q
. (95)
La estima de la varianza del ruido blanco proporcionada por este m´etodo es ˆ
σHR2 = S( ˆβ)
n − m (96)
3. (opcional) Utilizar la estima del vector de par´ametros
βˆ = ( ˆφ1, . . . , ˆφp, ˆθ1, . . . , ˆθ1)T
para definir
Z˜t = 0, si t ≤ m´ax(p, q)
Xt − Pp
j=1φˆjXt−j − Pq
j=1θˆjZ˜t−j, si t > m´ax(p, q). (97) A partir de esta nueva secuencia definimos las secuencias Vt y Wt como
V˜t = 0, si t ≤ m´ax(p, q) Pp
j=1φˆjVt−j + ˜Zt, si t > m´ax(p, q). (98) W˜t = 0, si t ≤ m´ax(p, q)
−Pq
j=1θˆjWt−j + ˜Zt, si t > m´ax(p, q). (99) (N´otese que Vt y Wt satisfacen las recursiones AR ˆφ(D)Vt = ˜Zt y ˆθ(D)Wt = ˜Zt). Si se realiza la regresi´on lineal de ˜Zt sobre
(Vt−1, . . . , Vt−p, Wt−1, . . . , Wt−p)T y el vector de par´ametros que minimiza
S†(β) =
n
X
t=max(p,q)+1
˜Zt −
p
X
j=1
βjVt−j −
q
X
k=1
βk+pWt−k
2
(100)
es ˆβ†, la nueva estima del vector de par´ametros ˜β es ˆβ† + ˆβ.
Ejemplo 0.3 Si utilizamos un modelo ARMA(1,1) para ajustar la serie, corregida en media, correspondiente al nivel del lago Hur´on, se obtiene el modelo
Xt − 0,7234Xt−1 = Zt + 0,3596Zt−1, con {Zt} ∼ WN(0, 0,4757) (101)
Los intervalos de confianza para estos par´ametros son φ : 0,7234 ± 0,7234
3,2064 = (0,4978, 0,9490) θ : 0,3596 ± 0,3596
1,8513 = (0,1654, 0,5538) . (102)