Modelos ARMA. Francisco J. González Serrano. Universidad Carlos III de Madrid

(1)

Modelos ARMA

Francisco J. Gonz´alez Serrano

Universidad Carlos III de Madrid

(2)

Modelos ARMA

En este cap´ıtulo nos centramos en la familia de los procesos estacionarios ARMA (AutoRegressive Moving Average).

La importancia de estas t´ecnicas param´etricas radica en su flexibilidad.

Existe un gran n´umero de funciones de autocovarianza γ(•) que pueden aproximarse por la de

procesos ARMA.

Procesos ARMA(p, q)

Definici´on: {X^t} es un proceso ARMA(p, q) si {X^t} es estacionario y si para cada t

X_t − φ¹X_t−1 − · · · φ^pX_t−p = Z_t + θ₁Z_t−1 +· · · + θ^qZ_t−q , (1)

• {Z^t} ∼ WN(0, σ²).

{X^t} es un proceso ARMA(p, q) con media µ si {X^t − µ} es un proceso ARMA(p, q).

Notaci´on (m´as compacta) para describir estos procesos:

φ(B)X_t = θ(B)Z_t (2)

• φ(•) y θ(•) son dos polinomios de ´ordenes p y q.

• B es el operador desplazamiento.

(3)

Propiedades procesos ARMA(p, q)

Existencia y unicidad:

• Para que exista una soluci´on estacionaria {X^t} que satisfaga

φ(B)Xt = θ(B)Zt , (3)

φ(z) = 1 − φ¹z − φ²z² − · · · − φ^pz^p 6= 0, ∀|z| = 1 . Causalidad

• Un proceso es causal si existen constantes {ψ^j} tal que X_t =

X∞ j=0

ψ_jZ_t−j , ∀t . (4)

y P_∞

j=0|ψ^j| < ∞ (estabilidad).

• La propiedad de causalidad es equivalente a la condici´on

φ(z) = 1 − φ¹z − φ²z² − · · · − φ^pz^p 6= 0, ∀|z| ≤ 1 ,

(4)

• La secuencia {ψ^j} est´a determinada por la relaci´on ψ(z) = P_∞

j=0ψ_jz^j = θ(z) φ(z) (1− φ¹z − · · · − φ^pz^p)(ψ₀ + ψ₁z + · · · ) = 1 + θ¹z + · · · + θ^qz^q

• Si se relacionan los coeficientes asociados a las potencias z^j, se puede escribir que ψ_j −

p

X

k=1

φ_kψ_j−k = θ_j , j = 0, 1, . . . (5) verific´andose que θ₀ = 1, θ_j = 0 para j > q y ψ_j = 0 para j < 0.

(5)

Funci´on de autocorrelaci´on de procesos ARMA

Proceso causal ARMA(p, q) definido por:

φ(B)X_t = θ(B)Z_t, con {Z^t} ∼ WN(0, σ²) . (6)

M´etodo 1. La condici´on de causalidad X_t =

X∞ j=0

ψ_jZ_t−j , ∀t . (7)

implica que el cociente θ(z)/φ(z), se puede desarrollar como θ(z)

φ(z) = X∞

j=0

ψjZ_t−j , para |z| ≤ 1 . obteni´endose finalmente que

γ(h) = E(X_t+hX_t) = σ² X∞

j=0

ψ_jψ_j+|h| . (8)

(6)

ACVF. Ejemplo

Consideremos el proceso

X_t − φXt−1 = Z_t + θZ_t−1, con {Z^t} ∼ WN(0, σ²) (9) y |φ| < 1.

Su ACVF viene dada por

γ(0) = σ² X∞

j=0

ψ_j² = σ²



1 + (θ + φ)² X∞

j=0

φ^2j





= σ²

1 + (θ + φ)² 1− φ²

, γ(1) = σ²

X∞ j=0

ψ_j+1ψ_j

= σ²

θ + φ + (θ + φ)² 1 − φ²

, y

γ(h) = φ^h−1γ(1), h ≥ 2 .

(7)

Funci´on de autocovarianza

M´etodo 2. A partir de

X_t − φ¹X_t−1 − · · · φ^pX_t−p = Z_t + θ₁Z_t−1 +· · · + θ^qZ_t−q , (10) puede deducirse que los procesos {Z^t} y {Xt−k} guardan relaciones de dependencia estad´ıstica

´unicamente cuando k < p.

• Si se expresa X^t = P_∞

n=0ψ_nZ_t−n, entonces, E [Z_tX_t−k] =

X∞ n=0

ψ_nE [Z_tZ_t−k−n] k < p.

• Como el proceso {Z^t} es WN(0, σ²),

◦ E [Z^tZ_t−k−n] = σ²δ_n+k

E [Z_tX_t−k] = σ² X∞

n=0

ψ_nδ_n+k = σ²ψ_−k . (11)

• Si se multiplican los dos extremos de φ(B)X^t = θ(B)Z_t por X_t−k, k = 0, 1, . . . y se calcula

(8)

la esperanza matem´atica,

γ(k) − φ¹γ(k − 1) − . . . − φ^pγ(k − p) = σ² X∞

j=0

θk+jψj, 0 ≤ k < m (12a) γ(k) − φ¹γ(k − 1) − . . . − φ^pγ(k − p) = 0, k ≥ m, (12b) donde m = m´ax(p, q + 1), ψ_j = 0 para j < 0, θ₀ = 1 y θ_j = 0 para j 6∈ {0, . . . , q}

(9)

Funci´on de autocovarianza. Ejemplo

Consideremos el proceso ARMA(1, 1)

X_t − φXt−1 = Z_t + θZ_t−1, con {Z^t} ∼ WN(0, σ²) (13) y |φ| < 1.

La Ecuaci´on

γ(k) − φ¹γ(k − 1) − . . . − φ^pγ(k − p) = σ² X∞

j=0

θ_k+jψ_j, 0 ≤ k < m (14) se puede plantear como

γ(0) − φγ(−1) = γ(0) − φγ(1) = σ²(1 + θ(θ + φ)) (15a) y

γ(1) − φγ(0) = σ²θ . (15b)

La resoluci´on del par de ecuaciones anterior proporciona los valores γ(0) y γ(1).

Finalmente, la Ecuaci´on (homog´enea)

γ(k) − φ¹γ(k − 1) − . . . − φ^pγ(k − p) = 0, k ≥ m, (16)

(10)

responde a la expresi´on

γ(k) − φγ(k − 1) = 0 , k ≥ 2 (17)

cuya soluci´on es

γ(h) = φ^h−1γ(1) , h ≥ 1

(11)

La funci´on de autocorrelaci´on (parcial)

Recordemos que la funci´on de autocorrelaci´on (AutoCorrelation Function, ACF), ρ(•), de un proceso ARMA se define como

ρ(h) = γ(h) γ(0)

y que su versi´on muestral, es decir, aquella obtenida a partir de un conjunto finito de observaciones {x¹, . . . , x_n} se representa por

ˆ

ρ(h) = γ(h)ˆ ˆ γ(0)

La funci´on de autocorrelaci´on parcial (Partial AutoCorrelation Function, PACF), α(•), de un proceso ARMA {X^t} se define por

α(0) = 1 y

α(h) = φ_hh, h ≥ 1

(12)

donde φhh es la ´ultima componente de

φ_h = Γ⁻¹_h γ_h , (18)

con

Γ_h = [γ(i − j)]^hi,j=1

y γ_h = [γ(1), γ(2), . . . , γ(h)]^T.

(13)

PACF de un proceso AR(p)

La PACF de un proceso AR(p) es cero para h > p.

Demo:

• El mejor predictor lineal del proceso causal AR(p)

X_t − φ¹X_t−1 − · · · − φ^pX_t−p = Z_t , {Z^t} ∼ WN(0, σ²) , en funci´on de X1, . . . , Xh, siendo h ≥ p, es

Xˆ_h+1 = φ₁X_h + φ₂X_h−1 + . . . + φ_pX_h+1−p.

• Cuando h = p, φ^hh (X₁) es φ_p y cuando h > p, φ_hh = 0.

• Por tanto,

α(p) = φ_p y

α(h) = 0 para h > p

• Para los valores h < p, el c´alculo de los valores α(h) se obtiene de

φ_h = Γ⁻¹_h γ_h , (19)

(14)

PACF de un proceso MA(q)

Proceso MA(q)

X_t = Z_t + θ₁Z_t−1 + · · · + θ^qZ_t−q, con {Z^t} ∼ WN(0, σ²) (20) La funci´on de autocovarianza (ACVF) responde a la expresi´on:

γ(h) = (

σ²P_q−|h|

j=0 θjθ_j+|h|, si |h| ≤ q,

0, si |h| > q (21)

donde se ha supuesto que θ0 = 1.

La ACVF de los procesos MA(q) se desvanece a partir del instante q.

Supongamos ahora que q = 1

γ(0) = σ² 1 + θ₁² y

γ(1) = σ²θ₁ A partir de

φ_h = Γ⁻¹_h γ_h , (22)

se pueden calcular la PACF sin m´as que hacer α(h) = φ_h(h).

(15)

• Para h = 0, α(0) = 1.

• Para h = 1,

γ(0)φ₁(1) = γ(1) . (23)

α(1) = φ1(1) = γ(1)

γ(0) = θ₁

1 + θ₁² . (24)

• Para h = 2 resulta,

γ(0) γ(1) γ(1) γ(0)

φ2(1) φ₂(2)

= γ(1) 0

, (25)

donde se ha tenido en cuenta que γ(h) = 0 para h > 1 (proceso MA(1)). Por tanto, α(2) = − γ²(1)

γ²(0) − γ²(1) = − θ₁²

1 + θ₁² + θ₁⁴ . (26)

• En general, la PACF en la muestra h vale

α(h) = φ_h(h) = − (−θ¹)^h

1 + θ²₁ + · · · + θ1^2h

(27)

(16)

La PACF muestral

Si {X^t} es una serie AR(p).

• La PACF obtenida a partir de los valores observados {x¹, . . . , x_n} tiene que reflejar las propiedades intr´ısecas de la PACF.

• En particular, si la PACF muestral presenta valores significativamente diferentes de cero para el intervalo 0 ≤ h ≤ p y despreciables para h > p, el modelo AR(p) resulta adecuado.

(17)

Ejemplos. Gasolinera

Descuadres diarios en la medida de la capacidad de un tanque de una gasolinera de Colorado.

0 10 20 30 40 50 60

−100

−50 0 50 100

Días

Galones

• Si la cantidad de combustible almacenado en el tanque al final del d´ıa t es y^t,

• si a^t representa la diferencia entre la cantidad dispensada y la medida reflejada en el surtidor,

(18)

• entonces, el descuadre x^t se define como xt = yt − yt−1 + at.

• En ausencia de errores en la medida de la capacidad y de fugas, x^t = 0.

• En la pr´actica, estos errores de medida permiten considerar a las cantidades anteriores como variables aleatorias: Y_t, A_t, X_t, con t = 1, . . . , 57.

Funci´on de autocorrelaci´on (ACF).

0 2 4 6 8 10 12 14 16 18 20

−0.5 0 0.5 1

Muestra

ACF

• Se ha supuesto un modelo MA(1) para dibujar los l´ımites ±1,96n^−1/2(1 + 2 ˆρ²(1))^1/2 (n = 57).

• ˆρ(h) permanece dentro de los l´ımites anteriores para h > 1, lo cual es compatible con el

(19)

modelo

X_t = µ + Z_t + θZ_t−1, {Z^t} ∼ WN(0, σ²) . (28) Para estimar la media del descuadre utilizamos el promedio temporal ¯x₅₇ = −4,035.

Para los parámetros θ, σ² utilizaremos la versión muestral de la función de autocovarianza (ACVF):

(1 + θ²)σ² = ˆγ(0) = 3415,72 θσ² = ˆγ(1) = −1719,95

La soluci´on (aproximada) del sistema anterior es θ = −1 y σ² = 1708, con lo cual resulta el modelo MA(1):

X_t = −4,035 + Z^t − Zt−1, {Z^t} ∼ WN(0, 1708) .

(20)

Manchas solares

Serie correspondientes al n´umero de manchas solares S₁, . . . , S₁₀₀ aparecidas en el periodo 1770-1869

17700 1780 1790 1800 1810 1820 1830 1840 1850 1860 1870

20 40 60 80 100 120 140 160

Años

Numero de manchas solares

Funci´on de autocorrelaci´on parcial (PACF) muestral. Se representan los l´ımites ±1,96/√ 100.

Como α(h) ∈ ±1,96/√

100, h > 2, aplicamos modelo AR(2):

Xt − φ¹X_t−1 − φ²X_t−2 = Zt , {Z^t} ∼ WN(0, σ²) . (29) donde Xt = St − 46,93

(21)

0 5 10 15 20 25 30 35 40

−0.6

−0.4

−0.2 0 0.2 0.4 0.6 0.8 1

Muestra

PACF

Una forma sencilla de ajustar este modelo a los datos consiste en hacer que coincidan los valores de la autocovarianza muestral en las muestras 0, 1 y 2 con los del modelo AR(2).

• Multiplicando cada lado de la ecuaci´on

X_t − φ¹X_t−1 − · · · − φ^pX_t−p = Z_t

por X_t−k y tomando la esperanza matem´atica, se obtienen las ecuaciones de Yule-Walker

Γ_pφ = γ_p (30)

y

σ² = γ(0) − φ^Tγ_p (31)

(22)

donde Γ_p es la matriz de autocovarianza [γ(i − j)]^p_i,j=1 y γ_p = (γ(1), . . . , γ(p))^T. Para el caso p = 2 resulta

γ(0) = γ(1)φ₁ + γ(2)φ₂ + σ² γ(0)φ₁ + γ(1)φ₂ = γ(1) γ(1)φ1 + γ(0)φ2 = γ(2) sustituyendo γ(k) por ˆγ(k), donde

ˆ

γ(0) = 1382,2, ˆγ(1) = 1114,4 ˆγ(2) = 591,73 , resulta:

1382,2 = 1114,4φ₁ + 591,73φ₂ + σ² 1382,2φ₁ + 1114,4φ₂ = 1114,4 1114,4φ1 + 1382,2φ2 = 591,73 Finalmente, el modelo AR(2) responde a la expresi´on

X_t − 1,3175Xt−1 + 0,6342X_t−2 = Z_t, con {Z^t} ∼ WN(0, 289,179) . (32)

(23)

Predicci´on de procesos ARMA

Algoritmo de innovaciones: permite predecir procesos de segundo orden (y media 0) sin que

´estos tengan que ser necesariamente estacionarios.

Simplificaci´on cuando se aplica a procesos ARMA(p, q) causales

φ(D)X_t = θ(D)Z_t , con {Z^t} ∼ WN(0, σ²) .

• Idea: aplicar el procedimiento sobre el proceso transformado







W_t = 1

σX_t, t = 1, . . . , m W_t = 1

σφ(D)X_t, t > m

(33) donde

m = m´ax(p, q) (34)

◦ {W^t} es un proceso MA para t > m.

Funci´on de autocovarianza de longitud finita.

Simplificaci´on algoritmo de innovaciones.

◦ Se ha expresado cada Xⁿ, n ≥ 1, como una combinaci´on lineal de W^j, con 1 ≤ j ≤ n, y viceversa.

(24)

• Si se conoce la funci´on de autocovarianza de {X^t}, las covarianzas κ(i, j) = E(Wⁱ, W_j) son:

κ(i, j) =











γX(i − j)/σ², 1 ≤ i, j ≤ m 1

σ² [γX(i − j) −Pp

r=1φrγX(r − |i − j|)] , m´ın(i, j) ≤ m,

m < m´ax(i, j) ≤ 2m Pq

r=0θrθr+|i−j|, m´ın(i, j) > m

0, en otro caso.

(35)

(25)

• Aplicando el algoritmo de innovaciones a {W^t} resulta







Wˆn+1 = Pn j=1ϑnj

Wn+1−j − ˆWn+1−j

, 1 ≤ n < m Wˆn+1 = Pq

j=1ϑnj

Wn+1−j − ˆWn+1−j

, n ≥ m (36)

◦ ϑ^nj = 0, para n ≥ m y para j > q

◦ ⁿ = E(W_n+1 − ˆW_n+1)²

Propiedad: el mejor predictor lineal de una variable aleatoria Y , P_nY , en funci´on de {X¹, · · · , Xⁿ, 1}, es el mismo que si expresamos Y en funci´on de {W¹, · · · , Wⁿ, 1}.

Wˆ_n+1 = P_nW_n+1 , ˆX_n+1 = P_nX_n+1 Como Pn es un operador lineal, y como







Wt = 1

σXt, t = 1, . . . , m W_t = 1

σφ(D)X_t, t > m

(37)

es una combinaci´on lineal de X_t, resulta que







Wˆt = 1

σXˆt, 1 ≤ t ≤ m

Wˆt = 1

σ h ˆXt − φ¹Xt−1 − · · · − φ^pXt−p

i, t > m

(38)

(26)

Teniendo en cuenta que

X_t − ˆX_t = σ h

W_t − ˆW_ti

∀t ≥ 1 (39)

se obtiene

Xˆ_n+1 =





 Pn

j=1ϑnj

Xn+1−j − ˆXn+1−j

, 1 ≤ n < m φ1Xn+ · · · + φ^pXn+1−p +Pq

j=1ϑnj

Xn+1−j − ˆXn+1−j

, n ≥ m (40)

y

E(X_n+1 − ˆX_n+1)² = σ²E(W_n+1 − ˆW_n+1)² = σ²_n (41)

(27)

Predicci´on de procesos ARMA. Ejemplo

Consideremos el proceso ARMA(1,1)

X_t − φXt−1 = Z_t + θZ_t−1 , con {Z^t} ∼ WN(0, σ²) . (42) donde |φ| < 1.

En este caso, ˆX_n+1 = φX_n + θ_n1

X_n − ˆX_n

, n ≥ 1.

(28)

Para calcular θn1 es necesario obtener previamente la ACVF γ(0) = σ²

X∞ j=0

ψ_j²

= σ²



1 + (θ + φ)² X∞

j=0

φ^2j





= σ²

1 + (θ + φ)² 1− φ²

= σ² 1 + 2θφ + θ² 1 − φ²

, γ(1) = σ²

X∞ j=0

ψ_j+1ψ_j

= σ²

θ + φ + (θ + φ)² 1 − φ²

, y

γ(h) = φ^h−1γ(1), h ≥ 2 .

(29)

Introduciendo estas expresiones en la ecuaci´on

κ(i, j) =











γX(i − j)/σ², 1 ≤ i, j ≤ m

1

σ² [γX(i − j) −Pp

r=1φrγX(r − |i − j|)] , m´ın(i, j) ≤ m

m < m´ax(i, j) ≤ 2m Pq

r=0θrθr+|i−j|, m´ın(i, j) > m

0, en otro caso.

(43)

resulta

κ(i, j) =











1 + 2θφ + θ²

1− φ² , i = j = 1 1 + θ², i = j ≥ 2

θ, |i − j| = 1, i ≥ 1

0, en otro caso.

(44)

Con estos valores, el algoritmo de innovaciones se reduce a

₀ = 1 + 2θφ + θ²

1 − φ² (45a)

θ_n1 = θ

_n−1 , _n = 1 + θ²

1 − 1

_n−1

(45b) A partir de las ecuaciones anteriores se puede observar que

n → 1 y, como consecuencia, que θⁿ¹ → θ

(30)

Ilustraci´on: predicci´on del proceso ARMA(1,1):

X_t − 0,5Xt−1 = Z_t + 0,2Z_t−1 , con {Z^t} ∼ WN(0, σ²) . (46)

• La matriz de covarianzas [κ(i, j)] viene dada por:

κ=







1,6533 0,2000 0 0 0 0

0,2000 1,0400 0,2000 0 0 0

0 0,2000 1,0400 0,2000 0 0 0 0 0,2000 1,0400 0,2000 0

0 0 0 0,2000 1,0400 0,2000

... ... ... ... ... ...







(47)

• Algoritmo de innovaciones proporciona los valores

n Xn+1 ⁿ θn1 Xˆn+1

1 1.1238 1.6533 0.1210 0 2 1.2606 1.0158 0.1969 0.1359 3 0.5546 1.0006 0.1999 0.8517 4 0.8158 1.0000 0.2000 0.2179 5 1.0050 1.0000 0.2000 0.5275 6 1.4233 1.0000 0.2000 0.5980 7 1.0941 1.0000 0.2000 0.8767 8 -0.1898 1.0000 0.2000 0.5905 9 -0.2167 1.0000 0.2000 -0.2510 10 -0.0455 1.0000 0.2000 -0.1015

(31)

Estimaci´on de par´ametros del modelo ARMA

Analizaremos cuatro técnicas que permiten hacer una estimación preliminar de los parámetros φ = (φ₁, . . . , φ_p)^T, θ = (θ₁, . . . , θ_q)^T y σ² a partir de las observaciones x₁, . . . , x_n de un

proceso ARMA(p, q) causal definido por

φ(D)X_t = θ(D)Z_t , con {Z^t} ∼ WN(0, σ²) . (48) 1. Estimaci´on de Yule-Walker: AR.

2. Algoritmo de Burg: AR.

3. Algoritmo de innovaciones: ARMA.

4. Algoritmo Hannan-Rissanen: ARMA.

(32)

Estimaci´on de Yule-Walker

Se utiliza para ajustar modelos autorregresivos puros.

• Puede adaptarse a modelos con q > 0, aunque sus prestaciones son peores que las alcanzadas cuando q = 0.

La condici´on de causalidad permite expresar el proceso Xt en la forma X_t =

X∞ j=0

ψ_jZ_t−j (49)

donde ψj ↔ Ψ(z) = 1 Φ(z).

Multiplicando cada lado de la igualdad por X_t−j y calculando la esperanza matem´atica se obtienen las conocidas ecuaciones de Yule-Walker:

Γ_pφ = γ_p (50a)

y

σ² = γ(0) − φ^Tγ_p (50b)

donde Γ_p = [γ(i − j)]^pi,j=1 y γ^p = (γ(1), . . . , γ(p))^T.

(33)

La versi´on “muestral” de las ecuaciones anteriores es

φˆ = ˆR⁻¹_p ρˆ_p (51a)

y

ˆ

σ² = ˆγ(0)h

1 − ˆρ^TpRˆ ⁻¹_p ρˆ_pi

(51b) donde

ˆ

ρ_p = ( ˆρ(1), . . . , ˆρ(p))^T = 1 ˆ

γ(0)γˆ_p (51c)

(34)

Estimaci´on de Yule-Walker AR(p)

La distribuci´on de los estimadores de Yule-Walker:

φˆ ≈ N(φ, 1

nσ²Γ⁻¹_p ). (52)

Por tanto φ_pj ∈

"

φˆ_pj ± Φ1−α/2

r ˆ_jj n

#

, donde ˆ_jj es el elemento j-´esimo de la diagonal de ˆ_pΓˆ_p, con probabilidad (1 − α).

Selecci´on del orden

1. Supongamos que φ(D)Xt = Zt con {Z^t} ∼ IID(0, σ²).

• Si ajustamos un modelo AR(m) (m > p), ˆφ_m = ˆR⁻¹_m ρˆ_m, entonces ˆφ_mm (PACF) sigue un modelo N (0, 1

n).

◦ Elegir p como el valor entero m m´as peque˜no para el que

| ˆφ_kk| < ±1,96/√ n

(35)

2. Elegir p y φ_p que minimizan el estad´ıstico AICC

AICC = −2 log L(φp, S(φ_p)/n) + 2(p + 1)n

n − p − 2 (53)

donde L es la funci´on de verosimilitud gaussiana

L(φ, σ²) = 1

p(2πσ²)ⁿ₀· · · ⁿ−1

exp (

− 1 2σ²

n

X

j=1

(Xj − ˆXj(φ))²

j−1

)

, (54)

σ² = 1

nS(φ) (55)

y

S(φ) =

n

X

j=1

(Xj − ˆX_j(φ))²

_j−1 (56)

AICC = n



log(2πσ²) + Xn−1

j=0

log(_j) + 1 nσ²

n

X

j=1

(Xj − ˆXj(φ))²

_j−1 + 2(p + 1) (n − p − 2)



 (57)

(36)

Estimaci´on de Yule-Walker AR(p). Ejemplo

´Indice Dow-Jones de industriales entre el 28 de agosto y el 18 de diciembre de 1972.

0 10 20 30 40 50 60 70 80

108 110 112 114 116 118 120 122 124 126

Días

Índice Dow−Jones

0 10 20 30 40 50 60 70 80

−0.6

−0.4

−0.2 0 0.2 0.4 0.6 0.8 1 1.2

Muestra

ACF

(a) (b)

Funci´on de autocorrelaci´on muestral: ca´ıda muy lenta.

• Sugerencia: aplicar una operaci´on de diferenciado.

La nueva serie Y_t = (1 − D)D^t ya no presenta desviaciones apreciables del comportamiento estacionario.

Valores muestrales de la funci´on de autocovarianza: ˆγ(0) = 0,17992, ˆγ(1) = 0,0759, γ(2) = 0,04885, etc.ˆ

(37)

0 10 20 30 40 50 60 70 80

−1

−0.5 0 0.5 1 1.5 2

Días

Índice Dow−Jones diferenciado

0 10 20 30 40 50 60 70 80

−0.05 0 0.05 0.1 0.15 0.2

Muestra

ACVF

(a) (b)

Aplicando estos valores al algoritmo de Levinson-Durbin resulta φˆ11 = ˆρ(1) = γ(1)ˆ

ˆ

γ(0) = 0,4219 ˆ₁ = ˆγ(0)1 − ˆρ²(1) = 0,1479 φˆ₂₂ = h

γ(2) − ˆˆ φ₁₁γ(1)ˆ i

/ˆ₁ = 0,1138 φˆ₂₂ = ˆφ₁₁ − ˆφ₁₁φˆ₂₂ = 0,3739

ˆ₂ = ˆ₁h

1 − ˆφ²₂₂i

= 0,1460.

Funci´on de autocovarianza parcial (PACF) de la serie {Y^t}.

(38)

0 5 10 15 20 25 30

−0.2 0 0.2 0.4 0.6 0.8 1

Retardo

PACF

• L´ımites ±1,96/√

77 sugieren modelo AR(1).

Correcci´on de la media: X_t = (Y_t − 0,1336)

• Modelo para {X^t}

X_t − 0,4219Xt−1 = Zt , con {Z^t} ∼ WN(0, 0,1479) . (58) Modelo para {Y^t}:

(Y_t − 0,1336) − 0,4219 (Yt−1 − 0,1336) = Z^t , con {Z^t} ∼ WN(0, 0,1479). (59)

(39)

Si suponemos que los datos realmente proceden de un modelo AR con p = 1, los intervalos de confianza del 95 % para el coeficiente autorrecurrente ˆφ₁₁ = 0,4219 es

φˆ11 ± 1,96

r ₁ ˆ

γ(0)n (60)

0,4219 ± 1,96

s 0,1479

(0,17992)77 = (0,2194, 0,6244) (61)

(40)

Algoritmo de Burg

El algoritmo de Yule-Walker calcula los coeficientes ˆφ_p1, . . . , ˆφ_pp con los que se construye el

“mejor” predictor lineal de X_p+1 en función de {X^p, . . . , X₁}; para ello ha de suponerse que los valores (verdaderos) de la función de autocorrelación de {X^t} coinciden en la muestras 1, . . . , p con los de la muestral.

El algoritmo de Burg estima los coeficientes de la PACF {φ¹¹, φ₂₂, . . .} minimizando sucesivamente las sumas de los errores de predicci´on de orden 1 hacia adelante y hacia atr´as respecto de los

coeficientes φii. A continuaci´on se aclara el algoritmo.

A partir de la observaciones {x¹, . . . , x_n} de un proceso estacionario de media 0, X^t, definimos:

Error de predicción hacia adelante. e^F_i (t), t = i + 1, . . . , n y 0 ≤ i < n, es la diferencia entre x^t y la mejor estima lineal de x_t en función de los i términos precedentes.

e^F_i (t) = xt − ˆx^Ft = xt − ` (xt−1, . . . , x_t−i) (62) Error de predicci´on hacia atr´as. e^B_i (t), t = i + 1, . . . , n y 0 ≤ i < n, es la diferencia entre xt−i

y la mejor estima lineal de x_t−i en funci´on de los i t´erminos siguientes.

e^B_i (t) = x_t−i − ˆx^B_t−i = x_t−i − ` (xt−i+1, . . . , xt) (63)

(41)

Es f´acil demostrar que estas secuencias de error satisfacen las recursiones

e^B₀ (t) = e^F₀ (t) = x_t (64a)

e^B_i (t) = e^B_i−1(t − 1) − φⁱⁱe^F_i−1(t) (64b) e^F_i (t) = e^F_i−1(t) − φⁱⁱe^B_i−1(t − 1) (64c) Las estima de Burg ˆφ₁₁ se halla minimizando

σ₁² = 1 2(n − 1)

n

X

t=2

(e^B₁ (t))² + (e^F₁ (t))²

(65) respecto de φ₁₁. Es f´acil demostrar que φ₁₁ satisface

φ₁₁ = 2 d(1)

n

X

t=2

e^F₀(t)e^B₀ (t − 1) , (66)

donde

d(1) =

n

X

i=2

x²_i + x²_i−1 =

n

X

i=2

(e^F₀(t))² + (e^B₀ (t − 1))² . (67) Una vez calculado el valor ˆφ₁₁, se obtienen los valores num´ericos de e^B₁ (t), e^F₁ (t) y σ²₁.

Sustituy´endolos en las expresiones (64) es posible obtener los errores para i = 2. Ahora, la

(42)

minimizaci´on de

σ₂² = 1 2(n − 2)

n

X

t=3

(e^B₂ (t))² + (e^F₂ (t))²

(68) conduce hacia el valor

φˆ₂₂ = 2 d(2)

n

X

t=3

e^F₁(t)e^B₁ (t − 1) , (69)

donde

d(2) =

1 − ˆφ²₁₁

d(1) − (e^F1 (2))² − (e^B1 (n))². (70)

El proceso anterior puede repetirse sucesivamente hasta obtener la estima

P_pX_p+1 = φ_p1X_p +· · · + φ^ppX₁ (71) donde los coeficientes φ_pj se obtienen aplicando el algoritmo de Levinson-Durbin:





φ_p1 ...

φ_p,p−1



 =





φ_p−1,1 ...

φ_p−1,p−1



 − φ^pp





φ_p−1,p−1 ...

φ_p−1,1



 (72)

La distribuci´on (para un n´umero elevado de muestras) de los coeficientes proporcionados por el

(43)

algoritmo de Burg es id´entica a la correspondiente a la estimaci´on de Yule-Walker:

φˆ_p ∼ N(φ, 1

nσ²Γ_p) (73)

Para concluir, a continuaci´on se resume el algoritmo de Burg.

d(1) =

n

X

i=2

x²_i + x²_i−1 , (74)

φˆ_ii = 2 d(i)

n

X

t=i+1

e^F_i−1(t)e^B_i−1(t − 1) , (75)

d(i + 1) =

1 − ˆφ²_ii

d(i) − (e^Fi (i + 1))² − (e^Bi (n))² , (76) σ_i² = 1

2(n − i)

h1− ˆφ²_ii

d(i)i

(77)

(44)

Algoritmo de Burg: Ejemplo

Ejemplo 0.1 Volvemos a considerar el ´ındice (diferenciado y corregido en media) de

Dow-Jones de industriales, aunque esta vez aplicaremos el algoritmo de Burg. El resultado es el modelo

X_t − 0,4371Xt−1 = Z_t ∼ WN(0, 0,1423) (78) N´otese la peque˜na diferencia respecto del modelo obtenido con el algoritmo de Yule-Walker.

Como veremos m´as adelante, el modelo obtenido con el m´etodo de Burg tiene una mayor verosimilitud, lo cual quiere decir que minimiza el estad´ıstico AICC. Los l´ımites de confianza para el coeficiente φ son: 0,4371 ± 0,4371

2,1668 = (0,2354, 0,6388).

(45)

Algoritmo de Burg: Ejemplo

Ejemplo 0.2 En este ejemplo consideramos el problema de ajustar un modelo a la serie correspondiente al nivel del lago Hur´on sin haber eliminado previamente la tendencia; esta serie vuelve a mostrarse en la Figura 1.

1880 1890 1900 1910 1920 1930 1940 1950 1960 1970 6

7 8 9 10 11 12

Figura 1: Nivel del lago Hur´on.

(46)

Su función de autocorrelación (ACF) y la función de autocorrelación parcial (PACF) se muestran en las Figura 2. La PACF muestral indica que el modelo AR(2) se puede ajustar

0 5 10 15 20 25 30 35 40

−0.2 0 0.2 0.4 0.6 0.8 1

Muestra

ACF

0 5 10 15 20 25 30 35 40

−0.2 0 0.2 0.4 0.6 0.8 1

retardo

PACF

(a) (b)

Figura 2: (a) Función de autocorrelación muestral. (b) Función de autocorrelación parcial.

bien a los datos corregidos en media, X_t = Y_t − 9,0041. Si se utiliza el algoritmo de Burg se obtiene el modelo

X_t − 1,0449Xt−1 + 0,2456X_t−2 = Z_t {Z^t} ∼ WN(0, 0,4706) (79)

(47)

siendo los l´ımites del 95 % de confianza

φ1 : 1,0449 ± 1,0449

5,5295 = (0,8559, 1,2339) φ₂ : −0,2456 ± 0,2456

1,2997 = (−0,4346, −0,0566) . (80)

Si hubi´esemos utilizado el algoritmo de Yule-Walker, el resultado hubiera sido

X_t − 1,0538Xt−1 + 0,2668X_t−2 = Z_t {Z^t} ∼ WN(0, 0,4920) (81) siendo los l´ımites del 95 % de confianza

φ1 : 1,0538 ± 1,0538

5,5227 = (0,8630, 1,2446) φ₂ : −0,2668 ± 0,2668

1,3980 = (−0,4576, −0,0760) . (82)

Al igual que en el ejemplo anterior, el modelo de Burg proporciona una varianza de ruido menor y una verosimilitud gaussiana mayor.

(48)

Algoritmo de Innovaciones

Lo mismo que se han utilizado modelos autorregresivos, tambi´en podemos utilizar el modelo de promedio m´ovil

X_t = Z_t + ˆθ_m1Z_t−1 +· · · + ˆθ^mmZ_t−m {Z^t} ∼ WN(0, ˆ^m) (83) cuyos par´ametros θ_mj y _m se calculan con el algoritmo de innovaciones.

Los l´ımites de confianza de los par´ametros ˆθ_q = ˆθ_m1, . . . , ˆθ_mqT

vienen determinados por

θˆ_mj ± 1,96n^−1/2

j−1

X

i=0

θ_mi²

!^1/2

. (84)

Para la selecci´on del orden pueden seguirse las siguientes t´ecnicas.

• Conocemos que para procesos MA(q), la función de autocorrelación ρ(m) es cero para m > q. Es más, conocemos por la fórmula de Bartlett que la función de autocorrelación muestral ˆρ(m), para m > q tiene una distibución normal de media ρ(m) = 0 y varianza

n⁻¹1 + 2ρ²(1) + · · · + 2ρ²(q)

(49)

Por tanto, y como receta práctica, consideraremos que los valores de la función de autocorrelación muestral son distintos de cero cuando sus valores absolutos superan el l´ımite 1,96/√

n.

• Para modelos AR, ressulta más sistemático encontrar el orden q y el vector de parámetros θˆ_q = ˆθ_m1, . . . , ˆθ_mqT

que minimizan el estad´ıstico AICC

AICC = −2 log {L(θ^q, S(θ_q)/n)} + 2(q + 1)n/(n − q − 2) , (85) donde L es la funci´on de verosimilitud gaussiana.

(50)

Algoritmo de Innovaciones cuando p, q > 0

La condici´on de causalidad asegura que se cumple X_t =

X∞ j=0

ψ_jZ_t−j (86)

donde los coeficientes ψj satisfacen

ψ_j = θ_j +

m´ın(j,p)

X

i=1

φ_iψ_j−i, j = 0, 1, . . . (87) y θ₀ = 1, θ_j = 0 para j > q. Para estimar ψ₁, . . . , ψ_p+q se pueden utilizar las estimas

proporcionadas por el algoritmo de innovaciones, ˆθ_m1, . . . , ˆθ_m,p+q. As´ı, si se sustituye ψ_j por ˆθ_mj, se obtiene

θˆ_mj = θ_j +

m´ın(j,p)

X

i=1

φ_iθˆ_m,j−i, j = 1, . . . , p + q . (88)

(51)

El vector de coeficiente ˆφ se obtiene a partir de la resoluci´on de las ´ultimas q ecuaciones anteriores:







θˆ_m,q+1 θˆm,q+1

...

θˆ_m,q+p







=







θˆ_m,q θˆ_m,q−1 · · · ˆθm,q+1−p

θˆm,q+1 θˆm,q · · · ˆθm,q+2−p

... ... . .. ...

θˆ_m,q+p−1 θˆ_m,q+p−2 · · · θˆ_m,q











 φ₁ φ2

...

φ_p







. (89)

Una vez que se obtiene el vector ˆφ se procede a la estima de ˆθ: θˆ_j = ˆθ_mj +

m´ın(j,p)

X

i=1

φˆ_iθˆ_m,j−i, j = 1, . . . , q . (90) Para finalizar, la varianza del ruido se obtiene a partir de la ecuaci´on

ˆ

σ² = 1 n

n

X

t=1

X_t − ˆX_t2

_t−1 (91)

(52)

Algoritmo Hannan-Rissanen

La derivación del vector de coeficientes óptimo (en el sentido de minimización del error cuadrático medio) φ = (φ₁, . . . , φ_p)^T en un modelo AR(p) es un problema lineal. Sin embargo, cuando q > 0, la estimación se vuelve no lineal. En efecto, para un modelo ARMA(p, q), no solo se realiza la

regresi´on de X_t sobre X_t−1, . . . , X_t−p sino tambi´en sobre las cantidades (no observadas) Z_t−1, . . . , Z_t−q.

Para resolver este inconveniente, se propuso el algoritmo de Hannan-Risanen.

1. Elegir un modelo AR(m) con m > m´ax(p, q) y ajustarlo a los datos siguiendo el m´etodo de Yule-Walker. Definir los residuos estimados como

Zˆt = Xt − ˆφm1X_t−1 − · · · − ˆφmmX_t−m (92) con t = m + 1, . . . , n.

(53)

2. Estimar el vector de parámetros β = (φ^T, θ^T)^T a partir de la regresión lineal de X_t sobre el vector (X_t−1, . . . , X_t−p, ˆZ_t−1, . . . , ˆZ_t−q). Este vector de parámetros, por tanto, debe minimizar

S(β) =

n

X

t=m+1

X_t − φ¹X_t−1 − · · · − φ^pX_t−p − θ¹Zˆ_t−1 − · · · − θ^qZˆ_t−q2

. (93)

Este procedimiento proporciona el estimador de Hannan-Rissanen βˆ = Z^TZ₋₁

Z^TX_n (94)

donde X_n = (X_m+1, . . . , X_n)^T y

Z =







X_m X_m−1 · · · Xm−p+1 Zˆ_m Zˆ_m−1 · · · ˆZ_m−q+1 Xm+1 Xm · · · Xm−p+2 Zˆm+1 Zˆm · · · ˆZ_m−q+2

... ... . .. ... ... ... . .. ...

X_n−1 X_n−2 · · · X_n−p Zˆ_n−1 Zˆ_n−2 · · · Zˆ_n−q







. (95)

La estima de la varianza del ruido blanco proporcionada por este m´etodo es ˆ

σ_HR² = S( ˆβ)

n − m (96)

3. (opcional) Utilizar la estima del vector de par´ametros

βˆ = ( ˆφ1, . . . , ˆφp, ˆθ1, . . . , ˆθ1)^T

(54)

para definir

Z˜_t = 0, si t ≤ m´ax(p, q)

X_t − Pp

j=1φˆ_jX_t−j − Pq

j=1θˆ_jZ˜_t−j, si t > m´ax(p, q). (97) A partir de esta nueva secuencia definimos las secuencias Vt y Wt como

V˜_t = 0, si t ≤ m´ax(p, q) Pp

j=1φˆ_jV_t−j + ˜Z_t, si t > m´ax(p, q). (98) W˜_t = 0, si t ≤ m´ax(p, q)

−Pq

j=1θˆ_jW_t−j + ˜Z_t, si t > máx(p, q). (99) (Nótese que Vt y Wt satisfacen las recursiones AR ˆφ(D)Vt = ˜Zt y ˆθ(D)Wt = ˜Zt). Si se realiza la regresión lineal de ˜Zt sobre

(V_t−1, . . . , V_t−p, W_t−1, . . . , W_t−p)^T y el vector de par´ametros que minimiza

S^†(β) =

n

X

t=max(p,q)+1



 ˜Z_t −

p

X

j=1

β_jV_t−j −

q

X

k=1

β_k+pW_t−k





2

(100)

es ˆβ^†, la nueva estima del vector de par´ametros ˜β es ˆβ^† + ˆβ.

(55)

Ejemplo 0.3 Si utilizamos un modelo ARMA(1,1) para ajustar la serie, corregida en media, correspondiente al nivel del lago Hur´on, se obtiene el modelo

Xt − 0,7234Xt−1 = Zt + 0,3596Z_t−1, con {Z^t} ∼ WN(0, 0,4757) (101)

Los intervalos de confianza para estos par´ametros son φ : 0,7234 ± 0,7234

3,2064 = (0,4978, 0,9490) θ : 0,3596 ± 0,3596

1,8513 = (0,1654, 0,5538) . (102)