Análisis de series temporales y. Modelos autoregresivos. Series temporales.

(1)

Modelos autoregresivos.

Contenidos 1. Series temporales.

– Valores esperados.

– Procesos estacionarios.

– Ecuaciones de diferencias.

– Predicci´on.

2. Modelos de series temporales

– Medias m´oviles: Modelos MA(q).

– Procesos autorregresivos: AR(p).

– Series no estacionarias.

– Heterocedasticidad

∗ Modelo ARCH(q)

∗ Modelo GARCH(p,q).

Series temporales.

Una serie temporal es una secuencia ordenada de valores, correspondientes a la magnitud de una variable en un determinado instante en el tiempo

{Xτ}^∞_{τ =1} ≡ X¹, X2, . . . , X_t, . . .

• Ejemplo:

– Ruido blanco gaussiano: Secuencia de variables aleatorias con una distribuci´on normal N (0, σ)

1, 2, . . . t, . . .

– Caminante Browniano: Secuencia de variables aleatorias

0, ¹,

2

τ =1

τ,

3

τ =1

τ, . . .

t

τ =1

τ, . . .

en la cual{τ}^∞_{τ =1} es ruido blanco gaussiano.

La hipótesis que realizamos es que la serie temporal de longitud T está generada mediante la extracción de muestras de una distribución de densidad de probabilidad

P

{Xτ}^T_{τ =1}

Análisis de series temporales y

(2)

• Ejemplo: En una secuencia determinista, en la cual la trayectoria es

´

unica, la distribuci´on es un producto de distribuciones delta

P {Xτ}^T_{τ =1}

=

T

τ =1

δ (Xτ − G(Xτ −1, τ ))

• Ejemplo: Para ruido blanco gaussiano la distribuci´on de densidad de probabilidad es factorizable

P {τ}^T_{τ =1}

=

T

τ =1

1

√2πexp

−1 2²_τ

La distribución marginal de la variable Xt se obtiene mediante integración de la distribución completa respecto al resto de las variables

P (Xt) =

dX¹

dX². . .

dXt−1

dXt+1. . . . . .

dXT P {Xτ}^T_{τ =1}

.

Valores esperados.

El valor esperado de una determinada funci´on de los valores de una serie temporal F ({Xτ}^T_{τ =1}) es

E F

{Xτ}^T_{τ =1}

=

dX¹

dX². . .

dXT F ({Xτ}^T_{τ =1})P

{Xτ}^T_{τ =1}

En la pr´actica los valores esperados se obtienen mediante un promedio sobre realizaciones de la serie temporal

X_τ⁽ⁱ⁾

T

τ =1 ≡ X₁⁽ⁱ⁾, X2⁽ⁱ⁾, . . . , X_T⁽ⁱ⁾, i = 1, 2, . . . I

La estimaci´on emp´ırica mediante el promedio sobre I realizaciones es

F = 1 I

I

i=1

F

X_τ⁽ⁱ⁾

T τ =1

,

Esta estimación converge al valor exacto en el l´ımite de un número infinito de realizaciones:

F → E [F ] , cuando I → ∞.

(3)

• Media:

E [Xt] = µt.

• Varianza: Deﬁniendo

Xˆt = Xt− µt, la varianza es

E ˆX_t²

= σ_t².

• Autocovarianza:

E ˆXt+τXˆt

= γ(t; τ).

• Autocorrelaci´on:

ρ(t; τ ) = γ(t; τ ) σ_t² .

• Ejemplo: Ruido blanco gaussiano.

– E [_t] = 0

– E [t+τ_t] = σ²δ_τ,0 – _t ≈ N (0, σ)

Procesos estacionarios.

• Un proceso X⁰, X¹, . . . , Xt, . . . es estacionario en sentido estricto si se cumple

P (X_t1, X_t2, . . . , X_t_r) = P (Xt1+τ, X_t2+τ, . . . , X_t_r+τ).

• Un proceso es d´ebilmente estacionario, o estacionario con respecto a la covarianza si cumple las condiciones

E [Xt] = µ E

Xˆ_t+τXˆ_t

= γτ

La condición de estacionaridad estricta implica la débil si existen los dos primeros momentos de la distribución.

– Un proceso estacionario es erg´odico respecto a la media si

X = 1 T

T

τ =1

Xτ → µ, T → ∞

– Un proceso estacionario es erg´odico respecto a la varianza si 1

T − τ

T −τ

t=1

Xˆt+τXˆt → γτ, T → ∞

(4)

Funci´ on de autocovarianza/autocorrelaci´ on.

Para un proceso estacionario (a partir de este momento, se utilizará la condición débil), se define la función de covarianza como

γ_τ = E [Xt+τX_t] . El coeﬁciente de correlaci´on es

ρ_τ = γ^τ γ⁰.

El valor de este coeﬁciente est´a acotado

−1 ≤ ρτ ≤ 1.

Se deﬁne el operador de retrasos LX_t = Xt−1; con las propiedades

L⁰X_t = X_t; L⁻¹Xt = Xt+1;

L^τXt = Xt−τ;

Ecuaciones de diferencias de primer orden.

Consideremos la ecuaci´on de diferencias de primer orden X_t = φX_t−1+ _t.

La ecuaci´on se resuelve mediante un m´etodo recursivo

X_t = φ^tX0+^t−1

τ =0

φ^τ_t−τ

Los comportamientos posibles de la soluci´on son

• Con el valor φ > 1 la soluci´on es explosiva.

• Con el valor φ < −1 la soluci´on es explosiva y presenta oscilaciones.

• Con el valor 0 ≤ φ < 1 la soluci´on decae exponencialmente.

• Con el valor −1 < φ ≤ 0 la soluci´on decae exponencialmente con oscilaciones.

(5)

0 10 20 30 40 50 60 70 80 90 100

−2

−1 0 1

x 10¹⁷

Xt

φ = −1.50

0 10 20 30 40 50 60 70 80 90 100

−4

−2 0 2 4

Xt

φ = −1.00

0 10 20 30 40 50 60 70 80 90 100

−2

−1 0 1 2

Xt

φ = −0.50

Tiempo

Figure 1: Simulaciones (σ = 1).

0 10 20 30 40 50 60 70 80 90 100

−2

−1 0 1 2 Xt

φ = 0.50

0 10 20 30 40 50 60 70 80 90 100

−6

−4

−2 0 2

Xt

φ = 1.00

0 10 20 30 40 50 60 70 80 90 100

−5

−4

−3

−2

−1 0x 10¹⁷

Xt

φ = 1.50

Tiempo

Ecuaciones de diferencias de orden p.

Consideremos la ecuaci´on de diferencias de primer orden

Xt =

p i=1

φi Xt−i+ t.

Deﬁniendo un vector de estado

ξ^†_t = (Xt Xt−1 . . . Xt−p+1) , la ecuaci´on se puede reescribir como

ξ_t = F · ξ_t−1 + t, con las deﬁniciones

^†_t = (t 0 0 . . . 0 0)

F =

φ¹ φ² φ³ . . . φp−1 φp

1 0 0 . . . 0 0

. . .

0 0 0 . . . 1 0

.

El caracter explosivo de la evoluci´on depende de los autovalores de F.

(6)

Ejemplo:

Consideremos la ecuaci´on de diferencias de orden 2 Xt = φ1Xt−1 + φ2Xt−2+ t.

La ecuaci´on se puede escribir de manera equivalente como

X_t X_t−1

=

φ1 φ2

1 0

·

X_t−1 X_t−2

+

_t 0

. El comportamiento de las soluciones depende de los autovalores de de F

λ1 = 1 2

φ1+

φ²1 + 4φ2

, λ2 = 1

2

φ1−

φ²₁ + 4φ²

.

−3 −2 −1 0 1 2 3

−2

−1.5

−1

−0.5 0 0.5 1 1.5

φ₁ φ2

(0,1)

(−2,−1) (2,−1)

Complex; | λ_j | > 1 Complex; | λ_j | < 1 Real; | λ_j | < 1

Real;λ₂ < −1 Real;λ₁ > 1

φ₁² + 4 φ₂ = 0

φ₂ = 1 + φ₁ φ₂ = 1− φ₁

Figure 3: Diagrama de valores.

0 20 40 60 80 100

−4

−2 0 2 4 6 8

x 10⁸

Tiempo Xt

λ₁ = 1.22 λ₂ = −1.22

0 20 40 60 80 100

−2

−1 0 1 2 3

Tiempo Xt

λ₁ = 0.71 λ₂ = −0.71

0 20 40 60 80 100

−2

−1 0 1 2

Tiempo Xt

λ₁ = 0.71 i λ₂ = −0.71 i

0 20 40 60 80 100

−2 0 2 4

x 10⁸

Tiempo Xt

λ₁ = 1.22 i λ₂ = −1.22 i

(7)

Predicci´ on en series econ´ omicas.

Las series econ´omicas presentan una serie de caracter´ısticas comunes

• Generalmente las series temporales disponibles son cortas (excepto las series de “alta frecuencia”).

• Los valores de la serie temporal son generalmente dif´ıciles de medir con precisión (definiciones imprecisas: inflacción, desempleo, PNB, etc).

• No son estacionarias (tendencias a largo plazo, tendencias estacionales en la media y en la varianza, cambios en el paradigma econ´omico, memoria a largo plazo, etc.)

• Series no-lineales con componentes estoc´asticos.

En el problema de predicci´on hay diversos elementos que entran en juego:

• Conjunto de datos de partida.

– Determinar variables relevantes al problema.

– Determinar ventana de tiempo ´optima.

– Determinar frecuencia ´optima de los datos.

– Obtener los datos.

Esta elección está condicionada a si el horizonte de predicción es a largo / corto plazo.

• Elecci´on del modelo a utilizar.

– Modelos param´etricos

∗ Lineales.

∗ No lineales (ej. modelos con cambio de r´egimen).

– Modelos no param´etricos

∗ Redes neuronales.

∗ Mezclas jer´arquicas de expertos.

∗ ´Arboles de regresi´on.

• Estimaci´on y evaluaci´on del modelo seleccionado

El conjunto de datos se divide en un conjunto de entrenamiento que sirve para estimar los parámetros del modelo propuesto, y en un conjunto de prueba que se utiliza para evaluar la capacidad de predicción (generalización) del modelo. Generalmente se utiliza el Error cuadrático medio como criterio par la evaluaci´on de la predicción, aunque puede haber casos en los que ésta no sea una medida razonable.

En general se observa con este procedimiento que los modelos lineales simples son m´as robustos en sus predicciones que los no lineales. Esta fen´omeno puede ser debida a varias causas

– Los modelos no lineales “memorizan” la serie temporal (sobreajuste).

– La serie datos de prueba suelen ser m´as corta que la serie de entrenamiento, y los efectos de la no-linealidad pueden ser peque˜nos.

– El criterio de error elegido puede conducir a conclusiones err´oneas sobre la calidad de la predicci´on.

(8)

Medias m´ oviles: MA(q)

El proceso de medias m´oviles de orden q es generado mediante la ecuaci´on de diferencias

X_t = _t + ˜θ^†· ˜^(q)_t ,

donde _t es ruido blanco gaussiano con desviaci´on est´andar σ, el vector de retrasos de este ruido blanco es

˜^(q)_t _†

=

1

^(q)_t _†

con la deﬁnici´on

˜^(q)_t †

= (_t−1 _t−2. . . _t−q) .

El vector de par´ametros es θ˜^† =

θ⁰ θ^† , con

θ^† = (θ¹ θ2. . . θ_q) .

• La media del proceso es

µ = θ0

• La funci´on autocovarianza del proceso es

γ_τ =

θτ +_q−τ

j=1θjθτ +j

σ² τ ≤ q 0 τ > q

• Ejemplo: MA(1)

Xt = µ + t + θt−1

– Varianza:

E Xˆ_t²

= (1 + θ²)σ². – Autocovarianza:

γ¹ = θσ²

γ² = γ³ = . . . = 0 – Autocorrelaci´on :

ρ¹ = θ

1 + θ²,

ρ² = ρ³ = . . . = 0

(9)

0 10 20 30 40 50 60 70 80 90 100

−4

−2 0 2 4

X_t = ε_t + 0.59 ε_t−1

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

Magnitud

Autocorrelaciones

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

τ

Magnitud

Autocorrelaciones de los valores absolutos

Figure 5: Simulaci´on MA(1) ; σ = 1 .

0 10 20 30 40 50 60 70 80 90 100

−4

−2 0 2 4

X_t = ε_t − 0.88 ε_t−1 + 0.21 ε_t−2

0 2 4 6 8 10 12 14 16 18 20

−0.5 0 0.5 1

Magnitud

Autocorrelaciones

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

τ

Magnitud

0 10 20 30 40 50 60 70 80 90 100

−4

−2 0 2 4

X_t = ε_t

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

Magnitud

Autocorrelaciones

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

τ

Magnitud

0 10 20 30 40 50 60 70 80 90 100

−5 0 5 10

X_t = ε_t + 0.75 ε_t−1 − 0.97 ε_t−2 + 0.54 ε_t−3 + 0.94 ε_t−4

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

Magnitud

Autocorrelaciones

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

τ

Magnitud

(10)

Proceso al l´ımite MA( ∞)

Consideremos el modelo de medias m´oviles Xt = µ +

∞

τ =0

ψτt−τ,

donde t es ruido blanco gaussiano con desviaci´on est´andar σ.

La condici´on suﬁciente para que el proceso sea estacionario es

∞

τ =0

ψ_τ² < ∞.

Normalmente, se requiere una condici´on m´as estricta que implica la anterior

∞

τ =0

|ψτ| < ∞.

En el caso de que el proceso sea estacionario,

• La media del proceso es

E[Xt] = µ

• La varianza es

γ⁰ =

∞

τ =0

ψ²_τ

• La funci´on de autocovarianza es

γτ =

∞

τ =0

ψτψτ +j.

Procesos autorregresivos: AR(p)

El proceso autorregresivo de orden p es generado mediante la ecuaci´on de diferencias

X_t = ˜φ^†· ˜X^(p)_t + t,

donde _t es ruido blanco gaussiano con desviaci´on est´andar σ, el vector de retrasos de X es

X˜^(p)_t †

=

1

X^(p)_t † ,

X^(p)_t _†

= (Xt−1 X_t−2. . . X_t−p) , y el vector de par´ametros es

φ˜^† =

φ0 φ^† ,

φ^† = (φ¹ φ2. . . φ_p) .

• El proceso es estacionario si las ra´ıces de la ecuaci´on

p i=1

φ_izⁱ = 1

(11)

se encuentran fuera del c´ırculo unidad en el plano complejo.

• La media incondicional del proceso es E [Xt] = φ0

1 −_p

i=1φi

• La media condicional del proceso es

E [Xt | Xt−1Xt−2. . . Xt−p] = φ⁰+

p i=1

φiXt−i

• Ecuaciones de Yule-Walker: Las funciones de autocorrelaci´on satisfacen la misma ecuaci´on que el proceso autorregresivo

γτ =

p

i=1

φiγτ −i+ σ²δτ,0

ρτ =

p

i=1

φiρτ −i

• Ejemplo: AR(1)

Xt = φ⁰+ φ¹Xt−1+ t, φ¹ < 1 – Media:

E [Xt] = φ⁰ 1 − φ1. – Varianza:

E Xˆ_t²

= σ² 1 − φ²1

– Autocovarianza y autocorrelaci´on:

γj = φ^j1

1 − φ²₁σ² ρj = φ^j1

0 10 20 30 40 50 60 70 80 90 100

−5 0 5

X_t = −0.90 X_t−1 + epsilon_t

0 2 4 6 8 10 12 14 16 18 20

−0.5 0 0.5 1

Magnitud

Autocorrelaciones

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

τ

Magnitud

Figure 9: Simulaciones AR(1) (φ = −0.9; σ = 1).

(12)

0 10 20 30 40 50 60 70 80 90 100

−2 0 2 4

X_t = −0.45 X_t−1 + epsilon_t

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

Magnitud

Autocorrelaciones

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

τ

Magnitud

Figure 10: Simulaciones AR(1) (φ = −0.45; σ = 1).

0 10 20 30 40 50 60 70 80 90 100

−4

−2 0 2 4

X_t = 0.00 X_t−1 + epsilon_t

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

Magnitud

Autocorrelaciones

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

τ

Magnitud

Figure 11: Simulaciones AR(1) (φ = 0; σ = 1).

0 10 20 30 40 50 60 70 80 90 100

−4

−2 0 2 4

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

Magnitud

Autocorrelaciones

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

τ

Magnitud

Figure 12: Simulaciones AR(1) (φ = 0.45; σ = 1).

0 10 20 30 40 50 60 70 80 90 100

−5 0 5 10

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

Magnitud

Autocorrelaciones

0 2 4 6 8 10 12 14 16 18 20

0 0.5 1

τ

Magnitud

Figure 13: Simulaciones AR(1) (φ = 0.9; σ = 1).

(13)

El proceso AR(p) como un proceso MA( ∞)

En t´erminos del operador de retardo LX_t = LX_t−1, el proceso AR(p) se puede escribir como

X_t = φ⁰ +

p τ =1

φ_τL^τX_t + t

o, de manera equivalente (1 −

p τ =1

φ_τL^τ)Xt = φ⁰ + t

Suponiendo que el inverso existe (lo cual est´a garantizado si el proceso es estacionario respecto a la covarianza)

X_t = µ + ψ(L)t, que corresponde a un proceso MA(∞) con

µ = φ0

1 −_p

τ =1φ_τ ψ(L) = 1 1 −_p

τ =1φ_τL^τ.

Ejemplo: AR(1)

El proceso AR(1) con |φ1| < 1

X_t = φ⁰ + φ¹X_t−1 + t

es equivalente a un proceso MA(∞) X_t = (1 − φ¹L)⁻¹[φ⁰ + t] =

φ0

1 − φ1 + 1

1 − φ1L _t = φ0

1 − φ1 +

∞ τ =0

φ^τ1 L^τ _t = φ0

1 − φ¹ +

∞ τ =0

φ^τ1 _t−τ.

(14)

Procesos ARMA(p,q)

Se puede construir un modelo que incluya simultáneamente términos de medias móviles y autorregresivos

X_t = c + φ^†· X^(p)_t + θ^†· ^(q)_t + t.

El proceso es estacionario respecto a la varianza si las ra´ıces de

1 −

p i=1

φ_izⁱ = 0

se encuentran fuera del c´ırculo unidad. Esta condición es independiente de los valores de los coeficientes del término correspondiente a medias móviles.

El proceso tambi´en se puede expresar como un modelo MA(∞)

X_t = µ + ψ(L)t, con las deﬁniciones

µ = c

1 −_p

i=1φ_i; ψ(L) =

_q

i=1θiLⁱ 1 −_p

i=1φ_iLⁱ.

De esta forma se puede tambi´en poner de maniﬁesto posibles problemas de modelos degenerados: Modelos con factores comunes en el denominador y numerador de ψ(L) generan series temporales que son indistinguibles.

Predicci´ on

La predicción del valor de X_t+h basado en un conjunto de variables explicativas It ≡ {Yt − τ; τ ≥ 0} equivale a hacer una estimación de la distribución condicional

P (X_t+h|It).

Normalmente las estimaciones se restringen a los dos primeros momentos:

• La media condicional

Xˆ_t+h|t = E [Xt+h|It] =

• La varianza condicional E

X_t+h− ˆX_t+h|t

2

|It

La media condicional es el estimador para Xt+h que minimiza el error cuadr´atico medio (varianza) de la estimaci´on.

(15)

Predicci´ on en procesos ARMA(p,q)

Consideremos un proceso ARMA(p,q) invertible

⎛

⎝1 −^p

j=1

φjL^j

⎞

⎠ (Xt− µ) =

⎛

⎝1 +^q

j=1

θjL^j

⎞

⎠ t

Este proceso se puede reescribir como

X_t − µ =

p j=1

φ_jL^j(Xt − µ) +

⎛

⎝1 +^q

j=1

θ_jL^j

⎞

⎠ _t.

La predicci´on con un horizonte s = 1 es Xˆ_t|t−1− µ =

p j=1

φ_jL^j(Xt − µ) +

q j=1

θ_jL^j_t,

de donde se deduce

t = Xt− ˆX_t|t−1 La predicci´on con un horizonte s es

Xˆ_t+s|t − µ =

p j=1

φ_j( ˆX_t+s−j|t − µ) +

q j=s

θ_j_t+s−j.

Predicci´ on con un n´ umero ﬁnito de observaciones

Las fórmulas de predicción del apartado anterior asumen que disponemos de un número infinito de observaciones hacia el pasado. En caso de que el número de observaciones sea finito {Xt−m+1, Xt−m+2, . . . , Xt}, podemos suponer que las innovaciones son nulas para los tiempos anteriores al inicial

ττ <= t − m.

Este procedimiento es razonable siempre que la memoria de la serie temporal sea a corto plazo y que t 0.

Esiste una predicción más precisa, basada en encontrar la proyección exacta de (X_t+1 − µ) en los m valores más recientes

X^†_t = (Xt − µ, Xt−1 − µ, . . . , Xt−m+1 − µ) . La predicci´on con un horizonte s = 1 es

Xˆ_t+1|t− µ =

m i=1

α_i(Xt−i+1 − µ)

(16)

tiene como soluci´on

⎛

⎜⎜

⎝

γ0 γ1 . . . γ_m−1 γ¹ γ⁰ . . . γm−2

... ... . . . ...

γ_m−1 γ_m−2 . . . γ0

⎞

⎟⎟

⎠ ·

⎛

⎜⎜

⎝ α1

α² ...

α_m

⎞

⎟⎟

⎠ =

⎛

⎜⎜

⎝ γ1

γ² ...

γ_m

⎞

⎟⎟

⎠ .

Num´ericamente el sistema se puede resolver mediante una descomposici´on de Cholesky.

La predicci´on con un horizonte s es Xˆ_t+1|t− µ =

m i=1

α^(s)_i (Xt−i+1 − µ)

tiene como soluci´on

⎛

⎜⎜

⎝

γ0 γ1 . . . γ_m−1 γ¹ γ⁰ . . . γm−2

... ... . . . ...

γm−1 γm−2 . . . γ0

⎞

⎟⎟

⎠·

⎛

⎜⎜

⎜⎝ α1^(s)

α2^(s)

...

αm^(s)

⎞

⎟⎟

⎟⎠=

⎛

⎜⎜

⎝

γ_s γs+1

...

γs+m−1

⎞

⎟⎟

⎠

Descomposici´ on de Wold (Wold, 1938).

Un proceso cualquiera {Xt}^∞_t=−∞, estacionario respecto a la covarianza y de media cero, puede ser representado mediante el proceso

X_t =

∞ j=0

ψ_j_t−j+ κt

con ψ0 = 1 y _∞

j=0|ψj|² < ∞. La componente _t es ruido blanco y representa el error de predicción para X_t de la predicción lineal óptima a partir de toda la serie de valores anteriores de la variable

_t = Xt − ˆE [Xt|Xt−1, X_t−2, . . .]

La componente linealmente determinista κ_t no est´a correlacionada con t−j para ning´un valor de j y puede ser predicha linealmente a partir de la secuencia de valores anteriores de X_t

κ_t = ˆE [κ_t|X_t−1, X_t−2, . . .]

La componente _∞

j=0ψ_j_t−j es una componente linealmente no-determinista.

(17)

La descomposición de Wold no puede utilizarse directamente para proponer un modelo para la serie temporal, ya que contiene un número infinito de parámetros. Con la hipótesis adicional de que la función ψ(L) puede ser aproximada con cierta precisión por un aproximante de Padé

ψ_L ≡

∞ j=0

ψ_jL^j ≈ θ(L) φ(L) =

_q

i=0θ_qL^q _p

j=0φ_jL^p, con θ0 = φ0 = 1.

Metodolog´ıa Box-Jenkins.

La observación de que modelos con un número excesivo de parámetros conduce a modelos que generalizan de manera deficiente, nos lleva a preferir modelos con el número más pequeño de parámetros.

Box y Jenkins proponen una metodologia para modelaci´on de series temporales

1. Realizar las transformaciones necesarias sobre los datos de forma que la serie transformada sea estacionaria.

• Transformaci´on logar´ıtmica

Yt = log Xt

Xt−1

• Transformaci´on a rendimientos

rt = log St

St−1

≈ St − St−1

St−1

• Substraer tendencias

Yt = Xt− (α + δt).

• Tomar diferencias

Yt = Xt − Xt−1

(18)

• Eliminar componentes estacionales

Yt = Xt− Xt−12

2. Elegir un modelo ARMA(p,q), con p y q peque˜nos.

3. Estimar los par´ametros del modelo.

4. Hacer tests de diagn´ostico para comprobar que el modelo es coherente con los datos de la serie temporal.

Modelo para una serie temporal no estacionaria.

Hasta este momento hemos descrito modelos de una variable para una serie temporal que pueden ser escritos como

X_t = µ +

∞ τ =0

ψ_τ_t−τ = µ + ψ(L)t

con la propiedad

∞ τ =0

|ψτ| < ∞

y con las ra´ıces de ψ(z) fuera del c´ırculo de radio unidad en el plano complejo. Para este tipo de series se cumple

E [Xt] = µ Xˆ_t+s|t ≡ lim

s→∞E [X_t + s|X_t, X_t−1, X_t−1, . . .] = µ.

En el contexto de series económicas o financieras esto no tiene por qué ser correcto.

(19)

Hay dos formas de describir tendencias en una serie temporal

• Procesos que tienen un comportamiento estacionario una vez que se substrae un t´ermino de tendencia.

Ejemplo: Modelo con tendencia lineal

Xt = α + δt + ψ(L)t

Las propiedades de este modelo son – Predicci´on

Xˆt+s|t = α + δ(t + s) +

∞

τ =0

ψs+τt−τ

– Comportamiento en el l´ımite: Dado que lim_{τ −>∞}ψτ = 0, se cumple

s→∞lim E ˆXt+s|t− (α + δ(t + s))

= 0.

– Error de predicci´on:

Xt+s− ˆXt+s|t =

s−1

tau=0

ψτt+s−τ

El valor del error cuadr´atico medio es E

Xt+s− ˆXt+s|t

2

= σ²

s−1

tau=0

ψ_τ²

Converge a una constante cuando s → ∞.

• Modelos integrados o de ra´ız unidad: Un modelo integrado de orden d es tal que al ser diferenciado d veces da lugar a un proceso estacionario.

– Caminante aleatorio con deriva δ

Xt = Xt−1+ δ + t, ψ(1) = 0.

– Ejemplo: Proceso integrado de orden 1

(1 − L)Xt = δ + ψ(L)t, ψ(1) = 0 – Consideremos el proceso con una ra´ız unidad

Xt = α + δt + ut,

donde ut es un proceso ARMA(p,q). El proceso diferenciado es estacionario

(1 − L)Xt = δ + ψ(L)t, donde

ψ(L)t = (1 − L)ut. Las propiedades de este modelo son

∗ Predicci´on:

La relación básica es la predicción de las primeras diferencias

E [Xt+s− Xt+s−1|Xt, Xt−1, . . .] = δ +

∞

τ =0

ψs+τt−τ.

Con la observaci´on

Xt+s = (Xt+s − Xt+s−1)+(Xt+s− Xt+s−1)+. . . (Xt+s− X

(20)

se llega a la relaci´on

Xˆt+s|t = sδ + Xt+

∞

τ =0 s

θ=1

ψθ+τt − τ

∗ Errores de predicci´on El error de predicci´on es

Xt+s− ˆXt+s|t =

s

τ =1 τ −1

θ=0

ψτt+s−τ.

El valor del error cuadr´atico medio es

E

Xt+s− ˆXt+s|t

2

= σ²

s

θ=1 τ −1

τ =0

ψ_τ² Crece linealmente cuando s → ∞.

En resúmen, la mayor diferencia entre procesos no estacionarios de estos dos tipos es la persistencia del efecto de las innovaciones: En los procesos con tendencia la influencia de las innovaciones disminuye con el tiempo. Sin embargo, en los procesos con ra´ız unidad, el efecto de las innovaciones se acumula en el tiempo. A pesar de las diferencias cualitativa, determinar cuál es el proceso subyacente a partir de una muestra finita puede ser problemático.

Procesos ARIMA(p,d,q)

Un caso especialde modelos integrados son los procesos ARIMA(p,d,q). La diferencia de orden d de un proceso ARIMA(p,d,q) da lugar a un proceso estacionario ARMA(p,q).

Consideremos el proceso ARIMA(0,1,1) X_t = Xt−1+ δ + t + θt−1

• Predicci´on

Xˆt+s|t = sδ + Xt + θt.

• Suponiendo δ = 0, s = 1

Xˆt+1|t = Xt + θt.

Utilizando

t = Xt − ˆXt|t−1. obtenemos

Xˆt+1|t = Xtθ(Xt− ˆXt|t−1).

Iterando esta relaci´on se obtiene la predicci´on correspondiente a un

“exponential smoothing”

Xˆt+1|t = (1 + θ)

∞

τ =0

(−θ)^τXt−τ.

(21)

heterocedasticidad: ARCH(q)

Este modelo intenta reﬂejar la estructura temporal de la volatilidad de una serie temporal, proponiendo un modelo autoregresivo para la serie temporal y otro distinto para las innovaciones

Xt = φ˜^†· ˜X^(m)_t + ut

ut = ht t

h_t = ˜α^†·

˜ u²_t(q)

,

donde _t es ruido blanco gaussiano con desviación estándar igual a 1. La condición de no negatividad

α_i >= 0

implica que el proceso es estacionario respecto a la covarianza si

q i=1

αi < 1

El vector de retrasos para las innovaciones es

u˜²_t(q)†

=

1 u²_t−1 u²_t−2 . . . u²_t−q

• Volatilidad incondicional σ² = E

u²_t

= α0

1 −_q

i=1α_i

• Volatilidad condicional E

u²_t | ut−1u_t−2. . . u_t−q

= α^†·

u²_t(q)

• Estimación por máxima verosimilitud Suponiendo que las innovaciones tienen una distribución normal la probabilidad condicional es

p(Xt|X^(max(q,m))_t ) = 1

√2πht

exp

⎧⎨

⎩−(Xt − ˜φ^†· ˜X^(m)_t )² 2ht

⎫⎬

⎭, donde

h_t = ˜α^†·

˜ u²_t(q)

y

u_t = X_t− ˜φ^†· ˜X^(q)_t .

La funci´on a optimizar, con las restricciones correspondientes es el logaritmo de la funci´on de verosimilitud

LL = ^T

t=r

log p(Xt|X^(r)_t ), r = max(q, m).

(22)

• Ejemplo: AR(1) / ARCH(1)

Xt = φ⁰+ φ¹Xt−1+ ut

ut = ht t

ht = α⁰+ α¹u²_t−1 – Volatilidad incondicional:

E

u²_t

= α⁰ 1 − α¹. – Volatilidad condicional:

E

u²_t | ut−1

= α0 + α1u²_t−1

heterocedasticidad: GARCH(p,q)

Este modelo intenta reﬂejar la estructura temporal de la volatilidad de una serie temporal, proponiendo un modelo autoregresivo para la serie temporal y otro distinto para las innovaciones

X_t = φ˜^†· ˜X^(m)_t + u_t u_t =

h_t _t

ht = κ + β^†· [ht]^(p) + α^†·

u²_t(q)

,

donde _t es ruido blanco gaussiano con desviaci´on est´andar igual a 1. El vector de retrasos para las innovaciones es

u²_t(q)†

=

u²_t−1 u²_t−2 . . . u²_t−q . El vector de retrasos para ht

[ht]^(p)_†

= (ht−1 h_t−2 . . . h_t−p) . Las restricciones para los par´ametros son

• No-negatividad

κ > 0; α_j ≥ 0; βj ≥ 0

(23)

• Proceso estacionario (respecto a la covarianza)

r i=1

(α_i + β_i) < 1; r = max{p, q}

• Volatilidad incondicional σ² = E

u²_t

= κ

1 −_r

i=1(βi + αi)

• Ejemplo: AR(1) / GARCH(1,1)

Xt = φ⁰+ φ¹Xt−1+ ut

ut = ht t

ht = κ + βht−1+ αu²_t−1 – Volatilidad incondicional:

E

u²_t

= κ

1 − β − α.