Comparación de métodos de identificación de modelos ARMA

(1)

Los pronósticos utilizan información del pasado para construir un modelo que explica el comporta-miento específico de variables, y son utilizados para predecir el futuro asumiendo que se comportará co-mo el pasado (Stekler, 2007). Los co-modelos ARMA son un método para hacer pronósticos lineales y abarcan varias clases de procesos, auto regresivos y de media móvil, que resultan útiles en la descrip-ción de una amplia gama de series de tiempo (Wei, 2005).

Existen tres etapas para construir un modelo ARMA: identificación, estimación y chequeo del modelo, en donde la primera es considerada la etapa crucial al momento del ajuste (Ong, Huang, & Tzeng, 2005), porque busca la existencia de alguna relación lineal entre la observación en el tiempo t (yt) con alguna de las otras observaciones y choques aleatorios ocurridos en el pasado yt-k y et-k. El

proce-dimiento ortodoxo utilizado para la identificación de los parámetros del modelo ARMA, es el propuesto por Box-Jenkins en 1976, donde se identifican pa-trones en la función de auto correlación simple (f.a.s.) y parcial (f.a.p.) de los residuales para

encon-trar un modelo que se ajuste a la serie de tiempo; en los últimos treinta años han estado surgiendo alter-nativas al método, porque en los modelos mixtos ARMA, la f.a.s. y f.a.p. se comportan usualmente de manera similar dificultando la identificación del modelo (Chan, 1999), y además, este proceso requie-re una considerable inversión en tiempo y requie-recursos para llegar a un modelo satisfactorio (Gilbert, 1987).

Existen estudios que comparan métodos de iden-tificación de parámetros, Stadnytska T., Braun S. y Werner J. comparan los métodos MINIC, SCAN y ESACF, Chan W. a su vez, también compara SCAN y ESACF pero con el Corner Method y Abo-Hammer Z., Alsmadi O. y Al-Smadi A. muestran la robustez de los algoritmos genéticos vs el MDL, AIC y MEV. En este estudio se compararán los tra-dicionales métodos AIC, SCAN, ESACF y Corner Method con el Algoritmo de Innovación (IA) y un método basado en los valores propios de la matriz de covarianzas (ECM), no tan populares en la literatura.

Comparación de métodos de identificación de modelos ARMA

W.A. Gómez

Universidad de los Andes, Bogotá, Colombia

Asesorado por: M.E. Correal

Universidad de los Andes, Bogotá, Colombia

RESUMEN: En el modelamiento de series de tiempo, la identificación de los órdenes de un modelo es cru-cial, porque es la base para el entendimiento de la serie y para el pronóstico. En los últimos treinta años han surgido métodos que se basan en patrones de la función de autocorrelación o en los valores propios de la ma-triz de covarianzas. Este artículo compara seis de ellos, evaluando su identificación de series que siguen mo-delos Auto-Regresivos y ARMA. Para AR puros los mejores métodos de identificación fueron, en su orden, ESACF, ‘SCAN a’ y AIC; para modelos ARMA no hubo ningún modelo que sobresaliera, el máximo porcen-taje de identificación correcta fue de 4.5% para el método AIC. El desempeño general fue bastante pobre, el porcentaje de identificación correcta promedio fue de 20% y 2% para los modelos AR y ARMA respectiva-mente.

ABSTRACT: In the modeling of time series, the order identification of a model it’s crucial because it is the basis of the series understanding and forecasting. In the last thirty years there have been methods based on patterns of the autocorrelation function or the eigenvalues of the covariance matrix. This paper compares six of them, evaluating their series identification capabilities of auto-regressive and ARMA models. For pure AR best methods were, in order, ESACF, 'SCAN' and AIC; for ARMA models neither of the methods were good, the highest percentage of correct identification was of the AIC method (4.5%). The overall perfor-mance was quite poor, the average percentage of correct identification was 20% and 2% for AR and ARMA models respectively.

(2)

1 MODELO ARMA

Un modelo ARMA (p,q) de una serie está definido como:

donde et es un ruido blanco con media cero y

varian-za constante σe2, y:

Sabiendo que B es el operador ‘Backward’ defini-do como Bk yt=yt-k, entonces la ecuación (1) puede

ser escrita como:

Si el parámetro q es igual a cero la serie seguirá un proceso Auto Regresivo AR(p), en caso contra-rio, si p=0 el proceso será de Media Móvil MA(q) por sus siglas en inglés.

Para que los modelos ARMA representen proce-sos estables (estacionarios) y bien definidos (inverti-bles) es necesario que los parámetros cumplan cier-tas condiciones.

1.1 Invertibilidad

Un proceso ARMA(p,q) puede representarse co-mo un AR(∞):

El proceso anterior es invertible si . Puesto que el polinomio ϕ(B) es finito, la conver-gencia de π(B) depende solamente de la convergen-cia de θ-1_(B).

Entonces para que π(B) converja se requiere que |λi|<1, esto quiere decir que las raíces deben estar

dentro del círculo unidad.

1.2 Estacionariedad

Un proceso ARMA(p,q) puede representarse co-mo un MA(∞):

Si entonces el proceso anterior es estacionario. Puesto que el polinomio θ(B) es finito, la convergencia de ψ(B) depende solamente de la convergencia de ϕ-1_(B).

Entonces para que ψ(B) converja se requiere que |λi|<1, esto quiere decir que las raíces deben estar

dentro del círculo unidad.

2 MÉTODOS

Los métodos que se detallan en esta sección pro-meten encontrar los órdenes auto-regresivos (p) y de media móvil (q) de la seria pasada como parámetro siguiendo un algoritmo.

Los métodos ‘Mínimo Akaike Information Crite-rion’ (AIC), ‘Smallest Canonical Correlation Met-hod’ (SCAN), ‘Extended Sample Autocorrelation Function’ (ESACF) y ‘Corner Method’ (CM) se en-cuentran detallados en el libro ARMA model identi-fication de Choi, B. y en la fuente citada. Los otros dos, ‘Innovation Algorithm’ (IA) y ‘Eigenvalues Covariance Matrix’ (ECM), están propuestos sólo en la fuente referida.

2.1 AIC

Fuente: Sakamoto, Ishiguro, & Kitagawa, 1988

El Akaike Information Criterion (AIC) se basa en la ‘teoría de la información’ y ofrece una medida re-lativa de la entropía de información cuando un mo-delo dado es usado para representar el proceso que genera una serie. Suponiendo que se tiene el modelo estadístico que sigue la serie, el AIC se calcula co-mo:

(3)

… … q-1 q q+1 q+2 … K … X … X X X X … X … … … … p-1 X … X X X X … X p X … X O O O … O p+1 X … X O O O … O p+2 X … X O O O … O … … … … K X … X O O O … O

Orden MA (j)

O

rd

en

A

R

(

i)

donde L es el máximo valor de la función de vero-similitud para el modelo estimado y k es el número de parámetros que están siendo estimados.

Este método toma tiempo, pues deben ser corridas todas las posibles combinaciones de parámetros au-to-regresivos y de media móvil; el modelo escogido es el que menos estimación relativa de la informa-ción perdida tenga, es decir, el de menor índice AIC.

2.2 SCAN

Fuente: Tiao & Tsay, 1985

El Smallest Canonical Correlation Method (SCAN) puede ser utilizado para series estacionarias y no estacionarias (Choi, 1992). Este método está basado en las propiedades de ciertas correlaciones canónicas y sus vectores propios asociados. A con-tinuación se describen los pasos del método.

Para valores i,j=0,1,…,K, siendo K un entero grande suponga las siguientes matrices de tamaño (i+1)x(i+1):

𝐵 _{𝑖,𝑗 +1}∗ _{= 𝑌} 𝑖,𝑡𝑌𝑖,𝑡𝑇 𝑛

𝑡=𝑖+𝑗 +2

−1

𝑌_𝑖,𝑡𝑌_{𝑖,𝑡−𝑗 −1}𝑇 𝑛

𝑡=𝑖+𝑗 +2

Para cada su mínimo valor propio debe ser calculado, al igual que su vector propio normalizado asociado. Una vez hallados debe ser obtenida la serie transformada de la siguiente forma:

Defina:

Con los valores hallados de ci,j es posible construir

la tabla SCAN. Se espera que los valores significati-vamente iguales a cero formen una sub-matriz rec-tangular con su vértice superior izquierdo situado en la coordenada (p,q). Para que sea más fácil visual-mente encontrar los órdenes Tsay y Tiao (1985) pro-pusieron:

Figura 1. Matriz asintótica SCAN

2.3 ESACF

Fuente: Tiao & Tsay, 1984

Una de las ventajas del método Extended Sample Autocorrelation Function (ESACF) es que elimina la necesidad de determinar el orden de diferenciación

(4)

… … q-1 q q+1 q+2 … K … X … X X X X … X … … … … p-1 X … X X X X … X p X … X O O O … O p+1 X … X X O O … O p+2 X … X X X O … O … … … … K X … X X X X … O

Orden MA (j)

O

rd

en

A

R

(

i)

para lograr la estacionariedad (Choi, 1992). El pro-cedimiento se basa en la regresión iterada de míni-mos cuadrados, ILS por sus siglas en inglés, donde la l-ésima iteración de la regresión AR(k) está dada por:

La ecuación (4) es el residuo estimado de la l-ésima iteración de la regresión AR(k), y {ϕ ̂k,1l,…,ϕ ̂k,ll} y {θ ̂k,1l,…,θ ̂k,ll} son los estimadores

obtenidos por Mínimos Cuadrados Ordinarios de (3). La autocorrelación extendida de la muestra rk,l es-tá definida como la autocorrelación del lag l de:

Es necesario mencionar que r0,l corresponde a la

función de autocorrelación de yt. Sabiendo esto es

posible construir la tabla ESACF definida como:

donde K es un número arbitrario muy grande. Tsay y Tiao (1984) propusieron simplificar la tabla ESACF para ver símbolos indicando si el número es cero ‘O’ o si es significativamente distinto de cero ‘X’.

Se espera que el patrón asintótico de la tabla ESACF forme un triángulo de ‘O’ cuyo vértice esté situado en la coordenada (p,q):

Figura 2. Matriz asintótica ESACF

2.4 CM

Fuente: Chan, 1999

Para el método Corner Method (CM) considere los siguientes elementos Ci,j de una matriz CKxK ,

donde K es un entero grande:

Se espera que la matriz C produzca una sub-matriz cuya esquina se forme al noroeste y sus valo-res sean asintóticamente iguales a cero. Debido a la dificultad que conlleva leer una tabla de números Chan W. la simplificó usando indicadores:

En (5) ‘O’ simboliza que el elemento no es dife-rente de cero, y ‘X’ representa lo contrario. El error estándar de cualquier elemento de está dado por:

(5)

… … q-1 q q+1 q+2 … K … X … X X X X … X … … … … p-1 X … X X X X … X p X … X O O O … O p+1 X … X O O O … O p+2 X … X O O O … O … … … … K X … X O O O … O

Orden MA (j)

O

rd

en

A

R

(

i)

Donde A es un vector 1xh, G es una matriz hxh, h es el máximo lag en Δ y n es el tamaño de la mues-tra. Los órdenes p y q se extraen de la matriz C* ob-tenida:

Figura 3. Matriz asintótica CM

2.5 ECM

Fuente: Cadzow, Liang, & Wilkes, 1993

El Eigenvalues Covariance Matrix (ECM) es un nuevo acercamiento al Minimum Description Lenght (MDL) que depende de los mínimos valores propios de la matriz de covarianza obtenida de los datos ob-servados, hay que tener en cuenta que es un método que solo promete identificar series mixtas ARMA.

Para estimar los valores de φi y θj es necesario

en-contrar candidatos para los órdenes p y q respecti-vamente. La ecuación (1) puede ser rescrita en forma matricial como:

donde vn es un ruido blanco Gaussiano que

represen-ta cualquier error de observación o del modelo. Lo anterior puede ser escrito compactamente como:

en donde puede ser calculada la matriz de covarianza simétrica y semi-definida positiva:

El Minimum Description Lenght (MDL) equivale a la suma de la función de log-likelihood del máxi-mo estimador likelihood de los parámetros del máxi- mo-delo y una función que penaliza el uso de un gran número de parámetros en el modelo. El criterio está dado por:

donde y=[y1 y2 … yN]T, k son los grados de libertad

(k=p+q+1) en el modelo, E ̂ es el estimador del de los parámetros dados p y q, y f(.) es la función de probabilidad del ruido del modelo, v=[v1 v2 … vN]T.

Después de algunos pasos algebraicos, en donde se utiliza la distribución normal que tiene v y el valor propio λmin de R, Liang G., Wilkes M. y Cadzow J.

llegan al criterio:

Para encontrar los órdenes p y q, los autores pro-ponen encontrar el J(p,q) donde λmin descienda

rápi-damente a través de cocientes de columna y fila:

La columna y fila con el mínimo cociente serán los respectivos órdenes p y q.

Lo único que falta para el procedimiento son los errores ‘e’ que no son observables. La fórmula (7) sugiere un método para hallar los estimadores:

(6)

donde βi son los elementos del vector E2:

En esta estimación se asume β0=1. El método para

encontrar los órdenes del modelo presentado en el artículo puede utilizarse remplazando e ̂n por en en

(6).

2.6 IA

Fuente: Sreenivasan & Sumathi, 1998

El método de Innovation Algorithm (IA) es una modificación de los algoritmos Dubin Levinson y de Innovación presentados por Brockwell y Davis en 1987 que pretende la identificación efectiva de los órdenes p y q de un modelo ARMA(p,q) a través de los siguientes pasos:

1) Teniendo la función de autocovarianza (Ck) de

la serie de datos, se procede a calcular los esti-madores de innovación (θ1,1, θ2,2, θ2,1, θ3,3, θ3,2,

…) de la siguiente forma:

Asumiendo un proceso invertible, la serie puede ser expresada como:

De las ecuaciones (1) y (8) se obtiene:

Es claro que en un modelo ARMA(p,q) los va-lores de θi y φj son iguales a cero cuando i > p y

j > q respectivamente. Brockwell y Davis (1987)

demostraron que ψj→θm,j, entonces la ecuación

(9) puede ser escrita como:

2) Utilizando j=q+1, q+2, …, q+p en (10), un sis-tema de p ecuaciones es generado para calcular (φ1, φ2,…, φp) asumiendo p=5:

3) De la ecuación (10) pueden ser calculados (θ1,

θ2,…, θq) asumiendo q=8:

4) Los órdenes p y q son obtenidos observando (φ1,

φ2,…, φp) y (θ1, θ2,…, θq). El orden Auto

regre-sivo y de media móvil es el del máximo paráme-tro φi y θj cuyo valor absoluto sea mayor a cero,

que para la aproximación del problema será to-mado como mayor a 0.001. Si la ecuación (11) no puede ser resuelta, el orden p será de cero.

3 METODOLOGÍA

Se generarán m series ARMA(p,q) con los órde-nes (p,q) y coeficientes (ϕ,θ) dados para evaluar de cada método el alcance de su identificación.

3.1 Parámetros

El orden más alto utilizado en los artículos de comparación de métodos para las partes AR y MA fue de 4. Como en este artículo se desea conocer el efecto en la identificación por método de órdenes más altos se propone variar el orden AR (p) de 1 a 7 y el orden MA (q) de 0 a 7; Siete es el valor máxi-mo pues la complejidad de una serie de órdenes mayores afecta dramáticamente el tiempo de ejecu-ción de los algoritmos.

¿Acercar la serie a la estacionariedad y no-invertibilidad afecta la identificación de cada méto-do?, para dar respuesta se proponen tres rangos para

(7)

todos los λi, que son utilizados para calcular los

coeficientes ϕ y θ de la serie (Literal 1), bajo (0 < | λi | < 0.5), medio (0.5 ≤ | λi | < 0.9) y alto

(0.9 ≤ | λi | < 1).

Para cada combinación de los parámetros descri-tos anteriormente se crean m=50 series de ruido blanco N(0,1) de tamaño n=1100 para generar 50 series ARMA(p,q) de 1100 observaciones donde los primeros 100 son descartados para reducir el efecto de los valores iniciales.

Con el fin de conocer el orden identificado por los métodos, cada serie es pasada como parámetro para cada uno de ellos y es comparado con el orden AR y MA real.

La efectividad de cada método es evaluada por los indicadores propuestos por Stadnytska, Braun & Werner en 2008, para series Auto Regresivas puras se tendrán en cuenta las sobre-identificaciones (+), sub-identificaciones (-), identificaciones correctas (=) y otras identificaciones ARMA (<>). En cambio para series ARMA se tendrán en cuenta las dos úl-timas más las identificaciones auto-regresivas (AR).

3.2 Lectura de Tablas de Símbolos

Es necesario saber que uno de los inconvenientes en la identificación de los órdenes es el análisis visual de las tablas de símbolos. Las siguientes opciones de lectura de las tablas serán implementadas para el Corner Method y SCAN:

a. El orden (i,j) será escogido si el símbolo en (i-1,j) y en (i,j-1) es una “X” y el símbolo en (i,j) es una “O” (Chan, 1999).

b. A partir de la obtención e interpretación de las tablas de cinco series generadas, se crearon re-glas que fueron permitiendo llegar a la correcta identificación de los órdenes; es importante re-calcar que la lectura fue elaborada para arrojar una sola identificación, buscando que al usarse no existiera duda respecto a qué orden propues-to llegar. Las reglas mencionadas anteriormente se encuentran contenidas en el siguiente pseu-docódigo.

Como la lectura de la tabla ESACF es distinta porque genera un triángulo en vez de un rectángulo de números significativamente iguales a cero, se propone:

a) El orden (i,j) será escogido si el símbolo en (i-1,j) y en (i,j-1) es una “X” y el símbolo en (i,j) y en (i+1,j+1) es una “O” (Chan, 1999). Para las opciones (a.) se contará como condición aprobada si (i-1) < 0 ó (j-1) < 0. Por ejemplo, en la siguiente tabla, los órdenes escogidos serán (1,2), (2,1), (0,4), (2,3) para patrones rectangulares y (1,2), (2,3) para triangulares.

Figura 4. Ejemplo lectura de símbolos

En algunos casos la identificación dará varias op-ciones que cumplan con las condiop-ciones propuestas. Si alguna de ellas concuerda con los órdenes reales, se contará como una correcta identificación; si no se buscará la primera opción que indique un compor-tamiento AR y, si finalmente no se encuentra, la identificación escogida será la primera obtenida.

0 1 2 3 4 5

0 X X X X O O

1 X X O X O X

2 X O X O O O

3 X O X X X O

4 O O O O O O

5 O O O O O O

Orden MA (j)

O

rd

en

A

R

(

(8)

3.3 Codificación y Ejecución

Para codificar cada método en el programa esta-dístico R cada algoritmo se siguió manualmente con una serie en Excel. Los métodos ESACF y SCAN fueron sólo evaluados, pues ya estaban codificados en el paquete TSA de R y por el profesor Steve Chen de la universidad TamKang de Taiwan res-pectivamente.

El proceso de combinación de niveles en R lo ha-ce el método codificado ‘principal’ el cual crea la serie y la envía como parámetro a cada método co-dificado; luego imprime en un archivo de texto, di-ferente por cada combinación, los parámetros iden-tificados por serie de cada una de las 50 corridas.

Finalmente, los output de R son procesados por un archivo de Excel que se encarga de unirlos y hallar el tipo de identificación por método y corrida, creando la base de datos que alimenta los gráficos y análisis siguientes.

La ejecución completa del proceso en R requirió 688 horas de corrida ejecutadas en 54 computado-res; esto quiere decir que en promedio cada corrida, contando las identificaciones hechas por método, tomó aproximadamente 5 minutos.

3.4 Observación al Rango de Lambdas

Un porcentaje alto de sub-identificación se hizo notable en las corridas que se hicieron para los AR puros, sobre todo para las series con un rango de lambda bajo. La justificación es que el coeficiente que acompaña la variable más rezagada termina siendo muy pequeño; esto quiere decir que cuando | λi | < 0.5 ∀ i, el coeficiente que acompaña a, por

ejemplo, yt-6 en un AR(6) es ϕ6 < (0.5)6 = 0.016, un

valor tan pequeño que causaría la no identificación de este orden. Para corroborar este punto se calcula- ron los promedios de estos coeficientes para las se-ries que fueron sub-identificadas llegando a la Figu-ra 5.

Figura 5. Coeficientes prácticos

Los parámetros aleatoriamente obtenidos para el rango bajo de lambda ni siquiera sobrepasan el lími-te mínimo de grado bajo de dependencia (0.2) pro-puesto por Stadnyska, Braun & Werner, haciéndo-los seguramente indetectables. A modo de ejemplo, se toma una de las series sub-identificadas aleato-riamente y se estima utilizando el programa E-Views 7.

La serie escogida sigue un proceso AR(5):

El p-valor de los tres últimos coeficientes (Fig. 6) indica que estos no son significativamente diferentes de cero llevando a concluir erróneamente que se tra-ta de un AR(2) (Fig. 7).

Figura 6. Significancia AR(5)

Figura 7. Significancia AR(2)

Para evitar estos valores tan pequeños en los ór-denes altos, los niveles del factor de rango de Lambdas fueron cambiados; los factores finales se muestran en la Figura 8:

(9)

4 RESULTADOS

4.1 AR Puros 4.1.1 AIC

Figura 9. Identificación AIC - AR

El método AIC tiene un comportamiento creciente

de correcta identificación para el rango 0.9 ≤ | λi | < 0.95 logrando el mejor porcentaje de

identificación para los órdenes 3 y 7. Pero es un mé-todo que tiene altísima probabilidad de proponer modelos ARMA cuando se está buscando un AR. 4.1.2 SCAN

Figura 10. Identificación SCAN - AR

En la Figura 10 es evidente la diferencia de efecti-vidad de identificación entre ambos tipos de lectura. Su efectividad se ve afectada por órdenes auto-regresivos altos en series AR y además es muy poco probable que el método SCAN funcione con raíces cercanas a la unidad. A pesar de que es un método que tiende a la sub-identificación, la lectura

‘SCAN a’ tuvo un rotundo éxito para la parámetros con rango 0.9 ≤ | λi | < 0.95 y órdenes 1 y 2.

4.1.3 ESACF

Figura 11. Identificación ESACF - AR

El método no funciona para las series con rango 0 < | λi | < 0.9, pues su correcta identificación en este

rubro es baja y la identificación errónea de otro mé-todo (<>) es alta. En el rango 0.9 ≤ | λi | < 0.95 con

órdenes 4 al 7 tiene un desempeño que, a pesar de decaer con el incremento de raíces, es medianamente bueno con un mínimo de correcta identificación del 44%. En cambio, para las raíces cercanas al círculo unitario su identificación correcta es alta y solo se ve opacada para series de orden 7 donde no hubo nin-gún tipo de identificación.

4.1.4 CM

Figura 12. Identificación CM - AR

La única vez que la lectura ‘b’ supera a la ‘a’ lo hace con un 18% de correcta identificación, su com-portamiento en las otras combinaciones es mínimo. El Corner Method tiene una muy buena identifica-ción para modelos AR(1), incluso su identificaidentifica-ción mejora para raíces cercanas al círculo unidad. El mé-todo tiene la capacidad de reconocer modelos auto-regresivos puros, pues sólo el 0.3% de las series

(10)

fue-ron identificadas con otro tipo de modelo, a pesar de no encontrar el orden ‘p’ correcto.

4.1.5 IA

Figura 13. Identificación IA - AR

Es el método más simple de los trabajados y el de peor desempeño, su porcentaje total de modelos sub-identificados es de 33.8% e sub-identificados como ARMA es de 60.3%.

4.1.6 Observaciones Generales

El desempeño de cada método diferenciado para cada uno de los rangos del lambda y cada orden p se evalúa con el porcentaje de aciertos del modelo auto-regresivo mostrado en la Figura 14. El método más simple y económico computacionalmente (IA) mos-tró un desempeño deplorable con un porcentaje má-ximo de 8% de identificaciones correctas. La lectura tipo ‘b’ de las matrices obtenidas por Corner Method y SCAN presentaron un desempeño mucho menor que su contraparte ‘a’. El método ‘SCAN a’ obtuvo para los órdenes 1 y 2 con límites superiores de lambda de 0.9 y 0.95 los mejores resultados, alcan-zando un 98% de acierto para las combinaciones de 0.9 ≤ | λi | < 0.95 y p=1,2. El desempeño de ‘CM a’

solo fue plausible para p=1. Con un 76% de identifi-caciones correctas el AIC fue el mejor para el orden 7 con el rango 0.9 ≤ | λi | < 0.95. Por último el

ESACF fue el mejor en la identificación para raíces cercanas al círculo unidad.

Para cada combinación de rangos de lambda y or-den auto-regresivo el mayor porcentaje de ior-dentifica- ción está sombreado si este presentó una identifica-ción mayor o igual al 68%, pues valores menores no son considerados buenos. En general los mejores métodos de identificación correcta fueron, en su or-den, el ESACF, ‘SCAN a’, AIC y ‘CM a’.

4.2 ARMA 4.2.1 AIC

Figura 15. Identificación Correcta AIC – ARMA

Este método tampoco muestra un patrón claro de sus identificaciones correctas, pero fue el que en to-tal tuvo mejores identificaciones. Su punto más alto (28%) se da en el modelo ARMA(7,2) con rango 0.9 ≤ | λi | < 0.95.

4.2.2 SCAN

Figura 16. Identificación Total SCAN a – ARMA

En la Figura 16 se hace alusión al avance del agua (0% - 40%), representado por los tonos más oscuros, consumiendo la playa; a medida que se acercan las raíces a la unidad el terreno donde se puede caminar (60% - 100%) se reduce, esto quiere decir que el mé-todo pierde capacidad de identificación, dificultando su análisis. Se identifica el patrón que se sigue cuando (orden AR) = (orden MA) + 1, en el rango 0.9 ≤ | λi | < 0.95 hay unas bajas de identificación

que luego crecen al aumentar de orden y, para el rango 0.95 ≤ | λi | < 1, las bajas son definitivas.

Rango

P AIC CMa CMb ESACF IA SCANa SCANb AIC CMa CMb ESACF IA SCANa SCANb AIC CMa CMb ESACF IA SCANa SCANb

1 12 54 14 32 6 54 44 14 98 0 0 6 98 6 36 98 0 94 4 0 0

2 16 10 4 18 6 48 2 20 0 18 0 6 98 0 28 20 2 68 8 16 0

3 2 42 0 12 8 26 0 24 0 0 0 4 2 0 36 2 0 92 2 0 0

4 4 14 0 2 4 14 0 28 2 0 72 0 0 0 18 8 0 86 0 0 0

5 2 0 0 0 0 0 0 26 8 0 62 0 0 0 50 26 0 84 0 0 0

6 0 0 0 2 0 0 0 54 4 0 60 0 0 0 38 0 0 42 0 0 0

7 0 0 0 0 0 0 0 76 22 0 44 0 0 0 16 4 0 0 0 0 0

0.9 <=|λi|< 0.95 0.95 <=|λi|< 1

0 <|λi|< 0.9

(11)

Figura 17. Identificación AR SCAN a – ARMA

Es un método que tiende a identificar como un AR puro cuando las raíces están cercanas a la unidad y los órdenes auto-regresivos son menores a 5; para el resto de las ocasiones tiende a identificar como otro modelo ARMA.

Figura 18. Identificación Correcta SCAN a – ARMA

El punto más alto de correcta identificación se dio en el modelo ARMA(1,1) con un 26%, que concuer-da con el resultado obtenido (20%) por Stadnyska, Braun & Werner en 2008, seguido de un 8% para el ARMA(2,1) ambos con rango 0 < | λi | < 0.9. El

mé-todo no es recomendable para modelos mixtos. La lectura tipo ‘b’ no fue analizada pues tuvo un comportamiento similar a la tipo ‘a’. La figura a continuación muestra los porcentajes de identifica-ción obtenidos sobre el total de identificaciones ob-tenidas.

Figura 19. Identificación Correcta por tipo de lectura SCAN – ARMA

4.2.3 ESACF

Figura 20. Identificación Total ESACF – ARMA

El método tuvo problemas para arrojar resultados cuando llegaba a modelos con raíces cercanas a la unidad y órdenes AR altos. El menor porcentaje de obtención de resultados (46%) se dio para el modelo ARMA(7,1) con rango 0.95 ≤ | λi | < 1.

Figura 21. Identificación Correcta ESACF – ARMA

En el porcentaje de correctos aciertos no hubo un patrón identificable, los porcentajes más altos fueron 38% y 18% para modelos ARMA(1,1) con rango

0 < | λi | < 0.9 y ARMA(2,1) con rango

0.95 ≤ | λi | < 1 respectivamente.

Figura 22. Identificación Diferente ESACF – ARMA

Es un método que tiende a identificar con otro ti-po de modelo ARMA (<>).

4.2.4 CM

Este fue un método que a pesar de no acertar siempre en el orden p identificó un 99.7% de las

(12)

ve-ces un modelo auto-regresivo puro. Curiosamente para los tres rangos las mejores identificaciones se dan para los modelos con q=1. La identificación co-rrecta más alta (28%) se obtuvo para los ARMA(4,1) con rango 0.95 ≤ | λi | < 1 seguido por el modelo

ARMA(1,1) de rango 0 < | λi | < 0.9 con 26%.

Figura 23. Identificación Correcta CM a – ARMA

La lectura tipo ‘b’ tuvo una tercera parte de la identificación correcta de la lectura tipo ‘a’, así que no fue analizada. Pero se observó que en este méto-do el tipo de lectura influyó en el tipo de identifica-ción AR y de diferente modelo.

Figura 24. Identificación Correcta por tipo de lectura CM – ARMA

4.2.5 ECM

Figura 25. Identificación Correcta ECM – ARMA

Sus mejores identificaciones se dan cuando los órdenes AR y MA son iguales, como por su concep-ción este método no puede identificar modelos con p o q iguales a cero el resto de identificaciones son de otros modelos ARMA (<>). Su mejor identificación

se da para el modelo ARMA(1,1) con rango

0 < | λi | < 0.9 de 74% seguido por un éxito de

iden-tificación de 50% para el mismo modelo con rango 0.95 ≤ | λi | < 1.

4.2.6 IA

Figura 26. Identificación Correcta IA – ARMA

Este método tampoco tuvo un buen desempeño en los ARMA, es más, fue el peor método. La identifi-cación correcta más alta fue de 8%.

4.2.7 Observaciones Generales

Figura 27. Identificación Correcta por método – ARMA

En la gráfica anterior se muestran los resultados resumidos de las identificaciones por métodos. El método AIC fue el que más identificaciones correc-tas obtuvo, pero esto no se traduce en que sea un buen método de identificación; además sus identifi-caciones correctas estuvieron repartidas por todas las posibles combinaciones de límites y órdenes, es de-cir, que no es específicamente sobresaliente en algu-na de ellas.

5 CONCLUSIONES

Los métodos aquí evaluados no identificaron co-rrectamente las series puramente Auto-regresivas cuyos valores absolutos de las raíces eran menores a

(13)

0.9, la mejor identificación fue de 54%. Las series con raíces cercanas al círculo unitario fueron correc-tamente identificadas por el método ‘SCAN a’ cuan-do se trataban de órdenes pequeños (1-2), el métocuan-do ‘ESACF’ fue el que obtuvo el mejor desempeño de correcta identificación para los siguientes órdenes (3-5); y el método ‘AIC’ fue el más alto para raíces en el rango [0.9,0.95) de orden 7. Las series mixtas ARMA no tuvieron un método que las identificara correctamente con un alto porcentaje, sólo el 76%

obtenido para series ARMA(1,1) con rango 0 < | λi | < 0.9 por EMC.

Para trabajo futuro se propone un análisis a nue-vos algoritmos de lectura de las tablas arrojadas por los métodos, pues como se evidencia en el Corner Method, el tipo de lectura invirtió los resultados de identificación AR y ARMA; puede ser que aquí ra-dique la ineficiencia.

BIBLIOGRAFÍA

Abo-Hammour, Z. S., Alsmadi, O. M., & Al-Smadi, A. M. (2010). A Novel Technique for ARMA Modelling with Order and Parameter Estimation Using Genetic Algorithms.

NDT 2010, 564-576.

Al-Smadi, A. (2009). Automatic identification of ARMA.

International Journal of General Systems, 29-41.

Cadzow, J. A., Liang, G., & Wilkes, M. (Octubre de 1993). ARMA Model Order Estimation Based on the Eigenvalues of the Covariance Matrix. IEEE Transactions on signal processing, 41(10), 3003-3009.

Chan, W.-S. (1999). A comparison of some of pattern identification methods for order determination of mixed ARMA models. Statistics & Probability letters, 69-79.

Choi, B. (1992). ARMA model identification. Nueva York: Springer.

Gilbert, R. (1987). Statistical Methods for Environmental Pollution Monitoring. John Wiley & Sons.

Ong, C.-S., Huang, J.-J., & Tzeng, G.-H. (2005). Model identification os ARIMA family using genetic algorithms.

Applied Mathematics and Computation, 885-912.

Sakamoto, Y., Ishiguro, M., & Kitagawa, G. (1988). Akaike Information Criterion Statistics. Journal of the American Statistical Association, 83(403), 902-926.

Sreenivasan, M., & Sumathi, K. (1998). Innovation Algorithm in ARMA Process. Korean Journal of Computational and Applied Mathematics, 5(2), 331-340.

Stadnytska, T., Braun, S., & Werner, J. (2008). Comparison of automated procedures for ARMA model identification.

Behavior Research Methods, 250-262.

Stekler, H. (2007). The future of macroeconomic forecasting: Understanding the forecasting process. International journal of forecasting, 237-248.

Sumathi, K., & Sreenivasan, M. (1997). Generalised

Parameters technique for identification of seasonal ARMA (SARMA) and non seasonal ARMA (NSARMA) models.

Korean J. Comp. & Appl. Math, 135-146.

Tiao, G. C., & Tsay, R. S. (Marzo de 1984). Consistent Estimates of Autoregressive Parameters and Extended Sample Autocorrelation Function for Stationary and Nonstationary ARMA Models. Journal of the American Statistical Association, 79(385), 84-96.

Tiao, G., & Tsay, R. (1985). Use of Canonical Analysis in Time Series Model Identification. Biometrika, 72(2), 299-315.

Wei, W. W. (2005). Time series Analysis. Univariate and Multivariate Methods. Pearson Education, Inc.