Método combinado propuesto para el ajuste estacional

Capítulo 2. Método propuesto

2.1. Método combinado propuesto para el ajuste estacional

De acuerdo al punto 2 de los aspectos a considerar para elegir el método de ajuste estacional (Eurostat 2015 [20]), es importante considerar las características de los patrones estacionales de las series componentes del indicador agregado. Con respecto a este punto, en la literatura concerniente al tema del ajuste estacional directo e indirec- to [3,15,20,22,43] se suele mencionar que si las series componentes no tienen patrones similares, se recomienda usar el método indirecto. De lo contrario, si las series tienen patrones estacionales parecidos y coinciden en los picos y valles del factor estacional, se prefiere el enfoque directo; en este caso, la agregación producirá una serie más suave sin pérdida de información sobre el patrón estacional.

“Si el ajuste directo o indirecto es o no mejor para un conjunto de series dado depende del conjunto de series en cuestión. En términos generales, cuando las series que componen la serie agregada tienen patrones estacionales bastante distintos y tienen ajustes de buena calidad, el ajuste estacional indirecto suele ser de mejor calidad que el ajuste directo. Sin embargo, cuando las series componentes son ruidosas pero tienen pa- trones estacionales similares, sumar las series puede resultar en la cancelación de ruido, y el ajuste estacional directo generalmente es de mejor calidad que el ajuste indirecto. En

otras situaciones, no está claro a priori qué ajuste será mejor."[26]

Por otro lado, el punto 4, en el que se menciona considerar el nivel de corte para el método indirecto, tiene que ver con el hecho de que si se utilizan los indicadores más desagregados como base para derivar indirectamente todos los indicadores agregados subsecuentes, esto puede derivar en estacionalidad residual en los agregados y series desestacionalizadas menos suaves y más propensas a revisiones [22]. Por ello se sugiere considerar un nivel de corte intermedio para el método indirecto, es decir, efectuar un ajuste directo hasta cierto nivel de agregación y de ese nivel en adelante utilizar el enfoque indirecto; el criterio para definir este nivel de corte es una cuestión abierta y generalmente está ligado al diseño conceptual en la estructura de clasificación de los indicadores.

En este trabajo se propone utilizar las características de los patrones estacionales de los indicadores desagregados como criterio para definir el nivel de corte en el método indirecto. Se puede esperar que en un conjunto de series que componen a un indicador agregado, algunas presenten patrones estacionales similares y otras patrones diferentes, sobre todo en el caso de los indicadores agregados compuestos por varias series componentes. Por ello se propone realizar el ajuste estacional de los indicadores agregados mediante un enfoque combinado que consiste en:

1. Agrupar las series que componen al indicador agregado de acuerdo a las que exhiban patrones estacionales similares (estos grupos definirían el nivel de corte para el método indirecto) y realizar un ajuste estacional directo en cada grupo formado.

2. Agregar los resultados desestacionalizados de los grupos formados en el punto 1, para obtener así la serie desestacionalizada del indicador agregado mediante un ajuste indirecto.

Como se mencionó en la sección de estado del arte en el ajuste estacional de indicadores agregados (ver 1.2.2), Buono e Infante (2015 [9]) plantearon un enfoque mixto, cuya idea subyacente es la misma que la del enfoque combinado que se presen- ta aquí, donde para determinar si las series componentes presentan patrones estacio-

nales similares y formar las agrupaciones, proponen el uso de pruebas ANOVA sobre las series correspondientes al factor estacional-irregular. El uso de pruebas estadísti- cas para definir las agrupaciones (en [9] se propone el uso de la prueba de compara- ción múltiple de Tukey) puede volverse complicado conforme el número de series que componen al indicador agregado es mayor ya que las comparaciones entre series se realizan de dos en dos y los resultados de las pruebas no necesariamente serán siem- pre transitivos, entonces en estos casos puede complicarse definir los grupos.

En este trabajo se propone mejor utilizar técnicas de clustering para determinar si las series que componen al indicador agregado presentan patrones estacionales similares y formar las agrupaciones. El clustering es uno de los métodos más comunes de aprendizaje no supervisado y tiene como objetivo identificar de forma automática grupos (o clusters) de elementos en un conjunto de datos basándose en una medida de similitud (ver sección 1.3). En este caso, el clustering se aplicará directamente sobre las series de tiempo correspondientes a los patrones estacionales de cada indicador des- agregado; estas series ya están preprocesadas puesto que son estacionarias³⁰y libres de «ruido»³¹.

A priori se desconoce el número de grupos que se formará en cada indicador agregado, ya que esto depende de la cantidad de series que lo componen y de las ca- racterísticas de sus patrones estacionales, razón principal por la que se decidió utilizar el clustering jerárquico, bajo un esquema aglomerativo (ver Algoritmo 1); además, la visualización en forma de dendrograma que se obtiene mediante este análisis servirá como base para definir el nivel de corte en el método indirecto.

Recordando del Capítulo 1 (sección 1.1.1), una serie de tiempo, Y_t, se puede descomponer en la tendencia-ciclo,T_t , el factor estacional,E_t, el factor irregular,I_T, y el factor de calendario,C_T, y estos componentes se pueden relacionar mediante un modelo aditivo (ver 1.1) o un modelo multiplicativo (ver 1.2), siendo este último el más

30En el Anexo III se pueden consultar los resultados de la prueba de Dickey-Fuller aumentada (ADF) que se aplicó sobre las series de tiempo correspondientes a los patrones estacionales para verificar que fueran estacionarias (media y varianza constante en el tiempo).

31Al realizar la descomposición de series de tiempo, el componente irregular es el que contiene los outliers y los valores extremos, por lo que se puede asegurar que el patrón estacional está libre de «ruido».

común para series de tiempo económicas. Entonces, se define elpatrón estacionalde las series de tiempo comoS_t =E_t∗C_t, es decir, la combinación del factor estacional y el factor de calendario, este último únicamente en los casos de que las series presenten este tipo de efectos. Así, el patrón estacionalS_t englobará todas las variaciones regulares o sistemáticas de las series.

2.1.1. Medida de similitud utilizada

En la sección 1.3.2 del Capítulo 1 de este trabajo se presentaron algunas de las medidas de similitud más utilizadas para medir la distancia entre series de tiempo y se men- cionó que la elección de la distancia adecuada dependerá de las características de las series de tiempo, su método de representación y el objetivo del clustering. En este caso se busca agrupar patrones estacionales,S_t, similares en el sentido de que coincidan los picos y valles de los patrones en el tiempo. Por ello, se eligió utilizar la distancia basada en el coeficiente de correlación (ver 1.12), la cual es muy útil cuando la defi- nición de similitud se hace en términos de patrón o forma y no de desplazamiento o magnitud [2].

Debido a que los patrones estacionales cambian con el tiempo³²y la medida de distancia expresada en 1.12 está basada en un coeficiente de correlación estático, se propone utilizar correlaciones móviles (rolling correlation), ya que se espera que éstas capturen de mejor forma la naturaleza dinámica de los patrones estacionales³³.

Las correlaciones móviles se obtienen aplicando la técnica derolling windowso ventanas móviles al cálculo del coeficiente de correlación, es decir, se realiza el cálculo del coeficiente de correlación de Pearson sobre plazos de tiempo más cortos (que se denominan ventanas) a la longitud total de la serie de tiempo, estos plazos se toman

32El método X-11 utilizado para llevar a cabo la descomposición de las series de tiempo, se basa en la aplicación iterativa de un conjunto de filtros lineales predefinidos para ajustar la serie (ver sección 1.1.4). Estos métodos suponen que los componentes de la serie temporal cambian a través del tiempo de manera no determinista. Este cambio suele ser suave y gradual.

33Cabe señalar que previo al cálculo de las correlaciones entre los patrones estacionales, se aplicó la prueba aumentada de Dickey Fuller sobre todas las series para verificar que éstas fueran estacionarias y asegurar que no existan problemas de correlaciones espurias en los resultados. Los resultados obtenidos se pueden consultar en el Anexo III.

de una manera sucesiva y superpuesta en términos temporales. En fórmula, se puede definir la correlación móvil para la ventanai de la siguiente manera:

rm_i(Xt,Yt)=

P_m−1+i

t=i (xt−Xt)(yt−Yt) q

P_m−1+i

t=i (xt−Xt)² q

P_m−1+i

t=i (yt−Yt)²

(2.23)

donde m indica la longitud de la ventana e i es el índice de la ventana, tal quei ∈ {1, ...,T–m+1}, siendoT la longitud total de la serie de tiempo y suponiendo que el incremento eni entre ventanas sucesivas es de uno.

De esta forma, la medida de distancia utilizada, basada en las correlaciones mó- viles, se puede escribir en fórmula de la siguiente manera:

dRol l_C or rm(Xt,Yt)=1−

T–m+1

i=1

rm_i(Xt,Yt)

T–m+1 (2.24)

Para determinar la longitud,m, de las ventanas se tomó en cuenta el filtro estacional final utilizado para separar el factor estacional del componente irregular en el algoritmo de descomposición X-11 (ver 1.1.4.2). Se estableciómigual a la longitud del filtro estacional de mayor frecuencia en los modelos utilizados para obtener el ajuste estacional directo de las series a agrupar. Los principales filtros estacionales que se aplican con el algoritmo X-11 son³⁴:

- M_3×3, que es un promedio móvil compuesto que abarca 5 años.

- M_3×5, que es un promedio móvil compuesto que abarca 7 años.

- M₃_×₉, que es un promedio móvil compuesto que abarca 11 años.

El tipo de enlace olinkageque se aplicó es el completo (ver 1.17) ya que se puede utilizar con cualquier distancia, genera dendrogramas más compensados, tiende a construir clusters pequeños y compactos, además de que la interpretación de la altura del dendrograma en la que se da la unión de diferentes clusters resulta muy intuitiva con este tipo de enlace.

34Un filtro corto se utiliza cuando el patrón estacional está cambiando muy rápido, mientras que uno más largo implica un patrón estacional muy estable o que el componente irregular de la serie es muy grande.

2.1.2. Selección del número de clusters

Dado que no se conoce a priori el número de grupos o clusters que se formarán en cada conjunto de series, se hace uso del dendrograma generado con el clustering jeráquico, así como de la técnica presentada en la sección 1.3.3.3, que es una variante del «Método del codo» (Elbow Method)³⁵, para decidir el número de clusters.

Además, se propone utilizaranálisis de componentes principales(PCA, por sus siglas en inglés) como herramienta adicional para validar el número de clusters [54].

El PCA es una técnica estadística utilizada para describir un conjunto de variables en términos de nuevas variables («componentes») no correlacionadas; los componentes se ordenan por la cantidad de varianza original que describen.

Debe tenerse en cuenta que al aplicar el PCA en series de tiempo, cada serie de tiempo, Xt , representará una sola característica o variable³⁶. En este caso el PCA se aplicará sobre las series de tiempo correspondientes a los patrones estacionales que se pretenden agrupar con el clustering, con el fin de validar el número clusters tomando en cuenta la varianza acumulada explicada por las componentes resultantes no correlacionadas.

Para llevar a cabo el ajuste estacional directo e indirecto se utiliza el método X- 11 (1.1.4) y el software X-13ARIMA-SEATS³⁷. El análisis de clustering jerárquico se realiza utilizando las funciones del paquete cluster.hierarchy de la librería SciPy de Python.

El análisis de componentes principales se lleva a cabo utilizando la librería de Sklearn de Python.

35Una técnica que se puede utilizar para definir el nivel de corte en el dendrograma es una variante del «Método del codo» (Elbow Method) [56], la cual consiste en encontrar el paso en la jerarquía de agrupaciones donde la aceleración del crecimiento de la distancia es la mayor.

36Hay algunas reglas generales que deben tenerse en cuenta al aplicar PCA a series temporales. En primer lugar, cada serie de tiempo,X_t, debe representar una sola característica o variable, es decir, los objetos representan los valores de una serie de tiempo dada en cada intervalo de tiempo, y la caracte- rística en sí representa la serie de tiempo completa. Con respecto al formato de la matriz de datos, si las columnas representan características o variables, y las filas representan objetos, cada serie de tiempo formará una sola columna. Entonces, la matriz de datosXtendrá dimensionest×n, dondetes el nú- mero de periodos de tiempo (filas) ynes el número de series de tiempo que se evalúan (columnas). Para más información referirse a [42].

37X-13ARIMA-SEATS es un software de ajuste estacional generado y distribuido por el Buró de Censos de los Estados Unidos, ampliamente utilizado a nivel mundial en las oficinas de estadística oficial. Se puede descargar gratuitamente en: www.census.gov/srd/www/x13as/

In document SERIES DE TIEMPO” (página 58-64)