Series cronológicas de lluvia en la cuenca Sagua la Chica Modelos y pronósticos

Texto completo

(1)Universidad Central de las Villas Facultad de Matemática Física Computación Series Cronológicas de lluvia en la Cuenca Sagua la Chica. Modelos y pronósticos. Tesis de Pregrado: Presentada por: Magda Pérez Monteagudo Dirigida por: Dr. Ricardo Grau Ábalo. Julio del 2007 Santa Clara.

(2) RESUMEN. El presente trabajo estudia el comportamiento de las series cronológicas de precipitaciones de la Cuenca Hidrológica Sagua la Chica, a partir de una base de datos con que cuenta la empresa de Investigaciones de Proyectos Hidráulicos para la realización de los gráficos de despacho, Se logran modelos matemáticos del tipo ARIMA y se realizan pronósticos a corto plazo en base a los mismos. Un aporte importante desde el punto de vista práctico es el nuevo trabajo con los regresores dado que se ha cambiado la teoría de introducirlos en las series. Los resultados fundamentalmente son dados en tablas resúmenes y gráficos. La metodología usada es la de Box-Jenkins para series y el software utilizado es el SPSS.13.. ABSTRACT In this work we study the time series related to rain in the hydrological basin of Sagua la Chica, from a data base collected by the Researching Institute of Hydraulic Projects. These data for dispatching the water. ARIMA models for these series are obtained and then, short-term predictions about water capacity are possible. From the practical point of view, it is interesting in this work a new form of working with independent variables because the theory about how to introduce them in the series has changed. Results are shown in tables and graphics. Box-Jenkin´s Methodology for ARIMA models and the software SPSS 13 are used..

(3) Introducción...................................................................................................................... 1 CAPITULO I .................................................................................................................... 7 Conceptos básicos relativos a los modelos regulares ARIMA......................................... 7 1.2 Introducción............................................................................................................ 7 1.3 Conceptos básicos de series de tiempo................................................................... 8 1.3.1 Series Estacionarias. ............................................................................................ 9 1.3.2 Funciones de Autocorrelación. .......................................................................... 10 1.3.3 Disturbio aleatorio o ruido blanco. ................................................................ 12 1.3.4 Camino Aleatorio. ......................................................................................... 13 1.4 Procesos Autorregresivos. .................................................................................... 14 1.4.1 Series Autorregresivas de Primer Orden ....................................................... 15 1.4.2 Serie Autorregresiva de orden p ................................................................... 16 1.5 Series de Medias Móviles..................................................................................... 17 1.5.1 Series de media móvil de primer orden. ........................................................ 17 1.5.2 Series de medias móviles de orden q............................................................. 18 1.6 Procesos ARMA(p, q) .......................................................................................... 22 1.6.1 Procesos ARMA (1.1) ................................................................................... 22 1.6.2 Serie ARMA(p,q). ......................................................................................... 23 1.6.3 Notación de operadores de un proceso ARMA. ............................................ 24 1.7 Procesos no estacionarios ................................................................................. 26 1.7.1 Proceso de diferenciación.............................................................................. 26 1.7.2 Procesos ARIMA........................................................................................... 27 1.8 Complementos teóricos: estimación, diagnóstico y pronóstico en modelos ARIMA....................................................................................................................... 30 CAPITULO II................................................................................................................. 36 Metodología de Box-Jenkins para Series Regulares ARIMA. Tratamiento de Regresores ........................................................................................................................................ 36 2.1 Introducción.......................................................................................................... 36 2.2 Fases del proceso de modelación ARIMA ........................................................... 36 2.3 Los procesos iterativos en la Metodología de Box-Jenkins ................................. 37 2.4 El modelo ARIMA estacional. Generalización de la metodología de Box-Jenkins a series estacionales. ................................................................................................... 41 2.5 Análisis de intervención y tratamiento de outliers ............................................... 46 2.5.1 Análisis de intervención con modelos ARIMA............................................. 46 2.5.2 Introducción de regresores en modelos con diferenciación........................... 48 2.5.3 Primitiva regular y estacional de una función pulso...................................... 51 2.5.4 Primitiva estacional de una función pulso unitario. ...................................... 51 2.5.5 Primitivas de otros regresores posiblemente necesarios................................ 53 Capitulo III ..................................................................................................................... 55 Análisis de los pluviómetros por modelación ARIMA. ................................................. 55 3.1 Introducción...................................................................................................... 55 3.2 Modelación del pluviómetro 401.......................................................................... 55 3.2.1Modelo básico para el pluviómetro 401 ......................................................... 56 3.2.2 Análisis de los outliers en la serie del pluviómetro 401. ............................... 65 3.2.3Modelo Final del Pluviómetro 401................................................................. 69 3.3 Modelación del Pluviómetro 980 ......................................................................... 71 3.4 Resultado de los modelos matemáticos de los pluviómetros 940, 357, 389, 396. 79 3.4.1 Modelo matemático del tipo ARIMA del pluviómetro 940. ......................... 79 3.4.2 Modelo matemático del tipo ARIMA del pluviómetro 357. ......................... 79 3.4.3 Modelo matemático del tipo ARIMA del pluviómetro 389. ......................... 80.

(4) 3.4.4 Modelo matemático del tipo ARIMA del pluviómetro 396. ......................... 80 3.5 Conclusiones del capítulo..................................................................................... 81 Conclusiones y recomendaciones................................................................................... 82 Recomendaciones .......................................................................................................... 82 Bibliografía....................................................................................................................... 1 ANEXOS .......................................................................................................................... 3.

(5) Introducción. Introducción Uno de los mayores retos del hombre moderno es racionalizar los recursos naturales de los cuales ha dependido desde su surgimiento como especie. Uno de tales recursos indispensables para la vida es el agua, la cual con el crecimiento de la población y las actividades del hombre, requiere de una administración. El desarrollo alcanzado en la actualidad, la necesidad de explotar dicho recurso y la necesidad de una mejor distribución ha generado un sin número de estudios al respecto.. Decimos que un embalse tiene como finalidad entre otras cosas, el almacenamiento del agua para el abasto a la población, la agricultura, la acuicultura, la industria, etc. Controlar y pronosticar la capacidad de agua almacenada es al parecer un problema muy sencillo pero veamos que no lo es, y como se puede aplicar la matemática en el mismo. En nuestro territorio se lleva a cabo un minucioso monitoreo de las precipitaciones, por parte de las entidades involucrada con los recursos hidráulicos, particularmente de la Empresa de Investigaciones y Proyectos Hidráulicos EIPH, en la cual existen datos almacenados referente a los embalses, escurrimiento, entrega de agua, pérdidas en el embalse, todos ellos muy ligados con el régimen de precipitaciones del territorio. Esta entidad cuenta con datos pertenecientes a precipitaciones de cerca de cien años de antigüedad, fundamentalmente desde el 1949, y con mayor precisión desde 1964, año en se creó la red de Institutos de Proyectos Hidráulicos. Estos datos pueden brindar la información necesaria para pronosticar el régimen de las lluvias en años venideros.. La entrega del agua a los distintos usuarios depende del volumen del embalse, si se llega a una cota mínima se restringe la distribución. Una característica fundamental que hay que tener en cuenta en un embalse son las diferentes mediciones de volumen. Se llama VTM al volumen total máximo, LSEG denota la línea superior de entrega garantizada, mientras que LIEG es la línea inferior de entrega garantizada. Además VME denota el volumen máximo de explotación. A continuación se incluye una gráfica de un embalse que ayuda a comprender los diferentes volúmenes.. 1.

(6) Introducción. La empresa EIPH construye los llamados gráficos de despachos con los datos de lluvia para saber el comportamiento del volumen de agua del embalse y así su mejor distribución; se puede observar que NM: es el nivel mínimo; LIEG: linea inferior de entrega garantizada; LIEG: línea inferior de entrega garantizada; NAN: nivel de agua normal; para los diferentes niveles de agua se tiene en consideración el abasto de agua para los diferentes clientes. Si se tuviera un pronóstico de lluvia a corto plazo en la región, se podrían hacer los gráficos de despacho con antelación y tener estimaciones bastante segura de como sería el comportamiento de la distribución del agua a los diferentes clientes. Para poder modelar y. garantizar un eficiente uso del agua se debe conocer las. características de las fuentes de abasto naturales de la región en estudio. Las precipitaciones son las principales abastecedoras de los ríos y embalses, por lo tanto su pronóstico se hace necesario para poder planificar el uso del agua que se puede distribuir.. Se pretende con este trabajo realizar una modelación mediante series cronológicas que sirvan para pronosticar las precipitaciones en la zona comprendida en diferentes municipios de la provincia: Cifuentes, Encrucijada, Santa Clara, Camajuaní, Remedios, Placetas y Manicaragua donde se cuenta con la información recogida por diferentes pluviómetros. En este trabajo se seleccionaron por la empresa los pluviómetros denominados por los códigos: 357, 389, 396, 940, 401, 980 específicamente por las características hidrológicas que presenta la región que ellos abarcan. Se puede ver la gráfica de la región con la ubicación del total de los pluviómetros y en particular los seleccionados.. 2.

(7) Introducción. No existen antecedentes de modelación de series cronológicas de lluvia en esta Cuenca o una similar; pero existen trabajos de series temporales de precipitaciones en la provincia de Villa Cara y otras del país, y en general hay antecedentes de modelación matemática de series meteorológicas. Entre ellos se destaca “El pronóstico de lluvias totales anuales para un pequeña zona de la actual provincia de Cienfuegos” (Fernández, 1983). Por otra parte el trabajo de Truzov, Izquierdo y Díaz (Truzov, Izquierdo y Díaz 1983) demostró que el logro de pronósticos en especial para la lluvia, esta condicionado por un conocimiento preciso del régimen ocurrencia de la misma. No obstante el conocimiento logrado en estos trabajos, si bien valiosos, dejan ciertas lagunas a llenar por lo que (Cárdenas, 1900) emprende una modelación estadística. climatología de los totales de precipitaciones y algunas variables. asociadas a las mismas. Posteriormente, debido al periodo especial,. problemas. técnicos y cambios en la estructura organizativa del principal cliente, el Ministerio de Azúcar (MINAZ), se pierde la operatividad de estos últimos modelos. Otro intento de modelar la precipitación se realizo por (Analidia, 1994) donde se logran buenos resultados en el pronóstico a corto plazo, pero estos resultados no se introdujeron en la práctica quedando solo con un valor teórico.. 3.

(8) Introducción. En cuanto a otras variables metereológicas, en particular las temperaturas, es necesario citar a (Lecha, 1989), que realizó un trabajo muy completo donde se relacionan los trabajos que en Cuba han profundizado en el estudio del régimen térmico. En el mismo se enseña la necesidad de usar métodos de investigación más precisos para reflejar las pequeñas oscilaciones y los cambios en las condiciones climáticas. Además se logra una tipificación y descripción del régimen térmico cubano, quedando una importante herramienta de trabajo metodológico. Sin embargo no se realiza pronósticos de esta variable, ni se estudia la posible tendencia de la misma. Los primeros intentos de pronóstico estadísticos de temperatura extremas se realizaron por (Anido, inédito) a mediados de la década de 1950, con ecuaciones deducidas empíricamente. Otros investigadores (Naranjo y L.Lecha, inédito) obtuvieron ecuaciones de pronósticos, también para Santa Clara, a partir de datos locales de superficies, utilizando métodos de correlación lineal. En atención a estos trabajos (Arnaldo, 1986) obtiene pronósticos de temperaturas extremas para la Isla de la Juventud, principalmente de forma diaria, para un estación. En 1992 en la provincia de Villa Clara se obtuvieron resultados interesantes en el pronóstico de temperaturas extremas decenales (Osés R, y Cárdenas P, 1992, inédito) utilizando la regresión múltiple. En este se concluye que debía utilizarse una muestra en particular para la obtención de las ecuaciones, ya que en definitiva, con una sola ecuación podía explicarse la variación de cualquier decena. Nos obstante debido a escasez de equipos de computo, a la lentitud en la recogida de la información, así como a limitaciones dentro del periodo especial, no se pudo implementar regularmente este pronóstico. En este desenlace influyó significativamente el difícil manejo de gran cantidad de predictores climáticos que fallaban, al desaparecer el equipo que los media, y al no existir sustitutos para ello, o por la baja calidad de instrumentos pobremente calibrados, o sea, por la calidad de estos datos. Otro trabajo sobre serie de tiempo meteorológicas es el de (Morales, 2007).. Las dificultades prácticas en la obtención de múltiples variables para el pronóstico, por ejemplo de la lluvia abrieron el camino a la búsqueda de nuevos métodos, entre ellos los modelos Autoregresivos Integrados y de Media Móvil (ARIMA) los cuales no han sido explotados suficientemente.. 4.

(9) Introducción Se puede concretar entonces el siguiente problema de investigación. Problema La Empresa de Recursos Hidráulicos (EIPH) dispone de suficiente información acumulada durante años sobre el comportamiento de las precipitaciones pero no ha logrado utilizar con eficiencia esta información, para realizar pronósticos (a corto plazo) apoyada en modelos matemáticos y herramientas perfectamente operacionales, que contribuya a la elaboración con antelación de los gráficos de despachos. Esto conduce a la siguiente interrogante: ¿Es posible con la información existente en el departamento de Hidrología de la Empresa de Proyectos Hidráulicos, lograr modelos matemáticos tipo ARIMA para las series de lluvia de la cuenca hidrológica Sagua la Chica y en base a los mismos, hacer pronósticos a corto plazo que ayuden a una mejor precisión de la planificación de entrega de agua a los diferentes clientes?. Se tienen las siguientes preguntas de investigación adicionales:. ¿Cómo incluir en el modelo los datos ¨picos¨ de precipitaciones ocasionalmente muy altas y que representan “outliers” desde el punto de vista del comportamiento general de la serie?. ¿Se obtienen modelos diferentes en las series de datos de todos los pluviómetros, o algunos son totalmente similares y hasta podría prescindirse de sus datos en el control?. Objetivo General Modelar matemáticamente las series cronológicas de lluvias existentes en la Empresa de Investigaciones de Proyectos Hidráulicos utilizando la Metodología de Box-Jenkins para series ARIMA y en base a los modelos hallados, hacer pronósticos confiables a corto plazo.. Objetivos Específicos 1. Obtener modelos ARIMA para las series de datos correspondientes a cada pluviómetro.. 5.

(10) Introducción 2. Mejorar los modelos con tratamientos de los outliers de lluvia usando regresores 3. Analizar la posibilidad de igualdad de los modelos de diferentes pluviómetros. El presente trabajo consta de tres capítulos. El primero estará dedicado al marco teórico. En el se brindan elementos acerca de los conceptos básicos de series de tiempo, de los procesos autorregresivos y series de media móvil, los procesos ARMA y los no estacionarios. El segundo capítulo se habla de la metodología de Box-Jenkins para series regulares ARIMA, se hará alusión al análisis de intervención y tratamiento de outliers así como los procesos ARIMA estacionales. Se hará énfasis en el tratamiento de los regresores, problema que hasta ahora no siempre fue tratado con la delicadeza suficiente, pues como se va a mostrar, es fácil cometer errores al introducir estos en la serie En el tercer capítulo se expondrá con todo detalle y por pasos la modelación de las series cronológicas de lluvia con los pluviómetros mas significativos desde el punto de vista hidrológico en la cuenca, en este caso los pluviómetros 401 y 980. los modelos finales de todos los pluviómetros.. 6.

(11) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. CAPITULO I Conceptos básicos relativos a los modelos regulares ARIMA. 1.2 Introducción. Una serie de tiempo o serie cronológica es una colección de valores de una cierta variable aleatoria medidos a intervalos regulares de tiempo. El objetivo del análisis de tal serie es llegar a describir la variable como cierta función del tiempo que permita analizar con detalles el pasado y hacer pronósticos futuros. El análisis de las series de tiempo se aplica en muchos campos. En economía, por ejemplo, se utilizan las series de tiempo en el control de la calidad, para estudiar índices de precios, desempleo, producto nacional bruto, población… En ciencias naturales se usan por ejemplo, para estudiar el nivel de agua en un río o presa, los parámetros meteorológicos, las medidas de poblaciones naturales (vegetales o animales). En biología surgen naturalmente en modelos de crecimiento, en epidemiología juegan un papel fundamental en la vigilancia de enfermedades infecciosas o no transmisibles, así como en el estudio cronológico del desarrollo de factores de riesgo. En las ciencias sociales representan un campo entero en sí mismo. El estudio de las series de tiempo no se pueden abordar sólo con las técnicas básicas de regresión, porque en la mayoría de los casos, los valores de la serie en diferentes instantes de tiempo están autocorrelacionados como consecuencia de que el valor en cada momento depende muy frecuentemente de los valores o de la variabilidad de los valores en instantes anteriores. Las situaciones más complicadas se producen cuando dependen además de períodos similares del tiempo anterior, con ciertas estacionalidad. Además, la regresión puede ser buena para pronosticar, más estrictamente interpolar valores de la variable dependiente sobre valores de la(s) variable(s) independientes que no han sido medidos, pero que están cerca del centroide de los datos. Fuera del entorno de este centroide, la regresión no produce buenas predicciones, porque el intervalo de confianza de las predicciones de la regresión se amplia notablemente. Esto significa que si la variable independiente es el tiempo, la regresión puede servir para reconstruir un valor intermedio de la función en un tiempo cercano a la media del intervalo de datos, pero no puede ser utilizada para predecir el futuro ni reconstruir el pasado. 7.

(12) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. Los datos de una serie de tiempo son datos horizontales (dependientes) pero usualmente tenemos una sola muestra de ellos (digamos, un solo caso) La única alternativa que nos brindan los modelos de la estadística clásica sería el de la regresión respecto al momento (tiempo); pero ya se comentaron los inconvenientes de la regresión para ello. Esto estimuló que se desarrollaran teorías matemáticas y procedimientos prácticos generales orientados especialmente al estudio de series cronológicas. Por ejemplo, la metodología de Box-Jenkins es válida para el análisis de un conjunto bastante amplio de series y está fundamentada en una sólida teoría matemática de los modelos llamados ARIMA. Además se adaptaron o condicionaron otras teorías, por ejemplo de la regresión, para el estudio de correlación de series multivariadas, la teoría del análisis espectral para el estudio de series de tiempo periódicas, conceptos básicos de funciones generalizadas para el tratamiento de “outliers” (valores fuera de la serie). Este capítulo a presentar los conceptos básicos que fundamentan la metodología general de Box-Jenkins para la modelación de series ARIMA. Dicha metodología de Box-Jenkins puede ser formulada con bastante independencia de los argumentos matemáticos que la fundamentan; pero evidentemente, algunos conceptos son importantes y el desarrollo teórico de algunos resultados no sólo permite comprender mejor el fundamento, sino que dan más claridad para la aplicación práctica. Se comienza esbozando algunos conceptos generales relativos a series de tiempo y en particular a series de tiempo autorregresivas y de medias móviles. En una primera lectura de este capítulo, en particular de los tres primeros epígrafes podemos concentrarnos. en. las. definiciones,. notaciones. y. resultados,. obviando. las. demostraciones. Ello bastará para comprender lo sucesivo.. 1.3 Conceptos básicos de series de tiempo. Formalmente hablando, una serie de tiempo puede ser definida como una colección de variables aleatorias. {xt , t ε T } donde. T es un conjunto de índices,. normalmente el conjunto de los números naturales: T = {1, 2, 3, L , n}. Esta definición no deja quizás claro que los valores de t representan momentos equidistantes de tiempo; pero podemos tenerlo presente en la mayoría de los problemas prácticos. En cualquier caso:. 8. Con formato: Numeración y viñetas.

(13) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. Una realización o muestra de una serie es una colección finita de valores concretos de la variable en intervalos de tiempo regular: ( x1 , x 2 , L , x n ) a partir de los cuales queremos precisar la forma en que xt depende del tiempo t, esto es, describir la función S tal que: xt = S (t ) para todo t ε T La definición formal permite en cambio varias generalizaciones que son importantes teórica y prácticamente. Por ejemplo: •. el conjunto T de índices puede ser el conjunto Z = {0, ± 1, ± 2, L} de los números enteros y esto es importantes porque los desarrollos teóricos exigen trabajar con series definidas para valores negativos de t.. •. el conjunto T de índices puede ser un conjunto de la cardinalidad del conjunto. Esta generalización se ajusta más propiamente al carácter continuo del tiempo. En efecto, si pensamos por ejemplo que xt representa el nivel de agua en una presa en el instante de tiempo t, xt es una función continua de t. Otra cosa es que una realización de esta variable se obtenga por mediciones diarias. a una hora fijada, por ejemplo, o a cada hora durante varios días, si se quiere hacer un estudio más detallado. Los resultados de estos dos estudios con muestras diferentes, pueden ser por supuestos distintos. La caracterización teórica de una serie de tiempo determinar la distribución de xt para cada. {xt , t ε T }. requiere no solo. t ε T , sino la además sus posibles. correlaciones. Más precisamente, la serie se caracteriza completamente por la función de distribución conjunta:. [. Fxt xt Lxt [x1 , x 2 , L , x n ] = Prob xt1 < x1 , x t < x 2 , xtn < x n 1 2 2 n. [. para cualquier combinación xt1, xt2 , L , xtn. ]. ]. de las variables determinadas por un. subconjunto finito {t1 , t 2 , L , t n } de T. 1.3.1 Series Estacionarias. Se dice que la serie de tiempo {xt , t ε T } es estrictamente estacionaria sí:. Fxt xt Lxt [x1 , x 2 , L , x n ] = Fxt [x1 ] Fxt [x 2 ]L Fxt [x n ] para cualquier subconjunto no 1 2 n 1 2 n vacío de {t1 , t 2 , L , t n } de T y cualquier h tal que (t1 + h, t 2 + h, L , t n + h ) esté en T. Nótese que no se restringe esta condición a que los t i sean consecutivos.. 9.

(14) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. Así, una serie de tiempo es estrictamente estacionaria si la distribución de xt es la misma para todo instante de tiempo t (porque Fxt [x ] = Fx +t [x ] para todo t y todo h) y además las correlaciones entre variables de la serie dependen solamente del intervalo de tiempo h que las separa y no del valor del tiempo t. La condición de ser estrictamente estacionaria una serie de tiempo es muy difícil de verificar. En la práctica se trabaja con una restricción menos fuerte pero más fácilmente comprobable:. {xt , t ε T }. Se dice que la serie. es débilmente estacionaria o simplemente. estacionaria sí:. 1. El valor esperado E [xt ] es constante para todo t ε T. {. 2. La matriz de covarianza de xt1 , xt2 , L , xtn. covarianza de. {xt +h , xt +h , L xt +h } 1. 2. n. }. es la misma que la matriz de. para cualquier conjunto finito de. {t1 , t 2 , L , t n } de T y cualquier h tal que (t1 + h,. t 2 + h, L , t n + h ) esté en T.. En particular, para una serie estacionaria ocurre necesariamente que: •. E [xt ] = μ , y no se pierde nunca generalidad si se supone que μ = 0 porque de lo contrario bastaría centrar las variables, esto es trabajar con xt − μ En otras palabras, las series estacionarias no muestran tendencias.. •. Var [xt ] es constante, porque Cov( xt , xt ) = Cov(xt + h , xt + h ) Esta propiedad se conoce como homocedasticidad de la serie.. A veces, estas condiciones se utilizan prácticamente para decidir si una serie es estacionaria, o al menos, la violación de una de ellas: la existencia de una tendencia o la heterocedasticidad es suficiente para inferir que no es estacionaria. 1.3.2 Funciones de Autocorrelación. Sobre una serie estacionaria ocurre además que: la covarianza entre xt y xt + h es. una función sólo de h y no de t y por tanto, es posible hablar de la función de covarianza:. v(h ) = Cov (xt , xt + h ) = E [( xt − μ )( xt + h − μ )] como una función que depende sólo del “retardo” h. De la misma forma, es posible definir la función de autocorrelación:. 10.

(15) CaCapitulo 1 ACF ( h) =. Conceptos básicos relativos a los modelos regulares ARIMA.. Cov (xt , xt + h ). [Var [x t ] Var [xt + h ]]. 1/ 2. =. Cov (xt , xt + h ) Var [xt ]. El estudio de la función ACF (h) juega un papel fundamental en el análisis de las series de tiempo. Para una serie de tiempo definida en el conjunto de los números enteros, esta función es par y en 0 vale siempre 1; por ello se trabaja sólo para h ≥ 1 . Su gráfico se denomina correlograma: Figura # 1.. Figura 1. Aspecto general del gráfico de una función de autocorrelación arbitraria. Observe que: ACF(0) = 1. porque representa la correlación de xt con ella misma. ACF(1). representa la correlación xt y xt −1 ó entre xt y xt +1 , esto es, entre dos valores “consecutivos” de la serie.. ACF(2). representa la correlación entre xt y xt −2 , ó entre xt y xt + 2 esto es, entre dos valores distantes un retardo 2, etc.. La autocorrelación puede definirse también para una serie no estacionaria pero resultaría en general una función de t y de h. Junto con la función de autocorrelación tiene también interés el estudio de las autocorrelaciones parciales: Dada una serie estacionaria. ( xt , t ε T ). y un retardo. h ≥ 2 , se llama. autocorrelación parcial de xt y xt − h , al valor de la correlación parcial xt y xt − h -en el sentido general estadístico- ajustada por xt −1 , xt −2 , L , xt − ( h−1) . Más precisamente, la función de autocorrelación parcial PACF (h) se define por:. 11.

(16) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. Cov [xt − ρ1 xt −1 − ρ 2 xt − 2 L − ρ h−1 xt −h +1 , xt −h − ρ h −1 x1 − L − ρ1 xt −h +1 ] Var [xt − ρ1 xt −1 − ρ 2 xt − 2 L − ρ h −1 xt −h +1 ]. donde. ρ i = ACF (i ) es el coeficiente de autocorrelación i-ésimo.. El carácter estacionario de la serie determina también que PACF(h) esté correctamente definida.. Obsérvese que los coeficientes de autocorrelación parcial se definen naturalmente para h ≥ 2 , ajustados a h-2 valores intermedios entre. xt y. xt − h , que son. xt −1 , xt −2 , L , xt − ( h−1) . Puede extenderse esta definición para h = 0 y h = 1.. PACF (0) = ACF (0) = 1 PACF (1) = ACF (1) = Cov (xt , xt −1 ) 1.3.3 Disturbio aleatorio o ruido blanco. Se llama “disturbio aleatorio” o “ruido blanco” a una serie {et , t ε N } compuesta. de variables no correlacionadas et con media 0 y dispersión σ 2 . Los ruidos blancos son series estacionarias triviales pero juegan un papel teórico y práctico importante en la teoría de series de tiempo y el estudio se señales. Para un ruido blanco resulta obvio que la función de autocovarianza es: si h = 0 ⎫⎪ ⎬ si h ≠ 0⎪⎭. ⎧⎪σ 2 v ( h) = ⎨ ⎪⎩0 y por tanto ⎧1 ACF ( h) = ⎨ ⎩0. si h = 0 ⎫ ⎬ si h ≠ 0⎭. Por otra parte: PACF ( 2) =. Cov [x t − ρ xt −1 , xt −2 − ρ xt −1 ] = 0 porque Var [xt − ρ xt −1 ]. ρ = ACF (1) = 0 . Lo. mismo ocurre para h > 2 y entonces PACF(h) = ACF(h) y es trivial en este caso. Cuando modelamos una serie de tiempo arbitraria ( xt , t ε N ) a partir de una representación ( x1 , x 2 , L , x n ) buscamos muchas veces una función S(t) para la cual xt = S (t ) + et donde los residuales et (i = 1, 2, 3, L , n) constituyen una representación. de un ruido blanco y por tanto no deben mostrar ninguna correlación. De esta forma. 12.

(17) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. precisamos que no aspiramos a encontrar exactamente S de manera que xt = S (t ) pero si tal que xt = S (t ) + et . Realmente, los modelos de una serie de tiempo se definen de una forma algo más compleja que con una simple función S(t) pero sigue valiendo la idea de que aspiramos a un modelo aproximado con un residual que sea un ruido blanco.. 1.3.4 Camino Aleatorio. Se llama “camino aleatorio con media μ ” a una serie ( xt , t ε N ) que se define por. las relaciones: x1 = μ + e1. x t = μ + et. donde (et , t ε N ) es un ruido blanco (o, σ 2 ) Un camino aleatorio no es una serie estacionaria pues E [xt ] = μ (constante) pero hay heterocedasticidad: Var [xt ] = tσ 2 . En efecto: E [x1 ] = μ + E [e1 ] = μ E [x 2 ] = E [x1 ] + E [e 2 ] = μ. y por inducción: E [xt ] = E [xt −1 ] + E [et ] = μ. Ahora bien:. ( ) [ ] [ ] E (x 22 ) = E [(x1 + e 2 )2 ] = μ 2 + e 2 + 2 E [x1e 2 ] + E [e 22 ] = μ 2 + 2σ 2. E x12 = E (μ + e1 )2 = μ 2 + 2 μ E [e1 ] + E e12 = μ 2 + σ 2. porque E [x1e 2 ] = E [(μ + e1 ) e 2 ] = μ E [e2 ] + E [e1e 2 ] = 0 y por inducción:. [ ] [. ]. [ ]. E xt2 = E (xt −1 + et )2 = μ 2 + (t − 1) σ 2 + 2 E [xt −1et ] + E et2 = μ 2 + tσ 2. porque E [xt −1et ] = 0 En definitiva. [ ]. Var [xt ] = E xt2 − E [xt ]2 = tσ 2 y esto es suficiente para demostrar que la serie no. es estacionaria.. 13.

(18) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. Para un camino aleatorio, la covarianza entre xt y xt + h no es sólo una función de h, sino también de t. En efecto:. Cov (xt , xt + h ) = E [( xt − μ )( xt + h − μ )] = E [xt xt + h ] − μ E [xt ] − μ E [xt + h ] + μ 2 Cov ( xt , xt + h ) = E [xt xt + h ] − μ 2 = tσ 2. [ ]. porque E [xt xt + h ] = E xt2 + E [xt et + h ] = μ 2 + tσ 2 Si calculamos ACF (t , h) = Corr ( xt , xt + h ) =. Cov ( xt , xt + h ). [Var [x t ] Var [xt + h ]] 1/ 2. se tendrá que: ACF (t , h) =. tσ 2 t (t + h) σ. 4. = [t /(t + h] 1 / 2. 1.4 Procesos Autorregresivos. Un conjunto grande de series de tiempo –por ahora no estacionales (en el sentido. de no periódicas)- puede ser modelado por uno de los tipos siguientes: a) Una serie autorregresiva de orden p, esto es, una serie de la forma: p. x t = ∑ ϕ i x t − i + et i =1. b) Una serie de medias móviles de orden q, esto es, una serie: x t = et +. q. ∑ β j et − j j =1. c) Una serie mixta: autorregresiva de orden p y de medias móviles de orden q, esto es, una serie de la forma: p. x t = ∑ ϕ i x t −i = e t + i =1. q. ∑ β j et − j y en todos los casos et denota un ruido blanco. j =1. Lo interesante es que para estos tipos de series, y para otras que se reducen a ellas, están caracterizadas: •. Las condiciones sobre las bases de la cual son estacionarias. •. La forma de los correlogramas correspondientes a las funciones ACF(h) y PACF(h) que permitan identificarlas.. 14.

(19) CaCapitulo 1 •. Conceptos básicos relativos a los modelos regulares ARIMA.. Los mejores métodos de estimación de los parámetros ϕ i para i = 1,2, L , p y los parámetros β j para j = 1,2, L , q que precisan el modelo.. •. Los criterios para seleccionar entre varios modelos posibles cuál es el mejor.. •. Los estimadores óptimos lineales de los valores pronosticados.. Las dos primeras caracterizaciones son esenciales porque ellas permiten, a partir de una muestra o realización concreta de la serie, determinar (o al menos aproximar) a priori, a cuál modelo se ajusta, luego acometer la estimación y el diagnóstico del modelo y finalmente el pronóstico si éste es un objetivo del estudio. 1.4.1 Series Autorregresivas de Primer Orden Veamos algunos casos particularmente de p antes de generalizar:. •. Caso p = 1. Una serie autorregresiva de primer orden, tiene esencialmente la forma: xt = ρ xt −1 + ei Como veremos inmediatamente, esta serie es estacionaria si y sólo si ρ < 1 y en tal caso este parámetro: ϕ i = ρ que identifica la serie, es ACF (1) = Cov( xt , xt −1 ) . En. efecto,. xt −1 = ρ xt − 2 + ei o. escribiendo:. más. generalmente. xt −i = ρ xt −i −1 + et −i para i = 1, 2, L , n y sustituyendo sucesivamente en la serie,. obtenemos xt = ρ N xt − N +. N −1. ∑ ρ i e t −i. y en “cierto sentido” de convergencia de serie, si. i =0. ∞. ρ < 1 se tiene la representación: xt = ∑ ρ i et −i i =0. De allí resulta que: ∞. ρh. i =1. 1− ρ2. E ( xt ) = 0 para todo t, y v(h) = E ( xt xt + h ) = σ 2 ∑ ρ i ρ i + h =. σ 2 para. h≥0. El “cierto sentido” de convergencia de series no es trivial; pero no vamos a desarrollarlo aquí. Vale la pena sin embargo notar que no descartamos la posibilidad de que E ( xt ) = μ (constante pero ≠ 0) porque la serie está definida por una relación de recurrencia sin una definición de un primer elemento; pero esto será retomado posteriormente, al final de este epígrafe.. 15.

(20) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. Entonces,. si. ρ <1. la. función. de. autocorrelación. viene. dada. por:. ACF (h) = ρ h para h = 1, 2, L, L Podemos calcular fácilmente y comprobar que:. Cov( xt − ρ xt −1 , xt −2 − ρ xt −1 ) = 0 ó también Cov( xt − ρ xt −1 − ρ 2 xt −2 , xt −3 − ρ xt −2 − ρ 2 xt −1 ) = 0 En general:. ⎧ ρ si h = 1 ⎫ PACF (h) = ⎨ ⎬ ⎩0 si h ≥ 2⎭ Entonces: Figura # 2.. Figura 2. Correlogramas para un movimiento autorregresivo de primer orden. 1.4.2 Serie Autorregresiva de orden p Para una serie autorregresiva de orden p: x t = ϕ 1 x t −1 + ϕ 2 x t − 2 + L + ϕ p x t − p + et. se cumple que: Si. las. raíces. m1 , m 2 , L , m p. de. la. ecuación. característica:. m p − ϕ1 m p −1 − ϕ 2 m p − 2 − L − ϕ p = 0 tiene valor absoluto menor que uno, entonces:. 16.

(21) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA. ∞. 1. x t puede representarse de la forma siguiente: x t = ∑ w j et − j donde los w j j =0. son encontrados de manera que satisfacen una ecuación en diferencias análogas a la serie: w j = ϕ1 w j −1 + ϕ 2 w j − 2 + L + ϕ p w j − p en las condiciones iniciales. 2. La serie estacionaria, con media 0 y función de autocovarianza: ∞. v(h ) = σ 2 ∑ w j w j − h para h ≥ 0 . j =0. 3. ACF(h) ----> 0 cuando h ----> ∞ y con el orden a h para cierto a de módulo menor que 1. PACF ( h) = 0 para h > p . Por tanto, el correlograma de la ACF muestra una declinación exponencial (posiblemente sinusoidal amortiguada exponencialmente) y el correlograma de la PACF muestra exactamente p espigas.. 1.5 Series de Medias Móviles.. 1.5.1 Series de media móvil de primer orden.. Sea la serie de medias móviles: x t = et + β et −1 Aquí Var ( x t ) = (1 + β 2 ) σ 2 y ⎧β σ 2 v ( h) = ⎨ ⎩0. h = 1⎫ β y ACF (h) = 0 para h ≥ 2 ⎬ Por tanto, ACF (1) = 1+ β 2 h≥2 ⎭. No es difícil ver con cálculo elemental, que el máximo valor posible de ACF(1) es 0.5 y se alcanza para β = 1 , mientras que el mínimo es -0.5 y se alcanza con β = −1 Para cualquier valor de ρ (0, 0.5), existen dos valores de β , tales que ACF(1) = ρ . Lo mismo ocurre para cada valor de ρ en (-0.5, 0). Los dos valores correspondientes de. β en cualquier caso satisface uno la condición β < 1 y el otro la condición β > 1 . Lo que se quiere destacar es que el coeficiente de autocorrelación de primer orden en una serie de medias móvil de orden 1 no puede ser tampoco demasiado grande:. ρ ≤ 0 .5 Nótese que aunque. ACF (h) = 0. para. h = 2, 3, L , n. la función de. autocorrelación parcial no se anula para todos estos valores. En efecto: 17.

(22) CaCapitulo 1. PACF (h) =. Conceptos básicos relativos a los modelos regulares ARIMA.. Cov( x t − ρ xt −1 , x t − 2 − ρ x t −1 ) β β2 en particular PACF = = Var (x t − ρ x t −1 ) 1+ β 2 1+ β 2 + β 4. (3) tiene el mismo signo que ρ (signo de β ). PACF(h) = 0 para h = 4, 5, 6,… Obsérvese PACF (1) = ρ. además. que. PACF (2) < ρ. si. escogemos. β. PACF (3) < ρ 2. tal y. que. β < 1 , entonces:. PACF ( h) = 0. si. h>3. En la figura 3 pueden observarse los correlogramas para el proceso de media móvil de primer orden Figura # 3. Figura 3. Correlogramas para un proceso de media móvil de primer orden.. 1.5.2 Series de medias móviles de orden q. q. Las series de medias móviles de cualquier orden x t = et + ∑ β j et − j son siempre j =1. q. estacionarias con media cero y varianza σ 2 ∑ β j2 (aquí convenimos en utilizar β 0 = 1 j =0. para abreviar expresiones). Y no es difícil ver que para cada h ≥ 0 , se tiene: ⎡⎛ q ⎡⎛ q ⎞⎛ q ⎞⎤ ⎞ ⎛ q−h ⎞⎤ v(h) = E [x t x t + h ] = E ⎢⎜⎜ ∑ β j et − j ⎟⎟ ⎜⎜ ∑ β j et + h − j ⎟⎟⎥ = E ⎢⎜⎜ ∑ β j et − j ⎟⎟ ⎜⎜ ∑ β j + h et − j ⎟⎟⎥ ⎠ ⎝ j =0 ⎠⎦⎥ ⎠ ⎝ j =0 ⎠⎦⎥ ⎣⎢⎝ j = 0 ⎣⎢⎝ j =0. 18.

(23) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. ⎧ 2 q−h ⎪σ ∑ β j β j + h Entonces v(h) = ⎨ j = 0 ⎪0 ⎩. ⎧ ⎪ ⎪ρ = ⎪ ACF ( h) = ⎨ h ⎪ ⎪ ⎪⎩0. ⎫ 0 ≤ h ≤ q⎪ ⎬ y por tanto: h > q ⎪⎭. ⎫ ⎪ 1 ≤ h ≤ q ⎪⎪ ⎬ esto es, el correlograma asociado ⎪ ⎪ h > q ⎪⎭. ⎞ ⎛ q ⎜ ∑ β j β j +h ⎟ ⎟ ⎜ ⎠ ⎝ j =0 ⎛ q 2⎞ ⎜∑ β j ⎟ ⎟ ⎜ ⎝ j =0 ⎠. a la ACF muestra q espigas (para h entre 1 y q) y luego valores 0 (para h>q). Caso q = 2.. Consideremos la serie de medias móviles de segundo orden:. xt = et + β1et −1 + β 2 et − 2. Entonces:. ¨. ⎧(1 + β12 + β12 )γ 2 ⎪ β (1 + β )γ 2 ν(h)= ⎪⎨ 1 2 2 ⎪ β 2γ ⎪0 ⎩. h=0⎫ ⎪ h =1 ⎪ ⎬ h = 2⎪ h > 2⎪⎭. ⎧ β1 (1 + β 2 ) ⎪ (1 + β 2 + β 2 ) = ρ1 1 2 ⎪ ⎪ β2 ACF(h)= ⎨ = ρ2 2 2 ⎪ (1 + β 1 + β 2 ) ⎪0 ⎪ ⎩. ⎫ h =1 ⎪ ⎪ ⎪ h = 2⎬ ⎪ h>2⎪ ⎪ ⎭. A partir de esto sólo con trabajo algebraico se demuestra que la PACF(h) decrece en valor absoluto para h = 1, 2,…, 6 y además para h ≥ 7 PACF(h) = 0. La razón de esto último es que:. PACF (7)=. Cov[xt − ρ1 xt −1 − ρ 2 xt − 2 , xt −7 − ρ1 xt −6 − ρxt −5 ] Var [xt − ρ1 xt −1 − ρ 2 xt − 2 ]. y al desarrollar el numerador, las variables más “próximas” a correlacionar resultan x t − 2 y x t −5 para las cuales el coeficiente de correlación ACF(3) es igual a cero.. 19.

(24) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. Figura # 4. Figura 4. Correlogramas para un proceso de media móvil de segundo orden.. La esencia de estos resultados se generaliza evidentemente. Para una media móvil de orden q resulta también que ACF (h) = ρ q para h ≤ q y ACF (h) = 0 para h > q Además, se tiene que:. PACF(h)=. [. Cov x t − ρ 1 x t −1 − ..... − ρ q x t − q , x t − h − ρ 1 x t − h +1 − ..... − ρ q x t − h + q. [. Var x t − ρ 1 x t −1 − ..... − ρ q x t − q. ]. ]. Al desarrollar el numerador, las variables “más próximas” a correlacionar resulta x t − q y x t − h + q que tienen un “retardo” h − 2q Entre ellas el coeficiente de correlación se anulará cuando h − 2q > q , esto es cuando h > 3q . Por ello, para un proceso de medias móviles de orden q es cierto en general que PACF(h) = 0 para h>3q. Puede demostrarse además que PACF(h) decrece exponencialmente (en valor absoluto) para h = 1, 2,…, 3q donde es diferente de cero. Entonces, con independencia de los coeficientes de la serie de media móvil: q. x t = ∑ β j et − j j =0. ( β 0 = 0). resulta que: 1. La serie es estacionaria con media 0 y. 20.

(25) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. ⎧ 2 q −h ⎪α ∑ β j β j + h ν(h)= ⎨ j =0 ⎪0 ⎩. ⎫ 0 ≤ h ≤ q⎪ ⎬ h > q ⎪⎭. 2. ACF(h) = 0 para h > 0 PACF(h) → 0 cuando h → ∞ rápidamente y más precisamente PACF (h) = 0 para h > 3q. Por tanto, el correlograma de la ACF muestra q espigas y el correlograma de la PACF aparente una declinación exponencialmente (posiblemente sinusoidal amortiguada exponencialmente) hasta h = 3q. Este resultado es bastante simétrico al correspondiente a series autorregresivas; pero hay dos detalles que rompen esa simetría: 1. No se necesita imponer ninguna condición a los coeficientes de la serie móvil para que se garantice su carácter estacionario (en las series autorregresivas sí) 2. Nada dice acerca de la posibilidad de representar una serie móvil como una serie autorregresiva de “orden infinito” (como realmente ocurre a la inversa) En efecto, no todas las series móviles admiten tal representación. En tal caso, se dice que la serie móvil es inversible. Y, precisamente, se demuestra que: Dada la serie móvil q. x t = ∑ β j et − j j =0. ( β 0 = 0). con ecuación característica definida por: m q + β 1 m q −1 + β 2 m q − 2 + ..... + β q = 0. si las raíces características m1 , m 2 , L , m q son todas menores que 1 en valor absoluto, entonces la serie es inversible: ∞. ∑c x i =0. i. t −i. = et. donde los coeficientes ci se obtienen a partir de una ecuación en diferencias análogas a la parte móvil: ci + β 1ci −1 + β 2 ci − 2 + ..... + β q ci − q = 0 con las condiciones iniciales: c0 = 1; c1 = − β 1 ; c 2 = − β 1c1 − β 2 ;.....; c q −1 = − β 1c q − 2 − β 2 c q −3 − ..... − β q −1 y así se alcanza la simetría esperada.. 21.

(26) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. Hasta ahora utilizamos la representación para la serie móvil con coeficientes β j y en particular β 0 = 0 para facilitar la descripción de las funciones ACF y PACF; pero la simetría de la ecuación característica, de la ecuación en diferencias y de las condiciones iniciales se hace más “bonita” si en utilizamos una representación de la serie móvil en la forma: q. xt = et − ∑ θ j et − j j =1. Desde el punto de vista práctico vale la pena recordar que si identificamos un proceso como autorregresivo de orden p alto, probablemente pueda representarse fácilmente como una serie de media móvil con un orden bajo y viceversa, si la serie de media móvil es inversible.. 1.6 Procesos ARMA(p, q) Son en general procesos donde se combina un carácter autoregresivo de orden p. con el de media móvil de orden q.. 1.6.1 Procesos ARMA (1.1) xt − ϕ xt −1 = et − θ et −1. con ϕ < 1. Se demuestra para esta serie que: ⎧1 + θ 2 − 2ϕθ 2 γ ⎪ 2 ⎪ 1−ϕ ν (h)= ⎨ ⎪ (1 − ϕθ )(ϕ − θ ) ϕ h −1γ 2 ⎪⎩ 1−ϕ 2. ⎫ si h = 0 ⎪ ⎪ ⎬ h = 1,2,3,...⎪ ⎪⎭. Y por tanto: ACF(h)=. (1 − ϕθ )(ϕ − θ ) h −1 ϕ 1 + θ 2 − 2ϕθ. h = 1,2,3,.... Si denotamos. ρ = ACF(1)=. (1 − ϕθ )(ϕ − θ ) 1 + θ 2 − 2ϕθ. tenemos ACF(h)= ρ ϕ h −1. para cualquier h ≥ 1 .. 22.

(27) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. Entonces la función de autocorrelación de una serie ARMA(1, 1) tiene la misma apariencia que la de una serie AR(1) en el sentido de que ella declina en una razón geométrica donde la razón se determina por ϕ Con estos datos se puede determinar también la PACF(h) y después de cierto trabajo de simplificación verificar que ellas tienen la apariencia de una serie MA(1) en el sentido de que declinan rápidamente a ceros aunque realmente se anulan teóricamente a partir de un valor de h. Figura # 5. Figura5. Correlogramas para un proceso ARMA(1,1). 1.6.2 Serie ARMA(p,q). Consideremos ahora las series de la forma: p. q. i =1. j =1. xt − ∑ ϕ1 xt −1 = et − ∑ θ j et − j. Box y Jenkins (1970) sugirieron la notación abreviada ARMA (p, q) para referirse a las series de ese tipo. Las series autorregresivas puras ARMA (p, 0) pueden denominarse simplemente AR(p) y las medias móviles puras ARMA (0, q) como MA(q). Si se quiere, podremos utilizar la notación x t ε ARMA( p, q ) para referir —en. 23.

(28) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. un lenguaje más matemático— que x t , pertenece a la clase de series ARMA (p, q); pero este lenguaje no es la parte esencial. Aunque evitemos la demostración, es natural esperar que una serie ARMA(p, q) cuya ecuación característica asociada a la parte autorregresiva: m p − ϕ1 m p −1 − ϕ 2 m p − 2 − ..... − ϕ p = 0. tiene todas sus raíces con valor absoluto menor que 1, es representable por una serie. MA(∞) y es entonces estacionaria. Si además la ecuación característica asociada a la parte móvil: m q − θ1 m q −1 − θ 2 m q − 2 − ..... − θ q = 0. tiene todas sus raíces con valor absoluto menor que 1, es “inversible” en el sentido que es representable por una AR (∞) . Estos hechos permiten estudiar las funciones ACF y PACF para una serie ARMA(p,q) y adivinar que se presentarán combinaciones de las situaciones propia de los procesos AR(p) y MA(q). Además determinan que tienen interés práctico las series de tiempo definidas por la combinación de componentes autorregresivas y medias móviles de bajo orden. Finalmente, introducimos una notación de operadores para representar los procesos ARMA(p,q).. 1.6.3 Notación de operadores de un proceso ARMA.. Sea, β el operador de retardo, definido para cualquier serie como:. β xt = xt −1 Retardos de más alto orden pueden obtenerse por aplicaciones sucesivas de β. β 2 x t = β ( β x t ) = xt − 2 y en general. β h xt = β ( β h −1 xt ) = xt − h Si convenimos en denotar por “1” el operador identidad entonces un operador de la forma (1 − a β h ) donde a es una constante queda definido por: (1 − aβ h ) xt = xt − axt − h En términos de este operador podemos representar: 24.

(29) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. Un proceso autorregresivo AR(p) en la forma:. -. (1 − ϕ1 β − ϕ 2 β 2 − ϕ 3 β 3 − ..... − ϕ p β p ) xt = et. Un proceso de medias móviles MA(q) en la forma:. -. xt = (1 − θ1 β − θ 2 β 2 − θ 3 β 3 − ..... − θ q β q )et. Un proceso mixto ARMA(p,q) en la forma:. -. (1 − ϕ1 β 1 − ϕ 2 β 2 − ϕ 3 β 3 − ..... − ϕ p β p ) xt = (1 − θ1 β − θ 2 β 2 − θ 3 β 3 − ..... − θ q β q )et. La mayoría de los paquetes estadísticos computacionales utilizan estas representaciones y normalmente le llaman a:. ϕ i = AR(i ) o de alguna forma, el coeficiente autorregresivo regular de orden i, θ j = MA( j ) o de alguna forma, el coeficiente de media móvil regular de orden j Debemos todavía incluir el caso autorregresivo con media constante μ (diferente de cero), como también el caso de proceso de medias móvil “trasladado” a una media. μ diferente de cero. Podemos lograr esto con dos alternativas equivalentes: 1ra.- Sustituyendo en las representaciones anteriores a x t por. ( xt − μ ) :. (1 − ϕ1 β1 − ϕ 2 β 2 − ϕ 3 β 3 − ..... − ϕ p β p )( xt − μ ) = (1 − θ1 β − θ 2 β 2 − θ 3 β 3 ..... − θ q β q )et. Así por ejemplo, se trabaja prácticamente con el SPSS/PC donde además de los parámetros AR(i) y MA(j) se determina una constante que es μ , la media de la serie. 2da.- Incluir en el miembro derecho de las representaciones anteriores un término. δ. que. “determina”. la. media. constante. de. la. serie:. (1 − ϕ1 β 1 − ϕ 2 β 2 − ϕ 3 β 3 − ..... − ϕ p β p ) xt = δ + (1 − θ1 β − θ 2 β 2 − θ 3 β 3 − ..... − θ q β q )et. Así por ejemplo se trabaja prácticamente con otros paquetes (no el SPSS) donde además de los parámetros Autorregresivos y de medias móviles se determina la constante δ que se relaciona directamente con la media de la serie. La equivalencia de las dos representaciones es consecuencia de que el operador β aplicado sobre una constante, no la altera. Entonces, es muy fácil demostrar que: − (1 − ϕ1 − ϕ 2 − ϕ 3 − ..... − ϕ p ) μ = δ. Ahora resulta de especial interés estudiar las series que muestran una media no constante, esto es “separar” la tendencia de la serie de su comportamiento autorregresivo o de media móvil.. 25.

(30) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. 1.7 Procesos no estacionarios Las series de tiempo que muestran (en media) una tendencia lineal, cuadrática o. en general polinómica se convierte en estacionarias después del proceso de “diferenciación”.. 1.7.1 Proceso de diferenciación Dada una serie x t llamaremos serie diferenciada a la serie:. Yt = Δ X t = X t − X t −1. Una segunda diferenciación conduce a la serie: Δ2 xt = Δ(Δxt ) = xt − 2 xt −1 + xt −2. y en general una diferenciación de orden “d” conduce a la serie: k d ⎛d ⎞ Δd xt = Δ(Δd −1 xt ) = ∑ (−1) ⎜⎜ ⎟⎟ xt − k k =0 ⎝k⎠. Lo esencial se forma con ideas como estas: Primera: Si una serie muestra una tendencia lineal, su serie diferenciada muestra una media constante. En efecto: Supongamos que: xt = at + b + Yt donde Yt es por ejemplo, una serie con media constante Entonces, la serie diferenciada Z t = ΔX t tiene la forma: Z t = xt − xt −1 = a + y t − y t −1 que tiene media constante igual a “a” porque Yt — Yt-1 tiene media cero. Segunda: Si una serie muestra una tendencia cuadrática, su serie diferenciada dos veces muestra una media constante. En efecto: Supongamos que: xt = at 2 + bt + c + y t donde Yt es por ejemplo, una serie con media constante. Entonces, la serie diferenciada una vez presenta una tendencia lineal: Δxt = 2at − a + b + ΔYt y por tanto diferenciada dos veces, tiene una media constante.. 26.

(31) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. El proceso de “diferenciación discreta” conduce a resultados análogos a la diferenciación analítica de una función polinomial. En general: Si una serie muestra una tendencia polinomial de orden, “d”, la aplicación de “d” diferenciaciones la reducirá a una serie con media constante. En la práctica suele ser necesario diferenciar una serie 0,1 ó 2 veces a lo sumo, porque de una parte, resulta difícil precisar tendencias polinomiales reales de más alto orden. De otra parte, el proceso de diferenciación excesivo pueden complicar el análisis, porque incrementa la varianza de la serie transformada, cambia la estructura del modelo de la parte restante a la tendencia y por tanto, hace más difícil la identificación y menos eficiente la estimación En otras palabras sí: xt = polinomiod (t ) + Yt está claro Δd xt = cons tan te + Δd Yt Pero si Yt ∈ ARMA(p, q), no hay por qué pensar que Δd Y ∈ ARMA(p, q) y mucho menos que el modelo de Δd Y tenga una estructura mas simple que el modelo de Yt . Analice por ejemplo que ocurre cuando Yt ∈ AR(1) con ACF (1) = 1 o ACF (1) <1 Por ello no hablaremos de series “con una componente de tendencia” y “otra componente ARMA” sino de series, que “una vez diferenciadas, presente una estructura de modelo ARMA conocida”.. 1.7.2 Procesos ARIMA Se llaman series “d—integradas ARMA aquellas series que después de diferenciar. “d veces” se convierten en una serie ARMA. Se utiliza la denominación ARIMA. ( la “I” viene de Integrated para representar los modelos de este tipo, en forma abreviada ARIMA(p,d,q). Para representar una serie que se modela como ARIMA en términos de operadores, vale la pena comprender que:. Δxt = xt − xt −1 = (1 − β ) xt La diferenciación de orden “d” se expresa en la forma:. Δd xt = (1 − β ) d xt. 27.

(32) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. lo que es concordante con la forma “binomial” del operador Δd . Si después de la diferenciación la serie tiene una media constante μ entonces es:. [(1 − β ). d. ]. x t − μ la serie que tiene una estructura ARMA.. El modelo ARIMA (p,d,q) se expresa definitivamente en la forma: (1 − ϕ1 β − ϕ 2 β 2 − ..... − ϕ p β p )(1 − β ) d xt = (1 − θ1 β − θ 2 β 2 − ..... − θ q β q )et donde. [. ]. (1 − β ) d xt debe ser sustituido por (1 − β ) d xt − μ si la serie diferenciada tiene una media μ diferente de cero o equivalente, debe ser incluida una constante aditiva δ en el miembro derecho que se determina a partir de μ por la relación :. δ = −(1 − ϕ1 − ϕ 2 − ...... − ϕ p ) μ Esencialmente, la diferenciación estabiliza la media cuando la serie muestra una tendencia polinómica. La diferenciación procura el carácter estacionario para muchas series que no lo tienen; pero hay comportamientos no estacionarios que no se resuelven con diferenciación. Por ejemplo, las tendencias periódicas (estacionales) en una serie no se resuelven con diferenciación, al menos con una diferenciación como la aquí descrita. En el último epígrafe hablaremos en particular de las series periódicas y de la eliminación de la tendencia estacional. Otro ejemplo más sencillo, una tendencia exponencial, no puede ser eliminada por un proceso de diferenciación solamente. Una falta de estabilidad de la varianza tampoco. En estos casos hay que hacer transformaciones potencia seguidas o no eventualmente de diferenciación. Una violación del carácter estacionario de la serie, a causa de heterocedasticidad es mucho más seria que por una tendencia; pero también es importante analizar como eliminarla para ampliar las series reducibles a procesos ARIMA. No existen reglas fijes para, seleccionar la transformación potencial idónea; pero tal como ocurre en la regresión existen algunas sugerencias que pueden ser prácticamente importantes: Por ejemplo: - Sí la serie evidencia una varianza creciente con la media, es recomendable una transformación logarítmica. 28.

(33) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. - Si la serie evidencia una media constante μ pera una varianza irregular, es recomendable una transformación estrictamente potencial x tP que se logra muchas veces con p = 1 ó p = − 1 ó p = −1 2 2 Es difícil tener evidencia de la varianza no constante “a priori” antes de intentar el modelo; pero con un poco de práctica puede apreciarse en el grafico inicial de la serie y alcanzar la estabilización tanteando transformaciones potencias (o logarítmicas) sencillas como las mencionadas. Si no percibiéramos la falta de homogeneidad de varianza llegáremos a realizar el modelo, y los residuales no mostraran una varianza constante, ello es indicativo de que la serie necesita una transformación p determinada por: p=1-0.5*h*μ donde h se determina como un coeficiente de regresión lineal de los residuales et respecto a los valores pronosticados Xt por e1 modelo y divididos por su varianza S2 Por último para una serie no estacionaria, las funciones ACF(t, h) y PACF(t, h), dependen de t además de h; pero si se intentan trazar, utilizando por ejemplo sus valores en t=1 como si fueran independientes de éste, mostrarán un comportamiento cualitativamente diferente a los referidos anteriormente. Probablemente se manifiesten como funciones decrecientes de h; pero no en razón geométrica, o como funciones irregulares de h, con espigas aleatorias y aisladas, por lo cual los correlogramas pueden ser indicadores también de la falta de estacionaridad y por tanto de la necesidad de transformar y/o diferenciar la serie. Figura # 6. Figura 6. Ejemplo de correlograma de una serie con un tipo de no estacionariedad bastante frecuente Para mostrar un ejemplo recuérdese el caso de un camino aleatorio, que es, un movimiento autorregresivo no estacionario:. 29.

(34) CaCapitulo 1. xt = xt −1 + et. Conceptos básicos relativos a los modelos regulares ARIMA.. (ϕ1 = 1). A esta serie responde en la práctica, por ejemplo el precio de un producto en el que tenga una demanda estacional. Si partimos de los datos de precios de un producto de este tipo a lo largo del tiempo, plateamos la serie y los correlogramas, observamos que la serie no evidencia tendencias y que la función de autocorrelación declina lentamente a cero. Si plateamos las correlogramas de la serie diferenciada observamos que la ACF(h) y la PACF(h) no muestran ninguna espiga significativa. Ello sugiere que la serie diferenciada es ARMA(0,0) y la serie original esARIMA(0,1,0) Realmente, y desde el punto de vista teórico, la ACF(t, h) depende de t y de h. La serie no muestra tendencias (la media es constante) pero falta la homogeneidad de varianza. La serie diferenciada Yt = Δ X t satisface: Yt = et y por tanto es trivialmente un ruido blanco: ARMA (0, 0). Por ello, la serie original es efectivamente ARIMA(0,1,0). En definitiva, se tienen en cuenta los casos ARMA(p, q), cuyos correlogramas están bastante bien caracterizados, los casos ARIMA(p,d,q) reducibles a los anteriores por diferenciación “d” veces y los casos de series que después de una transformación se reducen a ARIMA(p,d,q), se abarca una amplía clase de series de tiempo identificables. El grafico de la serie y de los correlogramas proporciona un método bastante efectivo de identificar una serie que se ajuste o se reduzca a un modelo ARIMA(p,d,q) y esta constituye la base fundamental de la metodología de Box – Jenkins para el estudio de series de tiempo no estaciónales Cuando estudiemos la metodología de Box—.Jenkins completaremos el tema de la identificación de un modelo ARIMA sobre la base de “aproximaciones sucesivas”.. 1.8 Complementos teóricos: estimación, diagnóstico y pronóstico en modelos ARIMA Ya sabemos que una serie ARIMA(p,d,q) muestra necesariamente cierto. comportamiento de las funciones ACF(h) y PACF(h) que sirven para identificar el modelo. La teoría matemática de las series de tiempo abarca criterios para lograr las estimaciones de máxima verosimilitud de dichas funciones a partir de datos observados o realización de una serie, que responden bastante a nuestras ideas intuitivas y cuyos detalles escapan a los objetivos de materialista introducción teórica.. 30.

(35) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. Una vez identificada la estructura ARIMA(p,d,q) a la cual responde (probablemente) la muestra de una serie de tiempos el paso próximo y más importante es la estimación estadística de los parámetros del modelo, a saber, de los coeficientes ϕ i , i = 1, 2, L , p de la componente autorregresiva; los coeficientes. θi ,. j = 1, 2, L , p de la componente de media móvil y la constante μ , media de la. serie diferenciada o el parámetro δ equivalente. La argumentación matemática de la estimación estadística de los parámetros se fundamenta en la teoría de estimadores de máxima verosimilitud [#]. Desde un punto de vista más práctico puede ser suficiente conocer que la mejor estimación en general se logra con una linealización del modelo y minimización de la suma de los cuadrados de las diferencias entre los valores reales de la serie de trabajo (suponiendo. que es estacionaria) y los predichos por un modelo con estimados iniciales de los parámetros Se actualizan entonces estos estimaciones de los parámetros a partir de los resultados de la primera iteración y el proceso se repite hasta alcanzar convergencia. Hay métodos prácticos también para la estimación inicial sobre la cual se basa el proceso iterativo. Cuando la serie no tiene valores perdidos, los estimados iniciales se hacen sobre la base de un criterio de máxima verosimilitud y el algoritmo resulta particularmente rápido. Se conoce así como algoritmo de Marquardt-Melard y es el que utilizan la mayor parte de los paquetes serios de análisis de series de tiempo. En próximos epígrafes comentaremos un algoritmo alternativo cuando la serie tiene valores perdidos (algoritmo de Kalman). Como criterios de convergencia o de finalización del algoritmo se pueden utilizar alguno o varios de los siguientes: - Un -valor- epsilon (por ejemplo ε = 0.001 ) El proceso terminaría según este criterio cuando el cambio en todos los parámetros estimados fuera menor que epsilon. - Porcentaje de variación de la suma de cuadrados. El proceso iterativo debe terminar si el cambio relativo en la suma de cuadrados es menor que cierta cantidad prefijada que se denomina “SSQ percentage, por ejemplo, SSQ = 0.001% - Un valor máximo de la constante de Marquardt. Esta es una constante que se utiliza por el algoritmo de Marquardt-Melard y que se actualiza en cada iteración. Generalmente esta constante debe ser cercana a cero cuando se obtienen las estimativas finales. Un valor grande de la constante de Marquardt en una iteración indica problemas condicionantes en los datos. Por ello, se formula un criterio de terminación (más bien de. 31.

(36) CaCapitulo 1. Conceptos básicos relativos a los modelos regulares ARIMA.. “aborto”) del algoritmo en términos de que la constante de Marquardt no rebase un valor, prefijado, por ejemplo 109 - Número máximo de iteraciones. Si se utiliza el algoritmo de Marquardt-Melard, y el modelo está correctamente identificado se garantiza alta velocidad de convergencia. Por tanto la necesidad de muchas iteraciones puede ser indicador de un problema y se usa un máximo, por ejemplo, 10, para abortar. No se debe perder de vista que en la estimación de parámetros perseguimos tres objetivos: 1. que 1o valores predichos por la serie se diferencien lo menos posible de los valores reales observados 2. que obtengamos residuales que no estén correlacionados entre sí. 3. que usemos tan pocas parámetros como sea necesario. El tercer objetivo, conocido como criterio de parsimonia, es en cierto sentido cuestionable cuando es la computadora quien hace las estimaciones y los pronósticos, pero en general usar el menor número de parámetros facilitará la verificación del modelo y el pronóstico. Lograda en la práctica la estimación de los parámetros de una muestra, hay que validar hasta que punto el modelo estimado es bastante bien la realización. Esta se conoce como la fase de diagnóstico. En la misma fase de estimación se pueden calcular varios estadísticos que ayudan a chequear el cumplimiento de los objetivos de la estimación. Digamos por ejemplo, para cada coeficiente ϕ i , θ j y la media, se construye un test de Student análogo al de la regresión para verificar si el es significativamente - o no - diferente de cero y además se hace un análisis de varianza para determinar el ajuste del modelo en general. Hay también, otros criterios, análogos a los de la regresión o específicos para series y que constituyen parte del chequeo diagnóstico, que es preferible ver en conjunto, sobre la base de ejemplos concretos Se quiere sólo destacar aquí un detalle teórico sobre el estudio de los residuales. La parte más importante del diagnóstico es el chequeo de que los residuales constituyan realmente un ruido blanco. Ello significa que debemos probar estadísticamente que los residuales son no correlacionados, tienen media cero y varianza constante. En la práctica ello se logra con el estudio de la función ACF(h) y PACF(h) de la serie de los residuales, que debe mostrar en particular una estructura ARIMA(0,0,0),. 32.