• No se han encontrado resultados

Evaluación de no estacionaridad de series de tiempo hidroclimatológicas en Colombia: Caso aplicado al Eje Cafetero

N/A
N/A
Protected

Academic year: 2021

Share "Evaluación de no estacionaridad de series de tiempo hidroclimatológicas en Colombia: Caso aplicado al Eje Cafetero"

Copied!
54
0
0

Texto completo

(1)

Evaluación de no estacionaridad de series de tiempo hidroclimatológicas en

Colombia:

Caso aplicado al Eje Cafetero

Por: Alejandro Ocampo Giraldo

Asesor: Mario Díaz-Granados Ortiz

Universidad de los Andes

Facultad de Ingeniería

Departamento de Ingeniería Civil y Ambiental

(2)
(3)

2

CONTENIDO

1. Introducción ... 4 2. Objetivos... 4 2.1. Objetivo General ... 4 2.2. Objetivos Específicos ... 5 3. Marco teórico ... 5 3.1. Estacionaridad ... 5 3.2. Tendencias ... 6 3.2.1. Prueba Mann-Kendall ... 7 3.2.2. Pendiente de Sen ... 8 3.3. Homogeneidad ... 9 3.3.1. Prueba de Pettitt... 9

3.3.2. Prueba del rango de Buishand ... 10

3.3.3. Prueba de homogeneidad normal estándar (SNHT) ... 10

3.4. Variables de interés ... 11

3.4.1. Descomposición modal empírica ... 11

4. Metodología ... 11

4.1. Inventario de información disponible... 12

4.2. Análisis de calidad, consistencia y validez de la información ... 12

4.2.1. Análisis de datos anómalos y datos faltantes ... 12

4.2.2. Análisis exploratorio gráfico ... 13

4.3. Análisis estadístico confirmatorio ... 14

4.3.1. Normalidad ... 14

4.3.2. Autocorrelación ... 15

4.3.3. Tendencias y su magnitud ... 15

4.3.4. Homogeneidad y punto de cambio... 16

4.3.5. Regresión lineal... 16

4.4. Evaluación de los resultados obtenidos... 17

4.5. Metodología de implementación ... 17

5. Caso de estudio ... 18

5.1. Aplicación detallada de la metodología ... 21

(4)

3

5.1.2. Series de precipitación anuales ... 30

6. Resultados y análisis ... 38

6.1. Series mensuales ... 41

6.2. Series totales anuales ... 42

6.3. Mínimos anuales ... 43 6.4. Máximos anuales ... 44 6.5. Comparación resultados ... 44 7. Conclusiones y recomendaciones ... 45 8. Referencias bibliográficas ... 46 9. Anexos ... 48 Anexo 1 ... 48 Anexo 2 ... 49

(5)

4

1. INTRODUCCIÓN

Los datos hidroclimatológicos son el conjunto de registros de diferentes tipos de variables climáticas observadas en una región y tiempo específico, medidas con instrumentos bajo un conjunto de procedimientos estándar (Bernal, Barrios, Ramos, Velásquez, & Ibarra, 2012). Este tipo de información es considerada por la Organización Meteorológica Mundial (WMO) (2009) como un instrumento para el ordenamiento del territorio y la planificación ambiental regional en términos de la reducción de riesgos de desastres naturales, así como para la planificación del transporte y agricultura; además, se considera como un insumo crucial en la planificación de estrategias de explotación de recursos naturales (Cantor Gomez, 2011).

El diseño y la administración de los recursos naturales se han basado generalmente en el análisis de información recolectada a partir de observaciones bajo el supuesto por de defecto de estacionaridad (Clark et al., 2015).Sin embargo, hoy en día este supuesto es menos válido por factores como cambios acelerados en el uso del suelo, variabilidad climática, fenómenos macroclimáticos y cambio climático asociado a efecto invernadero (Díaz-granados & Camacho, 2014). El supuesto de estacionaridad implica que las propiedades estadísticas de una serie como lo es la media o la varianza permanecen constantes en el tiempo (Clark et al., 2015), por lo que se tiene una función de densidad de probabilidad invariante en el tiempo asociada a la variable de estudio, haciendo que el pasado represente la mejor información disponible para estimar lo esperable en el futuro (Díaz-granados & Camacho, 2014).

Debido a esto, cabe preguntarse, si al involucrar la no estacionaridad de la serie realmente se obtiene un análisis más confiable y por ende una mejor predicción de las variables hidrológicas para utilizar en el diseño, planeación y administración de los recursos naturales. Como lo menciona Serinaldi y Kilsby (2015), hay una necesidad de desarrollar métodos de análisis no estacionarios consistentes que puedan explicar la naturaleza de un clima que cambia en el tiempo. Sin embargo, para esto es también importante preguntarse cómo se sabe cuándo una serie viola este supuesto de estacionaridad, y qué se puede concluir a partir de esto. El presente proyecto se enfoca en la última pregunta formulada, mediante la propuesta de una metodología con el fin de poder identificar cuándo una serie viola este supuesto. Esto se hará mediante la aplicación de diversas pruebas estadísticas expuestas en diferentes fuentes de literatura.

De forma general en este proyecto de grado se presenta una metodología para la evaluación de la no estacionaridad de una serie de tiempo al igual que una aplicación de un caso estudio. En primera instancia, se presenta una revisión de literatura acerca de los avances realizados en este tema en diferentes campos de la hidroclimatología. Segundo, se describe la propuesta metodológica para la evaluación de no estacionaridad. Después, en tercer lugar, se presenta el caso de estudio o aplicación sobre el cual se va a implementar la metodología y seguido a esto se presenta una descripción detallada de la aplicación de la metodología a una serie de tiempo específica. Seguido a esto, se presentan de forma conjunta todos los resultados de las estaciones hidroclimatológicas que se seleccionaron para después realizar un análisis detallado de éstos. Finalmente, a partir del desarrollo del proyecto se plantean las respectivas conclusiones y posibles trabajos futuros.

2. OBJETIVOS

(6)

5 Valorar y analizar el comportamiento se series de tiempo hidroclimatológicas para identificar y evaluar el supuesto de estacionaridad a partir de una metodología pertinente.

2.2. Objetivos Específicos

- Identificar diferentes herramientas de tipo estadístico que se puedan utilizar para el análisis de series de tiempo hidroclimatológicas en Colombia.

- Plantear una metodología acorde para la evaluación de no estacionaridad en series de tiempo hidroclimatológicas en Colombia.

- Aplicar la metodología planteada a un caso de estudio para evaluar el respectivo depempeño de ésta.

- Evaluar posibles causas o factores que invalidan el supuesto de estacionaridad en las series de tiempo hidroclimatológicas en Colombia.

3. MARCO TEÓRICO

Para desarrollar la metodología a emplear para la evaluación de estacionaridad o no estacionaridad en las series de tiempo hidroclimatológicas se hizo primero una detallada revisión de literatura. Esta revisión consistió principalmente en el análisis de artículos de procedimientos y técnicas estadísticas, tanto genéricas como específicas de aplicaciones en hidrología y climatología, para la revisión de las propiedades de interés de las series. Se realizó esta revisión documental con el fin de tener una buena aproximación al conocimiento que se tiene hoy en día sobre esta temática y analizar los avances que se han realizado. A partir de ésta, con un contexto teórico apropiado se pudo proceder a la elaboración de una metodología acorde con el propósito principal del proyecto

En la presente sección se hace una descripción detallada de los conceptos, métodos y teorías más importantes para la elaboración del proyecto. Además, se analizan y discuten los principales resultados a los que han llegado diferentes investigaciones a partir de la aplicación de la metodología y cómo se podrían adaptar al presente proyecto.

3.1. Estacionaridad

Una serie de tiempo hidrológica se puede considerar estacionaria si sigue una distribución de probabilidad en la cual las propiedades estadísticas de cualquier orden no tienen cambios significativos en el tiempo (Clark et al., 2015). En otras palabras, una serie de tiempo de cualquier variable hidrológica puede considerarse estacionaria si las propiedades como la media, la varianza y la estructura de autocorrelación son constantes en el tiempo. Como lo mencionan Díaz-Granados & Camacho (2014) tras la suposición de estacionaridad, una serie de tiempo, al tener una función de probabilidad invariante en el tiempo acepta que el pasado representa la mejor información disponible para estimar lo esperable en el futuro, por lo que las propiedades de ésta pueden ser estimadas de registros históricos. A partir de esto, se puede concluir entonces que un análisis estacionario implica que los valores observados de una variable se asumen como realizaciones aleatorias independientes e idénticamente distribuidas de una función estacionaria de densidad de probabilidad (Serinaldi & Kilsby, 2015).

(7)

6 A lo largo de los años los análisis hidrológicos se han basado en esta suposición de estacionaridad; sin embargo, como lo mencionan Serinaldi y Kilsby (2014) esto puede traer fuentes de incertidumbre a la hora de generar predicciones o hacer evaluaciones de las series de tiempo, ya que no se está teniendo en consideración el cambio de los parámetros estadísticos en función del tiempo o de otras variables externas. Entonces, hoy en día esta suposición puede ser inapropiada principalmente por 3 factores mencionados en la investigación hecha por Díaz-Granados & Camacho (2014). Primero, están las alteraciones antropogénicas en el sistema hidrológico como por ejemplo el proceso de urbanización, cambios en el uso del suelo, construcción de infraestructura, entre otros que afectan las relaciones en el ciclo hidrológico. Segundo, están las variaciones en el clima inducidas por la acción antrópica, lo cual se refiere al cambio climático ocasionado por la emisión de los gases de efecto invernadero. Estos cambios en el clima generan una mayor variabilidad en los procesos hidrológicos como la precipitación haciéndola más intensa en algunas zonas o reduciéndola en otras. Finalmente, está la variabilidad natural, en donde se incluyen procesos como fenómenos macroclimáticos, oscilaciones intra estacionales, actividad solar, ciclo de Milankovic, entre otras. Como lo menciona Jacob et al. (2009) el sistema climático terrestre es altamente complejo y no lineal por lo que su comportamiento es altamente impredecible y puede tener fenómenos como los mencionados que alteren las propiedades de variables la cuales pueden ser amplificadas o amortiguadas por ciclos de retroalimentación.

Ahora bien, es pertinente hablar sobre cómo se podría saber cuándo una serie de tiempo cumple con esta propiedad de estacionaridad y cuando no lo hace. Como se mencionó anteriormente, el propósito detrás de esto es hacer un análisis para saber si las propiedades estadísticas de la serie como la media, varianza o autocorrelación están cambiando a lo largo del tiempo, y si se comprueba que éstas están cambiando, entonces se podría concluir que la serie ya no es estacionaria. Como se menciona en la investigación de Clark et al. (2015), los patrones de no estacionaridad en variables climáticas e hidrológicas han sido detectados en la forma de tendencias o variaciones crecientes y decrecientes en la media de la serie. Entonces, al encontrar una tendencia en la serie se puede concluir que algún parámetro estadístico está cambiando con el tiempo por lo que se estaría violando el supuesto de estacionaridad. Además de la posibilidad de identificar la violación del supuesto por medio de las tendencias, la no estacionaridad también se puede encontrar mediante la evaluación de la homogeneidad de la serie. Así, si alguna propiedad de la serie varía a lo largo del tiempo de medición se estaría violando el supuesto de homogeneidad por lo que también estaría violando el supuesto se estacionaridad, como lo menciona (Cepeda Cuervo, Achcar, & Andrade, 2018).

En las siguientes secciones de la revisión documental se analizan diferentes metodologías y pruebas estadísticas para evaluar si en las series de variables hidrológicas o climáticas violan el supuesto de estacionaridad.

3.2. Tendencias

Como bien se mencionó anteriormente, el análisis de tendencias es una de las formas de identificar estacionaridad o no estacionaridad en las series de tiempo de variables hidroclimatológicas. En este tipo de series de tiempo es de muy alta complejidad e incertidumbre la detección de tendencias de manera visual, y por consiguiente, es necesario la implementación de pruebas estadísticas. Dentro de las pruebas más comunes se encuentra la prueba de Mann-Kendall utilizada por Carmona y Poveda (2013), Kallache et al. (2004), Libiseller y Grimvall (2002), Karmeshu (2012), Díaz-Granados & Camacho (2014), Guenni, Degryze & Alvarado (2008), Castro y Carvajal (2010) y Cantor (2011). Además de esta prueba que es principalmente

(8)

7 para averiguar si la tendencia existe o no, en muchas investigaciones utilizan otro tipo de pruebas para analizar qué tan grande o pequeña es la magnitud de la tendencia. Para esto, se hace uso entonces de la pendiente de Sen que es utilizada por Carmona y Poveda (2013), Díaz-Granados & Camacho (2014), Cantor (2011) y Maintainer & Pohlert (2018) para analizar la magnitud de la tendencia en caso de que se presente.

3.2.1. Prueba Mann-Kendall

Para la compresión de los resultados del presente proyecto es pertinente dar una descripción de la presente prueba ya que es de alta importancia en el desarrollo del mismo. La prueba se ejecuta mediante un procedimiento computacional que considera la serie de tiempo de 𝑛 datos y 𝑇𝑖 y 𝑇𝑗 como dos subconjuntos de datos en donde 𝑖 = 1,2, . . , 𝑛 y 𝑗 = 𝑖 + 1, 𝑖 + 2, … , 𝑛. Estos valores son evaluados como una serie de tiempo ordenada. Entonces, el procedimiento de la prueba consiste en comparar cada valor de la serie de datos con el siguiente, en donde si el valor del dato del tiempo posterior es mayor al valor del dato del tiempo anterior la estadística de la prueba 𝑆 se incrementa una unidad. Por otro lado, si el valor del dato del tiempo anterior es mayor al valor del dato del tiempo posterior la estadística 𝑆 decrece una unidad (Karmeshu, 2012). Se realiza esto para toda la serie de datos y el acumulado del valor de 𝑆 después de los incrementos y disminuciones es el valor final del estadístico de la prueba. Matemáticamente la formulación de la prueba descrita anteriormente se muestra a continuación:

𝑆 = ∑ ∑ 𝑠𝑖𝑔𝑛(𝑇𝑗− 𝑇𝑖) 𝑛 𝑗=𝑖+1 𝑛−1 𝑖=1 𝑠𝑖𝑔𝑛(𝑇𝑗− 𝑇𝑖) = { 1 𝑠𝑖 𝑇𝑗− 𝑇𝑖 > 0 0 𝑠𝑖 𝑇𝑗− 𝑇𝑖 = 0 −1 𝑠𝑖 𝑇𝑗− 𝑇𝑖 < 0

El procedimiento descrito anteriormente es el procedimiento estándar que sigue toda prueba Mann-Kendall. Sin embargo, al momento de calcular la varianza para el cálculo del estadístico de prueba existen varias aproximaciones o metodologías que le dan a la prueba Mann-Kendall ciertas características. Entonces, existen modificaciones para que la respectiva prueba pueda incluir el efecto de las covariables sobre la variable principal y ésta es llamada Mann-Kendall parcial y es la utilizada por Libiseller y Grimvall (2002). También, la prueba se puede modificar para que ésta tenga en cuenta la autocorrelación temporal de los datos, ya que cuando los datos de la serie de tiempo tienen esta característica, tendencias artificiales tienden a aparecer cuando en realidad no existen o no son estadísticamente significativas (Carmona & Poveda, 2014). Esta prueba Mann-Kendall modificada, para tener en cuenta la autocorrelacioón de los datos es la utilizada por Díaz-Granados & Camacho (2014) y Carmona y Poveda (2014) para el análisis de las series de datos. Sin embargo, también existe la prueba básica de Mann-Kendall que no tiene en consideración ninguna de estas características que pueden presentar los datos, y es la utilizada por Karmeshu (2012) para la detección de tendencias. Existen otras modificaciones como lo propone Maintainer & Pohlert (2018) que son las adaptadas a datos con estacionalidad y múltiples variables.

Ahora bien, como en el presente proyecto se busca probar la estacionaridad o no estacionaridad de variables individuales, solo se tienen en cuenta la prueba Mann-Kendall simple y la modificada para datos que presentan autocorrelación. Como bien se mencionó, la diferencia de

(9)

8 estas dos pruebas radica en el cálculo de la varianza; sin embargo, el estadístico de prueba se calcula de igual forma como se muestra a continuación:

𝑍𝑆= { 𝑆 − 1 𝜎 𝑝𝑎𝑟𝑎 𝑆 > 0 0 𝑝𝑎𝑟𝑎 𝑆 = 0 𝑆 + 1 𝜎 𝑝𝑟𝑎 𝑆 < 0

El estadístico de prueba 𝑍𝑖 es usado como una medida de significancia de la prueba (Karmeshu, 2012) en donde las diferentes hipótesis que se quieren validar o invalidar son:

𝐻0: 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑡𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 (𝑑𝑎𝑡𝑜𝑠 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠 𝑒 𝑖𝑑𝑒𝑛𝑡𝑖𝑐𝑎𝑚𝑒𝑛𝑡𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖𝑑𝑜𝑠) 𝐻1: 𝐸𝑥𝑖𝑠𝑡𝑒 𝑢𝑛𝑎 𝑡𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑡𝑎𝑑𝑖𝑠𝑡𝑖𝑐𝑎𝑚𝑒𝑛𝑡𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎

Ahora, el estadístico 𝑍𝑠 se compara con un valor critico 𝑍𝑐𝑟𝑖𝑡𝑖𝑐𝑜 (distribución normal estándar) asociado con un nivel de significancia 𝛼, generalmente del 5%. Entonces, si el valor del estadístico de prueba es menor que el valor de 𝑍𝑐𝑟𝑖𝑡𝑖𝑐𝑜 se aceptaría la hipótesis nula concluyendo que la tendencia es no significativa.

Como lo menciona Karmeshu (2012) hay dos principales ventajas de utilizar esta prueba. La primera es que la prueba es no paramétrica por lo que no requiere que los datos sigan una distribución normal, y además tiene tolerancia en cuanto a los datos atípicos (Carmona y Poveda 2014). La segunda, es que la prueba tiene baja sensibilidad a cambios bruscos debidos a la no homogeneidad de la serie.

3.2.2. Pendiente de Sen

Esta prueba es utilizada para cuantificar el cambio de la magnitud de las derivadas de tiempo locales (tasa de cambio) (Carmona & Poveda, 2014). La metodología requiere que los datos igualmente espaciados. La estimación de la pendiente se obtiene con la siguiente ecuación:

𝑚𝑘=

𝑋𝑖+1− 𝑋𝑖 (𝑖 + 1) − 𝑖

Siendo 𝑚 la respectiva pendiente entre dos puntos. Ahora, la pendiente de Sen se calcula como la mediana de todas las pendientes individuales.

Al igual que para la prueba de Mann-Kendall, la pendiente de Sen presenta modificaciones cuando los datos presentan ciertas características que hacen violar algunos de los supuesto básicos como la no presencia de autocorrelación. Pohlert (2018) utiliza una la prueba de Sen modificada para datos con estacionalidad y autocorrelación para el cálculo de la magnitud de la pendiente, donde se tienen en cuentas estas características antes mencionadas.

Esta metodología para calcular la magnitud de una tendencia tiene una ventaja y es que no hace ninguna suposición acerca de la distribución que siguen los dato, por consiguiente, se puede utilizar para series de datos que no cumplen con el supuesto de normalidad.

(10)

9

3.3. Homogeneidad

Con respecto a la homogeneidad de la serie de tiempo de variables hidroclimatologicas las pruebas que se utilizan comúnmente son las de Wilcoxon, Mann-Whitney (Díaz-Granados, 2018) y Von Neuman (Javari, 2016). Sin embargo, en algunas investigaciones como en las hechas por Javari (2016), Bernal et al. (2012), Kang y Yusof (2012) y Maintainer & Pohlert (2018) se utiliza otra aproximación para la evaluación de la homogeneidad de una serie llamada detección del punto de cambio. Este tipo de prueba evalúa si en algún periodo se da algún cambio en las propiedades estadísticas, y por consiguiente, si se llega a presentar ese cambio se concluiría que la serie es heterogénea y por lo tanto se estaría violando el supuesto de estacionaridad. Dentro de este tipo de pruebas se encuentra la prueba de Pettitt, la prueba del rango de Buishand y la prueba de homogeneidad normal estándar (Kang & Yusof, 2012).

Es pertinente dar una breve descripción de lo que es el análisis de punto de cambio. Como lo menciona Kallache, Rust, & Kropp (2005) muchas veces el término “Punto de cambio” no refleja lo que realmente significa o lo que realmente mide, que en realidad puede ser un cambio abrupto en la media, el comienzo de una tendencia lineal o el cambio de partes de una tendencia. Por esta razón, éste es un análisis importante para el presente proyecto, ya que en los registros hidrológicos muchas veces los puntos de cambio se dan debido a intervenciones antropogénicas, modificaciones de instrumentación o cambio climático (Kallache, Rust, & Kropp, 2005). Como se puede ver, estas características que potencialmente causan ese punto de cambio en las propiedades estadísticas, son similares a las que causan la no estacionaridad en las series.

Antes de dar una breve descripción de las pruebas de mayor relevancia para el proyecto con respecto a la homogeneidad de la serie y la detección del punto de cambio, es pertinente mencionar que todas éstas siguen una misma estructura de pruebas de hipótesis. Todas estas pruebas siguen la prueba de hipótesis que se presenta a continuación (Kang & Yusof, 2012): 𝐻0: 𝑉𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑠𝑒𝑟𝑖𝑒 𝑑𝑒 𝑡𝑖𝑒𝑚𝑝𝑜 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑛𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠 𝑒 𝑖𝑑𝑒𝑛𝑡𝑖𝑐𝑎𝑚𝑒𝑛𝑡𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖𝑑𝑜𝑠

𝑆𝑒𝑟𝑖𝑒 𝑠𝑒 𝑐𝑜𝑛𝑠𝑖𝑑𝑒𝑟𝑎 ℎ𝑜𝑚𝑜𝑔é𝑛𝑒𝑎

𝐻1: 𝐻𝑎𝑦 𝑢𝑛 𝑐𝑎𝑚𝑏𝑖𝑜 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜 𝑒𝑛 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑝𝑜𝑟 𝑙𝑜 𝑞𝑢𝑒 𝑙𝑎 𝑠𝑒𝑟𝑖𝑒 𝑠𝑒 𝑐𝑜𝑛𝑠𝑖𝑑𝑒𝑟𝑎 ℎ𝑒𝑡𝑒𝑟𝑜𝑔é𝑛𝑒𝑎

3.3.1. Prueba de Pettitt

Esta prueba considera una secuencia de variables aleatorias 𝑋1, … , 𝑋𝑇. Se dice que hay un punto de cambio en 𝜏, si 𝑋𝑡 para 𝑡 = 1, … , 𝜏 tiene una función de distribución común 𝐹1(𝑥) y 𝑋𝑡 para 𝑡 = 𝜏 + 1, … , 𝑇 tienen una función de distribución común 𝐹2(𝑥) y se cumple que 𝐹1(𝑥) ≠ 𝐹2(𝑥) (Kallache et al., 2005). Acá viene una de las ventajas de esta prueba y es que no hace ningún supuesto sobre las distribuciones 𝐹1(𝑥) y 𝐹2(𝑥), y solo es necesario que las variables sobre las que se aplica la prueba sean continuas. El estadístico de prueba es definido como (Bates, Chandler, & Bowman, 2012):

𝐾 = max 1≤𝑡<𝑛|𝑈𝑡,𝑛| Donde, 𝑈𝑡,𝑛= ∑𝑡𝑖=1∑𝑇𝑗=𝑡+1𝑠𝑖𝑔𝑛(𝑋𝑖− 𝑋𝑗)

(11)

10 Siendo 𝑅𝑗 el rango de las observaciones. El punto de cambio de la serie está localizado en 𝐾. El valor del estadístico de prueba es comparado con el valor crítico propuesto por Pettitt (1979). Finalmente, una de las características particulares de este método es que es sensible a cambios en la serie localizados en la mitad de la serie de tiempo.

3.3.2. Prueba del rango de Buishand

A diferencia de la prueba de Pettitt, el rango de Buishand considera variables 𝑋 aleatorias normalmente distribuidas. A partir de esto se procede a presentar la formulación para la elaboración de la prueba (Maintainer & Pohlert, 2018):

𝑥𝑖 = {𝜇 + Δ + 𝜖𝑖𝜇 + 𝜖𝑖 𝑖 = 1, … , 𝑚 𝑖 = 𝑚 + 1, … , 𝑛

En este caso, bajo la hipótesis nula Δ = 0, por lo que si se rechaza ésta Δ ≠ 0. Las sumas parciales se calculan como:

𝑆𝑘 = ∑(𝑥𝑖− 𝑥̂) (1 ≤ 𝑖 < 𝑛) 𝑘

𝑖=1

Con esto se procede a calcular el estadístico de prueba de la siguiente forma: 𝑅𝑏 =max 𝑆𝑘 − min 𝑆𝑘

𝜎

Finalmente, el p-valor para completar la prueba de hipótesis se calcula a partir de simulaciones de Monte Carlo usando m réplicas (Maintainer & Pohlert, 2018).

Ahora bien, la particularidad de este método es que al igual que el de Pettitt, es sensible para detectar cambios que se presentan en la mitad de la serie de datos.

3.3.3. Prueba de homogeneidad normal estándar (SNHT)

Al igual que la prueba de Buishand, la SNHT asume que los datos se distribuyen normal. El estadístico de prueba se describe a continuación (Maintainer & Pohlert, 2018):

𝑇𝑘 = 𝑘𝑧12+ (𝑛 − 𝑘)𝑧22 (1 ≤ 𝑘 < 𝑛) Donde 𝑧1= 1 𝑘 ∑ 𝑥𝑖−𝑥̅ 𝜎 𝑘 𝑖=1 𝑧2= 1 𝑛−𝑘∑ 𝑥𝑖−𝑥̅ 𝜎 𝑛 𝑖=1+𝑘

Y el valor crítico corresponde a: 𝑇 = max 𝑇𝑘

Al igual que para la anterior prueba el p-valor para concluir sobre la prueba de hipótesis se estima mediante simulaciones de Monte Carlo usando m réplicas

A diferencia de los dos anteriores métodos la particularidad de éste radica en que este tiene una mayor sensibilidad para detectar cambios al comienzo o al final de la serie de tiempo.

(12)

11

3.4. Variables de interés

Ahora bien, después de hacer la descripción de las pruebas más importantes vale la pena preguntarse, a qué tipo de variables se les tiene que hacer las respectivas pruebas para poder probar la no homogeneidad de la serie. Éstas pruebas pueden realizarse sobre múltiples variables. Por ejemplo, Carmona y Poveda (2014) realizan las pruebas sobre las series de lluvias mensuales, descargas promedio de ríos y temperaturas mínimas; Cepeda y Rodríguez (2016) toman como variables de estudio la precipitación total mensual y temperatura media, mínima y máxima mensual, y Cantor (2011) vuelve a tomar las series de precipitación mensual. Sin embargo, en muchas investigaciones primero se hace un modelo de regresión, en algunos casos con covariables, y a partir de esos modelos de regresión se le aplican las pruebas de tendencia y homogeneidad a los residuos o al modelo ajustado en si, como es el caso de Kallache et al. (2005), Libiseller y Grimvall (2002), Javari (2016) y Serinaldi y Kilsby (2014). Finalmente, se le puede dar una última aproximación al problema de las variables y es mediante la utilización del método de descomposición de la serie en sus funciones modales intrínsecas (IMF) metodología utilizada por Díaz-Granados y Camacho (2014) y Carmona y Poveda (2014).

3.4.1. Descomposición modal empírica

Como lo mencionan Carmona y Poveda (2014) la descomposición modal empírica (EMD) es un proceso de filtración que permite la descomposición de una serie de tiempo en un numero finito de funciones modales intrínsecas (IMF), cada una de éstas está asociadas con diferentes modos oscilatorios que están embebidos en la serie de datos original. La EMD es un método adaptativo que trabaja directamente sobre la serie de tiempo y es derivada exclusivamente de la información suministrada por lo que al aplicarla no se realiza ninguna suposición extra. Por esta razón este tipo de descomposición está basada en características locales de los datos observados, lo que la hace aplicable a series no lineales y a series que violen el supuesto de estacionaridad. Ahora bien, al generar la descomposición de la serie en sus funciones modales intrínsecas se puede obtener la función residual, que es la que se utilizaría para analizar la posible presencia de tendencias o no homogeneidad, por lo tanto, a esta función residual es a la que se le aplicarían las pruebas, como lo hace Díaz-Granados y Camacho (2014) y Carmona y Poveda (2014) con el principal propósito de detectar tendencias a largo plazo.

4. METODOLOGÍA

Existen muchas aproximaciones metodológicas para el análisis de series de tiempo hidroclimatológicas como las propuestas por Díaz-Granados (2018) y Castro y Carvajal (2010) en las cuales se comienza haciendo un análisis riguroso de la información para luego proceder a realizar el análisis confirmatorio estadístico de las hipótesis de interés. Ahora bien, la metodología empleada en el desarrollo del presente proyecto se divide en las etapas que se muestran a continuación:

1. Inventario de información disponible

2. Análisis de calidad y consistencia y validez de la información -Análisis de datos anómalos

(13)

12 -Análisis exploratorio, gráfico y estadísticas descriptivas

3. Análisis estadístico -Normalidad -Autocorrelación

-Tendencias y su magnitud

-Homogeneidad y punto de cambio

4. Evaluación de los resultados obtenidos y conclusiones a partir de éstos

En el presente segmento del proyecto se procede a describir cada una de las etapas de la metodología de forma detallada con su debida justificación.

4.1. Inventario de información disponible

Este es el primer paso que se debe llevar a cabo siempre que se va a realizar un análisis de una serie de tiempo hidroclimatológica. Ahora bien, en primera instancia se tienen que identificar las estaciones disponibles, lo cual se refiere al tipo de estación, localización de la misma, periodos de registros disponibles y las variables con las que cuentan los registros (precipitación, brillo solar, temperatura, caudales, entre otros) (Díaz-Granados, 2018). Después de esto, se debe llevar a cabo una valoración rigurosa de la información disponible. Dentro de la valoración se incluye la identificación del nivel de agregación (información diaria, mensual, anual).

4.2. Análisis de calidad, consistencia y validez de la información

Como lo menciona Díaz-Granados (2018), después de identificar la información disponible, ésta es la primera etapa dentro de los análisis hidrológicos. Esto es debido a que permite establecer la calidad de la información disponible, los valores anómalos, porcentajes de información incompleta o inexistente, y por esto ayuda a reducir la incertidumbre en los resultados por efecto de errores en los datos (Díaz-Granados, 2018). Sin embargo, cabe aclarar que siempre va a existir incertidumbre en los resultados, ya que la información hidrometeorológica, al ser medida con instrumentos de recolección de datos siempre va a tener un margen de error asociado.

Ahora bien, como parte de este análisis preliminar de la información se debe llevar a cabo un análisis de datos anómalos y faltantes y un análisis exploratorio base. A continuación, se hace una explicación de este tipo de análisis.

4.2.1. Análisis de datos anómalos y datos faltantes

Con respecto a los datos faltantes y la completitud de las series de tiempo, como lo menciona Díaz-Granados (2018), es conveniente que las series hidrométricas sean lo más completas posible para poder realizar una apropiada caracterización de las mísmas. Para esto entonces, se traen a colación los criterios utilizados por Diana Cristina Cantor de la Universidad Nacional de Colombia (2011), en donde las series a analizar tienen que tener un período de registro superior a 25 años y un porcentaje de faltantes inferior al 10%. Ahora bien, después de seleccionar las mejores series disponibles por medio del uso de estos criterios, existen distintas metodologías para completar los datos faltantes. Sin embargo, este completado depende de la cantidad de faltantes que se tengan. Por consiguiente, se sugiere (Díaz-Granados, 2018) que cuando se tenga un faltante se tome el promedio del día anterior y posterior, si se tienen de 2 a 5 faltantes se haga un promedio móvil con una ventana de 7 días o utilizar las correlaciones con estaciones vecinas para el completado. Finalmente, cuando hay más de 5 datos faltantes se puede utilizar la aproximación propuesta por Díaz-Granados & Camacho (2014) en donde se hacen regresiones simples o múltiples locales o globales para completar los datos.

(14)

13 Ahora bien, con respecto a los datos anómalos se lleva a cabo otro tipo de aproximación. Existen aproximaciones gráficas como la de analizar los residuos de las regresiones lineales, que en este caso al no tener regresiones con covariables no se lleva a cabo. Existen otras aproximaciones estadísticas como las propuestas por Díaz-Granados (2018) para identificar datos potencialmente anómalos; dentro de estas pruebas están: Z-scores, Modified Z-scores, Generalized Extreme Studentized Deviate (GESD), Grubbs, Titjen y Moore y Kimber. Generalmente en estos casos se realizan todas las pruebas y se adopta un criterio en el cual se acepta anomalía de un dato cuando al menos 𝑚 pruebas sugieran que este dato es anómalo, y finalmente si este dato es anómalo se corrige con técnicas de llenado de faltantes.

4.2.2. Análisis exploratorio gráfico

A partir de este tipo de análisis se da la primera aproximación para saber si la serie es estacionaria. Como lo menciona Cantor (2011), el esquema metodológico de un análisis exploratorio para detectar la existencia de alguna tendencia y/o cambio, y la homogeneidad de la serie empieza por un análisis gráfico. Existen muchas aproximaciones gráficas para las series de tiempo con el fin de identificar comportamientos de la serie por medio visual. Sin embargo, en el presente proyecto se utilizan las siguientes:

Graficas de series de tiempo

En este tipo de gráficas se presentan los datos ordenados cronológicamente en las ordenadas y el tiempo (fechas) en las abscisas. Según Cantor (2011), éstos son gráficos en los cuales se pueden observar tendencias, cambios, intermitencia, entre otras propiedades de la serie. Cabe aclarar que la mayoría de las veces es de elevada dificultad evidenciar las tendencias por medio de esta aproximación gráfica. Debido a esto, se utiliza una herramienta llamada LOWESS, siglas en ingles que denotan: “Locally Weighted Scatterplot Smoothing”. Este es un método que utiliza los mínimos cuadrados ponderados para ajustar una curva a la serie de puntos para “suavizar” la serie con el principal objetivo de identificar relaciones entre variables o identificar tendencias. Este tipo de gráficas se le aplican a la serie de datos originales sin ninguna alteración.

Otra aproximación que se lleva a cabo es la de graficar los datos estandarizados. Al estandarizar los datos se espera que éstos pasen a estar distribuidos alrededor del cero, por lo que al hacerlo se podrían identificar más fácil las tendencias. Además, al hacer esto se podrían identificar datos potencialmente anómalos como los datos que están más alejados del cero. Descomposiciones de las series de tiempo

La descomposición se las series es útil ya que puede remover factores de ruido que no permiten ver las tendencias. En el caso del presente proyecto se implementó una descomposición de forma aditiva y una descomposición modal empírica en la cual se descompone la serie en sus funciones modales intrínsecas.

Diagramas de caja y bigotes

Como lo menciona Cantor (2011) a partir de este tipo de diagramas se puede obtener un resumen de la información ya que brinda una idea de la tendencia central, la variabilidad, la simetría y la presencia de datos atípicos.

(15)

14 La función principal de los histogramas es poder identificar si la serie de datos sigue alguna distribución en particular. En este caso, la distribución más importante a considerar es la normal, ya que ésta determina el tipo de pruebas que se le pueden aplicar a las series, si pueden ser pruebas paramétricas o tienen que ser no paramétricas. Debido a esto los gráficos p-p y q-q que se realizan son para comprobar si la serie de datos se ajusta a una distribución normal.

Gráfica de los residuos de la descomposición modal empírica (EMD)

Como bien se mencionó en el marco teórico al descomponer la serie de tiempo en las funciones modales intrínsecas se obtiene una serie residual, la cual se puede graficar para tener otra intuición acerca de la presencia de tendencia y el supuesto de estacionaridad.

4.3. Análisis estadístico confirmatorio

Aunque el análisis gráfico da una muy buena aproximación acerca del comportamiento de los datos y ayuda a entender características importantes de los mismos, a partir de esto no se puede concluir nada al respecto sobre la serie. Por consiguiente, es pertinente realizar análisis confirmatorios cuyo propósito es el de confirmar estadísticamente la presencia o ausencia de ciertas propiedades sobre las cuales se pudo tener una intuición en el análisis grafico preliminar. Como bien se sabe existen pruebas estadísticas tanto paramétricas como no paramétricas. La mayoría de las pruebas paramétricas suponen que los datos siguen una distribución normal, y son sensibles a la cantidad de datos, a las asimetrías y a la presencia de datos atípicos (Cantor, 2011). Por otro lado, las pruebas no paramétricas no requieren ningún supuesto de normalidad o de otra distribución específica, y en algunos casos no son sensibles ante la presencia de datos atípicos. Por consiguiente, antes de poder realizar cualquier prueba es necesario verificar si la serie de datos se distribuye normal. Después, de verificar normalidad es pertinente hacer el análisis de autocorrelación debido a que esta propiedad puede generar ruido al momento de realizar otras pruebas. Por ejemplo, al momento de evaluar una tendencia la presencia de esta propiedad puede dar a concluir que hay tendencia cuando en realidad no la hay. Después de verificar estas dos propiedades se procede a realizar las pruebas confirmatorias de estacionaridad, tanto de tendencias como de homogeneidad / punto de cambio y regresión lineal.

4.3.1. Normalidad

La primera aproximación a esta prueba se hace mediante el análisis gráfico del histograma y las gráficas de p-p y q-q. Después de tener esta intuición se procede a realizar la confirmación estadística. Dentro de las pruebas más utilizadas está la de Kolmogorov-Smirnov y Chi cuadrado (Javari (2016), Cantor (2011)) y la de Shapiro-Wilk (UB, (s.f), Cantor (2011), Díaz-Granados (2018)). Todas las pruebas llevan a cabo la misma prueba de hipótesis:

𝐻0: 𝐿𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑠𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑦𝑒𝑛 𝑛𝑜𝑟𝑚𝑎𝑙 𝐻1: 𝐿𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑛𝑜 𝑠𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑦𝑒𝑛 𝑛𝑜𝑟𝑚𝑎𝑙

Cabe resaltar que la prueba Shapiro-Wilk tiene un mejor desempeño cuando la muestra tiene como máximo 50 datos.

(16)

15 A partir de esto, como bien se dijo anteriormente se procede a realizar pruebas paramétricas o no paramétricas en los análisis posteriores.

4.3.2. Autocorrelación

La segunda propiedad que se analiza en la metodología es la de autocorrelación. En pocas palabras, esto se puede entender como la correlación entre miembros de series observacionales ordenadas en el tiempo. En otras palabras, se puede considerar como una dependencia entre los valores de los datos ordenados en el tiempo. Ésta es una propiedad importante ya que muchas pruebas estadísticas y modelos como el de regresión lineal, asumen que los datos no presentan autocorrelación, por lo que al presentarla se violarían supuesto de algunas pruebas y por consiguiente perderían validez. Como se ha mencionado antes en el documento, un claro ejemplo de esto es la prueba Mann-Kendall que necesita ser modificada cuando los datos presentan autocorrelación.

Ahora bien, para probar autocorrelación en una serie de tiempo hay que tener en consideración el rezago o “lag” en el que se presenta la esta propiedad. Esto se puede entender cómo, a partir de cuantos valores t unidades de tiempo atrás depende el dato que se está analizando. En el caso de este proyecto, se realiza una primera prueba para probar autocorrelación de lag 1 y posterior a esto se elabora un correlograma o gráfico de autocorrelación que muestra la significancia de la autocorrelación dependiendo del lag por lo que permite identificar hasta qué rezago se presenta esta propiedad de la serie. Siguiendo esta línea de ideas, para hacer la primera prueba se tienen que tener dos series de datos, la primera desde 𝑡 = 0 hasta 𝑡 = 𝑇 − 1 y la segunda desde 𝑡 = 1 hasta 𝑡 = 𝑇; así al aplicar la prueba se puede llegar a una conclusión acerca de si los datos presentan correlación de orden 1. La prueba de hipótesis que plantea la prueba es la siguiente:

𝐻0: 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 = 𝜌 = 0 𝐻1: 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 = 𝜌 ≠ 0

Se realiza la prueba de correlación de Pearson, que mide la fuerza y dirección de la asociación que existe entre dos variables, siendo en este caso la serie de tiempo normal y la serie rezagada una unidad de tiempo.

4.3.3. Tendencias y su magnitud

Para identificar si la tendencia que presentan los datos es significativa o no se realiza como prueba principal la prueba Mann-Kendall expuesta en el marco teórico. Dependiendo entonces de si los datos presentan autocorrelación se escoge si se lleva a cabo la prueba modificada o la prueba general. En el caso de que no se presente autocorrelación, como un procedimiento confirmatorio se realiza la prueba de tendencia Cox and Stuart, que se rige por un principio similar a la de la prueba Mann-Kendall. A partir de entonces, se llega a una conclusión sobre la significancia de la tendencia que puede presentar la serie.

Ahora bien, es pertinente también tener una aproximación de la magnitud de la pendiente. Para esto se estima la pendiente de Sen, método explicado en el marco teórico. Si bien esta prueba también depende del resultado de autocorrelación de los datos, que si presenta esta propiedad se utiliza la pendiente modificada de Sen. A partir de este resultado, además de saber la magnitud de la tendencia, también se puede identificar si la misma es positiva o negativa.

(17)

16

4.3.4. Homogeneidad y punto de cambio

Para la detección de homogeneidad o heterogeneidad de la serie de tiempo se utilizan las pruebas descritas en el marco teórico las cuales incluyen: Prueba de Pettitt, Prueba del rango de Buishand y Prueba de homogeneidad normal estándar. Esto con el fin de probar si alguno de los parámetros estadísticos presenta cambios en el tiempo. Ahora bien, hay que hacer una consideración sobre la interpretación de resultados de estas pruebas. Entonces, cuando los datos se distribuyen normal se concluye como lo hizo Kang y Yusof (2012) teniendo en cuenta los resultados de las tres pruebas así: si de rechazan las tres hipótesis nulas de las tres pruebas la serie es considerada heterogénea, si se rechazan solo dos de las tres pruebas se considera que la serie tiene señales de no homogeneidad, pero se debería hacer una análisis más detallado de ésta, y por ultimo si solo se rechaza la hipótesis de una prueba o no se rechaza ninguna se concluye que la serie es homogénea. Por otro lado, si la serie de tiempo no se distribuye normal, el resultado más significativo para la conclusión acerca de la serie es el que se obtiene a partir de la prueba de Pettitt, ya que ésta es la única prueba no paramétrica que no asume normalidad en los datos.

Como bien se mencionó, como resultado de estas pruebas se obtiene le fecha en la cual se presenta el cambio en la media. Por consiguiente, para hacer un análisis más profundo y para que se tenga una mejor interpretación se grafican dos diagramas de caja y bigotes para ver qué tan significativos (visualmente) es el cambio en la media o varianza. Este tipo de análisis es propuesto por Castro y Carvajal (2010) para determinar si existe un cambio en la media de la tendencia central de la serie hidroclimatológica.

4.3.5. Regresión lineal

La regresión lineal es la última prueba que se realiza en la metodología empleada en el presente proyecto. El modelo de regresión a aplicar es un modelo simple descrito por la ecuación que se presenta a continuación:

𝑌̂ = 𝛽0+ 𝛽1𝑋𝑡𝑖𝑒𝑚𝑝𝑜+ 𝜖

Siendo 𝑌 la precipitación y 𝑋 la variable temporal. El parámetro más importante del resultado del modelo de regresión es el 𝛽1 ya que es la estimación de la pendiente, por lo que sí es significativo se podría concluir que hay presencia de tendencia y por consiguiente la serie podría violar el supuesto de estacionaridad.

Sobre este procedimiento cabe aclarar varios puntos. Primero, la estimación de los parámetros del modelo de regresión lineal por mínimos cuadrados asume que los datos siguen una distribución normal y son independiente e idénticamente distribuidos. Por consiguiente, si los datos no siguen una distribución normal y se presenta heterogeneidad o autocorrelación en la serie no sería correcto aplicar este modelo de regresión lineal ya que las conclusiones a partir de este serían erróneas (Valencia, 2019). Por tal motivo, solo se ajusta el modelo de regresión cuando los datos cumplan todos los supuestos. Segundo, se realiza esta prueba solo como un procedimiento confirmatorio y debido a la facilidad de interpretación del resultado (𝛽); sin embargo, las pruebas que más pesan en toda la metodología son las de tendencia y homogeneidad presentadas anteriormente.

(18)

17

4.4. Evaluación de los resultados obtenidos

Ahora bien, al aplicar la metodología desarrollada se agrupan los resultados para cada serie de tiempo de manera individual. Se documentan los resultados de significancia para las pruebas de autocorrelación, tendencias, homogeneidad y regresión lineal. En algunos casos se documenta también la magnitud, como es el caso de la tendencia y la regresión lineal y en otros casos periodos de tiempo para las pruebas de homogeneidad. Ahora bien, en cuanto a la interpretación se pueden resaltar varios puntos. Primero, si la serie analizada tiene tendencias significativas y además presenta problemas de heterogeneidad también significativos, ésta va a ser clasificada como una serie que no cumple con el supuesto de estacionaridad. Por otro lado, si la serie presenta tendencias significativas, pero es homogénea en el tiempo, ésta va a ser clasificada como una serie que es potencialmente no estacionaria ya que presenta tendencia. De igual manera, cuando la serie no presenta una tendencia significativa, pero es heterogénea en el tiempo, ésta también va a ser clasificada como una serie potencialmente estacionaria ya que tiene cambios significativos a lo largo del tiempo en los parámetros estadísticos. Por último, si la serie no presenta tendencias significativas y es homogénea en el tiempo, ésta va a ser clasificada como una serie que cumple con el supuesto de estacionaridad. Cabe resaltar que este análisis es el centro o núcleo de esta investigación.

Aparte del principal análisis propuesto en el anterior párrafo se pueden proponer otras aproximaciones igualmente interesantes para la evaluación de los resultados obtenidos. Entonces, uno de los parámetros de interés a analizar sería el del tiempo (fecha) en el que se presenta el cambio en la propiedad estadística que hace que la serie de tiempo no sea homogénea. Al comparar este resultado en todas las series evaluadas se puede tener una idea de en qué fechas comenzaron a presentarse cambios y se puede hacer una investigación acerca de lo sucedido alrededor de esa fecha. Otro punto importante que se puede evaluar es el de la comparación de los resultados de una misma variable para una misma serie, pero con diferente nivel de agregación. Por ejemplo, realizar una comparación de los resultados obtenidos para la serie mensual de precipitación con los resultados obtenidos para la serie anual de precipitación, bien pueden ser totales, máximos o mínimos anuales. A partir de esta comparación, analizar por qué puede suceder esto, qué propiedades de la serie pueden estar haciendo que esto suceda y qué implicaciones tiene sobre la conclusión final acerca de si la serie cumple con la estacionaridad o no.

4.5. Metodología de implementación

La implementación del procedimiento se llevó a cabo en el software RStudio. Se realizó una rutina en la cual se utilizaron diferentes paquetes. Dentro de estos los más importantes son: trend,

xts y EMD. EL paquete trend utilizado por Maintainer & Pohlert (2018) provee todos los métodos

para hacer análisis de tendencias, el paquete xts se utiliza para hacer el análisis de la serie de datos hidroclimatológicos como una serie temporal lo que le da a la serie ciertas propiedades importantes a la hora del análisis y el paquete EMD se utiliza para descomponer la serie en funciones modales intrínsecas. En Anexo 1 se presenta el diagrama de flujo del procedimiento realizado en el software RStudio para la implementación de la metodología descrita anteriormente.

(19)

18

5. CASO DE ESTUDIO

Para la selección del caso de estudio se tuvieron en cuenta las siguientes consideraciones, presentadas a continuación según el orden de importancia:

1. Disponibilidad y calidad de la información 2. Importancia del sitio en el país

3. Estudios anteriores sobre el sitio

Entonces, con respecto a la información disponible se tuvieron series de tiempo suministradas por entidades como el IDEAM, las CARs y CENICAFE y series de estudios anteriores. Con respecto a la información del IDEAM y de las corporaciones autónomas regionales (CARs) hubo mucha información faltante lo que hizo a la mayoría de las series ser incompletas y no cumplir el criterio de selección expuesto anteriormente sobre un máximo de 10% de faltantes. Por el lado de la información de los estudios anteriores el problema radicó en la longitud de las series de tiempo, incumpliendo en algunos casos el criterio de un mínimo de 25 años de registro. Por último, CENICAFE que por medio de los anuarios meteorológicos anuales provee información completa de un amplio número de estaciones. Con respecto a la característica de completitud de la información la información de CENICAFE era la mejor alternativa. Ahora, con respecto a la longitud de estas series se tuvo acceso a anuarios físicos desde 1999 hasta 2005 (Biblioteca Universidad de los Andes) y anuarios digitales desde el 2006 hasta el 2017, lo que conforma una ventana temporal de 18 años. Sin embargo, de un estudio anterior (suministrado por Díaz-Granados) se tuvo información de las series diarias de precipitación desde 1973 hasta 1999, que juntándola con la información de los anuarios se logró tener una ventana de tiempo de 44 años. Esta información corresponde a las observaciones meteorológicas en la red de estaciones que posee la Federación Nacional de Cafeteros a lo largo y ancho de la zona cafetera colombiana (CENICAFE, 2017).

Dado que en CENICAFE hay información de más de 100 estaciones fue necesario escoger algunas de éstas. Para esto se utilizaron las dos últimas: importancia del sitio en el país y estudios anteriores sobre el sitio. Los departamentos de mayor importancia dentro de las zonas cafeteras son los de Caldas, Quindío y Risaralda (Duque, s.f). Según el Banco de la República (2019) el Eje Cafetero representado por los tres departamentos mencionados registró exportaciones totales por US$341 millones, donde las exportaciones de café fueron de aproximadamente US$204 millones. Si se compara esto con el total de exportaciones de café en Colombia, se puede concluir que el Eje Cafetero representa alrededor del 40% de las exportaciones de café. Por otro lado, después de realizar la revisión bibliográfica para la elaboración del presente proyecto no se encontró ningún análisis similar en la zona. Por estas razones se escogieron estaciones de estos tres departamentos. La información que se utilizó para el análisis en esta zona se obtuvo solo de CENICAFE.

Ahora bien, vale la pena hacer una breve descripción de la zona antes de proceder a realizar el análisis de las series. Entonces, estos tres departamentos están localizados en la región noroeste del país como se puede evidenciar a continuación:

(20)

19 Figura 1 Ubicación eje cafetero

Como bien se puede apreciar en el mapa esta zona tiene una ubicación privilegiada ya que está en la mitad del eje industrial y las tres ciudades más importantes de Colombia: Cali, Medellín y Bogotá. Ahora bien, de forma específica el departamento de Caldas cuenta con 27 municipios siendo Manizales la capital, el departamento de Quindío cuenta con 12 municipios y Armenia es su capital y, por último, el departamento de Risaralda cuya capital es Pereira tiene 14 municipios. A continuación, se presenta la división de cada uno de los municipios ( Figura 2 Municipios de los departamentos eje cafetero) y las capitales de los mismos (Figura 3 Capitales departamentos Eje cafetero) .

(21)

20 Figura 2 Municipios de los departamentos eje cafetero

Figura 3 Capitales departamentos Eje cafetero

Ahora bien, ya con la zona establecida es pertinente hablar acerca de las estaciones y las variables que se analizaron en el presente proyecto. Como lo menciona CENICAFE (2010), la lluvia y la radiación solar son los dos elementos del clima de mayor importancia para la producción del café, y por lo tanto los parámetros de mayor pertinencia para el análisis climático de la región. Además de esto, como bien se dijo antes, la única información que se pudo obtener

(22)

21 desde los años 1990 hacia atrás fue la de precipitación diaria. Por estas dos razones se escogió la precipitación como la variable de análisis del presente proyecto. Primero, se utilizaron las series mensuales, y posterior a esto se hizo uso de las series de valores totales, máximos, mínimos y medios anuales. Con respecto a las estaciones, se seleccionaron las estaciones (total de 10) listadas a continuación:

- De Caldas: Santagueda, Cenicafé, Granja Luker, Naranjal. - De Quindío: Paranguacito, La Bella, Maracay.

- De Risaralda: La Catalina, El Cedral, El Jazmín

5.1. Aplicación detallada de la metodología

En el presente apartado del proyecto se realiza una descripción detallada de la metodología propuesta en la sección anterior con el objetivo de ilustrar cómo se llevaron a cabo las pruebas, esto es, de qué forma se concluye a partir del análisis gráfico y del análisis de las pruebas de hipótesis y como se recolectan los resultados obtenidos a partir de este procedimiento. El propósito principal es presentar dos diferentes resultados de la metodología, uno para una serie de tiempo mensual y otro para series de tiempo anuales. Esto con el propósito de ilustrar los resultados que se pueden obtener con dos series distintas, que propiedades especificas tienen y cómo esto se pueden apreciar a partir de las pruebas realizadas.

Antes de los análisis es necesario revisar las características básicas de la serie. Como ilustración se usa aquí la serie de la estación El Naranjal del departamento de Caldas, que cuenta con registros de precipitación mensual desde el año 1972 hasta el año 2017, con una media de 226,7 milímetros mensuales, un máximo de 579,4 milímetros y un mínimo de 6,8 milímetros. Ahora bien, dicho esto se procede a realizar el análisis.

5.1.1. Serie de precipitación mensual

Análisis gráfico

Como bien se mencionó la primera parte de la metodología incluye el análisis gráfico. Primero, se procede a realizar la gráfica de la serie de tiempo con la respectiva línea Lowess para poder observar una posible tendencia.

(23)

22 Gráfica 1 Serie de tiempo El Naranjal

Como se puede identificar a partir de la línea roja en la Gráfica 1 Serie de tiempo El Naranjal, no hay una evidencia muy fuerte de que se presente una tendencia significativa. Si bien la línea roja es constante hasta el año 1998, a partir de este año se ve un leve incremento en la misma, por lo cual con este pequeño pero constante incremente podría llegarse a suponer la presencia de una tendencia significativa. No obstante, como bien se sabe a partir de esta información no se puede dar una conclusión certera. Sin embargo, después de realizar las pruebas confirmatorias la tendencia podría no ser significativa. Ahora bien, se procede a realizar la descomposición de la serie de forma aditiva como se muestra a continuación:

(24)

23 Gráfica 2 Descomposición aditiva de la serie de tiempo

En la Gráfica 2 Descomposición aditiva de la serie de tiempose pueden identificar 4 tipos de gráficas, la primera es la serie de tiempo observada, que es equivalente a la primera gráfica que se expuso, la segunda es la gráfica de la tendencia, la tercera es la estacionalidad de la serie y por último esta la aleatoriedad de la serie. De las gráficas la más importante es la de la tendencia, y como se puede evidenciar es casi constante a lo largo del tiempo, no se presenta ningún incremento o decrecimiento significativo. Sin embargo, no es correcto concluir nada al respecto.

Se procede a graficar la función residual de la descomposición modal de la serie de tiempo. Para un mejor análisis también se presenta la tendencia encontrada en la anterior descomposición aditiva.

(25)

24 Gráfica 3 Serie residual EMD El Naranjal

Gráfica 4 Tendencia descomposición aditiva

A partir de la presente gráfica no se pueden sacar conclusiones concretas. Sin embargo, se podría decir que hay una posible tendencia ya que se puede ver un incremento significativo a partir un punto en el tiempo. Además, comparándola con la serie de la descomposición aditiva se puede ver que en las dos se presenta el mismo comportamiento, primero decreciente y después creciente. Sin embargo, esta serie de residuos es de mayor utilidad al hacer las respectivas pruebas confirmatorias.

(26)

25 Ahora bien, se procede a realizar la porción del análisis con enfoque en la distribución de los datos, por lo tanto, lo primero es realizar el diagrama de caja y bigotes.

Gráfica 5 Diagrama de caja y bigotes El Naranjal

Acerca del presente diagrama no se pueden hacer conclusiones muy fuertes. Lo que se puede ver es que la media de la precipitación está al rededor de 200 milímetros y que la mayoría de los datos (percentil 25 y 75) están en el rango de 150 y 350 milímetros. Además, hay presencia de valores que están por fuera del bigote que denota el máximo por lo que habría que tenerlos en consideración al momento de hacer el análisis de los datos atípicos. Se procede ahora a realizar el análisis del histograma.

(27)

26 En este caso, se puede apreciar la forma de campana en la distribución, por lo que se genera la intuición de que los datos pueden llegar a distribuirse de forma normal.

Finalmente se realiza un análisis gráfico de la serie estandarizada, con el fin de identificar posibles datos anómalos y también posibles tendencias:

Gráfica 7 Serie de tempo datos estandarizados El Naranjal

A partir de la anterior gráfica se puede apreciar cómo la mayoría de los datos se distribuyen alrededor del cero y se encuentran en el rango de -3 a 3, por consiguiente, se considera que no hay ningún dato anómalo en la serie.

Normalidad

Ya se tiene entonces una primera aproximación a la posible distribución de la serie gracias al histograma; sin embargo, en esta sección se procede a realizar el análisis confirmatorio. Primero entonces, se realiza un gráfico cuantil-cuantil como se muestra a continuación:

(28)

27 Gráfica 8 q.q plot serie en Naranjal

En este tipo de gráfica se hace una comparación de los cuantiles de la distribución normal teórica con los cuantiles de la serie. Lo más importante para tener en cuenta son las dos colas; en otras palabras, el principio y el final de la gráfica, a diferencia de la gráfica p-p en donde solo se analiza una cola. Ahora bien, se puede ver que la línea se ajusta relativamente bien a la distribución propuesta. Identificado esto se procede a realizar las pruebas estadísticas. A continuación, se presentan los respectivos p-valores de cada una de las pruebas:

Tabla 1 P-valores pruebas normalidad El Naranjal

Para concluir sobre las siguientes pruebas hay que tener algunas consideraciones. La primera es que, como bien se dijo, la prueba de Shapiro solo provee conclusiones correctas cuando la cantidad de datos es menor que 50, y como la presente serie tiene 552 datos el resultado de la prueba no se tiene en cuenta. Ahora bien, con respecto a las pruebas K-S y Chi cuadrado, se puede decir que cuando la cantidad de datos es superior a 30 la prueba Chi cuadrado provee un mejor resultado que la de K-S (Sergio Cabrales, 2018). Sin embargo, se puede apreciar que el p-valor de la prueba K-S es muy cercano a la significancia. Por consiguiente, se concluye que la serie se distribuye normal ya que a partir de la prueba 𝜒2 no se rechaza la hipótesis nula por lo cual la serie sigue la distribución propuesta.

Autocorrelación

A continuación, se procede realizar las pruebas para verificar si la serie de datos presenta autocorrelación. Se realiza la prueba de Pearson entre la serie de datos normal y la serie rezagada un periodo. Al aplicar la prueba se obtiene que el p-valor es igual a 6,203 ∗ 10−9. Por esta razón, se concluye que como el p-valor es menor a una significancia del 5% se rechaza la hipótesis nula por lo que el parámetro de correlación 𝜌 es diferente de cero y por consiguiente la serie presenta

Prueba P-valor

Shapiro test 0,00065

K-S test 0,038

(29)

28 autocorrelación de orden 1. Además, la respectiva prueba arroja un valor de correlación igual a 𝜌 = 0,244. Ahora bien, para tener una mejor visualización de la autocorrelación y por ende una mejor interpretación de esta propiedad en la serie, se procede a elaborar el autocorrelalograma como se muestra a continuación:

Gráfica 9 Autocorrelalograma

Del gráfico presentado lo que se analiza es si las líneas verticales superan las líneas punteadas horizontales. Si las superan, significa que la correlación del correspondiente lag (eje x) es significativa. Por consiguiente, a partir de esto se puede ver que la serie si presenta signos de autocorrelación.

Tendencias y su magnitud

Sabiendo las propiedades de la serie se puede proceder a realizar las pruebas de tendencias. Como el test de autocorrelación resultó positivo y los datos presentan esta propiedad se procede a utilizar la prueba Mann-Kendall modificada para este tipo de series. Al realizar la prueba se obtuvo que el p-valor es igual a 0,00516; por consiguiente a partir de esto se puede rechazar la hipótesis nula y concluir que la serie presenta una tendencia significativa. Se aplica la misma prueba a la serie residual de la descomposición modal empírica y se obtiene un p-valor de 5,04 ∗ 10−9 por lo que igualmente se rechaza la hipótesis nula y se concluye nuevamente que la tendencia de la serie es significativa. Como bien se mencionó se realiza también la prueba Cox and Stuart como un procedimiento de verificación y a partir de esta prueba aplicada a la serie normal y la serie de los residuos se vuelve a concluir que en ambas la tendencia es significativa con p-valores de 0,018 𝑦 2,2 ∗ 1016 respectivamente.

Siguiendo con esta línea de análisis, se procede ahora a encontrar una aproximación a la magnitud de la tendencia por medio de la pendiente de Sen. Al igual que para la anterior prueba, en ésta se utiliza la versión modificada debido a la autocorrelación de los datos. Se obtiene entonces que la pendiente es igual a 1,18 para el caso de la serie normal y 0,96 para el caso de la serie de residuos.

(30)

29 Homogeneidad

Después de tener los resultados para tendencias se procede a realizar las pruebas de detección de punto de cambio para la identificación de homogeneidad. Se comienza entonces con la prueba de Pettit, después se realiza la prueba de Buishand y por último la SNHT. A continuación, se presentan los resultados de las pruebas presentadas anteriormente:

Tabla 2 Resultados pruebas de homogeneidad

Como se puede apreciar en la tabla, todos los p-valores son menores a un 5% de significancia. Por consiguiente, en todas las pruebas se rechaza la hipótesis nula por lo que se concluye que hay un cambio significativo en la media y por consiguiente la serie se considera heterogénea. Cabe resaltar que en este caso se tuvieron en cuenta las tres pruebas en la conclusión sobre la serie porque ésta sigue una distribución normal. Sin embargo, si los datos no fueran normales se tomaría en cuenta solo la prueba de Pettitt. Teniendo estos resultados hay dos tipos de análisis gráficos interesantes de realizar. El primero es el de graficar las pruebas de SNHT y Buishand, ya que a partir de éstas se puede apreciar en qué lugar del tiempo se presenta el cambio en la media. En el caso de SNHT es por medio del máximo y en el caso del Buishand es el mínimo (Maintainer & Pohlert, 2018). A continuación, se presentan las gráficas:

Gráfica 10 Pruebas de homogeneidad serie El Naranjal

Prueba Tipo de serie P-valor Punto de Cambio

Pettit Serie normal 0,0000788 315

Pettit Residuales <2,2*10^-16 312

Buishand Serie normal 0,0002 315

Buishand Residuales <2,2*10^-16 329

SNHT Serie normal 0,0004 315

(31)

30 A partir de éstas se puede ver entonces que ambos puntos de cambio en la media se presentan alrededor del mismo punto que es en este caso alrededor del año 27 que corresponde al año 1999. Ahora bien, el segundo análisis grafico de interés corresponde a la evaluación de la diferencia de las medias por medio de los diagramas de caja. En este caso como se quiere evaluar la significancia del cambio en las medias de la serie normal de tiempo se escoge el número de dato 315 para la separación de éstas. Al aplicar el procedimiento se obtiene el siguiente resultado:

Gráfica 11 Comparación de medias Serie El Naranjal

A partir de la figura se puede apreciar un cambio significativo en la media, puede que en magnitud no sea muy grande, pero sin embargo es apreciable.

Regresión lineal

En este caso, se concluye que la serie sigue una distribución normal por lo que uno de los supuestos del modelo de regresión se cumple. Sin embargo, la serie presenta problemas de autocorrelacion y heterocedasticidad y por consiguiente no es adecuado realizar un modelo de regresión lineal por mínimos cuadrados para estimar la pendiente.

Evaluación de resultados

A partir de los resultados obtenidos se pueden derivar las siguientes conclusiones. La primera es que la serie mensual de precipitación presenta tendencias significativas y además es no homogénea en el tiempo. En consecuencia, esta serie mensual se caracteriza como una serie que no cumple con el supuesto de estacionaridad.

5.1.2. Series de precipitación anuales

Para hacer el análisis de las series anuales de máximos, mínimos, medias y totales se llevó a cabo un proceso iterativo de agrupación de datos como se evidencia en el diagrama de flujo del proceso presente en Anexo 1. A continuación, se realiza el análisis de series de tiempo de precipitación máxima, mínima, media y total.

(32)

31 Análisis gráfico

Se procede a realizar la gráfica de la serie de tiempo con la respectiva línea Lowess para observar una posible tendencia.

Gráfica 12 Series de tiempo anuales El Naranjal

De las gráficas anteriores se puede apreciar que los datos de las medias anuales y el total tienen el mismo comportamiento, solo difieren sus magnitudes. Además, sobre estas dos series se puede apreciar una leve tendencia creciente. Con respecto a los máximos y mínimos no se puede evidenciar una tendencia muy clara. Los mínimos comienzan crecientes y después toman un comportamiento constante; por otro lado, los máximos al principio presentan un comportamiento constante y después creciente.

En este caso, como la serie bajo análisis es una serie anual, el tamaño de muestra se reduce de forma considerable. Por consiguiente, se considera que no es pertinente realizar el análisis de descomposición. Por esta razón para estos datos no se realiza el análisis de descomposición aditiva ni descomposición empírica.

Dado lo anterior, el paso a seguir es el del análisis de distribución el cual comienza con un diagrama de caja y bigotes:

(33)

32 Gráfica 13 Diagramas caja y bigotes datos anuales

Se puede apreciar, como es de esperarse, que la varianza de los datos y por consiguiente la caja se reduzca en comparación con la serie mensual. Sin embargo, a partir de éstos no se puede hacer ninguna conclusión con una complejidad superior a la de saber los percentiles en los cuales está contenida la diferente información anual. Se procede entonces a realizar el histograma.

(34)

33 Gráfica 14Histogramas series anuales El Naranjal

Con respecto a los diferentes histogramas se pueden concluir varias cosas. Lo primero que se puede decir es que cuando se agrupan los datos anualmente en sus diferentes configuraciones la distribución en la mayoría de los casos tiende a distribuirse como una normal, como se puede ver en las diferentes series. En este caso los datos que menos parecen distribuirse normal son los medios y los mínimos anuales. Ahora bien, acerca de la distribución no se puede concluir nada hasta que se realice el análisis estadístico confirmatorio.

Normalidad

Se procede ahora a verificar las suposiciones adoptadas en la sección gráfica. Se comienza por una gráfica cuantil-cuantil para la distribución normal:

Referencias

Documento similar

A medida que las organizaciones evolucionan para responder a los cambios del ambiente tanto para sobrevivir como para crecer a partir de la innovación (Stacey, 1996), los

“La unificación de la clasificación de empresas otorgada por las CC.AA.”, “La unificación de criterios en la acreditación de los servicios de prevención de riesgos

La disciplina de comprometerse a dar el diezmo es también el punto de partida para un estilo de vida de generosidad.. Tal como Jesús enseñó, es el mejor aliento posible para

Esta formación se produce mediante el doctorado (13 alumnos, lo que significa el 32% de los encuestados), diferentes másteres entre los que destacan de nuevo el de Profesorado

Como destino, es variedad f rancamente de mesa, y que madura en octubre, pero que se conserva hasta el mes de junio, condición ésta muy apreciada en las manzanas, y que le

4.- Másteres del ámbito de la Biología Molecular y Biotecnología (9% de los títulos. Destaca el de Biotecnología Molecular de la UB con un 4% y se incluyen otros

La Normativa de evaluación del rendimiento académico de los estudiantes y de revisión de calificaciones de la Universidad de Santiago de Compostela, aprobada por el Pleno or-

En este sitio puedes encontrar la mejor selección de juegos gratuitos, para que siempre puedas verificar otros juegos divertidos de la categoría de sopa de letras y luego obtener