Programa de generación de datos aperiódicos no repetitivos para desarrollo de algoritmos de identificación

Texto completo

(1)Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Departamento de Automática y Sistemas Computacionales. TRABAJO DE DIPLOMA Programa de Generación de Datos Aperiódicos No Repetitivos para Desarrollo de Algoritmos de Identificación Autor: Nelson Figueredo Sánchez. Tutor: Dr. Francisco Beraldo Herrera Fernández. Santa Clara 2014 "Año 56 de la Revolución".

(2) Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Departamento de Automática y Sistemas Computacionales. TRABAJO DE DIPLOMA Programa de Generación de Datos Aperiódicos No Repetitivos para Desarrollo de Algoritmos de Identificación. Autor: Nelson Figueredo Sánchez E-mail: [email protected]. Tutor: Dr. Francisco Beraldo Herrera Fernández Dpto. de Automática, Facultad de Ing. Eléctrica, UCLV E-mails: [email protected]. Santa Clara 2014 "Año 56 de la Revolución".

(3) Hago constar que el presente trabajo de diploma fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de estudios de la especialidad de Ingeniería en Automática, autorizando a que el mismo sea utilizado por la Institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos, ni publicados sin autorización de la Universidad.. Nelson Figueredo Sánchez Autor Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.. Francisco B. Herrera Fernández. Boris Luis Martínez Jiménez. Dr.C. Tutor. Dr.C. Jefe de Departamento. Firma del Responsable de Información Científico-Técnica.

(4) i. "Más vale encender una vela, que maldecir la oscuridad”. Proverbio popular chino.

(5) ii. DEDICATORIA. A mis padres, por su perseverancia. A mis abuelos, por su amor. A mis amigos. A mi familia. A los Turcos..

(6) iii. AGRADECIMIENTOS. Esta tesis refleja la culminación del estudio llevado a cabo durante los últimos años; sin embargo, la consecución de este objetivo no se debe únicamente a la investigación, sino a las maravillosas relaciones establecidas con personas extraordinarias. En primer lugar me gustaría agradecer a la Facultad de Ingeniería Eléctrica y al departamento de Automática el haberme formado como profesional. En segundo lugar me gustaría mostrar mi gratitud a: Dr. Francisco Herrera, mi tutor, por inspirarme toda la confianza y calma necesaria para culminar esta memoria. Mi más sincero agradecimiento al profesor Orlando Urquijo, por ofrecer, en todo momento, su tiempo y sus consejos en la realización de este trabajo. A la familia Armiñana, por su apoyo incondicional, esta también es su tesis. A mis hermanos: Víctor (Viky), La, Víctor, Frenk, Robaina, Andrés; por permitirme vivir junto a ellos los mejores momentos de mi juventud. A mis amigos: Suazo, Osvaldo, Leosdany, Sergio, Reynaldo; por acompañarme en las buenas y las malas. Gracias, asimismo, a todas aquellas personas que de alguna forma hayan prestado su ayuda y que involuntariamente haya omitido..

(7) iv. A mis padres, sin cuya ayuda y paciencia no habría podido escribir estas líneas..

(8) v. RESUMEN. Actualmente el desarrollo de nuestro país establece la necesidad de aplicar nuevos métodos matemáticos y numéricos de optimización. El mejoramiento de los métodos de solución de problemas no lineales, de análisis estadísticos, así como los aspectos teóricos y prácticos relacionados con el desarrollo y aplicación de la inteligencia artificial como temas obligados para la producción de nuevos conocimientos. La presente tesis plantea como objetivo fundamental la síntesis de irregularidades características de los sistemas dinámicos, en forma de Datos Aperiódicos No Repetitivos (DANR), con las cuales se hace engorrosa la predicción y estimación de modelos. Para ello se implementó un programa de generación de DANR. Esto permitirá desarrollar nuevas técnicas de identificación de sistemas a partir de la experimentación y simulación con estas singularidades. El resultado más relevante es la implementación de funciones generadoras de DANR con ayuda de las herramientas del MatLab®, con las cuales la síntesis se simplificó considerablemente..

(9) vi. TABLA DE CONTENIDOS. DEDICATORIA .................................................................................................................... ii AGRADECIMIENTOS ........................................................................................................ iii RESUMEN ............................................................................................................................. v INTRODUCCIÓN .................................................................................................................. 1 Organización del informe ................................................................................................... 3 CAPÍTULO 1.. DATOS APERIÓDICOS NO REPETITIVOS ......................................... 5. 1.1. Datos. Definiciones .................................................................................................. 5. 1.2. Definición del tema de investigación.Datos Aperiódicos No Repetitivos ............... 7. 1.3. Datos muestreados a intervalos irregulares de tiempo ............................................. 8. 1.4. El análisis estadístico de datos ............................................................................... 12. 1.4.1 1.5. Problemáticas en el análisis de datos .............................................................. 13. Análisis espectral en las series temporales............................................................. 17. 1.5.1. Análisis espectral vía el Periodograma Lomb-Scargle (PLS) ........................ 18. 1.5.2. Metodología .................................................................................................... 19. 1.6. El periodograma clásico vs el PLS......................................................................... 21. 1.7. Identificación de sistemas ...................................................................................... 23. 1.7.1. Pasos básicos para la identificación de sistemas ............................................ 23. 1.7.2. De la obtención de datos ................................................................................. 24.

(10) vii 1.7.3. Elección de las señales a medir....................................................................... 25. 1.7.4. Elección del tipo de entrada/salidas ................................................................ 25. 1.7.5. Elección del periodo de muestreo ................................................................... 26. 1.7.6. Elección del número de muestras ................................................................... 26. 1.7.7. Procesamiento de los datos escogidos para la identificación ......................... 27. 1.8. Síntesis de datos. MatLab® como herramienta de síntesis .................................... 27. 1.9. Observaciones del capítulo .................................................................................... 28. CAPÍTULO 2.. ROGRAMA DE GENERACIÓN DE DANR ......................................... 29. 2.1. Estrategia de trabajo ............................................................................................... 29. 2.2. Ajuste del diseño .................................................................................................... 30. 2.2.1 2.3. Elección de los periodos de muestreo ............................................................. 31. Diseño de los periodos de muestreo. Secuencia aleatoria ...................................... 32. 2.3.1. Secuencia triangular ........................................................................................ 36. 2.3.2. Secuencia oscilatoria....................................................................................... 39. 2.4. Generación de DANR básicos ............................................................................... 42. 2.5. Generación de DANR ............................................................................................ 46. 2.5.1 2.6. Algoritmo de generación de DANR ............................................................... 47. Observaciones de los resultados obtenidos ............................................................ 48. 2.6.1. Limitaciones.................................................................................................... 51. CAPÍTULO 3.. FORMACIÓN DEL EJECUTABLE/FUNCIÓN.................................... 53. 3.1. Creación de archivos-M de función ....................................................................... 53. 3.2. Función generadora de periodos de muestreo ........................................................ 54. 3.2.1. Función para secuencia aleatoria. Ts_random............................................. 55. 3.2.2. Función para secuencia aleatoria. Ts_triangular ................................... 56.

(11) viii 3.2.3. Función para secuencia aleatoria. Ts_oscilatoria................................. 57. 3.3. Funciones generadoras de DANR básicos ............................................................. 58. 3.4. Funciones generadoras de DANR .......................................................................... 59. 3.4.1. Aspectos básicos de identificación ................................................................. 59. 3.4.2. Parámetros de diseño ...................................................................................... 60. 3.5. Evaluación de las funciones ................................................................................... 61. 3.5.1. Evaluación de errores...................................................................................... 66. 3.6. Help de usuario ...................................................................................................... 68. 3.7. Observaciones del capítulo .................................................................................... 71. 3.8. Análisis económico ................................................................................................ 71. 3.9. Conclusiones del capítulo ...................................................................................... 73. CONCLUSIONES Y RECOMENDACIONES ................................................................... 75 Conclusiones ..................................................................................................................... 75 Conclusiones generales ..................................................................................................... 75 Recomendaciones ............................................................................................................. 76 REFERENCIAS BIBLIOGRÁFICAS ................................................................................. 77 ANEXOS .............................................................................................................................. 79 Anexo I Programación complementaria ......................................................................... 79 Anexo II Programación de experimentos ........................................................................ 97 Anexo III Funciones de apoyo .......................................................................................... 98 Anexo IV Diagramas de flujo ......................................................................................... 101.

(12) INTRODUCCIÓN. 1. INTRODUCCIÓN. La vida real raramente es determinística. Muchas de las influencias externas a un sistema bajo estudio y el comportamiento de los componentes internos del sistema siguen un patrón no determinístico o aleatorio. Hoy en día, diversas instituciones requieren conocer el comportamiento futuro de ciertos fenómenos con el fin de planificar, prever o prevenir. El término Identificación de Sistemas (IS)(Ljung 2010) es asociado a las técnicas numéricas para extraer información acerca de la estructura de estos sistemas directamente de datos experimentales del comportamiento de los mismos. El desarrollo de la teoría de identificación surgió alrededor de 1960; mucho del trabajo desarrollado en identificación fue llevado a cabo por comunidades estadistas y de series de tiempo. No obstante, la teoría estadística para la estimación de parámetros tiene sus raíces en los trabajos de Gauss (1809) y Fisher (1912). Mucha de la teoría de procesos estocásticos estacionarios fue desarrollada durante el periodo comprendido entre 1920 y 1970.(Montero 2007) El término Identificación de sistemas fue acuñado por Lofti Zadeh en 1962 (Zadeh 1962), como: “Identificación es la determinación, en base a la entrada y la salida, de un sistema, dentro de una clase de sistemas especificada, al cual el sistema probado es equivalente”. Puede decirse que la identificación de sistemas quedó establecida como un campo de investigación reconocido dentro del área de control automático a mediados de los sesenta: en el tercer congreso de la IFAC en Londres, 1966 en el que fue presentado un artículo de visión general sobre identificación de sistemas. Un año después fue organizado el primer Simposio IFAC sobre identificación de sistemas en Praga. En la actualidad es el Simposio con una serie más larga de la IFAC. La teoría sobre identificación de sistemas está reunida, por ejemplo, en.

(13) INTRODUCCIÓN. 2. los libros de Ljung(Ljung 1999) y de Söderstrom y Stoica(T.Söderstrom 1989), donde también se pueden encontrar numerosas referencias. Es precisamente la identificación de sistemas una herramienta con la cual se pueden estimar modelos, con base en datos (entrada-salida) recolectados de dichos sistemas. Esta herramienta brinda una buena relación entre esfuerzo de obtención de un modelo y calidad del mismo. El constante estudio en esta área del saber ha permitido la creación de variadas técnicas de identificación (Ljung 2010) con el fin de mejorar la eficiencia del algoritmo, acercándose cada vez más a una aproximación del sistema real. Sin embargo, son variadas las causas que normalmente atentan contra una correcta aplicación de las técnicas de identificación. Entre ellas las incertidumbres, dinámicas impredecibles y otros fenómenos desconocidos que no pueden ser modelados por vía directa. Los modelos a obtener usualmente dependen de un número de parámetros cuyos valores no son conocidos o solo parcialmente conocidos. En ocasiones, incluso, es posible medir solo una parte de la dinámica del sistema a identificar. Actualmente, existen problemas en la estimación de parámetros en la identificación del modelo de un sistema de datos en el tiempo con las siguientes características:  Datos muestreados en intervalos irregulares de tiempo (un periodo de muestreo variable)  Ciclos de datos en el tiempo de frecuencia y periodos variables. Estas características dominan estos Datos Aperiódicos No Repetitivos (DANR) y a su vez complejizan la tarea de extracción de conocimientos de un proceso o sistema, o sea, la identificación de las propiedades estáticas y dinámicas. Si bien el continuo análisis estadístico de los datos que conforman determinadas características de los sistemas en cuestión ha sido la herramienta más eficiente para la identificación en la búsqueda de una aproximación del sistema real, la experimentación a través de la síntesis permite la simulación de dichas características; de hecho, tener una amplia y potente capacidad de procesamiento de datos obtenidos experimentalmente posibilita mejorar los procedimientos de cálculo y/o estimación de las dinámicas de comportamiento de sistemas de cualquier naturaleza del cual se hayan obtenido los datos. Esta situación implica la necesidad de emplear las herramientas de la inteligencia artificial para viabilizar la solución.

(14) INTRODUCCIÓN. 3. del problema de identificación. Convencidos de esto, la presente tesis pretende realizar un estudio de las propiedades de los Datos Aperiódicos No Repetitivos (DANR) e implementar programas para la simulación de estos, e intenta que la solución propuesta cumpla con las características citadas con anterioridad. Esto marca la siguiente interrogante: ¿Cómo desarrollar programas que permitan generar y simular DANR de uso experimental en el desarrollo de la identificación de sistemas? Para darle respuesta se planteó como objetivo general: Implementar programas de generación de DANR para el desarrollo de nuevas técnicas de identificación de sistemas. Los objetivos específicos son: . Analizar los diferentes tipos de DANR reportados en la literatura científica.. . Implementar programas eficientes que permitan la generación de DANR.. . Evaluar mediante simulación los programas de generación de DANR.. . Formar un ejecutable/función que defina el uso del programa en dependencia de los tipos de DANR.. La hipótesis formulada es: La implementación de programas de generación de DANR, contribuirá al mejoramiento de los sistemas existentes para el procesamiento e interpretación de datos experimentales en el desarrollo de nuevos algoritmos de identificación. Organización del informe Introducción: Se deja definida la importancia, actualidad y necesidad del tema que se aborda y los elementos del diseño teórico de la tesis. Capitulario: El. informe de la investigación se estructura en introducción, capitulario,. conclusiones, referencias bibliográficas, bibliografía y anexos. Los temas que se abordan en cada capítulo quedan estructurados de la forma siguiente:.

(15) INTRODUCCIÓN. 4. En el CAPÍTULO 1 se hace un estudio a la teoría correspondiente a los DANR y al análisis estadístico de estos. Se evalúa la viabilidad del trabajo en base a los medios y materiales escogidos para la implementación del programa a diseñar. En el CAPÍTULO 2 se especifican los diferentes tipos de DANR a diseñar y la programación correspondiente. Análisis pertinentes se irán realizando conforme se explique el ajuste. Se programan los DANR previamente diseñados apoyados en las herramientas del MatLab®, y se ajusta un algoritmo que defina la generación de DANR. En el CAPÍTULO 3 se ajusta la programación de los DANR diseñados a través de funciones lógicas. Las herramientas del MatLab® permiten la creación de estas funciones, conjunto con un manual de uso que define su implementación en la identificación de sistemas..

(16) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 5. CAPÍTULO 1. DATOS APERIÓDICOS NO REPETITIVOS. En este primer capítulo: Datos Aperiódicos No Repetitivos, se define y acota el tema de la investigación. Se procede la definición del tema comenzando por una revisión conceptual y definitoria primero, y, seguidamente por la exposición del recorrido bibliográfico que condujo a esa finalidad.. 1.1. Datos. Definiciones. En la investigación empírica es muy común encontrar series de datos aperiódicos, es decir, aquéllas cuyos valores irregularmente espaciados en el tiempo condicionan el uso de las técnicas convencionales de análisis estadístico. Esto ha inducido la necesidad de utilizar técnicas que subsanen los problemas derivados de la aperiodicidad de datos y, así, estar en condiciones de proseguir el análisis de una manera eficiente. La preocupación por el problema de las series de datos ha dado lugar a una amplia literatura debido a que para la realización de análisis estadísticos la presencia de valores no equispaciados temporalmente conlleva a la ineficiencia estadística a la hora de predecir o planificar. Abordar las definiciones referentes a los datos permite definir el tema de investigación. Consultemos que dicen los diccionarios acerca de los datos: Según el Diccionario Manual De La Lengua Española (vol. 2007) y (Toro 1968) dato es: Del latín datum (“lo que se da”), un dato es un documento, una información o un testimonio que permite llegar al conocimiento de algo o deducir las consecuencias.

(17) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 6. legítimas de un hecho. Por ejemplo: “Hemos descubierto al asesino gracias a los datos aportados por un testigo”. Según el Diccionario enciclopédico (vol. 2009) dato es: una representación simbólica (numérica, alfabética, algorítmica, etc.) de un atributo o variable cuantitativa. Los datos describen hechos empíricos, sucesos y entidades. Es un valor o referente que recibe el computador por diferentes medios. Los datos representan la información que el programador manipula en la construcción de una solución o en el desarrollo de un algoritmo (Báez 2008). En el campo de las humanidades, los datos se consideran como una expresión mínima de contenido respecto a un tema: “Faltan datos para terminar la investigación”. El conjunto de los datos relacionados constituyen una información. Para la informática, los datos son expresiones generales que describen características de las entidades sobre las que operan los algoritmos. Es información que se suministra al ordenador y que este almacena de forma legible: “datos numéricos o alfanuméricos; situar el cursor en el campo correspondiente e introducir el nuevo dato”. Estas expresiones deben presentarse de cierta manera para que puedan ser tratadas por una computadora. En estos casos, los datos por sí solos constituyen información, sino que ésta surge del adecuado procesamiento de los datos. En las matemáticas es un número, cantidad del enunciado de un problema que permite hallar el valor de las incógnitas: “Los datos eran insuficientes para resolver la ecuación”. En programación, un dato es la expresión general que describe las características de las entidades sobre las cuales opera un algoritmo.. Figura 1.1 Un dato por sí mismo no constituye información. Es el procesamiento de los datos es lo que nos proporciona información.

(18) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 7. Procesamiento: Acto de procesar. Procesamiento de datos: Aplicación sistemática de una serie de operaciones sobre un conjunto de datos, generalmente por medio de máquinas, para explotar la información que estos datos representan. Los datos aisladamente pueden no contener información humanamente relevante. Sólo cuando un conjunto de datos se examina conjuntamente a la luz de un enfoque, hipótesis o teoría se puede apreciar la información contenida en dichos datos. Los datos pueden consistir en números, estadísticas o proposiciones descriptivas y estos convenientemente agrupados, estructurados e interpretados se consideran que son la base de la información humanamente relevante que se puede utilizar en la toma de decisiones, la reducción de la incertidumbre o la realización de cálculos. 1.2. Definición del tema de investigación. Datos Aperiódicos No Repetitivos. Con frecuencia se realizan observaciones de datos a través del tiempo. Cualquier variable que conste de datos reunidos, registrados u observados sobre incrementos sucesivos de tiempo se denomina serie de tiempo o señales. Normalmente se define una serie temporal como una función no determinística o aleatoria 𝑋 que depende de una variable 𝑡 (tiempo). Se admite que la serie temporal representa el muestreo de una población, suponiendo además, que es estacionaria, es decir, que su promedio, varianza y otros momentos estadísticos son invariantes a desplazamientos temporales (Buschiazzo 2009). Asimismo, una señal es una función de una variedad de parámetros, uno de los cuales es usualmente el tiempo, que representa una cantidad o variable física, y típicamente contiene información o datos sobre la conducta o naturaleza de un fenómeno (Morón 2011). Las señales pueden describir una variedad muy amplia de fenómenos físicos. Aunque las señales pueden representarse en muchas formas, en todos los casos, la información en una señal está contenida en un patrón1 que varía en alguna manera.. 1. Para nuestra investigación usaremos esta acepción como patrón de comportamiento, se define. comportamiento como toda conducta observable que caracterice un fenómeno, proceso u organismo..

(19) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 8. La gran mayoría de los procesos dinámicos contiene una gama de parámetros y características que lo identifica y lo diferencia de los demás; se define un 𝑝𝑟𝑜𝑐𝑒𝑠𝑜 𝑋(𝑡) como un fenómeno que cambia en el tiempo o el espacio. Los procesos suelen clasificarse en determinísticos, si existe una relación definida o causal, por lo que la obtención de nuevos datos u observaciones no agregan información sobre el mismo, y estocásticos cuando están definidos por una distribución de probabilidades; estos, por supuesto, son más complejos que su análogo determinístico (Cubero 2008); En principio, las variables y procesos de sistemas dinámicos están gobernados por leyes o principios físicos, químicos o biológicos fundamentales, y aunque son considerados sistemas deterministas, la presencia de procesos caóticos crea un tipo de variabilidad que no permite distinguirla de las variaciones aleatorias (ruido). Esto infiere en las propiedades de un sistema dándole características únicas, es decir, no existen dos lo suficientemente parecidos como para inferir en las propiedades de uno del otro o viceversa; otras veces la variabilidad de las características de un fenómeno de esta magnitud se ven afectadas por errores o aperiodicidad en la obtención de los parámetros que la conforman siendo esto un suceso inherente al proceso que determina en sí un patrón característico. Las señales o series de tiempo, como se estime, que conforman dichos patrones se caracterizan por: . Datos muestreados en intervalos irregulares de tiempo (un periodo2 de muestreo variable). . Ciclos de datos en el tiempo de frecuencia y periodos variables.. Los datos con estas características definen lo que se considera en el trayecto de la investigación como Datos Aperiódicos No Repetitivos (DANR). 1.3. Datos muestreados a intervalos irregulares de tiempo. En este apartado se hace una breve revisión en cuanto a muestreo de datos se trata. Si bien es una de las características fundamentales de los DANR, la comprensión desde un punto. 2. Periodo o período: espacio de tiempo después del cual se reproduce alguna cosa. En Aritmética cifras que se. repiten indefinidamente, después del cociente entero, en las divisiones inexactas..

(20) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 9. de vista teórico permite comprender como se manifiesta la aperiodicidad en el muestreo de los datos. Cuando se trabaja con una serie con datos tomados a intervalo de muestreo constante pero con unos pocos datos que se han perdido o no fueron medidos (menores al 10 % de la secuencia), se pueden imputar3dichos valores por interpolación. Se entiende por interpolación a los métodos de estimación del valor de una variable dependiente en función de otra para valores intermedios a los conocidos(Moore 2010) (Figura 1.2).. Figura 1.2 Interpolación de datos Sin embargo, en el caso de que la ausencia de datos sea mayor o se trate de series irregulares, la interpolación modifica el contenido espectral (Rodríguez-Igúzquiza 2013)de la secuencia y debería ser evitada(M.Schulz-K.Stattegger 1997). En estos casos, lo más conveniente es trabajar directamente con la serie irregular. Aunque existen diferentes 3. Según el Diccionario de la Real Academia Española: Imputación: Acción y efecto de imputar. Imputar: en su. segunda acepción “Señalar la aplicación o inversión de una cantidad, sea al entregarla, sea al tomar razón de ella en cuenta”. Según el diccionario de María Moliner se dice: “Asignar cierto destino a una cantidad, al entregarla o al consignarla”. De esta definición destaca el verbo asignar y la expresión cierto destino a una cantidad. En el sentido que se maneja, “destino” sería la prosecución del análisis estadístico, y “asignación” sería el resultado de la imputación..

(21) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 10. alternativas a la interpolación(D.Heslop-M.J.Dekkers 2002) y diferentes métodos han sido analizados en revisiones de métodos espectrales de series irregulares(Stoica.P-Sandgren.N 2006; Babu.P-Stoika.P 2010), el Periodograma de Lomb-Scargle (PLS) (Lomb.N.R 1976; Scargle.J.D 1982) es la técnica más utilizada en la gran mayoría de las disciplinas. (Análisis más detallado en cuanto a espectro de series de datos se realizan en epígrafes posteriores). Una serie temporal con muestreo irregular se puede considerar como una colección de N datos experimentales{z(t1 ), z( t 2 ), … , z(t N )} donde las coordenadas temporales t1 < t 2 < … < t N son arbitrarias, esto es, sin asumir una distancia constante entre cada pareja de datos consecutivos (ver Figura 1.3). Se considera que los datos experimentales constituyen una realización de una función aleatoria estacionaria de segundo orden, lo que implica una esperanza matemática constante e independiente del tiempo, así como la presencia de una autocovarianza (momento de segundo orden) (Vallejo 2007) que solo depende del tiempo entre muestras experimentales. Es decir, tanto la autocovarianza como la varianza de la serie son finitas (Rodríguez-Igúzquiza 2013). Serie de tiempo con muestreo irregular 1 0.9 0.8 0.7. Datos. 0.6 0.5 0.4 0.3 0.2 0.1 0 t_0. t_1=2. t_2=3. t_3=4. t_4=7. t_5=9. t_6=10. t_N. Tiempo. Figura 1.3 Serie de tiempo con muestreo irregular En el análisis de señales la concepción del muestreo variable se analiza desde otro punto de vista. Hay dos tipos básicos de señales:. señales en. tiempo. continuo. o. señales. analógicas y señales en tiempo discreto o digitales. Una señal 𝑥(𝑡) es una señal en.

(22) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 11. tiempo continuo si la variable independiente es una variable continua y, por ende, estas señales están definidas para un continuo de valores de esa variable; es decir, el valor de 𝑥(𝑡) es especificado en todo instante 𝑡 de un intervalo de tiempo dado, ya sea mediante una expresión matemática o gráficamente por medio de una curva; en otras palabras, la variable independiente puede tomar cualquier valor real. Si la variable independiente 𝑡 es una variable discreta, es decir, 𝑥(𝑡) está definida en puntos del tiempo discretos, entonces 𝑥(𝑡) es una señal en tiempo discreto, a menudo generada por muestreo de una señal de tiempo continuo (Figura 1.4). Como una señal de tiempo discreto está definida solamente en tiempos discretos, con frecuencia se identifica como una secuencia de números, denotada por {𝑥𝑛} o 𝑥[𝑛], donde, para nuestros propósitos, n es un entero. Señal continua x(t) 1. Datos. 0.8 0.6 0.4 0.2 0 0. 10. 20. 30. 40. 50. 60. 70. 80. 90. 100. Señal discrteta x[kT] para intervalos irregulares de tiempo 1. Datos. 0.8 0.6 0.4 0.2 0 0. 10. 20. 30. 40. 50. 60. 70. 80. 90. 100. Tiempo. Figura 1.4 Discretización de la señal continua 𝒙(𝒕) Las señales digitales no son otra cosa que sucesiones de números reales o complejos. Aunque en principio es posible pensar en señales discretas infinitas (por ejemplo, la señal que resulta de tomar muestras de una señal analógica 𝑥 ∈ 𝐿2 (ℝ) ∩ 𝐶(ℝ)para valores 𝑡 = 𝑘𝑇 , 𝑘 ∈ ℤ), en la práctica todas las señales con las que se trabaja en aplicaciones.

(23) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 12. empiezan y terminan en tiempo finito y, por tanto, para el estudio de señales digitales podremos suponer sin problemas que estas son sucesiones finitas de números4 En consecuencia, se ofrece el siguiente modelo de señal digital: Definición: El espacio de las señales digitales (unidimensionales) de tamaño N es el conjunto 𝑙 2 ℤ𝑁 = 𝑥 ∶ 0,1, … , 𝑁 − 1 → ℂ ∶ 𝑥 𝑒𝑠 𝑢𝑛𝑎 𝑎𝑝𝑙𝑖𝑐𝑎𝑐𝑖ó𝑛 . Este conjunto se puede identificar con el conjunto de las señales N-periódicas x: ℤ → ℂ 𝑙 2 ℤ𝑁 = 𝑥 ∶ ℤ → ℂ 𝑎𝑝𝑙𝑖𝑐𝑎𝑐𝑖ó𝑛 ∶ 𝑥 𝑘 + 𝑁 = 𝑥 𝑘 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑘 ∈ ℤ . En aplicaciones reales, una señal digital (unidimensional) será una sucesión de números{𝑥 𝑛 }𝑁−1 𝑛=0 , donde 𝑁 es probablemente muy grande. Entonces por economía de espacios, etc., sería muy interesante saber si a partir del conocimiento de la señal 𝑥 en una muestra de valores 0 ≤ 𝑛1 < 𝑛2 < ⋯ < 𝑛𝑟 ≤ 𝑁 − 1 es posible recuperar completamente la señal 𝑥(𝑘) para todo 𝑘. Este es precisamente el problema del muestreo (irregular) para señales digitales. Evidentemente, si trabajamos con señales arbitrarias 𝑥 ∈ 𝑙 2 ℤ𝑁 , entonces no será posible la recuperación de estas a partir de valores de una muestra fija 0 < 𝑛𝑖 < 𝑛𝑖+1 < ⋯ < 𝑁. No siempre se trabaja de esta tediosa manera; para el cumplimiento del objetivo se tienen a mano herramientas que facilitan estas demostraciones de manera sencilla. 1.4. El análisis estadístico de datos. Las técnicas estadísticas permiten hacer una descripción de cualquier conjunto de datos a estudio, hacer inferencias o identificar relaciones entre variables de un sistema real que podrán no ser evidentes debido a la complejidad de sistemas dinámicos. Sin embargo, hay que tener en cuenta que, cualquier conjunto de datos relacionados con estos tipos de fenómenos, contiene un grado de incertidumbre (error) porque representa una discretización muestra/espacio-temporal de un sistema continuo. Por consiguiente, siempre 4. Algunos autores llaman finitas a este tipo de señales. De hecho, es también posible restringir la atención. sobre las señales finitas que además están cuantizadas, es decir, que solo pueden tomar un numero finito de valores. Esto, sin embargo, no resulta cómodo desde un punto de vista matemático..

(24) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 13. existirán escalas (espaciales o temporales) de variabilidad que no estén resueltas, las cuales contaminan los datos (Mudelsee 2010). Por estas razones, el uso de técnicas estadísticas es adecuado porque ayuda a cuantificar los efectos de la incertidumbre, ya sea en términos de observación y medidas o en términos de entendimiento de estos procesos, puesto que permite centrar el análisis en aquellas relaciones que superen el umbral del ruido. La aplicación de técnicas estadísticas es de carácter universal porque se pueden aplicar a cualquier tipo de datos. Tales como los datos observacionales, los obtenidos de medidas instrumentales, de sensores remotos, de fuentes documentales, salidas de simulaciones numéricas de modelos determinísticos, etc.. 1.4.1 Problemáticas en el análisis de datos El análisis estadístico de datos de envergadura caótica, como cualquier otra herramienta científica, no está libre de problemas. Existen varios inconvenientes propios de los datos que pueden complicar la aplicación de las técnicas estadísticas y la interpretación de resultados. A continuación se indican algunos de los problemas o inconvenientes que caracterizan a los datos que conforman muchos de los fenómenos dinámicos: Ruido: desde un punto de vista general, una serie temporal puede considerarse como la suma de una componente dinámica de tipo determinista (señal) más otra componente de origen estocástico (ruido)(Wunsch 1999). Uno de los objetivos principales en el análisis estadístico de series temporales es detectar y describir las características de la componente dinámica cuando una componente estocástica está presente, con el fin de discernir entre señal y ruido. Sin embargo, para poder determinar el tipo de ruido subyacente en un sistema real, hay que tener en cuenta las características físicas del comportamiento del sistema(Martínez 2011). Series temporales cortas y pocos elementos: otra de las características de las series temporales es que suelen ser cortas y tienen pocos elementos en comparación con la escala temporal del fenómeno a estudiar. Como consecuencia de la corta longitud de las series, los análisis estadísticos no siempre tienen un amplio margen de confianza. Por otro lado, la.

(25) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 14. disponibilidad de muy pocos elementos de una serie temporal implica no solamente una pobre resolución temporal, sino también espectral. Un problema adicional asociado con la pobre resolución temporal o espacial de los datos es que se puede producir el fenómeno del aliasing(Gunn 2003; Martínez 2011) Aliasing: muchas veces las series temporales son una representación discreta de una variable continua, donde cada elemento de la serie es obtenido en cada intervalo temporal ∆𝑡 constante. Como una consecuencia de la discretización del tiempo con un periodo de muestreo ∆𝑡 demasiado grande, surge el efecto del aliasing5(P.Weedon 2003). El efecto del aliasing puede ser ilustrado de una mejor manera con ayuda de la Figura 1.5. La serie temporal 𝑥(𝑡) (curva sinusoidal continua en la Figura 1.5) ha sido muestreada con un intervalo temporal ∆𝑡. Los puntos discretos obtenidos son compatibles con la curva sinusoidal discontinua y aliaseda en la Figura 1.5, de tal forma que se muestrean puntos en común (𝑥1 , … , 𝑥6 ) a las dos curvas.. Figura 1.5 Representación esquemática del aliasing utilizando dos funciones sinusoidales con diferentes periodos e iguales amplitudes 5. Cuando se obtienen muestras periódicas de una señal sinodal, puede ocurrir que se obtengan las mismas. muestras que se obtendrían de una señal sinusoidal igualmente pero con frecuencia más baja. Específicamente, si una sinusoide de frecuencia 𝑓 Hz es muestreada s veces por segundo, y 𝑠 ≤ 2 · 𝑓, entonces las muestras resultantes también serán compatibles con una sinusoide de frecuencia 𝑓𝑚 − 𝑓, donde fm es la frecuencia de muestreo. En la jerga inglesa de procesamiento de señales, cada una de las sinusoides se convierte en un "alias" para la otra, de ahí a que la señal con alias se le llame señal aliaseda..

(26) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 15. Como se observa, no es posible determinar sin ambigüedad a qué función sinusoidal pertenecen estos puntos. El problema con esto es que, en series demasiado largas no siempre es posible controlar el ∆𝑡 de las muestras (datos) debido a la existencia de eventos periódicos de muy alta frecuencia (como el ciclo diario), cabe la posibilidad de estar trabajando con series temporales que contengan alguna señal aliaseda de alta frecuencia. Las señales de alta frecuencia muestreadas con valores demasiado largos de ∆𝑡 aparecen en el espectro como correspondientes a frecuencias más bajas, aunque esa varianza corresponde en origen a señales de alta frecuencia. No equiespaciadas temporalmente: otro de los inconvenientes que se encuentra frecuentemente al analizar series temporales, es que los tiempos de muestreo no siempre son equidistantes, es decir, las series suelen ser no equiespaciadas temporalmente (ver Figura 1.3). Existen dos tipos de series no equiespaciadas temporalmente (Martínez 2011): las series irregulares que aparecen debido a la pérdida de datos, fallos en los instrumentos u otros impedimentos en la obtención de los datos y las series no equiespaciadas temporalmente debido a la presencia de una componente estocástica en la localización espacio-temporal de los datos (muestras). La forma más común utilizada para resolver este inconveniente es la interpolación en el tiempo de la serie temporal bajo análisis (Figura 1.6). Sin embargo, esto es una mala praxis, porque la interpolación es una herramienta muy dependiente de la estructura de la serie temporal y del método de interpolación empleado (Moore 2010) y sobre todo, porque estos métodos pueden introducir información inexistente en la serie original en la nueva serie temporal equiespaciada. Como consecuencia pueden sesgar los resultados del análisis estadístico de los datos interpolados, puesto que no son independientes. Por ello, es recomendable utilizar técnicas estadísticas que puedan trabajar directamente con las series temporales no equiespaciadas sin recurrir a la interpolación (Martínez 2011). Autocorrelación, persistencia o memoria (Chatfield.C 1991): las variables que conforman series. temporales. frecuentemente. exhiben. una. dependencia. estadística. (están. autocorrelacionadas) con sus valores pasados o con sus valores futuros. Esta dependencia es conocida como persistencia o memoria y se clasifica, desde un punto de vista estadístico, en dos tipos: de corta y de larga duración(Martínez 2011)..

(27) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 16. Figura 1.6 A: Serie temporal de 200 datos con muestreo aleatorio. B: Como la serie A pero interpolada linealmente para obtener una serie con muestreo regular a intervalo constante. La primera tiene una función de autocorrelación que decae exponencialmente, mientras que la segunda tiene una función que decae lentamente de acuerdo con una ley de potencias(D. Rybski 2006). Ambos tipos de memoria son frecuentemente encontradas en los análisis estadísticos de registros ambientales, de reconstrucciones paleoambientales y de simulaciones numéricas. El problema con las series temporales que presentan autocorrelación es que no cumplen la condición de independencia en las observaciones, un requisito necesario de las técnicas de análisis estadístico clásico. Tendencia: las series temporales, por lo general, exhiben un tipo de tendencia (Figura 1.7 A), es decir, sus propiedades estadísticas, como la media, crecen o disminuyen a lo largo del tiempo (P.Weedon 2003). Sin embargo, la presencia de tendencia en una serie temporal no implica necesariamente un cambio en las características físicas del fenómeno que representan. La determinación de la tendencia en una serie temporal es una de las tareas más complicadas en el análisis estadístico de datos, sobre todo cuando las series son cortas y ruidosas (P.Weedon 2003). Sin embargo, es recomendable remover la tendencia (Figura 1.7 B) antes de realizar un análisis estadístico y trabajar con los residuos (P.Weedon 2003). También es recomendable no utilizar la inspección visual para determinar si existe o no.

(28) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 17. tendencia en una serie y para averiguar el tipo de tendencia, porque se puede llegar a conclusiones erróneas.. Figura 1.7A: Serie con tendencia. Espesor de bandeado anual en una estalagmita de la cueva Carlsbad (Nuevo México, EEUU) para los últimos 3 000 años antes del presente. B: Serie una vez eliminada la tendencia(Rodríguez-Igúzquiza 2013) La presencia de outliers: las series temporales pueden presentar valores atípicos o extremos, debido a las características propias de los datos, dicho sea errores inherentes en los datos, como los de medición o por causas naturales (P.Weedon 2003). Por lo general, los valores extremos suelen ser removidos de las series a estudio porque se consideran como errores en los datos o porque las técnicas estadísticas clásicas para el análisis de datos no contemplan la existencia de valores extremos. Sin embargo, estos valores pueden contener información sobre eventos extremos del fenómeno a estudio. Para el tratamiento de eventos extremos existen técnicas estadísticas adecuadas para ello. Una descripción de estas técnicas puede encontrarse en (Mudelsee 2010). 1.5. Análisis espectral en las series temporales. El análisis espectral es una de las herramientas estadísticas más utilizadas en el análisis de series temporales, ya sea para averiguar la posible existencia de eventos periódicos o para estudiar el comportamiento de la serie en el dominio de las frecuencias (Ríos 2005). Existe una gran variedad de métodos de análisis espectral (Ríos 2005), pero la mayor a requiere que la serie esté equiespaciada temporalmente, y este es un requisito que no se cumple con las series de DANR. La forma clásica para enfrentar el hecho de que la serie no es.

(29) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 18. equiespaciada, es interpolar la serie original y convertirla a una serie temporalmente equiespaciada. Sin embargo, la interpolación altera la estimación del espectro, de tal modo que tiende a sobrestimar en las bajas frecuencias y a subestimar en las altas frecuencias(Martínez 2011). Para evitar la interpolación se han desarrollado diversos métodos que pueden trabajar directamente con las series no equiespaciadas temporalmente, como el periodograma de Lomb-Scargle (también conocido como Lomb-Scargle Fourier Transform) (Martínez 2011). 1.5.1 Análisis espectral vía el Periodograma Lomb-Scargle (PLS) El análisis espectral de series temporales es una técnica estadística que permite, entre otras aplicaciones, la descomposición de una serie temporal en sus componentes frecuenciales con el objetivo de descubrir componentes cíclicas inmersas en ruido. Son muchas las técnicas que se han diseñado para estimar el espectro de potencia cuando los datos están regularmente distribuidos (P.Weedon 2003). Esto es, con una distancia constante entre dos datos consecutivos e igual a una razón de muestreo ∆. Sin embargo, cuando se intenta comprender un fenómeno real desde un punto de vista analítico, la obtención de series temporales regulares, esto es, con muestreo constante y completas, son la excepción más que la norma. Lo usual es disponer de series temporales irregulares, debido a diferentes casuísticas 6 como pueden ser series de datos incompletas como consecuencia del muestreo aleatorio o de la presencia de hiatos7, datos perdidos o series con huecos (“gapped8 data”) por diferentes motivos (Figura 1.8).. 6. Casuísticas: en ética aplicada refiere al razonamiento basado en casos. Se utiliza en cuestiones éticas y. jurídicas, y a menudo representa una crítica del razonamiento basado en principios o reglas. La casuística es utilizar la razón para resolver problemas morales aplicando reglas teóricas a instancias específicas. (jesuitismo). 7. Hiato En tiempo (receso), se refiere a una pausa o interrupción en la continuidad de una obra, acción, etc..

(30) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 19. Figura 1.8 A: Serie temporal de 300 datos con muestreo con intervalo constante pero con hiatos a intervalos regulares (´´gapped data´´). B: Serie temporal de 300 datos con muestreo a intervalo constante pero con un hiato en la parte central 1.5.2 Metodología El periodograma de Lomb-Scargle se define como(Rodríguez-Igúzquiza 2013): 𝐼 𝜔𝑗. 1 [ = 2 2𝑠. 𝑁 𝑖=1. 𝑧 𝑡𝑖 − 𝑚𝑧 cos 𝜔𝑗 𝑡𝑖 − 𝜏 ]2 𝑁 2 𝑖=1 cos. 𝜔𝑗 𝑡𝑖 − 𝜏. + (Ecu. 1). [. 𝑁 𝑖=1(𝑧. 𝑡𝑖 − 𝑚𝑧 ) sen[𝜔𝑗 (𝑡𝑖 − 𝜏)]]2 𝑁 2 𝑖=1 sen [𝜔𝑗 (𝑡𝑖 − 𝜏)]. Donde el parámetro 𝜏 se define como: tan[2𝜔𝑗 𝜏] =. 𝑁 𝑖=1 sin[2𝜔𝑗 𝑡𝑖 ] 𝑁 𝑖=1 cos[2𝜔𝑗 𝑡𝑖 ]. (𝐸𝑐𝑢. 2). Donde 𝑚𝑧 y 𝑠 2 son la media y varianza estimadas de los datos {𝑧(𝑡1 ), 𝑧(𝑡2 ), … , 𝑧(𝑡𝑁 )}. 𝜔𝑗 es la frecuencia angular (ciclos por radián), mientras 𝑓𝑗 = 𝜔𝑗 / (2𝜋) es la frecuencia en ciclos por intervalo de muestreo. El parámetro 𝜏 hace que el estimador 𝐼 𝜔𝑗 de la ecuación. 8. Gapped: del verbo en inglés gap. Hueco, abertura, espacio, (tiempo) intervalo, separación, laguna o vacío. Es. comúnmente utilizada para nombrar los hiatos en las series temporales geofísicas, de ahí la conjugación ´´gapped data´´..

(31) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 20. (1) sea invariante con respecto al tiempo. 𝐼 𝜔𝑗 es el periodograma de Lomb-Scargle para la frecuencia 𝜔𝑗 . Aunque el periodograma es un estimador asintóticamente insesgado de la potencia espectral, su varianza no decrece conforme aumenta el número de datos 𝑁 (Chatfield, 1991). Un estimador consistente se obtiene por suavizado del periodograma mediante un proceso de medias móviles que promedia valores de 2𝑚 + 1 frecuencias vecinas para obtenerse el estimador: 𝑗 +𝑚 ∗. 𝐼 𝜔𝑗 =. 𝜆𝑘 𝐼 𝜔 𝑘. (𝐸𝑐𝑢. 3). 𝑘=𝑗 −𝑚. Donde los pesos 𝜆𝑘 cumplen la condición: 𝑗 +𝑚. 𝜆𝑘 = 1. (𝐸𝑐𝑢. 4). 𝑘=𝑗 −𝑚. 𝐼 ∗ 𝜔𝑗 es el periodograma de Lomb-Scargle suavizado para la frecuencia 𝜔𝑗 . Existen diferentes modos de elegir los pesos. Si todos tienen el mismo valor, sujeto a la condición de la ecuación (𝐸𝑐𝑢. 4), se tiene la media aritmética. Otros tipos de suavizado pueden verse en (Chatfield.C 1991). El número de frecuencias en las cuales se evalúa el periodograma de Lomb-Scargle es generalmente mayor que en el caso de muestreo regular con intervalo de muestreo ∆ (Figura 1.9). En este último caso, la frecuencia más alta para las cuales se puede evaluar la potencia espectral es 𝑓𝑛 , la frecuencia de Nyquist (Ríos 2005) que se define como la frecuencia que corresponde a un período igual a dos veces el intervalo de muestreo: 𝑓𝑛 =. 1 2∆. (𝐸𝑐𝑢. 5). En el caso de muestreo irregular, hay varias frecuencias que se pueden tomar como referencia. Una es la frecuencia de Nyquist equivalente, que consiste en considerar que los 𝑁 datos están regularmente espaciados, en cuyo caso se obtendría un intervalo de muestreo:.

(32) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. ∆1 =. 𝑡𝑁 − 𝑡𝑁−1 𝑁−1. 21 (𝐸𝑐𝑢. 6). Figura 1.9 Periodograma Lomb-Scargle de la serie mostrada en la Figura 1.7 B Y la frecuencia de Nyquist sería: 𝑓1 =. 1 2∆1. (𝐸𝑐𝑢. 7). Otra frecuencia de interés es la frecuencia equivalente a la de Nyquist considerando la distancia mínima: ∆𝑚 = min(𝑡𝑖+1 − 𝑡𝑖 ) ; 𝑖 = 1, … , 𝑁 − 1. (𝐸𝑐𝑢. 8). Para la cual la frecuencia de Nyquist valdría: 𝑓𝑚 =. 1 2∆𝑚. (𝐸𝑐𝑢. 9). No tiene sentido investigar frecuencias mayores a esta frecuencia 𝑓𝑚 . 1.6. El periodograma clásico vs el PLS. En esta sección se presentan algunas diferencias entre el periodograma clásico y el periodograma de Lomb-Scargle. La definición de periodograma clásico (Báez 2008) para el caso de muestreos equiespaciados en el tiempo es:.

(33) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 1 𝑝 𝑓𝑖 = 𝑁. 2. 𝑁. 𝑋(𝑡𝑛 cos 𝜔𝑖 𝑡𝑛. 2. 𝑁. +. 𝑛 =1. 22. 𝑋(𝑡𝑛 sen 𝜔𝑖 𝑡𝑛. (𝐸𝑐𝑢. 10). 𝑛=1. Donde 𝜔𝑖 = 2𝜋𝑓𝑖 , para 𝑖 = 1, 2, . . . , 𝑘, los tiempos de muestreo están dados por 𝑡𝑛 = 𝑛 ∙ ∆𝑡, para 𝑛 = 1, 2, . . . , 𝑁 y ∆𝑡 es la longitud constante del intervalo de muestreo. Frecuencias. ortogonales:. tradicionalmente. el. periodograma. clásico. para. series. equiespaciadas en el tiempo, está definido (Martínez 2011) para un conjunto discreto de frecuencias ortogonales 𝑓𝑟 , para las cuales las estimaciones del periodograma son independientes entre sí, esto es: 𝑓𝑟 =. 𝑟 𝑇𝑇𝑜𝑡. (𝐸𝑐𝑢. 11). Para 𝑟 = 0, 1, . . . , [ 𝑁/2 ]. Donde [ 𝑁/2 ] es el número máximo de frecuencias y está definido por la función máximo entero (se redondea al entero más próximo para el caso cuando 𝑁 es impar) y, donde 𝑇𝑇𝑜𝑡 = 𝑡𝑁 − 𝑡1 , (la duración de la serie temporal y para el caso equiespaciado 𝑇𝑇𝑜𝑡 = (𝑁 − 1) ∙ ∆𝑡). Las frecuencias 𝑓𝑟 al ser utilizadas en la relación (𝐸𝑐𝑢. 11), aseguran que el poder espectral correspondiente a diferentes frecuencias sea independiente para cualquier par de frecuencias del conjunto de frecuencias ortogonales y que sea retenida la máxima cantidad de información posible de los datos originales. Sin embargo, para el caso no equiespaciado en el tiempo, no es posible encontrar un conjunto de frecuencias ortogonales para las cuales el poder espectral sea independiente(Martínez 2011). La frecuencia (razón) de muestreo y la frecuencia de Nyquist (ver1.5.2): un punto que puede ser complicado al utilizar métodos de análisis espectral (no se limita al periodograma de Lomb-Scargle) para series temporales no equiespaciadas en el tiempo, es determinar la frecuencia máxima 𝐹𝑚𝑎𝑥 hasta donde se estima el espectro. Para el caso equiespaciado, con 𝑁′ =. 𝑁. 2 (donde 𝑁 es el número de elementos de la serie temporal y. denota la. función máximo entero) la 𝐹𝑚𝑎𝑥 es la frecuencia de Nyquist: 𝐹𝑁𝑦𝑞 =. 1 2∆𝑡. Donde∆𝑡 es el intervalo de tiempo de muestreo.. (𝐸𝑐𝑢. 12).

(34) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 23. Sin embargo, para el caso no equiespaciado temporalmente, no hay una clara definición de frecuencia de Nyquist. Una opción, un tanto conservadora, para superar este obstáculo ha sido utilizar una frecuencia de Nyquist promedio: 𝐹𝑁𝑦𝑞 =. 1 2 ∆𝑡. (𝐸𝑐𝑢. 13). Donde ∆𝑡 es el valor medio de todos los ∆𝑡′𝑠. Pero, como bien apunta (Scargle.J.D 1982)(no siempre es claro cual valor medio la media aritmética, la mediana u otra medida estadística de tendencia central) es el apropiado. Por otro lado, es bien sabido que la media no es una estimación robusta de valor central, y, sin embargo, la mediana si lo es. En este punto una herramienta que puede ser de ayuda es el análisis exploratorio (histograma) de las diferencias de los tiempos (Martínez 2011). El teorema de Parseval: una propiedad importante del periodograma clásico, para series temporales equiespaciadas en el tiempo, es el teorema de Parseval (la energía total de una señal real es la misma ya sea si es calculada en el dominio del tiempo o en el de la frecuencia. Sin embargo, cuando las series no están equiespaciadas en el tiempo este teorema no se cumple (Martínez 2011). 1.7. Identificación de sistemas. Se entiende por identificación de sistemas a la obtención de forma experimental de un modelo que reproduzca con suficiente exactitud, para los fines deseados, las características dinámicas del proceso objeto de estudio. En este apartado se revisan algunas de las consideraciones prácticas a tener en cuenta en el proceso de identificación, sobre todo, las relacionadas con la obtención y tratamiento de datos. Para ello se hace una revisión de los principales pasos a emplear en el proceso de identificación. 1.7.1 Pasos básicos para la identificación de sistemas El proceso de identificación consiste en una serie de pasos básicos (Figura 1.10). Estos pueden ser omitidos o ser utilizados sin estar consciente de su elección, claro, esto puede resultar en pobres resultados. A continuación se muestran los pasos a seguir para una correcta identificación(Guillén 2007):.

(35) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 24. . Obtener información sobre el sistema.. . Seleccionar un modelo que represente el sistema.. . Elegir los parámetros del modelo tomados a partir de la mejor medición posible: establecer un buen criterio de selección.. . Validación del modelo seleccionado.. 1.7.2 De la obtención de datos El primer paso dentro del proceso de identificación (Figura 1.10) es realizar algún tipo de experimento sobre el sistema bajo estudio para obtener los datos de entrada-salida que servirán de base para la obtención del modelo final. Para que el proceso de identificación sea satisfactorio, es necesario que los datos utilizados para tal fin contengan información significativa sobre el sistema. Esto implica un cuidadoso diseño del experimento de adquisición de datos, debiéndose tomar una serie de decisiones respecto a las señales que deben ser medidas, el periodo de muestreo a utilizar, el tipo de entrada más adecuada, el número de datos a almacenar, etc.(Guillén 2007).. 1. Planificación experimental. 2. Recolección de datos. Conocimiento previo de la planta. 3. Selección del modelo. 4. Selección del criterio de estimación de parámetros. 5. Cálculo del modelo. 6. Validación del modelo. ¿Modelo aceptado?. no. Revisión. sí. Documentar y usar el modelo. Figura 1.10 Proceso de identificación.

(36) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 25. 1.7.3 Elección de las señales a medir La primera decisión es qué señales se deben registrar (mediante algún tipo de sistema de adquisición y el correspondiente sistema de almacenamiento de datos), y qué señales deben ser manipuladas para excitar al sistema durante el experimento. Se debe tener en cuenta que pueden existir señales que, aunque afecten a la evolución de la salida, no pueden considerarse como entradas debido a la imposibilidad de actuar sobre ellas. En el caso de que estas señales puedan ser medidas, pueden considerarse también como entradas al sistema (midiéndose sus valores durante el experimento). En caso contrario, deben ser consideradas como perturbaciones (Guillén 2007). 1.7.4 Elección del tipo de entrada/salidas Las entradas al sistema deben ser cuidadosamente elegidas de forma que los datos recogidos proporcionen toda la información posible sobre el sistema. Respecto a esto, conviene tener en cuenta los siguientes aspectos (Guillén 2007): . La señal de entrada debe contener el mayor número de frecuencias posibles. Por ejemplo, una señal sinusoidal pura no es adecuada en un experimento de identificación, puesto que sólo se obtendrá la respuesta del sistema para la frecuencia de dicha señal. Por el contrario, las señales escalonadas (con cambios bruscos) son muy utilizadas, puesto que contienen un espectro suficientemente amplio de frecuencias.. . Para sistemas lineales, basta con utilizar dos niveles de entrada, preferiblemente barriendo todo el rango de variación permitido. En este tipo de sistemas se suelen utilizar señales binarias de duración aleatoria (conocidas como señales binarias aleatorias o pseudoaleatorias), como la mostrada en la Figura 1.11a). Sin embargo, para sistemas no lineales es necesario trabajar con más de dos niveles de entrada, como se muestra en la Figura 1.11 b).. (a).

(37) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 26. (b) Figura 1.11 a): Entrada aleatoria binaria para sistemas lineales. b): Entrada escalonada aleatoria para sistemas no lineales . Si se sabe que el sistema va a trabajar preferentemente en torno a un determinado punto de trabajo, es conveniente realizar el registro de datos en ese mismo entorno. Este aspecto adquiere especial importancia si el sistema no es lineal.. 1.7.5 Elección del periodo de muestreo La elección del periodo de muestreo está directamente relacionada con las constantes de tiempo del sistema, y tiene una influencia decisiva en el experimento de identificación. Así, un periodo de muestreo muy pequeño puede llevar a la obtención de datos redundantes, que no aportan información sobre el sistema (pero sí ocupan espacio en la memoria del dispositivo de almacenamiento de datos), mientras que un periodo de muestreo demasiado grande provoca grandes dificultades a la hora de identificar la dinámica del sistema. Una regla comúnmente usada consiste en escoger una frecuencia de muestreo alrededor de diez veces el ancho de banda del sistema. Esto corresponde aproximadamente a muestrear en torno a cinco u ocho valores del tiempo de subida de la respuesta al escalón del sistema (Guillén 2007). 1.7.6 Elección del número de muestras En principio, cuanta más información se tenga sobre el sistema, más exacto será el proceso de identificación. En la práctica, el número de muestras a recoger durante el experimento de identificación viene limitado por la capacidad del dispositivo de memoria utilizado. Por tanto, es importante llegar a un buen compromiso en la elección del periodo de muestreo y el número de muestras a tomar (Guillén 2007)..

(38) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 27. 1.7.7 Procesamiento de los datos escogidos para la identificación El análisis de sistemas se facilita frecuentemente utilizando un tipo específico de señales de excitación o una representación de estas. Es de nuestro objetivo conocer qué tipos de procesamiento en el uso de estas. Por esta razón es conveniente el estudio de señales y de sus propiedades para su posterior uso en nuestra investigación. Cuando los datos son seleccionados en el proceso de identificación estos no están en buena forma para su uso inmediato en los algoritmos de identificación. Estos traen una serie de deficiencias que podrían atender a: . Disturbios de alta frecuencia por encima de las frecuencias de interés en la respuesta del sistema (Ljung 1999).. . Outliers (Ljung 2010), datos perdidos, no continuidad en la secuencia.. . Desplazamientos y desviaciones, disturbios de baja frecuencia, posible periodicidad en los datos (Ljung 1999).. Existen una gran variedad de técnicas para corregir este tipo de irregularidades (Ljung 2010). Análisis de los datos en el contexto de series temporales aportan determinadas soluciones con vista a una buena estimación y predicción de modelos donde la IS se yergue como la principal solución (Buschiazzo 2009). 1.8. Síntesis de datos. MatLab® como herramienta de síntesis. El análisis de sistemas se facilita frecuentemente utilizando un tipo específico de señales de excitación o una determinada representación de señales. Por esta razón, es conveniente incluir el análisis de señales y sus propiedades en el proceso de obtención de parámetros para la identificación de sistemas. Además del análisis interesa también la síntesis. De hecho, la síntesis o diseño de sistemas constituye la parte creativa de la ingeniería. A la hora de sintetizar datos el MatLab® se yergue como herramienta fundamental. MatLab® es portador de lógicas y aplicaciones sencillas, esto por supuesto aporta ventajas de programación y análisis viables para usuarios de poca experiencia. El MatLab® puede trabajar con números escalares, tanto reales como complejos, con cadenas de caracteres y con otras estructuras de información más complejas, es al mismo.

(39) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 28. tiempo un entorno y un lenguaje de programación. Uno de sus puntos fuertes es el hecho de que el lenguaje de MatLab® permite construir nuestras propias herramientas reusables. Se puede fácilmente crear funciones propias y programas especiales (conocidos como archivos-M) en código MatLab®. Se pueden agrupar en Toolbox: colección especializada de archivos-M para trabajar en clases particulares de problemas (Moore 2010). La manera más fácil de visualizar MatLab® es pensar en él como en una calculadora totalmente equipada, aunque, en realidad, ofrece muchas más características y es mucho más versátil que cualquier calculadora. MatLab® es una herramienta para hacer cálculos matemáticos. Es una plataforma de desarrollo de aplicaciones, donde conjuntos de herramientas inteligentes para la resolución de problemas en áreas de aplicación específica, a menudo llamadas toolboxes, se pueden desarrollar con facilidad relativa. Esto por supuesto suplirá las necesidades en la confección de los programas de generación de DANR en el CAPÍTULO 2. 1.9. Observaciones del capítulo. Para el acabado del capítulo se llegaron a una serie de consideraciones que son fundamentales en el desarrollo de la investigación: 1. Se pudo apreciar que los datos en conjunto forman un patrón que caracteriza de por sí a un fenómeno no determinístico; estos a su vez forman una gran variedad de series donde los DANR son característicos en su naturaleza. 2. Es importante el tratamiento datos con fines en la obtención de modelos que predigan muchos de los fenómenos naturales y físicos para el desarrollo de la ciencia. 3. Muchas de las predicciones son desestimadas por la ausencia de datos para la identificación del proceso. Para el conocimiento y la creatividad de los ingenieros a la hora de crear una solución científica, es necesaria la síntesis de datos que apoyen su desempeño. 4. Esta investigación previa y la confiabilidad del MatLab® como herramienta de solución sientan las bases para la confección en el capítulo siguiente de un Programa de Generación de DANR..

(40) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 29. CAPÍTULO 2. ROGRAMA DE GENERACIÓN DE DANR. Si bien la caracterización y comprensión de los DANR, como principal rasgo de las series de datos a procesar en el surgimiento de nuevas técnicas de identificación, es la base de la revisión bibliográfica, la síntesis plantea una solución experimental a partir de la simulación estos DANR. En este capítulo Programa de Generación de DANR se materializa el principal objetivo del trabajo basado en la síntesis de datos. Este queda dividido en tres etapas fundamentales: 1. Como inicio se describen los principales requisitos a cumplir por los datos a generar como DANR, todos en base a la investigación del capítulo anterior. 2. Le sigue un análisis de los aspectos de diseño a tener en cuenta, para el desarrollo de programas de generación, que cumplan con el objetivo principal. En esta etapa se describen los pasos previos al diseño, culminado con el ajuste de este. En el camino se evalúan los resultados de la implementación a partir de la observación gráfica. 3. Por último se hace un análisis de las principales limitaciones que surgen en el diseño a partir de la evaluación de los resultados obtenidos en el ajuste. 2.1. Estrategia de trabajo. En las disciplinas de ingeniería, ciencias y programación de computadoras, es importante tener un enfoque consistente para resolver los problemas técnicos. El enfoque que se plantea a continuación es útil para un mejor desarrollo del diseño. A medida que se.

(41) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 30. desarrolla el trabajo es posible que los esquemas de resolución de problemas se aborden de forma ligeramente diferente, pero todos tienen el mismo formato básico (Moore 2010): 1. Se plantea el problema. . En esta etapa se hace una descripción breve y generalizadora del problema en cuestión. 2. Se describen los valores de entrada (conocidos) y las salidas (incógnitas) que se requieren.. . En este apartado se incluyen las unidades conforme describe los valores de entrada y salida. (El manejo correcto y sencillo de las unidades asegurara mejores respuestas) 3. Se desarrolla un algoritmo para resolver el problema.. . Trabajar con una versión simplificada del problema utilizando diagramas de flujos o pseudocódigos. 4. Resolver el problema.. . Esta etapa involucra la creación de una solución con MatLab®. 5. Probar la solución.. . ¿Los resultados tienen sentido lógico?. . ¿Coinciden con los cálculos de la muestra?. . ¿La respuesta es la que se pedía en realidad?. . Las gráficas son utilizadas con frecuencia como formas útiles para verificar la racionalidad de la respuesta.. Los pasos en el desarrollo del programa siguieron el orden descrito como estrategia de trabajo, con el propósito de lograr un resultado más eficiente. 2.2. Ajuste del diseño. El programa partirá del ajuste de una serie de parámetros, los cuales serán la base del posterior diseño. Se parte de la siguiente comprensión de nuestros parámetros de diseño: . Aleatoriedad en el periodo de muestreo de la serie de DANR a diseñar.. . Fácil obtención y almacenamiento de los DANR escogidos.. . Frecuencia y periodo de muestreo variable..

(42) CAPÍTULO 2. PROGRAMA DE GENERACIÓN DE DANR. 31. Si bien hasta ahora el rasgo principal de los DANR era su periodo de muestreo irregular el diseño del programa se basa esencialmente en esta característica, cumpliendo en toda su gama con los parámetros citados con anterioridad. 2.2.1 Elección de los periodos de muestreo La elección del periodo de muestreo se hace de manera arbitraria, no se evalúa ningún estándar en cuanto a elección del periodo de muestreo. Sin embargo fue necesario demostrar cómo quedaría implementado este en el programa y como sería manipulado finalmente: Matemáticamente queda descrito de la siguiente manera: Si deseamos obtener el muestreo 𝑥[𝑛] de una señal continua 𝑥 𝑡 para obtener los valores 𝑥(𝑡0 ), 𝑥 𝑡1 , … , 𝑥 𝑡𝑛 , … o de manera más abreviada 𝑥0 , 𝑥1 , . .. , 𝑥𝑛 , … y a los valores 𝑥𝑛 se les denomina muestras, entonces al intervalo de tiempo entre muestras se le llama intervalo de muestreo y entonces: 𝑥𝑛 = 𝑥 𝑛 = 𝑥 𝑛𝑇𝑠. (𝐸𝑐𝑢. 14). Donde la constante 𝑇𝑠 es el intervalo de muestreo. Y para nuestros propósitos 𝑇𝑠 ′ = 𝑇𝑠 + 𝑁 será el periodo de muestreo y 𝑁 será la secuencia de valores a generar en la confección de nuestros DANR. Para la generación de los DANR se eligen los siguientes periodos de muestreo 𝑇𝑠 ′. La variedad de los periodos escogidos determina en gran medida la finalidad del trabajo, para ello se seleccionan las siguientes características 𝑁 a generar en el periodo de muestreo: . Secuencia aleatoria. . Secuencia triangular. . Secuencia oscilatoria. El diseño de estas secuencias depende en gran medida de la programación utilizada para lo cual el MatLab® es una herramienta eficaz. En consecuencia se hace una revisión de las principales funciones (Moore 2010) disponibles para la generación de las series escogidas. (Ver Anexo III).