State of the art-final JHON ANAYA

(1)

PREDICCIÓN DE LA CALIDAD DEL AIRE: ESTADO DEL

ARTE

Jhon Jairo Anaya Díaz

Universidad Nacional de Colombia

Facultad de Ingeniería

Bogotá Colombia

[email protected]

RESUMEN

En este artículo se describe la forma y los procedimientos que se utilizan para desarrollar el estado del arte de la predicción de la calidad del aire en una zona específica. Se pretende indagar en las referencias utilizadas comparando los distintos métodos de estudio, y observar cual de estos ofrece las previsiones elaboradas más óptimas, del comportamiento en el tiempo de estos materiales perjudiciales para salud del Hombre. Se clasificará toda la información estudiada, de acuerdo al método usado y a los contaminantes a evaluar en la cada investigación, determinando cual de estos métodos usados son más pertinentes y cuales son los que ofrecen mejor eficiencia en la predicción. En esta revisión se encuentra que los métodos más empleados y eficientes son los no lineales, como son las Redes Neuronales con su topología Perceptrón Multicapa. Aunque las versiones Hibridas, también obtienen excelentes resultados en la predicción. Por lo cual sería un buen punto de partida empezar el estudio utilizando este tipo de métodos para el pronóstico de contaminantes.

Categories and Subject Descriptors

A.0 [GENERAL]; C1.3 [Other Architecture Styles]; C.4 [PERFORMANCE OF SYSTEMS]; D.2.3 [Coding Tools and Techniques]; G.1.6 [Optimization]

Términos Generales

Redes Neuronales, Machine Learning, Calidad del Aire, PM10, CO, PM2.5, NOx, Sox, Data Mining.

Palabras Claves

Calidad del aire; estado del arte; redes neuronales; material particulado; contaminantes atmosféricos; gases contaminantes; aprendizaje de máquinas; minería de datos.

1. INTRODUCCION

Hoy en día se sabe que el estudio de la calidad del aire en nuestra sociedad es de vital importancia y bienestar, ya que si no se protege puede afectar a la salud de los seres humanos y además la vida de plantas y animales de nuestro entorno.

La calidad del aire ha emergido como el mayor factor de contribución a la calidad de Vida en las zonas urbanas, y especialmente en las áreas densamente pobladas e

industrializadas [29].

Es de saber que un medio ambiente limpio y saludable es sinónimo de una mejor calidad de vida. El estado del arte de los artículos y demás textos presentados buscan la predicción de los contaminantes1 estudios, mediante diferentes técnicas de Minería de Datos, Estadística y Aprendizaje de Máquinas, con la utilización de la meteorología disponible, en las diferentes estaciones de monitoreo de estudio. Los principales contaminantes que se estudian en las referencias presentadas son las partículas menores a 10 micras (PM10) y menores a 2.5 micras (PM2.5), de igual manera los contaminantes gaseosos como son el monóxido de Carbono (CO), dióxido de Carbono (CO2), ozono (O3), dióxido de azufre (SO2) y dióxido de Nitrógeno (NO2).

Los contaminantes del aire se estiman que causan alrededor de 2 millones de muertes prematuras en su mayoría en los países en desarrollo. Casi la mitad de estas muertes se deben a la neumonía en niños menores de 5 años de edad [45]

Se pretende clasificar toda la información a partir de la archivos encontrados para el estado del arte, se comienzan por ordenar cronológicamente cada uno, desde el mas antiguo hasta el mas reciente; luego se busca a cual escuela pertenece cada investigación; a partir de allí se separan los pertenecientes a los modelos matemáticos determinísticos (teóricos), cuales empíricos y cuales forma un Hibrido (combinación de empíricos y determinísticos).

En los métodos determinísticos se ordenan todos los que usan modelos de transporte químico, aplicando fundamentalmente principios de simulación física y química, implicado a la emisión, transporte y transformación de los proceso que están presentes en la contaminación ambiental; entre estos se encuentra los estocásticos y los estadísticos. Lo métodos empíricos usan modelos estadísticos o técnicas numéricas para cuantificar las relaciones observadas entre los campos de la meteorología de una zona específica y la calidad del aire [5].

Dentro de los modelos empíricos se hace una subdivisión para separar los métodos lineales de los no lineales, además de la combinación de ambos. Dentro de los no lineales se subdividen en las diferentes topologías usadas en las referencias, al igual que los lineales, los Híbridos y otros. Se anota de cada clasificación lo más relevante de los artículos encontrados, se termina mostrando los resultados encontrados en el estado del arte.

1

Se refiere a aquellos agentes que por su composición química pueden conducir a cualquier tipo de daño en el medio. Glosario IDEAM;

http://institucional.ideam.gov.co

Permission to make digital or hard copies of all or part of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. To copy otherwise, or republish, to post on servers or to redistribute to lists, requires prior specific permission and/or a fee.

(2)

Predicción de la Calidad del Aire

EMPÍRICO

ANÁLISIS NUMÉRICO

ESTADÍSTICOS

Machine Learning

Hibrido

Métodos Lineales

Data Mining

Predictor Simple

Modelo Lineal

Regresión No Lineal DETERMINÍSTICO

HIBRIDO Métodos

Estadísticos

Métodos Estocásticos Sistema de

Modelamiento Determístico

Software Especializado

MLP SVM RBF ELMA

SEMI - MARKOV OCULTO (HSMM) TRANSFORMADA DE WAVELET

MÚLTIPLE REGRESIÓN

LINEAL ARIMA

LRA CART PCA PERSISTENCIA

NLR BACK-TRAYECTORY MACHINE LEARNING/

ESTADÍSTICO LINEAL / NO LINEAL MACHINE LEARNING / T

WAVALET MACHINE LEARNING / REGRESIÓN NO LINEA

Figura 1. Mapa Mental del Estado de Arte

En este trabajo se revisan de forma detallada estos y otros temas, y se revisa la literatura para la construcción de un estado del arte actualizado.

Se puede observar en la el mapa mental de la Predicción de la Calidad del aire y sus respectivas subdivisiones desarrolladas en el estudio del estado del arte.

El resto de este artículo se organiza de la siguiente manera: en la primera parte se presenta la definición del problema, en la segunda parte se presenta los antecedentes y trabajos relacionados con la predicción de la calidad del aire, usando diferentes métodos; y por último, llegamos a la conclusión del artículo.

2. PROBLEMÁTICA

Comúnmente se encuentra que la contaminación del aire es causada por una mezcla de una gran variedad de contaminantes provenientes de fuentes difusas, como el tráfico y las calefacciones, y de fuentes puntuales [47], que puede afectar sólo a un área relativamente pequeña, o una amplia región.

También es de saber que la contribución relativa de las fuentes de emisión de contaminantes del aire a la exposición humana puede variar de acuerdo a los factores regionales, como el clima y el estilo de vida [47].

Los contaminantes del aire ejercen una amplia gama de impactos biológicos y físicos sobre los ecosistemas. Sus efectos sobre la salud humana son motivo de especial preocupación [1] y amplio estudio en los países en vía desarrollo.

Existen graves riesgos para la salud derivados de la exposición a al materia particulado y al Ozono en numerosas ciudades de los

países desarrollados y en desarrollo. Es posible establecer una relación cuantitativa entre los niveles de contaminación y resultados concretos relativos a la salud como el aumento de la mortalidad o la morbilidad [46]. Este dato resulta útil para comprender las mejoras que cabría esperar en materia de salud si se reduce la contaminación del aire. Esta es una de las razones del estudio de la predicción de la Calidad del aire en una zona, ya que se podría saber como posiblemente se comportaría un contaminante y así desarrollar algún tipo de campaña para disminuirlo.

El 26 de Septiembre de 2011 en Ginebra, la Organización Mundial de la Salud (WHO2_{) concluye que en muchas ciudades} la contaminación del aire está alcanzando niveles que ponen en peligro la salud de la gente, según un trabajo sin precedentes de recopilación de datos sobre la calidad del aire dado a conocer hoy por la Organización Mundial de la Salud (WHOS) [45]. La información analizada abarca datos de casi 1100 ciudades de 91 países, incluidas capitales y ciudades de más de 100000 habitantes

La principal fuente de contaminación en los centros urbanos es el tráfico urbano y los contaminantes principales son los materiales particulado, los óxidos de nitrógeno y el ozono (en la época de mayor radiación solar) y los compuestos orgánicos volátiles en presencia de radiación ultravioleta [16].

En los centros urbanos, las principales causas de la contaminación del aire están relacionadas con la quema de combustibles fósiles los cuales se producen en los proceso de las industrias y del transporte por carretera, principalmente [10], ya que liberan a la atmósfera contaminantes, ya sea como gases, vapores o partículas sólidas capaces de mantenerse en

2

(3)

suspensión; las principales fuentes de emisiones antropogénicas de los óxidos Nitrosos son los procesos de combustión (calefacción, generación de electricidad y motores de vehículos y barcos)[45].

Uno de los contaminantes más peligrosos es PM10 [4], que es el material particulado que tiene un diámetro promedio menor de 10 micras. El material particulado menor a 10 micras ha sido identificado como uno de los principales contaminantes atmosféricos responsables de diversos problemas de salud. De hecho, estudios recientes han demostrado que este material se asocia claramente con las enfermedades respiratorias [39].

Otro contaminante estudio es el PM2.5 que es el material particulado que tiene un diámetro promedio menor de 2.5 micras, de igual manera muy peligros para la salud.

El pequeño tamaño del PM10 y del PM2.5, les permite entrar fácilmente a los alveolos pulmonares donde se pueden situar causando efectos adversos sobre la salud. La exposición crónica a las partículas de estos contaminantes aumenta el riesgo de desarrollar enfermedades cardiovasculares y respiratorias, así como de cáncer de pulmón [45].

El material Particulado se forma básicamente por medio de procesos mecánicos, como las obras de construcción, la re-suspensión del polvo de los caminos y el viento, y las partículas mas pequeñas proceden sobre todo de fuentes de combustión [48].

El ozono (O3) es un gas que ocurre tanto en la atmósfera superior de la Tierra como a nivel del suelo. Un nivel elevado de O3 troposférico es un peligro potencial para la salud humana, los cultivos y la vegetación [23]. La producción, la dispersión y la acumulación de ozono en una zona urbana depende altamente de la radiación solar, la estabilidad atmosférica, la temperatura [33], entre otras características. El ozono troposférico generado en las capas bajas de la atmósfera y que forma parte de las neblinas de contaminación, es irritante y tóxico para el ser humano, también afecta de manera importante a materiales poliméricos al ser un fuerte oxidante3.

Uno de los poderosos gases contaminantes de la atmósfera son los Óxidos Nitrosos (NOx); estos hacen referencia al Óxido Nítrico (NO) y al Dióxido de Nitrógeno (NO2). Los Óxidos de Nitrógeno se forman al mismo tiempo en los procesos de combustión y otras operaciones industriales que manejan altas temperaturas, tales como los hornos de la industria metalúrgica, los altos hornos y los hornos de plasma entre otros. Los efectos en la salud son diversos, su principal efecto tóxico se debe a su actividad como agente irritante del pulmón, puede causar edema pulmonar [40].

Otro de los gases contaminantes también estudiados en las referencias que afectan la salud y el medio ambiente son los Óxidos de Azufre (SOx); este se forma principalmente durante la combustión de los combustibles que contienen azufre siendo así un contaminante primario4. La exposición aguda causa lesiones de las células de las vías respiratorias; exposición crónica a produce un aumento en la incidencia de bronquitis en la población [40].

3

Glosario IDEAM; http://institucional.ideam.gov.co

4

Es emitido directamente de una fuente al aire

El último, pero no menos importante se encuentra el gas Monóxido de Carbono (CO), el cual se produce principalmente de la combustión incompleta de diversos materiales combustibles, como la calidad de los combustibles (su composición); este contaminante atmosférico es un gas incoloro e inoloro que al reaccionar con la hemoglobina de la sangre forma carboxihemoglobina la cual interfiere con la oxigenación de los diferentes órganos y tejidos del cuerpo [43].

Todos estos contaminantes son los que se estudian actualmente en el siguiente estado del arte. Estos son los contaminantes que mas afectan la calidad del aire de las zonas urbanas y por ende la salud Humana.

3. ANTECEDENTES DEL ESTADO DEL

ARTE

3.1 Estudio de las Referencias

El estudio parte analizando y clasificando todas las referencias seleccionadas, desde las más antiguas hasta las más recientes. De las referencias dl estado del arte se encuentra [22] el cual en al año 1999, utiliza modelos de series temporales, para métodos de predicción, usando 6 diferentes arquitecturas, 4 modelos de Redes Neuronales Artificiales (ANNs), un modelo Estadístico definido como AutoRegressive Integrated Moving Average (ARIMA) [3], que en español sería algo como Modelo Autoregresivo de Media Móvil; modelo desarrollado por Box Jenkins en el año 1976; y por último utiliza una combinación del modelo estadístico con una red neuronal; obteniendo mejores resultados con los modelos de ANN.

Las ANNs, están inspiradas por Redes Neuronales Biológicas. La idea de las neuronas como componentes estructurales del cerebro fue presentado por Ramón Cajal en 1911[28].

McCulloch & Pitts [1943] definieron la neurona como un dispositivo binario con varias entradas y salidas.

Los enfoques tradicionales para la predicción de series de tiempo, como el de Box-Jenkins o ARIMA, asumen que la serie de tiempo de estudio se genera a partir de procesos lineales. Sin embargo, pueden ser inapropiados si el mecanismo subyacente es no lineal [19]. De hecho, los sistemas del mundo real son a menudo no lineales; este fue uno de los hechos en los cuales el autor expresa que obtuvo resultados tan eficientes como con las ANNs. Aunque este estudio no se basa en la predicción de contaminantes del aire, es pertinente para el estudio de los resultados de los diferentes métodos de predicción de datos en el tiempo.

Figura 2. Estructura de un Perceptrón Multicapa5

5

(4)

La primera referencia de estudio de las seleccionadas (año 2000), en la predicción de los contaminantes de aire es [36], esta investiga la predicción de material particulado menor de 2.5micras en Santiago de Chile, con tres métodos diferentes, usando ANN, en especial Perceptrón Multicapa (MLP) y dos métodos lineales, Regresión Lineal y el simple Predictor de Persistencia; encontrando los mejores resultados con MLP. Como entrada de datos utiliza la Meteorología disponible de las estaciones de monitoreo presentes en la ciudad.

Este artículo, aunque es antiguo, es relevante ya que trata de mostrar cual de los modelos ofrece mejores resultados comparando métodos no lineales con métodos estadísticos, haciendo críticas y demostraciones de sus eficiencias en la predicción

Este estudio no se aleja de los mas recientes ya que se observa que autores como [14] en 2005, como [21] y [29] en 2010 y [34] en 2011, utilizan un modelo basado en ANNs con topología de MLP, obteniendo los más óptimos resultados con dichas topologías. Aunque, [21] investiga sobre la predicción para 3 días, de los contaminantes SO2, CO y PM10 y [29] utiliza MLP para 3 días de predicción, para los contaminantes NO2 y O3 adicionales a los ya citados, son muy pertinentes ambos ya que esta topología al comportarse eficientes, se obtienen pronósticos satisfactorios para un día del 92.2% y para el tercer día de

84.6%. Para [34] las ANNs que se estudiaron y obtuvieron mejores resultados fue una de la 5 topologías de MLP comparadas con RBF y modelos lineales.

Es pertinente tener en cuenta que estos estudios se realizan en regiones cercanas con climas muy parecidos, pero con diferentes contaminantes.

El autor de [36] realiza un estudio análogo en [35, 37, 38], enmarcados en la misma región de Santiago de Chile usando los mismos datos suministrados por una única estación de 1998 a 2000 y el mismo método de ANNs; la diferencia radica en los contaminantes estudiados ([37, 38] usa PM10, [36] usa PM2.5 y en [35] investiga sobre la predicción de CO) y en que [38] utiliza datos de 2001 y 2002.

Algo que se puede extraer de estos estudio es que el autor asegura que fue posible obtener, debido a que solo se tuvo en cuenta los datos de monitoreo en Invierno y Otoño, ya que en las primavera y verano la temperatura es tan alta que los equipos los dejan fuera de servicio, porque pueden tomar medidas atípicas o simplemente se pueden averiar. En la Tabla 1 se encuentra la clasificación de las referencias estudiadas en el estado del arte, organizadas cronológicamente.

Tabla 1. Resumen de Referencia Estudio

Fecha No AUTORES TIPO DE REFERENCIA PERIODO DE

MONITOREO CONTAMINANTE ÁREA ESCUELA CLASE TIPO MÉTODO

ESTADÍSTICO LINEAL ARIMA

ANÁLISIS NUMÉRICO MACHINE LEARNING MLP REGRESIÓN LINEAL- PERCEPTRÓN LINEAL

MLP ESTADÍSTICO SIMPLE PREDICTOR: PERSISTENCIA

2001 3 Kaminski, W Book Section 1990-1999 PST -PARTÍCULAS _SUSPENDIDAS POLONIA EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING MLP MLP REGRESIÓN LINEAL- PERCEPTRÓN LINEAL EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING MLP DETERMINÍSTICO ESTADÍSTICO MODELO LINEAL ESTADÍSTICO SISTEMA DE MODELAMIENTO DETERMINÍSTICO 6 Lu, W Z Wang, W J Wang, X K_{Xu, Z B Leung, A Y T} Journal 2000 NOX HONG KONG - HONG KONG EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING RBF

2004 7 Perez, Patricio Palacios, Rodrigo _{Castillo, Alejandro} Journal 1998-2000 CO SANTIAGO DE CHILE - CHILE EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING MLP

8 Hooyberghs, J Mensink, C Dumont,

G Fierens, F Brasseur, O Journal 1997-2001 PM10 BRUSELAS - BÉLGICA EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING MLP

9

Niska, Harri Rantamäki, Minna Hiltunen, Teri Karppinen, Ari Kukkonen, Jaakko Ruuskanen,

Juhani Kolehmainen, Mikko

Journal 2000-2003 NO2 Y PM2.5 HELSINKI - FINLANDIA HIBRIDO ESTADÍSTICO/ANÁLISIS NUMÉRICO MACHINE LEARNING/ESTADÍSTICO MODELO DE ÁREA DE ALTA RESOLUCIÓN LIMITADA _(HIRLAM)

10 Ordieres, J.B. Vergara, E.P._{Capuz, R.S. Salazar, R.E.} Journal 2000-2002 PM2.5 MÉXICO-USA EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING MLP - RBF - SMLP 11 Lu, Wei-Zhen Wang, Wen-Jian Journal 1999 NO2 HONG KONG - HONG KONG EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING SVM - RBF 12 Corani, Giorgio Journal 1999-2001 O3 y PM10 MILÁN - ITALIA EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING PNN - LL - MLP 13 Grivas, G. Chaloulakou, A. Journal 2001-2002 PM10 ATENAS - GRECIA EMPÍRICA ANÁLISIS NUMÉRICO HIBRIDO ALGORITMOS GENÉTICOS / MLP

ANÁLISIS NUMÉRICO MACHINE LEARNING MLP ESTADÍSTICO LINEAL LRA - CART - PCA

REGRESIÓN LINEAL- PERCEPTRÓN LINEAL MLP 16 Zolghadri, A._{Cazaurang, F.} Journal 1998 PM10 BURDEUS - FRANCIA EMPÍRICA ANÁLISIS NUMÉRICO MODELO ADAPTIVO NO LINEAL DE ESPACIO DE ESTADO FILTRO KALMAN

MACHINE LEARNING SVM LINEAL TRANSFORMADA DE WAVELET

MÚLTIPLE REGRESIÓN LINEAL (MLR) ARIMA ANÁLISIS NUMÉRICO MACHINE LEARNING MLP HIBRIDO ESTADÍSTICO/ANÁLISIS NUMÉRICO LINEAL - NO LINEAL ARIMA/MLP

19

Ibarra-Berastegi, Gabriel Elias, Ana Barona, Astrid Saenz, Jon Ezcurra, Agustin Diaz de Argandoña, Javier

Journal 2000-2001 SO2 - CO - NO - O3 BILBAO - ESPAÑA EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING RBF - MLP

20 _{Gennaro, G. Ielpo, P.}Caselli, M. Trizio, L. Journal 2005-2006 PM10 BARI - ITALIA EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING RBF - MODELO DE REGRESIÓN LINEAL

21

Karatzas, Kostas D Papadourakis, George

Kyriakidis, Ioannis

Book Section 2004-2005 CO - SO2 ATENAS - GRECIA EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING MLP

22

Barai, S V Gupta, A K Kodali, Jayachandar

Book Section 2000-2001 PM10 - SO2 - NO2 BARAI - INDIA EMPÍRICA ANÁLISIS NUMÉRICO HIBRIDO MLP - Ventana Móvil de Implementación de Modelo

23

Hrust, Lovro Klaić, Zvjezdana Bencetić Križan, Josip Antonić, Oleg

Hercog, Predrag

Journal 2004 PM10 - O3 - NO2 - CO ZAGREB - INDIA EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING MLP

24

Dong, Ming Yang, Dong Kuang, Yan He, David Erdal, Serap Kenski, Donna

Journal 2000-2001 PM2.5 COOK COUNTY , ILLINIOS - USA EMPÍRICA ANÁLISIS NUMÉRICO DATA MINING SEMI - MARKOV OCULTO (HSMM)

25 Benghanem, Mohamed_{Mellit, Adel} Journal 1998-2002 RADIACIÓN SOLAR GLOBAL AL-MADINAH - ARABIA SAUDITA EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING: REDES NEURONALES MLP - RBF 26 Cobourn, W. Geoffrey Journal 2007-2008 PM2.5 LOUISVILLE, KENTUCKY - USA EMPÍRICA ESTADÍSTICO REGRESIÓN NO LINEAL NLR - BACK-TRAYECTORY 27 _{Oktay, Ayşe Betül}Kurt, Atakan Journal 2005-2006 SO2 - CO - PM10 BESIKTAS - TURQUÍA EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING: REDES NEURONALES MLP

28

Moustris, Konstantinos P Ziomas, Ioannis C Paliatsos, Athanasios G

Journal 2001-2005 NO2 - CO - SO2 -O3 ATENAS - GRECIA EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING: REDES NEURONALES MLP

29 _{Osowski, S.}Siwek, K. Journal 2006-2008 PM10 VARSOVIA -POLONIA HIBRIDO ESTADÍSTICO/ANÁLISIS NUMÉRICO MACHINE LEARNING/ESTADÍSTICO ARX LINEAL /MLP / ELMA N /RBF/ SVM 30 Paschalidou, Anastasia K_{Karakitsios, Spyridon} Journal 2006-2008 PM10 CHIPRE EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING: REDES NEURONALES MLP

31

Voukantsis, Dimitris Karatzas, Kostas Kukkonen, Jaakko Räsänen, Teemu Karppinen, Ari

Kolehmainen, Mikko

Journal 2001-2003 PM10 - PM2.5 HELSINKI - FINLANDIA / SALÓNICA - _GRECIA HIBRIDO ESTADÍSTICO/ANÁLISIS NUMÉRICO REGRESIÓN NO LINEAL / MACHINE LEARNING MLP/PCA

DETERMINÍSTICO MÉTODO ESTOCÁSTICOS SOFTWARE ESPECIALIZADO ENVINNET - CMAQ EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING MLP 33 Shekarrizfard, Maryam_{Hadad, K} Journal 2005 PM10 SHIRAZ - IRAM EMPÍRICA ANÁLISIS NUMÉRICO HIBRIDO TRANSFORMADA DE WAVELET /MLP 34 Domańska, D._{Wojtylak, M.} Journal 2002-2004 PM10 POLONIA EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING MODELO DIFUSO

35

Yeganeh, B. Motlagh, M. Shafie Pour Rashidi, Y. Kamalan, H.

Journal 2007-2011 CO TEHERÁN - IRÁN HIBRIDO ESTADÍSTICO/ANÁLISIS NUMÉRICO REGRESIÓN NO LINEAL / MACHINE LEARNING SVM/ PLS

2010

2011

PHOENIX - USA PM10

2005 Journal Fernando, H J S Mammarella, M C Grandoni, G Fedele, P Di Marco, R 32 2012 1998 1998 1994-1995 2009 2000 Journal Journal MACHINE LEARNING ANÁLISIS NUMÉRICO EMPÍRICA SANTIAGO DE CHILE - CHILE PM10

1998-1999

ANÁLISIS NUMÉRICO

-

-EMPÍRICA SANTIAGO DE CHILE - CHILE PM2.5 EMPÍRICA 2005 Journal Perez, Patricio 2002

HELSINKI - FINLANDIA NO2 Y PM10

1999-2003 Journal Kukkonen, J

2003

Slini, T. Kaprara, A. Karatzas, K. Moussiopoulos, N. 1 2 4 5 Perez, Patricio Trier, Alex Reyes, Jorge Lee, Jae Kyu Yum, Chang Seon

EMPÍRICA SALÓNICA - GRECIA

PM10 1994-2000 Journal

NO2 - CO - SO2 2003 Journal Osowski, Stanislaw Garanty, Konrad 17 LINEAL EMPÍRICA

TEMUCO - CHILE PM10

ESTADÍSTICO

MACHINE LEARNING

EMPÍRICA ANÁLISIS NUMÉRICO MACHINE LEARNING

2007 PM10 2001-2002 Journal Perez, Patricio Reyes, Jorge

15 SANTIAGO DE CHILE - CHILE

14 2006 ANÁLISIS NUMÉRICO EMPÍRICA POLONIA 2000-2006 Journal Díaz-Robles, Luis A. Ortega, Juan C.

Fu, Joshua S. Reed, Gregory D. Chow, Judith C. Watson, John G. Moncada-Herrera, Juan A. 18

(5)

Un modelo MLP consta de una red de elementos de proceso simples y conexiones. Los elementos de proceso, llamadas neuronas, están dispuestas en capas, que son la capa de entrada, la llamada capa oculta, y la capa de salida. Cada neurona calcula una suma ponderada de las entradas que recibe de las neuronas vecinas, procesa esta función mediante una “activación”, y distribuye el resultado a la capa posterior [20]. La estructura típica de una MLP se muestra en la Figura 2.

En el centro de Polonia en el año de 2001, se estudia el material Particulado Suspendido Total (PST) [18], siendo este todas las partículas que se encuentran en el aire sin importar su tamaño [40]. Único autor que estudia este contaminante en las referencias escogidas, En este estudio el autor demuestre que se obtienen mejores resultados usando Algoritmos de Aprendizaje Automáticos o Machine Learning, como lo son las diferentes topologías de ANNs, en especial el MLP.

Aprendizaje Automático es el estudio de algoritmos computacionales que mejoran automáticamente a través de la experiencia. Las aplicaciones van desde los programas de extracción de datos que descubren las reglas generales en grandes conjuntos de datos, a los sistemas de filtrado de información que automáticamente aprender intereses de los usuarios [27]. El aprendizaje automático por lo general se refiere a los cambios en los sistemas que llevan a cabo tareas relacionadas con la Inteligencia Artificial (IA); estas tareas implican el reconocimiento, diagnóstico, planificación, control de robots, predicción, etc [30] .

Algunos autores investigan en otros modelos de predicción de contaminantes usando topologías diferentes a las habituales, como es el caso de [50] en donde el autor investiga también la predicción de PM10, en Burdeos, utilizando un modelo adaptivo de aproximación no lineal con espacio de estado llamado Filtro Kalman, con resultados de estimación para un día superior a un 70%. En [6] se pone a prueba otro modelo no muy utilizado, son las llamadas Redes Neuronales Podadas (PNN), las cuales consiste en eliminar los parámetros redundantes de una red neuronal totalmente conectada; redes podadas puede contener un orden de magnitud menor que los parámetros de los completamente conectados y, como tal, ya no son propensos a errores aleatorios [6]. El autor muestra que los mejores resultados en la predicción la obtienen con la utilización de MLP, con eficacia de un 90% en pronósticos para 2 días. Otra investigación que se lleva acabo analizando NO2 es [24], la cual utiliza dos métodos de Machine Learnig: RBF y Máquinas de Vectores de Soporte (SVM) en la ciudad de Hong Kong, con datos de 1999, presentes en una estación de monitoreo de la ciudad. Compara los métodos y encuentra que la SVM obtiene mejores resultados, con errores promedio del 15%. La referencia [7] además de PM10, estudia y pronostica los contaminante PM2.5, SO2, NO, CO y O3, en Polonia, usando modelos difusos en una serie en el tiempo, obteniendo buenos resultados para predicciones de un día. Aunque es un buen método, no obtiene los resultados esperados en la predicción ya que los erros son un superiores al 20%.

En [1] el estudio de la predicción se la hace a los contaminantes PM10, SO2 y NO2 en Barai – India utilizando MLP a partir de los datos recolectados de una estación de monitoreo con la que cuenta la ciudad. Analiza además un método llamado Concepto de Ventana Móvil de Implementación de Modelo (Moving Window Model Deployment), en el cual solo se toma un subconjunto de entradas y objetivos del conjunto total de la serie temporal de datos, usados para el entrenamiento. En conjunto el

sistema pronostica con errores del 2.1% para el PM10, 0.56% para SO2 y 3.45% para NO2.

Estos métodos aunque ofrecen resultados satisfactorios, no superan los métodos convencionales con MLP, como lo ha venido manifestando y evidenciando en cada autor.

Otros investigadores enmarcan su estudio, evaluando los resultados y comparándolo con métodos de uno y otra escuela, como en Helsinki, Finlandia - 2003, [20] estudia los contaminantes atmosféricos NO2 y PM10; primero evalúa un modelo lineal estadístico llamado Sistema de Modelamiento Determinístico basado en dos sistemas: uno para la modelización de la dispersión de la red de carreteras y el segundo que evalúa la dispersión de fuentes estacionarias, que en conjunto estudia los volúmenes de tráfico, las emisiones de fuentes fijas y vehículos, y la dispersión de la contaminación atmosférica en una zona urbana. La segunda escuela valora entre 3 topología diferentes de ANNs, para cada contaminante, obteniendo los mejores resultados con las ANNs. Otro autor que desarrolla el mismo principio de evaluación es [42] quien también estudia PM10, usando MLP y los compara con modelos Estadísticos: Análisis de Regresión Lineal (LRA), Árboles de Decisión y Regresión (CART) y con Componente Principal de Análisis (PCA), obteniendo el mismo resultado. En Phoenex, Arizona, [11] hace el mismo estudio en el año de 2012 y obtiene que los modelos basados en ANNs son mas efectivos a la hora de la predicción de los contaminantes, concretamente con el software

EnviNNet.

La Agencia Nacional Italiana para las Nuevas Tecnologías, Energía y Desarrollo Económico Sostenible (ENEA) desarrolló un prototipo modelo de estocástico basado en redes neuronales NN, llamado EnviNNet, para el pronóstico de la calidad del aire en Roma, Milán y Nápoles. El desarrollo de EnviNNet requiere una cuidadosa selección de un subconjunto de variables de entrada, prestando atención específicas al sitio de los sucesos, incluidos los efectos de retardo de tiempo [11].

Pero el estudio mas relevantes en este tipo de evaluaciones se realiza en Atenas, Grecia, donde [13] usando un modelo de ANNs con 3 topologías a MLP y además utiliza un tipo de Algoritmos Genéticos6 para seleccionar los tipos de entrada y comparados con modelos de Regresión Lineal, obteniendo mejores resultados con el primero. El predictor desarrollado fue probado y corroborado con resultados satisfactorios durante los Juegos Olímpicos del 2004 durante 16 días. Esto demuestra la ventaja que mantiene los métodos no lineales como son la ANNs sobre los determinísticos, en la predicción de la calidad del aire. En [4] el autor llega a la misma conclusión después de evaluar los modelos de estudio.

El análisis de regresión lineal (LRA) es una metodología estadística que utiliza la relación entre dos o más variables cuantitativas de modo que una variable se puede predecir a partir de las otras [42]. El análisis de componentes principales (PCA) es un método básico del análisis de factores, que tiene como objetivo reducir el número de variables y detectar los elementos de estructura entre las variables [42]. CART es un sistema utilizado en Minería de Datos para el aprendizaje de árboles de clasificación y regresión [44]. Los Algoritmos Genéticos (GA) son un método para pasar de una población de "cromosomas" (por ejemplo, las cadenas de ceros y unos, o "bits") a una nueva

6

(6)

población mediante el uso de una especie de "selección natural", junto con los operadores de la genética de cruce, la mutación y la inversión[26].

Figura 3. Topología Básica de un Función de Base Radial7

Los modelos de RBF se diferencian al MLP en la forma de activación, ya que estas utilizan un nivel de activación de una neurona oculta, que está determinado por la distancia entre el vector de entrada a la Red y un vector prototipo asociado a dicha neurona y no por una función [32].

En el borde México con Estado Unidos también era estudiado el contaminante PM2.5, en donde el autor utiliza modelos diferentes de ANNs, como son el RBF y el MLP, con sus variantes, obteniendo mejores resultados con la topología RBF, ya que la topología MLP se vio afectada por las condiciones meteorológicas de la localización.

Esto es de destacar, ya que en la mayoría de referencias estudiadas hasta ahora los resultados con MLP siempre habían superado al resto, pero aquí fallan debido a los propios datos de entrada a la topología, ya que en esta región árida, se presenta muchas ráfagas de vientos en todo momento, mostrando datos atípicos cuando las medidas son de vientos en calmas; con estos datos la topología MLP, muestra variados errores en la predicción, que comparados con el modelo RBF, se ve superado por un pequeño margen.

Otros autores se van por la vertiente de las Escuelas Hibridas en donde combinan modelos Determinísticos y empíricos mejorando notablemente los resultados en algunos casos, comparados con los modelos de una u otra escuela. Esto se evidencia en [31] estudia los contaminantes NO2 y PM2.5, en la ciudad de Helsinki, usando una combinación de un operador determinístico llamado Modelo de Área de Alta Resolución Limitada (HIRLAM) el cual es un modelo numérico predictor del clima (NWP) y un modelo empírico MLP, obteniendo un modelo muy eficiente en la predicción.

En Temuco Chile, [9] se hace un estudio de la predicción de PM10 usando tres métodos de aproximación uno lineal, otro no lineal y uno Hibrido. El primero usa dos topologías: modelo Regresión Lineal Múltiple8 (MLR) y ARIMA – Box Jenkins, y el segundo utiliza un modelo ANNs, el MLP. Para el Hibrido utiliza ARIMA para la correlación de los datos de entrada y luego utiliza el MLP, para obtener la predicción del contaminante, obteniendo resultados de 99% en la predicción, como se observa en la Tabla 2, siendo esta topología una de las mas precisas en la predicción.

7_{Fotografía tomada de [2]}

8_{Es el mismo concepto que la Regresión Lineal, solo que utiliza más de una}

variable cuantitativa.

Tabla 2. Conjunto de validación de datos del Modelo híbrido ARIMAX-MLP[9]

En [15], el autor en España hace un estudio de la predicción de los contaminantes SO2, CO, NO2 y O3 usando diferentes de ANNs, entre ellas 216 variantes de MLP y RBF, obteniendo los mejores resultados con una topología de MLP cuya predicción del 95% para 8 horas; además utiliza algoritmos genéticos para encontrar la mejor modelo para los datos históricos de meteorología de entrada. Pienso que el autor se sobre-limitó en el estudio al utilizar tantas variantes de ANNs para obtener estos resultados. Debió conocer un poco mas el estado del arte y no hacer tantas pruebas con la misma estructura para encontrar que la mejor predicción la iba a obtener con MLP.

A diferencia de las anteriores referencias en [8] utiliza para predecir el comportamiento del contaminante PM2.5, un modelo nuevo en este campo, una serie temporal de Minería de Datos (Data Mining). La Minería De Datos se define como el proceso de descubrir los patrones de datos. El proceso debe ser automático o (más frecuentemente) semiautomático [44]. El autor utiliza un método llamado Semi-Markov oculto (HSMM), el cual representa una secuencia de estocástica de cadenas de Markov9, donde los estados no son directamente observables, pero están asociados a una función de probabilidad [8], encontrando aproximaciones muy precisas en un rango de predicción de 24h.

Otros 3 modelos Hibrido son estudiados a cabalidad con resultados muy satisfactorios, estos son evaluados en [41], entre la transformada de Wavelet y dos tipos de sistemas: 4 tipos de ANNs y con ARX, y otro modelo hibrido entre MLP y SVM, teniendo mejores resultados con este último, para los pronósticos de PM10 en Varsovia – Polonia; a continuación se muestra el esquema eficiente utilizado.

Figura 4. Esquema General de predicción Propuesto en [41]

9

En honor a Andrei Markov 1907, es una serie de eventos, en la cual la probabilidad de que ocurra un evento depende del evento inmediato

anterior - 2012.

(7)

En [49], se evalúa el pronóstico de CO, mediante un modelo hibrido de SVM y un método de selección de datos llamado Mínimos Cuadrados Parciales (PCA10). Este es comparado con un modelo de SVM, en donde se visualizan los mejores resultados para el modelo Hibrido, con eficiencia del 81%. Mostrándose que este tipo de modelo híbrido es muy eficiente en la predicción de este tipo de gas

Figura 5. Representación de los Clases

3.2 Sumario

A parir de la gráfica circular de las Clases Figura 5, se observa claramente el dominio de la Clase Empírica sobre las

Determinísticas y las Híbridas, en el estudio de la predicción de los contaminantes; el 82% de las referencias estudiadas en el estado del arte recomienda, evalúa y utiliza en el pronóstico de la calidad del aire, de acuerdo con sus investigaciones, una ANNs o cualquier otro método Lineal.

Figura 6. Contaminantes Estudio en la Referencias

En la Figura 6 se muestra cual fue el contaminante mas utilizado en las investigaciones para el pronóstico de a Calidad del Aire en un área específica.

Se encuentra que los métodos más usados en las referencias son las ANNs, como se evidencia en la Figura 7, evidenciando que el método mas usado es el MLP con 40% de las referencias estudiadas, continuándole la RBF en un 13%.

Se calcula que la contaminación atmosférica provoca al año cerca de dos millones de muertes prematuras en todo el mundo. Más de la mitad de esta carga es soportada por la población de los países en desarrollo. En muchas ciudades, el nivel medio anual de PM10 (cuya principal fuente es el uso de combustibles fósiles, entre otros tipos de combustibles) supera los 70 ug/m3, cuando, según las nuevas Directrices, para evitar la mala salud tales niveles deberían ser inferiores a 20 ug/m3 [48].

10

De sus siglas en Inglés Partial Least Squares

Figura 7. Diagrama Circular de la Clase Empírica

Las Guías de calidad del aire de la OMS constituyen el análisis más consensuado y actualizado sobre los efectos de la contaminación en la salud, y recogen los parámetros de calidad del aire que se recomiendan para reducir de modo significativo los riesgos sanitarios. Dichas Guías señalan que una reducción de la contaminación por partículas (PM10) de 70 a 20 microgramos por metro cúbico permite reducir en aproximadamente un 15% las muertes relacionadas con la calidad del aire [45].

4. APLICACIONES

Una de las aplicaciones mas apreciables es la de implementar un modelo de alerta y prevención en la ciudades mas densamente pobladas, para evitar daños en la salud de las seres humanos, debido al incremento de los contaminantes estudio.

Desarrollar un estudio de predicción de calidad de aire, sería pionera en la investigación de este ámbito, concretamente, material Particulado, en una zona de gran influencia a este tipo de contaminante, como lo es la ciudad de Valledupar, propensa a desarrollar problemas en la salud pública, debido a su cercanía a la región minera del Cesar.

Las predicciones de la calidad del aire sirven como base para la adopción de múltiples decisiones en el ámbito de salud pública de la región, gestión del riesgo, agricultura, entre otras.

Cualquier grano de arena que se adicione problemas en la salud humana y mejora al medio ambiente, es una gran ayuda para aumentar la calidad de vida de las personas.

Experimentar con estos contaminantes, para pronosticar su futuro impacto ambiental en una zona específica de nuestra región, sería un gran aporte en las decisiones que se tomen sobre las posibles concesiones de tierras para la explotación de recursos mineros, debido a que se conocería de ante mano el comportamiento de algún contaminante.

5. CONCLUSIONES

Las redes neuronales se puede decir que son un gran competidor a los modelos habituales de predicción ya que son superiores a los modelos fotoquímicos, en los pronósticos de calidad del aire, aunque la crítica se alimenta ya que este modelo no cuenta con fuertes bases físicas y mucho menos dinámicas.

(8)

parámetros de calidad del aire con series de tiempo diferentes [24].

Las ANNs han sido usadas como una herramienta muy eficaz en la predicción de contaminantes, principalmente el Perceptrón Multicapa, [37],[35],[38] y [9]. Las redes neuronales artificiales (ANNs) puede modelar sistemas no lineales y se han utilizado para modelar las concentraciones de contaminantes con resultados prometedores [25].

Una ventaja adicional de las redes neuronales es que no requieren un inventario de emisiones costoso o tampoco de un actualización periódica [49].

Las Máquinas de vectores soporte (SVM), son un nuevo tipo de “Machine Learning” basado en la teoría del aprendizaje estadístico, se puede utilizar para la regresión y la predicción de series temporales y se han reportado un buen desempeño por parte de algunos resultados prometedores[24].

Las redes neuronales no obtienen resultados óptimos en la predicción de los contaminantes cuando se encuentra en regiones calurosas donde se presenten muchas ráfagas de vientos; debido a que se presentan muchos datos atípicos en las mediciones de meteorología que conlleva a un mal funcionamiento de la red por los datos de entrada.

Una de las limitaciones impuestas por el modelo de regresión lineal es que sería un bajo rendimiento cuando se utiliza para modelar sistemas no-lineales [12]. Se evita su uso para este estudio.

Los modelos híbridos de ARIMAX y ANN en la calidad del aire, aprovecha las capacidades únicas de en modelos lineales y no lineales a través de una serie de tiempo. El híbrido ARIMA-ANN modelo solo se equivocó en una previsión de pre-emergencia, sobre el conjunto de validación de datos. Esta metodología híbrida es capaz de procesar la predicción de la calidad del aire no sólo un mes o una temporada, sino también todo el año [9]. Para tener en cuenta en le estudio.

Todo esto lleva a que en la predicción de la Calidad del Aire los modelos de ANNs son una muy buena opción, razón por la cual se pretende abordar este campo usando este tipo de modelo, combinándolo con un método que permite organizar los datos pertinentes de entrada, puede ser una técnica de Minería de Datos o también una ANN.

La precisión en la predicción depende de la calidad de los datos históricos, de la calidad de la predicción meteorológica y por último del tipo de contaminante.

Entre los contaminante, se encontró que el más estudiado es el PM10, razón por la cual se usará investigación; otro componente que se podría tratar es el CO debido a que en el área que se pretende estudiar en Valledupar, existe un equipo que mide dicho componente.

Actualmente se cuenta con un Grupo de Vigilancia Calidad de Aire en la Ciudad de Valledupar y Zona minera, a cargo de la Universidad Industrial de Santander en convenio con Corpocesar, en donde se monitorea los contaminantes PM10, PM2.5, CO y meteorología.

6. AGRADECIMIENTOS

Agradecimientos a la Universidad Nacional de Colombia (UNAL), seccional Bogotá y a la Universidad Popular del Cesar (UPC), al cuerpo de docentes de la Maestría en Ingeniería de Sistemas y Computación del convenio UNAL y UPC.

7. REFERENCIAS

[1] Barai, S.V. et al. 2009. Air Quality Forecaster : Moving Window Based. Applications of Soft Computing. E. Avineri et al., eds. Springer Berlin / Heidelberg. 137-145. [2] Benghanem, M. and Mellit, A. 2010. Radial Basis

Function Network-based prediction of global solar radiation data: Application for sizing of a stand-alone photovoltaic system at Al-Madinah, Saudi Arabia. Energy. 35, 9 (Sep. 2010), 3751-3762.

[3] Box, G.E.P., Jenkins, G.M. 1970. Time Series Analysis, Forecasting and Control.

[4] Caselli, M. et al. 2008. A Simple Feedforward Neural Network for the PM10 Forecasting: Comparison with a Radial Basis Function Network and a Multivariate Linear Regression Model. Water, Air, and Soil Pollution. 201, 1-4 (Dec. 2008), 365-377.

[5] Cobourn, W.G. 2010. An enhanced PM2.5 air quality forecast model based on nonlinear regression and back-trajectory concentrations. Atmospheric Environment. 44, 25 (Aug. 2010), 3015-3023.

[6] Corani, G. 2005. Air quality prediction in Milan: feed-forward neural networks, pruned neural networks and lazy learning. Ecological Modelling. 185, 2-4 (Jul. 2005), 513-529.

[7] Domańska, D. and Wojtylak, M. 2012. Application of fuzzy time series models for forecasting pollution concentrations. Expert Systems with Applications. 39, 9 (Jul. 2012), 7673-7679.

[8] Dong, M. et al. 2009. PM2.5 concentration prediction using hidden semi-Markov model-based times series data mining. Expert Systems with Applications. 36, 5 (Jul. 2009), 9046-9055.

[9] Díaz-Robles, L.A. et al. 2008. A hybrid ARIMA and artificial neural networks model to forecast particulate matter in urban areas: The case of Temuco, Chile. Atmospheric Environment. 42, 35 (Nov. 2008), 8331-8340. [10] Ecologístas en Acción: 2006. http://www.ecologistasenaccion.org/spip.php?article5681. [11] Fernando, H.J.S. et al. 2012. Forecasting PM10 in

metropolitan areas: Efficacy of neural networks. Environmental pollution (Barking, Essex : 1987). 163, (Apr. 2012), 62-7.

[12] Gardner, M. W. and Dorling, S.R. 1995. Artificial neural networks (the multi-layer feed-forward neural networks) – A review of applications in the atmospheric science. Atmospheric Environment. 30, 14/15 (1995), 2627–2636. [13] Grivas, G. and Chaloulakou, A. 2006. Artificial neural

network models for prediction of PM10 hourly concentrations, in the Greater Area of Athens, Greece. Atmospheric Environment. 40, 7 (Mar. 2006), 1216-1229. [14] Hooyberghs, J. et al. 2005. A neural network forecast for

daily average PM concentrations in Belgium. Atmospheric Environment. 39, 18 (Jun. 2005), 3279-3289.

[15] Ibarra-Berastegi, G. et al. 2008. From diagnosis to prognosis for forecasting air pollution using neural networks: Air pollution monitoring in Bilbao. Environmental Modelling & Software. 23, 5 (May. 2008), 622-637.

[16] Ii, T. et al. 2009. Libro verde - De medio Ambiente Urbano. Ministerio del Medio Ambiente Español.

(9)

[18] Kaminski, W. 2001. Evaluation of air pollution level by means of artificial neural n e t w o r k - multilayer perceptron. Handbook of Conveying and Handling or Particulates Solids. A. Levy and H. Kalman, eds. 739-744. [19] Khashei, M. and Bijari, M. 2010. An artificial neural

network (p,d,q) model for timeseries forecasting. Expert Systems with Applications. 37, 1 (Jan. 2010), 479-489. [20] Kukkonen, J. 2003. Extensive evaluation of neural network

models for the prediction of NO2 and PM10 concentrations, compared with a deterministic modelling system and measurements in central Helsinki. Atmospheric Environment. 37, 32 (Oct. 2003), 4539-4550.

[21] Kurt, A. and Oktay, A.B. 2010. Forecasting air pollutant indicator levels with geographic models 3days in advance using neural networks. Expert Systems with Applications. 37, 12 (Dec. 2010), 7986-7992.

[22] Lee, J.K. and Yum, C.S. 1998. Judgmental adjustment in time series forecasting using neural networks. Decision Support Systems. 22, 2 (Feb. 1998), 135-154.

[23] Lu, W.-Z. and Wang, D. 2008. Ground-level ozone prediction by support vector machine approach with a cost-sensitive classification scheme. The Science of the total environment. 395, 2-3 (Jun. 2008), 109-16.

[24] Lu, W.-Z. and Wang, W.-J. 2005. Potential assessment of the “support vector machine” method in forecasting ambient air pollutant trends. Chemosphere. 59, 5 (Apr. 2005), 693-701.

[25] Lu, W.Z. et al. 2003. Using Improved Neural Networkmodel To Analyze Rsp, Nox And No2 Levels In Urban Air Inmong Kok, Hong Kong. Environmental Monitoring and Assessment. 87, 2 (2003), 235-254. [26] Melanie, M. 1996. An Introduction to Genetic Algorithms.

Massachusetts Institute of Technology. [27] Mitchell, T. 1997. Machine Learning.

[28] Mohandes, M. et al. 2000. Use of radial basis functions for estimating monthly mean daily solar radiation. Solar Energy. 68, 2 (Feb. 2000), 161-168.

[29] Moustris, K.P. et al. 2010. 3-Day-Ahead Forecasting of Regional Pollution Index for the Pollutants NO 2 , CO , SO 2 , and O 3 Using Artificial Neural Networks in Athens , Greece. Water, Air, & Soil Pollution. 209, 1 (2010), 29-43. [30] Nilsson, N.J. 2005. Introduction To Machine Learning An Early Draft Of A Proposed Textbook Department of Computer Science. Standorf University.

[31] Niska, H. et al. 2005. Evaluation of an integrated modelling system containing a multi-layer perceptron model and the numerical weather prediction model HIRLAM for the forecasting of urban airborne pollutant concentrations. Atmospheric Environment. 39, 35 (Nov. 2005), 6524-6536.

[32] Palma, J.T. and Marín, R. 2008. Inteligencia Artificial: Método, técnicas y aplicaciones. McGraw-Hill.

[33] Paschalidou, A.K. et al. 2009. A comparative study on various statistical techniques predicting ozone concentrations : implications to environmental management. Environmental Monitoring and Assessment. 148, 1 (2009), 277-289.

[34] Paschalidou, A.K. and Karakitsios, S. 2011. Forecasting hourly PM 10 concentration in Cyprus through artificial neural networks and multiple regression models : implications to local environmental management. Environmental Science and Pollution Research. 18, 2 (2011), 316-327.

[35] Perez, P. et al. 2004. Carbon monoxide concentration forecasting in Santiago, Chile. Journal of the Air & Waste Management Association (1995). 54, 8 (Aug. 2004), 908-13.

[36] Perez, P. et al. 2000. Prediction of PM concentrations several hours in advance using neural networks in Santiago, Chile. Atmospheric Environment. 34, (2000), 1189-1196.

[37] Perez, P. 2002. Prediction of maximum of 24-h average of PM10 concentrations 30 h in advance in Santiago, Chile. Atmospheric Environment. 36, (2002), 4555-4561. [38] Perez, P. and Reyes, J. 2006. An integrated neural network

model for PM10 forecasting. Atmospheric Environment. 40, 16 (May. 2006), 2845-2851.

[39] Shekarrizfard, M. and Hadad, K. 2012. Wavelet transform-based artificial neural networks ( WT-ANN ) in PM 10 pollution level estimation , based on circular variables. Environmental Science and Pollution Research. 19, 1 (2012), 256-268.

[40] Sistema de Informacion Ambiental de Colombia - SIAC: 2012.

http://www.siac.gov.co/contenido/contenido.aspx?catID=58 5&conID=620. Accessed: 2012-06-28.

[41] Siwek, K. and Osowski, S. 2011. Improving the accuracy of prediction of PM10 pollution by the wavelet transformation and an ensemble of neural predictors. Engineering Applications of Artificial Intelligence. 2 (Nov. 2011), 1-13. [42] Slini, T. et al. 2006. PM10 forecasting for Thessaloniki, Greece. Environmental Modelling & Software. 21, 4 (Apr. 2006), 559-565.

[43] Universidad Industrial de Santander - Corpocesar 2012. Informe De Operación Del Sistema De Vigilancia De Calidad De Aire De La Ciudad De Valledupar, Departamento Del Cesar.

[44] Witten, I.H. et al. 2011. Data Mining Practical Machine Learning Tools and Techniques. Morgan Kaufmann. [45] Word Heald Organitation (WHO): 2011.

http://www.who.int/mediacentre/factsheets/fs313/en/index. html.

[46] World Health Organization 2005. Guías de calidad del aire actualización mundial - Reporte de la reunión de un grupo de trabajo en Bonn - Alemania.

[47] World Health Organization - WHO 2000. Air Quality Guidelines. WHO Library Cataloguing in Publication Data. [48] World Health Organization - WHO 2005. Guías de calidad del aire de la OMS relativas al material particulado, el ozono, el dióxido de nitrógeno y el dióxido de azufre. [49] Yeganeh, B. et al. 2012. Prediction of CO concentrations

based on a hybrid Partial Least Square and Support Vector Machine model. Atmospheric Environment. 55, (Aug. 2012), 357-365.