Minería de Datos y Lógica Difusa, una
aproximación a la predicción de la
Contaminación por MP10
Trabajo de Titulación para optar al título de Ingeniero Civil en Computación, mención Informática
Profesor Guía: Santiago Zapata Cáceres
Alumnos: Jhons Cortez Torres Carlos Reyes Pastore
Índice
Introducción
Objetivos
Estado del Arte
La Información
El Conocimiento
Minería de Datos
Lógica Difusa
Contaminación Ambiental
Análisis Experimental
Modelo de Minería de Datos
Modelo Difuso
Resultados Obtenidos
Introducción
El volumen de la información que manejan las
empresas crece día a día.
Se hace necesario el transformar la Información en
Conocimiento que sea útil para la toma de
decisiones.
Surgen campos de investigación relacionados con la
Objetivos
Generales:
Proceso de KDD.
Lógica Difusa.
Específicos:
Minería de Datos tradicional.
Modelo Difuso.
Controlador Difuso.
Análisis de resultados.
Estado del Arte
Información.
Shannon (1948), Teoría de la Información.
Davenport y Prusak (1999), Diferencias entre Datos e
Información.
Empresa SAS, Propone modelo de evolución de la
Información.
Brown (2006) Open Group CEO, Nueva revolución de la
Información.
Conocimiento.
Davenport y Prusak (1999), Definición de conocimiento en
Estado del Arte
Minería de Datos.
Tiene por objetivo, el encontrar patrones ocultos
en grandes volúmenes de información acumulada
(Histórica).
Raíces de Minería de Datos.
Estadística Clásica.
Inteligencia Artificial.
Machine Learning.
Principales exponentes: Fayyad,
Estado del Arte
Métodos de Minería de Datos:
Métodos Descriptivos:
Reglas de Asociación
Métodos Predictivos:
Árboles de Decisión
Estado del Arte
Software de Minería de Datos:
Clementine.
WEKA.
SQL Server (Analysis Services).
IBM Intelligent Miner.
Áreas relacionadas con Minería de Datos
Minería de Datos
Minería de Datos OLAP
Web Mining Text Mining
Data Warehousing
CRM
Estado del Arte
Lógica Difusa.
Manejo de Información Imprecisa.
Aristóteles, precursor de teorías de lógica y
matemáticas.
Jan Lukasievicz (Siglo XX), Propone Lógica
Triple-Evaluada como primer acercamiento.
Zadeh (1965), Teoría de Conjuntos
Estado del Arte
Controladores Difusos.
Principal aplicación en Electrónica y Control.
Algoritmos de Generación de Reglas Difusas: Wang & Mendel y Cordón y Herrera.
Componentes de un Controlador Difuso.
Primer Controlador Difuso creado por Mamdani y
Assilian (1975)
Estado del Arte
Aplicaciones de Lógica Difusa:
Medina (1994), Modelo GEFRED.
Fuzzy C-Means, Bezdek (1973), Miyamoto y Mikaidono
(1997).
Contaminación Ambiental
Factores que inciden en la contaminación en
Santiago de Chile:
Fuentes emisoras de contaminantes.
Condiciones Geográficas.
Condiciones Meteorológicas.
Consecuencia: Efectos negativos sobre la salud de las
Contaminación Ambiental
Red MACAM
Índice ICAP
Providencia La Paz La Florida Las Condes Parque O’Higgins Pudahuel Cerrillos El Bosque
Monitoreo de Contaminantes
Los episodios de Alerta, Preemergencia y Emergencia se detallan en el PDDA
Modelo Predictivo actual: Cassmassi
Análisis Experimental
Se utilizaron datos relativos a la contaminación ambiental,
medidos por la red MACAM (Fuente SESMA).
Mediante Minería de Datos Tradicional se obtuvo un modelo
basado en Árboles de Decisión y otro en Reglas de Asociación.
Mediante Lógica Difusa se obtuvo un modelo de inferencia
difusa basado en Reglas de Comportamiento (Reglas difusas).
Se Consideró solamente el MP10 y variables meteorológicas en
Modelos obtenidos
(Minería de Datos tradicional)
Árbol Estación B Reglas de Asociación Estación B
Consecuente
”Regular” Soporte30%
Generación de Reglas Difusas
Algoritmo de Wang y Mendel
Datos
Paso 1: Generar Particiones Difusas
Paso 2: Generar Reglas Difusas
μ
3(57) = 0.6
μ
Generación de Reglas Difusas
Algoritmo de Wang y Mendel
Regla Generada
IF H=Media AND T=Media AND D=Suroeste AND V=MBaja AND MP10=Bueno THEN MP10=Bueno
Paso 3: Asignar Grado a cada Regla
μH * μT * μD * μV * μMP * μMP = 0.6 -> Grado de la Regla
Para Reglas con mismo antecedente y distinto consecuente se conserva la de mayor grado
Paso 4: Crear una base de Reglas Difusas
Ejemplo de Reglas Generadas (Wang y Mendel)
Generación de Reglas Difusas
Paso 1: Generar Particiones Difusas
Paso 2: Se genera un subespacio de Reglas Difusas para cada
ejemplo numérico.
Generación de Reglas Difusas
Paso 3: Se determina la regla
más representativa mediante la “Función de Valoración de la Regla” (FVR).
Paso 4: La regla elegida es la
que posea mayor FVR.
Algoritmo de Cordón y Herrera Reglas obtenidas por algoritmo
Wang y Mendel
Modelo de Lógica Difusa
Modelo
Sistema de Inferencia
Resultados obtenidos
Algoritmo de Wang y Mendel
Algoritmo de Cordón y Herrera
Aciertos Fallos Porcentaje de acierto
Conclusiones
Los modelos presentados presentan una interesante alternativa
a los existentes, debido a la reducción de la complejidad en el diseño.
La Lógica Difusa, resulta de gran utilidad en problemas que no
poseen una solución de tipo lineal pues se basan en Heurísticas.
La precisión del Modelo Difuso puede mejorarse aumentando
los conjuntos difusos por variable o incorporando alguna medida de valoración de Reglas Difusas.
Las reglas obtenidas por Wang & Mendel y Cordón & Herrera,
Líneas Futuras de
Investigación
Considerar variables referidas a la medición de gases
como por ejemplo, el O3 o el CO.
Realizar una redefinición de los conjuntos difusos de
cada variable.
Agregar alguna medida de valoración de Reglas de
Particiones Difusas
Sea X un grupo de elementos, y sea x un elemento de ese
grupo, un conjunto difuso A en X se define como un conjunto de pares ordenados como sigue:
A = {(x, μA(x)) / x X}, μA(x) función de pertenencia.
Ejemplo: sea X = {4, 8, 15….. 32} las mediciones de las
temperaturas para la ciudad de Santiago de Chile (x en grados Celsius).
Particiones Difusas
0 si x < 22
μA(x) = (x-22)/4 si 22 ≤ x < 26 1 si x ≤ 26
A = {(22,0), (24,0.5), (25,0.75)…… (30,1)}, en general A = {(x, μA(x))}
Funciones de Pertenencia
Intersección:
μA B(x) = min {μA(x), μB(x)} x ∩ X.
Unión
μA(x) U μB(x)) = max {μA(x), μB(x)} x X.
Complemento:
μCA(x) = 1 - μA(x) x X
T – normas:
Una T-norma es un operador de conjuntos difusos que satisface las propiedades:
x * y = y * x
(x * y) * z = (x *(y * z))
si x < y y z < w entonces x * z < y * w x * 1 = x
Las T-normas se utilizan para definir los conectivos AND en las
reglas difusas, la función Min(A,B) es una T-norma.
También existen las S-normas, utilizadas en los conectivos OR
de las reglas difusas los cuales también satisfacen una serie de propiedades
Conjuntos
Intersección
Unión
Complemento
Ejemplos de operaciones
Variable lingüística: Palabras u oraciones en lenguaje natural, por
ejemplo, para la variable Temperatura: <X, L, x, M>
X: nombre de la variable, por ejemplo Temperatura.
L: valores lingüísticos que puede tomar la variable lingüística, {Baja, media, alta)
x : es el dominio numérico donde está definida la variable lingüística X llamado universo de discurso por ejemplo [-5, 35].
M: es la función de pertenencia o bien la función que asigna el valor numérico.
Variables lingüísticas 2
X = Temperatura.
L = {Baja, Normal, Alta, Muy alta}
x = [0,42]
M = grupo de funciones de pertenencia
.
Determinación del valor
numérico de salida
Una vez obtenido el conjunto de salida es necesario
determinar un valor en concreto de tipo numérico.
Para ello se utiliza algún método de Defuzzyficación.