UNIVERSIDAD NACIONAL DE PIURA
Facultad de Ciencias
Escuela Profesional de Matemática
PROGRAMA DE ACTUALIZACION Y TITULACION PROFESIONAL (PATPRO)
VERSION XI -2021
TRABAJO DE INVESTIGACION
UNA INTRODUCCION A LA CLASIFICACIÓN DIFUSA
Presentado por:
Br. LUIS ENRIQUE FLORES MACALUPU
Línea de investigación: MATEMÁTICA Y ESTADÍSTICA
Piura, Perú
2022
ii
UNIVERSIDAD NACIONAL DE PIURA
Facultad de Ciencias
Escuela Profesional de Matemática
PROGRAMA DE ACTUALIZACION Y TITULACION PROFESIONAL (PATPRO)
VERSION XI
TRABAJO DE INVESTIGACION
UNA INTRODUCCION A LA CLASIFICACIÓN DIFUSA
LOS QUE SUSCRIBEN DECLARAN QUE EL PRESENTE TRABAJO DE INVESTIGACIÓN ES ORIGINAL EN SU CONTENIDO Y FORMA
Línea de investigación: MATEMÁTICA Y ESTADÍSTICA
__________________________
Br. LUIS ENRIQUE FLORES MACALUPU
AUTOR
__________________________________
M. Sc. Ellis Rodney Hidalgo Mendoza
Asesor
iii
UNIVERSIDAD NACIONAL DE PIURA
Facultad de Ciencias
Escuela Profesional de Matemática
PROGRAMA DE ACTUALIZACION Y TITULACION PROFESIONAL (PATPRO)
VERSION XI
TRABAJO DE INVESTIGACION
UNA INTRODUCCION A LA CLASIFICACIÓN DIFUSA
APROBADA EN CONTENIDO Y ESTILO POR
__________________________________
Dr. Elmer Porfirio Díaz Contreras PRESIDENTE
_________________________
Dr. Ramón Francisco Chirinos Zamora
SECRETARIO
VOCAL
________________________
Dr. Julio Enrique Lopez Castillo
UNIVERSIDAD NACIONAL DE PIURA
FACULTAD DE CIENCIAS
ESCUELA PROFESIONAL DE MATEMÁTICA
ACTA DE SUSTENTACIÓN N° 03- PATPRO XI 2021- EPM-FC-UNP Resolución de Consejo Universitario N° 0449-CU-2021
Los miembros del jurado calificador que suscriben, reunidos para evaluar el Trabajo de investigación titulado
UNA INTRODUCCIÓN A LA CLASIFICACIÓN DIFUSA
presentado por el Bachiller
FLORES MACALUPÚ LUIS ENRIQUE
oídas las observaciones y dadas respuestas a las preguntas formuladas, el Jurado Calificador declara:
APROBADO ( X ) DESAPROBADO ( )
( X ) En consecuencia queda en condición de ser ratificado por el consejo universitario de la Universidad Nacional de Piura y recibir el título profesional de LICENCIADO EN MATEMÁTICA;
---
Dr. Elmer Porfirio Díaz Contreras Presidente
Con la mención de: SOBRESALIENTE
Piura, 23 de abril del 2022.
Vocal
Dr. Julio Enrique Lopez Castillo
________________________
iv
RESUMEN
Palabras claves: Clasificación difusa, HCM, y FCM.
En esta investigación, se encarga de explorar la clasificación difusa, para ello se necesita tener la información necesaria y suficiente, en este contexto se relaciona con la lógica difusa o borrosa donde se puede reducir la complejidad de los datos al clasificar en la toma de decisiones y a la vez es el más apropiado y se clasifica en dos algoritmos HCM y FCM.
Los HCM también llamado Hard c-Means se encarga de clasificar datos en un sentido preciso utilizando la suma de errores al cuadrado de la clase con enfoque euclidiano norma para caracterizar la distancia, el método a utilizar lleva a encontrar la función objetivo, pero no asegura que se alcance el minino global (algunas particiones iniciales el resultado puede ser muy pobre). Como además el número de conjuntos C esta predeterminado, se puede dar que algún conjunto quede vacío.
Los FCM también llamados Fuzzy c-Means es una familia de conjuntos borrosos lo que permite extender la clasificación nítida en una noción de clasificación difusa usando la medida de la suma de todos los errores cuadráticos ponderados y la distancia entre el centro se maximiza. Podemos asignar membresía a los diversos puntos de datos en cada conjunto difuso (clase difusa, grupo difuso), el resultado del algoritmo depende de la partición inicial lo cual nos puede llevar a un mínimo de la función objetivo.
Finalmente, el algoritmo FCM se puede aproximar a un algoritmo HCM, es decir, solo salen ceros y unos de agrupamiento. Este resultado parece intuitivo, porque los valores de pertenencia son números menor o igual a 1. Por lo contrario, como los valores de agrupamiento se vuelven duros, es decir 0 o 1, es decir, controla el grado de participación compartida entre grupos difusos
v ABSTRACT
Keywords: Fuzzy classification, HCM, and FCM.
In this research, it is responsible for exploring the diffuse classification, for this it is necessary to have the necessary and sufficient information, in this context it is related to the diffuse or blurred logic where the complexity of the data can be reduced when classifying in decision making and at the same time it is the most appropriate and is classified into two algorithms HCM and FCM.
The HCM also called Hard c-Means is responsible for classifying data in a precise sense using the sum of errors squared of the class with standard Euclidean approach to characterize the distance, the method to be used leads to find the objective function, but does not ensure that the global pussyl is reached (some initial partitions the result can be very poor). Since the number of sets C is also predetermined, some set can be empty.
The FCM also called Fuzzy c-Means is a family of fuzzy sets which allows to extend the sharp classification into a notion of fuzzy classification using the measure of the sum of all weighted quadratic errors and the distance between the center is maximized. We can assign membership to the various data points in each fuzzy set (fuzzy class, fuzzy group), the result of the algorithm depends on the initial partition which can lead us to a minimum of the target function.
Finally, the FCM algorithm can be approximated to an HCM algorithm, that is, only zeros and grouping ones come out. This result seems intuitive, because membership values are numbers less than or equal to 1. On the contrary, as the grouping values become hard, i.e. 0 or 1, that is, it controls the degree of shared participation between diffuse groups
vi
ÍNDICE
Introducción ... viiii
I. Aspectos de la problemática ... 8
1.1. Descripción de la realidad problemática ... 8
1.2. Justificación e importancia de la investigación ... 8
1.3. Objetivos ... 9
1.3.1. Objetivo general ... 9
1.3.2. Objetivos específicos ... 9
II. Marco teórico ... 9
2.1. Antecedentes de la investigación ... 9
2.2. Bases teóricas ... 10
2.3. hipótesis ... 25
III. Marco metodológico... 25
3.1. Enfoque ... 25
3.2. Tipo ... 25
3.3. Métodos y procedimientos... 25
IV. RESULTADOS Y DISCUSIÓN ... 28
CONCLUSIONES ... 29
Referencias bibliográficas ... 30
vii
INTRODUCCIÓN
La principal característica del ser humano que lo diferencia del resto de los seres vivos es la capacidad de razonar. Dada una serie de premisas, el ser humano es capaz de obtener conclusiones.
Por ejemplo, si suponemos cierto «el cielo es celeste» y falso «Kepler era dentista», podemos deducir que afirmaciones como «el cielo es celeste y Kepler era dentista» o «el cielo no es celeste» son falsas.
Así mismo, oraciones como «el cielo es celeste o Kepler era dentista» o «que el cielo fuera celeste no hizo que la población alemana del siglo XVI se hiciera dentista» son verdaderas. En realidad, estamos utilizando operadores lógicos para deducir la veracidad de afirmaciones que han sido construidas a partir de las anteriores. Todos estos operadores se encuentran inmersos en lo que denominamos lógica clásica, mediante la cual podemos trabajar con enunciados que son o bien ciertos, o bien falsos.
La lógica difusa es una extensión de la lógica clásica a contextos en los que encontramos imprecisión o información incompleta. Las bases de la lógica difusa fueron presentadas en 1965 de la mano de Lofti Zadeh, natural de la actual República de Azerbaiyán y profesor de la Universidad de California, en Berkeley, con un artículo titulado «Fuzzy sets».
En el presente trabajo se hará una introducción a la clasificación de la lógica difusa, donde existen dos clasificaciones: están los HCM y en ésta no existe lógica borrosa ya que es una simple clasificación y sencilla de entender, en cambio en los FCM interviene la lógica borrosa.
I. ASPECTOS DE LA PROBLEMÁTICA
1.1. DESCRIPCIÓN DE LA REALIDAD PROBLEMÁTICA
Para tomar decisiones se requiere tener la información necesaria y suficiente, asimismo existen sistemas de información donde se puede almacenar y procesar los datos.
En particular, para tomar decisiones sobre los riesgos financieros, por ejemplo, saber si un cliente presenta un nivel de pertenencia mayor hacia la clasificación crediticia buena, asegurando un nivel de riesgo escaso y una muy buena solvencia, o es un mal pagador y tiene una tendencia hacia una mala calificación crediticia. Hacer una clasificación dicotómica de la lógica difusa (buen pagador o mal pagador) no es adecuado para la toma de decisiones en este caso.
En este contexto, la clasificación difusa que combina bases de datos relacionales con lógica borrosa reduce la complejidad de los datos al clasificar elementos similares, juntos y al mismo tiempo.
La clasificación difusa también es mucho más apropiada para la toma de decisiones en el sentido de que un usuario puede formular consultas poco definidas a nivel lingüístico.
Las variables y los términos lingüísticos introducidos encapsulan la complejidad del dominio, así por ejemplo podemos buscar información relacionada sobre “clientes morosos”.
A nivel de aplicación, el enfoque de clasificación difusa propuesto abre la puerta a muchos campos de aplicación. Aunque se puede adoptar en casi todos los dominios de aplicaciones donde entra en juego el análisis de datos (por ejemplo, segmentación, reducción de la complejidad de los datos, etc.), los siguientes dominios de aplicaciones gerenciales parecen más prometedores desde el punto de vista empresarial: El marketing, la gestión de cartera de clientes, análisis y comportamiento de los clientes, análisis de riesgos entre otros.
Dada que la clasificación empleando la lógica clásica es limitada, es natural considerar el empleo de la lógica borrosa, así nos planteamos: ¿Qué es y cómo se aplicar la clasificación difusa a la toma de decisiones?
1.2. JUSTIFICACIÓN E IMPORTANCIA DE LA INVESTIGACIÓN
Una de las disciplinas matemáticas actuales es la lógica difusa o borrosa que utiliza expresiones que no son ni totalmente ciertas ni completamente falsas lo que permite tratar información imprecisa como la estatura o temperatura, asimismo, existen diferentes tipos de clasificación difusa lo cual permite aplicar la lógica borrosa en diferentes campos: marketing, gestión de cartera de clientes, imágenes satelitales, líneas de transmisión eléctrica, o en un riesgo financiero entre otros.
Existen, en general, dos tipos de clasificación: la Hard c-Means (HCM) que se encarga de clasificar datos en un sentido preciso, sin lógica borrosa y los Fuzzy c-Means (FCM) definimos sobre
9 una familia de conjuntos borrosos lo que permite extender la clasificación a datos con incertidumbre e imprecisión.
La principal desventaja de los algoritmos HCM y FCM es que agrupan una entidad basándose únicamente en sus características propias y no incorporan la influencia de los vecindarios de la entidad, lo que hace que la agrupación sea propensa al ruido.
1.3. OBJETIVOS 1.3.1. Objetivo general
El objetivo general de este trabajo es estudiar la clasificación difusa y dar ejemplos de su aplicación.
1.3.2. Objetivos específicos
1. Definir clasificación difusa.2. Comparar la clasificación clásica con la clasificación difusa.
II. MARCO TEÓRICO
2.1. ANTECEDENTES DE LA INVESTIGACIÓN
Carlos Soto y Claudia Jiménez (2011) en su investigación titulada: “Aprendizaje supervisado para la discriminación y clasificación difusa” desarrollada en la Universidad Nacional de Colombia, determino que la discriminación es reconocer las diferencias entre grupos de objetos.
El método que se propone permite realizar una discriminación y clasificación difusa, pero requiere de un conjunto de ejemplares que hayan sido clasificados convencionalmente, en otras palabras, en categorías excluyentes. Este conjunto es llamado conjunto de entrenamiento o muestra de aprendizaje. Con base en los patrones que se encuentren, se determinan las categorías a las cuales pertenecen los nuevos ejemplares, por esto, esta estrategia de reconocimiento es conocida como aprendizaje supervisado y se concluye que la técnica de aprendizaje supervisado, permite realizar un análisis discriminante difuso considerando diferentes niveles de granularidad o número de categorías difusas. El número de categorías difusas es establecido por el número de categorías que se identifiquen en la muestra de aprendizaje.
Timothy j. Ross (2010) en su libro titulado: Fuzzy Logic witch Engineering Applications, plantea que la clasificación también denominada agrupación es un tema muy importante para decidir los criterios para clasificar. Por ejemplo, supongamos que queremos clasificar personas. Al describir personas nos fijaremos en su altura, peso, genero, religión, educación y apariencia, lo cual la metodología de clasificación es muy popular conocido como FCM y HCM utiliza conceptos en el espacio euclidiano n-dimensional para determinar la proximidad de los datos de los puntos asignados a varios grupos o clases.
10
2.2. BASES TEÓRICAS
La historia nos cuenta que las clasificaciones o categorías de “creyentes y paganos”, “negros y blancos”, “arios y judíos”, “proletarios y burgueses”, “ricos y pobres”, “colonialistas y colonizados” o las de “ciencias exactas” y “ciencias sociales”, etcétera, encierran profundas diferencias teóricas, ideológicas y sociales. La filosofía nos lleva a pensar hoy que, sin lugar a dudas, toda clasificación es relativa, además toda clasificación está sujeta a la práctica de quienes la emplean. (González Casanova, 1996). No existe, ni existirá la clasificación por antonomasia, perfecta absoluta.
El objetivo básico de la clasificación es reconocer las diferencias entre grupos de objetos y poder describirlas, ya sea forma gráfica o algebraica, para lograr un mejor entendimiento de un determinado entorno. Así pues, en lógica tenemos dos formas de clasificar:
Hard C-Means:
Se utiliza para clasificar datos en un sentido preciso. Con esto queremos decir que cada elemento de un conjunto de datos puede asignarse a uno y solo una clase o grupo. En este sentido estos clusters también son llamados particiones, es decir, clases disjuntas.
Dada una familia de conjuntos: 𝐴𝑖, con 𝑖 = 1,2,3, … , 𝑐 , es una partición 𝑐 dura de 𝑋, si se cumple que:
⋃𝑐𝑖=1𝐴𝑖 = 𝑋 … (1)
𝐴𝑖 ⋂ 𝐴𝑗= ∅, ∀ 𝑖 ≠ 𝑗 … (2)
∅ ⊂ 𝐴𝑖 ⊂ 𝑋, ∀ 𝑖 … (3)
Donde 𝑋 = {𝐱1, 𝐱2, 𝐱3, … , 𝐱𝑛} comprende el universo de datos muestrales y 𝑐 es el número de clases, particiones o grupos en los que queremos clasificar los datos. Es obvio que
2 ≤ 𝑐 < 𝑛 … (4)
Donde 𝑐 = 𝑛 clases simplemente coloca cada muestra de datos en su propia clase y 𝑐 = 1 pone todos los datos de la muestra en la misma clase; ninguno de los datos requiere ningún esfuerzo en la clasificación, y ambos son intrínsecamente poco interesantes.
La ecuación (1) expresa el hecho de que el conjunto de todas las clases agota el universo de muestras de datos.
La ecuación (2) indica que ninguno de las clases se superpone en el sentido de que una muestra de datos puede pertenecer a más de una clase.
La ecuación (3) simplemente expresa que una clase no puede estar vacía y no puede contener todas las muestras de datos.
Tenemos el caso donde 𝑐 = 2. Las ecuaciones (1) y (2) se manifiestan entonces en las siguientes expresiones de conjuntos:
𝐴2 = 𝐴̅1, 𝐴1∪ 𝐴̅1= 𝑋 𝑦 𝐴1∩ 𝐴̅1= ∅
11 Las expresiones de teoría de funciones asociadas con las ecuaciones 1 y 2 son como sigue:
⋁ 𝑥𝐴𝑖(𝐱𝑘) = 1 ,
𝐶
𝑖=1
∀𝑘 (5) 𝑥𝐴𝑖(𝑥𝑘) ∧ 𝑥𝐴𝑗(𝐱𝑘) = 0 , ∀𝑘 (6) 0 < ∑ 𝑥𝐴𝑖(𝐱𝑘) < 𝑛 ,
𝑛
𝑘=1
∀𝑘 (7)
Donde la función característica 𝑥𝐴𝑖(𝐱𝑘) se define :
𝑥𝐴𝑖(𝑥𝑘) {1 , 𝐱𝑘∈ 𝐴𝒊
0 , 𝐱𝑘∉ 𝐴𝒊 (8)
Las ecuaciones 5 y 6 explican que cualquier muestra 𝐱𝑘 puede pertenecer única y definitivamente a una de las clases c.
La ecuación 7 implica que ninguna clase está vacía y ninguna clase es todo el conjunto X(universo).
La notación, muestra asignación de membresía del j-ésimo punto de datos en el i-ésimo grupo o clase, se define como 𝑥𝑖𝑗 = 𝑥𝐴𝑖(𝐱𝑗).
Definamos una matriz U que comprenda elementos 𝑥𝑖𝑗(𝑖 =1,2,…,c ;j=1,2,…,n); por tanto, U es una matriz con c filas y n columnas.
Definimos un espacio de partición c duro para X como el siguiente conjunto de matrices:
𝑀𝑐 = {∪ ⃓𝑥𝑖𝑗 ∈ {0,1}, ∑ 𝑥𝑖𝑘 = 1,0 < ∑ 𝑥𝑖𝑘 < 𝑛 ,
𝑛
𝑘=1 𝑐
𝑖=1
} (9)
Cualquier matriz ∪∈ 𝑀𝑐 es una partición c dura.
La cardinalidad de cualquier partición c dura, Mc, es 𝑛𝑀𝑐= (1
𝑐!) [∑𝑐𝑖=1(𝑐𝑖)(−1)𝑐−1. 𝑖𝑛] (10)
Donde la expresión (𝑐𝑖) es el coeficiente binomial de c tomadas de i a la vez.
Ejemplo:
Supongamos que tenemos cinco puntos de datos en un universo,𝑋 = {𝑥1, 𝑥2, 𝑥3, 𝑥4, 𝑥5}
Además, supongamos que queremos agrupar estos cinco puntos en dos clases. Para este caso tenemos 𝑛 = 5 𝑦 𝑐 = 2.La cardinalidad ,usando la Ecuación (10),de esta partición dura c se da como:
𝑛𝑀𝑐 =1
2[2(−1) + 25] = 15 Algunas de las 15 posibles particiones duras de 2 se enumeran
[1 1 0 0
1 1 0
0 0 1] [1 1
0 0
1 0 0
0 1 1] [1 1 0 0
0 0 0
1 1 1] [1 0 0 1
0 0 0 1 1 1] [1 0
0 1
1 0 0
0 1 1] [1 0
0 1
0 1 0
1 0 1] [1 0 0 1
0 0 1
1 1 0]
12 Y así observe que las dos matrices.
[1 1
0 0
1 1 0
0 0 1] 𝑦 [0 0 0
1 1 1
0 1 1 0]
No son particiones de 2 agrupaciones diferentes. De hecho, son las mismas 2 particiones independientemente de un intercambio de filas arbitrario. Si etiquetamos la primera fila de la primera matriz U clase 𝑐1 y etiquetamos la segunda fila clase 𝑐2,obtendríamos la misma clasificación para la segunda matriz U simplemente reetiquetando cada fila: la primera fila es 𝑐2 y la segunda fila es 𝑐1 .La medida de cardinalidad dado en la ecuación(10) da el número de particiones c únicas para n puntos de datos.
Ahora surge una pregunta interesante: de todas las particiones c posibles para n muestras de datos,
¿Cómo podemos seleccionar la partición c más razonable para el espacio de partición 𝑀𝑐?Por ejemplo ,se acaba de proporcionar ¿Cuál de las 15 particiones duras posibles para cinco puntos de datos y dos clases es lo mejor? La respuesta a esta pregunta la proporciona la función objetivo (criterio de clasificación) que se utilizaran para clasificar o agrupar los datos. El propuesto para el algoritmo HCM se conoce como un enfoque de suma de errores al cuadrado dentro de la clase que utiliza un enfoque euclidiano norma para caracterizar la distancia. Este algoritmo se denota 𝐽(𝑈, 𝑣), donde U es la partición de la matriz y el parámetro v es un vector de centros de conglomerados. Esta función objetivo se da como:
𝐽(𝑈. 𝑣) = ∑ ∑ 𝑥𝑖𝑘(𝑑𝑖𝑘)2
𝑐
𝑖=1
(11)
𝑛
𝑘=1
Donde 𝑑𝑖𝑘 es una medida de distancia euclidiana( en espacio de características m-dimensional 𝑅𝑚) entre el k-esimo muestra de datos 𝑥𝑘 y i-esimo centro de grupo 𝑣𝑖 que se da de la siguiente manera
𝑑𝑖𝑘 = 𝑑(𝑥𝑘− 𝑣𝑖) = ‖𝑥𝑘− 𝑣𝑖‖ = [∑(𝑥𝑘𝑗− 𝑣𝑖𝑗)2
𝑚
𝑗=1
]12 (12)
Dado que cada muestra de datos requiere m coordenadas para describir su ubicación en el espacio 𝑅𝑚,cada centro de clúster también requiere m coordenadas para describir su ubicación en este mismo espacio.
Por lo tanto, el i-esimo centro del grupo es un vector de longitud m.
𝑣𝑖 = {𝑣𝑖1, 𝑣𝑖2, … . 𝑣𝑖𝑚} Donde la j-esima coordenada se calcula mediante:
𝑣𝑖𝑗=∑𝑛𝑘=1𝑥𝑖𝑘. 𝑥𝑘𝑗
∑𝑛𝑘=1𝑥𝑖𝑘 (13)
Buscamos que la partición optima U*, sea la partición que produzca el mínimo valor para la función J. Es decir,
𝐽(𝑈∗, 𝑣∗) = 𝑈𝜀𝑀𝑚𝑖𝑛𝑐𝐽(𝑈, 𝑣) (14)
Encontrar la matriz de partición optima,𝑈∗,es extremadamente difícil para problemas prácticos porque 𝑀𝑐→ ∞ incluso para problemas de tamaño modesto. Por ejemplo, para el caso donde n=25 y c=10,la cardinalidad se aproxima a un número extremadamente grande es decir 𝑀𝑐 → 1018! ,obviamente una búsqueda de la optimización por agotamiento no es factible computacionalmente para problemas de interés razonable.Afortunadamente,algoritmos de búsqueda alternativos muy útiles y efectivos han sido ideados (Bezdek,1981).
13 Uno de estos algoritmos de búsqueda se conoce como optimización iterativa. Básicamente, este método es como muchos otros métodos iterativos en los que comenzamos con una suposición inicial en la matriz U.A partir de esta matriz supuesta (valores de entrada para el numero de clases) y la tolerancia de iteración (la precisión que exigimos en la solución), calculamos los centros de los conglomerados(clases).
A partir de estos centros de conglomerados o clases, recalculamos los valores de pertenencia que cada dato de punto tiene en el clúster. Comparamos estos valores con los valores asumidos y continuamos 0 este proceso hasta que los cambios de un ciclo a otro estén dentro de nuestro nivel de tolerancia prescrito.
Los procedimientos paso a paso en este método de optimización iterativo se proporcionan a continuación(Bezdek,1981):
1.-Fijar 𝑐(2 ≤ 𝑐 < 𝑛) e inicializar la matriz U:
𝑈(0)𝜀𝑀𝑐 Entonces 𝑟 = 0,1,2, …
2.-Calcular los c vectores centrales
{𝑣𝑖(𝑟) 𝑐𝑜𝑛 𝑈(𝑟)}
3.-Actualizar 𝑈(𝑟);calcular las funciones características actualizadas( para todo i,k) 𝑥𝑖𝑘(𝑟+1)= {1, 𝑑𝑖𝑘(𝑟)= min {𝑑𝑗𝑘(𝑟)𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑗𝜀𝑐 (15)
0, 𝑑𝑒 𝑙𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜
4.-Si ‖𝑈(𝑟+1)− 𝑈(𝑟)‖ ≤ 𝜀(nivel de tolerancia) (16) Detener, de lo contrario establezca 𝑟 = 𝑟 + 1 y regrese al paso 2.
En el paso 4, la notación es cualquier norma matricial como la norma euclidiana.
Ejemplo(Bezdek,1981). Una buena ilustración del método de optimización iterativa se proporciona con el “problema de la mariposa”. En este problema tenemos 15 puntos de datos y uno de ellos está en una línea vertical de simetría (el punto en el medio del grupo de datos). Supongamos que queremos agrupar nuestros datos en dos clases. Podemos ver que los puntos a la izquierda de la línea de simetría deben estar en una clase y los puntos a la derecha de la línea de simetría debe estar en la otra clase.
El problema radica en asignar el punto en el eje de simetría de una clase. ¿Aquel clase debe pertenecer este punto? Cualquiera que sea la clase el algoritmo asigna este punto, habrá un buen argumento de que debería ser un miembro de la otra clase. Alternativamente, el argumento puede girar en torno al hecho de que la elección de dos clases es pobre para este problema. Tres clases podrían ser la mejor opción, pero la física subyacente a los datos puede ser binaria y dos clases pueden ser la única opción.
Al llevar a cabo el enfoque de optimización iterativa, tenemos que asumir una U inicial matriz. Esta matriz tendrá dos filas(dos clases 𝑐 = 2) y 15 columnas (15 de datos,𝑛 = 15).Es importante comprender que las clases pueden no estar etiquetadas en este proceso. Es decir, podemos mirar la estructura de los datos sin necesidad de asignar etiquetas a las clases. Este suele ser el caso cuando uno mira por primera vez un grupo de datos. Después de varias iteraciones con los datos y a medida que adquirimos más y más conocimiento sobre los datos, luego puede asignar etiquetas a las clases.
Empezamos la solución con la suposición del punto en el medio (es decir, la octava columna) se asigna a la clase representada por la fila inferior de la matriz U inicial, 𝑈(0):
𝑈(0)= [1 1 1 0 0 0
1 1 1 0 0 0
1 0 0 0 1 1
0 0 0 1 1 1
0 0 0
1 1 1]
Después de cuatro iteraciones (Bezdek,1981), este método converge dentro de un nivel de tolerancia de 𝜀 = 0.01,como:
14 𝑈(4)= [1 1 1
0 0 0
1 1 1 0 0 0
1 0 0
0 1 1 0 0 0 1 1 1
0 0 0
1 1 1]
Notamos que el punto en la línea de simetría (es decir, la octava columna) todavía está asignado a la clase representada por la segunda fila de matriz U. Los elementos de la matriz U indican pertenencia de ese punto de datos a la primera o segunda clase. Por ejemplo, el punto en la línea de simetría tiene plena pertenencia a la segunda clase y ninguna pertenencia a la primera clase, sin embargo, físicamente debería compartir la membresía con cada clase. Esto no es posible con la clasificación nítida; la membresía es binaria –un punto es miembro de una clase o no.
El siguiente ejemplo ilustra nuevamente el método de clasificación nítido. El proceso será instructivo debido a su similitud con el algoritmo posterior a desarrollar para el método de clasificación difusa.
Ejemplo:
En un proceso de ingeniería química que involucra el convertidor catalítico de automóvil (convierte el monóxido de carbono en dióxido de carbono), tenemos una relación entre la eficiencia de conversión del convertidor catalítico y la inversa de la temperatura del catalizador. Se conocen dos clases de datos a partir de la eficiencia de la reacción. Puntos de alta conversión eficiencia y alta temperatura son indicadores de un sistema no contaminante( clase 𝑐1) y puntos de baja eficiencia de conversión y baja temperatura son indicativos de un sistema contaminante (clase 𝑐2).Suponga que mide la eficiencia de conversión y la temperatura (T) de cuatro convertidores catalíticos e intentar caracterizarlos como contaminantes o no contaminantes. Los cuatro puntos de datos (𝑛 = 4) se muestran en la figura 1 donde el eje y es la eficiencia de conversión y el eje x es el inverso de la temperatura ( en un proceso de conversión como este, el valor exacto solución toma la forma de ln (1
𝑇) ). Los datos están descrito por dos características 𝑚 = 2 y tienen las siguientes coordenadas en el espacio 2D.
Figura 1
Cuatro puntos de datos en un espacio de características bidimensional
Fuente: J. Ross Timothy (2010)
𝑥1 = {1,3}
𝑥2= {1.5,3.2}
𝑥3= {1.3,2.8}
𝑥4 = {3,1}
15 Deseamos clasificar estos puntos de datos en dos clases (𝑐 = 2).A veces es útil para calcular la cardinaidad del número posible de particiones crujientes para este sistema, es decir, para encontrar𝑛𝑀𝑐 usando la ecuación(10);por lo tanto tenemos:
𝑛𝑀𝑐 = (1
𝑐!) [∑(𝑐
𝑖) (−1)𝑐−𝑖𝑖𝑛] = 1 2![(2
1)(−1)1(1)4+ (2
2)(−1)0(2)4
=1
2[−2 + 16] = 7
Hay 7 formas únicas (independientemente de los intercambios de filas) para clasificar los cuatro puntos en dos grupos. Comencemos el algoritmo de optimización iterativo con una suposición inicial de la partición nítida, U suponiendo que 𝑥1 está en la clase 1 y 𝑥2, 𝑥3, 𝑥4 en la clase 2,como se muestra en la figura 1 es decir :
𝑈(0)= [1 0 0 1 0 0
1 1]
Ahora, a partir de 𝑈(0)inicial(es una de las siete posibles particiones nítidas),buscamos la partición optima 𝑈∗,es decir:
𝑈(0)→ 𝑈(1)→ 𝑈(2)→ ⋯ → 𝑈∗
La optimización se define en términos de la tolerancia o convergencia deseada, ε.
En general, para la clase 1 calculamos las coordenadas del centro del clúster.
𝑣𝑖𝑗 =𝑋11𝑥1𝑗+ 𝑋12𝑥2𝑗+ 𝑋13𝑥3𝑗+ 𝑋14𝑥4𝑗 𝑋11+ 𝑋12+ 𝑋13+ 𝑋14 (1)𝑥1𝑗+ (0)𝑥2𝑗+ (0)𝑥3𝑗+ (0)𝑥4𝑗
1 + 0 + 0 + 0 Y 𝑣𝑖 = {𝑣𝑖1, 𝑣𝑖2, … , 𝑣𝑖𝑚}
En este caso m=2, lo que significa que tratamos con dos coordenadas para cada punto de datos. Por lo tanto, 𝑣𝑖 = {𝑣𝑖1, 𝑣𝑖2}
Donde:
Para c=1 (clase 1), 𝑣1= {𝑣11, 𝑣12} Para c=2(clase 2), , 𝑣2 = {𝑣21, 𝑣22}
Por lo tanto, usando la expresión de , 𝑣𝑖𝑗 para c=1 y j=1 y 2 respectivamente:
𝑣11 =1(1)
1 = 1 → 𝑥 𝑣12=1(3)
1 = 3 → 𝑦
} → 𝑣1= {1,3}
Resultan ser las coordenadas del punto 𝑥1; ya que este es el único punto en la clase para la partición inicial supuesta,𝑈(0).Para c=2 o clase 2,obtenemos las coordenadas del centro del grupo:
𝑣2𝑗 =(0)𝑥1𝑗+ (1)𝑥2𝑗+ (1)𝑥3𝑗+ (1)𝑥4𝑗
0 + 1 + 1 + 1 =𝑥2𝑗+ 𝑥3𝑗+ 𝑥4𝑗
3 Por lo tanto, para c=2 y j=1 y 2, respectivamente:
16 𝑣21=1(1.5) + 1(1.3) + 1(3)
3 = 1.93 → 𝑥
𝑣22 =1(3.2) + 1(2.8) + 1(1)
3 = 2.33 → 𝑦
} → 𝑣2 = {1.93,2.33}
Ahora, calculamos los valores para 𝑑𝑖𝑘 o las distancias de la muestra 𝑥𝑘(un conjunto de datos) al centro 𝑣𝑖 de la i-esima clase. Usando la ecuación (12)
𝑑𝑖𝑘= [∑(𝑥𝑘𝑗− 𝑣𝑖𝑗)2]1/2
𝑚
𝑗=1
Obtenemos, por ejemplo para c=1,𝑑1𝑘 = [𝑥𝑘1− 𝑣11)2+ (𝑥𝑘2− 𝑣12)2]1/2.Por lo tanto, para cada conjunto de datos k=1 a 4 ,calculamos los valores de 𝑑𝑖𝑘 de la siguiente manera: para el grupo1:
𝑑11= √(1 − 1)2+ (3 − 3)2= 0 𝑑12= √(1.5 − 1)2+ (3.2 − 3)2= 0.54 𝑑13= √(1.3 − 1)2+ (2.8 − 3)2= 0.36 𝑑14 = √(3 − 1)2+ (1 − 3)2 = 2.83 Para el grupo 2:
𝑑21= √(1 − 1.93)2+ (3 − 2.33)2= 1.14 𝑑22= √(1.5 − 1.93)2+ (3.2 − 2.33)2= 0.97 𝑑23= √(1.3 − 1.93)2+ (2.8 − 2.33)2= 0.78
𝑑24= √(3 − 1.93)2+ (1 − 2.33)2= 1.70
Ahora, actualizamos la partición a 𝑈(1) para cada punto de datos ( para (c-1) conglomerados) usando la ecuación (15).Por tanto, para la clase1comparamos 𝑑𝑖𝑘 con el mínimo de {𝑑1𝑘, 𝑑2𝑘}
𝑃𝑎𝑟𝑎 𝑘 = 1 𝑑11= 0 min(𝑑11, 𝑑21) = min(0 , 1.14) = 0 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥11= 1 𝑃𝑎𝑟𝑎 𝑘 = 2 𝑑12= 0.54 min(𝑑12, 𝑑22) = min(0.54 , 0.97) = 0.54 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥12= 1 𝑃𝑎𝑟𝑎 𝑘 = 3 𝑑13= 0.36 min(𝑑13, 𝑑23) = min(0.36 , 0.78) = 0.36 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥13= 1 𝑃𝑎𝑟𝑎 𝑘 = 4 𝑑14= 2.83 min(𝑑14, 𝑑24) = min(2.83,1.70) = 1.70 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥14= 0 Por lo tanto, la partición actualizada es:
𝑈(1)= [1 1 1 0 0 0 0
1]
Como las particiones 𝑈(0) y 𝑈(1) son diferentes repetimos el mismo procedimiento basándonos en la nueva configuración de dos clases .Para c=1, las coordenadas del centro son:
𝑣1𝑗 𝑜 𝑣𝑗= 𝑥1𝑗+𝑥2𝑗+𝑥3𝑗
1 + 1 + 1 + 0 , 𝑐𝑜𝑛 𝑋14= 0
𝑣11 =𝑥11+𝑥21+𝑥31
3 =1 + 1.5 + 1.3
3 = 1.26 → 𝑥
𝑣12=𝑥12+𝑥22+𝑥32
3 =3 + 3.2 + 2.8
3 = 3 → 𝑦
} → 𝑣1= {1.26 , 3}
17 Para c=2, las coordenadas del centro son:
𝑣2𝑗 𝑜 𝑣𝑗= 𝑥4𝑗
0 + 0 + 0 + 1 , 𝑐𝑜𝑛 𝑋21, 𝑋22, 𝑋23= 0 𝑣21 =3
1= 3 → 𝑥 𝑣12=1
1= 1 → 𝑦
} → 𝑣2 = {3, 1}
Ahora, volvemos a calcular las medidas de distancia:
𝑑11= √(1 − 1.26)2+ (3 − 3)2= 0.26 𝑑21 = √(1 − 3)2+ (3 − 1)2= 2.83 𝑑12= √(1.5 − 1.26)2+ (3.2 − 3)2= 0.31 𝑑22 = √(1.5 − 3)2+ (3.2 − 1)2= 2.66 𝑑13= √(1.3 − 1.26)2+ (2.8 − 3)2= 0.20 𝑑23 = √(1.3 − 3)2+ (2.8 − 1)2= 2.47
𝑑14= √(3 − 1.26)2+ (1 − 3)2= 2.65 𝑑24= √(3 − 3)2+ (1 − 1)2= 0 De nuevo actualice la partición 𝑈(1)𝑎𝑈(2)
𝑃𝑎𝑟𝑎 𝑘 = 1 𝑑11= 0.26 min(𝑑11, 𝑑21) = min(0.26 , 2.83) = 0.26 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥11 = 1 𝑃𝑎𝑟𝑎 𝑘 = 2 𝑑12= 0.31 min(𝑑12, 𝑑22) = min(0.31 , 2.66) = 0.31 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥12= 1 𝑃𝑎𝑟𝑎 𝑘 = 3 𝑑13= 0.20 min(𝑑13, 𝑑23) = min(0.20 , 2.47) = 0.20 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥13= 1 𝑃𝑎𝑟𝑎 𝑘 = 4 𝑑14= 2.65 min(𝑑14, 𝑑24) = min(2.65 , 0) = 0 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥14= 0 Como las particiones 𝑈(1)𝑎𝑈(2) son idénticas, podríamos decir que el proceso iterativo tiene convergido; por lo tanto ,la participación dura optima (crujiente) es:
𝑈∗= [1 1 1 0 0 0 0
1]
Esta partición optima nos dice que, para este ejemplo de convertidor catalítico, los puntos de datos 𝑥1, 𝑥2, 𝑥3 son similares en el espacio de característico 2D y diferentes del punto de datos 𝑥4.Podemos decir que los puntos 𝑥1, 𝑥2, 𝑥3 son más indicativos de un convertidor no contaminante que los puntos de datos de 𝑥4.
Fuzzy C-Means(FCM)
Definimos una familia de conjuntos borrosos
{ , 𝑖 = 1,2, … , 𝑐}~𝐴 una participación c difusa en un universo de puntos de datos X.
Los conjuntos borrosos permiten grados de pertenencia, podemos extender la clasificación nítida en una noción de clasificación difusa. Podemos asignar membresía a los diversos puntos de datos en cada conjunto difuso (clase difusa, grupo difuso).
Entonces, un solo punto puede tener pertenencia parcial a más de una clase. Sera útil describir la membresía valor que tiene el k-esimo punto de datos en la i-esima clase con la siguiente notación:
𝑢𝑖𝑘 = 𝑢 𝑖
~𝐴(𝑥𝑘) ∈ [0,1]
La restricción (la clasificación nítida) de la suma de todos los valores de membresía para un solo punto de datos en todas las clases tiene que ser la unidad:
18
∑ 𝑢𝑖𝑘 = 1 ,
𝑐
𝑖=1
∀𝑘 = 1,2, … , 𝑛 (17)
La clasificación nítida, no puede haber clases vacías y no puede haber clase que contiene todos los puntos de datos. Esta calificación se manifiesta en la siguiente expresión:
0 < ∑ 𝑢𝑖𝑘< 𝑛 (18)
𝑛
𝑘=1
Cada punto de datos puede tener membresía parcial en más de una clase, la restricción de la ecuación 6 no está presente en el caso de clasificación difusa, es decir,
𝑢𝑖𝑘∧ 𝑢𝑗𝑘 ≠ 0 (19)
Las ecuaciones 5 y 7 siguen siendo válidas para el caso borroso, sin embargo:
⋁ 𝑢𝐴𝑖(𝑥𝑘) = 1 , ∀𝑘 (20)
𝑐
𝑖=1
0 < ∑ 𝑢𝐴𝑖(𝑥𝑘) < 𝑛 ,
𝑛
𝑘=1
∀𝑖 (21)
Para 𝑐 = 2 el problema de clasificación reducido intermedios para la clasificación nítida.
Ahora permitimos la membresía parcial, el caso de c=2 ,es decir, para dos claves ~𝐴𝑖 y ~𝐴𝑗 ,
~𝑖
𝐴 ∩ 𝐴𝑗≠ ∅ (22)
∅ ⊂ 𝑖~𝐴 ⊂ 𝑋 (23)
Ahora podemos definir una familia de matrices de partición difusa, Mfc para la calificación que involucra c clases y n puntos de datos:
𝑀𝑓𝑐 = { |𝑈~𝑢𝑖𝑘 ∈ [0,1]; ∑ 𝑢𝑖𝑘 = 1,0 < ∑ 𝑢𝑖𝑘 < 𝑛 ,
𝑛
𝑘=1 𝑐
𝑖=1
} (24)
Donde = 1,2, … , 𝑐 𝑦 𝑘 = 1,2, … , 𝑛
Cualquier ~𝑈∈ 𝑀𝑓𝑐 es una partición c difusa, número infinito de valores de membresía posibles para describir la clase pertenencia de que la cardinalidad de 𝑀𝑓𝑐 también es infinita.
Ejemplo:
(Similar a Bezdek,1981). Suponga que usted un genetista de frutas interesado en relaciones genéticas entre frutos. En particular sabes que un tangelo es un cruce entre una toronja y una mandarina.
Describes la fruta con características como color, peso, esfericidad, contenido de azúcar, piel y textura. Por lo tanto, su espacio de funciones podría ser altamente dimensional.
19 Suponga que tiene tres frutas (tres puntos de datos):
𝑋 = [𝑥1 = 𝑡𝑜𝑟𝑜𝑛𝑗𝑎, 𝑥2= 𝑡𝑎𝑛𝑔𝑒𝑙𝑜, 𝑥3= 𝑚𝑎𝑛𝑑𝑎𝑟𝑖𝑛𝑎]
Estos puntos de datos están descritos por m características. Clasificar las tres frutas en dos clases para determinar la asignación genética de los tres frutos. La matriz de clasificación puede tomar una de las tres formas, es decir, la cardinalidad para este caso donde 𝑛 = 3 𝑦 𝑐 = 2 𝑛𝑀𝑐 = 3 . Suponga que organiza su ~𝑈𝑚𝑎𝑡𝑟𝑖𝑧 como sigue:
= [ 𝑥1
1 𝑥2
0 𝑥3
0
0 1 1
𝑐2 𝑐1
~ ]
𝑈
Las tres posibles particiones de la matriz son:
[1 0 0
0 1 1] , [1 1 0
0 0 1] , [1 0 1 0 1 0]
Notar que, en la primera partición, nos queda con la incómoda segregación de ponerlo en una clase (tangelo y mandarina en la otra); y la toronja no comparte nada en común. En la segunda partición la toronja y el tangelo están en una clase, lo cual no tiene nada en común con la mandarina.
Finalmente, la tercera partición es la más incómoda genéticamente de todas, porque aquí el tangelo es una clase por si misma sin compartir nada en común con sus progenitores.
Las particiones serán la partición final cundo se utilice cualquier algoritmo.
En el caso difuso, esta segregación y el absurdo genético no son un problema. Podemos tener la situación más intuitiva donde el tangelo comparte la membresía con ambas clases. Por ejemplo, la siguiente partición podría ser un resultado típico para la fruta problema de genética:
= [ 𝑥1 0,91
𝑥2 0,58
𝑥3 0,13 0,09 0,42 0,87
21 ]
𝑈~
En este caso, muestra que la suma de cada fila es un numero entre 0 y n 0 < ∑ 𝑢1𝑘= 1.62 < 3
𝑘
0 < ∑ 𝑢2𝑘 = 1.38 < 3
𝑘
Superposición entre las clases para cada punto de datos:
𝑢11𝛬𝑢21= min(0,91; 0,09) = 0,09 ≠ 0 𝑢12𝛬𝑢22= min(0,58; 0,42) = 0,42 ≠ 0 𝑢13𝛬𝑢23= min(0,13; 0,87) = 0,13 ≠ 0
20 Fuzzy c-Means Algoritmo
Describir un método para determinar la matriz de partición c difusa 𝑈~𝑝𝑎𝑟𝑎 agrupar una colección de n conjuntos de datos en c clases, definimos una función objetivo 𝑗𝑚 para una partición c difusa:
𝐽𝑚( , 𝑣) = ∑ ∑(𝑢𝑖𝑘)𝑚′(𝑑𝑖𝑘)2 (25)
𝑐
𝑖=1 𝑛
𝑘=1
~𝑈
Donde:
𝑑𝑖𝑘 = 𝑑(𝑥𝑘− 𝑣𝑖) = [∑(𝑥𝑘𝑗− 𝑣𝑖𝑗)2
𝑚
𝑗=1
]12 (26)
Y donde 𝑢𝑖𝑘 es la pertenencia del k-esimo punto de datos en la i-esima clase.
Al igual que con la clasificación nítida, la función 𝐽𝑚 puede tener una gran cantidad de valores, el más pequeño asociado con el mejor agrupamiento. Debido a la gran cantidad de valores posibles (ahora infinitos debido a la infinita cardinalidad de los conjuntos borrosos) buscamos encontrar la mejor solución posible u optima sin recurrir a un análisis exhaustivo o caro. La medida de distancia 𝑑𝑖𝑘 en la ecuación (26) es una euclidiana distancia entre i-esimo centro del grupo y el k-esimo conjunto de datos( punto de datos en m espacio).
Parámetro de ponderación (ecuación 25)
(Bezdek,1981).Este valor tiene un rango 𝑚′ε[1, ∞).Este parámetro controla la cantidad de borrosidad en el proceso de clasificación y se discute en breve. También 𝑣𝑖 es el centro de grupo ,que se describe mediante m características(m coordenadas) y se puede en forma vectorial como :
𝑣𝑖 = {𝑣𝑖1, 𝑣𝑖2, … , 𝑣𝑖𝑚}
Cada una de las coordenadas de clúster para cada clase se puede calcular de manera similar al cálculo en el caso:
𝑣𝑖𝑗=∑𝑛𝑘=1𝑢𝑖𝑘𝑚′. 𝑥𝑘𝑖
∑𝑛𝑘=1𝑢𝑖𝑘𝑚′ (27)
Donde j es una variable en el espacio de características, es decir,𝑗 = 1,2, … , 𝑚
Como en el caso nítido, la partición c difusa optima será la más pequeña de las particiones descritas en la ecuación (25) es decir:
𝐽𝑚∗(Ṵ∗, 𝑣 ∗) =𝑚𝑖𝑛𝑀𝑓𝑐𝐽(Ṵ, 𝑣) (28)
Al igual que con muchos procesos de optimización, la solución a la ecuación (28) no se puede garantizar que sea un óptimo global. Lo que buscamos es la mejor solución disponible dentro de un nivel predeterminado de precisión. Un algoritmo efectivo para Bezdek (1981) propuso una clasificación difusa, llamada optimización iterativa.
Los pasos de este algoritmo son los siguientes:
1.-Fijar c (2 ≤ 𝑐 < 𝑛) y seleccionar un valor para el parámetro m’. Inicializar la matriz de partición,Ṵ(0) Cada paso en este algoritmo se etiquetara como r, donde 𝑟 = 0,1,2, …
2.-Calcular los centros c 𝑣𝑖(𝑟) para cada caso.
21 3.-Actualizar la matriz de partición para el paso r-esimo Ṵ(𝑟)como sigue:
𝑢𝑖𝑘(𝑟+1) = [∑(𝑑𝑖𝑘(𝑟)
𝑑𝑗𝑘(𝑟))2 (𝑚⁄ ′−1)
𝑐
𝑗=1
]−1 𝑝𝑎𝑟𝑎 𝐼𝑘 = 𝜙 (29𝑎)
O 𝑢𝑖𝑘(𝑟+1) = 0 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑖 𝑑𝑜𝑛𝑑𝑒 𝑖𝜀 𝑘~𝐼 , (29𝑏) Donde:
𝐼𝑘 = {𝑖\2 ≤ 𝑐 < 𝑛; 𝑑𝑖𝑘(𝑟)= 0} (30) Y ~𝐼𝑘 = {1,2, … , 𝑐} − 𝐼𝑘 (31) Y ∑𝑖𝜀𝐼𝑘𝑢𝑖𝑘(𝑟+1)= 1 (32)
4.-‖Ṵ(𝑟+1)− Ṵ(𝑟)‖ ≤ 𝜀𝐿 𝑑𝑒 𝑙𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜 𝑒𝑠𝑡𝑎𝑏𝑙𝑒𝑧𝑐𝑎 𝑟 = 𝑟 + 1 𝑦 𝑟𝑒𝑔𝑟𝑒𝑠𝑎𝑟 𝑎𝑙 𝑝𝑎𝑠𝑜 2
En el paso 4 ,comparamos la norma matricial de dos particiones difusas sucesivas a un nivel prescrito de precisión 𝜀𝐿,para determinar si la solución es lo suficientemente buena. En paso 3, hay una cantidad considerable de lógica involucrada en las ecuaciones 29 y32.
La ecuación (29a)es bastante sencilla, excepto cuando la variable 𝑑𝑗𝑘,ya que esta variable esta en el denominador de una fracción la operación no está definida matemáticamente.
Entonces los parámetros 𝐼𝑘 𝑒Ḭ𝑘 comprenden un sistema de contabilidad para manejar situaciones cuando algunas de las medidas de distancia,𝑑𝑖𝑗son cero o extremadamente pequeño en un sentido computacional. Si se detecta un valor cero la ecuación (29b) establece que la membresía para este valor de partición sea cero. La ecuación (30) y (31) describe los parámetros contables 𝐼𝑘 𝑒Ḭ𝑘 respectivamente ,para cada uno de las clases de la ecuación (32) simplemente dice que todos los elementos de partición distintos de cero en cada columna de la partición de clasificación difusa, Ṵ,suma a la unidad, el siguiente ejemplo sirve para ilustrar las ecuaciones 29 y 32.
Ejemplo:
Supongamos que hemos calculado las siguientes medidas de distancia para un paso en nuestro algoritmo iterativo para un problema de clasificación que involucra tres clases y cinco datos. Los valores de la tabla son números simples para facilitar la ilustración, la contabilidad parámetros 𝐼𝑘 𝑒Ḭ𝑘, donde 𝑘 = 1,2,3,4,5 se dan a continuación, como ilustración.
Tabla1
Medidas de distancia (c=3, n=5)
𝑑11= 1 𝑑21 = 2 𝑑31= 3
𝑑12= 0 𝑑22= 0,5 𝑑32= 1
𝑑13= 1 𝑑23 = 0 𝑑33= 0
𝑑14= 3 𝑑24 = 1 𝑑34= 1
𝑑15= 0 𝑑25 = 4 𝑑35= 0
Fuente: J. Ross Timothy (2010)
22 Uso de las ecuaciones (30) y (31)
𝐼1= 𝜙 Ḭ1= {1,2,3} − 𝜙 = {1,2,3}
𝐼2 = {1} Ḭ2= {1,2,3} − {1} = {2,3}
𝐼3= {2,3} Ḭ3= {1,2,3} − {2,3} = {1}
𝐼4= 𝜙 Ḭ4 = {1,2,3} − 𝜙 = {1,2,3}
𝐼5= {1,3} Ḭ5= {1,2,3} − {1,3} = {2}
Ahora, se ilustran las ecuaciones 29 y 32:
Para el punto de datos 1:𝑢11, 𝑢21, 𝑢31≠ 𝜙 𝑦 𝑢11, 𝑢21, 𝑢31= 1 Para el punto de dato 2: 𝑢12= 0 𝑢22, 𝑢32≠ 0 𝑦 𝑢22, 𝑢32= 1 Para el punto de dato 3: 𝑢13= 1 𝑦 𝑢23, 𝑢33= 0
Para el punto de dato 4: 𝑢14, 𝑢24, 𝑢34 ≠ 0 𝑦 𝑢14+ 𝑢24+ 𝑢34 = 1 Para el punto de dato 5: 𝑢25= 1 𝑦 𝑢15 = 𝑢35= 0
El algoritmo dado en la ecuación (25) función de mínimos cuadrados, donde el parámetro n es el número de conjuntos de datos y c es el número de clases(particiones) en las que uno está tratando de clasificar los conjuntos de datos.
La distancia al cuadrado,𝑑𝑖𝑘2 es entonces ponderado por una medida (𝑢𝑖𝑘)𝑚′, de la pertenencia de 𝑥𝑘 al grupo i .El valor de 𝐽𝑚 es entonces una medida de la suma de todos los errores cuadráticos ponderados; este valor minimiza entonces con respecto a dos funciones de restricción. Primero 𝐽𝑚 se minimiza con respecto a los errores cuadrados de cada clúster es decir para cada valor especifico de simultáneamente, la distancia entre el clúster centros se maximiza, es decir ,max|𝑣𝑖− 𝑣𝑗| , 𝑖 ≠ 𝑗.
Como se indicó, el rango para el exponente de membresía es 𝑚′𝜀[1, ∞).Para el caso 𝑚′ = 1, la norma de distancia es euclidiana y el algoritmo FCM se aproxima a un algoritmo HCM, es decir , solo salen ceros y unos de agrupamiento. Por el contrario 𝑚´ → ∞, el valor de la función 𝐽𝑚→ 0.
Este resultado parece intuitivo, porque los valores de pertenencia son números menor o igual a 1 y grandes potencias de fracciones menores a 1 se aproximan a 0. En general la 𝑚′más grande es cuanto más confusas sea las asignaciones de pertenencia del agrupamiento; por lo contrario como 𝑚´ → 1,los valores de agrupamiento se vuelven duros , es decir 0 o1.El exponente 𝑚′ por lo tanto controla el grado de participación compartida entre grupos difusos. Si todos los demás parámetros algorítmicos son fijos, luego aumentan 𝑚′ resultará en la disminución de 𝐽𝑚.No hay elección optima teórica de 𝑚′ ha surgido en la literatura. Sin embargo, la mayor parte de la literatura parece reportar valores en el rango 1.25-2.La convergencia del algoritmo tiende a ser más lenta a medida que el valor de 𝑚′ aumenta.
El algoritmo descrito aquí puede ser notablemente preciso y robusto en el sentido de que malas conjeturas para la matriz de partición Ṵ(0)se puede superar rápidamente, como se ilustra en el siguiente ejemplo.
23 Ejemplo
Continuando con el ejemplo de ingeniería química en un convertidor catalítico como se muestra en la figura 1 podemos ver que una representación visual de estos puntos en el espacio de características 2D(m=2) hace que sea fácil para los humanos agrupar los datos en dos clases convenientes basadas de la proximidad de los puntos entre sí .El método de clasificación difusa generalmente converge con bastante rapidez, incluso cuando la estimación inicial de la partición difusa es bastante pobre, en un sentido de clasificación. El método de optimización iterativa difusa para este caso procedería como sigue.
Usando 𝑈∗del ejemplo anterior como la partición difusa inicial,Ṵ(0),suponiendo un factor de ponderación de m=2 y un criterio de convergencia de 𝜀𝐿= 0.01 ,es decir:
|𝑢𝑖𝑘(𝑟+1)− 𝑢𝑖𝑘(𝑟)| ≤ 0.01
𝑚𝑎𝑥𝑖.𝑘
Queremos determinar la partición difusa Ṵ∗.Para empezar, la partición difusa inicial es:
Ṵ(0)= [1 1 0 0 1 0
0 1]
Calcular los centros de conglomerados iniciales usando la ecuación (27), donde m’=2 𝑣𝑖𝑗=∑𝑛𝑘=1(𝑢𝑖𝑘)2. 𝑥𝑘𝑗
∑𝑛𝑘=1(𝑢𝑖𝑘)2 Donde c=1
𝑣1𝑗=𝑢12𝑥1𝑗+ 𝑢22𝑥2𝑗+ 𝑢32𝑥3𝑗+ 𝑢42𝑥4𝑗 𝑢12+ 𝑢22+ 𝑢32+ 𝑢42
=(1)
2𝑥1𝑗+(1)2𝑥2𝑗+(1)2𝑥3𝑗+(0)2𝑥4𝑗 (1)2+(1)2+(1)2+(0)2
𝑣11=1 + 1.5 + 1.3
3 = 1.26 → 𝑥
𝑣12=3 + 3.2 + 2.8
3 = 3 → 𝑦
} → 𝑣2 = {1.26, 3}
Para c=2
𝑣2𝑗 𝑜 𝑣𝑗= 𝑥4𝑗
0 + 0 + 0 + 1 , 𝑐𝑜𝑛 𝑥21= 𝑥22= 𝑥23 = 0
𝑣21 =3
1= 3 → 𝑥 𝑣22=1
1= 1 → 𝑦
} → 𝑣2 = {3, 1}
Encontrar las medidas de distancia (distancia de cada punto de datos desde cada centro de clúster) Utilizando la ecuación (26):
𝑑11= √(1 − 1.26)2+ (3 − 3)2= 0.26 𝑑22= √(1 − 3)2+ (3 − 1)2= 2.82 𝑑12= √(1.5 − 1.26)2+ (3.2 − 3)2= 0.31 𝑑22= √(1.5 − 3)2+ (3.2 − 1)2= 2.66
𝑑13 = √(1.3 − 1.26)2+ (2.8 − 3)2= 0.2 𝑑22= √(1.3 − 3)2+ (2.8 − 1)2= 2.47 𝑑14= √(3 − 1.26)2+ (1 − 3)2= 2.65 𝑑22 = √(3 − 3)2+ (1 − 1)2= 0
Medidas de distancias, ahora podemos actualizar Ṵ utilizando las ecuaciones 30 – 32(para m’=2), tenemos:
24 𝑢𝑖𝑘(𝑟+1)= [∑(𝑑𝑖𝑘(𝑟)
𝑑𝑗𝑘(𝑟))2]−1
𝑐
𝑗=1
Obtenemos:
𝑢11= [∑(𝑑11 𝑑𝑗1
)2]−1= [(𝑑11 𝑑11
)2+ (𝑑11 𝑑21
)2]−1= [(0.26 0.26
𝑐
𝑗=
)2+ (0.26
2.82)2]−1= 0.991 𝑢12= [(𝑑12
𝑑12)2+ (𝑑12
𝑑22)2]−1= [1 + (0.31
2.66)2]−1= 0.986 𝑢13= [(𝑑13
𝑑13)2+ (𝑑13
𝑑23)2]−1= [1 + (0.20
2.47)2]−1= 0.993 𝑢14= [(𝑑14
𝑑14)2+ (𝑑14
𝑑24)2]−1= [1 + (0.31
0 )2]−1→ 0 𝑝𝑎𝑟𝑎 𝐼4≠ 𝜙 Usando la ecuación (17) para los otros valores de partición,𝑢2𝑗,para j=1,2,3,4 . Las funciones de membresía forman una partición difusa, que se da como:
Ṵ(1)= [0.991 0.986
0.009 0.014 0.993 0 0.007 1]
Para determinar si hemos logrado la convergencia, elegimos una norma matricial ‖𝑡𝑎𝑙 como el valor absoluto máximo de las comparaciones por pares de cada uno de los valores en Ṵ(0) 𝑦 Ṵ(1) por ejemplo:
|𝑢𝑖𝑘(1)− 𝑢𝑖𝑘(0)
𝑚𝑎𝑥𝑖,𝑘 | = 0.0134 > 0.01
Este resultado sugiere que nuestros criterios de convergencia aún no se han satisfecho, por lo que necesitamos otra iteración del método.
Para la siguiente iteración, procedemos calculando nuevamente los centros de los conglomerados, pero ahora usando valores de la última partición difusa, Ṵ(1) para c=1.
𝑣1𝑗=(0.991)2𝑥1𝑗+ (0.986)2𝑥2𝑗+ (0.993)2𝑥3𝑗+ (0)2𝑥4𝑗
0.9912+ 0.9862+ 0.9932+ 0
𝑣11=0.98(1) + 0.97(1.5) + 0.99(1.3)
2.94 =3.719
2.94 ≈ 1.26 𝑣12=0.98(3) + 0.97(3.2) + 0.99(2.8)
2.94 =8.816
2.94 ≈ 3.0
} → 𝑣1= {1.26, 3.0}