UNIVERSIDAD NACIONAL DE PIURA

(1)

UNIVERSIDAD NACIONAL DE PIURA

Facultad de Ciencias

Escuela Profesional de Matemática

PROGRAMA DE ACTUALIZACION Y TITULACION PROFESIONAL (PATPRO)

VERSION XI -2021

TRABAJO DE INVESTIGACION

UNA INTRODUCCION A LA CLASIFICACIÓN DIFUSA

Presentado por:

Br. LUIS ENRIQUE FLORES MACALUPU

Línea de investigación: MATEMÁTICA Y ESTADÍSTICA

Piura, Perú

2022

(2)

ii

UNIVERSIDAD NACIONAL DE PIURA

Facultad de Ciencias

Escuela Profesional de Matemática

PROGRAMA DE ACTUALIZACION Y TITULACION PROFESIONAL (PATPRO)

VERSION XI

TRABAJO DE INVESTIGACION

UNA INTRODUCCION A LA CLASIFICACIÓN DIFUSA

LOS QUE SUSCRIBEN DECLARAN QUE EL PRESENTE TRABAJO DE INVESTIGACIÓN ES ORIGINAL EN SU CONTENIDO Y FORMA

Línea de investigación: MATEMÁTICA Y ESTADÍSTICA

__________________________

Br. LUIS ENRIQUE FLORES MACALUPU

AUTOR

__________________________________

M. Sc. Ellis Rodney Hidalgo Mendoza

Asesor

(3)

iii

UNIVERSIDAD NACIONAL DE PIURA

Facultad de Ciencias

Escuela Profesional de Matemática

PROGRAMA DE ACTUALIZACION Y TITULACION PROFESIONAL (PATPRO)

VERSION XI

TRABAJO DE INVESTIGACION

UNA INTRODUCCION A LA CLASIFICACIÓN DIFUSA

APROBADA EN CONTENIDO Y ESTILO POR

__________________________________

Dr. Elmer Porfirio Díaz Contreras PRESIDENTE

_________________________

Dr. Ramón Francisco Chirinos Zamora

SECRETARIO

VOCAL

________________________

Dr. Julio Enrique Lopez Castillo

(4)

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE CIENCIAS

ESCUELA PROFESIONAL DE MATEMÁTICA

ACTA DE SUSTENTACIÓN N° 03- PATPRO XI 2021- EPM-FC-UNP Resolución de Consejo Universitario N° 0449-CU-2021

Los miembros del jurado calificador que suscriben, reunidos para evaluar el Trabajo de investigación titulado

UNA INTRODUCCIÓN A LA CLASIFICACIÓN DIFUSA

presentado por el Bachiller

FLORES MACALUPÚ LUIS ENRIQUE

oídas las observaciones y dadas respuestas a las preguntas formuladas, el Jurado Calificador declara:

APROBADO ( X ) DESAPROBADO ( )

( X ) En consecuencia queda en condición de ser ratificado por el consejo universitario de la Universidad Nacional de Piura y recibir el título profesional de LICENCIADO EN MATEMÁTICA;

---

Dr. Elmer Porfirio Díaz Contreras Presidente

Con la mención de: SOBRESALIENTE

Piura, 23 de abril del 2022.

Vocal

Dr. Julio Enrique Lopez Castillo

________________________

(5)

iv

RESUMEN

Palabras claves: Clasificación difusa, HCM, y FCM.

En esta investigación, se encarga de explorar la clasificación difusa, para ello se necesita tener la información necesaria y suficiente, en este contexto se relaciona con la lógica difusa o borrosa donde se puede reducir la complejidad de los datos al clasificar en la toma de decisiones y a la vez es el más apropiado y se clasifica en dos algoritmos HCM y FCM.

Los HCM también llamado Hard c-Means se encarga de clasificar datos en un sentido preciso utilizando la suma de errores al cuadrado de la clase con enfoque euclidiano norma para caracterizar la distancia, el método a utilizar lleva a encontrar la función objetivo, pero no asegura que se alcance el minino global (algunas particiones iniciales el resultado puede ser muy pobre). Como además el número de conjuntos C esta predeterminado, se puede dar que algún conjunto quede vacío.

Los FCM también llamados Fuzzy c-Means es una familia de conjuntos borrosos lo que permite extender la clasificación nítida en una noción de clasificación difusa usando la medida de la suma de todos los errores cuadráticos ponderados y la distancia entre el centro se maximiza. Podemos asignar membresía a los diversos puntos de datos en cada conjunto difuso (clase difusa, grupo difuso), el resultado del algoritmo depende de la partición inicial lo cual nos puede llevar a un mínimo de la función objetivo.

Finalmente, el algoritmo FCM se puede aproximar a un algoritmo HCM, es decir, solo salen ceros y unos de agrupamiento. Este resultado parece intuitivo, porque los valores de pertenencia son números menor o igual a 1. Por lo contrario, como los valores de agrupamiento se vuelven duros, es decir 0 o 1, es decir, controla el grado de participación compartida entre grupos difusos

(6)

v ABSTRACT

Keywords: Fuzzy classification, HCM, and FCM.

In this research, it is responsible for exploring the diffuse classification, for this it is necessary to have the necessary and sufficient information, in this context it is related to the diffuse or blurred logic where the complexity of the data can be reduced when classifying in decision making and at the same time it is the most appropriate and is classified into two algorithms HCM and FCM.

The HCM also called Hard c-Means is responsible for classifying data in a precise sense using the sum of errors squared of the class with standard Euclidean approach to characterize the distance, the method to be used leads to find the objective function, but does not ensure that the global pussyl is reached (some initial partitions the result can be very poor). Since the number of sets C is also predetermined, some set can be empty.

The FCM also called Fuzzy c-Means is a family of fuzzy sets which allows to extend the sharp classification into a notion of fuzzy classification using the measure of the sum of all weighted quadratic errors and the distance between the center is maximized. We can assign membership to the various data points in each fuzzy set (fuzzy class, fuzzy group), the result of the algorithm depends on the initial partition which can lead us to a minimum of the target function.

Finally, the FCM algorithm can be approximated to an HCM algorithm, that is, only zeros and grouping ones come out. This result seems intuitive, because membership values are numbers less than or equal to 1. On the contrary, as the grouping values become hard, i.e. 0 or 1, that is, it controls the degree of shared participation between diffuse groups

(7)

vi

ÍNDICE

Introducción ... viiii

I. Aspectos de la problemática ... 8

1.1. Descripción de la realidad problemática ... 8

1.2. Justificación e importancia de la investigación ... 8

1.3. Objetivos ... 9

1.3.1. Objetivo general ... 9

1.3.2. Objetivos específicos ... 9

II. Marco teórico ... 9

2.1. Antecedentes de la investigación ... 9

2.2. Bases teóricas ... 10

2.3. hipótesis ... 25

III. Marco metodológico... 25

3.1. Enfoque ... 25

3.2. Tipo ... 25

3.3. Métodos y procedimientos... 25

IV. RESULTADOS Y DISCUSIÓN ... 28

CONCLUSIONES ... 29

Referencias bibliográficas ... 30

(8)

vii

INTRODUCCIÓN

La principal característica del ser humano que lo diferencia del resto de los seres vivos es la capacidad de razonar. Dada una serie de premisas, el ser humano es capaz de obtener conclusiones.

Por ejemplo, si suponemos cierto «el cielo es celeste» y falso «Kepler era dentista», podemos deducir que afirmaciones como «el cielo es celeste y Kepler era dentista» o «el cielo no es celeste» son falsas.

Así mismo, oraciones como «el cielo es celeste o Kepler era dentista» o «que el cielo fuera celeste no hizo que la población alemana del siglo XVI se hiciera dentista» son verdaderas. En realidad, estamos utilizando operadores lógicos para deducir la veracidad de afirmaciones que han sido construidas a partir de las anteriores. Todos estos operadores se encuentran inmersos en lo que denominamos lógica clásica, mediante la cual podemos trabajar con enunciados que son o bien ciertos, o bien falsos.

La lógica difusa es una extensión de la lógica clásica a contextos en los que encontramos imprecisión o información incompleta. Las bases de la lógica difusa fueron presentadas en 1965 de la mano de Lofti Zadeh, natural de la actual República de Azerbaiyán y profesor de la Universidad de California, en Berkeley, con un artículo titulado «Fuzzy sets».

En el presente trabajo se hará una introducción a la clasificación de la lógica difusa, donde existen dos clasificaciones: están los HCM y en ésta no existe lógica borrosa ya que es una simple clasificación y sencilla de entender, en cambio en los FCM interviene la lógica borrosa.

(9)

I. ASPECTOS DE LA PROBLEMÁTICA

1.1. DESCRIPCIÓN DE LA REALIDAD PROBLEMÁTICA

Para tomar decisiones se requiere tener la información necesaria y suficiente, asimismo existen sistemas de información donde se puede almacenar y procesar los datos.

En particular, para tomar decisiones sobre los riesgos financieros, por ejemplo, saber si un cliente presenta un nivel de pertenencia mayor hacia la clasificación crediticia buena, asegurando un nivel de riesgo escaso y una muy buena solvencia, o es un mal pagador y tiene una tendencia hacia una mala calificación crediticia. Hacer una clasificación dicotómica de la lógica difusa (buen pagador o mal pagador) no es adecuado para la toma de decisiones en este caso.

En este contexto, la clasificación difusa que combina bases de datos relacionales con lógica borrosa reduce la complejidad de los datos al clasificar elementos similares, juntos y al mismo tiempo.

La clasificación difusa también es mucho más apropiada para la toma de decisiones en el sentido de que un usuario puede formular consultas poco definidas a nivel lingüístico.

Las variables y los términos lingüísticos introducidos encapsulan la complejidad del dominio, así por ejemplo podemos buscar información relacionada sobre “clientes morosos”.

A nivel de aplicación, el enfoque de clasificación difusa propuesto abre la puerta a muchos campos de aplicación. Aunque se puede adoptar en casi todos los dominios de aplicaciones donde entra en juego el análisis de datos (por ejemplo, segmentación, reducción de la complejidad de los datos, etc.), los siguientes dominios de aplicaciones gerenciales parecen más prometedores desde el punto de vista empresarial: El marketing, la gestión de cartera de clientes, análisis y comportamiento de los clientes, análisis de riesgos entre otros.

Dada que la clasificación empleando la lógica clásica es limitada, es natural considerar el empleo de la lógica borrosa, así nos planteamos: ¿Qué es y cómo se aplicar la clasificación difusa a la toma de decisiones?

1.2. JUSTIFICACIÓN E IMPORTANCIA DE LA INVESTIGACIÓN

Una de las disciplinas matemáticas actuales es la lógica difusa o borrosa que utiliza expresiones que no son ni totalmente ciertas ni completamente falsas lo que permite tratar información imprecisa como la estatura o temperatura, asimismo, existen diferentes tipos de clasificación difusa lo cual permite aplicar la lógica borrosa en diferentes campos: marketing, gestión de cartera de clientes, imágenes satelitales, líneas de transmisión eléctrica, o en un riesgo financiero entre otros.

Existen, en general, dos tipos de clasificación: la Hard c-Means (HCM) que se encarga de clasificar datos en un sentido preciso, sin lógica borrosa y los Fuzzy c-Means (FCM) definimos sobre

(10)

9 una familia de conjuntos borrosos lo que permite extender la clasificación a datos con incertidumbre e imprecisión.

La principal desventaja de los algoritmos HCM y FCM es que agrupan una entidad basándose únicamente en sus características propias y no incorporan la influencia de los vecindarios de la entidad, lo que hace que la agrupación sea propensa al ruido.

1.3. OBJETIVOS 1.3.1. Objetivo general

El objetivo general de este trabajo es estudiar la clasificación difusa y dar ejemplos de su aplicación.

1.3.2. Objetivos específicos

1. Definir clasificación difusa.

2. Comparar la clasificación clásica con la clasificación difusa.

II. MARCO TEÓRICO

2.1. ANTECEDENTES DE LA INVESTIGACIÓN

 Carlos Soto y Claudia Jiménez (2011) en su investigación titulada: “Aprendizaje supervisado para la discriminación y clasificación difusa” desarrollada en la Universidad Nacional de Colombia, determino que la discriminación es reconocer las diferencias entre grupos de objetos.

El método que se propone permite realizar una discriminación y clasificación difusa, pero requiere de un conjunto de ejemplares que hayan sido clasificados convencionalmente, en otras palabras, en categorías excluyentes. Este conjunto es llamado conjunto de entrenamiento o muestra de aprendizaje. Con base en los patrones que se encuentren, se determinan las categorías a las cuales pertenecen los nuevos ejemplares, por esto, esta estrategia de reconocimiento es conocida como aprendizaje supervisado y se concluye que la técnica de aprendizaje supervisado, permite realizar un análisis discriminante difuso considerando diferentes niveles de granularidad o número de categorías difusas. El número de categorías difusas es establecido por el número de categorías que se identifiquen en la muestra de aprendizaje.

 Timothy j. Ross (2010) en su libro titulado: Fuzzy Logic witch Engineering Applications, plantea que la clasificación también denominada agrupación es un tema muy importante para decidir los criterios para clasificar. Por ejemplo, supongamos que queremos clasificar personas. Al describir personas nos fijaremos en su altura, peso, genero, religión, educación y apariencia, lo cual la metodología de clasificación es muy popular conocido como FCM y HCM utiliza conceptos en el espacio euclidiano n-dimensional para determinar la proximidad de los datos de los puntos asignados a varios grupos o clases.

(11)

10

2.2. BASES TEÓRICAS

La historia nos cuenta que las clasificaciones o categorías de “creyentes y paganos”, “negros y blancos”, “arios y judíos”, “proletarios y burgueses”, “ricos y pobres”, “colonialistas y colonizados” o las de “ciencias exactas” y “ciencias sociales”, etcétera, encierran profundas diferencias teóricas, ideológicas y sociales. La filosofía nos lleva a pensar hoy que, sin lugar a dudas, toda clasificación es relativa, además toda clasificación está sujeta a la práctica de quienes la emplean. (González Casanova, 1996). No existe, ni existirá la clasificación por antonomasia, perfecta absoluta.

El objetivo básico de la clasificación es reconocer las diferencias entre grupos de objetos y poder describirlas, ya sea forma gráfica o algebraica, para lograr un mejor entendimiento de un determinado entorno. Así pues, en lógica tenemos dos formas de clasificar:

Hard C-Means:

Se utiliza para clasificar datos en un sentido preciso. Con esto queremos decir que cada elemento de un conjunto de datos puede asignarse a uno y solo una clase o grupo. En este sentido estos clusters también son llamados particiones, es decir, clases disjuntas.

Dada una familia de conjuntos: 𝐴𝑖, con 𝑖 = 1,2,3, … , 𝑐 , es una partición 𝑐 dura de 𝑋, si se cumple que:

⋃^𝑐_𝑖=1𝐴_𝑖 = 𝑋 … (1)

𝐴_𝑖 ⋂ 𝐴_𝑗= ∅, ∀ 𝑖 ≠ 𝑗 … (2)

∅ ⊂ 𝐴_𝑖 ⊂ 𝑋, ∀ 𝑖 … (3)

Donde 𝑋 = {𝐱₁, 𝐱₂, 𝐱₃, … , 𝐱_𝑛} comprende el universo de datos muestrales y 𝑐 es el número de clases, particiones o grupos en los que queremos clasificar los datos. Es obvio que

2 ≤ 𝑐 < 𝑛 … (4)

Donde 𝑐 = 𝑛 clases simplemente coloca cada muestra de datos en su propia clase y 𝑐 = 1 pone todos los datos de la muestra en la misma clase; ninguno de los datos requiere ningún esfuerzo en la clasificación, y ambos son intrínsecamente poco interesantes.

La ecuación (1) expresa el hecho de que el conjunto de todas las clases agota el universo de muestras de datos.

La ecuación (2) indica que ninguno de las clases se superpone en el sentido de que una muestra de datos puede pertenecer a más de una clase.

La ecuación (3) simplemente expresa que una clase no puede estar vacía y no puede contener todas las muestras de datos.

Tenemos el caso donde 𝑐 = 2. Las ecuaciones (1) y (2) se manifiestan entonces en las siguientes expresiones de conjuntos:

𝐴2 = 𝐴̅1, 𝐴1∪ 𝐴̅1= 𝑋 𝑦 𝐴1∩ 𝐴̅1= ∅

(12)

11 Las expresiones de teoría de funciones asociadas con las ecuaciones 1 y 2 son como sigue:

⋁ 𝑥𝐴_𝑖(𝐱_𝑘) = 1 ,

𝐶

𝑖=1

∀𝑘 (5) 𝑥𝐴_𝑖(𝑥_𝑘) ∧ 𝑥𝐴_𝑗(𝐱_𝑘) = 0 , ∀𝑘 (6) 0 < ∑ 𝑥𝐴_𝑖(𝐱_𝑘) < 𝑛 ,

𝑛

𝑘=1

∀𝑘 (7)

Donde la función característica 𝑥𝐴𝑖(𝐱_𝑘) se define :

𝑥𝐴_𝑖(𝑥_𝑘) {1 , 𝐱𝑘∈ 𝐴𝒊

0 , 𝐱_𝑘∉ 𝐴_𝒊 (8)

Las ecuaciones 5 y 6 explican que cualquier muestra 𝐱_𝑘 puede pertenecer única y definitivamente a una de las clases c.

La ecuación 7 implica que ninguna clase está vacía y ninguna clase es todo el conjunto X(universo).

La notación, muestra asignación de membresía del j-ésimo punto de datos en el i-ésimo grupo o clase, se define como 𝑥_𝑖𝑗 = 𝑥𝐴_𝑖(𝐱_𝑗).

Definamos una matriz U que comprenda elementos 𝑥_𝑖𝑗(𝑖 =1,2,…,c ;j=1,2,…,n); por tanto, U es una matriz con c filas y n columnas.

Definimos un espacio de partición c duro para X como el siguiente conjunto de matrices:

𝑀_𝑐 = {∪ ⃓𝑥_𝑖𝑗 ∈ {0,1}, ∑ 𝑥_𝑖𝑘 = 1,0 < ∑ 𝑥_𝑖𝑘 < 𝑛 ,

𝑛

𝑘=1 𝑐

𝑖=1

} (9)

Cualquier matriz ∪∈ 𝑀_𝑐 es una partición c dura.

La cardinalidad de cualquier partición c dura, Mc, es 𝑛𝑀_𝑐= (¹

𝑐!) [∑^𝑐_𝑖=1(^𝑐_𝑖)(−1)^𝑐−1. 𝑖^𝑛] (10)

Donde la expresión (^𝑐_𝑖) es el coeficiente binomial de c tomadas de i a la vez.

Ejemplo:

Supongamos que tenemos cinco puntos de datos en un universo,𝑋 = {𝑥₁, 𝑥₂, 𝑥₃, 𝑥₄, 𝑥₅}

Además, supongamos que queremos agrupar estos cinco puntos en dos clases. Para este caso tenemos 𝑛 = 5 𝑦 𝑐 = 2.La cardinalidad ,usando la Ecuación (10),de esta partición dura c se da como:

𝑛𝑀_𝑐 =1

2[2(−1) + 2⁵] = 15 Algunas de las 15 posibles particiones duras de 2 se enumeran

[1 1 0 0

1 1 0

0 0 1] [1 1

0 0

1 0 0

0 1 1] [1 1 0 0

0 0 0

1 1 1] [1 0 0 1

0 0 0 1 1 1] [1 0

0 1

1 0 0

0 1 1] [1 0

0 1

0 1 0

1 0 1] [1 0 0 1

0 0 1

1 1 0]

(13)

12 Y así observe que las dos matrices.

[1 1

0 0

1 1 0

0 0 1] 𝑦 [0 0 0

1 1 1

0 1 1 0]

No son particiones de 2 agrupaciones diferentes. De hecho, son las mismas 2 particiones independientemente de un intercambio de filas arbitrario. Si etiquetamos la primera fila de la primera matriz U clase 𝑐₁ y etiquetamos la segunda fila clase 𝑐₂,obtendríamos la misma clasificación para la segunda matriz U simplemente reetiquetando cada fila: la primera fila es 𝑐₂ y la segunda fila es 𝑐₁ .La medida de cardinalidad dado en la ecuación(10) da el número de particiones c únicas para n puntos de datos.

Ahora surge una pregunta interesante: de todas las particiones c posibles para n muestras de datos,

¿Cómo podemos seleccionar la partición c más razonable para el espacio de partición 𝑀_𝑐?Por ejemplo ,se acaba de proporcionar ¿Cuál de las 15 particiones duras posibles para cinco puntos de datos y dos clases es lo mejor? La respuesta a esta pregunta la proporciona la función objetivo (criterio de clasificación) que se utilizaran para clasificar o agrupar los datos. El propuesto para el algoritmo HCM se conoce como un enfoque de suma de errores al cuadrado dentro de la clase que utiliza un enfoque euclidiano norma para caracterizar la distancia. Este algoritmo se denota 𝐽(𝑈, 𝑣), donde U es la partición de la matriz y el parámetro v es un vector de centros de conglomerados. Esta función objetivo se da como:

𝐽(𝑈. 𝑣) = ∑ ∑ 𝑥_𝑖𝑘(𝑑_𝑖𝑘)²

𝑐

𝑖=1

(11)

𝑛

𝑘=1

Donde 𝑑_𝑖𝑘 es una medida de distancia euclidiana( en espacio de características m-dimensional 𝑅^𝑚) entre el k-esimo muestra de datos 𝑥_𝑘 y i-esimo centro de grupo 𝑣_𝑖 que se da de la siguiente manera

𝑑_𝑖𝑘 = 𝑑(𝑥_𝑘− 𝑣_𝑖) = ‖𝑥_𝑘− 𝑣_𝑖‖ = [∑(𝑥_𝑘𝑗− 𝑣_𝑖𝑗)²

𝑚

𝑗=1

]¹² (12)

Dado que cada muestra de datos requiere m coordenadas para describir su ubicación en el espacio 𝑅^𝑚,cada centro de clúster también requiere m coordenadas para describir su ubicación en este mismo espacio.

Por lo tanto, el i-esimo centro del grupo es un vector de longitud m.

𝑣_𝑖 = {𝑣_𝑖1, 𝑣_𝑖2, … . 𝑣_𝑖𝑚} Donde la j-esima coordenada se calcula mediante:

𝑣_𝑖𝑗=∑^𝑛_𝑘=1𝑥_𝑖𝑘. 𝑥_𝑘𝑗

∑^𝑛_𝑘=1𝑥_𝑖𝑘 (13)

Buscamos que la partición optima U*, sea la partición que produzca el mínimo valor para la función J. Es decir,

𝐽(𝑈^∗, 𝑣^∗) = _𝑈𝜀𝑀^𝑚𝑖𝑛_𝑐𝐽(𝑈, 𝑣) (14)

Encontrar la matriz de partición optima,𝑈^∗,es extremadamente difícil para problemas prácticos porque 𝑀_𝑐→ ∞ incluso para problemas de tamaño modesto. Por ejemplo, para el caso donde n=25 y c=10,la cardinalidad se aproxima a un número extremadamente grande es decir 𝑀_𝑐 → 10¹⁸! ,obviamente una búsqueda de la optimización por agotamiento no es factible computacionalmente para problemas de interés razonable.Afortunadamente,algoritmos de búsqueda alternativos muy útiles y efectivos han sido ideados (Bezdek,1981).

(14)

13 Uno de estos algoritmos de búsqueda se conoce como optimización iterativa. Básicamente, este método es como muchos otros métodos iterativos en los que comenzamos con una suposición inicial en la matriz U.A partir de esta matriz supuesta (valores de entrada para el numero de clases) y la tolerancia de iteración (la precisión que exigimos en la solución), calculamos los centros de los conglomerados(clases).

A partir de estos centros de conglomerados o clases, recalculamos los valores de pertenencia que cada dato de punto tiene en el clúster. Comparamos estos valores con los valores asumidos y continuamos 0 este proceso hasta que los cambios de un ciclo a otro estén dentro de nuestro nivel de tolerancia prescrito.

Los procedimientos paso a paso en este método de optimización iterativo se proporcionan a continuación(Bezdek,1981):

1.-Fijar 𝑐(2 ≤ 𝑐 < 𝑛) e inicializar la matriz U:

𝑈⁽⁰⁾𝜀𝑀_𝑐 Entonces 𝑟 = 0,1,2, …

2.-Calcular los c vectores centrales

{𝑣_𝑖^(𝑟) 𝑐𝑜𝑛 𝑈^(𝑟)}

3.-Actualizar 𝑈^(𝑟);calcular las funciones características actualizadas( para todo i,k) 𝑥_𝑖𝑘^(𝑟+1)= {1, 𝑑_𝑖𝑘^(𝑟)= min {𝑑_𝑗𝑘^(𝑟)𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑗𝜀𝑐 (15)

0, 𝑑𝑒 𝑙𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜

4.-Si ‖𝑈^(𝑟+1)− 𝑈^(𝑟)‖ ≤ 𝜀(nivel de tolerancia) (16) Detener, de lo contrario establezca 𝑟 = 𝑟 + 1 y regrese al paso 2.

En el paso 4, la notación es cualquier norma matricial como la norma euclidiana.

Ejemplo(Bezdek,1981). Una buena ilustración del método de optimización iterativa se proporciona con el “problema de la mariposa”. En este problema tenemos 15 puntos de datos y uno de ellos está en una línea vertical de simetría (el punto en el medio del grupo de datos). Supongamos que queremos agrupar nuestros datos en dos clases. Podemos ver que los puntos a la izquierda de la línea de simetría deben estar en una clase y los puntos a la derecha de la línea de simetría debe estar en la otra clase.

El problema radica en asignar el punto en el eje de simetría de una clase. ¿Aquel clase debe pertenecer este punto? Cualquiera que sea la clase el algoritmo asigna este punto, habrá un buen argumento de que debería ser un miembro de la otra clase. Alternativamente, el argumento puede girar en torno al hecho de que la elección de dos clases es pobre para este problema. Tres clases podrían ser la mejor opción, pero la física subyacente a los datos puede ser binaria y dos clases pueden ser la única opción.

Al llevar a cabo el enfoque de optimización iterativa, tenemos que asumir una U inicial matriz. Esta matriz tendrá dos filas(dos clases 𝑐 = 2) y 15 columnas (15 de datos,𝑛 = 15).Es importante comprender que las clases pueden no estar etiquetadas en este proceso. Es decir, podemos mirar la estructura de los datos sin necesidad de asignar etiquetas a las clases. Este suele ser el caso cuando uno mira por primera vez un grupo de datos. Después de varias iteraciones con los datos y a medida que adquirimos más y más conocimiento sobre los datos, luego puede asignar etiquetas a las clases.

Empezamos la solución con la suposición del punto en el medio (es decir, la octava columna) se asigna a la clase representada por la fila inferior de la matriz U inicial, 𝑈⁽⁰⁾:

𝑈⁽⁰⁾= [1 1 1 0 0 0

1 1 1 0 0 0

1 0 0 0 1 1

0 0 0 1 1 1

0 0 0

1 1 1]

Después de cuatro iteraciones (Bezdek,1981), este método converge dentro de un nivel de tolerancia de 𝜀 = 0.01,como:

(15)

14 𝑈⁽⁴⁾= [1 1 1

0 0 0

1 1 1 0 0 0

1 0 0

0 1 1 0 0 0 1 1 1

0 0 0

1 1 1]

Notamos que el punto en la línea de simetría (es decir, la octava columna) todavía está asignado a la clase representada por la segunda fila de matriz U. Los elementos de la matriz U indican pertenencia de ese punto de datos a la primera o segunda clase. Por ejemplo, el punto en la línea de simetría tiene plena pertenencia a la segunda clase y ninguna pertenencia a la primera clase, sin embargo, físicamente debería compartir la membresía con cada clase. Esto no es posible con la clasificación nítida; la membresía es binaria –un punto es miembro de una clase o no.

El siguiente ejemplo ilustra nuevamente el método de clasificación nítido. El proceso será instructivo debido a su similitud con el algoritmo posterior a desarrollar para el método de clasificación difusa.

Ejemplo:

En un proceso de ingeniería química que involucra el convertidor catalítico de automóvil (convierte el monóxido de carbono en dióxido de carbono), tenemos una relación entre la eficiencia de conversión del convertidor catalítico y la inversa de la temperatura del catalizador. Se conocen dos clases de datos a partir de la eficiencia de la reacción. Puntos de alta conversión eficiencia y alta temperatura son indicadores de un sistema no contaminante( clase 𝑐₁) y puntos de baja eficiencia de conversión y baja temperatura son indicativos de un sistema contaminante (clase 𝑐₂).Suponga que mide la eficiencia de conversión y la temperatura (T) de cuatro convertidores catalíticos e intentar caracterizarlos como contaminantes o no contaminantes. Los cuatro puntos de datos (𝑛 = 4) se muestran en la figura 1 donde el eje y es la eficiencia de conversión y el eje x es el inverso de la temperatura ( en un proceso de conversión como este, el valor exacto solución toma la forma de ln (¹

𝑇) ). Los datos están descrito por dos características 𝑚 = 2 y tienen las siguientes coordenadas en el espacio 2D.

Figura 1

Cuatro puntos de datos en un espacio de características bidimensional

Fuente: J. Ross Timothy (2010)

𝑥1 = {1,3}

𝑥₂= {1.5,3.2}

𝑥₃= {1.3,2.8}

𝑥₄ = {3,1}

(16)

15 Deseamos clasificar estos puntos de datos en dos clases (𝑐 = 2).A veces es útil para calcular la cardinaidad del número posible de particiones crujientes para este sistema, es decir, para encontrar𝑛𝑀_𝑐 usando la ecuación(10);por lo tanto tenemos:

𝑛𝑀_𝑐 = (1

𝑐!) [∑(𝑐

𝑖) (−1)^𝑐−𝑖𝑖^𝑛] = 1 2![(2

1)(−1)¹(1)⁴+ (2

2)(−1)⁰(2)⁴

=1

2[−2 + 16] = 7

Hay 7 formas únicas (independientemente de los intercambios de filas) para clasificar los cuatro puntos en dos grupos. Comencemos el algoritmo de optimización iterativo con una suposición inicial de la partición nítida, U suponiendo que 𝑥₁ está en la clase 1 y 𝑥₂, 𝑥₃, 𝑥₄ en la clase 2,como se muestra en la figura 1 es decir :

𝑈⁽⁰⁾= [1 0 0 1 0 0

1 1]

Ahora, a partir de 𝑈⁽⁰⁾inicial(es una de las siete posibles particiones nítidas),buscamos la partición optima 𝑈^∗,es decir:

𝑈⁽⁰⁾→ 𝑈⁽¹⁾→ 𝑈⁽²⁾→ ⋯ → 𝑈^∗

La optimización se define en términos de la tolerancia o convergencia deseada, ε.

En general, para la clase 1 calculamos las coordenadas del centro del clúster.

𝑣_𝑖𝑗 =𝑋₁₁𝑥_1𝑗+ 𝑋₁₂𝑥_2𝑗+ 𝑋₁₃𝑥_3𝑗+ 𝑋₁₄𝑥_4𝑗 𝑋₁₁+ 𝑋₁₂+ 𝑋₁₃+ 𝑋₁₄ (1)𝑥_1𝑗+ (0)𝑥_2𝑗+ (0)𝑥_3𝑗+ (0)𝑥_4𝑗

1 + 0 + 0 + 0 Y 𝑣𝑖 = {𝑣𝑖1, 𝑣𝑖2, … , 𝑣𝑖𝑚}

En este caso m=2, lo que significa que tratamos con dos coordenadas para cada punto de datos. Por lo tanto, 𝑣𝑖 = {𝑣𝑖1, 𝑣𝑖2}

Donde:

Para c=1 (clase 1), 𝑣₁= {𝑣₁₁, 𝑣₁₂} Para c=2(clase 2), , 𝑣₂ = {𝑣₂₁, 𝑣₂₂}

Por lo tanto, usando la expresión de , 𝑣_𝑖𝑗 para c=1 y j=1 y 2 respectivamente:

𝑣₁₁ =1(1)

1 = 1 → 𝑥 𝑣₁₂=1(3)

1 = 3 → 𝑦

} → 𝑣₁= {1,3}

Resultan ser las coordenadas del punto 𝑥₁; ya que este es el único punto en la clase para la partición inicial supuesta,𝑈⁽⁰⁾.Para c=2 o clase 2,obtenemos las coordenadas del centro del grupo:

𝑣_2𝑗 =(0)𝑥_1𝑗+ (1)𝑥2𝑗+ (1)𝑥3𝑗+ (1)𝑥4𝑗

0 + 1 + 1 + 1 =𝑥2𝑗+ 𝑥3𝑗+ 𝑥4𝑗

3 Por lo tanto, para c=2 y j=1 y 2, respectivamente:

(17)

16 𝑣₂₁=1(1.5) + 1(1.3) + 1(3)

3 = 1.93 → 𝑥

𝑣₂₂ =1(3.2) + 1(2.8) + 1(1)

3 = 2.33 → 𝑦

} → 𝑣2 = {1.93,2.33}

Ahora, calculamos los valores para 𝑑_𝑖𝑘 o las distancias de la muestra 𝑥_𝑘(un conjunto de datos) al centro 𝑣_𝑖 de la i-esima clase. Usando la ecuación (12)

𝑑_𝑖𝑘= [∑(𝑥_𝑘𝑗− 𝑣_𝑖𝑗)²]^1/2

𝑚

𝑗=1

Obtenemos, por ejemplo para c=1,𝑑_1𝑘 = [𝑥_𝑘1− 𝑣₁₁)²+ (𝑥_𝑘2− 𝑣₁₂)²]^1/2.Por lo tanto, para cada conjunto de datos k=1 a 4 ,calculamos los valores de 𝑑_𝑖𝑘 de la siguiente manera: para el grupo1:

𝑑11= √(1 − 1)²+ (3 − 3)²= 0 𝑑12= √(1.5 − 1)²+ (3.2 − 3)²= 0.54 𝑑₁₃= √(1.3 − 1)²+ (2.8 − 3)²= 0.36 𝑑₁₄ = √(3 − 1)²+ (1 − 3)² = 2.83 Para el grupo 2:

𝑑₂₁= √(1 − 1.93)²+ (3 − 2.33)²= 1.14 𝑑₂₂= √(1.5 − 1.93)²+ (3.2 − 2.33)²= 0.97 𝑑23= √(1.3 − 1.93)²+ (2.8 − 2.33)²= 0.78

𝑑24= √(3 − 1.93)²+ (1 − 2.33)²= 1.70

Ahora, actualizamos la partición a 𝑈⁽¹⁾ para cada punto de datos ( para (c-1) conglomerados) usando la ecuación (15).Por tanto, para la clase1comparamos 𝑑_𝑖𝑘 con el mínimo de {𝑑_1𝑘, 𝑑_2𝑘}

𝑃𝑎𝑟𝑎 𝑘 = 1 𝑑₁₁= 0 min(𝑑₁₁, 𝑑₂₁) = min(0 , 1.14) = 0 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥₁₁= 1 𝑃𝑎𝑟𝑎 𝑘 = 2 𝑑₁₂= 0.54 min(𝑑₁₂, 𝑑₂₂) = min(0.54 , 0.97) = 0.54 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥₁₂= 1 𝑃𝑎𝑟𝑎 𝑘 = 3 𝑑13= 0.36 min(𝑑13, 𝑑23) = min(0.36 , 0.78) = 0.36 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥₁₃= 1 𝑃𝑎𝑟𝑎 𝑘 = 4 𝑑₁₄= 2.83 min(𝑑₁₄, 𝑑₂₄) = min(2.83,1.70) = 1.70 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥₁₄= 0 Por lo tanto, la partición actualizada es:

𝑈⁽¹⁾= [1 1 1 0 0 0 0

1]

Como las particiones 𝑈⁽⁰⁾ y 𝑈⁽¹⁾ son diferentes repetimos el mismo procedimiento basándonos en la nueva configuración de dos clases .Para c=1, las coordenadas del centro son:

𝑣_1𝑗𝑜 𝑣_𝑗= 𝑥1𝑗+𝑥2𝑗+𝑥3𝑗

1 + 1 + 1 + 0 , 𝑐𝑜𝑛 𝑋₁₄= 0

𝑣11 =𝑥₁₁₊𝑥₂₁₊𝑥₃₁

3 =1 + 1.5 + 1.3

3 = 1.26 → 𝑥

𝑣₁₂=𝑥₁₂₊𝑥₂₂₊𝑥₃₂

3 =3 + 3.2 + 2.8

3 = 3 → 𝑦

} → 𝑣₁= {1.26 , 3}

(18)

17 Para c=2, las coordenadas del centro son:

𝑣_2𝑗 𝑜 𝑣_𝑗= 𝑥_4𝑗

0 + 0 + 0 + 1 , 𝑐𝑜𝑛 𝑋₂₁, 𝑋₂₂, 𝑋₂₃= 0 𝑣₂₁ =3

1= 3 → 𝑥 𝑣₁₂=1

1= 1 → 𝑦

} → 𝑣₂ = {3, 1}

Ahora, volvemos a calcular las medidas de distancia:

𝑑₁₁= √(1 − 1.26)²+ (3 − 3)²= 0.26 𝑑₂₁ = √(1 − 3)²+ (3 − 1)²= 2.83 𝑑₁₂= √(1.5 − 1.26)²+ (3.2 − 3)²= 0.31 𝑑₂₂ = √(1.5 − 3)²+ (3.2 − 1)²= 2.66 𝑑₁₃= √(1.3 − 1.26)²+ (2.8 − 3)²= 0.20 𝑑₂₃ = √(1.3 − 3)²+ (2.8 − 1)²= 2.47

𝑑14= √(3 − 1.26)²+ (1 − 3)²= 2.65 𝑑24= √(3 − 3)²+ (1 − 1)²= 0 De nuevo actualice la partición 𝑈⁽¹⁾𝑎𝑈⁽²⁾

𝑃𝑎𝑟𝑎 𝑘 = 1 𝑑₁₁= 0.26 min(𝑑₁₁, 𝑑₂₁) = min(0.26 , 2.83) = 0.26 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥₁₁ = 1 𝑃𝑎𝑟𝑎 𝑘 = 2 𝑑₁₂= 0.31 min(𝑑₁₂, 𝑑₂₂) = min(0.31 , 2.66) = 0.31 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥₁₂= 1 𝑃𝑎𝑟𝑎 𝑘 = 3 𝑑₁₃= 0.20 min(𝑑₁₃, 𝑑₂₃) = min(0.20 , 2.47) = 0.20 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥₁₃= 1 𝑃𝑎𝑟𝑎 𝑘 = 4 𝑑14= 2.65 min(𝑑14, 𝑑24) = min(2.65 , 0) = 0 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥₁₄= 0 Como las particiones 𝑈⁽¹⁾𝑎𝑈⁽²⁾ son idénticas, podríamos decir que el proceso iterativo tiene convergido; por lo tanto ,la participación dura optima (crujiente) es:

𝑈^∗= [1 1 1 0 0 0 0

1]

Esta partición optima nos dice que, para este ejemplo de convertidor catalítico, los puntos de datos 𝑥1, 𝑥2, 𝑥3 son similares en el espacio de característico 2D y diferentes del punto de datos 𝑥4.Podemos decir que los puntos 𝑥₁, 𝑥₂, 𝑥₃ son más indicativos de un convertidor no contaminante que los puntos de datos de 𝑥₄.

Fuzzy C-Means(FCM)

Definimos una familia de conjuntos borrosos

{ , 𝑖 = 1,2, … , 𝑐}_~^𝐴 una participación c difusa en un universo de puntos de datos X.

Los conjuntos borrosos permiten grados de pertenencia, podemos extender la clasificación nítida en una noción de clasificación difusa. Podemos asignar membresía a los diversos puntos de datos en cada conjunto difuso (clase difusa, grupo difuso).

Entonces, un solo punto puede tener pertenencia parcial a más de una clase. Sera útil describir la membresía valor que tiene el k-esimo punto de datos en la i-esima clase con la siguiente notación:

𝑢_𝑖𝑘 = 𝑢 _𝑖

~𝐴(𝑥_𝑘) ∈ [0,1]

La restricción (la clasificación nítida) de la suma de todos los valores de membresía para un solo punto de datos en todas las clases tiene que ser la unidad:

(19)

18

∑ 𝑢_𝑖𝑘 = 1 ,

𝑐

𝑖=1

∀𝑘 = 1,2, … , 𝑛 (17)

La clasificación nítida, no puede haber clases vacías y no puede haber clase que contiene todos los puntos de datos. Esta calificación se manifiesta en la siguiente expresión:

0 < ∑ 𝑢_𝑖𝑘< 𝑛 (18)

𝑛

𝑘=1

Cada punto de datos puede tener membresía parcial en más de una clase, la restricción de la ecuación 6 no está presente en el caso de clasificación difusa, es decir,

𝑢_𝑖𝑘∧ 𝑢_𝑗𝑘 ≠ 0 (19)

Las ecuaciones 5 y 7 siguen siendo válidas para el caso borroso, sin embargo:

⋁ 𝑢_𝐴_𝑖(𝑥_𝑘) = 1 , ∀𝑘 (20)

𝑐

𝑖=1

0 < ∑ 𝑢_𝐴_𝑖(𝑥_𝑘) < 𝑛 ,

𝑛

𝑘=1

∀𝑖 (21)

Para 𝑐 = 2 el problema de clasificación reducido intermedios para la clasificación nítida.

Ahora permitimos la membresía parcial, el caso de c=2 ,es decir, para dos claves _~^𝐴𝑖 y _~^𝐴𝑗 ,

~𝑖

𝐴 ∩ 𝐴_𝑗≠ ∅ (22)

∅ ⊂ 𝑖_~^𝐴 ⊂ 𝑋 (23)

Ahora podemos definir una familia de matrices de partición difusa, Mfc para la calificación que involucra c clases y n puntos de datos:

𝑀_𝑓𝑐 = { |^𝑈_~𝑢_𝑖𝑘 ∈ [0,1]; ∑ 𝑢_𝑖𝑘 = 1,0 < ∑ 𝑢_𝑖𝑘 < 𝑛 ,

𝑛

𝑘=1 𝑐

𝑖=1

} (24)

Donde = 1,2, … , 𝑐 𝑦 𝑘 = 1,2, … , 𝑛

Cualquier _~^𝑈∈ 𝑀_𝑓𝑐 es una partición c difusa, número infinito de valores de membresía posibles para describir la clase pertenencia de que la cardinalidad de 𝑀_𝑓𝑐 también es infinita.

Ejemplo:

(Similar a Bezdek,1981). Suponga que usted un genetista de frutas interesado en relaciones genéticas entre frutos. En particular sabes que un tangelo es un cruce entre una toronja y una mandarina.

Describes la fruta con características como color, peso, esfericidad, contenido de azúcar, piel y textura. Por lo tanto, su espacio de funciones podría ser altamente dimensional.

(20)

19 Suponga que tiene tres frutas (tres puntos de datos):

𝑋 = [𝑥₁ = 𝑡𝑜𝑟𝑜𝑛𝑗𝑎, 𝑥₂= 𝑡𝑎𝑛𝑔𝑒𝑙𝑜, 𝑥₃= 𝑚𝑎𝑛𝑑𝑎𝑟𝑖𝑛𝑎]

Estos puntos de datos están descritos por m características. Clasificar las tres frutas en dos clases para determinar la asignación genética de los tres frutos. La matriz de clasificación puede tomar una de las tres formas, es decir, la cardinalidad para este caso donde 𝑛 = 3 𝑦 𝑐 = 2 𝑛𝑀𝑐 = 3 . Suponga que organiza su _~^𝑈𝑚𝑎𝑡𝑟𝑖𝑧 como sigue:

= [ 𝑥₁

1 𝑥₂

0 𝑥₃

0

0 1 1

𝑐₂ 𝑐₁

~ ]

𝑈

Las tres posibles particiones de la matriz son:

[1 0 0

0 1 1] , [1 1 0

0 0 1] , [1 0 1 0 1 0]

Notar que, en la primera partición, nos queda con la incómoda segregación de ponerlo en una clase (tangelo y mandarina en la otra); y la toronja no comparte nada en común. En la segunda partición la toronja y el tangelo están en una clase, lo cual no tiene nada en común con la mandarina.

Finalmente, la tercera partición es la más incómoda genéticamente de todas, porque aquí el tangelo es una clase por si misma sin compartir nada en común con sus progenitores.

Las particiones serán la partición final cundo se utilice cualquier algoritmo.

En el caso difuso, esta segregación y el absurdo genético no son un problema. Podemos tener la situación más intuitiva donde el tangelo comparte la membresía con ambas clases. Por ejemplo, la siguiente partición podría ser un resultado típico para la fruta problema de genética:

= [ 𝑥₁ 0,91

𝑥₂ 0,58

𝑥₃ 0,13 0,09 0,42 0,87

21 ]

𝑈~

En este caso, muestra que la suma de cada fila es un numero entre 0 y n 0 < ∑ 𝑢_1𝑘= 1.62 < 3

𝑘

0 < ∑ 𝑢_2𝑘 = 1.38 < 3

𝑘

Superposición entre las clases para cada punto de datos:

𝑢₁₁𝛬𝑢₂₁= min(0,91; 0,09) = 0,09 ≠ 0 𝑢₁₂𝛬𝑢₂₂= min(0,58; 0,42) = 0,42 ≠ 0 𝑢₁₃𝛬𝑢₂₃= min(0,13; 0,87) = 0,13 ≠ 0

(21)

20 Fuzzy c-Means Algoritmo

Describir un método para determinar la matriz de partición c difusa ^𝑈_~𝑝𝑎𝑟𝑎 agrupar una colección de n conjuntos de datos en c clases, definimos una función objetivo 𝑗_𝑚 para una partición c difusa:

𝐽_𝑚( , 𝑣) = ∑ ∑(𝑢_𝑖𝑘)^𝑚^′(𝑑_𝑖𝑘)² (25)

𝑐

𝑖=1 𝑛

𝑘=1

~𝑈

Donde:

𝑑_𝑖𝑘 = 𝑑(𝑥_𝑘− 𝑣_𝑖) = [∑(𝑥_𝑘𝑗− 𝑣_𝑖𝑗)²

𝑚

𝑗=1

]¹² (26)

Y donde 𝑢_𝑖𝑘 es la pertenencia del k-esimo punto de datos en la i-esima clase.

Al igual que con la clasificación nítida, la función 𝐽_𝑚 puede tener una gran cantidad de valores, el más pequeño asociado con el mejor agrupamiento. Debido a la gran cantidad de valores posibles (ahora infinitos debido a la infinita cardinalidad de los conjuntos borrosos) buscamos encontrar la mejor solución posible u optima sin recurrir a un análisis exhaustivo o caro. La medida de distancia 𝑑_𝑖𝑘 en la ecuación (26) es una euclidiana distancia entre i-esimo centro del grupo y el k-esimo conjunto de datos( punto de datos en m espacio).

Parámetro de ponderación (ecuación 25)

(Bezdek,1981).Este valor tiene un rango 𝑚^′ε[1, ∞).Este parámetro controla la cantidad de borrosidad en el proceso de clasificación y se discute en breve. También 𝑣_𝑖 es el centro de grupo ,que se describe mediante m características(m coordenadas) y se puede en forma vectorial como :

𝑣_𝑖 = {𝑣_𝑖1, 𝑣_𝑖2, … , 𝑣_𝑖𝑚}

Cada una de las coordenadas de clúster para cada clase se puede calcular de manera similar al cálculo en el caso:

𝑣_𝑖𝑗=∑^𝑛_𝑘=1𝑢_𝑖𝑘^𝑚′. 𝑥_𝑘𝑖

∑^𝑛_𝑘=1𝑢_𝑖𝑘^𝑚′ (27)

Donde j es una variable en el espacio de características, es decir,𝑗 = 1,2, … , 𝑚

Como en el caso nítido, la partición c difusa optima será la más pequeña de las particiones descritas en la ecuación (25) es decir:

𝐽_𝑚^∗(Ṵ^∗, 𝑣 ∗) =^𝑚𝑖𝑛_𝑀_𝑓𝑐𝐽(Ṵ, 𝑣) (28)

Al igual que con muchos procesos de optimización, la solución a la ecuación (28) no se puede garantizar que sea un óptimo global. Lo que buscamos es la mejor solución disponible dentro de un nivel predeterminado de precisión. Un algoritmo efectivo para Bezdek (1981) propuso una clasificación difusa, llamada optimización iterativa.

Los pasos de este algoritmo son los siguientes:

1.-Fijar c (2 ≤ 𝑐 < 𝑛) y seleccionar un valor para el parámetro m’. Inicializar la matriz de partición,Ṵ⁽⁰⁾ Cada paso en este algoritmo se etiquetara como r, donde 𝑟 = 0,1,2, …

2.-Calcular los centros c 𝑣_𝑖^(𝑟) para cada caso.

(22)

21 3.-Actualizar la matriz de partición para el paso r-esimo Ṵ^(𝑟)como sigue:

𝑢_𝑖𝑘^(𝑟+1) = [∑(𝑑_𝑖𝑘^(𝑟)

𝑑_𝑗𝑘^(𝑟))^{2 (𝑚}^⁄ ^′⁻¹⁾

𝑐

𝑗=1

]⁻¹ 𝑝𝑎𝑟𝑎 𝐼𝑘 = 𝜙 (29𝑎)

O 𝑢_𝑖𝑘^(𝑟+1) = 0 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑖 𝑑𝑜𝑛𝑑𝑒 𝑖𝜀 𝑘_~^𝐼 , (29𝑏) Donde:

𝐼_𝑘 = {𝑖\2 ≤ 𝑐 < 𝑛; 𝑑_𝑖𝑘^(𝑟)= 0} (30) Y _~^𝐼𝑘 = {1,2, … , 𝑐} − 𝐼_𝑘 (31) Y ∑_𝑖𝜀𝐼_𝑘𝑢_𝑖𝑘^(𝑟+1)= 1 (32)

4.-‖Ṵ^(𝑟+1)− Ṵ^(𝑟)‖ ≤ 𝜀_𝐿 𝑑𝑒 𝑙𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜 𝑒𝑠𝑡𝑎𝑏𝑙𝑒𝑧𝑐𝑎 𝑟 = 𝑟 + 1 𝑦 𝑟𝑒𝑔𝑟𝑒𝑠𝑎𝑟 𝑎𝑙 𝑝𝑎𝑠𝑜 2

En el paso 4 ,comparamos la norma matricial de dos particiones difusas sucesivas a un nivel prescrito de precisión 𝜀_𝐿,para determinar si la solución es lo suficientemente buena. En paso 3, hay una cantidad considerable de lógica involucrada en las ecuaciones 29 y32.

La ecuación (29a)es bastante sencilla, excepto cuando la variable 𝑑_𝑗𝑘,ya que esta variable esta en el denominador de una fracción la operación no está definida matemáticamente.

Entonces los parámetros 𝐼𝑘 𝑒Ḭ𝑘 comprenden un sistema de contabilidad para manejar situaciones cuando algunas de las medidas de distancia,𝑑_𝑖𝑗son cero o extremadamente pequeño en un sentido computacional. Si se detecta un valor cero la ecuación (29b) establece que la membresía para este valor de partición sea cero. La ecuación (30) y (31) describe los parámetros contables 𝐼_𝑘𝑒Ḭ_𝑘 respectivamente ,para cada uno de las clases de la ecuación (32) simplemente dice que todos los elementos de partición distintos de cero en cada columna de la partición de clasificación difusa, Ṵ,suma a la unidad, el siguiente ejemplo sirve para ilustrar las ecuaciones 29 y 32.

Ejemplo:

Supongamos que hemos calculado las siguientes medidas de distancia para un paso en nuestro algoritmo iterativo para un problema de clasificación que involucra tres clases y cinco datos. Los valores de la tabla son números simples para facilitar la ilustración, la contabilidad parámetros 𝐼_𝑘𝑒Ḭ_𝑘, donde 𝑘 = 1,2,3,4,5 se dan a continuación, como ilustración.

Tabla1

Medidas de distancia (c=3, n=5)

𝑑11= 1 𝑑21 = 2 𝑑31= 3

𝑑₁₂= 0 𝑑₂₂= 0,5 𝑑₃₂= 1

𝑑₁₃= 1 𝑑₂₃ = 0 𝑑₃₃= 0

𝑑₁₄= 3 𝑑₂₄ = 1 𝑑₃₄= 1

𝑑₁₅= 0 𝑑₂₅ = 4 𝑑₃₅= 0

Fuente: J. Ross Timothy (2010)

(23)

22 Uso de las ecuaciones (30) y (31)

𝐼₁= 𝜙 Ḭ₁= {1,2,3} − 𝜙 = {1,2,3}

𝐼₂ = {1} Ḭ₂= {1,2,3} − {1} = {2,3}

𝐼3= {2,3} Ḭ3= {1,2,3} − {2,3} = {1}

𝐼₄= 𝜙 Ḭ₄ = {1,2,3} − 𝜙 = {1,2,3}

𝐼₅= {1,3} Ḭ₅= {1,2,3} − {1,3} = {2}

Ahora, se ilustran las ecuaciones 29 y 32:

Para el punto de datos 1:𝑢₁₁, 𝑢₂₁, 𝑢₃₁≠ 𝜙 𝑦 𝑢₁₁, 𝑢₂₁, 𝑢₃₁= 1 Para el punto de dato 2: 𝑢₁₂= 0 𝑢₂₂, 𝑢₃₂≠ 0 𝑦 𝑢₂₂, 𝑢₃₂= 1 Para el punto de dato 3: 𝑢₁₃= 1 𝑦 𝑢₂₃, 𝑢₃₃= 0

Para el punto de dato 4: 𝑢₁₄, 𝑢₂₄, 𝑢₃₄ ≠ 0 𝑦 𝑢₁₄+ 𝑢₂₄+ 𝑢₃₄ = 1 Para el punto de dato 5: 𝑢₂₅= 1 𝑦 𝑢₁₅ = 𝑢₃₅= 0

El algoritmo dado en la ecuación (25) función de mínimos cuadrados, donde el parámetro n es el número de conjuntos de datos y c es el número de clases(particiones) en las que uno está tratando de clasificar los conjuntos de datos.

La distancia al cuadrado,𝑑_𝑖𝑘² es entonces ponderado por una medida (𝑢_𝑖𝑘)^𝑚^′, de la pertenencia de 𝑥_𝑘 al grupo i .El valor de 𝐽_𝑚 es entonces una medida de la suma de todos los errores cuadráticos ponderados; este valor minimiza entonces con respecto a dos funciones de restricción. Primero 𝐽_𝑚 se minimiza con respecto a los errores cuadrados de cada clúster es decir para cada valor especifico de simultáneamente, la distancia entre el clúster centros se maximiza, es decir ,max|𝑣_𝑖− 𝑣_𝑗| , 𝑖 ≠ 𝑗.

Como se indicó, el rango para el exponente de membresía es 𝑚^′𝜀[1, ∞).Para el caso 𝑚^′ = 1, la norma de distancia es euclidiana y el algoritmo FCM se aproxima a un algoritmo HCM, es decir , solo salen ceros y unos de agrupamiento. Por el contrario 𝑚^´ → ∞, el valor de la función 𝐽_𝑚→ 0.

Este resultado parece intuitivo, porque los valores de pertenencia son números menor o igual a 1 y grandes potencias de fracciones menores a 1 se aproximan a 0. En general la 𝑚^′más grande es cuanto más confusas sea las asignaciones de pertenencia del agrupamiento; por lo contrario como 𝑚^´ → 1,los valores de agrupamiento se vuelven duros , es decir 0 o1.El exponente 𝑚^′ por lo tanto controla el grado de participación compartida entre grupos difusos. Si todos los demás parámetros algorítmicos son fijos, luego aumentan 𝑚^′ resultará en la disminución de 𝐽_𝑚.No hay elección optima teórica de 𝑚^′ ha surgido en la literatura. Sin embargo, la mayor parte de la literatura parece reportar valores en el rango 1.25-2.La convergencia del algoritmo tiende a ser más lenta a medida que el valor de 𝑚^′ aumenta.

El algoritmo descrito aquí puede ser notablemente preciso y robusto en el sentido de que malas conjeturas para la matriz de partición Ṵ⁽⁰⁾se puede superar rápidamente, como se ilustra en el siguiente ejemplo.

(24)

23 Ejemplo

Continuando con el ejemplo de ingeniería química en un convertidor catalítico como se muestra en la figura 1 podemos ver que una representación visual de estos puntos en el espacio de características 2D(m=2) hace que sea fácil para los humanos agrupar los datos en dos clases convenientes basadas de la proximidad de los puntos entre sí .El método de clasificación difusa generalmente converge con bastante rapidez, incluso cuando la estimación inicial de la partición difusa es bastante pobre, en un sentido de clasificación. El método de optimización iterativa difusa para este caso procedería como sigue.

Usando 𝑈^∗del ejemplo anterior como la partición difusa inicial,Ṵ⁽⁰⁾,suponiendo un factor de ponderación de m=2 y un criterio de convergencia de 𝜀𝐿= 0.01 ,es decir:

|𝑢_𝑖𝑘^(𝑟+1)− 𝑢_𝑖𝑘^(𝑟)| ≤ 0.01

𝑚𝑎𝑥𝑖.𝑘

Queremos determinar la partición difusa Ṵ^∗.Para empezar, la partición difusa inicial es:

Ṵ⁽⁰⁾= [1 1 0 0 1 0

0 1]

Calcular los centros de conglomerados iniciales usando la ecuación (27), donde m’=2 𝑣_𝑖𝑗=∑^𝑛_𝑘=1(𝑢_𝑖𝑘)². 𝑥_𝑘𝑗

∑^𝑛_𝑘=1(𝑢_𝑖𝑘)² Donde c=1

𝑣_1𝑗=𝑢₁²𝑥_1𝑗+ 𝑢₂²𝑥_2𝑗+ 𝑢₃²𝑥_3𝑗+ 𝑢₄²𝑥_4𝑗 𝑢₁²+ 𝑢₂²+ 𝑢₃²+ 𝑢₄²

=⁽¹⁾

2𝑥_1𝑗+(1)²𝑥_2𝑗+(1)²𝑥_3𝑗+(0)²𝑥_4𝑗 (1)²+(1)²+(1)²+(0)²

𝑣₁₁=1 + 1.5 + 1.3

3 = 1.26 → 𝑥

𝑣₁₂=3 + 3.2 + 2.8

3 = 3 → 𝑦

} → 𝑣₂ = {1.26, 3}

Para c=2

𝑣_2𝑗 𝑜 𝑣_𝑗= 𝑥_4𝑗

0 + 0 + 0 + 1 , 𝑐𝑜𝑛 𝑥₂₁= 𝑥₂₂= 𝑥₂₃ = 0

𝑣₂₁ =3

1= 3 → 𝑥 𝑣22=1

1= 1 → 𝑦

} → 𝑣₂ = {3, 1}

Encontrar las medidas de distancia (distancia de cada punto de datos desde cada centro de clúster) Utilizando la ecuación (26):

𝑑₁₁= √(1 − 1.26)²+ (3 − 3)²= 0.26 𝑑₂₂= √(1 − 3)²+ (3 − 1)²= 2.82 𝑑₁₂= √(1.5 − 1.26)²+ (3.2 − 3)²= 0.31 𝑑₂₂= √(1.5 − 3)²+ (3.2 − 1)²= 2.66

𝑑13 = √(1.3 − 1.26)²+ (2.8 − 3)²= 0.2 𝑑22= √(1.3 − 3)²+ (2.8 − 1)²= 2.47 𝑑14= √(3 − 1.26)²+ (1 − 3)²= 2.65 𝑑22 = √(3 − 3)²+ (1 − 1)²= 0

Medidas de distancias, ahora podemos actualizar Ṵ utilizando las ecuaciones 30 – 32(para m’=2), tenemos:

(25)

24 𝑢_𝑖𝑘^(𝑟+1)= [∑(𝑑_𝑖𝑘^(𝑟)

𝑑_𝑗𝑘^(𝑟))²]⁻¹

𝑐

𝑗=1

Obtenemos:

𝑢₁₁= [∑(𝑑₁₁ 𝑑𝑗1

)²]⁻¹= [(𝑑₁₁ 𝑑11

)²+ (𝑑₁₁ 𝑑21

)²]⁻¹= [(0.26 0.26

𝑐

𝑗=

)²+ (0.26

2.82)²]⁻¹= 0.991 𝑢12= [(𝑑₁₂

𝑑₁₂)²+ (𝑑₁₂

𝑑₂₂)²]⁻¹= [1 + (0.31

2.66)²]⁻¹= 0.986 𝑢₁₃= [(𝑑₁₃

𝑑₁₃)²+ (𝑑₁₃

𝑑₂₃)²]⁻¹= [1 + (0.20

2.47)²]⁻¹= 0.993 𝑢₁₄= [(𝑑14

𝑑₁₄)²+ (𝑑14

𝑑₂₄)²]⁻¹= [1 + (0.31

0 )²]⁻¹→ 0 𝑝𝑎𝑟𝑎 𝐼₄≠ 𝜙 Usando la ecuación (17) para los otros valores de partición,𝑢_2𝑗,para j=1,2,3,4 . Las funciones de membresía forman una partición difusa, que se da como:

Ṵ⁽¹⁾= [0.991 0.986

0.009 0.014 0.993 0 0.007 1]

Para determinar si hemos logrado la convergencia, elegimos una norma matricial ‖𝑡𝑎𝑙 como el valor absoluto máximo de las comparaciones por pares de cada uno de los valores en Ṵ⁽⁰⁾ 𝑦 Ṵ⁽¹⁾ por ejemplo:

|𝑢_𝑖𝑘⁽¹⁾− 𝑢_𝑖𝑘⁽⁰⁾

𝑚𝑎𝑥𝑖,𝑘 | = 0.0134 > 0.01

Este resultado sugiere que nuestros criterios de convergencia aún no se han satisfecho, por lo que necesitamos otra iteración del método.

Para la siguiente iteración, procedemos calculando nuevamente los centros de los conglomerados, pero ahora usando valores de la última partición difusa, Ṵ⁽¹⁾ para c=1.

𝑣_1𝑗=(0.991)²𝑥1𝑗+ (0.986)²𝑥2𝑗+ (0.993)²𝑥3𝑗+ (0)²𝑥4𝑗

0.991²+ 0.986²+ 0.993²+ 0

𝑣₁₁=0.98(1) + 0.97(1.5) + 0.99(1.3)

2.94 =3.719

2.94 ≈ 1.26 𝑣₁₂=0.98(3) + 0.97(3.2) + 0.99(2.8)

2.94 =8.816

2.94 ≈ 3.0

} → 𝑣₁= {1.26, 3.0}