UNIVERSIDAD CENTRAL MARTA ABREU DE LAS VILLAS

Texto completo

(1)

UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS

FACULTAD DE MATEMÁTICA, FÍSICA Y COMPUTACIÓN

CENTRO DE ESTUDIOS DE INFORMÁTICA

Análisis del comportamiento de la consistencia de los datos transformados mediante funciones

kernels.

Tesis de Diploma

Licenciatura en Ciencia de la Computación

Autor: Jorge L García

Tutores: Dr. Carlos Morell

Dr. Rafael Bello

(2)

Hago constar que el presente trabajo fue realizado en la Universidad Central Marta Abreu de Las Villas como parte de la culminación de los estudios de la especialidad de Ciencia de la Computación, autorizando a que el mismo sea utilizado por la institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos ni publicado sin la autorización de la Universidad.

Firma del autor

Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según acuerdos de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.

___________________ ____________________

Firma del tutor Firma del jefe del Laboratorio

(3)

Agradecimientos

A todos los que siempre me apoyaron especialmente a mi familia y mis amigos que siempre han estado conmigo en las buenas y en las malas.

(4)

Dedicatoria

A toda mi familia

(5)

RESUMEN

RESUMEN

Las Máquinas de Vectores de Soporte han significado un hito importante al proveer un algoritmo con un comportamiento excelente en comparación con otros algoritmos a la vez que tiene una sólida fundamentación matemática. Los rasgos que distinguen su formulación son el uso del concepto de margen como medida de calidad y el uso de funciones kernels para lidiar con conjuntos de datos no separables linealmente. Por ello resulta interesante estudiar, si existe un cambio sustancial en la calidad de la clasificación y la relación de la medida Calidad de la Similaridad de la Teoría de los Conjuntos Aproximados con el comportamiento de otros algoritmos al transformar el espacio de representación de los ejemplos de aprendizaje mediantes funciones kernel.

Se realizó un análisis del cambio en el grado de consistencia de los datos y la calidad del conocimiento adquirido después de esta transformación.

(6)

ABSTRACT

ABSTRACT

Support Vector Machines have been a significant milestone in testing an algorithm with excellent behavior compared to other algorithms while having a strong mathematical foundation. The distinguishing features of its formulation are the use of the concept of margin as the measure of quality and the use of kernels functions to deal with non-linear separable data sets. Therefore it is interesting to study if there is a substantial change in the quality of the classification and the relationship of the measure Quality of the similarity of the Rough Set Theory with the behavior of other algorithms when transforming the space of the representation of the examples through kernel functions.

An analysis is made of the change in the degree of consistency of the data and the quality of knowledge acquired after this transformation.

(7)

TABLA DE CONTENIDOS

TABLA DE CONTENIDOS

1 INTRODUCCIÓN ... 1

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS. ... 5

1.1 Las Máquinas de Soporte Vectorial (SVM)... 5

1.1.1 SVM para clasificación binaria de ejemplos separables linealmente. ... 6

1.1.2 SVM para clasificación binaria de ejemplos no separables linealmente. ... 8

1.2 Teoría de los conjuntos aproximados ... 10

1.2.1 Principales definiciones de la Teoría de los Conjuntos Aproximados ... 13

1.2.2 La Teoría de los Conjuntos Aproximados: extensiones ... 17

2 CAPITULO 2. ANÁLISIS DE LA CONSISTENCIA DE CONJUNTOS DE DATOS TRANSFORMADOS MEDIANTE KERNELS ... 21

2.1 Proceso de análisis de la consistencia de los datos. ... 21

2.1.1 Transformación de los datos mediante funciones kernels. ... 22

2.1.2 Características de los datasets... 23

2.1.3 Implementación de la medida Calidad de la similaridad ... 24

2.1.4 Resultados del cálculo de la consistencia de los datos. ... 24

2.1.5 Análisis del cambio del grado de consistencia de los datos ... 25

2.2 Conclusiones Parciales ... 26

3 CAPÍTULO 3. ANÁLISIS DE LA RELACIÓN ENTRE EL CAMBIO EN EL GRADO DE CONSISTENCIA Y LA CALIDAD DE LA CLASIFICACIÓN EN LOS MODELOS TRANSFORMADOS ... 28

3.1 Análisis del cambio en la calidad de los modelos aprendidos en los espacios transformados. ... 28

3.2 Análisis por kernels de la relación entre el grado de consistencia y la calidad de la clasificación. ... 31

3.2.1 Kernel RBF ... 31

3.2.2 Kernel Polinomial de grado 2 ... 32 ii

(8)

TABLA DE CONTENIDOS

3.2.3 Kernel Polinomial de grado 3 ... 34

3.3 Conclusiones parciales ... 35 4 CONCLUSIONES ... 36 5 RECOMENDACIONES ... 37 6 BIBLIOGRAFÍA ... 38 7 ANEXOS ... 40 iii

(9)

LISTA DE FIGURAS

LISTA DE FIGURAS

Figura 1 : Ejemplos de hiperplanos de separación ... 6

Figura 2: Ejemplo de un hiperplano de margen máximo ... 7

Figura 3: Conjunto de ejemplos no separables linealmente ... 8

Figura 4: Con junto de ejemplos transformados ... 9

Figura 5 : Proceso utilizado para el análisis de la consistencia de los datos ... 22

Figura 6: Proceso utilizado para el análisis de la calidad de la clasificación ... 29

(10)

LISTA DE TABLAS

LISTA DE TABLAS

Tabla 1 : Ejemplo de Sistema de Información. ... 14 Tabla 2: Características de los dataset usados ... 23 Tabla 3 : Resultados del cálculo de la consistencia ... 25 Tabla 4: Resultados cualitativos del análisis del cambio del grado de consistencia de los datos ... 26 Tabla 5 : Resultados del análisis del cambio del grado de consistencia de los datos por diferencia entre la consistencia antes y después de la transformación ... 26 Tabla 6: Resultados del Análisis de la calidad de los modelos aprendidos usando el clasificador Logistic Regresion ... 30 Tabla 7 : Análisis cualitativo del cambio en cuanto a calidad de la clasificación por kernels .. 30 Tabla 8 Relación entre el cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel RBF ... 31 Tabla 9 Relación entre la magnitud del cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel RBF ... 32 Tabla 10 Relación entre el cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel Polinomial de grado 2 ... 33 Tabla 11 Relación entre la magnitud del cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel Polinomial de grado 2 ... 33 Tabla 12 Relación entre el cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel Polinomial de grado 3 ... 34 Tabla 13 Relación entre la magnitud del cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel Polinomial de grado 3 ... 35

(11)

INTRODUCCIÓN

1 INTRODUCCIÓN

Cuando nos relacionamos con problemas del mundo real, raramente podemos evitar la incertidumbre. A nivel empírico, la incertidumbre es una compañía inseparable de casi cualquier medida, resultante de una combinación de inevitables errores de medición y limites en la resolución de los instrumentos. A nivel cognitivo, ésta emerge de la vaguedad y ambigüedad inherente al lenguaje natural.

Entre las formas de manifestarse la incertidumbre están la duda en la veracidad de una afirmación, la imprecisión de los datos, la incompletitud de los datos, la vaguedad de los conceptos o la inconsistencia de los datos. La inconsistencia describe una situación en la cual hay dos o más valores en conflicto para ser asignados a una variable. La inconsistencia aparece cuando objetos diferentes que son descritos por los mismos atributos de condición, es decir son inseparables según esos atributos, se clasifican en clases diferentes por los expertos. En 1982 el profesor Zdzislaw Pawlak publicó un artículo en el cual presentó los conjuntos aproximados inferior y superiormente (rough sets), el cual abrió una nueva dirección en el desarrollo de teorías sobre la información incompleta. Hoy la teoría de los conjuntos aproximados ha evolucionado hasta convertirse en una metodología para enfrentar una amplia variedad de problemáticas, entre ellas la incertidumbre motivada por información incompleta o imprecisa. En particular para enfrentar situaciones de incertidumbre motivadas por inconsistencias. Algunos estudios han demostrado que existe una relación entre ese grado de consistencia y la eficacia del conocimiento que se descubre.

Al subcampo de la Inteligencia artificial que estudia los métodos de solución de problemas de aprendizaje por las computadoras se le denomina Aprendizaje automatizado o Aprendizaje de máquina (Machine Learning, ML).

El aprendizaje puede tener diferentes fuentes de conocimiento. Una puede ser el propio humano, que actúe como tutor para que la computadora aprenda (por ejemplo, un concepto). Otra puede ser un conjunto de ejemplos de problemas resueltos del dominio de aplicación. El resultado del aprendizaje puede ser conocimiento explícito o implícito. Es explícito cuando 1

(12)

INTRODUCCIÓN

producto del proceso de aprendizaje se obtiene conocimiento en alguna forma, por ejemplo reglas u operadores; ejemplo de este tipo de aprendizaje es el algoritmo ID3 y sus descendientes. Es implícito cuando no se obtiene conocimiento explícito desde el conjunto de ejemplos pero este sirve para que la computadora pueda resolver nuevos problemas o alcanzar mejores soluciones; también denominado Aprendizaje Perezoso (Lazy learning). El razonamiento por analogía se puede ver como un ejemplo de éste.

Un ejemplo de aprendizaje explícito es el Aprendizaje Inductivo (AI), el cual es usado para adquirir conocimiento (formulado en forma de descripciones intencionales) a partir de ejemplos. La inducción se basa en hechos específicos (ejemplos) en lugar de axiomas generales como en la deducción. El objetivo de la inducción es formular afirmaciones que explican los hechos dados y se pueden aplicar a hechos no vistos con anterioridad. Estas afirmaciones pueden expresarse como patrones, y estos patrones se representan por vectores, ecuaciones, árboles, reglas, enunciados lógicos, etc. El conocimiento que se descubre puede ser de naturaleza descriptiva o predictiva. El conocimiento descriptivo constituye una generalización conceptual de un dominio. El conocimiento predictivo es aquel en el que los patrones descubiertos permiten determinar valores desconocidos a partir de valores conocidos, por ejemplo, reconocer membresía a una clase (clasificación) y calcular valores desconocidos (regresión).

Muchos problemas de inducción se pueden describir como sigue. Se parte de un conjunto de entrenamiento de ejemplos preclasificados, donde cada ejemplo (también llamado observación o caso) se describe por un vector de valores para rasgos o atributos, y el objetivo es formar una descripción que pueda ser usada para clasificar ejemplos previamente no vistos con alta precisión

Las Máquinas de Vectores de Soporte han significado un hito importante en la comunidad de Aprendizaje Automático al proveer un algoritmo con un comportamiento excelente en término de lograr tasas de error mínimo comparado con otros algoritmos a la vez que tiene una sólida fundamentación matemática. Las dos cambios fundamentales en su formulación han sido la inclusión del concepto de margen como medida de calidad y el uso de funciones kernels para lidiar con conjuntos de datos no separables linealmente. No está clara cuál es la responsabilidad de estos cambios en el buen comportamiento logrado. Por ello resulta

(13)

INTRODUCCIÓN

interesante estudiar, si existe un cambio sustancial en la calidad de la clasificación y la relación de la medida Calidad de la Similaridad de la Teoría de los Conjuntos Aproximados con la mejora o no de otros algoritmos al transformar el espacio de representación de los ejemplos de aprendizaje mediantes funciones kernel.

En este trabajo de diploma se propone estudiar como la combinación de la RST y las funciones kernels podría mejorar la calidad de los datos.

Objetivo general de la investigación:

Analizar, usando la teoría de los conjuntos aproximados, el efecto de la transformación de los datos provocada por el empleo de funciones kernel sobre el grado de consistencia de los conjuntos de entrenamientos y si este impacta la eficacia de los métodos de aprendizaje automático.

Para cumplir con el objetivo general se plantean los siguientes objetivos específicos:

1. Analizar el cambio del grado de consistencia de los datos en el espacio transformado, utilizando para ello medidas de la RST.

2. Analizar la calidad de los modelos aprendidos en el espacio transformado.

3. Determinar si los cambios en el grado de consistencia y en la calidad del aprendizaje están relacionados

Con esta investigación se pretende dar una justificación a los resultados obtenidos al aplicar SVM y además encontrar un criterio de comparación entre los distintos kernels.

La estructura de la tesis es la siguiente:

Capitulo I. Estudio de las Máquinas de Vectores de Soporte y la Teoría de los Conjuntos

Aproximados .Se analizará como las funciones kernels permiten transformar el espacio de entrada de forma implícita y como se puede calcular el grado de consistencia de un conjunto de datos usando la medida Calidad de la Similaridad

(14)

INTRODUCCIÓN

Capitulo II. Análisis de la consistencia de los datos transformados mediante funciones

kernels. Se mostrarán las principales características de los datasets utilizados y se analizará el cambio en el grado de consistencia de los datos.

Capitulo III. Análisis de la relación entre el cambio en el grado de consistencia de los datos y

la calidad de la clasificación de los modelos trasformados.

(15)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

CAPÍTULO 1.

MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y

TEORÍA DE LOS CONJUNTOS APROXIMADOS.

En el presente capítulo se presenta una descripción general de las máquinas de soporte Vectorial (SVM) y se describen las transformaciones de los datos mediante funciones kernels. Finalmente se muestran los principales conceptos y medidas de la teoría de conjuntos aproximados, tomando en cuenta tanto la teoría clásica como sus extensiones.

1.1 Las Máquinas de Soporte Vectorial (SVM)

Las máquinas de vectores de soporte (SVM, del inglés Support Vector Machine) tienen su origen en los trabajos sobre la teoría del aprendizaje estadístico y fueron introducidas en los años 90 por Vapnik y sus colaboradores ( Boser, Guyon and Vapnik, 1992; Cortes and Vapnik, 1995). Aunque originariamente las máquinas de vectores soporte fueron pensadas para resolver problemas de clasificación binaria, actualmente se utilizan para resolver otros tipos de problemas (regresión, agrupamiento, multiclasificación).

Dentro de la tarea de clasificación, las Máquinas de Soporte Vectorial pertenecen a la categoría de los clasificadores lineales, puesto que inducen separadores lineales, también llamados hiperplanos.

Mientras la mayoría de los métodos de aprendizaje se centran en minimizar los errores cometidos por el modelo generado a partir de los ejemplos de entrenamiento (error empírico), el sesgo inductivo asociado a las Maquinas de Soporte vectorial radica en la minimización del denominado riesgo estructural. La idea es seleccionar un hiperplano de separación que equidista de los ejemplos más cercanos de cada clase para, de esta forma, conseguir lo que se denomina un margen máximo a cada lado del hiperplano.(Suárez, 2014).

(16)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

1.1.1 SVM para clasificación binaria de ejemplos separables linealmente.

Dado un conjunto de n datos linealmente separables {(𝑥1, 𝑦1), (𝑥2, 𝑦2), … , (𝑥𝑛, 𝑦𝑛)} donde 𝒙𝒊 ∈ 𝑅𝑑 e 𝑦𝑖= {-1,1} se define un hiperplano de separación como una función lineal que es

capaz de separar dicho conjunto:

𝐷 (𝒙) = (𝑤1𝑥1+ ⋯ + 𝑤𝑑𝑥𝑑) + 𝑏 =< 𝒘, 𝒙 > +𝑏

Donde 𝑤𝑖 ∈ ℝ ∀𝑖= 1, … , 𝑑 𝑦 𝑏 ∈ ℝ.

El hiperplano deberá cumplir las siguientes condiciones:

< 𝒘, 𝒙𝒊 > +𝑏 ≥ 0 Si 𝑦𝑖 = +1 ∀𝑖= 1, … , 𝑛

< 𝒘, 𝒙𝒊 > +𝑏 ≤ 0 Si 𝑦𝑖 = −1 ∀𝑖= 1, … , 𝑛

O lo que escrito de forma simplificada:

𝑦𝑖𝐷 (𝒙𝒊) ≥ 0 Si ∀𝑖= 1, … , 𝑛

Como se muestra en la figura 1 pueden existir infinitos hiperplanos 𝐷 (𝑥) que cumplan esas condiciones.

Figura 1 : Ejemplos de hiperplanos de separación

(17)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

Para buscar el hiperplano de separación óptimo se define como margen de un hiperplano como la mínima distancia entre dicho hiperplano y el ejemplo más cercano de cualquiera de las dos clases y se denotara como 𝜏.

A partir de esta definición se denominara óptimo si su margen es de tamaño máximo (figura2).

Este hiperplano de margen máximo cumple la propiedad de ser único y equidistar a cada una de las clases que separa.

En (Guareño and José, 2016) se plantea que encontrar el hiperplano de margen máximo equivale a resolver el problema primal:

min 12 ||w||2

S.a

.

𝑦𝑖(< 𝒘, 𝒙𝒊 > +𝑏) − 1 ≥ 0 𝑖 = 1, … , 𝑛

Cuyo problema dual asociado sería

max: � 𝛼

𝑖 n i=1

1

2 � 𝛼

𝑖

𝛼

𝑗

𝑦

𝑖

𝑦

𝑗 n i,j=1

< x

i

, x

j

>

Figura 2: Ejemplo de un hiperplano de margen máximo

(18)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

s. a. :

∑ 𝛼

ni=1 𝑖

𝑦

𝑖

= 0

𝛼

𝑖

≥ 0, 𝑖 = 1, … , 𝑛

1.1.2 SVM para clasificación binaria de ejemplos no separables

linealmente.

En un problema real es muy difícil encontrar un conjunto con dos clases totalmente separables. Para resolver la clasificación de este tipo de conjuntos no separables linealmente se realiza una transformación no lineal de nuestro conjunto en un espacio de dimensión mayor donde si sean separables, y en este nuevo espacio buscar el hiperplano de separación. Este espacio se denomina espacio de características. En la figura 3 se muestra un conjunto de ejemplos no separables linealmente:

Figura 3: Conjunto de ejemplos no separables linealmente

Al transformar cada ejemplo 𝑥 = (𝑥1, 𝑥2) usando la función de transformación

Φ = �𝑥12, √2𝑥1∗ 𝑥2, 𝑥22� obtenemos un nuevo conjunto de datos linealmente separables.

(19)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

Figura 4: Con junto de ejemplos transformados

La complejidad de estas funciones de transformación depende de la dimensión en la que se encuentran los ejemplos.

Al evaluar el producto interno en el nuevo espacio quedaría

< Φ(𝑥), Φ(𝑧) >=< �𝑥12, √2𝑥1𝑥2, 𝑥22�, �𝑧12, √2𝑧1𝑧2, 𝑧22� >

= 𝑥12𝑧12 + 𝑥22𝑧22+ 2𝑥1𝑥2𝑧1𝑧2

= (𝑥1𝑧1+ 𝑥2𝑧2)2

=< 𝒙, 𝒛 >2

Este producto escalar es mucho más fácil de calcular que evaluar la función de transformación de forma explícita sobre todo en problemas de alta dimensionalidad. A raíz de ello surge el concepto defunción kernel o función núcleo

Definición 1. Función Kernel

Dada una función Φ: X ⊂ ℜd → H, donde a todo ejemplo {𝒙𝟏, … , 𝒙𝒏} del espacio de entradas se hace corresponder un nuevo ejemplo {𝚽(𝐱𝟏), … , 𝚽(𝐱𝐧)} en el espacio transformado, una función k(𝒙, 𝒙′) se denominará función kernel si k(𝒙, 𝒙′) =< 𝜱(𝒙), 𝜱(𝒙′) > ∀ 𝑥, 𝑥′ ∈ X Siguiendo esta definición y volviendo al problema dual definido en el epígrafe anterior como:

(20)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS. max: � 𝛼𝑖 n i=1 −12 � 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗 n i,j=1 < xi, xj > s. a. : ∑ 𝛼ni=1 𝑖𝑦𝑖 = 0 𝛼𝑖 ≥ 0, 𝑖 = 1, … , 𝑛

Sólo es necesario conocer la función kernel para resolver el algoritmo y no se necesita tener la forma explícita de la aplicación 𝛷. Si se reemplazara < 𝒙𝒊, 𝒙 > por 𝑘(𝒙𝒊; 𝒙) en la solución de los problemas de optimización se habrá conseguido una máquina de vectores soporte planteada en un nuevo espacio:

max: � 𝛼𝑖 n i=1 −12 � 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗 n i,j=1 k(𝒙, 𝒙′) s. a. : ∑ 𝛼ni=1 𝑖𝑦𝑖 = 0 𝛼𝑖 ≥ 0, 𝑖 = 1, … , 𝑛 Algunas de las funciones kernels más utilizadas son:

 Kernel Lineal: 𝐾(𝒙, 𝒛) =< 𝒙, 𝒛 >

 Kernel Polinomial: 𝐾(𝒙, 𝒛) = (< 𝒙, 𝒛 > +𝑐)𝑑  Kernel Gaussiano o RBF: 𝐾(𝒙, 𝒛) = exp ��|𝒙−𝒛|�2

2𝜎2 �

Para este trabajo se utilizará el kernel polinomial de grados 2 y 3, además del kernel RBF

1.2 Teoría de los conjuntos aproximados

La Teoría de Conjuntos Aproximados (Rough Sets Theory, RST) fue introducida por Z. Pawlak en 1982 (Pawlak, 1982). Esta teoría se considera como una de las áreas claves y no tradicionales de la Inteligencia Artificial y de la Teoría de la Información Incompleta, pues 10

(21)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

constituye una herramienta muy útil para el manejo de la información no completa o imprecisa (Skowron and Swiniarski, 2005; Slezak and Ziarko, 2005; Cheng et al., 2009). La RST se ha usado para la generación de reglas y la selección de atributos(Cheng et al., 2009), entre otras aplicaciones.

La filosofía de los conjuntos aproximados está basada en la suposición de que con todo objeto de un universo U está asociada una cierta cantidad de información (datos y conocimiento), expresado por medio de algunos atributos usados para describir el objeto. Todo el conocimiento sobre el modelo se expresa mediante un Sistema de Decisión; este sistema puede ser innecesariamente grande, en parte porque es redundante en al menos dos formas; primero, el mismo objeto u objetos idénticos (según alguna relación) pueden aparecer varias veces o, segundo, algunos de los atributos que describen los objetos del universo son superfluos.

Informalmente se pueden definir los conjuntos aproximados de la forma siguiente:

Los objetos que tienen la misma descripción son inseparables (similares) con respecto al conjunto de atributos considerados. Esta relación de inseparabilidad constituye la base matemática de la teoría, y la misma induce una partición del universo U en bloques de objetos inseparables. Cualquier subconjunto X del universo U se puede expresar en términos de estos bloques de forma exacta o aproximada. En el último caso el conjunto X se puede caracterizar por dos conjuntos ordinarios denominados aproximación inferior y aproximación superior. La aproximación inferior de X está formada por todos los bloques que son subconjuntos de X, y la aproximación superior consiste de todos los bloques que tienen una intersección no vacía con X.

A la aproximación inferior de X pertenecen los objetos que con certeza pertenecen a X, a la aproximación superior pertenecen los objetos que pudieran pertenecer a X, y en el conjunto diferencia de ambos conjuntos están los objetos que no se puede determinar con certeza su pertenencia a X. La cardinalidad de este conjunto diferencia se puede usar como una medida de la vaguedad de la información sobre X.

(22)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

Los dos principios principales del análisis de conjuntos aproximados son:

•En el curso del análisis solamente los datos dados en el sistema de información son procesados. Estos datos constituyen una información explícita ofrecida por el usuario. Ningún parámetro externo a estos datos (por ejemplo, grados de certidumbre) es necesitado. Tampoco es necesario establecer ninguna presuposición.

•La principal herramienta del análisis son las relaciones entre los items de datos derivadas de la información explícita. Estas relaciones son la información implícita que debe ser revelada en el curso del análisis.

Los principales problemas que se pueden enfocar usando la teoría de los conjuntos aproximados incluyen reducción de datos, descubrimiento de dependencias entre datos, estimación de la significación de los datos, generación de algoritmos de decisión o control a partir de datos, clasificación aproximada de datos, descubrimiento de similaridades o diferencias en los datos, descubrimiento de patrones, descubrimiento de relaciones de causa-efecto. En particular, los conjuntos aproximados han tenido una interesante aplicación en la medicina, negocios, diseño de ingeniería, meteorología, análisis de vibraciones, análisis de conflictos, procesamiento de imágenes, reconocimiento de la voz, reconocimiento de caracteres, análisis de decisión, etc.

Su aplicabilidad en el análisis de datos está dada entre otras razones porque es posible tratar tanto con datos cuantitativos como cualitativos, y no se requiere eliminar las inconsistencias previo al análisis; respecto a la información de salida puede ser usada para determinar la relevancia de los atributos, generar las relaciones entre ellos (en forma de reglas), etc... Además, no son necesarias suposiciones sobre la independencia de los atributos ni ningún otro conocimiento sobre la naturaleza de los datos, como sucede, por ejemplo, en el enfoque Bayesiano (Tay and Shen, 2002).

En este epígrafe se describirán los conceptos fundamentales de los Conjuntos Aproximados, tanto para el caso clásico como para el enfoque basado en relaciones de similitud.

(23)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

1.2.1 Principales definiciones de la Teoría de los Conjuntos Aproximados

La filosofía de los conjuntos aproximados se basa en la suposición de que con todo objeto x de un universo U está asociada una cierta cantidad de información (datos y conocimiento), expresado por medio de algunos atributos que describen el objeto.

Los objetos que tienen la misma descripción son inseparables (similares) con respecto al conjunto de atributos considerados. Esta relación de inseparabilidad constituye la base matemática de la teoría, y la misma induce una partición del universo U en bloques de objetos inseparables.

Cualquier subconjunto X del universo U se puede expresar en términos de estos bloques de forma exacta o aproximada. En el último caso el conjunto X se puede caracterizar por dos conjuntos ordinarios denominados aproximación inferior y aproximación superior. La aproximación inferior de X está formada por todos los bloques que son subconjuntos de X, y la aproximación superior consiste de todos los bloques que tienen una intersección no vacía con X.

A la aproximación inferior de X pertenecen los objetos que con certeza pertenecen a X, a la aproximación superior pertenecen los objetos que pudieran pertenecer a X, y en el conjunto diferencia de ambos conjuntos están los objetos que no se puede determinar con certeza su pertenencia a X.

La cardinalidad (cantidad de objetos) de este conjunto diferencia se puede usar como una medida de la vaguedad de la información sobre X.

Diversos modelos computacionales operan sobre colecciones de datos, en cada caso esta colección tiene sus características, sobre todo organizativas, y recibe una denominación particular. Por ejemplo, para un Gestor de bases de datos esa colección es una base de datos, para una Red Neuronal artificial es un conjunto de entrenamiento. En el caso de la Teoría de los conjuntos aproximados la estructura de información básica es el Sistema de información.

Definición 1. Sistema de Información.

Sea un conjunto de atributos A={a1, a2,…,an} y un conjunto U no vacío llamado universo de

ejemplos (objetos, entidades, situaciones o estados) descritos usando los atributos en A; al par (U,A) se le denomina Sistema de información(Komorowski et al., 1999). Si a cada elemento 13

(24)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

de U se le agrega un nuevo atributo d llamado decisión, indicando la decisión tomada en ese estado o situación, entonces se obtiene un Sistema de decisión (U, A{d}), donde dA. En la tabla 1.2 se muestra un ejemplo de Sistema de información (S.I.), su universo está formado por seis objetos, los cuales se describen por el conjunto de atributos A= {(1) Dolor de cabeza, (2) Dolor muscular, (3) Temperatura, (4) Gripe}

Paciente Dolor de cabeza Dolor muscular Temperatura Gripe

P1 no si alta Si P2 si no alta Si P3 si si muy alta Si P4 no si normal No P5 si no alta No P6 no si muy alta Si

Tabla 1 : Ejemplo de Sistema de Información.

Definición 2. Función de información

A cada atributo ai se le asocia un dominio vi. Se tiene una función f: UxAV, V={v1,v2,…,vn}

tal que f(x,ai)vj para cada ai∈A, xU, llamada función de información(Komorowski et al.,

1999).

El atributo de decisión d induce una partición del universo U de objetos. Sean los conjuntos Yi= {xU: x (d)=i}, entonces {Y1,…, Yb} es una colección de clases de equivalencias,

llamadas clases de decisión, donde dos objetos pertenecen a la misma clase si ellos tienen el mismo valor para el atributo decisión.

Se dice que un atributo ai ∈A separa o distingue un objeto x de otro y, y se escribe Separa

(ai, x, y), si y solo si se cumple:

( ) ( )

a

i

f

a

i

f

x

,

y

,

(1.1)

(25)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

Aunque de forma simplificada se define de la siguiente forma:

𝒙(𝑖) ≠ 𝒚(𝑖) (1.2)

Donde x (i) denota el valor del rasgo i en el objeto x.

La relación de separabilidad se basa en la comparación de los valores de un atributo, para lo cual se ha usado la igualdad (o desigualdad) estricta. Sin embargo, es posible usar una condición de comparación menos estricta definida de esta forma:

(

a ,x,y

)

⇔ x(i)−y(i) >

ε

Separa i

Definición 3. Sistema de Decisión.

Si a cada elemento de U se le agrega un nuevo atributo d llamado decisión indicando la decisión tomada en ese estado o situación entonces se obtiene un Sistema de decisión (U, A∪{d}, donde d∉A).

El valor de la decisión puede representar un número de la clase en la cual clasificar el objeto, mientras que en un sistema de control la decisión significa una acción que se debe ejecutar en el estado descrito por el objeto, entre otras alternativas de interpretación. La tabla 1.1 es un ejemplo de Sistema de decisión.

El atributo de decisión d induce una partición del universo de objetos U. Sea Vd el conjunto de enteros {1,...m}, entonces {X1,..., Xm} es una colección de clases de equivalencias, llamadas clases de decisión, donde dos objetos pertenecen a la misma clase si ellos tienen el mismo valor para el atributo decisión.

Para el sistema de información de la tabla 1.2 las clases de decisión son {{P1, P2, P3, P6}, {P4, P5}}.

Usualmente son estas clases de decisión las que se quieren analizar como conjuntos aproximados.

(1.3)

(26)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

Definición 4. Relación de inseparabilidad

A cada subconjunto de atributos B de A, BA, está asociada una relación binaria de inseparabilidad denotada por R, la cual es el conjunto de pares de objetos que son inseparables uno de otro por esa relación(Komorowski et al., 1999).

( )

{

,

U

U

:

(

i

)

(

i

)

a

B

}

R

=

x

y

x

x

=

y

i

(1.4)

Una relación de inseparabilidad (indiscernibility relation) que sea definida a partir de formar subconjuntos de elementos de U que tienen igual valor para un subconjunto de atributos B de A, B

A, es una relación de equivalencia.

Los conceptos básicos de RST son los conceptos de aproximación inferior y superior. Una definición clásica de aproximación inferior y superior fue originalmente introducida con referencia a una relación de inseparabilidad, la cual es una relación de equivalencia.

Sea DS = (U, A ∪ {d}) un sistema de decisión, y B⊆A y X⊆U, B define una relación de equivalencia y el subconjunto X es un concepto en el universo U. X se puede aproximar usando sólo la información contenida en B mediante la construcción de la aproximaciones B-inferior y B-superior, denotadas por B*X y B*X respectivamente, y definidas por las expresiones 1.5 y 1.6

respectivamente.

X}

]

U:[

{

X

B

*

=

x

x

B

(1.5)

}

X

]

U:[

{

X

B

B *

=

φ

x

x

(1.6)

Donde

[x

]

B denota la clase de x de acuerdo a la relación de inseparabilidad B. Los objetos en

B*X son con certeza miembros de X, mientras los objetos en B*X son posiblemente miembros

de X. Basada en las aproximaciones, la RST ofrece la medida Calidad de la clasificación, definida por la expresión (1.7). Sea una partición Y= {Y1,…, Yb} de U de acuerdo a los valores

del rasgo de decisión x (d) (clases), donde los subconjuntos Yi, son llamados clase de decisión.

U Yi B ) Y ( b i * B

= = 1 γ (1.7) 16

(27)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

El coeficiente

γ

B

(Y

)

expresa el porciento de objetos que pueden ser clasificados correctamente en las clases Y1,..., Yb usando los rasgos en B solamente, donde b es la cantidad

de clases de decisión. Esta última medida puede ser usada para evaluar la consistencia de un sistema de decisión y realizar la selección de rasgos.

Definición 5. Inconsistencia

Un sistema de decisión es inconsistente (no determinístico) si objetos inseparables pertenecen a clases de decisión diferentes(Pawlak and Skowron, 2007), y en este caso el valor de la medida calidad de la clasificación es menor que 1.

En el caso del problema de selección de rasgos, esta medida puede ser usada para evaluar la calidad de un subconjunto de rasgos, (Skowron and Swiniarski, 2005).Un reducto es un conjunto minimal de atributos B� A tal que IND(B)=IND(A), los dos generan la misma partición del universo U, lo cual es equivalente a

γ

B

(

Y

)

=

γ

A

(

Y

)

.

Pero si el dominio del rasgo de decisión no es discreto, no se puede realizar una partición del universo en clases de decisión, de modo que no es posible usar la medida calidad de la clasificación para medir la consistencia del sistema.

1.2.2 La Teoría de los Conjuntos Aproximados: extensiones

En el caso de la RST se han seguido usualmente dos alternativas ante la presencia de datos: discretizar los datos o usar una extensión de la teoría. En el primer caso, el sistema de información original se transforma en otro donde es aplicable el enfoque clásico (Son and Hoa, 1999a, 1999b) .

En el segundo caso, el enfoque clásico de la RST es extendido mediante la aceptación que objetos que no son inseparables pero sí suficientemente cercanos o similares puedan ser agrupados en la misma clase(Vanderpooten, 1997) lo cual se corresponde con la cuarta alternativa antes mencionada.

En este caso es necesario usar otros tipos de relaciones de inseparabilidad entre los objetos del universo U. Remplazando la relación de equivalencia por una relación binaria más débil, es 17

(28)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

decir, donde alguna de las propiedades (reflexibilidad, simetría o transitividad) no se cumplen, se obtiene una extensión del enfoque clásico de la RST.

Una extensión del enfoque clásico de la RST se obtiene modificando el concepto de inseparabilidad entre objetos de modo que se agrupen en la misma clase los objetos similares, no idénticos, según una relación de semejanza R. Las relaciones de semejanza no inducen una partición del universo U, sino generan clases de semejanza para cualquier objetoxU . La clase de semejanza de

x

, de acuerdo a la relación de semejanza R se denota por R( x) y se define en (1.8).

{

y

y

x

}

x

U

R

R

(

)

=

:

(1.8)

Esta se lee como “el conjunto de objetos del universo U que son similares al objeto x de acuerdo a la relación R”. Un ejemplo es el caso de las relaciones de tolerancia (Skowron and Stepaniuk, 1996; Pal and Skowron, 1999), donde la relación RUxU es reflexiva (xR ) x para cualquier xU y simétrica (xRyyRx) para cualquier par x,yU.

Mientras que las relaciones de equivalencias inducen una partición del universo, las relaciones de semejanza inducen un cubrimiento del universo. Un cubrimiento del universo U es una familia de subconjuntos no vacíos cuya unión es igual al universo. Una partición de U es un cubrimiento, de modo que el concepto de cubrimiento es una extensión del concepto de partición.

Un ejemplo de una extensión de la RST basada en relaciones de semejanza fue presentada por (Slowinski and Vanderpooten, 2000) . Ellos definen las aproximaciones inferior y superior de un conjunto X de la forma siguiente. Sean XUy R una relación binaria y reflexiva sobre U . Entonces la aproximación inferior y superior se define como se muestra en las expresiones (1.9) y (1.10) respectivamente, donde R−1 denota la relación inversa de R.

{

U

R

X

}

X

R

*

(

)

=

x

:

−1

(

x

)

(1.9)

{

φ

}

=

X

R

U

X

R

*

(

)

x

:

1

(

x

)

(1.10)

En este caso el problema radica en encontrar una adecuada relación de similaridad para un sistema de decisión dado. Aquí aparece una limitación de la Teoría de los conjuntos

(29)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

aproximados, ya que en la mayoría de los problemas reales aparecen rasgos con dominio continuo, de modo que el enfoque clásico de la RST no es aplicable directamente, y el uso de las extensiones requiere formular las relaciones de similaridad, y estas no se construyen tan directamente como las relaciones de equivalencia.

En (CABRERA, 2011)se propone un método para superar esta limitación; el mismo se basa en definir una relación de semejanza, definida como xRy F(x,y)ε , x, y ∈ U, donde F(x,y) es una función de semejanza la cual puede ser definida como la expresión (1.11), y ε es un umbral (threshold). La función F(x,y) se define como:

( )

(

)

= ∂ = n i i i i F i 1 ) ( y ), ( x * ) ( w y , x (1.11)

Dónde: n es la cantidad de rasgos; w(i) es el peso del rasgo i; x(i), y(i) son los valores del rasgo i en los objetos x, y respectivamente; ∂i() es la función de comparación para el rasgo i.

Medida calidad de la similaridad para sistemas de decisión con datos mezclados.

Sea un sistema de decisión

DS

=

(

U,

A

{ }

d

)

donde A denota el conjunto de rasgos de condición y d el rasgo de decisión, y el dominio de los rasgos en A∪{d} pueden ser valores discretos o continuos, y sean las relaciones de similaridad R1 y R2 entre los objetos, definidas

de la forma siguiente. Para todo par de objetos (x, y) en UxU:

xR1y si y solo si F1(x,y)≥ε1 (1.12)

xR2y si y solo si F2(x,y)≥ε2 (1.13)

Donde F1 y F2 son funciones de semejanza para calcular el grado de similaridad entre pares de

objetos en el universo U; F1 considera los rasgos en A y F2 calcula la similaridad entre dos

objetos de acuerdo al valor del rasgo d; ε1 y ε2 son umbrales de semejanza que toman valores

entre 0 y 1.

Usando las relaciones R1 y R2 se definen los conjuntos de objetos N1 y N2 para cualquier

objeto x en el universo U según las expresiones (1.14) y (1.15), donde N1(x) y N2(x) son los

conjuntos de objetos similares a x de acuerdo a las relaciones R1 y R2 respectivamente:

(30)

CAPÍTULO 1. MÁQUINAS DE SOPORTE VECTORIAL, KERNELS Y TEORÍA DE LOS CONJUNTOS APROXIMADOS.

𝑁1(𝑥) = 𝑦 ∈ 𝑈: 𝑥𝑅1𝑦 (1.14)

𝑁2(𝑥) = 𝑦 ∈ 𝑈: 𝑥𝑅2𝑦 (1.15)

El problema de encontrar una relación de semejanza adecuada para la RST extendida consiste en encontrar las relaciones R1 y R2 que logran la mayor semejanza posible entre los conjuntos

N1 y N2, N1(x)≈N2(x), donde el símbolo (≈) denota la mayor similaridad posible entre los

conjuntos N1(x) y N2(x) dado los umbrales ε1 y ε2. El grado de similaridad entre estos

conjuntos se define por la expresión (1.16), la cual se basa en la medida coeficiente de similaridad Dice (Deza and Deza 2006):

𝜑(𝒙) = |𝑁1(𝒙)∩𝑁2(𝒙)|

0.5∗|𝑁1(𝒙)|+0.5∗|𝑁2(𝒙)| 0� ϕ(x)� 1 (1.16)

A partir de la expresión (1.16) la medida calidad de la similaridad del sistema de decisión 𝐷𝑆 = (𝑈, 𝐴 ∪ {𝑑})se define por la expresión (1.17):

( )

U ) ( DS = ∀

xU x ϕ θ (1.17)

El costo computacional de calcular esta medida es 𝑂(𝑚2𝑛 + 𝑚3), donde 𝑂(𝑚𝑛) representa el costo computacional de evaluar las funciones F1(x,y) y F2(x,y); lo cual es ligeramente superior

al costo de calcular la calidad de la clasificación según (1.7), el cual es 𝑂(𝑙𝑛𝑚2), considerando que el costo de calcular la aproximación inferior de un conjunto es 𝑂(𝑛𝑚2) donde n es la cantidad de rasgos, m la cantidad de objetos del universo y l la cantidad de clases.

(31)

CAPITULO 2. ANÁLISIS DE LA CONSISTENCIA SE CONJUNTO DE DATOS TRANSFORMADOS MEDIANTE KERNELS

2 CAPITULO 2. ANÁLISIS DE LA CONSISTENCIA DE CONJUNTOS

DE DATOS TRANSFORMADOS MEDIANTE KERNELS

En el presente capítulo se muestra el proceso de análisis de la consistencia de un conjunto de datasets antes y después de transformarlos usando alguna función kernel. Además se presentarán y analizarán los resultados de dicho análisis.

2.1 Proceso de análisis de la consistencia de los datos.

En este epígrafe se muestran los detalles del proceso de análisis de la consistencia de los datos. Se mostrarán las características de los datasets escogidos, la transformación de los datos mediante las funciones kernels y por último se mostrarán y analizarán los resultados del cálculo de la consistencia.

El proceso utilizado para el análisis del cambio en el grado de consistencia de los datos al transformarlos mediante alguna función kernel fue el siguiente:

1. Se escogieron los datasets que se van a utilizar para realizar el análisis de la consistencia.

2. Se usaron el filtro NominalToBinary, para convertir los atributos nominales en atributos numéricos, y el filtro ReplaceMissingValues para eliminar los valores perdidos en los atributos de los datasets escogidos.

3. Se calculó la consistencia de todos los datasets utilizando la medida calidad de la similaridad definida por la expresión 1.17.

4. Se usó el filtro KernelFilter que ofrece el Weka para transformar cada uno de los datasets escogidos.

5. Se calculó la consistencia a los datasets transformados por la función kernel. Este proceso está reflejado en la figura 5:

(32)

CAPITULO 2. ANÁLISIS DE LA CONSISTENCIA SE CONJUNTO DE DATOS TRANSFORMADOS MEDIANTE KERNELS

Figura 5 : Proceso utilizado para el análisis de la consistencia de los datos

2.1.1 Transformación de los datos mediante funciones kernels.

Para transformar los datos se utilizó la herramienta Weka, específicamente se usó el KernelFilter.

Esta transformación funciona de tal manera que dado un conjunto de datos con n instancias {𝑥1, 𝑥2, … , 𝑥𝑛 } y sea 𝑘(𝑥𝑖, 𝑥𝑗) una función kernel se tiene:

𝜽(𝒙

𝒊

) = �

𝒌(𝒙

𝒊

, 𝒙

𝟏

)

𝒌(𝒙

𝒊

, 𝒙

𝒏

)

Así el conjunto de datos obtenido al realizar la transformación seguirá teniendo n instancias pero además tendrá n atributos.

El KernelFilter tiene como requisitos que los datos no deben tener valores perdidos y todos los atributos deben ser numéricos, por tanto es necesario, antes de calcular la Consistencia de los datos por primera vez, aplicar los filtros ReplaceMissingValues y NominalToBinary para poder operar sobre ellos.

En la experimentación se usaron los kernels RBF y Polinomial de grado 2 y grado 3 debido a que están entre los kernels más utilizados en la práctica. Para el kernel RBF se utilizó como parámetro 𝜎 el valor 0,01 que es el que viene predeterminado en la herramienta WEKA.

(33)

CAPITULO 2. ANÁLISIS DE LA CONSISTENCIA SE CONJUNTO DE DATOS TRANSFORMADOS MEDIANTE KERNELS

2.1.2 Características de los datasets

Para el proceso de experimentación se escogieron 22 datasets a los cuales se les aplicó la medida de RST: Calidad de la clasificación. Luego se utilizó el filtro KernelFilter de la herramienta Weka para transformar los datos y a estos se les volverá a aplicar la medida Calidad de la Clasificación. En la siguiente tabla se muestran las principales característica de los conjuntos de datos escogidos.

Dataset #Instancias #Atributos #Clases

autos 205 71 7 balance-scale 625 4 3 breast-cancer-wisconsin 683 99 2 breast-w 699 9 2 contact-lenses 24 6 3 Diabetes 768 8 2 Glass 214 9 7 heart-c 303 22 5 heart-statlog 270 13 2 Hepatitis 155 19 2 Iris 150 4 3 Labor 57 26 2 Lymph 148 38 4 Sonar 208 60 2 Soybean 683 84 19 Vote 435 16 2 Vowel 990 27 11 Weather 14 6 28 Audiology 226 93 24 heart-h 294 22 5 Ionosphere 351 34 2 Zoo 101 116 7

Tabla 2: Características de los dataset usados

(34)

CAPITULO 2. ANÁLISIS DE LA CONSISTENCIA SE CONJUNTO DE DATOS TRANSFORMADOS MEDIANTE KERNELS

2.1.3 Implementación de la medida Calidad de la similaridad

Para la implementación de la medida de Calidad de la Similaridad se definieron dos clases Instancia y Dataset. La clase Instancia representa un ejemplo del conjunto de datos y estará compuesta por un arreglo de float representando a los atributos (los atributos necesariamente son numéricos) y un atributo de tipo String representando al atributo de decisión. La clase Dataset representará a un conjunto de ejemplos y estará compuesto por un arreglo de Instancias.

Los Principales métodos implementados son:

Consistency(): Devuelve el valor de la consistencia de un Dataset al promediar el valor

devuelto por la función Similarityrelationship() para cada una de las instancias que lo componen.

Similarityrelationship(): Devuelve el valor de la medida coeficiente de similaridad para cada

Instancia dentro de un Dataset.

2.1.4 Resultados del cálculo de la consistencia de los datos.

En la siguiente tabla se muestran los resultados del cálculo de la medida Calidad de la Clasificación. La segunda columna muestra la consistencia de los datasets sin ser transformados mediante algún kernel, mientras que las restantes columnas muestran la consistencia de los datos luego de aplicarles a los datasets, los kernels RBF, Polinomial de grado 2 y Polinomial de grado 3.

Dataset SinKernel RBF Polinomial(2) Polinomial(3)

Autos 0,373 0,365 0,343 0,347 balance-scale 0,273 0,462 0,404 0,593 breast-cancer-wisconsin 0,742 0,892 0,703 0,694 breast-w 0,682 0,887 0,708 0,715 contact-lenses 0,343 0,377 0,214 0,600 Diabetes 0,633 0,694 0,678 0,687 Glass 0,456 0,489 0,455 0,386 24

(35)

CAPITULO 2. ANÁLISIS DE LA CONSISTENCIA SE CONJUNTO DE DATOS TRANSFORMADOS MEDIANTE KERNELS heart-c 0,350 0,669 0,659 0,666 heart-statlog 0,358 0,670 0,660 0,667 Hepatitis 0,381 0,773 0,755 0,755 Iris 0,809 0,804 0,689 0,672 Labor 0,441 0,582 0,651 0,656 Lymph 0,310 0,608 0,588 0,612 Sonar 0,444 0,489 0,574 0,652 Soybean 0,494 0,213 0,158 0,158 Vote 0,433 0,737 0,557 0,763 Vowel 0,181 0,247 0,176 0,166 Weather 0,416 0,379 0,345 0,524 colic.ORIG 0,699 0,699 0,631 0,671 heart-h 0,600 0,690 0,674 0,682 Ionosphere 0,422 0,561 0,660 0,685 Zoo 0,366 0,668 0,529 0,396 Promedio 0,455 0,566 0,511 0,548

Tabla 3 : Resultados del cálculo de la consistencia

Como se puede apreciar las transformaciones de los datos utilizando funciones kernels mejora la consistencia de los mismos como se analizara en detalle en el epígrafe 2.1.5

2.1.5 Análisis del cambio del grado de consistencia de los datos

A continuación se valoran los resultados obtenidos en el proceso de experimentación desde el punto de vista del cambio en el grado de consistencia. Para ello se van a comparar dichos resultados con los obtenidos para los conjuntos de datos antes de aplicarles algún kernel. En la tabla 4 se muestran los resultados de dicha comparación desde el punto de vista cualitativo y podemos señalar la mejora de la consistencia de los datos en el caso del kernel RBF y el kernel Polinomial de grado 3.Por otro lado en el caso del kernel Polinomial de grado 2 no se puede afirmar que existe una mejora en la consistencia de los datos.

(36)

CAPITULO 2. ANÁLISIS DE LA CONSISTENCIA SE CONJUNTO DE DATOS TRANSFORMADOS MEDIANTE KERNELS

Consistencia RBF Polinomial(2) Polinomial(3)

Mejor 18 13 16

Peor 5 12 9

Igual 2 0 0

Tabla 4: Resultados cualitativos del análisis del cambio del grado de consistencia de los datos

En la tabla 5 se realiza un análisis según la diferencia entre la consistencia de los datos o antes y después de transformar los datos usando los distintos kernels para tener una idea de que tan significativo es el cambio en el grado de consistencia de los datos.

Diferencia RBF Polinomial(2) Polinomial(3)

diferencia ≤ -0.05 1 6 4

-0.05 <diferencia≤ 0 6 6 6

0 < diferencia ≤ 0.1 7 3 4

0.1 > diferencia 11 10 11

Tabla 5 : Resultados del análisis del cambio del grado de consistencia de los datos por diferencia entre la consistencia antes y después de la transformación

De estas 2 tablas podemos observar una mejora en cuanto a la consistencia de los datos después de realizar las transformaciones mediante kernels. Esta mejora es más notable en el caso del kernel RBF donde en solo uno de los conjuntos de datos hay un deterioro marcado en cuanto a la consistencia de los datos. Por el contrario en el caso del kernel Polinomial de grado 2, esta mejora no es tan evidente.

2.2 Conclusiones Parciales

Utilizando la medida de conjuntos aproximados calidad de la similaridad hemos analizado el comportamiento de la consistencia de un conjunto de datasets antes y después de transformarlos usando alguna función kernel. Como resultado de este análisis se obtuvo que al transformar los datos se mejoró la consistencia de los mismos. La transformación de los datos 26

(37)

CAPITULO 2. ANÁLISIS DE LA CONSISTENCIA SE CONJUNTO DE DATOS TRANSFORMADOS MEDIANTE KERNELS

usando el kernel RBF fue la que tuvo mejores resultados en comparación con los resultados obtenidos luego de transformar los datos usando el kernel Polinomial de grado 2 o grado 3.

(38)

CAPÍTULO 3. ANÁLISIS DE LA RELACIÓN ENTRE EL CAMBIO EN EL GRADO DE CONSISTENCIA Y LA CALIDAD DE LA CLASIFICACIÓN EN LOS MODELOS TRANSFORMADOS

3 CAPÍTULO 3. ANÁLISIS DE LA RELACIÓN ENTRE EL CAMBIO

EN EL GRADO DE CONSISTENCIA Y LA CALIDAD DE LA

CLASIFICACIÓN EN LOS MODELOS TRANSFORMADOS

En este capítulo se analizará el cambio en la calidad de los modelos aprendidos en los espacios transformados y se buscará si existe una relación entre la calidad de la clasificación y la consistencia de los datos en los modelos transformados.

3.1 Análisis del cambio en la calidad de los modelos aprendidos en los

espacios transformados.

El proceso utilizado para el análisis del cambio en la calidad de los modelos aprendidos al transformarlos mediante alguna función kernel fue el siguiente:

1. Se escogieron los datasets que se van a utilizar para realizar el análisis de la calidad del aprendizaje.

2. Se usaron el filtro NominalToBinary, para convertir los atributos nominales en atributos numéricos, y el filtro ReplaceMissingValues para eliminar los valores perdidos en los atributos de los datasets escogidos.

3. Se comprobó la calidad del conocimiento adquirido usando el clasificador Logistic Regresion.

4. Se usó el KernelFilter que ofrece el Weka con cada uno de los datasets.

5. Se comprobó la calidad del conocimiento adquirido usando el clasificador Logistic Regresión en los nuevos datasets.

En la figura 6 se ilustra el proceso utilizado para el análisis de la calidad de la clasificación.

(39)

CAPÍTULO 3. ANÁLISIS DE LA RELACIÓN ENTRE EL CAMBIO EN EL GRADO DE CONSISTENCIA Y LA CALIDAD DE LA CLASIFICACIÓN EN LOS MODELOS TRANSFORMADOS

Figura 6: Proceso utilizado para el análisis de la calidad de la clasificación

El clasificador escogido para analizar la calidad del conocimiento adquirido fue Logistic Regresion que es un algoritmo de clasificación con un muy buen comportamiento. Puede ser entrenado con resultados satisfactorios siempre y cuando se espere que los atributos sean más o menos lineales y las clases sean linealmente separables. También se puede hacer ingeniería de atributos para convertir relaciones no lineales en los atributos en lineales con relativa facilidad. El modelo es también bastante robusto al ruido y se puede evitar el sobreajuste. La regresión logística también se puede utilizar en escenarios de grandes volúmenes de datos, ya que es bastante eficiente .Una ventaja final de LR es que el resultado del modelo se puede interpretar como una probabilidad. Esto es algo que resulta ser un efecto secundario muy interesante, ya que se puede utilizar, por ejemplo, para la ordenación (ranking) en lugar de la clasificación.

En la tabla 6 se muestra los resultados del análisis de la calidad de los modelos aprendidos usando Logistic Regresion.

SinKernel RBF Pol2 Pol3

Autos 71,22 36,10 44,39 49,80 balance-scale 89,60 97,60 48,32 88,96 breast-cancer-wisconsin 94,00 95,17 86,82 96,49 breast-w 96,57 93,56 93,71 91,85 contact-lenses 66,67 75,00 20,83 54,17 Diabetes 77,21 64,97 67,71 73,96 29

(40)

CAPÍTULO 3. ANÁLISIS DE LA RELACIÓN ENTRE EL CAMBIO EN EL GRADO DE CONSISTENCIA Y LA CALIDAD DE LA CLASIFICACIÓN EN LOS MODELOS TRANSFORMADOS

Glass 64,02 68,22 61,22 61,68 heart-c 84,49 56,11 60,07 71,29 heart-statlog 83,70 52,96 65,56 72,22 hepatitis 82,58 72,90 78,71 76,77 Iris 96,00 93,33 86,67 92,00 Labor 94,74 85,96 73,68 75,44 Lymph 73,65 83,11 58,78 77,03 Sonar 73,08 75,48 73,56 75,48 soybean 94,00 77,89 75,11 79,8 Vote 95,86 95,40 90,11 88,05 Vowel 81,81 84,34 77,88 82,32 Weather 57,14 35,71 50,00 42,86 colic.ORIG 67,39 68,21 66,03 67,12 heart-h 84,70 59,86 69,05 79,93 Ionosphere 88,89 86,89 82,91 82,62 zoo 84,16 95,05 95,05 91,09

Tabla 6: Resultados del Análisis de la calidad de los modelos aprendidos usando el clasificador Logistic Regresion Como se puede apreciar para todos los kernels utilizados no se aprecia una mejora en la calidad de la clasificación, por el contrario como se ve en la tabla 7 la calidad de la clasificación disminuye. Si comparamos los resultados según los kernels utilizados se puede decir que el kernel RBF es el de mejores resultados aunque estos no dejan de ser malos.

Clasificación RBF Polinomial(2) Polinomial(3)

Mejor 9 2 5

Peor 13 20 17

Tabla 7 : Análisis cualitativo del cambio en cuanto a calidad de la clasificación por kernels

(41)

CAPÍTULO 3. ANÁLISIS DE LA RELACIÓN ENTRE EL CAMBIO EN EL GRADO DE CONSISTENCIA Y LA CALIDAD DE LA CLASIFICACIÓN EN LOS MODELOS TRANSFORMADOS

3.2 Análisis por kernels de la relación entre el grado de consistencia y la

calidad de la clasificación.

En este epígrafe se analizará para cada uno de los kernels si existe relación entre el cambio de consistencia y la calidad de la clasificación.

3.2.1 Kernel RBF

En el capítulo 2 se observó una mejora considerable en cuanto a la consistencia de los datos al transformar los conjuntos de datos usando el kernel RBF.A pesar de ello, al usar el clasificador Logistic Regresion los resultados no fueron buenos, notándose un marcado deterioro en cuanto a la calidad de la clasificación. En la tabla 8 se analiza la relación entre el grado de consistencia y la calidad de la clasificación no observándose dicha relacion. Al analizar los resultados en cuanto a la clasificación según la magnitud del cambio en la consistencia (tabla 9) se hace interesante el hecho de que con pequeñas diferencias en la consistencia de los datos se obtuvieron mejores resultados con el clasificador Logistic Regresion que cuando el cambio es mucho más grande.

Mejor Clasificación Peor Clasificación

Mejor Consistencia 8 9

Peor Consistencia 2 3

Tabla 8 Relación entre el cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel RBF

(42)

CAPÍTULO 3. ANÁLISIS DE LA RELACIÓN ENTRE EL CAMBIO EN EL GRADO DE CONSISTENCIA Y LA CALIDAD DE LA CLASIFICACIÓN EN LOS MODELOS TRANSFORMADOS

Diferencia(rango) Mejor Clasificación Peor Clasificación

diferencia < 0 0 4

0 < diferencia< 0.1 5 2

0.1 < diferencia< 0.2 2 2

0.2 < diferencia< 0.3 1 1

0.3 > diferencia 1 4

Tabla 9 Relación entre la magnitud del cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel RBF

Después de este análisis podemos afirmar que no existe evidencia que indique que existe una relación entre los cambios en el grado de consistencia y en la calidad del aprendizaje luego de transformar los datos usando el kernel RBF.

3.2.2 Kernel Polinomial de grado 2

En el capítulo 2 no se observó una mejora considerable en cuanto a la consistencia de los datos al transformar los conjuntos de datos usando el kernel Polinomial de grado 2.

Al usar el clasificador Logistic Regresion los resultados fueron muy malos, notándose un marcado deterioro en cuanto a la calidad de la clasificación en la casi todos los conjuntos de datos transformados.

En la tabla 10 se presenta la Relación entre el cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel Polinomial de grado 2.Los resultados expuestos en dicha tabla indican que no existe relación entre el cambio en el grado de consistencia de los datos y en la calidad del aprendizaje al transformar los datos usando el kernel Polinomial de grado 2.

(43)

CAPÍTULO 3. ANÁLISIS DE LA RELACIÓN ENTRE EL CAMBIO EN EL GRADO DE CONSISTENCIA Y LA CALIDAD DE LA CLASIFICACIÓN EN LOS MODELOS TRANSFORMADOS

Mejor Clasificación Peor Clasificación

Mejor Consistencia 2 11

Peor Consistencia 0 9

Tabla 10 Relación entre el cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel Polinomial de grado 2

En la tabla 11 se presentan los resultados en cuanto a la clasificación según la magnitud del cambio en la consistencia.

Diferencia(rango) Mejor Clasificación Peor Clasificación

diferencia < 0 0 9

0 < diferencia < 0.1 0 3

0.1 < diferencia < 0.2 2 2

0.2 < diferencia < 0.3 0 3

0.3 > diferencia 0 3

Tabla 11 Relación entre la magnitud del cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel Polinomial de grado 2

(44)

CAPÍTULO 3. ANÁLISIS DE LA RELACIÓN ENTRE EL CAMBIO EN EL GRADO DE CONSISTENCIA Y LA CALIDAD DE LA CLASIFICACIÓN EN LOS MODELOS TRANSFORMADOS

Después de este análisis podemos afirmar que no existe evidencia que indique que existe una relación entre los cambios en el grado de consistencia y en la calidad del aprendizaje luego de transformar los datos usando el kernel Polinomial de grado 2.

3.2.3 Kernel Polinomial de grado 3

En el caso del Kernel Polinomial de grado 3 (figura 11 y figura 12) se observa la misma tendencia que se observó cuando analizamos el kernel Polinomial de grado 2.

En el capítulo 2 se observó una mejora considerable en cuanto a la consistencia de los datos al transformar los conjuntos de datos usando el kernel Polinomial de grado 3.Sin embargo al usar el clasificador Logistic Regresion los resultados fueron muy malos, notándose un marcado deterioro en cuanto a la calidad de la clasificación en la casi todos los conjuntos de datos transformados.

En la tabla 12 se muestra la Relación entre el cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel Polinomial de grado 3 .Este análisis no indica que exista esta relación y al analizar los resultados en cuanto a la clasificación según la magnitud del cambio en la consistencia (tabla 13) tampoco se observa ninguna relación entre la consistencia de los datos y la calidad de la clasificación de los datos transformados mediante el kernel Polinomial de grado 3.

Mejor Clasificación Peor Clasificación

Mejor Consistencia 3 16

Peor Consistencia 0 7

Tabla 12 Relación entre el cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel Polinomial de grado 3

(45)

CAPÍTULO 3. ANÁLISIS DE LA RELACIÓN ENTRE EL CAMBIO EN EL GRADO DE CONSISTENCIA Y LA CALIDAD DE LA CLASIFICACIÓN EN LOS MODELOS TRANSFORMADOS

Consistencia Mejor Clasificación Peor Clasificación

diferencia < 0 0 7

0 < diferencia < 0.1 1 3

0.1 < diferencia < 0.2 0 1

0.2 < diferencia < 0.3 1 3

0.3 > diferencia 1 5

Tabla 13 Relación entre la magnitud del cambio en el grado de consistencia y la calidad de la clasificación luego de usar el kernel Polinomial de grado 3

Después de este análisis podemos afirmar que no existe evidencia que indique que existe una relación entre los cambios en el grado de consistencia y en la calidad del aprendizaje luego de transformar los datos usando el kernel Polinomial de grado 3

3.3 Conclusiones parciales

Luego de usar el clasificador Logistic Regresion para analizar la calidad de los modelos aprendidos en el espacio transformado se concluyó que al trasformar los datos mediante kernels no se mejora la calidad de la clasificación. Además, no existe relación entre el cambio en el grado de consistencia y el cambio en la calidad de la clasificación en el espacio transformado.

(46)

CONCLUSIONES

4 CONCLUSIONES

En este trabajo se analizó la relación entre el cambio en el grado de consistencia de los datos y de la calidad del aprendizaje al transformar los datos empleando funciones kernels

 La transformación del espacio de representación de los datos mediante kernels provoca una mejora en el grado de consistencia de los datos.

 La calidad del conocimiento adquirido con los datos transformados disminuye con respecto a la obtenida con los datos originales.

 No se pudo comprobar que la mejora en la consistencia de los datos impactara positivamente en la calidad del conocimiento descubierto.

(47)

RECOMENDACIONES

5 RECOMENDACIONES

Extender esta investigación a otros kernels y ampliar la cantidad de datasets utilizados.

Realizar esta investigación usando otras medidas de calidad de los datos.

Investigar posibles causas que expliquen por qué la mejora en la consistencia de los datos no está relacionada con la eficacia del proceso de aprendizaje.

Figure

Actualización...

Referencias

Actualización...