4. Materiales y métodos
5.2. Diseño del modelo
5.2.1. Enfoque del modelo
A continuación se detallan los seis conceptos que conforman el enfoque del modelo que se propone. Los mismos se pueden observar en la figura 4.3.
Arquitectura OLAM
El modelo está concebido como una solución de capa tres; es decir, una solución que invo- lucra el desarrollo de un motor de minería de datos y el de protocolos de comunicación y presentación, tanto para un trabajo conjunto con un motor analítico convencional, como para la presentación de los resultados del proceso de minería al usuario. El modelo OLAM (Han
et al.) [2] es una arquitectura de minería de datos multidimensional que permite la coexisten- cia de entornos de análisis multidimensional (típicamente OLAP) con entornos de minería de datos. Sus capas se comunican unas con otras de manera transparente lo cual permite flexibilidad para desarrollar estrategias para cada una de ellas de manera independiente. Esta capacidad es la que permite la incorporación del modelo a la capa tres, permitiendo un so-
BIBLIOTECA
DE CIENCIAS
FÍSICAS
Arquitectura OLAM SoluciónOdeOcapaO3 Clustering de conceptos IcebergOlattices conOTITANIC Ajuste de contextos multivaluados EscalasOdefinidas porOelOusuario Minería de reglas de asociación EnfoqueOdelOmotor deODM Consultas MDM basadas en restricciones SoporteOnativoOpara OLAM Reglas de asociación exactas y aproximadas mínimas y no redundantes PresentaciónOcompacta deOconocimiento Modelo de minería de datos multidimensional
Figura 5.3:Enfoque del modelo de minería de datos multidimensional.
porte para las consultas de los usuarios, la recuperación de información a través de un «API de cubo» de acuerdo a estas consultas y la presentación final del conocimiento.
Clusteringde conceptos
Principal enfoque para el desarrollo del motor de minería de datos. Elclusteringde conceptos se refiere a la acción de priorizar aquellos conceptos que cumplan con cierto soporte mínimo para sus atributos. Limitando el soporte como punto de partida para el análisis logramos una mejor respuesta para grandes conjuntos de datos y guiamos de mejor manera la búsqueda de conocimiento. Adicionalmente, este proceso es un punto de partida para la extracción de reglas de asociación, el cual es el computacionalmente más costoso e importante. Con el
clusteringde conceptos se logra encontrar unlatticede conceptos frecuentes oiceberg lat- tice, una representación condensada deitemsetsfrecuentes sin pérdida de información. Dos
BIBLIOTECA
DE CIENCIAS
FÍSICAS
algoritmos que calculan estas estructuras son TITANIC y NEXTCLOSURE, de los cuales y
según el análisis comparativo llevado a cabo en la sección anterior, TITANIClogra sobresalir en cuanto a rendimiento sobre grandes bases de datos.
Ajuste de contextos multivaluados
Concepto de suma importancia para lograr una comunicación eficiente entre un motor de mi- nería de datos (que utilizalatticescomo parte del Análisis Formal de Conceptos) y un motor analítico (generalmente OLAP). La clase de datos que manejan ambos motores son nativa- mente incompatibles, por lo que se necesita de un proceso adicional que logre un acople exitoso de tal manera que el motor de DM entregue resultados correctos sin pérdida de infor- mación. Esto último supone que el proceso de acople debe ser transparente, con una pérdida semántica nula y con cierta participación del usuario que asegure dicha conservación; esto debido a que la transformación de atributos multivalaudos (con un tamaño de dominio mayor que dos) a atributos binarios requiere de un filtro adicional que no permita que los atributos del contexto resultante crezcan en demasía. Se menciona el término «adicional» ya que la consulta que a priori se realiza, se encarga de ya filtrar muchos atributos que en un modelo de minería de datos convencional resultarían en una carga computacional sumamente intratable.
Minería de reglas de asociación
Propósito principal del motor de minería de datos a desarrollar. La representación del cono- cimiento que el modelo soporta tiene la forma de reglas de asociación. A partir del resultado de una consulta multidimensional se pueden extraer reglas de asociación que revelen relacio- nes interesantes en los datos. El usuario se encarga de guiar en mayor medida la búsqueda al incluir en el análisis umbrales de soporte y confianza. La obtención de reglas de asociación es un proceso trivial una vez que eliceberglattice está construído.
BIBLIOTECA
DE CIENCIAS
FÍSICAS
Consultas multidimensionales basadas en restricciones
Principal entrada para la capa cuatro de la arquitectura OLAM. Este tipo de consultas limita el espacio de búsqueda a lo que el usuario considera conveniente en las restricciones que ingresa como parte de una consulta. Estas restricciones aplican tanto al motor OLAP como al motor de minería de datos, siendo por ejemplo, filtros sobre las dimensiones y/o jerarquías, y umbrales de soporte y confianza, respectivamente. Estas consultas servirán también para minimzar el número de atributos que se consideran antes de la transformación a un contexto formal, por tanto, configurando el espacio de búsqueda a uno más razonable para el motor de DM.
Reglas de asociación exactas y aproximadas, mínimas y no reduntantes
Si bien es cierto que el proceso de minería de reglas de asociación, como tal, es un proceso trivial, no todas las reglas que se generen tienen un significado importante para un analista. Lo que quizás ocurra en un proceso típico de minería de reglas de asociación es que se presenten un número muy grande de ellas, lo cual probablemente dará poco tiempo a una analista a que reaccione. Lo que plantea este concepto es considerar solamente aquellas reglas que sean no redundantes y que supongan unabase mínima. Esta base se construye tanto para reglas exactas (aquellas con 100 % de confianza) como para reglas aproximadas (confianza <100 %). La unión de ambas bases constituye, por tanto, un conjunto generatriz pequeño y no redundante para todas las reglas de asociación válidas.