Diseño de un modelo computacional de minería de datos multidimensional utilizando lattices conceptuales para la búsqueda de conocimiento en entornos OLAP

Texto completo

(1)Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. UNIVERSIDAD NACIONAL DE TRUJILLO FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. IC. A. S. ESCUELA PROFESIONAL DE INGENIERÍA INFORMÁTICA. “DISEÑO DE UN MODELO COMPUTACIONAL DE MINERÍA DE DATOS MULTIDIMENSIONAL UTILIZANDO LATTICES CONCEPTUALES PARA LA BÚSQUEDA DE CONOCIMIENTO EN ENTORNOS OLAP”. T. E. Tesis para obtener el título profesional de Ingeniero Informático Autor:. LI. O. Br. Bruno Luis Mendívez Vásquez. B. IB. Asesor: Ing. Christian Araujo González Área del proyecto: Bases de datos. Trujillo – Perú 2014. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(2) C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. IC. A. S. Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Diseño de un modelo computacional de minería de datos multidimensional utilizando lattices conceptuales para la búsqueda de conocimiento en entornos OLAP. Bruno Mendívez. B. IB. LI. O. T. E. Septiembre 2014. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(3) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. IC. A. S. Agradecimientos. B. IB. LI. O. T. E. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. Dedicado a mi familia por su constante apoyo.. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(4) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. IC. A. S. Abstract. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. In this thesis, a multidimensional data mining model is proposed (based on the online analytical mining OLAM architecture), which consists of a layer three solution with both multidimensional and data mining analytical engines working together in order to extract approximate or exact association rules from the formalization of a constraint-based multidimensional query. This model was conceived as a way to extract discovery-driven knowledge (i.e. association rules mining) from a data cube or datamart which primarily has a multidimensional structure with only hypothesis validation capabilities. Thus, this OLAM layer three model is able to execute data mining algorithms within a reduced search space result of a constraint-based query applied to a datamart.. This layer three model, through the formalization of a constraint-based query, reduces significantly a cube’s search space by identifying from the query the dimensions involved as well. T. E. as it’s columns and filters, resulting in a data table or multivalued context. This context is. O. later transformed into a formal binary context with the use of personalized scales for each. LI. and every multivalued attribute. From the resulting binary context, an iceberg concep lattice. IB. is derived in order to identify a set of frequent itemsets, which is the first step to the associa-. B. tion rules mining process. Finally, and according to the specification of a minimum support and confidence, both Duquenne-Guigues and Luxenburger basis are extracted and presented as the result of the initial query for further analysis.. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(5) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. IC. A. S. Resumen. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. En esta tesis se presenta un modelo de minería de datos multidimensional (basado en la arquitectura de minería analítica en línea OLAM), el cual consiste en una solución de capa tres que cuenta con motores de análisis multidimensional y minería de datos ejecutándose en conjunto, con el fin de extraer reglas de asociación exactas o aproximadas a partir de la formalización de una consulta multidimensional basada en restricciones. Este modelo fue concebido como una manera de extraer conocimiento dirigido por el descubrimiento (reglas de asociación) a partir de un cubo de datos o datamart, el cual principalmente, tiene una estructura multidimensional con capacidad de extracción de conocimiento dirigido por hipótesis. Por tanto, este modelo de capa tres OLAM tiene la capacidad de ejecutar algoritmos de minería de datos dentro de un espacio de búsqueda reducido, resultado de una consulta basada en restricciones aplicada a un datamart.. T. E. Este modelo de capa tres, a través de la formalización de una consulta basada en restriccio-. O. nes, reduce de manera significativa el espacio de búsqueda de un cubo de datos, identificando. LI. de la consulta, las dimensiones involucradas así como sus columnas y filtros, resultando en. IB. una tabla de datos o contexto multivaluado. Este contexto es después transformado a un. B. contexto formal binario con el uso de escalas personalizadas para cada uno de los atributos multivaluados. A partir del contexto binario resultante, un iceberg concept lattice es deriva-. do con la finalidad de identificar un conjunto de itemsets frecuentes, los cuales son el punto de partida para el proceso de minería de reglas de asociación. Finalmente, y de acuerdo a la especificación de un soporte y confianza mínimos, las bases de Duquenne-Guigues y de Luxenburger son presentadas como resultado de la consulta inicial para su posterior análisis.. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(6) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. 1. Introducción. S. IC. A. S. Índice general. 2. Planteamiento del estudio. 4 4. 2.2. Formulación del problema . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.3. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.4.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.4.2. Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.5. Justificación de la investigación . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2.5.1. Desde el punto de vista de las Ciencias de la Computación . . . . .. 8. E. 2.1. Realidad problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . .. T. 2.5.2. Desde el punto de vista de las organizaciones . . . . . . . . . . . .. 8 9. 2.7. Síntesis organizativa del informe . . . . . . . . . . . . . . . . . . . . . . .. 9. IB. LI. O. 2.6. Limitaciones del estudio . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. Marco teórico. B. 1. 12. 3.1. ¿Qué es un modelo computacional? . . . . . . . . . . . . . . . . . . . . .. 12. 3.2. Minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13. 3.2.1. El proceso de descubrimiento de conocimiento . . . . . . . . . . .. 14. 3.2.2. Arquitectura de un sistema de minería de datos . . . . . . . . . . .. 15. 3.2.3. Funciones de la minería de datos . . . . . . . . . . . . . . . . . . .. 19. 3.2.4. Aprendizaje de reglas de asociación . . . . . . . . . . . . . . . . .. 20. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(7) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. 23. 3.3.1. Modelado multidimensional . . . . . . . . . . . . . . . . . . . . .. 23. 3.3.2. On-Line Analytical Processing (OLAP) . . . . . . . . . . . . . . .. 24. 3.4. Minería de datos multidimensional . . . . . . . . . . . . . . . . . . . . . .. 26. 3.5. Lattices conceptuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 28. S. 3.3. Análisis multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . .. 35. 3.5.2. Bases para reglas de asociación . . . . . . . . . . . . . . . . . . .. 40. 3.5.3. Contextos multivaluados y escalado conceptual . . . . . . . . . . .. 41. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. IC. A. 3.5.1. Iceberg Concept Lattices . . . . . . . . . . . . . . . . . . . . . . .. 4. Materiales y métodos. 4.1. Diseño de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . .. 45. 4.2. Población y muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 45. 4.3. Variables de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 4.3.1. Variable independiente . . . . . . . . . . . . . . . . . . . . . . . .. 46. 4.3.2. Variable dependiente . . . . . . . . . . . . . . . . . . . . . . . . .. 47. 4.4. Técnicas e instrumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 47. 5. Resultados. 49 49. 5.1.1. Descripción de los modelos . . . . . . . . . . . . . . . . . . . . .. 52. T. E. 5.1. Análisis comparativo de modelos existentes . . . . . . . . . . . . . . . . .. O. 5.1.2. Comparación de los modelos . . . . . . . . . . . . . . . . . . . . .. 54 57. 5.2.1. Enfoque del modelo . . . . . . . . . . . . . . . . . . . . . . . . .. 57. 5.2.2. Arquitectura del modelo . . . . . . . . . . . . . . . . . . . . . . .. 60. 5.2.3. Descripción del modelo . . . . . . . . . . . . . . . . . . . . . . .. 62. 5.3. Planteamiento del caso de estudio . . . . . . . . . . . . . . . . . . . . . .. 68. 5.4. Ejecución del caso de estudio . . . . . . . . . . . . . . . . . . . . . . . . .. 70. 5.4.1. Data source view . . . . . . . . . . . . . . . . . . . . . . . . . . .. 71. 5.4.2. Contexto multivaluado . . . . . . . . . . . . . . . . . . . . . . . .. 71. LI. 5.2. Diseño del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. IB B. 45. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(8) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. 5.4.3. Contexto Formal Binario . . . . . . . . . . . . . . . . . . . . . . .. 73. 5.4.4. Iceberg Concept Lattice . . . . . . . . . . . . . . . . . . . . . . .. 73. 5.4.5. Bases de Duquenne-Guigues y Luxenburger . . . . . . . . . . . . .. 79 81. S. 6. Discusiones. IC. 83 85. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. 8. Recomendaciones. A. 7. Conclusiones. 87. B. IB. LI. O. T. E. 9. Trabajos futuros. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(9) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. 15. 3.2. Arquitectura de un sistema de minería de datos . . . . . . . . . . . . . . .. 17. 3.3. Arquitectura OLAM (on-line analytical mining) . . . . . . . . . . . . . . .. 27. 3.4. Diagrama de Hasse de un lattice conceptual con etiquetado completo . . . .. 32. 3.5. Diagrama de Hasse de un lattice conceptual con etiquetado reducido . . . .. 33. 3.6. Iceberg concept lattice del contexto M USHROOMS con minsupp = 85 % . .. 36. 3.7. Iceberg concept lattice del contexto M USHROOMS con minsupp = 70 % . .. 38. 4.1. Star schema del datamart «ResellerSales» . . . . . . . . . . . . . . . . . .. 47. 5.1. Comparación entre T ITANIC y N EXT C LOSURE (I NTERNET DB) . . . . . .. 55. 5.2. Comparación entre T ITANIC y N EXT C LOSURE (M USHROOMS DB) . . . .. 55. 5.3. Enfoque del modelo de minería de datos multidimensional . . . . . . . . .. 58. 5.5. Planteamiento del caso de estudio . . . . . . . . . . . . . . . . . . . . . .. 69. T. E. S. 3.1. El proceso de descubrimiento de conocimiento . . . . . . . . . . . . . . .. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. IC. A. S. Índice de figuras. LI. O. 5.4. Arquitectura del modelo de minería de datos multidimensional . . . . . . .. 61. minsupp = 25 % . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 76. B. IB. 5.6. Iceberg concept lattice del contexto K correspondiente a «query one» con. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(10) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. 29. 3.2. Operadores de derivación aplicados a un contexto formal . . . . . . . . . .. 31. 3.3. Ejemplo de un contexto multivaluado . . . . . . . . . . . . . . . . . . . .. 42. 3.4. Ejemplo de escala para un atributo . . . . . . . . . . . . . . . . . . . . . .. 43. 4.1. Indicadores de las variables dependiente e independiente . . . . . . . . . .. 46. 5.1. Rangos de valoración para los criterios de comparación . . . . . . . . . . .. 51. S. 3.1. Ejemplo de un contexto formal . . . . . . . . . . . . . . . . . . . . . . . .. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. IC. A. S. Índice de cuadros. 5.2. Comparación entre N EXT C LOSURE, el algoritmo de Nourine y Raynaud y T ITANIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 56. 5.3. Data source view para la consulta «query one» aplicada sobre el datamart «ResellerSales» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. T. E. 5.4. Script SQL y contexto multivaluado resultante para el datamart «Reseller-. O. Sales» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 74. 5.6. Contexto formal binario para la consulta «query one» . . . . . . . . . . . .. 75. 5.7. Implicaciones resultantes para la consulta «query one» . . . . . . . . . . .. 77. 5.8. Reglas de asociación aproximadas resultantes para la consulta «query one». 78. LI. 5.5. Definición de una escala para el atributo «EnglishProductName» . . . . . .. IB B. 72. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(11) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. IC. A. S. Capítulo 1. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. Introducción. La minería de datos ha atraído mucha atención en el sector industrial y a la sociedad en su conjunto, debido a la disponibilidad de grandes cantidades de datos y a la inminente necesidad de transformar esos datos en información útil y conocimiento. La información y conocimiento obtenidos pueden ser usados para aplicaciones que van desde el análisis de mercados, detección de fraudes hasta el control de la producción y la exploración científica en general.. La minería de datos puede ser vista como el resultado de una evolución natural de las tecnologías de información. La industria de sistemas de bases de datos ha sido testigo de un. T. E. camino evolutivo en el desarrollo de las siguientes funcionalidades: recolección de datos y. O. creación de bases de datos, administración de datos (incluyendo almacenamiento y recupe-. LI. ración de datos, y procesamiento transaccional de bases de datos), y análisis avanzado de. IB. datos (involucrando minería de datos y datawarehousing). Por ejemplo, el desarrollo tem-. B. prano de mecanismos de recolección de datos y creación de bases de datos sirvieron como prerequisito para un desarrollo posterior de mecanismos efectivos para el almacenamiento y recuperación de esos datos, y procesamiento de consultas y transacciones. Con numerosos sistemas de bases de datos ofreciendo procesamiento de consultas y transacciones como práctica común, el análisis avanzado de datos naturalmente se ha convertido en el próximo objetivo.. 1. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(12) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desde los años 60, las bases de datos y las tecnologías de información han evolucionado sistemáticamente desde sistemas primitivos de procesamiento de archivos hacia sistemas de bases de datos más sofisticados. La investigación y desarrollo en los años 70 ha progresado hacia el desarrollo de sistemas de bases de datos relacionales (donde los datos están alma-. S. cenados en tablas que se relacionan unas con otras), herramientas de modelado de datos y. A. métodos de acceso e indexado. Adicionalmente, los usuarios han ganado la capacidad de un. IC. acceso flexible y conveniente a los datos mediante los lenguajes de consulta, interfaces de. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. usuario, procesamiento optimizado de consultas y administración de transacciones. Métodos eficientes para el procesamiento transaccional en línea (on-line transaction processing: OLTP), donde una consulta (query) es vista como una transacción de sólo lectura, han contribuído sustancialmente a la evolución y aceptación de la tecnología relacional como una herramienta importante para un almacenamiento, recuperación y administración eficiente de grandes cantidades de datos.. A partir de los años 80 es cuando aparecen nuevos tipos de bases de datos y tecnologías de almacenamiento, con el fin de dar soporte a nuevas aplicaciones y a los inicios del World Wide Web. Surgen, por tanto, alternativas al modelo relacional como el modelo relacional extendido, orientado a objetos, objeto-relacional y deductivo. Las aplicaciones que implementaron estos tipos y que también fueron concebidas durante esa década fueron los sistemas de base. T. E. de datos espaciales, temporales, multimedia, de sensores, activas, científicas, de ingeniería. O. y de conocimiento. A su vez, la tecnología de almacenamiento y de procesamiento mejoró. LI. considerablemente, lo que permitió la expansión de sistemas de bases de datos, de aplicacio-. IB. nes y proyectos que manejaban grandes cantidades de datos, optimizando la recuperación,. B. almacenamiento, consulta y análisis de datos. Los datos ahora pueden almacenarse en distintos tipos de bases de datos y repositorios de información. Una arquitectura de repositorio en particular es el datawarehouse, un repositorio de múltiples orígenes de datos heterogéneos organizados bajo un esquema unificado en un lugar único, lo que facilita la administración del proceso de toma de decisiones dentro de una organización. Las tecnologías adyacentes a un datawarehouse incluyen limpieza e integra-. ción de datos y el procesamiento analítico en línea (on-line analytical processing: OLAP), 2. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(13) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. técnicas de análisis de datos (principalmente el análisis multidimensional) que permiten, a grandes rasgos, visualizar los datos desde distintos ángulos o puntos de vista, valiéndose de operaciones de consolidación, agregación y resumen. Los directivos a menudo se realizan cuestiones acerca de algunas medidas del negocio, las cuales los analistas las traducen a. S. consultas multidimensionales, obteniendo información oculta y útil en los datos que puede. A. ayudar al proceso de toma de decisiones y a mejorar el negocio.. IC. Si bien es cierto que OLAP (a través del análisis multidimensional) es útil para rescatar cierta. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. información clave para la toma de decisiones, para un análisis más a fondo es necesario acoplar técnicas de análisis adicionales, como el clustering, la clasificación o caracterización. Estas técnicas, sin embargo, se han mantenido dentro del alcance de la minería de datos y todo lo que la misma supone. Se pretende, entonces, unificar técnicas de análisis que vayan más acorde con la potencia de la minería de datos a la hora de descubrir conocimiento, y con la guía del análisis multidimensional para orientar la búsqueda de acuerdo a los requerimientos y restricciones de analistas que, como se dijo, reportan directamente a los tomadores de. B. IB. LI. O. T. E. decisiones dentro de una organización.. 3. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(14) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. 2.1.. S. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. Planteamiento del estudio. IC. A. S. Capítulo 2. Realidad problemática. Dentro de la Inteligencia de Negocios, se utiliza un enfoque de análisis de datos en línea OLAP (on-line analytical processing) a datawarehouses y datamarts. Como sus siglas lo indican, es un proceso en línea, con tiempos de respuesta mínimos comparados a esquemas OLTP (on-line transactional processing). Los cubos multidimensionales o cubos OLAP reestructuran un esquema OLTP de manera que un proceso OLAP pueda ejecutarse eficien-. E. temente, entregando información estratégica útil (conocimiento) casi al instante. Se puede. T. decir que el análisis multidimensional u OLAP genera conocimiento a partir de bases de. O. datos relacionales con una gran rapidez de respuesta, y que es un modelo optimizado para. LI. búsquedas donde las sentencias SELECT se ejecutan mejor que en cualquier modelo analíti-. IB. co (Nag, Deshpande y DeWitt) [1].. B. Por otro lado, la minería de datos es un modelo de análisis cuyo uso ha ido creciendo en los mismos entornos en los que se utiliza OLAP (Han, Lakshmanan y Ng) [2]. Típicamente se utiliza como soporte adicional a arquitecturas OLAP, bajo un esquema propio, donde los datos tienen que reestructurarse y acoplarse a los métodos y algoritmos de minería de datos, que generalmente son de alta complejidad computacional [2]. Los algoritmos de minería de datos se ejecutan sobre grandes cantidades de éstos a la vez y posteriormente los resultados. 4. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(15) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. se analizan para rescatar aquellos que supone conocimiento útil a ciertas necesidades (situación que se conoce como aprendizaje no supervisado). Es impensable, quizás, pensar que un esquema de minería de datos sea aplicable a manera de consultas sobre bases de datos multidimensionales, así como se realiza en OLAP. Principalmente, porque los tiempos de. S. respuesta serían excesivamente elevados, ya que en cada consulta hay que solucionar el pro-. A. blema de acople y además los algoritmos tomarían mucho tiempo en ejecutarse como para. IC. implementarlos en un proceso en línea como OLAP. Hay que enfrentar el hecho de que la. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. minería de datos no fue diseñada para esquemas dinámicos de consultas multidimensionales, es un enfoque estático donde los datos son extraídos en grandes volúmenes, formateados, filtrados, modificados, limpiados, etc. para finalmente obtener resultados después de un largo tiempo de procesamiento.. Es necesario contrastar el proceso de obtención de conocimiento en ambos casos. En primer lugar, se puede decir que el conocimiento obtenido como resultado de un proceso OLAP es, sí, dirigida por el usuario, pero dirigida principalmente por las hipótesis que éste pueda plantear para su verificación (hypothesis-driven knowledge). El usuario debe tener una idea preliminar acerca de qué buscar, plantear una hipótesis y verificarla realizando una consulta, que de ser OLAP, será multidimensional. La minería de datos, en contraparte, ofrece otro tipo de conocimiento, dirigido por el descubrimiento (discovery-driven knowledge), en don-. T. E. de se genera conocimiento completamente desconocido y nuevo; sin embargo, no hay una. O. manera exacta de dirigir la búsqueda a los aspectos que de verdad interesan a un tomador. LI. de decisiones, por ejemplo. Como se describió anteriormente, los datos ingresan en grandes. IB. volúmenes y se obtiene conocimiento, el cual en muchas veces puede ser completamente. B. inútil, e incluso los esfuerzos de filtrar resultados pueden llegar a ser iguales de costosos computacionalmente que el proceso de minería, si no se delimitó previamente un correcto espacio de búsqueda. Otro problema del proceso de minería de datos es la poca integración que tiene con bases de datos relacionales, mucho menos con datawarehouses o datamarts. Esto porque es complicado adaptar los datos a los algoritmos, no se debe pensar que es un proceso trivial. También cabe señalar que en minería de datos, el usuario tiene poca participación, hay una falta de 5. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(16) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. involucramiento, en cuanto a guía y control, que merma los resultados obtenidos. Todo esto nos lleva a las siguientes características problemáticas: El enfoque OLAP está guiado por las hipótesis que el usuario plantea a la hora de buscar conocimiento. Dichas hipótesis se validan con las consultas multidimensionales.. A. S. Por tanto, hay que tener una idea de lo que se quiere encontrar primero.. IC. Las hipótesis que se manejan en OLAP dependen en gran medida de la capacidad del. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. analista o tomador de decisiones, de cuán buen es su enfoque en cuanto a encontrar información estratégica para con los objetivos del negocio.. La minería de datos es un enfoque de análisis estático. Los datos se procesan en grandes volúmenes y los resultados se vuelven a procesar para verificar su utilización. Un enfoque de minería de datos «en línea» a priori supone un esfuerzo no muy práctico, debido al alto tiempo de respuesta que acarrearía.. La minería de datos no ha sido diseñada para un modelo dinámico de consultas multidimensionales. Mucho menos hay un soporte trivial para datawarehouses, datamarts, cubos multidimensionales, etc. El soporte para bases de datos relacionales es limitado. E. y su acoplamiento a los algoritmos no es un proceso trivial.. O. T. La participación del usuario para guiar la búsqueda de conocimiento es casi nula en la. LI. minería de datos. No hay un buen método para direccionar la búsqueda a aspectos de. B. IB. interés por los analistas.. 2.2.. Formulación del problema. ¿De qué manera es posible generar conocimiento dirigido por el descubrimiento (discoverydriven knowledge) en entornos OLAP?. 6. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(17) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. 2.3.. Hipótesis. El diseño de un modelo computacional de minería de datos multidimensional utilizando lattices conceptuales, permitirá la obtención de conocimiento dirigido por el descubrimiento. Objetivo general. IC. 2.4.1.. S. Objetivos. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. 2.4.. A. S. en entornos OLAP.. Diseñar un modelo computacional de minería de datos multidimensional para la obtención de conocimiento dirigido por el descubrimiento en entornos OLAP.. 2.4.2.. Objetivos específicos. Realizar una investigación bibliográfica para determinar referencias teóricas en cuanto a minería de datos multidimensional y lattices conceptuales.. Analizar los distintos enfoques de minería de datos multidimensional y describir su. E. arquitectura.. T. Analizar diferentes modelos de lattices conceptuales y evaluar su desempeño como. LI. O. técnica de minería de reglas de asociación.. IB. Diseñar un modelo de minería de reglas de asociación empleando lattices con soporte. B. para clustering de conceptos y contextos con atributos multivaluados. Aplicar el modelo propuesto dentro de un caso de estudio. Evaluar y validar la base de conocimiento obtenida.. 7. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(18) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. 2.5.. Justificación de la investigación. 2.5.1.. Desde el punto de vista de las Ciencias de la Computación. Específicamente dentro del área de la Inteligencia de Negocios (Business Intelligence), el. A. S. modelo a proponer ayudará al proceso de análisis de datos en los siguientes aspectos:. IC. Otorgando al análisis multidimensional un enfoque orientado a la minería de reglas de. S. asociación.. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. Introduciendo al lattice como una estructura algebraica con soporte para consultas multidimensionales.. Añadiendo soporte a tablas multidimensionales (fact tables) como entrada a los algoritmos de cálculo de lattices, dotando de flexibilidad al modelo.. Introduciendo un método de clustering a los lattices conceptuales de manera que el costo computacional de la minería de reglas de asociación se pueda reducir. Mejorando el proceso de minería de datos, convirtiéndolo en un enfoque dinámico con tiempos de respuesta comparables a los de los datos obtenidos por consulta en entornos. E. OLAP.. Desde el punto de vista de las organizaciones. O. T. 2.5.2.. LI. Dentro de las organizaciones, la propuesta de un modelo de minería de datos multidimensio-. B. IB. nal las beneficiará en los siguientes aspectos: Permitiendo la automatización parcial del proceso de descubrimiento de conocimiento, dotando a analistas y tomadores de decisiones la capacidad de obtener una base de conocimiento acorde a sus necesidades. Permitiendo el descubrimiento de implicaciones, desconocidas, potencialmente útiles y con alto grado de confianza, dentro de un espacio de búsqueda flexible, dinámico y guiado por el usuario. 8. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(19) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Mejorando el proceso de toma de decisiones al acelerar el proceso de minería de datos mediante la utilización de consultas multidimensionales. Otorgando a los analistas una herramienta de minería de datos dinámica, flexible y. S. compatible con las operaciones típicas del análisis multidimensional.. A. Integrando procesos de minería de datos dentro de una arquitectura OLAP organiza-. 2.6.. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. IC. cional, sin necesidad de modificar ningún aspecto físico de las bases de datos.. Limitaciones del estudio. Considerando ciertas limitaciones correspondientes al desarrollo del modelo, se puede rescatar una propia de los lattices conceptuales, la cual, sin embargo, es una propiedad inherente a la estructura algebraica. Según la definición formal (véase más adelante la sección 2.5) de un lattice dentro del Análisis Formal de Conceptos, éste se vale de una relación binaria para su construcción, lo cual supone que los atributos no son multivaluados y por el contrario, sólo pueden tener dos valores posibles. Esta propiedad constituye una limitación importante para la construcción del modelo ya que las bases de datos que conforman la muestra son de tipo relacional, cuyos registros, si se consideran como objetos, tienen muchos atributos. E. multivaluados de distintos tipos y con dominios diversos. Un pre procesamiento adicional. O. T. deberá ser considerado dentro del modelo para que, de alguna manera, se pueda acoplar este. LI. tipo de presentación de datos a los algoritmos de generación de conceptos y por tanto de. IB. lattices conceptuales. El acoplamiento se llevará a cabo de manera transparente, sin verse. B. perjudicada la semántica de las transacciones con el fin de realizar una minería de reglas de asociación correcta.. 2.7.. Síntesis organizativa del informe. En el capítulo uno se expone el alcance del estudio, detallando la problemática como punto de partida de la investigación concluyendo en que es necesaria una unificación de ciertas 9. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(20) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. técnicas de minería de datos y de análisis multidimensional para hacer frente a las limitaciones de ambos enfoques. Entre ellas se destaca la carencia de «descubrimiento» en el análisis multidimensional, contando sólo con hipótesis previamente concebidas cuya validación se concreta en las consultas multidimensionales. Por el lado de la minería de datos, se hace un. S. énfasis en la deficiencia inherente de guiar la búsqueda hacia objetivos reales, que incluyen. A. restricciones y requerimientos, de los tomadores de decisiones. Por tanto, y como probable. IC. solución al problema en cuestión, se plantea el desarrollo de un modelo de minería de datos. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. multidimensional unificando a los lattices conceptuales (como una estructura algebraica ad hoc a una técnica de minería de datos) con el análisis multidimensional, que aplicado a un datawarehouse dentro de un sistema OLAP, supondrá la obtención de una base de conocimiento con base en el descubrimiento de reglas de asociación. También, y como parte del desarrollo de la investigación, se plantean los objetivos y la justificación de la misma, que van desde la consolidación de un marco teórico y referencial de los conceptos relacionados a la hipótesis, hasta el análisis, desarrollo e implementación del modelo propuesto que será puesto a prueba experimentalmente. Por último se detallan las limitaciones del estudio. El marco teórico se presenta en el capitulo dos. Los conceptos necesarios para la elaboración del modelo se detallan en este capítulo. En primer lugar se define un «modelo computacional» con el fin de entender y limitar el alcance del diseño a proponer. Luego se expone en. T. E. detalle la minería de datos, desde su definición, proceso, arquitectura y funciones, conclu-. O. yendo en el estudio de la técnica (aprendizaje de reglas de asociación) a asociar al modelo. El. LI. análisis multidimensional se analiza a continuación, definiendo conceptos como modelado. IB. dimensional, datawarehouse, OLAP (on-line analytical processing), cubo multidimensional,. B. etc. Luego se hace una introducción al análisis de datos multidimensional, especificando sus motivos, características y una arquitectura contemporánea ampliamente reconocida y aceptada como OLAM (on-line analytical mining). Por último se exponen algunos conceptos básicos acerca del Análisis Formal de Conceptos, los lattices conceptuales y su importancia en el cálculo de conjuntos de itemsets frecuentes como punto de partida para la obtención de reglas de asociación. Finalmente, en el capítulo tres se describe la metodología para poner a prueba el modelo, así 10. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(21) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. como los materiales a utilizar. La metodología incluye el diseño de la investigación definido como un estudio de caso con una medición (no experimental). También incluye a la población de estudio que consiste en datawarehouses y a la muestra, que simplemente será uno o varios datamarts o cubos de datos. Las variables de estudio también se definen aquí, así. S. como su operacionalización respectiva. Por último se especifican las técnicas e instrumentos. IC. B. IB. LI. O. T. E. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. paquetes de software para realizar las distintas mediciones.. A. a utilizar, refiriéndose a ellos como muestras de datos adquiridas de repositorios libres, y. 11. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(22) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. IC. A. S. Capítulo 3. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. 3.1.. S. Marco teórico. ¿Qué es un modelo computacional?. Un modelo computacional es un modelo matemático en las ciencias de la computación que requiere extensos recursos computacionales para estudiar el comportamiento de un sistema complejo por medio de la simulación por computadora. Si involucramos al término «diseño de un modelo», habría que tener en cuenta que un diseño es un proceso previo de configuración mental o «pre-figuración» en la búsqueda de una solución en cualquier campo. No. E. obstante, si queremos resaltar el hecho de que un diseño aporta una solución, el diseño podría. T. ser considerado como el arte de plantear «soluciones con belleza» (Antúnez) [10]. Una de-. O. finición que pretende abarcar todo ámbito donde el diseño sea aplicable, una definición que. LI. además cuenta con indicadores adicionales que un buen diseño debe cumplir, como armonía,. IB. admiración; factores de interacción, de decisiones, éticos, artísticos y en cuanto a resultados. B. que se pretenden perseguir. Sin embargo, solamente nos interesa el fin último de un diseño, las soluciones. Un modelo computacional, tal como uno convencional, busca representar cierto aspecto de la realidad, planteando relaciones lógicas entre elementos con el fin de exponer un fenómeno y describirlo. Estas relaciones son de tipo matemáticas y la complejidad de las mismas requiere un extenso número de cómputos que serían difíciles de ejecutarse con habilidades humanas.. 12. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(23) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Un modelo computacional también se pone a prueba y se experimenta para poder medir cuán bien se comporta y si es válido para explicar cierto fenómeno. Para realizar esto se opta por la simulación; el modelo se configura con ciertos parámetros iniciales y se delega a un computador la tarea de ejecutar el modelo, observar los resultados e interpretarlos.. S. Muchas investigaciones optan por desarrollar modelos computacionales en lugar de modelos. A. matemáticos clásicos debido a que a menudo se tiene que lidiar con muestras extensas, entre. IC. otras causas. Por ejemplo, si queremos simular el comportamiento de cosas que la tecnología. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. actual no nos permite medir; si queremos validar con más detalle una hipótesis derivada de datos empíricos obtenidos en laboratorio o para proponer una teoría y probarla con sujetos que no son observables.. Por tanto, el diseño de un modelo computacional supone el planteamiento de una solución, que toma la forma de un modelo matemático, a un problema dentro de las ciencias de la computación. Este modelo matemático describe un sistema y estudia su comportamiento mediante la simulación, todo realizado con recursos y herramientas computacionales.. 3.2.. Minería de datos. La minería de datos supone un «proceso no trivial de extracción de información en bases. T. E. de datos, tal que sea implícita, previamente desconocida y potencialmente útil» (tales como. O. reglas de asociación o implicaciones, restricciones, regularidades, etc.) (Chen, Han y Yu). LI. [11]. La minería de datos también es conocida como descubrimiento de conocimiento en. IB. bases de datos o KDD (Knowledge Discovery in Databases), aunque este último abarque un. B. proceso más amplio el cual también considera subprocesos previos y posteriores a la minería en sí. Junto con el análisis multidimensional, la minería de datos es una técnica de análisis de datos, el cual es el proceso de inspeccionar, limpiar, transformar y modelar datos con la meta de resaltar conocimiento útil, sugerir conclusiones y dar soporte a la toma de decisiones.. 13. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(24) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. 3.2.1.. El proceso de descubrimiento de conocimiento. El descubrimiento de conocimiento como proceso se puede ver en la Figura 2.1 y consiste de una secuencia iterativa de los siguientes pasos:. S. 1. Limpieza de datos (remover ruido y datos inconsistentes). IC. A. 2. Integración de datos (donde múltiples fuentes de datos se combinan). S. 3. Selección de datos (donde los datos que son relevantes para la tarea de análisis son. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. recuperados de la base de datos). 4. Transformación de datos (donde los datos se transforman o consolidan en formas apropiadas para la minería, ejecutando operaciones de agregación o resumen, por ejemplo). 5. Minería de datos (un proceso esencial donde métodos inteligentes son aplicados para la extracción de patrones de datos). 6. Evaluación de patrones (para identificar los patrones realmente interesantes que representen conocimiento). E. 7. Presentación de conocimiento (donde la visualización y técnicas de representación. O. T. de conocimiento son utilizadas para presentar el conocimiento minado al usuario). LI. Los pasos del 1 al 4 son distintas formas de preprocesar los datos, donde los datos son prepa-. IB. rados para la minería. El subproceso de minería de datos puede interactuar con el usuario o. B. con una base de conocimiento. Los patrones interesantes son presentados al usuario y pueden ser almacenados como nuevo conocimiento en la base de conocimiento. Nótese que acorde a esta visión, la minería de datos es sólo un paso del proceso entero, aunque uno importante ya que revela patrones desconocidos para su evaluación.. 14. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(25) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. A. Patrones. IC. Minería de datos. Conocimiento. S. Evaluación y presentación. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. Selección y transformación. Limpieza e integración. DW. .. ... Bases de datos. Archivos. Figura 3.1: El proceso de descubrimiento de conocimiento (Han y Kamber) [13].. Arquitectura de un sistema de minería de datos. E. 3.2.2.. T. Se coincide en que la minería de datos es un paso en el proceso de descubrimiento de co-. LI. O. nocimiento, forma parte de él; sin embargo, en la industria, los medios e incluso dentro. IB. de la investigación en bases de datos, el término «minería de datos» se está haciendo cada vez más popular que el de «descubrimiento de conocimiento», por lo que es posible acuñar. B. una definición más funcional de minería de datos: «es el proceso de descubrir conocimiento interesante a partir de grandes cantidades de datos almacenados en bases de datos, datawarehouses u otros repositorios de información» [13]. Basada en esta visión, la arquitectura de un sistema de minería de datos típico puede tener los siguientes componentes (Figura 2.2): Base de datos, datawarehouse, la World Wide Web u otro repositorio de informa15. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(26) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. ción: Este es uno o un conjunto de bases de datos, datawarehouses, hojas de cálculo u otro tipo de repositorio de información. Las técnicas de limpieza e integración de datos pueden ser aplicados a los datos. Servidor de base de datos o de datawarehouse: El servidor de base de datos o de. A. S. datawarehouse es el responsable de la etracción de los datos relevantes, basada en los. IC. requerimientos de minería del usuario.. S. Base de conocimiento: Este es el dominio de conocimiento que será usado para guiar. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. la búsqueda o para evaluar cuán interesantes son los patrones resultantes. Dicho conocimiento puede incluir jerarquías de conceptos, utilizadas para organizar los atributos o sus valores en diferentes niveles de abstracción. Cierto tipo de conocimiento, como creencias o corazonadas del usuario, los cuales pueden servir para asesorar decisiones respecto al nivel de interés de ciertos patrones, también pueden ser incluídas. Otros ejemplos de dominio de conocimiento son algunas restricciones que limiten el nivel de interés, umbrales aplicados a los patrones descubiertos o metadatos (que describen datos provenientes de múltiples fuentes heterogéneas).. Motor de minería de datos: Esencial para un sistema de minería de datos. Idealmente. E. consiste en un conjunto de módulos funcionales para la realización de tareas tales como. T. caracterización, análisis de asociación y correlación, clasificación, predicción, análisis. LI. O. de cluster, análisis aislado y análisis evolutivo.. IB. Módulo de evaluación de patrones: Este componente típicamente emplea medidas. B. para niveles de interés e interactúa con los módulos de minería de datos para enfocar la búsqueda hacia patrones útiles. Puede utilizar umbrales (thresholds) que limiten los niveles de interés aceptados de tal manera que se filtren algunos patrones descubiertos. Alternativamente, el módulo de evaluación puede estar integrado con el módulo de minería, dependiendo de la implementación del método de minería de datos utilizado. Para una minería de datos eficiente, es altamente recomendable profundizar la evaluación de patrones en el proceso de minería lo más que se pueda, de tal manera que se 16. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(27) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. confine la búsqueda a solamente patrones de interés. Interfaz de usuario: Este módulo comunica a los usuarios con el sistema de minería de datos, permitiendo al usuario que interactúe con el sistema especificando una consulta de minería de datos o una tarea, brindando información que ayude a enfocar la. A. S. búsqueda, y realizando una minería de datos exploratoria basada en resultados interme-. IC. dios. Adicionalmente, este componente permite al usuario navegar por los esquemas. S. de bases de datos o datawarehouses, evaluar manualmente los patrones obtenidos y. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. visualizarlos en distintas formas.. Interfaz,de,usuario. Evaluación,de,patrones. Motor,de,minería,de,datos. Base,de conocimiento. limpieza,,integración,y,selección,de,datos. B. IB. LI. O. T. E. Servidor,de,base,de,datos o,datawarehouse. Base,de datos. Data Warehouse. World,Wide Web. Otros repositorios. Figura 3.2: Arquitectura de un sistema de minería de datos (Han y Kamber) [13]. Desde una perspectiva datawarehouse, la minería de datos puede ser vista como una «etapa avanzada para un procesamiento analítico en línea (on-line analytical processing: OLAP)» 17. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(28) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. (Moss y Atre) [14]. Sin embargo, hay que diferenciar bien la funcionalidad de cada técnica, ya que la minería de datos va mucho más allá que el estilo de un procesamiento analítico, incorporando técnicas más avanzadas de análisis de datos. Aunque, hay muchos sistemas de minería de datos en el mercado, no todos realizan una. S. verdadera minería. Un sistema de análisis que no maneja grandes cantidades de datos debe. A. ser categorizado más apropiadamente como sistemas de aprendizaje por computadora. IC. (machine learning system), herramientas estadísticas de análisis de datos o un prototipos. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. de sistemas experimentales. También, un sistema que sólo realiza recuperación de datos o información, incluyendo el proceso de resolución de consultas, debe ser catagorizado como un sistema de base de datos, un sistema de recuperación de información o un sistema deductivo de base de datos.. La minería de datos involucra una integración de técnicas a partir de múltiples disciplinas como tecnologías de bases de datos y datawarehouses, estadística, machine learning, computación de alto rendimiento, reconocimiento de patrones, redes neuronales, visualización de datos, recuperación de información, procesamiento de señales, y análisis de datos espaciales o temporales. Para el actual estudio, se ha hecho un énfasis en técnicas de minería de datos que sean eficientes y escalables. Para que un algoritmo sea escalable, su tiempo de ejecución debe crecer aproximadamente de forma lineal a medida que el tamaño de los datos aumenten. T. E. también, dados ciertos recursos como memoria principal y espacio en disco.. O. Realizando minería de datos, conocimiento de interés, regularidades, o información de alto. LI. nivel pueden ser extraídos desde bases de datos y visualizados desde distintos ángulos. El. IB. conocimiento descubierto puede ser aplicado a la toma de decisiones, control de procesos,. B. administración de información, y procesamiento de consultas. Por tanto, la minería de datos es considerada como una disciplina muy importante dentro de los sistemas de información y de bases de datos.. 18. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(29) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. 3.2.3.. Funciones de la minería de datos. Las funciones de la minería de datos se pueden definir como los «procesos que se llevan a cabo para obtener distintos tipos de patrones» [13]. Estas funcionalidades abarcan la caracterización y discriminación, la minería de patrones frecuentes, asociaciones y correlaciones,. A. S. clasificación, predicción, clustering, análisis evolutivo, etc. La caracterización toma como. IC. punto de partida la definición de una clase de datos la cual se concibe a partir de una consulta. S. a una base de datos. Los datos recuperados forman parte de la clase y el proceso de caracte-. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. rización extraerá un perfil, especificando ciertas características importantes, las mismas que pueden ser exploradas en cualquier nivel de abstracción (navegando por ciertas jerarquías, por ejemplo). La discriminación es un análisis comparativo de dos o más clases de datos, previamante definidas, cuyos perfiles se comparan característica a característica, obteniendo contrastaciones interesantes entre dos o más grupos de datos. Ambas funciones pueden visualizarse mediante gráficos circulares, curvas, cubos y tablas multidimensionales, etc. Otras funciones incluyen la clasificación, que consiste en encontrar una función o modelo que describa y distinga clases o conceptos, con el propósito de utilizar el modelo para predecir la clase de un conjunto de objetos que a priori es desconocida; en otras palabras, con la función o modelo es posible clasificar conjuntos de datos que guarden característi-. E. cas similares. El modelo derivado se basa en el análisis y estudio de un conjunto de «datos. T. de entrenamiento» (objetos no clasificados). El modelo se puede presentar como una regla. O. de clasificación si-entonces, como un árbol de decisión, una fórmula matemática o una red. LI. neuronal. Por otro lado, la predicción se refiere a la obtención de datos numéricos descono-. IB. cidos que probablemente a futuro puedan manifestarse. A diferencia de la clasificación, la. B. predicción maneja datos numéricos, mas no etiquetas descriptivas. El análisis de regresión, el cual es un método estadístico, es ampliamente utilizado en la predicción numérica. Adicionalmente, se puede hablar también del clustering refiriéndose al mismo como un método. similar a la clasificación, con la única diferencia que las clases o conceptos se desconocen a priori y es el sistema el encargado de descubrirlos. Las etiquetas de las clases no están presentes en el conjunto de entrenamiento (cosa que sí sucede en la predicción y clasifica-. 19. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(30) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. ción) simplemente porque no se conocen en primer lugar; de tal manera que el clustering puede utilizarse para generar tales etiquetas. Los clusters de objetos se forman tal que los objetos o datos de un cluster tienen alta similitud entre ellos en comparación con otro, aunque no lo son tanto con objetos o datos de otros clusters. Cada cluster es formado y visto. S. como una clase de objetos desde donde reglas o perfiles pueden ser derivados (utilizando la. IC S. Aprendizaje de reglas de asociación. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. 3.2.4.. A. caracterización) e incluso conformar taxonomías.. Más acorde con el estudio, se verá una función muy importante y utilizada en los sistemas de minería de datos: la minería de patrones frecuentes, asociaciones y correlaciones. El estudio según la literatura consultada es bastante amplio e intenta responder algunas de las siguientes cuestiones: ¿Cómo podemos encontrar conjuntos de datos frecuentes a partir de grandes cantidades de datos donde los mismos son o bien transaccionales o relacionales? ¿Cómo podemos realizar una minería de reglas de asociación a partir de un espacio multidimensional? ¿Cuáles reglas de asociación son las más interesantes? ¿Cómo podemos guiar el proceso de minado de estas reglas? ¿Cómo podemos aprovechar las preferencias de los analistas y sus restricciones para acelerar el proceso de minería? Se detallarán en las próximas. T. E. líneas algunas definiciones básicas respecto a estas cuestiones.. LI. O. Un carrito de compras como modelo de datos. IB. Un modelo de datos de tipo «carrito de compras» es utilizado para describir una relación de muchos a muchos entre dos tipos de entidades. Por un lado tenemos items y por otro. B. tenemos carritos o cestos de compras, a menudo denominados transacciones. Cada cesto de compras contiene un conjunto de items (itemset) y usualmente se asume que la cantidad de. items en el cesto es pequeña, a diferencia de la cantidad de cestos o transacciones que pueden existir (muy grande). Los datos, entonces, se asumen que se estructuran en un archivo como una lista de transacciones, cada una de ellas correspondiendo a un itemset. Nótese cómo la analogía del carrito de compras (transacciones) se puede de alguna manera extender al 20. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(31) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. concepto de tabla (archivo), la cual considera una transacción como un evento (compra) que ocurrió en un tiempo determinado, por cierto usuario en cierta localización. Entonces, es factible representar un «carrito de compras» como una tabla fact que describe el proceso «Ventas» y que supone una relación de muchos a muchos entre sus principales dimensiones:. S. tiempo, lugar y por supuesto, producto (items).. A. Intuitivamente, un conjunto de items (itemset) que aparecen en distintos carritos se puede. IC. decir que son frecuentes. De manera formal, asumimos que existe un número s llamado. subconjunto.. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. umbral de soporte. Si I es un itemset, el soporte de I es el número de cestos donde I es un. Los patrones frecuentes, como su nombre lo sugiere, son patrones que ocurren repetidas veces en los datos. Hay muchos tipos de patrones frecuentes, incluyendo itemsets, subsecuencias y subestructuras (Nagabhushana) [15]. Un conjunto frecuente de items se refiere, típicamente, a un conjunto de items que aparecen juntos frecuentemente en un conjunto de datos transaccional, como por ejemplo la leche y el pan en una venta típica (carrito de compra). Una subsecuencia que ocurre frecuentemente, tal como que los clientes tienden a comprar primero una PC, luego una cámara y después una tarjeta de memoria, es un patrón secuencial (frecuente). Una subestructura puede referirse a distintas formas estructurales como grafos, árboles o retículas (lattices), los cuales se pueden combinar con itemsets o sub-. T. E. secuencias. Si una subestructura ocurre frecuentemente se le denomina patrón estructural. O. (frecuente) [13]. La minería de patrones frecuentes conlleva al descubrimiento de asociacio-. LI. nes y correlaciones interesantes en los datos.. IB. Sea I = {i1 , i2 , . . . , in } un conjunto de n atributos binarios llamados items y D = {t1 ,t2 , . . . ,tm }. B. un conjunto de transacciones. Cada transacción t j es única y contiene un conjunto de items (itemset), tal cual se había especificado anteriormente. Una regla es una implicación de la forma X ⇒ Y tal que X,Y ⊆ I y X ∩Y = 0. / Nótese que tanto antecedente como consecuente son itemsets. Análisis de asociaciones. Supongamos que deseamos conocer qué productos se compran juntos en una misma transacción en una tienda de electrónica. Un ejemplo de dicha regla, que resultó de un proceso de minería de la base de datos transaccional de la tienda, es la 21. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(32) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. siguiente: compra(X, “PC”) ⇒ compra(X, “software”) [soporte = 1 %, con f ianza = 50 %] donde X es la variable que representa a un cliente. La confianza, o certeza, de un 50 %. S. significa que si un cliente compra una PC, hay un 50 % de probabilidad que también compre. A. software. Un soporte de 1 % quiere decir que de todas las transacciones analizadas sólo el. IC. 1 % muestran que computadoras y software se compran juntos. Esta regla de asociación. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. involucra a un solo atributo o predicado (compra) y las reglas de este tipo se dice que son unidimensionales [13]. Dejando a un lado la notación con predicado, la regla anterior puede reescribirse como “PC ⇒ so f tware [1 %, 50 %]”.. Supongamos, nuevamente, que ahora tenemos la base de datos relacional de la tienda correspondiente a las ventas (que típicamente podría tratarse de un datamart). Un sistema de minería de datos podría encontrar reglas de asociación como:. edad(X, “20 . . . 29”) ∧ ingresos(X, “20K . . . 29K”) ⇒ compra(X, “CD player”) [soporte = 2 %, con f ianza = 60 %]. Esta regla indica que de todos los clientes analizados, 2 % tienen de 20 a 29 años de edad con un ingreso de 20,000 a 29,000 y han comprado un reproductor de CD en la tienda. Hay. E. un 60 % de probabilidad de que un cliente dentro de ese rango de edad e ingresos compre. O. T. un reproductor. Nótese que en la regla se utilizan más de un atributo o predicado, por lo que. LI. este tipo de reglas se denominan reglas de asociación multidimensionales [13]. Adicional-. IB. mente, una regla de asociación se descarta si no satisface los umbrales correspondientes a un. B. soporte y confianza mínimos. El proceso para la obtención de reglas de asociación, como veremos con más detalle más adelante, consiste en primero encontrar todos los itemsets frecuentes de un conjunto de transac-. ciones. Para tal fin, se debe limitar el espacio de búsqueda a aquellos itemsets que cumplan con un umbral de soporte mínimo minsupp. Luego, partiendo de estos itemsets, se deben estructurar de tal manera que se obtengan reglas de asociación pertinentes que cumplan con un umbral de confianza mínimo minconf. 22. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(33) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. 3.3.. Análisis multidimensional. El análisis multidimensional es una técnica de análisis de datos la cual «agrupa a los datos en dimensiones y medidas» [15]. Su objetivo también es la de generar conocimiento, pero éste no se descubre, se valida con hipótesis previamente concebidas. Esto se logra rea-. A. S. lizando operaciones de filtrado sobre la estructura (cubo multidimensional) que conforman. IC. las dimensiones y medidas. Un cubo multidimensional puede entenderse como un «espacio. S. vectorial, donde la magnitud de un vector es una medida» (Wrembel y Koncilia) [16]. Por. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. ejemplo, si consideramos a tiempo, producto y región como dimensiones, un vector típico podría ser (Agosto de 2012, Zapatillas, Piura) o (2011, Calzado, Perú), dependiendo de las jerarquías de las dimensiones. Una magnitud asociada a un vector podría ser cantidad de ventas, monto de ventas, etc. Partiendo con los principios del modelado multidimensional se irán paulatinamente profundizando más los términos de interés.. 3.3.1.. Modelado multidimensional. Las bases de datos operacionales se enfocan en capturar y almacenar transacciones, por tanto son caracterizadas por una carga de trabajo OLTP (on-line transaction processing). En contraparte, los almacenes de datos o datawarehouses permiten un análisis complejo de datos. T. E. con soporte para la toma de decisiones; adicionalmente, la carga de trabajo que soportan. O. tiene características distintas y es ampliamente conocida como OLAP (on-line analytical. LI. processing). Tradicionalmente, las aplicaciones OLAP están concebidas a partir de un mo-. IB. delado multidimensional, que «intuitivamente representa los datos bajo la metáfora de un. B. cubo cuyas celdas corresponden a eventos que ocurren en el dominio de un negocio» [16]. Cada evento es cuantificado con un conjunto de medidas y cada arista del cubo corresponde a una dimensión relevante para el análisis, típicamente asociada a una jerarquía de atributos que la describen. Algunas herramientas de análisis propias de IBM empoderan a los analistas a preguntarse cuestiones complejas e intuitivas sobre el negocio como: «¿cuál fue mi ganancia en el tercer trimestre del año sobre la región sureste para mis productos estrella?» Tales preguntas re23. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(34) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. quieren múltiples perspectivas en los datos, tal como tiempo, región y productos. Cada una de estas perspectivas se llama dimensión. Y dimensiones y medidas conforman el enfoque dimensional. En este modelo, todos los datos están contenidos en bien tablas fact o tablas dimensión.. S. Una tabla de hechos o fact «contiene las medidas asociadas a un dominio de negocio o. A. proceso» [15]. Si se está examinando un proceso de ventas para un negocio, entonces las. IC. medidas relevantes a este dominio, tal como «ventas diarias», son capturadas en una tabla. C Y A M D A E T C E IE M N Á C T I IC A A S S FÍ. S. fact «Ventas». En adición a las medidas, los únicos campos adicionales a una tabla fact son las llaves foráneas de las tablas dimensión asociadas.. La tabla dimensión provee de un contexto para entender las medidas. Uno puede pensar como el «contexto de una medida» a las características relevantes tales como el quién, qué, dónde, cuándo y cómo de una medida (sujeto) [15]. En el proceso de negocio Ventas, las características de una «venta diaria» puede ser la localización (dónde), tiempo (cuándo) y producto vendido (qué). Los atributos de una dimensión son las distintas columnas en una tabla dimensión. En la localización, por ejemplo, los atributos pueden ser Código de localización, Estado, País, etc. Los atributos de este tipo se utilizan como restricciones para las consultas multidimensionales, e incluso también contienen una o más relaciones jerárquicas [16]. Por ejemplo, los meses de un trimestre en la dimensión «Tiempo».. T. E. Las operaciones de filtrado que se realizan sobre un cubo multidimensional facilitan el aná-. O. lisis al permitir que el analista guíe la búsqueda de respuestas a sus consultas por medio de. LI. manipulación directa de los datos, obteniendo vistas diversas y distintos enfoques de análi-. IB. sis [15]. Las operaciones más comunes (cubing) incluyen el slice, dice, drill down, roll up. B. (también roll down) y pivoteo.. 3.3.2.. On-Line Analytical Processing (OLAP). OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line Analytical Processing). Es una solución cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello «utiliza estructuras multidimensionales (o cubos OLAP) que contienen datos. 24. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.