Conclusiones y líneas futuras

Capítulo 6

6.1 Conclusiones

En el presente trabajo de tesis se han mostrado las prácticas más comúnmente utilizadas en el preproceso de datos dentro de un proyecto de Data Mining que corresponden, en el modelo de procesos CRISP-DM, a la fase de Data Understanding. Haciendo un análisis de los resultados que se obtienen de estas prácticas y de los retos que los expertos en el área consideran que enfrenta esta fase, se han identificado problemas relativos a documentación y transmisión de dichos resultados cuando los proyectos de Data Mining se desarrollan en entornos ubicuos y de colaboración.

Este análisis ha sido el punto más importante dentro de esta tesis, ya que de él dependía la correcta elección de soluciones a los problemas de transmisión de resultados planteados anteriormente y es el punto en donde se ha concentrado el mayor esfuerzo.

De la información obtenida de este análisis se propone como solución la utilización del lenguaje de especificación de modelos estadísticos y de Data Mining PMML, tomando en cuenta sus capacidades y extendiendo las mismas con él fin de satisfacer todas las necesidades planteadas en el análisis.

En este trabajo se ha presentado, además, una implantación del lenguaje con las extensiones propuestas, a fin de mostrar que la solución satisface las necesidades de documentación y especificación de la fase. La solución mostrada en la implementación muestra la generación y lectura del documento PMML para un conjunto de datos crudo que se preprocesa para su posterior utilización en las siguientes fases de un proyecto de Data Mining.

Con todo lo anterior, se han cumplido los objetivos planteados para esta tesis y, específicamente, con el objetivo principal que era proponer un estándar como medio común para representar y transmitir los resultados de las tareas realizadas en la fase de Data

Understanding hacia otras tareas de dicha fase y hacia otras fases del proceso, cuando se trabaja con proyectos de Data Mining bajo condiciones de ubicuidad y colaboración.

6.2 Líneas futuras

Esta tesis ha propuesto un estándar como medio común para representar y transmitir los resultados de las tareas involucradas en la fase de Data Understanding. A pesar de haberse alcanzado de manera exitosa los objetivos planteados, esta tesis deja abiertas líneas de investigación que pueden ser abordadas en un futuro.

Concretamente, las siguientes líneas futuras pueden derivarse de este trabajo:

• Desarrollar extensiones adicionales a PMML para el Data Understanding de modelos de procesos especializados en donde se realizan tareas de preproceso de datos que no han sido abordadas en el análisis realizado en el capítulo 3.

• Desarrollar parsers específicos para el análisis de documentos PMML extendido. • Desarrollar aplicaciones específicas para el análisis de los datos en la fase Data

Understanding que generen y consuman el PMML extendido propuesto en el capítulo 4.

• Extender PMML para adaptarlo a las necesidades de documentación y transmisión de información de la fase de Data Preparation.

Referencias bibliográficas

[CrispDM00] "CRISP-DM 1.0, Step-by-step Data Mining guide", http://www.crispdm.org, The CRISP-DM Consortium, Agosto 2000

[Dmg07] "PMML V. 3.2 specification", http://www.dmg.org, Data Mining Group, Mayo 2007

[GrHorMay02] "Data mining standards initiatives", Robert Grossman, Mark Hornick y G. Mayer, Communications of the ACM, 45(8):59–61, 2002

[Grobelnik07] "Knowledge discovery standards in ubiquitous environments", PKDD/ECML 2007 http://www.ecmlpkdd2007.org/CD/tutorials/KDUbiq/kdubiq_print.pdf, Marko Grobelnik, Michael May y Dennis Wegener, Septiembre 2007

[Grossman02] "Emerging Data Mining Standards and Interfaces", Robert Grossman, Universidad de Illinois en Chicago, Handbook of Data Mining, 2002

[Grossman06] "KDD Workshop on Data Mining Standards, Services & Platforms (DMSSP)",http://www.sigkdd.org/explorations/issues/8-2-2006-12/12-dmssp-06-v2.pdf, Robert Grossman, 2006

[Haigh06] "Remembering the Office of the Future: The Origins of Word Processing and Office Automation", Thomas Haigh, Publicado por la IEEE Computer Society, 2006

[Hornick04] "Java Data Mining API" , JSR-73 Home Page,

http://java.sun.com/aboutJava/communityprocess/jsr/jsr_073_jolap.html, Mark Hornick, Java Community Process.

[Iso06] "SQL multimedia and application packages Part 6: Data mining", ISO Standandard, 2006

[KdN07] "KdNuggets.com",

[Khabaza05] "Hard Hats for Data Miners: Myths and Pitfalls of Data Mining", Tom Khabaza, DM Review, Mayo 2005

[Lavrac02] "Paper Introduction: Lessons Learned from Data Mining Applications and Collaborative Problem Solving",

http://www.ar.sanken.osaka-u.ac.jp/~motoda/papers/dmll_intro.pdf, Nada Lavrac, Hiroshi Motoda, Tom Fawcett, Robert Holte, Pat Langley y Pieter Adriaans, 2002

[Microsoft02] "XML for Analysis V. 1.1 Specification", http://www.xmlforanalysis.com, Microsoft Corporation, Noviembre 2002

[Pyle99] "Data Preparation for Data Mining", Dorian Pyle, Morgan Kaufmann Publishers, 1999

[Rae01] "Diccionario de la lengua española", 22.ª ed., Real Academia Española, Espasa, 2001

[Sas00] "Getting from Data to Mining: Best Practices in Data Preparation", John Stultz, Georgia Ladnier y Kristin Nauta, SAS Institute Inc., Marzo 2000

[Shearer00] "The CRISP-DM Model: The New Blueprint for Data Mining", Colin Shearer, Journal of Data Warehousing, Noviembre 2000

[Tufte01] “The Visual Display of Quantitative Information”, Segunda edición, Edward R. Tufte, Mayo 2001

[Weiser91] "The Computer for the 21st Century", Mark Weiser, Scientific American 265(3): págs. 94-104, Septiembre 1991

[WittenFrank05] "Data Mining: Practical Machine Learning Tools and Techniques", Segunda edición, Ian H. Witten y Eibe Frank, Morgan Kauffman Publishers, 2005

In document Extensiones de PMML para el preproceso de datos en proyectos de data mining (página 139-144)