4. MINERÍA DE DATOS
4.5 Softwares para minería de datos
El método tradicional de convertir los datos en conocimientos consiste en un análisis e interpretación realizada de forma manual; esta forma de actuar es lenta, cara, y altamente subjetiva. El análisis manual es impracticable en dominios donde el volumen de los datos crece exponencialmente: la enorme abundancia de los datos desborda la capacidad humana de comprenderlos sin ayuda de herramientas potentes (Hernández Orallo et al. 2004). Algunos
paquetes de software, ampliamente utilizados actualmente, para el desarrollo de modelos de minería de datos sobre las cuales se puede encontrar mucha información en diversas páginas web y artículos electrónicos en internet se muestran en el Cuadro 3.
Cuadro 3. Softwares más utilizados para minería de datos Software Gratuitos Software Comerciales
KEEL OpenNN R RapidMiner Weka JHepWork KNIME Orange Oracle Darwin
SAS Enterprise Miner
SPSS Clementine SQL Server Analysis Services STATISTICA Data Miner dVelox KXEN Powerhouse Quiterian Neural Designer
56
Cuadro 4. Análisis de características de las principales herramientas de minería de datos
PRODUCTO Redes neuronales Arboles de decisión Criterio de Bayes Empleo de k_medias Técnicas estadísticas Predicci ón Series de tiempo Agrup ación Asocia ción Comp. Windows Comp. Unix Escalabili dad paralela Extensio nes SQL Knowl. Seeker X X X X Knowl. Studio X X X X X X X X X BusinesMiner X X 4Thought X X X X Scenario X X Marksman X X X X X Red Brick X X X X X Intelligent Miner X X X X X X X X X Dec. Series X X X X X X X X Neural SIM X X X Darwin X X X X X CART X X X X Enterprise Miner X X X X X X X X X Answer tree X X X X X Clementine X X X X X X X X Neural Connection X X X X X Pattern recog. Workbench X X X X X X X
57
Sánchez Cañizares et al. (2005) presentaron una evaluación de las principales características de
17 aplicaciones relacionadas con la minería de datos. Las características que se evaluaron se relacionaron con el empleo o no de ciertas herramientas o lenguajes estadísticos y su compatibilidad con ciertas plataformas informáticas; esencialmente se analizó el empleo de algunos algoritmos de minería de datos como: redes neuronales, árboles de decisión, k-medias, uso del criterio de Bayes, técnicas estadísticas tradicionales como la obtención de los principales estadísticos descriptivos, realización de predicciones, el uso de series de tiempo, la formulación de agrupaciones, la detección de asociaciones, la compatibilidad con Windows 95/98/NT y UNIX, la escalabilidad paralela y el uso de extensiones SQL; los resultados obtenidos en ésta evaluación se muestran en el Cuadro 4. Importante es mencionar que, a la fecha, los softwares de minería de datos han evolucionado de tal manera que muchas de las características que no presentaban durante esta evaluación ya han sido incorporadas dentro de las herramientas de análisis actuales.
4.6 Resumen
En este capítulo se introdujo el concepto de minería de datos, el proceso por el cual se genera la minería de datos y se describieron algunos de los algoritmos de minería datos más utilizados en la actualidad.
Algunas definiciones que se pueden encontrar en la literatura sobre MD hacen referencia a la definición que se dio en Frawley et al. (1992) “La minería de datos puede definirse como la
extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de los datos”.
El paso de tiempo ha ido agregando conceptos a la definición anterior, relacionándola con los medios de almacenamiento de información, como la de Witten y Frank (2000, en Clark y Boswell, 2000) quienes definen a la minería de datos como el proceso de extraer conocimiento
58
útil y comprensible, previamente desconocido, a partir de grandes cantidades de datos almacenados en distintos formatos.
En la actualidad la información de las corporaciones se guardan mayormente en grandes bases de datos por la cual la definición de MD también ha acuñado éste concepto, como por ejemplo en Zhu (2009) se menciona que la minería de datos puede ser conocida como la extracción de información implícita, previamente desconocida y potencialmente útil a partir de grandes bases de datos.
La minería de datos forma parte de un proceso conocido como extracción de conocimiento a partir de bases de datos, o proceso KDD, que en sus primeras fases intenta superar los retos que comúnmente se presentan con los datos de análisis. Hernández Orallo et al. (2004), hace una
importante contribución al tema de la extracción de conocimientos en bases de datos al dividirlo en cinco fases:
1.Integración y recopilación de datos. 2.Selección, limpieza y transformación 3.Minería de datos.
4.Evaluación e interpretación. 5.Difusión y uso.
La estadística fue la primera ciencia en considerar a los datos como su materia prima, pero las nuevas necesidades y, en particular, las nuevas características de los datos (volumen y tipología) hacen que las disciplinas que integran la minería de datos sean numerosas y heterogéneas. En Wang (2009) se realizó una recopilación de trabajos y algoritmos considerados como técnicas de minería de datos, que fueron clasificados en 10 grupos:
1. Modelación estadística paramétrica: modelos de regresión, modelos de regresión sobre componentes no correlacionados, modelos de regresión con variables categóricas, modelos lineales generalizados (regresión logística el más común), análisis discriminante y series de tiempo.
59
2. Modelación estadística no paramétrica: regresión no paramétrica y discriminación no paramétrica.
3. Reglas de asociación y dependencia: Reglas de asociación, reglas de dependencia, reglas de asociación multinivel y reglas de asociación secuenciales.
4. Métodos bayesianos: Teorema de Bayes e hipótesis MAP, Naïve Bayes, Redes bayesianas y clasificadores basados en redes bayesianas.
5. Árboles de decisión y sistemas de reglas: árboles de decisión para clasificación, sistema de aprendizaje de reglas por cobertura, poda y reestructuración, árboles de decisión para regresión y agrupamiento o estimación de probabilidades.
6. Métodos relacionales y estructurales: programación lógica y base de datos, y programación lógica inductiva.
7. Redes neuronales artificiales: redes neuronales con aprendizaje supervisado y redes neuronales con aprendizaje no supervisado.
8. Máquinas de vectores soporte: máquinas de vectores soportes para clasificación binaria. 9. Extracción de conocimientos con algoritmos evolutivos y reglas difusas: Computación
evolutiva y lógica difusa.
10. Métodos basados en casos y en vecindad: técnicas para agrupamiento (mapas auto- organizativos de Kohonen, k medias, agrupamiento jerárquico), técnicas para clasificación (estimación bayesiana de funciones de densidad, K vecinos más cercanos, redes de cuantificación vectorial), métodos de vecindad con técnicas evolutivas (clasificación por vecindad mediante algoritmos genéticos, algoritmos evolutivos de estimación de distribuciones, aprendizaje incremental basado en poblaciones, algoritmo genético compacto), y razonamiento basado en casos.
60