Softwares para minería de datos

4. MINERÍA DE DATOS

4.5 Softwares para minería de datos

El método tradicional de convertir los datos en conocimientos consiste en un análisis e interpretación realizada de forma manual; esta forma de actuar es lenta, cara, y altamente subjetiva. El análisis manual es impracticable en dominios donde el volumen de los datos crece exponencialmente: la enorme abundancia de los datos desborda la capacidad humana de comprenderlos sin ayuda de herramientas potentes (Hernández Orallo et al. 2004). Algunos

paquetes de software, ampliamente utilizados actualmente, para el desarrollo de modelos de minería de datos sobre las cuales se puede encontrar mucha información en diversas páginas web y artículos electrónicos en internet se muestran en el Cuadro 3.

Cuadro 3. Softwares más utilizados para minería de datos Software Gratuitos Software Comerciales

 KEEL  OpenNN  R  RapidMiner  Weka  JHepWork  KNIME  Orange  Oracle Darwin

 SAS Enterprise Miner

 SPSS Clementine  SQL Server Analysis Services  STATISTICA Data Miner  dVelox  KXEN  Powerhouse  Quiterian  Neural Designer

Cuadro 4. Análisis de características de las principales herramientas de minería de datos

PRODUCTO Redes neuronales Arboles de decisión Criterio de Bayes Empleo de k_medias Técnicas estadísticas Predicci ón Series de tiempo Agrup ación Asocia ción Comp. Windows Comp. Unix Escalabili dad paralela Extensio nes SQL Knowl. Seeker _X _X _X _X Knowl. Studio _X _X _X _X _X _X _X _X _X BusinesMiner _X _X 4Thought _X _X _X _X Scenario _X _X Marksman _X _X _X _X _X Red Brick _X _X _X _X _X Intelligent Miner X X X X X X X X X Dec. Series _X _X _X _X _X _X _X _X Neural SIM _X _X _X Darwin _X _X _X _X _X CART _X _X _X _X Enterprise Miner X X X X X X X X X Answer tree _X _X _X _X _X Clementine _X _X _X _X _X _X _X _X Neural Connection X X X X X Pattern recog. Workbench X X X X X X X

Sánchez Cañizares et al. (2005) presentaron una evaluación de las principales características de

17 aplicaciones relacionadas con la minería de datos. Las características que se evaluaron se relacionaron con el empleo o no de ciertas herramientas o lenguajes estadísticos y su compatibilidad con ciertas plataformas informáticas; esencialmente se analizó el empleo de algunos algoritmos de minería de datos como: redes neuronales, árboles de decisión, k-medias, uso del criterio de Bayes, técnicas estadísticas tradicionales como la obtención de los principales estadísticos descriptivos, realización de predicciones, el uso de series de tiempo, la formulación de agrupaciones, la detección de asociaciones, la compatibilidad con Windows 95/98/NT y UNIX, la escalabilidad paralela y el uso de extensiones SQL; los resultados obtenidos en ésta evaluación se muestran en el Cuadro 4. Importante es mencionar que, a la fecha, los softwares de minería de datos han evolucionado de tal manera que muchas de las características que no presentaban durante esta evaluación ya han sido incorporadas dentro de las herramientas de análisis actuales.

4.6 Resumen

En este capítulo se introdujo el concepto de minería de datos, el proceso por el cual se genera la minería de datos y se describieron algunos de los algoritmos de minería datos más utilizados en la actualidad.

Algunas definiciones que se pueden encontrar en la literatura sobre MD hacen referencia a la definición que se dio en Frawley et al. (1992) “La minería de datos puede definirse como la

extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de los datos”.

El paso de tiempo ha ido agregando conceptos a la definición anterior, relacionándola con los medios de almacenamiento de información, como la de Witten y Frank (2000, en Clark y Boswell, 2000) quienes definen a la minería de datos como el proceso de extraer conocimiento

útil y comprensible, previamente desconocido, a partir de grandes cantidades de datos almacenados en distintos formatos.

En la actualidad la información de las corporaciones se guardan mayormente en grandes bases de datos por la cual la definición de MD también ha acuñado éste concepto, como por ejemplo en Zhu (2009) se menciona que la minería de datos puede ser conocida como la extracción de información implícita, previamente desconocida y potencialmente útil a partir de grandes bases de datos.

La minería de datos forma parte de un proceso conocido como extracción de conocimiento a partir de bases de datos, o proceso KDD, que en sus primeras fases intenta superar los retos que comúnmente se presentan con los datos de análisis. Hernández Orallo et al. (2004), hace una

importante contribución al tema de la extracción de conocimientos en bases de datos al dividirlo en cinco fases:

1.Integración y recopilación de datos. 2.Selección, limpieza y transformación 3.Minería de datos.

4.Evaluación e interpretación. 5.Difusión y uso.

La estadística fue la primera ciencia en considerar a los datos como su materia prima, pero las nuevas necesidades y, en particular, las nuevas características de los datos (volumen y tipología) hacen que las disciplinas que integran la minería de datos sean numerosas y heterogéneas. En Wang (2009) se realizó una recopilación de trabajos y algoritmos considerados como técnicas de minería de datos, que fueron clasificados en 10 grupos:

1. Modelación estadística paramétrica: modelos de regresión, modelos de regresión sobre componentes no correlacionados, modelos de regresión con variables categóricas, modelos lineales generalizados (regresión logística el más común), análisis discriminante y series de tiempo.

2. Modelación estadística no paramétrica: regresión no paramétrica y discriminación no paramétrica.

3. Reglas de asociación y dependencia: Reglas de asociación, reglas de dependencia, reglas de asociación multinivel y reglas de asociación secuenciales.

4. Métodos bayesianos: Teorema de Bayes e hipótesis MAP, Naïve Bayes, Redes bayesianas y clasificadores basados en redes bayesianas.

5. Árboles de decisión y sistemas de reglas: árboles de decisión para clasificación, sistema de aprendizaje de reglas por cobertura, poda y reestructuración, árboles de decisión para regresión y agrupamiento o estimación de probabilidades.

6. Métodos relacionales y estructurales: programación lógica y base de datos, y programación lógica inductiva.

7. Redes neuronales artificiales: redes neuronales con aprendizaje supervisado y redes neuronales con aprendizaje no supervisado.

8. Máquinas de vectores soporte: máquinas de vectores soportes para clasificación binaria. 9. Extracción de conocimientos con algoritmos evolutivos y reglas difusas: Computación

evolutiva y lógica difusa.

10. Métodos basados en casos y en vecindad: técnicas para agrupamiento (mapas auto- organizativos de Kohonen, k medias, agrupamiento jerárquico), técnicas para clasificación (estimación bayesiana de funciones de densidad, K vecinos más cercanos, redes de cuantificación vectorial), métodos de vecindad con técnicas evolutivas (clasificación por vecindad mediante algoritmos genéticos, algoritmos evolutivos de estimación de distribuciones, aprendizaje incremental basado en poblaciones, algoritmo genético compacto), y razonamiento basado en casos.

5. ADMINISTRACIÓN DE DATA WAREHOUSE Y MINERÍA DE

In document Data Warehouse y minería de datos como alternativas al análisis de datos forestales. (página 72-78)