Trabajo final de
Ingeniería
Weka – Data Mining
Universidad Abierta Interamericana Página 1
WEKA (Data Mining)
Concepto de Data Mining
La minería de datos (Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.
Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y
segmentación.
¿WEKA: Por qué su nombre?
La Weka (Gallirallus australis) es un ave endémica de Nueva Zelanda. Esta gallinácea en peligro de extinción es famosa por su curiosidad y agresividad. De aspecto pardo y tamaño similar a una gallina las wekas se alimentan
fundamentalmente de insectos y frutos.
Introducción a WEKA
WEKA (Waicato Environment for Knowledge Analysis) es un entorno para experimentación de análisis de datos que permite aplicar, analizar y evaluar las técnicas más relevantes de análisis de datos, principalmente las provenientes del aprendizaje automático, sobre cualquier conjunto de datos del usuario. Para que esto suceda sólo se requiere que los datos a analizar se encuentren almacenados en un formato conocido como ARFF (Attribute-Relation File Format). La
herramienta permite cargar los datos en tres soportes: fichero de texto, acceso a una base de datos y acceso a través de internet sobre una dirección URL de un servidor Web.
Universidad Abierta Interamericana Página 2 previo, el agrupamiento, clasificación, regresión, visualización y selección de
características. Sus técnicas se basan en la hipótesis de que los datos están disponibles en un único archivo plano o una relación, donde se etiqueta cada punto de datos por un número fijo de atributos. WEKA proporciona acceso a bases de datos SQL utilizando Java Database Connectivity y puede procesar el resultado devuelto por una consulta de base de datos.
Con el objeto de facilitar su uso por un mayor número de usuarios, WEKA además incluye una interfaz gráfica de usuario para acceder y configurar las diferentes herramientas integradas.
Se distribuye como software de libre distribución desarrollado en Java. Está constituido por una serie de paquetes de código abierto. Estos paquetes pueden ser integrados en cualquier proyecto de análisis de datos e incluso pueden
extenderse con contribuciones de los usuarios que desarrollen nuevos algoritmos, es por ello que WEKA está diseñado como una herramienta orientada a la
extensibilidad por lo que añadir nuevas funcionalidades es una tarea sencilla.
La versión original de Weka fue un front-end para modelar algoritmos
implementados en otros lenguajes de programación, más unas utilidades para pre procesamiento de datos desarrolladas en C para hacer experimentos de
aprendizaje automático. Esta versión original se diseñó inicialmente como
herramienta para analizar datos procedentes del dominio de la agricultura,pero la versión más reciente basada en Java (WEKA 3), que empezó a desarrollarse en 1997, se utiliza en muchas y muy diferentes áreas, en particular con finalidades docentes y de investigación.
Razones por las cuáles usar WEKA
- Está disponible libremente bajo la Licencia Pública general de GNU.
- Es muy portable porque está completamente implementado en Java y puede correr en casi cualquier plataforma.
- Contiene una extensa colección de técnicas para pre procesamiento de datos y modelado.
- Es fácil de utilizar por un principiante gracias a su interfaz gráfica de usuario.
Universidad Abierta Interamericana Página 3 Otro punto en contra de ésta herramienta es que los algoritmos incluidos en
WEKA no cubren el área de modelado de secuencias.
Interfaz de usuario
WEKA GUI Chooser
Cuando se ejecuta por primera vez la aplicación nos aparece el Selector de interfaz de WEKA (WEKA GUI Chooser), que nos da la opción de elegir entre cuatro posibles interfaces de usuario para acceder a las funcionalidades del programa, dichas interfaces son las siguientes:
1. Simple CLI (interfaz simple de línea de comandos): es una consola que permite acceder a todas las opciones de WEKA desde lína de comandos.
2. Explorer: dicha interfaz dispone de diferentes paneles que dan acceso a los componentes principales del banco de trabajo. Dichos paneles son:
- el panel “Preprocess”: dispone de opciones para importar datos de una base de datos, de un fichero CSV, etc., y para pre procesar estos datos utilizando algoritmos de filtrado.Estos filtros se pueden utilizar para transformar los datos (por ejemplo convirtiendo datos numéricos en valores discretos) y para eliminar registros o atributos según distintos criterios previamente especificados.
Universidad Abierta Interamericana Página 4 estimar la exactitud del modelo predictivo resultante y para visualizar predicciones erróneas, o el propio modelo (si el mismo es susceptible de ser visualizado, como por ejemplo un árbol de decisión).
- el panel “Associate”: proporciona acceso a las reglas de asociación aprendidas que intentan identificar todas las interrelaciones
importantes entre los atributos de los datos.
- el panel “Cluster”: da acceso a las técnicas de clustering o
agrupamiento de WEKA como por ejemplo el algoritmo “K-Means”.
- el panel “Selected Attributes”: proporciona algoritmos para
identificar los atributos más predictivos en un conjunto de datos.
- el panel “Visualize”: muestra una matriz de puntos dispersos donde cada punto individual puede seleccionarse y agrandarse para ser analizados en detalle usando varios operadores de selección.
Interfaz Explorer y sus paneles
Universidad Abierta Interamericana Página 5 4. Knowledge Flow (Flujo de Conocimiento): es una interfaz que soporta las