Clasificadores utilizados - Uso de la herramienta Weka

5.2 Uso de la herramienta Weka

5.2.3 Clasificadores utilizados

En esta sección se describen los clasificadores utilizados para las pruebas. La selección de estos clasificadores se basa en los resultados que se desean obtener. Weka permite aplicar unos métodos u otros en concordancia con el propósito del estudio. En este caso, el propósito es predecir bajo que condiciones un usuario determinado desperdicia energía. A continuación se describen breve=mente cada uno de los clasificadores utilizados.

5.2.3.1 J48

El algoritmo J48 de Weka es una implementación del algoritmo C4.5 [1], uno de los algoritmos de minería de datos más utilizados. De los parámetros de configuración que permite modificar Weka (ver 5.8), el más importante es el factor de confianza para la poda,

confidenceFactor, puesto que influye notoriamente en el tamaño y capacidad de predicción del árbol construido.

Una explicación simplificada de este parámetro de construcción del árbol es la siguiente: para cada operación de poda, define la probabilidad de error que se permite a la hipótesis de que el empeoramiento debido a esta operación sea significativo. Cuanto más baja se haga esa probabilidad, se exigirá que la diferencia en los errores de predicción antes y después de podar sea más significativa para no podar. El valor por defecto de este factor es del 25%, y conforme va bajando se permiten más operaciones de poda y por tanto llegar a árboles cada vez más pequeños. Otra forma de variar el tamaño del árbol es a través de un parámetro que especifica el mínimo número de instancias por nodo, aunque es menos elegante puesto que depende del número absoluto de instancias en el conjunto de partida.

Para las pruebas se configuran los parámetros del algoritmo con los valores por defecto, salvoconfidenceFactor = 0.7, para cada uno de los usuarios a estudiar. Este valor se selec- ciona con el objetivo de reducir el árbol generado, teniendo en cuenta solo los casos que ocurren mas frecuentemente y con un alto grado de acierto.

5.2.3.2 Naive Bayes (clasificador Bayesiano “ingenuo”)

El clasificador probabilísticoNaive BayesoBayesiano ingenuoen español, tiene sus funda-

mentos en el Teorema de Bayes [16]. Es uno de los algoritmos de aprendizaje práctico más utilizados por su sencillez. Entre sus ventajas está que su implementación es muy fácil y obtiene buenos resultados de clasificación en la mayoría de los casos.

Naive Bayeses una técnica de clasificación y predicción supervisada, ya que necesita de ejemplos previos que ayuden a clasificar los datos a evaluar. La técnica permite construir

modelos que predicen la probabilidad de resultados. Centra su fundamento en la hipóte- sis de que todos los atributos son independientes entre sí, conocido el valor de la variable clase. El algoritmo representa una distribución de una mezcla de componentes, donde cada componente dentro de todas las variables se asumen independientes. Esta hipóte- sis de independencia da lugar a un modelo de un único nodo raíz, correspondiente a la clase, y en el que todos los atributos son nodos hoja que tienen como único origen a la variable clase.

En varias situaciones se ha demostrado que el algoritmo en cuestión trabaja mejor en dos casos: cuando los atributos son completamente independientes, como es lógico esperar dada su premisa, y cuando los atributos son funcionalmente dependientes, lo que ya es menos evidente; y llegando a presentar sus peores resultados en situaciones intermedias entre estos dos extremos [41]. El caso de estudio presenta parámetros que son en su mayoría funcionalmente dependientes, por eso se considera su utilización para el análisis de los datos.

Para las pruebas se utiliza la configuración por defecto de Weka (ver figura 5.9).

5.2.3.3 Optimización mínima secuencial (SMO)

Este algoritmo está basado en redes neuronales (funcionamiento inspirado en el cere- bro humano, de ahí su nombre) cuya característica más importante es su capacidad de aprender a partir de ejemplos, lo cual les permite generalizar sin tener que formalizar el conocimiento adquirido [38].

El algoritmo SMO se caracteriza por tener un aprendizaje no supervisado competitivo y por no tener ningún resultado objetivo al que la red deba tender. Además, SMO divide el problema en una serie de problemas más pequeños que se resuelven de forma analítica. Cada neurona de la red calcula la similitud entre el vector de entrada y su propio vector de pesos según un criterio de similitud establecido. A continuación, simulando un proceso competitivo, se declara vencedora la neurona cuyo vector de pesos es el más similar al de entrada. Esto, hace que la red SMO se comporte como un clasificador, ya que la neurona de salida activada representará la clase a la que pertenece la información de entrada.

De los parámetros que permite configurar Weka (ver 5.10), se destacan los siguientes: • numFolds: número de iteraciones para validación cruzada, usada para generar datos

de entrenamiento para modelos logísticos (-1 significa usar datos de entrenamiento). • randomSeed: número aleatorio de semillas para la validación cruzada.

Figura 5.9:Parámetros de configuración Naives Bayes

5.2.3.4 Ridor (RIpple-DOwn Rule)

Genera primero una regla por defecto (predeterminada) y luego toma las excepciones para la regla predeterminada con la mínima tasa de error. Entonces produce la mejor excepción para cada excepción, iterando hasta lograr disminuir la tasa de error. De esta manera se realiza una expansión similar a un árbol de excepciones. La excepción es un conjunto de reglas que predice clases. Este algoritmo es usado para generar dichas excepciones [18].

De los parámetros que permite configurar Weka (figura 5.11) se destacan los siguientes: •folds: determina la cantidad de datos que se utilizan para la poda. Un fold se utiliza

para la poda, el resto para el cultivo de las reglas.

•shuffle: determina con que frecuencia se iteran los datos antes de elegir una regla. Si

shuffle > 1, cada regla general se aprende varias veces y se escoge la regla más precisa. Los parámetros utilizados en la ejecución del algoritmo son los definidos por defecto.

In document Sistema de recolección de datos de uso en dispositivos Android para la detección de oportunidades de ahorro de batería (página 70-74)