Motor de inferencia para clasificación de sistemas de servicios

3.2 Sistema experto para el Componente de Clasificación de Sistemas de Servicios

3.2.3 Motor de inferencia para clasificación de sistemas de servicios

Para el diseño de las reglas de decisión en el motor de inferencia se emplea un sistema de generación de reglas basado en algoritmos de clasificación sobre la base de conocimiento para el conjunto de atributos dada en el Anexo E. A continuación, se describen primero la estructura del sistema basado en reglas (SBR) y luego los resultados obtenidos.

3.2.3.1 Sistema basado en reglas (SBR) para el CCSS

El SBR se construye empleando WEKA 3.8 debido a su versatilidad para el tratamiento de información y la posibilidad de incluir información de tipo cualitativa (Hall et al., 2009). Por otro lado, para la representación del conocimiento se emplean reglas las cuales se construyen mediante los métodos de clasificación presentados en la Tabla 3-9 para ser comparados y obtener el mejor sistema de clasificación.

Tabla 3-9 Algoritmos de clasificación considerados para el motor de inferencia del CCSS

Método Descripción

Cero Reglas Este método consiste en predecir de acuerdo con la moda de la clase de salida.

Una Regla Utiliza el atributo que genera el mínimo error en la clasificación, propuesto en (Holte, 1993).

Bayesiano Ingenuo Este método emplea la probabilidad condicional para seleccionar en cada atributo la mejor clasificación de acuerdo a las frecuencias relativas y luego selecciona el mejor atributo (John & Langley, 1995).

Arboles J48

Este es basado en Algoritmo para la generación de árboles C4.5 que emplea la entropía de la información (Quinlan, 1993).

Decision Stump Realiza una regresión (basado en error cuadrático medio) o la clasificación (basado en la entropía).

Fuente: Elaboración propia.

El siguiente paso consiste en la evaluación de las reglas, empleando el método de validación cruzada y se elige aquel método que tenga el mejor desempeño respecto al porcentaje de instancias clasificadas correctamente. El flujograma de conocimiento representado en WEKA para el algoritmo J48 se presenta en la Figura 3-12. Para los demás algoritmos el esquema es similar cambiando el icono J48 por el algoritmo específico de la Tabla 3-9.

3.2.3.2 Resultados del motor de inferencia para el CCSS

La base de conocimiento para este proceso corresponde a los 12 atributos para cada grupo considerando estos como instancias a ser clasificadas en una clase. La clase en este caso corresponde al Sector, Sección y División definidos en la Tabla 3-2. Entonces para realizar la clasificación, se define siete experimentos descritos en la Tabla 3-10 con el fin de identificar

cada experimento se debe aplicar el SBR descrito con los 5 métodos de clasificación presentados en la Tabla 3-9 sobre los 12 atributos.

Figura 3-12. Flujograma de conocimiento en WEKA para algoritmo J48 en el CCSS.

Fuente: Elaboración propia.

Tabla 3-10 Listado de experimentos para el CCSS Experimento Descripción

1 Realizar la clasificación de acuerdo al Sector. 2 Realizar la clasificación de acuerdo a la Sección. 3 Realizar la clasificación de acuerdo a la División. 4 Con los resultados del Experimento 1. _{Realizar la clasificación de acuerdo a la}_Sección_. 5 Con los resultados del Experimento 1. _{Realizar la clasificación de acuerdo a la}_División_. 6 Con los resultados del Experimento 2. _{Realizar la clasificación de acuerdo a la}_División

7 Con los resultados del Experimento 4. _{Realizar la clasificación de acuerdo a la}_División Fuente: Elaboración propia.

Los resultados de estos experimentos se muestran en la Tabla 3-11 con el porcentaje de instancias clasificadas correctamente.

Tabla 3-11 Resultados de los experimentos para el motor de inferencia del CCSS Experimento

% de instancias clasificadas correctamente (desviación estándar) Cero Reglas Una

Regla Bayesiano Ingenuo J 48 Decision Stump Test1Sector 55.42 89.56 98.79 99.19 89.56 Test2Seccion 30.92 41.36 76.73 81.44 38.55 Test3Division 3.21 9.19 28.68 29.71 6.58 Test4Seccion-Sector 30.92 41.52 76.81 80.84 38.55 Test5-Division-Sector 3.21 8.63 27.24 28.47 6.66 Test6-Division-Seccion 3.21 25.14 28.45 38.6 6.58 Test7-Division-all 3.21 25.14 26.48 38.88 6.66

Fuente: Elaboración propia.

Respecto a la clasificación por Sector el mejor resultado se obtuvo con el algoritmo de árboles J48 con un 99.20% de instancias clasificadas correctamente. En este caso la clase de salida tiene 3 posibles valores que se intentan clasificar, el árbol se puede observar en la Figura 3-13, donde la Propiedad es el único atributo que explica la clasificación.

Figura 3-13. Árbol de clasificación J48 para el Sector. Fuente: Elaboración propia.

Respecto a la clasificación por Sección donde se intentan clasificar 21 categorías, se comparan los experimentos 2 y 4, donde el mejor es el número 2 con 81.44% de instancias clasificadas correctamente mediante el método de Árbol J48. En este caso la clasificación por sección no debe tener en cuenta la clasificación por sector, ya que su resultado es menor. La estructura del árbol se puede observar en la Figura 3-14, en este caso la Propiedad es el nodo inicial de donde empiezan a desprenderse las ramificaciones para clasificación coincidiendo con el resultado de la Figura 3-13.

Respecto a la clasificación por División (con 88 valores posibles) se deben comparar los experimentos 3, 5, 6 y 7. El mejor resultado lo presenta el experimento 7 con un 38.88% de instancias clasificadas correctamente. Este experimento tiene en cuenta los resultados del experimento 4, donde la clasificación por sección fue realizada con los resultados del experimento 1 donde se clasifico el sector. Es decir, esta clasificación utiliza la información obtenida de manera secuencial para el sector y la sección con la aplicación de los algoritmos J48. El segundo mejor resultado fue el experimento 6, con 38.6% en cuyo caso se emplea la clasificación por sección sin tener en cuenta la clasificación por sector (experimento 2). En el experimento 5 utilizando la clasificación por sector se obtiene un 28.47% siendo el peor resultado, mientras que en el experimento 3 al clasificar la división sin tener en cuenta el sector y la sección se obtiene un 29.71 % de instancias clasificadas correctamente.

Estos resultados sugieren que para clasificar las actividades respecto a la División se debe tener en cuenta las clasificaciones por Sector y por Sección, mejorando en 10.41%. El árbol para esta clasificación se puede observar en la Figura 3-15, en este caso el árbol tiene como nodo inicial la sección para empezar a ramificar las posibles clasificaciones.

Finalmente, el esquema de clasificación consiste en ejecutar los experimentos empezando con el número 1 para identificar el sector, continua con el 4 para la sección y finaliza con el 7 para la división. Con este esquema y los modelos presentados para el sistema de adquisición de conocimiento se completa el CCSS, que permite clasificar una empresa de acuerdo con la información que se perciba de los atributos definidos y estos a su vez de las características. Este resultado puede ser empleado por empresas que no puedan identificar su actividad económica y por las entidades encargadas de la consolidación de la información con fines estadísticos como el DANE.

Figura 3-14. Árbol de Clasificación J48 para la Sección. Fuente: Elaboración propia.

Propiedad = S | Dependencia = As

| | Estandarización = Alto: SECCIÓN C (78.0/4.0) | | Estandarización = Media

| Acumulación = N | | Tecnología = Mix

| | | | | Simultaneidad = NL

Figura 3-15. Árbol de Clasificación J48 para la División. Fuente: Elaboración propia.

In document Sistema experto híbrido para la programación de tareas en sistemas de servicios (página 99-103)