3. Aporte al área de Minería de Procesos
3.2 Pre-procesamiento y codificación
Las etapas de pre-procesamiento y codificación son abarcadas simultáneamente. Esto se logra mediante el uso de una de las herramientas implementadas en esta investigación, llamada “Pre-procesador Logs”, junto con las opciones de pre-
procesamiento que entrega Weka3, y en menor medida en modificaciones manuales que
son necesarias sobre determinados atributos.
El principal objetivo que se persigue en las etapas de pre-procesamiento y codificación, es lograr modificar los datos para un óptimo trabajo con los algoritmos de Minería de Datos. Esto se debe realizar siempre cuidando no perder ni alterar el significado y las propiedades de los datos analizados. Buscando este objetivo, se realizan una serie de modificaciones a los datos. La primera modificación aplicada es la estandarización de los ejecutores y tareas que se presentan en los procesos. Dada la variabilidad, y en algunos casos la extensa denominación que presentan estos atributos, se implementó una serie de instrucciones para poder dar un nombre estándar a cada tarea y cada ejecutor. De esta manera, tareas con nombres como “Evaluación Propiedad y Cliente” o “Verificar Disponibilidad”, pasan identificarse con un simple T01, T02, etc. Lo mismo se aplica a los ejecutores, los cuales son identificados como E01, E02, etc. Estas modificaciones se realizan pensando en una de las propuestas más relevantes de esta investigación, la cual responde a la necesidad de agrupar los datos, de cada ejecución de un proceso, en un solo registro. Estas modificaciones aparecen como una necesidad fundamental para que los algoritmos a ser utilizados analicen la información como ejecuciones completas de un proceso, y no sólo como tareas individuales. Este proceso, de reunir todos las tareas de una ejecución en un solo registro, viene luego de realizada la estandarización de tareas y ejecutores, momento en que se crean nuevos atributos para agrupar toda la información de cada ejecución del proceso. La
3 Weka es un software de Minería de Datos desarrollado en la Universidad de Waikato de Nueva Zelanda. Está desarrollado en Java y cuenta con herramientas para ejecutar y visualizar algoritmos para el análisis y la generación de modelos predictivos.
15
implementación de este proceso permitirá eliminar la variabilidad original de los registros correspondientes a cada ejecución, llevando las tareas y ejecutores que se encontraban separados, a un atributo de tareas realizadas y a otro de ejecutores participantes. Cada uno de estos atributos contendrá la secuencia exacta en que se realizaron las tareas y la secuencia en que los participantes las realizaron. De esta manera, se logrará presentar cada ejecución del proceso en un solo registro, a diferencia del número variable en que vienen las ejecuciones originalmente.
Además de proponer la consolidación en un solo registro de cada ejecución, durante el pre-procesamiento y codificación de los datos, se entrega la creación de nuevos atributos a partir de la información que se maneja de los procesos. Uno de estos nuevos atributos entregará el tiempo en que se ejecutó el proceso. Esto se conseguirá a partir de la fecha y hora en que se ejecutó cada tarea del proceso. Sin la creación de este atributo, esta información se perdería y no podría ser parte de los factores a analizar. Otros dos nuevos atributos entregarán una visión simplificada de los ejecutores y las tareas implicadas en cada ejecución del proceso. El orden y la cantidad de repeticiones con que se presentan cada ejecutor y cada tarea, pueden ser diferentes dentro de la ejecución de un proceso. De manera de entregar una alternativa simplificada para analizar estos dos atributos, se crearon atributos donde se consolidarán las tareas y ejecutores, pero donde no se considerará ni el orden ni la cantidad de repeticiones, permitiendo enfocar el análisis en quiénes participaron y qué actividades fueron realizadas en el proceso.
En esta sección se han descrito algunas de las implementaciones más relevantes que abarcan las etapas de pre-procesamiento y codificación. Se recomienda revisar el capítulo 5, para conocer en detalle todas las implementaciones realizadas y el proceso diseñado para lograr las transformaciones mencionadas.
16
3.3 Minería de Datos
Llegando a la etapa donde ya se cuenta con los datos transformados, como se aprecia en la Ilustración 3.1, el siguiente paso es la aplicación de los algoritmos seleccionados para la investigación. Aquí se propone la utilización del algoritmo Apriori para la búsqueda de patrones secuenciales, e Interquartile Range para extraer los casos anómalos que se puedan presentar en un proceso. La selección de estos algoritmos se basa principalmente en los objetivos que se busca obtener con cada uno de ellos. Ambos algoritmos se basan en la frecuencia de los valores de cada atributo para entregar la información que se está buscando. Apriori deduce reglas de asociación que pueden ser interpretadas como patrones del proceso. Además, este algoritmo presenta otras características importantes, como la opción de que todas las reglas de asociación se construyan para llegar a los distintos valores de un determinado atributo, como ocurre en esta investigación, donde se desea evaluar los factores que llevan a distintos resultados finales de un proceso de venta. Junto a esto, Apriori también permite establecer valores mínimos de soporte y confianza, para así favorecer la búsqueda de reglas más relevantes para la investigación. En cuanto al algoritmo Interquartile Range, éste permite establecer rangos de normalidad, basándose en la posición y frecuencia de cada valor del atributo que se seleccione para buscar los casos anómalos. Este diseño del algoritmo permite que la búsqueda de anomalías no se vea sesgada por la presencia de atributos con valores extremadamente alejados de la media que presenta el proceso. Estos valores se presentarán como anomalías si su posición y frecuencia lo determinan, como también lo harán otros valores que no escapen a la media, pero que su frecuencia sea significativamente distinta al resto de los valores.
Además de seleccionar los algoritmos, en esta investigación se realiza una explicación detallada de cómo estos funcionan, y cuáles son los parámetros más relevantes a la hora de realizar el análisis. Estas explicaciones responden a las indicaciones de esta etapa en la metodología KDD, donde se debe buscar la manera de
17
seleccionar los modelos y parámetros más apropiados para la búsqueda que se está realizando. Para conocer en detalle cómo funcionan los dos algoritmos propuestos, y los parámetros más importantes de cada uno, se recomienda revisar los capítulos 6 y 7 de este trabajo.