• No se han encontrado resultados

5. Resultados 55

5.3. Iteración 1: Extracción de conocimiento

5.3.2. Preproceso

En esta etapa se realiza una limpieza y preprocesado de algunos datos. A continuación se enumeran y describen de forma breve y concisa los pasos realizados, que pueden verse de forma gráfica en la figura 5.7.

Eliminación de fechas inconsistentes.

Unión de registros en un único fichero.

Eliminación de ruido y resto de inconsistencias.

Obtención e inserción de parámetros meteorológicos.

Figura 5.7: Esquema de preprocesado

El tratamiento de fechas y su correspondiente comprobación es una tarea compleja. Los años son más sencillos de comprobar que los meses, ya que cada base de datos contiene registros de un mismo año. En el siguiente ejemplo se tienen 4 registros con las siguientes fechas en el siguiente orden: 14/07/2010, 14/07/2010, 15/08/2010, 15/07/2010. Lo primero en que se puede pensar es que la fecha 15/08/2010 no es válida, puesto que sus adyacentes son del mes de julio. Pero puede ser que, el 14 de julio, la persona que introdujo estos registros tuviese vacaciones hasta el 15 de agosto, fecha que retomó para volver a introducir registros, y por tanto el fallo estuviese en el último registro (15/07/2010). Por tanto, aplicar una lógica correcta a la resolución de este conflicto de una forma automática no es trivial.

El segundo paso es la unión de los registros en un almacén de datos común. Éstos estaban separados en ficheros por años y para realizar un mejor procesamiento de ellos se ha realizado un proceso que unifica todos los registros.

A continuación se tratan el resto de atributos que contienen ruido e inconsistencias. Se han observado que existen diversos campos incompletos, como el número de semana, la inicial del día, el porcentaje de finalización, lugar de realización y naturaleza de las tareas. Los dos primeros se obtienen de manera directa, ya que son datos precisos. Para el resto se ha usado la moda con el fin de mitigar la mayor imprecisión posible. Los resultados son los siguientes:

Porcentaje_Finalización: 100 % Lugar_Realización_Tarea: ’C’ (Casa) Prevista_O_Imprevista: ’P’ (Prevista)

Para la comprobación del número de la semana se ha seguido la normaISO 8601, la cual considera que la primera semana del año es aquella que contiene el 4 de enero. También considera que el primer día de la semana es el lunes [FS04].

Por otro lado, si el campo del Proyecto tarea está vacío, se asigna el mismo campo que tenga Grupo tarea. Por último se ha eliminado el símbolo % del campo que contiene el porcentaje de finalización.

Respecto al lugar de realización de la tarea, las posibilidades se han reducido a dos, ’C’ y

’U’, que hacen referencia a casa y universidad respectivamente. Por ejemplo, las tareas que contenían ’V’, las cuales hacen referencia a viaje, o ’T’ detravel, eran aquellas tareas que se habían realizado en la universidad, por lo que se había realizado un desplazamiento ya que se considera casa la localidad de Ciudad Real y Universidad la localidad de Toledo.

La inmensa mayoría de erratas detectadas en los registros han sido provocadas por el factor humano, ya que los datos han sido introducidos de forma manual. Estos fallos son de diversa naturaleza, como la introducción de números fuera de un rango o caracteres no válidos, o simplemente el hecho de arrastrar un error mediante la copia del atributo en nuevos registros.

En la tabla 5.4 se muestran el número de inconsistencias y atributos vacíos localizados en los registros durante esta fase.

Atributo inconsistencias/nulos Porcentaje total

Fechas 1535 8.78 %

Inicial del día 1260 7.21 %

Numero de Semana 8845 50.62 %

Porcentaje de finalización 1855 10.61 %

Lugar de realización 452 2.58 %

Prevista/Imprevista 568 3.25 %

Tabla 5.4: Inconsistencias detectadas

En paralelo se ha creado una base de datos con los atributos de meteorología de Ciudad Real y Toledo desde el año 2008 al 2013, para posteriormente adicionar los datos necesarios a los registros de tareas, ya que se consideró interesante añadir al estudio factores meteoro- lógicos para comprobar si estos afectan de alguna forma en el rendimiento del trabajador . El acceso a estos datos es sencillo, ya que existen múltiples páginas web donde pueden ser encontrados. Sin embargo, obtener estos datos de forma manual, tratándose de una base de datos con un tamaño considerable, supondría la inversión de una cantidad ingente de tiempo.

Por esta razón, se ha diseñado un módulo de Web Scraping para la obtención de datos de forma automatizada.

Web Scrapinges un término que hace referencia a la obtención automática de información de sitios web. La página utilizada como fuente es Ogimet4, que contiene una base de datos de registros de meteorología de distintas localidades. Los campos significativos e interesantes para este estudio son las temperaturas, máxima, mínima y media, la humedad relativa y las características del propio día, es decir, si fue soleado, lluvioso, etc.

Ogimet clasifica las características del día en granizo, tormenta, lluvia, niebla y nieve. Para el almacenamiento de estos atributos, en primer lugar se han ordenado las características en función del grado de impacto que puede tener sobre la realización de las tareas, quedando de la siguiente manera: lluvia, granizo, tormenta, nieve y niebla. Si el trabajador se desplaza un día con niebla o nieve, quizá se retrase la hora en la que empieza a realizar sus tareas.

Algunos de los datos relacionados con la temperatura y la humedad relativa no quedaban registrados debido a que la base de datos deOgimetno tiene almacenadas entradas en algunas fechas. Para solventar este problema se ha realizado una nueva modificación, que consiste en asignarle a un campo vacío al atributo de la entrada anterior.