5. Resultados 55
5.3. Iteración 1: Extracción de conocimiento
5.3.3. Transformación
Web Scrapinges un término que hace referencia a la obtención automática de información de sitios web. La página utilizada como fuente es Ogimet4, que contiene una base de datos de registros de meteorología de distintas localidades. Los campos significativos e interesantes para este estudio son las temperaturas, máxima, mínima y media, la humedad relativa y las características del propio día, es decir, si fue soleado, lluvioso, etc.
Ogimet clasifica las características del día en granizo, tormenta, lluvia, niebla y nieve. Para el almacenamiento de estos atributos, en primer lugar se han ordenado las características en función del grado de impacto que puede tener sobre la realización de las tareas, quedando de la siguiente manera: lluvia, granizo, tormenta, nieve y niebla. Si el trabajador se desplaza un día con niebla o nieve, quizá se retrase la hora en la que empieza a realizar sus tareas.
Algunos de los datos relacionados con la temperatura y la humedad relativa no quedaban registrados debido a que la base de datos deOgimetno tiene almacenadas entradas en algunas fechas. Para solventar este problema se ha realizado una nueva modificación, que consiste en asignarle a un campo vacío al atributo de la entrada anterior.
Figura 5.8: Procesos realizados en la agregación de días
Por otro lado, existe la posibilidad de que durante un mismo día se realicen tareas en distintas localidades, por tanto se ha realizado una suma OR lógica de las localidades si se produce este caso. Por ejemplo, imagínese que un día cualquiera el trabajador registra actividad por la mañana y por la tarde. Por la mañana ha estado en Toledo y es un día lluvioso. Por la tarde su actividad ha sido en Ciudad Real y la información que se tiene es que es un día tormentoso y además lluvioso. Se realiza una suma lógica y el resultado del campo es “10100”. El ejemplo gráfico se encuentra en la figura 5.9.
Toledo Día Lluvioso
Ciudad Real Niebla
OR
Secuencia Binaria
Resultado del día
Figura 5.9: Ejemplo de obtención de características meteorológicas
El día ha sido dividido en cinco intervalos en base a los ritmos biológicos y ritmo circa- diano de los seres humanos [SL01], los cuales se describen brevemente a continuación:
M1: [06:30 - 11:20). Primer intervalo de la mañana donde se produce un alto incre- mento de la presión sanguínea y un estado de máximo despertar.
M2: [11:20 - 14:00). Segundo intervalo de la mañana, donde se aprovecha el estado de máximo despertar.
T1: [14:00 - 18:15). Durante este intervalo, que es el primer intervalo de la tarde, existe una mejor coordinación y velocidad de reacción.
T2: [18:15 - 22:00). Durante este intervalo aumenta la temperatura corporal y la pre- sión sanguínea. También comienza la secreción de melatonina, que es una hormona que fortalece el sistema inmunológico y regula el sueño.
N: [22 - 06:30). Último intervalo del día, donde se puede producir un agotamiento tanto mental como físico y una bajada en la temperatura corporal.
Conviene aclarar que un registro de una tarea puede estar ubicado entre dos o más interva- los, por tanto la suma de todos los intervalos no tiene que dar un resultado idéntico al número de registros.
En la tabla 5.5 se muestran los primeros registros agregados en días. Los nombres de las columnas, de izquierda a derecha son: fecha, inicial día (ID), semana (S), amplitud, total de registros (TR), interrupciones (INT), tiempo efectivo (TE), características meteorológicas (CM), tareas completadas (TC), escala de temperatura máxima (ETMax), escala de tem- peratura media (ETMed), escala de temperatura mínima (ETMin), humedad relativa (HR), primer intervalo mañana (M1), segundo intervalo mañana (M2), primer intervalo tarde (T1), segundo intervalo tarde (T2), intervalo noche (N) y año.
Fecha ID S Amplitud TR Int TE CM TC ETMax ETMed ETMin HR M1 M2 T1 T2 N Año
2008-02-10 D 6 2.25 2 0.08 2.17 00000 1 2 2 2 1 0 0 1 2 0 2008
2008-02-11 L 7 9.92 4 0.00 4.92 10000 4 2 2 1 0 1 2 1 1 0 2008
2008-02-12 M 7 9.67 10 0.00 6.25 00000 6 2 1 1 0 3 5 1 3 0 2008
2008-02-13 X 7 12.33 8 0.67 6.00 00000 5 2 1 1 0 3 2 3 2 0 2008
2008-02-14 J 7 10.83 8 0.50 5.67 00000 8 1 2 2 0 3 3 3 1 0 2008
2008-02-15 V 7 8.92 7 0.00 5.08 00000 7 2 2 3 1 4 3 1 0 0 2008
2008-02-16 S 7 2.83 1 0.08 2.75 00000 0 2 2 1 0 0 0 1 1 0 2008
Tabla 5.5: Datos de los registros agregados por días. Pequeño ejemplo.
5.3.3.2. Agregación por semanas
Una vez generada una base de datos con los registros agregados por día, el siguiente paso es agrupar estos registros por semanas.
En primer lugar se han realizado cálculos acumulativos para obtener el total de tiempo efectivo, interrupciones, registros, tareas completadas y distribución total por ritmos circa- dianos. Por otro lado se ha registrado el número de días trabajados. A continuación se ha usado una técnica llamada referencia cruzada, que suele ser muy útil cuando trabajamos con tablas y bases de datos. Lo que se ha pretendido generar son seis campos nuevos, uno por cada día de la semana salvo sábado y domingo, que han sido agrupados bajo un mismo campo. En cada uno de estos atributos se registran las tareas realizadas durante cada día de la semana.
Por último se ha etiquetado a cada semana con un campo llamado especialque contiene alguno de los siguientes elementos:
Deadline: Esta semana tiene definida una entrega de trabajo o simplemente, el alcance de unos objetivos.
Vacations: Semanas de vacaciones donde no se suele trabajar y que todo trabajador tiene derecho a ellas.
Holidays: Este campo es similar avacations, con la particularidad de que no se trabaja por haber días especiales, como Navidad o Semana Santa.
Normal: Si no se ha registrado nada particular en la semana.
En cuanto a la meteorología, en primer lugar se han resumido las escalas de temperatura máxima, mínima y media realizando una media aritmética. Para contemplar la humedad relativa de una semana se ha usado la siguiente lógica: si existen 4 o más días con una humedad relativa buena entonces la humedad relativa es buena, en otro caso es mala. Se ha realizado una escala del 0 al 10 en la cual se ha estudiado el peso de cada característica. En este caso hasta el 5, se entiende que no se han producido incidencias o que son muy leves.
La distancia entre la lluvia y la tormenta y granizo es dos, dejando algo más de margen. La nieve y niebla ocupan el número 8, dejando el 9 y 10 para catástrofes naturales. Aunque en este proyecto no se trata con desastres naturales, se ha intentado hacer una escala lo más genérica posible. Por tanto siempre se asignará como escala a un día la incidencia más grave ocurrida. En el anexo C.2 se describe la función.
0-4. Sin incidencias.
5. Lluvia.
7. Granizo y tormenta.
8. Nieve y niebla.
9-10. Catástrofes naturales.
Catástrofes naturales
Nieve y niebla
Granizo y tormenta
Lluvia
Sin incidencia 10.
. . 9
8
7
5
4
0 . . .
Figura 5.10: Escala de características meteorológicas
Una vez creada esta escala se han creado siete campos, uno para cada día de la semana, asignando la incidencia que corresponda. A los días en los que no se ha trabajado se ha asignado el valor de -1, independientemente de la incidencia que pudiese tener. En el caso de que exista un día con dos o más características, se selecciona el valor más alto.
Por último se ha añadido un atributo para determinar la variabilidad del tiempo meteo- rológico, clasificando como inestable aquella semana en la que existen 3 o más días en los que las características han cambiado. En la figura 5.11 se pueden observar dos ejemplos con el fin de aclarar esta explicación, en el cual la variabilidad del primero sería positiva y del segundo negativa. Obsérvese que cuando se pasa de un día a otro no trabajado, o viceversa, este no se contabiliza como cambio.
Figura 5.11: Ejemplo del atributotiempo cambiante