Clasificación de la tasa de precipitación

Dado que en las pruebas realizadas el conjunto de datos generado con el método de imputación MICE arrojó los mejores resultados, en esta etapa se decide trabajar solo con este conjunto de datos.

Para generar las clases se decide usar la clasificación mostrada en (Volume, n.d.), en esta se clasifica la tasa de precipitación de la siguientes manera:

• Ligera: 2 – 4 mm/h. • Moderada: 5 – 9 mm/h. • Pesada: 10 – 40 mm/h. • Violenta: Más de 50 mm/h.

Teniendo en cuenta esto, y haciendo uso de la tasa de precipitación TRMM se deciden generar las clases para probar este enfoque en cuando a la estimación de la precipitación. Para este caso solo se dividió en conjunto de datos en un grupo para entrenamiento y otro grupo más reducido para pruebas, debido a que como se observó los resultados varían mucho entre la validación cruzada y este escenario de pruebas que representa de mejor manera la realidad a la que se espera se enfrente el modelo.

A. Validación con Datos de Pruebas a

El conjunto de datos de entrenamiento luego de realizar la división por clases quedó de la siguiente manera. 932 instancias de la clase Nula, 183 instancias de la clase Ligera, 101 instancias de la clase Pesada, 110 instancias de la clase Moderada y 3 instancias de la clase Violenta.

El conjunto de datos de prueba quedó conformado por 213 instancias de la clase Nula, 34 instancias de la clase Ligera, 35 instancias de la clase Pesada, 31 instancias de la clase Moderada y 0 instancias de la clase Violenta. En este caso la división entre entrenamiento y prueba se realizó de manera similar a la realizada anteriormente; es decir, los datos de los años 2012 a 2015 se dejaron como datos de entrenamiento y los datos del año 2016 como datos de prueba.

• WEKA

En la herramienta WEKA se usaron los algoritmos RF y Bagging-RF cuyos resultados fueron los mejores en las pruebas de estimación de la precipitación.

o RF

Matriz de Confusión:

Clases Nula Ligera Pesada Moderada Violenta

Nula 210 2 1 0 0

Ligera 32 2 0 0 0

Pesada 30 4 1 0 0

Moderada 21 6 1 3 0

Violenta 0 0 0 0 0

Tabla 29. Matrix de confusión modelo RF

Porcentaje de Instancias correctamente Clasificadas: 69%

Se puede ver que la mayoría de las instancias quedan clasificadas en la clase de precipitación NULA y debido a esto el porcentaje de instancias correctamente clasificadas es alto. Sin embargo, al observar la matriz de confusión (tabla 29) nos damos cuenta de que los resultados son muy buenos para esta clase, pero para las otras clases del conjunto de datos los resultados no son adecuados.

o Bagging-RF Matriz de Confusión:

Clases Nula Ligera Pesada Moderada Violenta

Nula 212 1 0 0 0

Ligera 33 1 0 0 0

Pesada 30 5 0 0 0

Moderada 23 6 1 1 0

Violenta 0 0 0 0 0

Tabla 30. Matrix de confusión modelo Bagging-RF Porcentaje de Instancias correctamente Clasificadas: 68%

De manera similar a lo ocurrido con el modelo anterior vemos que el modelo Bagging-RF cuenta con los mismos problemas encontrados en el modelo RF. El porcentaje de instancias correctamente clasificadas es alto, pero al revisar la matriz de confusión (tabla 30) nos damos cuenta de que el clasificador es de muy bajo desempeño al momento de separar las clases.

• R

En la herramienta R se usaron los algoritmos CART y RF, el algoritmo Cubist solo se puede usar en regresión.

o RF

Matriz de Confusión:

Clases Nula Ligera Pesada Moderada Violenta

Nula 204 7 1 1 0

Ligera 29 3 0 2 0

Pesada 26 8 1 0 0

Moderada 24 4 0 3 0

Violenta 0 0 0 0 0

Tabla 31. Matrix de confusión modelo RF

Porcentaje de Instancias correctamente Clasificadas: 67%

Como se observa en la tabla 31 se presentan el mismo problema de separabilidad de las clases que se obtuvo en la herramienta WEKA. Incluso el porcentaje de instancias correctamente clasificadas es similar. Una vez más este modelo no es será de utilidad al momento de usarlo en escenarios de pruebas reales.

o CART

Matriz de Confusión:

Clases Nula Ligera Pesada Moderada Violenta

Nula 200 7 5 1 0

Ligera 26 4 1 3 0

Pesada 25 3 5 2 0

Moderada 18 7 2 4 0

Violenta 0 0 0 0 0

Tabla 32. Matrix de confusión modelo CART

Porcentaje de Instancias correctamente Clasificadas: 68%

Finalmente, tenemos los resultados del modelo CART, podemos ver en la tabla 32 que los resultados se repiten una vez más. Un porcentaje de clasificación relativamente alto con una matriz de confusión que muestra problemas con la separabilidad de las clases.

Es claro que el problema principal es el desbalanceo en las clases, que podría ser solucionado aplicando alguno de las diversas técnicas de balanceo de clases existentes. No obstante, dada la naturaleza del fenómeno objeto de estudio, aplicar balanceo de clases sería contraproducente, puesto que iría en contra del comportamiento normal de la precipitación.

Dada la naturaleza de la precipitación es normal que la mayoría de las clases sean de precitación nula y se reduzcan a medida que se recorren las otras clases hasta el punto de que se presenten muy pocos casos de eventos de precipitación

violenta. Este tipo de precipitaciones pueden tener una ocurrencia de una o dos veces en un año con las condiciones adecuadas.

Teniendo esto en cuenta aplicar técnicas de balanceo de clases para obtener más datos de las clases más escasas, iría en contra de la ocurrencia del fenómeno climático. Para intentar solventar este problema se necesitarían más atributos que ayuden en la descripción de cada de las clases generadas, y eso finalmente ayudará en la separabilidad de las clases.

B. Estimación de la precipitación (Pruebas

In document Modelo de pronóstico de escasez y sobreoferta de agua en una cuenca altoandida basado en análisis Big Data (página 99-103)