clasificadores Machine Learning.
Se realiza la evaluación y comparación de la exactitud temática a partir de 7000 puntos de validación sobre un sector del área estudio. Se implementa la clasificación de las clases de Bosque y No Bosque empleando 3 diferentes clasificadores Árboles de Decisión (DT), Maquinas de Soporte Vectorial (SVM) y Random Forest (RF), en tres diferentes configuraciones del espacio de características empelando diferentes conjuntos de datos. Empleando 3000 puntos de entrenamiento y 7000 puntos de validación sobre un recorte de 1000x1000 pixeles a partir de las coordenadas UTM 18 Norte (Ver Tabla 26) a la imagen LandSat 8 del 10 de Enero de 2014:
UL X 333345 LR X 303345 UL Y 656085 LR Y 686085
Tabla 26. Coordenadas que delimitan la muestra de la imagen para la optimización de SVM
El recorte de la imagen corresponde a un sector en el departamento del Meta en los municipios de Vistahermosa, Puerto Lleras y Puerto Rico (Ver Mapa 1). La zona cubre una porción al norte del del PNN La Macarena identificado como uno de los puntos de deforestación histórica más activos según las estadísticas oficiales del IDEAM, y entre los factores determinantes y aceleradores de la deforestación se encuentran: los proceso de colonización y ampliación de la frontera agrícola y el cultivo de hoja de coca. Los datos de referencia son tomados de Mapas de Bosque - No bosque, ver Mapa 20, para el periodo 2013 elaborado por el Proyecto de Monitoreo de bosques y Carbono del IDEAM, disponibles desde el SIAC.
Mapa 20 Localización General de los puntos de entrenamiento y validación para la optimización de los parámetros de los calificadores no paramétricos SVM, DT, RF y Knn.
Una primera prueba solo empleando los datos espectrales (XS), en una segunda prueba se emplean únicamente los datos de cobertura fraccional, índices NDVI, NDBR y ARVI y los 3 componentes de la transformación Tasseled Cap (IND+FRACC) y finalmente la combinación de todos los datos (XS+IND+FRACC) para la clasificación. Se compara el indicador de exactitud temática promedio, ver Tabla 27, derivado de la matriz de confusión y el índice Kappa, ver Tabla 28, que resumen adecuadamente los errores de omisión y comisión determinados por la misma matriz para ofrecer así un mejor estimador de la calidad del proceso de clasificación.
XS IND+FRA XS+IND+FRACC
GEOBIA
DT 92,89% 91,00% 92,89%
SVM 90,30% 92,89% 93,19%
RF 92,40% 91,30% 92,49%
Tabla 27. Resumen de resultados del Indicador de exactitud promedio para cada clasificador en los 3 ejercicios. XS FRACC XS+IND+FRACC GEOBIA DT 81,34% 75,78% 81,34% SVM 75,96% 80,41% 81,36% RF 80,32% 76,89% 80,44%
Tabla 28. Resumen de resultados del índice kappa para cada clasificador en los 3 ejercicios.
Los resultados para los tres métodos, DT, SVM y RF son sobresalientemente altos, siempre superiores 90% en el indicador de exactitud promedio y más del 80% en el indicador Kappa. Y aunque los tres métodos se desempeñan de forma adecuada, las diferencias únicamente comparativas entre los valores Kappa y promedio no parecen significativamente altas. Se puede anotar inicialmente que los resultados empleando los datos espectrales y fraccionales simultáneamente ofrece una mejoría en los resultados. Se determinan además los intervalos de confianza del índice kappa, de acuerdo con (Tan, 2007).
Ecuación 11. Intervalo de confianza para kappa (Tan, 2007). 95% Limite Superior Límite Inferior GEOBIA DT XS 81,63% 81,05% FRACC 76,10% 75,46% XS+IND+FRACC 81,63% 81,05% SVM XS 76,27% 75,64% FRACC 80,70% 80,11% XS+IND+FRACC 81,64% 81,07% RF XS 80,61% 80,03% FRACC 77,20% 76,58% XS+IND+FRACC 80,73% 80,14%
Tabla 29. Intervalos de confianza al 95% para kappa.
El índice Kappa nos da un mejor panorama de los resultados sobre el desempeño de cada método, incorporando no solo los aciertos en la matriz de confusión sino además los errores de comisión y omisión. Se observa en promedio que los métodos de clasificación por Árboles de decisión y Maquinas de soporte Vectorial ofrecen los mayores indicadores. Sin embargo para obtener una adecuada y más concluyente comparación y determinar si la exactitud entre ellas es significativamente diferentes (Senseman, Bagley, & Tweddale, 1995) se implementa el test de independencia estadística entre dos matrices de confusión expuesto en (Congalton & Green, 2008b), se determina inicialmente las varianzas del indicador Kappa a partir del método Delta:
Ecuación 12. Varianza de kappa (Congalton & Green, 2008b)
Y posteriormente se determina la desviación normal estándar Z, que expresa la significancia entre la diferencia de dos matrices de error. Cuando el valor de Z es mayor a
1.96 la diferencia entonces es significativa al 95% de confianza. Y si excede 2.58 es entonces significativa al 99% (Senseman et al., 1995). Se realiza una comparación entre cada uno de los resultados obtenidos que se presenta en la Tabla 30.
Ecuación 13. Desviación Normal Estandar. (Congalton & Green, 2008b)
DT SVM RF XS FRACC XS+IND+F RACC XS FRACC XS+IND+ FRACC XS FRACC XS+IND+ FRACC DT XS - 4,578 0,000 4,561 0,805 0,014 0,891 3,720 0,788 FRACC - 4,578 0,139 3,726 4,545 3,712 0,872 3,808 XS+IND+FR ACC - 4,561 0,805 0,014 0,891 3,720 0,788 SVM XS - 3,683 4,526 3,670 0,754 3,768 FRACC - 0,809 0,071 2,873 2,873 XS+IND+FR ACC - 0,895 3,694 0,792 RF XS - 2,847 0,102 FRACC - 2,944
Tabla 30 Resumen de las comparaciones entre clasificaciones a partir de la desviación normal estándar de kappa.
De acuerdo a los resultados del análisis de la diferencia de los índices Kappa para todas las combinaciones de clasificadores los métodos en los que se ha empleado únicamente los datos espectrales o su combinación con los datos de cobertura fraccional, son significativamente diferentes, y de acuerdo al valor de kappa, de una mayor exactitud temática que empleando únicamente los datos de cobertura fraccional e índices. No es posible determinar a un nivel de confianza del 95% y/o 99% una diferencia significativa de un método, bien sea SVM, DT o RF sobre otro. Por ende el desarrollo de los procesos para la clasificación de la cobertura bosque y no bosque se realizara siempre la comparación y generación de los datos por todos los métodos definidos a partir de los datos espectrales y de índices y transformaciones, y no se preferirá en la metodología un método sobre otro, hasta no realizar la evaluación final.