Resultados del análisis estadístico no paramétrico

CAPÍTULO 3. RESULTADOS Y COMPARACIONES

3.4 Resultados del análisis estadístico no paramétrico

Como se mencionó en la sección 2.5, para el análisis estadístico de los resultados de la evaluación subjetiva de las imágenes seleccionadas se utilizó el software de procesamiento estadístico de datos SPSS Statistics. Primeramente, se realizó una Prueba de Kruskal-Wallis a los datos obtenidos a partir de la evaluación subjetiva, agrupando las votaciones de los ocho

observadores en seis grupos o rangos, correspondientes a los seis métodos encuestados. La Fig. 3.5 muestra estos resultados, donde los valores de 𝑁 = 1,2,…8 corresponden con los datos de los observadores que se muestran en la Tabla 3.2. No es difícil apreciar que, como promedio de votaciones, los métodos preferidos por los observadores son, en primer lugar, el método 5 (9310_18r0.01) y, en segundo lugar, el método 2 (9310_8r0.01), como se había previsto en la sección anterior.

Fig. 3.5. Resultados de la Prueba de Kruskal-Wallis

Cabe señalar además que el valor p calculado en esta prueba, que resulta ser menor que 0.001 (el nivel de significancia α por defecto del software es 0.05), indica que la hipótesis nula, que en este caso afirma que no existen diferencias en las votaciones de los observadores, debe ser rechazada, por lo que se concluye que son diferentes distribuciones y la cuantificación de esta diferencia puede observarse a través de las medias calculadas para cada rango.

En la siguiente figura se muestran varios diagramas de caja correspondientes a las distribuciones de las votaciones de los observadores para cada método. Una vez más se puede comprobar que la opción preferida es el método 5 (9310_18r0.01).

Otra forma de comparar los datos es a través histogramas. En la Fig. 3.7 se han presentado los histogramas correspondientes a los ocho observadores, indicando las votaciones por cada método. Estos datos se corresponden a los mostrados en la Tabla 3.2.

Fig. 3.7. Histogramas mostrando las distribuciones de las votaciones por observador. Adicionalmente se han indicado los años de experiencia en el campo del tratamiento de imágenes.

Una redistribución de los datos mostrados en la figura anterior se presenta en la Fig. 3.8, en la cual se puede observar más claramente la votación de los observadores.

Fig. 3.8. Votación de los observadores. Cada gráfico corresponde con uno de los seis métodos evaluados.

Otra consideración importante es el nivel confianza que se puede depositar en los observadores. Para tener en cuenta este criterio se realizó, además, una comparación de las distribuciones de las votaciones de los observadores en un diagrama de caja lado a lado, como se muestra en la Fig. 3.9.

Fig. 3.9. Análisis de la confiabilidad de los observadores. A partir de las figuras 3.7, 3.8 y 3.9 se puede concluir lo siguiente:

1. Los observadores 1, 3, 5, 6 y 7 (aproximadamente el 60 % de los observadores) presentan distribuciones parecidas. Incluso, al realizar una Prueba de Kruskal-Wallis solamente con estos datos se obtuvo un valor p de 0.245, como se muestra Fig. 3.10, indicando que no existe evidencia suficiente para rechazar la hipótesis de que son distribuciones semejantes. En cambio, al considerar los ocho observadores el valor p disminuye a 0.031, por lo que se pueden considerar como distribuciones diferentes.

Fig. 3.10. Prueba de Kruskal-Wallis para los observadores 1, 3, 5, 6 y 7.

2. Teniendo en cuenta que se trata de conjuntos de datos independientes (cada observador realiza las votaciones según su propio criterio de calidad), el hecho de tener cinco poblaciones de datos semejantes fortalece el nivel de confianza en ellas. Además, todos los observadores concuerdan en que los métodos 2 y 5 tienen las mayores puntuaciones, excepto los observadores 2, 7 y 8 que también le dan importancia, respectivamente, a los métodos 1, 6 y 4, aunque en menor medida que a los métodos 2 y 5.

3. Al analizar las distribuciones de las votaciones de los observadores haciendo diferencia entre estos bajo los criterios de: 1. Tiempo de experiencia en la evaluación de la calidad de imágenes y 2. Coherencia y regularidad de las votaciones (de acuerdo al grado de diferenciación de los métodos más votados (2 y 5) respecto a los menos votados, o sea, el resto), se puede a llegar a la conclusión de que los datos más confiables corresponden al observador 3, ya que su experiencia en el tratamiento y evaluación de imágenes es aproximadamente tres veces mayor que el promedio de experiencia del resto de los observadores. Además, en la Fig. 3.7 se puede apreciar claramente la coherencia y exactitud de sus apreciaciones.

4. También el observador 4 posee una distribución semejante al observador 3, aunque se reporta que solo posee un año de experiencia en la evaluación de imágenes. Tanto en la Fig. 3.7 como en la 3.8 se puede observar la simetría y la regularidad en los datos de los observadores 3 y 4. Es posible que durante la evaluación subjetiva ciertos observadores se esforzaran más en el reconocimiento de diferencias que otros, demostrando mayor ahínco en la toma de decisiones, y tomándose más tiempo en el proceso. Esta puede ser una posible explicación para este caso.

5. Teniendo en cuenta estas conclusiones parciales sobre la confiabilidad de los observadores, se realizó una comparación entre los observadores como se muestra en la Tabla 3.3 en la cual se han ordenado los valores p resultantes de pruebas de Mann- Whitney y Kolmogórov-Smirnov, comprobando en qué grado los resultados de cada observador se ajustan a los resultados del observador 3, esto es, tomando al observador 3 como referencia de comparación. Mientras mayores son los valores de p respecto al umbral de 0.05 (nivel de significancia de las pruebas) mayor es la similitud de la respuesta del observador en cuestión en relación al observador 3, y, por lo tanto, mayor es la confianza que se puede depositar en los datos del observador analizado.

6. Finalmente, en la Fig. 3.11, se puede visualizar el nivel de precedencia que posee cada observador en cuanto a la confiabilidad en sus datos. Nótese que los observadores 6, 7 y 8 no superan el nivel de significancia, lo que significa que sus datos se diferencian demasiado de los datos del observador 3. Aun así, si se observa la Fig. 3.7, se comprueba que también les dan una alta votación a los métodos 5 y 2. De esta manera se concluye

que, de forma general, son válidos los datos de todos los observadores, aún a pesar de que existen ciertas diferencias.

Tabla 3.3. Grado de confiabilidad de los observadores. Observadores Valor p (Mann-Whitney) Valor p (Kolmogórov- Smirnov) Tiempo de experiencia en PDS Edad 4 0.967 0.952 1 año 2 0.413 0.388 8 años 1 0.199 0.586 10 años 5 0.193 0.482 2 años 6 0.046 0.306 8 años 8 0.042 0.099 6 años 7 0.035 0.099 2 años

* El ordenamiento se realizó bajo la suposición de que en verdad los mejores métodos son en 5 y el 2 y el mejor resultado corresponde al observador 3. Los valores p se calcularon a través de varias Pruebas de Mann-Whitney (análisis pareado, ver la sección 1.9.1), comparando cada observador con el observador 3.

Fig. 3.11. Grado de confiabilidad de los observadores. Puede comprobarse de forma general que la Prueba de Mann-Whitney resulta más precisa que la de Kolmogórov-Smirnov, como lo indica la bibliografía sobre el tema.

Estadísticamente queda comprobado que, de los métodos encuestados, los observadores prefirieron mayormente el método 5 (9310_18r0.01), consistente en las siguientes tres operaciones principales:

1. Utilización del algoritmo semi-paramétrico desarrollado por Liu y otros en 2016 durante la fase de reducción de los colores a escala de grises.

2. Utilización de la función adapthisteq() de MatLab como fase de realce de la luminancia de la imagen original (fase en la que tiene lugar el mejoramiento adaptativo de contraste). 3. Utilización del espacio de colores HSL como espacio más idóneo para el sistema visual

humano.

Debido a lo anteriormente visto, se decidió nombrar el nuevo método como SID-GRACE (Single Image Dehazing using Grayscale Replacement with Adaptive Contrast Enhancement), o sencillamente GRACE.

In document Despeje de niebla en imágenes de exteriores mediante la transformación de la luminancia (página 61-67)