es el número de categorías en las que se ha discretizado el evento pronosticado Para el ejemplo de la Tabla 6.3, el valor del RPS sería el siguiente:

s x : es la desviación típica del conjunto de datos observados (x)

J: es el número de categorías en las que se ha discretizado el evento pronosticado Para el ejemplo de la Tabla 6.3, el valor del RPS sería el siguiente:

(

) (

) ( ) ( )

[

0 0 0.15 0 0.40 0 1 1 1 1

]

0.0456 4 1 ₋ 2 ₊ ₋ 2₊ ₋ 2 ₊ ₋ 2₊ ₋ 2 ₌ = RPS

El valor del RPS puede tomar valores comprendidos entre 0 y 1, un valor de 0 se correspondería con un pronóstico perfecto, mientras que un valor de 1 se correspondería con el peor pronóstico esperable. Por tanto, la calidad de un pronóstico será mejor, en relación al atributo de Precisión, cuanto más cerca de 0 se encuentre el resultado obtenido del RPS.

6.2.4 HABILIDAD

El atributo de Habilidad se cuantifica mediante el ‘Diagrama ROC’ (‘Relative Operating Characteristics’) (Stanski et al., 1986; Mason y Graham, 1999; Zhang y Casey, 2000; Lalaurette, 2001; Brown, 2001; Lefaivre, 2001; Joliffe y Stephenson, 2003). Mediante el Diagrama ROC cuantificamos la capacidad del modelo para discriminar entre sucesos y no-sucesos. El Diagrama ROC forma parte de la Teoría de Detección de Señales (Mason y Graham, 1999), que tiene por objetivo la determinación de los umbrales de probabilidad más adecuados para su aplicación en la toma de decisiones.

Para construir el Diagrama ROC tenemos que transformar las probabilidades de pronóstico en valores dicotómicos (Sí / No). Para ello elegimos una serie de umbrales de probabilidad [0; 0.05; 0.10; 0.20; etc…, (Columna 1 de Tabla 6.5)] y transformamos los pronósticos englobados dentro de cada umbral en ‘Sí-Ocurrencia’ si el pronóstico corresponde a un acierto y ‘No-Ocurrencia’ si el pronóstico corresponde con un fallo (Columnas 2 y 3 de la Tabla 6.5). Se calculan los valores de ‘Sí-Ocurrencia’ y ‘No-Ocurrencia’ acumulados en sentido inverso (Columnas 4 y 5 de la Tabla 6.5) y se cuantifican las frecuencias relativas acumuladas de ‘Éxitos’ y ‘Falsas Alarmas’, relativas a las ‘Sí-Ocurrencias’ y ‘No-Ocurrencias’ respectivamente (Columnas 6 y 7 de la Tabla 6.5). Prob. No- Ocurrencia Sí- Ocurrencia No- Ocurrencia (Acum.) Sí- Ocurrencia (Acum.) Falsas Alarmas Éxitos 0 165 2 290 46 1.00 1.00 10 42 3 125 44 0.43 0.96 20 33 5 83 41 0.29 0.89 30 19 5 50 36 0.17 0.78 40 7 3 31 31 0.11 0.67 50 4 7 24 28 0.08 0.61 60 10 6 20 21 0.07 0.46 70 5 8 10 15 0.03 0.33 80 1 3 5 7 0.02 0.15 90 2 0 4 4 0.01 0.09 100 2 4 2 4 0.01 0.09

Tabla 6.5. Obtención de Éxitos y Falsas Alarmas para la representación del Diagrama ROC.

El Diagrama ROC se construye representando las frecuencias relativas de ‘Falsas Alarmas’ en el ‘eje x’ frente a las frecuencias relativas de ‘Éxitos’ en el ‘eje y’, añadiendo la línea diagonal del diagrama que representaría la Habilidad nula del pronóstico (Figura 6.4).

Curva ROC

Habilidad nula

Figura 6.4. Representación del Diagrama ROC a partir de los datos de la Tabla 6.5.

La Habilidad del pronóstico se cuantifica mediante la medida del área que queda por debajo de la curva ROC. La diagonal del Diagrama representa la habilidad nula, por debajo de la diagonal la habilidad será negativa y por encima de la diagonal la habilidad será positiva. Por tanto, cuanto más se acerca la curva a la esquina superior izquierda mayor será la Habilidad del pronóstico.

La valoración cualitativa de la habilidad del pronóstico se realiza mediante la medida del área que queda por debajo de la curva ROC. Si el área es igual a 0.5 (Curva ROC coincidente con la diagonal ascendente) el pronóstico tendrá habilidad nula, si adopta valores superiores a 0.5 (Curva ROC por encima de la diagonal) tendrá habilidad positiva y si adopta valores inferiores a 0.5 (Curva ROC por debajo de la diagonal) tendrá habilidad negativa.

El pronóstico es mejor cuanto mayor sea el valor del área por debajo de la curva y, por tanto, ésta se acerque más a la esquina superior izquierda del gráfico. Un pronóstico perfecto adoptaría un valor del área situada debajo de la curva igual a 1.

6.2.5 FIABILIDAD

El atributo de Fiabilidad se cuantifica mediante el ‘Diagrama de Fiabilidad’ (Stanski et al., 1986; Wilks, 2000; Brown, 2001; Franz y Sorooshian, 2002; Joliffe y Stephenson, 2003).

El Diagrama de Fiabilidad mide la frecuencia relativa de aciertos en los pronósticos discretizados por intervalos de probabilidad (f). Se fundamenta en la idea de que, por ejemplo, una probabilidad de pronóstico del 0.2 se debería cumplir en el 20 % de los casos pronosticados con dicha probabilidad, siempre que se tenga una población suficientemente grande. Por ello, este Diagrama suele ir asociado al Histograma de Probabilidades (Figura 6.5).

Para representar el Diagrama de Fiabilidad tendremos que discretizar los pronósticos por intervalos según su valor de la probabilidad (f). En el ‘eje x’ se representarán los intervalos de probabilidad de pronóstico (f) y en el ‘eje y’ la frecuencia relativa de acierto de los pronósticos incluidos en cada intervalo de probabilidad.

Un pronóstico perfecto coincidiría con la línea diagonal del diagrama, es decir, la frecuencia de acierto en cada intervalo es igual al valor de la probabilidad de pronóstico del intervalo considerado. Por tanto, la calidad del pronóstico, referente al atributo de Fiabilidad, será

mejor cuanto más se acerca la gráfica de Fiabilidad a su diagonal principal. Si la gráfica queda por debajo de la diagonal las probabilidades de pronóstico estarán sobreestimadas, mientras que si queda por encima de la diagonal las probabilidades de pronóstico estarán subestimadas.

Histograma de probabilidades Pronóstico perfecto Porcentaje de aciertos del pronóstico

Figura 6.5. Ejemplo de representación del Diagrama de Fiabilidad.

6.2.6 RESOLUCIÓN

El atributo de Resolución se cuantifica mediante el componente de resolución del ‘Brier Score descompuesto’ (Stanski et al., 1986; Brown, 2001; Wilson, 2001; Joliffe y Stephenson, 2003).

Si discretizamos ‘n’ parejas de valores de pronóstico y datos observados, según el valor del pronóstico [p(x|f)], en ‘I’ intervalos de probabilidad de pronóstico, teniendo cada uno de ellos una población ‘Ni’, la medida del Brier Score se puede descomponer en tres componentes:

(

)

(

)

(

)

∑ ∑ =

−

+

−

=

I i I i i i i i i

N

x

n

x

f

N

n

BS

1 1 2 2

1

- El primer término evalúa el atributo de Fiabilidad, midiendo el valor medio, para los ‘n’ pronósticos, de la diferencia entre el valor del pronóstico

( )f

_i y el valor medio de los datos observados para cada una de las parejas pertenecientes al intervalo ‘I’ de pronóstico considerado

( )

xi . El valor medio del valor de los datos observados dentro de cada intervalo

( )

xi corresponde con la frecuencia relativa de acierto del pronóstico, por lo que idealmente su valor será cercano a , siendo el valor del pronóstico en dicho intervalo.

f

- El segundo término evalúa el atributo de Resolución, midiendo el valor medio, para los ‘n’ pronósticos, de la diferencia entre el valor medio de los datos observados pertenecientes a un intervalo de pronóstico

( )

xi y el valor medio de los datos observados para todo el conjunto de pronósticos

( )

x . Idealmente, los valores medios

Porcentaje de acierto

Intervalo de probabilidad

de los datos observados en cada intervalo

( )

xi serán diferentes al valor medio de todos los datos observados del pronóstico

( )

x .

- El tercer término evalúa el atributo de ‘Incertidumbre’, midiendo la varianza de los datos observados.

La medida de Resolución será igual al segundo término de la descomposición del Brier Score:

(

)

∑ =

−

=

I i i i res

N

x

n

BS

1 2

1

Esta medida nos suministra información acerca de la capacidad del pronóstico para conseguir que los diferentes valores de probabilidad de pronóstico tengan diferentes valores de frecuencia de aciertos (Chessa y Lalaurette, 2001). La medida puede adoptar valores comprendidos entre 0 y 0.9 (A.H. Murphy, 1973). El valor de 0 se corresponde con un pronóstico con resolución nula, ya que hay una correspondencia total entre los valores medios de los datos observados incluidos en los diferentes intervalos de probabilidad de pronóstico y el valor medio total de los datos observados. El valor de 0.9 se correspondería con un pronóstico perfecto, ya que la diferencia entre los valores medios de los datos observados dentro de los intervalos de probabilidad de pronóstico y el valor medio total del conjunto de datos observados alcanza un máximo.

Por tanto, la calidad del pronóstico, desde el punto de vista de la Resolución, será mejor cuanto mayor sea el valor del componente de Resolución del Brier Score descompuesto.

6.2.7 REFINAMIENTO

El atributo de Refinamiento se cuantifica mediante el ‘Histograma de probabilidades de pronóstico’ (Wilson et al., 1999; Brown, 2001; Lalaurette, 2001).

Para construir el Histograma de Probabilidades, los resultados de probabilidades de pronóstico se deben discretizar en intervalos según el valor de la probabilidad asignada, cuantificando el número de casos que se incluyen en cada intervalo. En el ‘eje x’ se representará los intervalos de probabilidad de pronóstico y en el ‘eje y’ el porcentaje de casos incluidos en cada intervalo respecto del número total de casos (Figura 6.6).

Figura 6.6. Ejemplo de Histograma de Probabilidades.

Un pronóstico perfecto sólo presentará casos en las probabilidades extremas (0 % y 100 %), adoptando las frecuencias de las probabilidades intermedias valores nulos, es decir, estaríamos en el caso de un pronóstico determinístico. Por tanto, un pronóstico será mejor, desde el punto de vista del Refinamiento, cuanto más se acerque el Histograma de Probabilidades a dicha distribución, es decir, cuando presente una forma de U más acentuada y mayores sean las frecuencias de las probabilidades extremas y menor el de las probabilidades de pronóstico intermedias. Mientras que un Histograma de Probabilidades con forma de U invertida será síntoma de un pronóstico de mala calidad referida al atributo de Refinamiento.

6.2.8 DISCRIMINACIÓN 1

El atributo de Discriminación 1 se evalúa mediante el ‘Diagrama de Discriminación’ (Stanski et al., 1986; Brown, 2001; Franz y Sorooshian, 2003). Para cuantificar el resultado del ‘Diagrama de Discriminación’ se ha utilizado la medida del ‘Coeficiente de Discriminación 1’ (Murphy, 1993).

El Diagrama de Discriminación mide la capacidad del pronóstico para discriminar entre pronósticos acertados y pronósticos fallados, mediante la representación de la distribución condicionada de los pronósticos a la ocurrencia del evento [p(f|x=1)] y la distribución condicionada de los pronósticos a la no ocurrencia del evento [p(f|x=0)] (Figura 6.7).

Figura 6.7. Ejemplo de Diagrama de Discriminación.

Un pronóstico perfecto presentaría únicamente probabilidades de pronóstico de valor 0 en la curva de p

(

f |x=0

)

y pronósticos con valores igual a 1 en la curva de , es decir, un pronóstico perfecto presentaría dos picos bien diferenciados en los extremos. Por tanto, la calidad de un pronóstico será mejor cuanto mayores sean las frecuencia en los extremos 0 y 1 de las

curvas y , respectivamente.

(

f |x=1 p

)

(

f |x =0

)

p p

(

f |x=1

Para valorar cuantitativamente el atributo de Discriminación 1, se calculará el Coeficiente de Discriminación 1 (Cdisc_1), resultante de la obtención del valor medio de las diferencias entre los valores medios de los pronósticos condicionados al dato observado considerado (

f

_x₌₀ y

f

_x₌₁) y los valores de los datos observados respectivos (x = 0 y x = 1) (Murphy, 1993).

(

) (

)

2 1 0 ₀ ₁ 1 _ = = + − − = x x disc f f C

El Coeficiente de Discriminación 1 puede adoptar valores comprendidos entre 0 y 1. Un valor de 0 se correspondería con un pronóstico perfecto, mientras que un valor de 1 se correspondería con el peor de los pronósticos esperables. Por tanto, la calidad del atributo de Discriminación 1 será mayor cuanto menor sea el valor del Coeficiente de Discriminación 1.

6.2.9 DISCRIMINACIÓN 2

El atributo de Discriminación 2 se evalúa mediante la comparación del ‘Diagrama de Discriminación’ con el ‘Histograma de Probabilidades’ (Figura 6.8). Dicha comparación se cuantifica mediante el ‘Coeficiente de Discriminación 2’ (Murphy, 1993).

El Coeficiente de Discriminación 2 (Cdisc_2) resulta de la obtención de la suma de los valores absolutos de las diferencias entre el valor medio total de los pronósticos no condicionados ( f ) y el valor medio de los pronósticos condicionados a los datos observados (

f

_x₌₀ y

f

_x₌₁) (Murphy, 1993):

(

) (

)

2 _ = − x= + − x= disc f f f f C

El Coeficiente de Discriminación 2 puede adoptar valores comprendidos entre 0 y 1. Un valor de 1 se correspondería con un pronóstico perfecto, mientras que un valor de 0 se correspondería con el peor de los pronósticos esperables.

Figura 6.8. Comparación del Diagrama de Discriminación con el Histograma de Probabilidades.

6.2.10 INCERTIDUMBRE

El atributo de Incertidumbre se cuantifica mediante la medida del componente de incertidumbre del ‘Brier Score descompuesto’ o ‘Varianza de los datos observados’ (Stanski et al., 1986; Wilson, 2001; Joliffe y Stephenson, 2003):

(

)

2 2

1 ∑

−

=

x

N

s

x i

Este atributo no mide la calidad del pronóstico ya que la medida se realiza sobre la distribución marginal de datos observados [p(x)], no teniendo en cuenta las probabilidades de pronóstico. Este atributo mide la dificultad en la realización del pronóstico en función de los datos observados que se han considerado y por tanto la incertidumbre del mismo.

La varianza puede adoptar valores comprendidos entre 0 y 0.25. El valor de 0 se correspondería con un pronóstico con poca incertidumbre y poca dificultad. El valor de 0.25 se correspondería con un pronóstico con una incertidumbre máxima y, por tanto, una dificultad alta.

Por tanto, cuanto mayor sea el valor de la varianza, mayor será la incertidumbre del pronóstico y mayor será la dificultad del mismo. Cuanto menor sea el valor de la varianza, el pronóstico será más fácil al ser menor la incertidumbre. Los valores mayores de incertidumbre se obtienen con

x=0.5

6.2.11 RESUMEN DE LAS MEDIDAS UTILIZADAS

Las medidas y gráficos seleccionados para cuantificar la calidad de un pronóstico probabilístico multicategórico se presentan en la Tabla 6.6.

ATRIBUTO GRÁFICOS Y MEDIDAS TIPO

Sesgo Error Medio Multicategórico (MME) Multicategórico Asociación Coeficiente de correlación lineal Multicategórico Precisión Ranked Probability Score (RPS) Multicategórico

Habilidad Curva ROC Dicotómico

Fiabilidad Diagrama de Fiabilidad Dicotómico

Resolución Componente de Resolución del Brier

Score Dicotómico

Refinamiento Histograma de probabilidades de

pronóstico Dicotómico Discriminación 1 Diagrama de Discriminación Dicotómico Discriminación 2 Coeficiente de Discriminación 2 Dicotómico

Incertidumbre Varianza - Componente de incertidumbre

del Brier Score Dicotómico

Tabla 6.6. Medidas y diagramas utilizados para cuantificar atributos que influyen en la calidad de un pronóstico probabilístico.

6.3. VALORACIÓN

CUANTITATIVA DE LA CALIDAD DEL

PRONÓSTICO

En el apartado anterior se ha definido un conjunto de medidas y gráficos que permiten cuantificar la calidad de los diferentes atributos que influyen en un pronóstico. Sin embargo, cada medida utiliza una escala de valores diferente, por ejemplo, el RPS utiliza el valor de 0 para designar la mejor calidad posible y el 1 para designar la peor y, por otra parte, la medida del área por debajo de la curva ROC utiliza el valor de 0.5 para designar la peor calidad (habilidad nula) y el valor de 1 para designar la mejor calidad posible.

Esta variabilidad en la escala de valores no permite una comparación intuitiva de las calidades de los diferentes atributos e incluso la valoración objetiva de la calidad de un atributo concreto. Con el objeto de facilitar la comparación de calidades de los diferentes atributos, de obtener un valor de calidad global del pronóstico y de permitir la comparación de la utilidad de diferentes estructuras de redes Bayesianas en función de la calidad del pronóstico, se ha desarrollado una metodología de obtención de una valoración cuantitativa y objetiva de la calidad de un pronóstico probabilístico.

La valoración cuantitativa de la calidad del pronóstico se fundamenta en la transformación lineal de los resultados de los diferentes gráficos y medidas, con el objeto de obtener un coeficiente de calidad (Qi) de cada uno de los atributos que influyen en la calidad de un pronóstico, que tenga una escala de ponderación que considere el valor de 0 como el del peor pronóstico y el valor de 1 como el del mejor pronóstico. La obtención de las expresiones de los diferentes coeficientes de calidad (Qi) para cada atributo se describe a continuación:

Sesgo

La calidad del atributo de Sesgo se cuantifica mediante la medida del MME que puede tomar valores comprendidos entre -1 y 1, siendo el valor de 0 el mejor resultado. Para realizar la transformación de la escala de valores se ha adoptado la siguiente expresión para el coeficiente de calidad cuantitativa del atributo de Sesgo:

MME Q_sesgo =1−

Asociación

La calidad del atributo de Asociación se cuantifica mediante la medida del Coeficiente de Correlación Lineal (R2). Los resultados de un pronóstico rara vez darán valores de R2 negativos, además estos resultados serían totalmente inaceptables. Por tanto, se ha adoptado la siguiente expresión para el coeficiente de calidad del atributo de Asociación:

2 R Q_asociacion = si R2 ≥0

0 =

asociacion

Q

si R2 <0 Precisión

La calidad del atributo de Precisión se valora mediante la medida del RPS, que adopta un valor de 0 para el mejor pronóstico y un valor de 1 para el peor pronóstico. La transformación de la escala de valores se ha conseguido mediante la siguiente expresión:

RPS

In document Pronóstico probabilístico de caudales de avenida mediante redes bayesianas aplicadas sobre un modelo hidrológico distribuido (página 145-152)