TEORÍA DE LA EVIDENCIA DE DEMPSTER-SHAFER
Marta Salas Costumero Patricia Sanz Berjas
1. INTRODUCCIÓN
La teoría de Dempster-Shafer es una extensión a la teoría de la probabilidad para describir incertidumbre en la evidencia.
Se centra en la credibilidad que se asigna a que un evento pueda ocurrir (o haya ocurrido), desde el punto de vista y de acuerdo a la experiencia de la persona que toma las decisiones, en contraste con la probabilidad clásica, que supone la existencia de valores de probabilidad asociados a eventos determinados independientemente de que el observador pueda conocer el valor real de la probabilidad.
Además, la teoría de Demster-Shafer permite que la evidencia adquirida mediante observaciones o experimentos apoye al mismo tiempo varias conclusiones mutuamente excluyentes o ninguna conclusión en particular.
En este trabajo se desarrollará más específicamente la teoría de la evidencia de Demster-Shafer y se comparará con la teoría de juegos.
Posteriormente se presentarán varias aplicaciones reales, tales como gestión de catástrofes o detección de objetos abandonados o robados en secuencias de vídeo- seguridad, entre otras.
2. DESARROLLO DE LA TEORÍA
La Teoría de la Evidencia fue desarrollada por Dempster (1967) y posteriormente extendida por Shafer (1976). El motivo que les llevó a ello fue las dificultades encontradas en la Teoría de la Probabilidad para representar la ignorancia y para manejar la necesidad de que las creencias asignadas a un evento y su negación sumen uno.
Esta teoría no precisa de un modelo de probabilidad completo para trabajar sino que intenta sacar beneficio de la utilización de conjuntos de hipótesis en lugar de las hipótesis por separado.
Procura facilitar la reasignación de probabilidad de creencia en las hipótesis cuando cambian las evidencias y pretende modelar la disminución del conjunto de hipótesis de trabajo a partir de la acumulación de evidencias.
La Teoría de la Evidencia supone que hay un conjunto exhaustivo de hipótesis mutuamente excluyentes Θ = {θ
1, θ
2... θ
n}, al que se llama Marco de Discernimiento, sobre el que se pretende razonar considerando el impacto de las evidencias que puedan aparecer.
A diferencia de otros enfoques, esta teoría sostiene que se debe considerar el impacto de las evidencias no sólo sobre las hipótesis individuales originales, sino además sobre los grupos de éstas, que son los subconjuntos de Θ, a los que se considera también hipótesis. De esta
forma, las nuevas hipótesis son las posibles disyunciones de las hipótesis originales.
El conjunto de partes de Θ, representado por P(Θ), está compuesto por todos los subconjuntos de Θ, incluido el conjunto vacío (Ø) y el propio Θ. El conjunto P(Θ), y no Θ, es entonces el conjunto de hipótesis considerado.
La Teoría de la Evidencia utiliza una función µ, llamada Asignación Básica de Probabilidad, para asignar a cada elemento de P(Θ) un valor indicativo de la creencia que, dada una evidencia, se deposita en él. La función µ cumple las siguientes propiedades:
(1) (2) (3) (1) quiere decir que la creencia, dada una evidencia, depositada en el conjunto vacío es siempre cero. (2) indica que a todos los subconjuntos de Θ se les asigna un valor de creencia real entre 0 y 1, y (3) que la suma de todos los valores asignados tiene que ser uno.
La función µ es parecida a la Función de Densidad de Probabilidad de la Teoría de la Probabilidad, pero en la que no se respeta la restricción bayesiana de que la suma de la creencia asignada a las hipótesis originales (subconjuntos unitarios de Θ a los que se conoce como singletones) deba ser uno. Esto quiere decir que confirmar una determinada creencia para un singleton no implica confirmar la creencia restante para su negación.
Sólo en el caso de que µ asignara valores distintos de cero a los subconjuntos unitarios de Θ, µ se comportaría como una Función de Densidad de Probabilidad.
En esta teoría, cuando se tiene una nueva evidencia que apoya la creencia en una hipótesis, la creencia que resta hasta la unidad se asigna a Θ, y no a la negación de la hipótesis, como se hubiera hecho en la Teoría de la Probabilidad. Esto significa que si una evidencia apoya parcialmente la creencia en una hipótesis, no tiene por que apoyar parcialmente la creencia en la negación de la hipótesis. Más bien, la creencia que no se asigna como resultado de una evidencia, se reparte entre las hipótesis mutuamente excluyentes.
Por otro lado, si el impacto de una evidencia apoya un subconjunto de hipótesis de Θ que no es unitario, equivale a decir que la evidencia confirma la creencia en las hipótesis de Θ que forman el subconjunto, pero sin concretar el impacto en la creencia de cada una de ellas.
La Teoría de la Evidencia proporciona con la Asignación
Básica de Probabilidad una forma de representar el
impacto de la evidencia sobre el Marco de
Discernimiento. Así, establece una serie de instrumentos
de medida para intentar determinar el grado de creencia
que se puede depositar en cada hipótesis considerando
las evidencias disponibles. Se trata de los grados de creencia, duda y verisimilitud, y el intervalo de creencia, que se definen a continuación.
El Grado de Creencia en un elemento A de P(Θ) se escribe como Bel(A) y representa la mínima creencia en la hipótesis A, como resultado de una evidencia. Se define por tanto como la suma de las asignaciones básicas de probabilidad hechas a todos los subconjuntos de A:
(4) El Grado de Duda, dada una evidencia, en la negación de A, Bel(¬A), es el Grado de Duda en A. Se escribe como D(A) y representa la mínima creencia en la negación de la hipótesis A como resultado de una evidencia:
(5) El Grado de Verosimilitud (o Plausibilidad) de un elemento A de P(Θ) se escribe como Pl(A) y representa la máxima creencia en la hipótesis A, como resultado de una evidencia. Es por tanto lo que le falta al Grado de Duda en A para la unidad. También puede verse como la suma de las asignaciones básicas de probabilidad hechas a todos los elementos X de P(Θ) cuya intersección con A no es vacía:
(6) Se cumple que el Grado de Creencia siempre es menor que el Grado de Verisimilitud.
El intervalo entre el Grado de Creencia y el de Verosimilitud de un elemento A de P(Θ) es el Intervalo de Creencia en A. Se escribe como un par [Bel(A), Pl(A)] y representa el nivel de incertidumbre sobre la hipótesis A, como resultado de una evidencia.
Según la Teoría de la Evidencia la diferencia entre Bel(A) y Pl(A) es una medida de esa incertidumbre. Cuando Bel(A) y Pl(A) son iguales se tiene absoluta certeza sobre el impacto de la evidencia sobre la hipótesis A. Cuando Bel(A) es 0 y Pl(A) es 1, la diferencia entre ambas medidas es máxima y no se sabe nada del efecto sobre A de la evidencia. Y cuando los valores de Bel(A) y Pl(A) son otros, cuanto mayor es la diferencia entre ambos, mayor es la incertidumbre acerca del impacto de la evidencia sobre la hipótesis A.
La Teoría de la Evidencia propone un proceso iterativo para evaluar el impacto sobre las hipótesis de sucesivas evidencias. En este proceso, la creencia en las hipótesis adquiridas en una iteración (µ
1), como resultado de considerar el impacto de una evidencia, se combina con la adquirida en la iteración siguiente (µ
2), al evaluar el impacto de una nueva evidencia.
Dicha combinación (µ
12= µ
1µ
2) se realiza mediante la Regla de Combinación de Dempster:
(7) (8)
o lo que es equivalente, para el último caso:
(10)
Siendo
(11) donde la constante k provoca un efecto de normalización por el que se elimina la creencia en el conjunto vacío repartiéndola entre todos los demás elementos de P(Θ) en proporción a la creencia depositada en ellos.
Se demuestra que la función así obtenida µ
12es una Asignación Básica de Probabilidad como µ
1y µ
2. La propiedad conmutativa de la multiplicación garantiza que esta regla genera los mismos valores de forma independiente del orden en que se combinen las funciones y, por tanto, del orden en que se consideren las evidencias.
3. CRÍTICAS A LA TEORÍA DE LA EVIDENCIA:
Falta de rigor: la regla de combinación de Dempster se presenta sin ninguna justificación como una fórmula que parece reflejar la acumulación de evidencia.
Interpretación del intervalo de creencia, que desde el punto de vista de los defensores de la Inferencia Bayesiana es errónea.
Complejidad computacional: el tamaño del conjunto de hipótesis considerado P(Θ) depende exponencialmente del tamaño del conjunto de hipótesis de partida Θ, con lo que el problema de asignar probabilidades de creencia a las hipótesis es también exponencial.
Limitaciones sobre las hipótesis, que deben ser mutuamente excluyentes, condición que no es siempre posible conseguir ni es suficiente para representar la realidad en todos los casos.
Limitaciones sobre las evidencias, que se supone que deben ser independientes, algo que no siempre se puede conseguir.
Restricciones en la combinación de evidencias, la exigencia de eliminar todos los conflictos entre las evidencias lleva a resultados que no son intuitivos y que resultan incorrectos.
4. COMPARACIÓN DE LA TEORÍA DE LA EVIDENCIA CON LA TEORÍA DE JUEGOS
Aunque la teoría de la evidencia fue formulada como una teoría de la creencia en las proposiciones, formalmente es análoga a la formulación de la teoría de los juegos cooperativos. Aquí, el universo del discurso Ω es sustituido por el conjunto de jugadores Ω = {1 2 3...n}. Del mismo modo, el conjunto de todas las proposiciones posibles se sustituye por el conjunto de todas las coaliciones posibles 2
Ωy la función de creencia BEL por la función característica del juego v: 2
Ω→ [0 1] con v(Ø) = 0 y v(Ω) = 1 y alguna forma de superaditividad: si A ∩ B = Ø se tiene que v(A U B) ≥ v(A) + v(B) . Una de las más usuales es aceptar la función característica v la condición de “supermodularidad”, es decir, para cualesquiera dos subconjuntos A, B de Ω se tiene que v(A U B) + v(A ∩ B)
≥ v(A) + v(B) que es exactamente la condición que
cumplen las funciones de creencia. La idea subyacente
es la misma: la coalición A ε 2
Ωes más que la “suma” de sus jugadores y ha de tener mejor pago v(A) que la suma de los pagos individuales v(A) ≥ Σ v( i ), esto significa que ha de ser superaditiva. Esta similitud de planteamientos hace que ambas teorías puedan ser consideradas equivalentes entre sí.
Las funciones de creencia permiten representar la ignorancia mejor que la teoría de las probabilidades.
Veamos un ejemplo: ¿Existe Dios? Aquí Θ posee dos posibilidades Θ = {sí, no}. Desde el punto de vista probabilístico ha de tenerse, por la aditividad de las probabilidades, que P(sí) + P(no) = 1 y como P(no) = 1 – P(sí) necesariamente, entonces P(no) = P(sí) = ½. La ignorancia consiste en creer con un 50% de posibilidades que Dios existe y que no existe con otro 50%. Esta cuantificación no es creíble.
Desde el punto de vista de la teoría de la evidencia la ignorancia puede ser mejor representada por una función de creencia BEL: 2
Θ→ [0 1] con BEL(sí) = 0, BEL(no) = 0 y BEL (sí o no) = 1.
Aunque estas dos teorías también tienen algunas diferencias. Definimos el «core» o núcleo de un juego cooperativo (Ω, ℘(Ω), v) como todas las posibles redistribuciones entre los jugadores de los beneficios conseguidos por su cooperación. Dicho núcleo es un conjunto convexo compacto del simplex de probabilidades de Θ que contiene una cantidad infinita de elementos.
Figura 1. Núcleo de un juego cooperativo
¿Cuál elegir de todos ellos? La teoría de juegos cooperativos ha considerado diversas elecciones particulares y concretas del núcleo C(v) tales como el valor de Shapley. Aunque desde el punto de vista de la teoría de juegos, tales elecciones parecen adecuadas, desde el punto de vista de la teoría de la evidencia no resultan tan razonables. Esta fricción entre ambos enfoques, matemáticamente análogos, puede ilustrarse por medio del siguiente ejemplo.
Caso A:
Sea Ω = {1,2} un juego con dos jugadores y sea v la función característica definida por:
℘(Ω)→,0,1- {1}→v*1+=0 {2}→v*2+=0
{1,2}→v*1,2}=1 (12) Ningún jugador consigue nada por sí mismo pero cooperando entre ellos logran una unidad de beneficio.
Se ve que el núcleo de este juego consiste en todas las probabilidades sobre Ω, es decir M(P) es el simplex [0, 1].
Figura 2. Núcleo particular para caso A
El valor de Shapley de ({1,2},℘{1,2} v) es, como siempre, el centro de gravedad del núcleo y en este caso dicho centro de gravedad es la probabilidad P(½, ½): esto es, los jugadores se reparten el beneficio por igual.
Caso B
Consideremos la cuestión ya mencionada de si existe Dios. Hay dos respuestas posibles: si o no. Sea Θ = {si, no} y la función de creencia mínima:
℘( Θ)→,0,1- {si}→BEL*si+=0 {no}→BEL*no+=0
{si, no}→BEL*si, no+=1 (13) ya que todos estamos dispuestos a creer que existe o que no existe, pero salvo por creencias personales, no sabemos en absoluto si existe o no. Como antes el conjunto de probabilidades P tales que BEL ≤ P ≤ P*
*