TEORÍA DE LA EVIDENCIA DE DEMPSTER-SHAFER

(1)

TEORÍA DE LA EVIDENCIA DE DEMPSTER-SHAFER

Marta Salas Costumero Patricia Sanz Berjas

1. INTRODUCCIÓN

La teoría de Dempster-Shafer es una extensión a la teoría de la probabilidad para describir incertidumbre en la evidencia.

Se centra en la credibilidad que se asigna a que un evento pueda ocurrir (o haya ocurrido), desde el punto de vista y de acuerdo a la experiencia de la persona que toma las decisiones, en contraste con la probabilidad clásica, que supone la existencia de valores de probabilidad asociados a eventos determinados independientemente de que el observador pueda conocer el valor real de la probabilidad.

Además, la teoría de Demster-Shafer permite que la evidencia adquirida mediante observaciones o experimentos apoye al mismo tiempo varias conclusiones mutuamente excluyentes o ninguna conclusión en particular.

En este trabajo se desarrollará más específicamente la teoría de la evidencia de Demster-Shafer y se comparará con la teoría de juegos.

Posteriormente se presentarán varias aplicaciones reales, tales como gestión de catástrofes o detección de objetos abandonados o robados en secuencias de vídeo- seguridad, entre otras.

2. DESARROLLO DE LA TEORÍA

La Teoría de la Evidencia fue desarrollada por Dempster (1967) y posteriormente extendida por Shafer (1976). El motivo que les llevó a ello fue las dificultades encontradas en la Teoría de la Probabilidad para representar la ignorancia y para manejar la necesidad de que las creencias asignadas a un evento y su negación sumen uno.

Esta teoría no precisa de un modelo de probabilidad completo para trabajar sino que intenta sacar beneficio de la utilización de conjuntos de hipótesis en lugar de las hipótesis por separado.

Procura facilitar la reasignación de probabilidad de creencia en las hipótesis cuando cambian las evidencias y pretende modelar la disminución del conjunto de hipótesis de trabajo a partir de la acumulación de evidencias.

La Teoría de la Evidencia supone que hay un conjunto exhaustivo de hipótesis mutuamente excluyentes Θ = {θ

1

, θ

2

... θ

n

}, al que se llama Marco de Discernimiento, sobre el que se pretende razonar considerando el impacto de las evidencias que puedan aparecer.

A diferencia de otros enfoques, esta teoría sostiene que se debe considerar el impacto de las evidencias no sólo sobre las hipótesis individuales originales, sino además sobre los grupos de éstas, que son los subconjuntos de Θ, a los que se considera también hipótesis. De esta

forma, las nuevas hipótesis son las posibles disyunciones de las hipótesis originales.

El conjunto de partes de Θ, representado por P(Θ), está compuesto por todos los subconjuntos de Θ, incluido el conjunto vacío (Ø) y el propio Θ. El conjunto P(Θ), y no Θ, es entonces el conjunto de hipótesis considerado.

La Teoría de la Evidencia utiliza una función µ, llamada Asignación Básica de Probabilidad, para asignar a cada elemento de P(Θ) un valor indicativo de la creencia que, dada una evidencia, se deposita en él. La función µ cumple las siguientes propiedades:

(1) (2) (3) (1) quiere decir que la creencia, dada una evidencia, depositada en el conjunto vacío es siempre cero. (2) indica que a todos los subconjuntos de Θ se les asigna un valor de creencia real entre 0 y 1, y (3) que la suma de todos los valores asignados tiene que ser uno.

La función µ es parecida a la Función de Densidad de Probabilidad de la Teoría de la Probabilidad, pero en la que no se respeta la restricción bayesiana de que la suma de la creencia asignada a las hipótesis originales (subconjuntos unitarios de Θ a los que se conoce como singletones) deba ser uno. Esto quiere decir que confirmar una determinada creencia para un singleton no implica confirmar la creencia restante para su negación.

Sólo en el caso de que µ asignara valores distintos de cero a los subconjuntos unitarios de Θ, µ se comportaría como una Función de Densidad de Probabilidad.

En esta teoría, cuando se tiene una nueva evidencia que apoya la creencia en una hipótesis, la creencia que resta hasta la unidad se asigna a Θ, y no a la negación de la hipótesis, como se hubiera hecho en la Teoría de la Probabilidad. Esto significa que si una evidencia apoya parcialmente la creencia en una hipótesis, no tiene por que apoyar parcialmente la creencia en la negación de la hipótesis. Más bien, la creencia que no se asigna como resultado de una evidencia, se reparte entre las hipótesis mutuamente excluyentes.

Por otro lado, si el impacto de una evidencia apoya un subconjunto de hipótesis de Θ que no es unitario, equivale a decir que la evidencia confirma la creencia en las hipótesis de Θ que forman el subconjunto, pero sin concretar el impacto en la creencia de cada una de ellas.

La Teoría de la Evidencia proporciona con la Asignación

Básica de Probabilidad una forma de representar el

impacto de la evidencia sobre el Marco de

Discernimiento. Así, establece una serie de instrumentos

de medida para intentar determinar el grado de creencia

que se puede depositar en cada hipótesis considerando

(2)

las evidencias disponibles. Se trata de los grados de creencia, duda y verisimilitud, y el intervalo de creencia, que se definen a continuación.

El Grado de Creencia en un elemento A de P(Θ) se escribe como Bel(A) y representa la mínima creencia en la hipótesis A, como resultado de una evidencia. Se define por tanto como la suma de las asignaciones básicas de probabilidad hechas a todos los subconjuntos de A:

(4) El Grado de Duda, dada una evidencia, en la negación de A, Bel(¬A), es el Grado de Duda en A. Se escribe como D(A) y representa la mínima creencia en la negación de la hipótesis A como resultado de una evidencia:

(5) El Grado de Verosimilitud (o Plausibilidad) de un elemento A de P(Θ) se escribe como Pl(A) y representa la máxima creencia en la hipótesis A, como resultado de una evidencia. Es por tanto lo que le falta al Grado de Duda en A para la unidad. También puede verse como la suma de las asignaciones básicas de probabilidad hechas a todos los elementos X de P(Θ) cuya intersección con A no es vacía:

(6) Se cumple que el Grado de Creencia siempre es menor que el Grado de Verisimilitud.

El intervalo entre el Grado de Creencia y el de Verosimilitud de un elemento A de P(Θ) es el Intervalo de Creencia en A. Se escribe como un par [Bel(A), Pl(A)] y representa el nivel de incertidumbre sobre la hipótesis A, como resultado de una evidencia.

Según la Teoría de la Evidencia la diferencia entre Bel(A) y Pl(A) es una medida de esa incertidumbre. Cuando Bel(A) y Pl(A) son iguales se tiene absoluta certeza sobre el impacto de la evidencia sobre la hipótesis A. Cuando Bel(A) es 0 y Pl(A) es 1, la diferencia entre ambas medidas es máxima y no se sabe nada del efecto sobre A de la evidencia. Y cuando los valores de Bel(A) y Pl(A) son otros, cuanto mayor es la diferencia entre ambos, mayor es la incertidumbre acerca del impacto de la evidencia sobre la hipótesis A.

La Teoría de la Evidencia propone un proceso iterativo para evaluar el impacto sobre las hipótesis de sucesivas evidencias. En este proceso, la creencia en las hipótesis adquiridas en una iteración (µ

1

), como resultado de considerar el impacto de una evidencia, se combina con la adquirida en la iteración siguiente (µ

2

), al evaluar el impacto de una nueva evidencia.

Dicha combinación (µ

12

= µ

1

µ

2

) se realiza mediante la Regla de Combinación de Dempster:

(7) (8)

o lo que es equivalente, para el último caso:

(10)

Siendo

(11) donde la constante k provoca un efecto de normalización por el que se elimina la creencia en el conjunto vacío repartiéndola entre todos los demás elementos de P(Θ) en proporción a la creencia depositada en ellos.

Se demuestra que la función así obtenida µ

12

es una Asignación Básica de Probabilidad como µ

1

y µ

2

. La propiedad conmutativa de la multiplicación garantiza que esta regla genera los mismos valores de forma independiente del orden en que se combinen las funciones y, por tanto, del orden en que se consideren las evidencias.

3. CRÍTICAS A LA TEORÍA DE LA EVIDENCIA:

Falta de rigor: la regla de combinación de Dempster se presenta sin ninguna justificación como una fórmula que parece reflejar la acumulación de evidencia.

Interpretación del intervalo de creencia, que desde el punto de vista de los defensores de la Inferencia Bayesiana es errónea.

Complejidad computacional: el tamaño del conjunto de hipótesis considerado P(Θ) depende exponencialmente del tamaño del conjunto de hipótesis de partida Θ, con lo que el problema de asignar probabilidades de creencia a las hipótesis es también exponencial.

Limitaciones sobre las hipótesis, que deben ser mutuamente excluyentes, condición que no es siempre posible conseguir ni es suficiente para representar la realidad en todos los casos.

Limitaciones sobre las evidencias, que se supone que deben ser independientes, algo que no siempre se puede conseguir.

Restricciones en la combinación de evidencias, la exigencia de eliminar todos los conflictos entre las evidencias lleva a resultados que no son intuitivos y que resultan incorrectos.

4. COMPARACIÓN DE LA TEORÍA DE LA EVIDENCIA CON LA TEORÍA DE JUEGOS

Aunque la teoría de la evidencia fue formulada como una teoría de la creencia en las proposiciones, formalmente es análoga a la formulación de la teoría de los juegos cooperativos. Aquí, el universo del discurso Ω es sustituido por el conjunto de jugadores Ω = {1 2 3...n}. Del mismo modo, el conjunto de todas las proposiciones posibles se sustituye por el conjunto de todas las coaliciones posibles 2

^Ω

y la función de creencia BEL por la función característica del juego v: 2

^Ω

→ [0 1] con v(Ø) = 0 y v(Ω) = 1 y alguna forma de superaditividad: si A ∩ B = Ø se tiene que v(A U B) ≥ v(A) + v(B) . Una de las más usuales es aceptar la función característica v la condición de “supermodularidad”, es decir, para cualesquiera dos subconjuntos A, B de Ω se tiene que v(A U B) + v(A ∩ B)

≥ v(A) + v(B) que es exactamente la condición que

cumplen las funciones de creencia. La idea subyacente

(3)

es la misma: la coalición A ε 2

^Ω

es más que la “suma” de sus jugadores y ha de tener mejor pago v(A) que la suma de los pagos individuales v(A) ≥ Σ v( i ), esto significa que ha de ser superaditiva. Esta similitud de planteamientos hace que ambas teorías puedan ser consideradas equivalentes entre sí.

Las funciones de creencia permiten representar la ignorancia mejor que la teoría de las probabilidades.

Veamos un ejemplo: ¿Existe Dios? Aquí Θ posee dos posibilidades Θ = {sí, no}. Desde el punto de vista probabilístico ha de tenerse, por la aditividad de las probabilidades, que P(sí) + P(no) = 1 y como P(no) = 1 – P(sí) necesariamente, entonces P(no) = P(sí) = ½. La ignorancia consiste en creer con un 50% de posibilidades que Dios existe y que no existe con otro 50%. Esta cuantificación no es creíble.

Desde el punto de vista de la teoría de la evidencia la ignorancia puede ser mejor representada por una función de creencia BEL: 2

^Θ

→ [0 1] con BEL(sí) = 0, BEL(no) = 0 y BEL (sí o no) = 1.

Aunque estas dos teorías también tienen algunas diferencias. Definimos el «core» o núcleo de un juego cooperativo (Ω, ℘(Ω), v) como todas las posibles redistribuciones entre los jugadores de los beneficios conseguidos por su cooperación. Dicho núcleo es un conjunto convexo compacto del simplex de probabilidades de Θ que contiene una cantidad infinita de elementos.

Figura 1. Núcleo de un juego cooperativo

¿Cuál elegir de todos ellos? La teoría de juegos cooperativos ha considerado diversas elecciones particulares y concretas del núcleo C(v) tales como el valor de Shapley. Aunque desde el punto de vista de la teoría de juegos, tales elecciones parecen adecuadas, desde el punto de vista de la teoría de la evidencia no resultan tan razonables. Esta fricción entre ambos enfoques, matemáticamente análogos, puede ilustrarse por medio del siguiente ejemplo.

Caso A:

Sea Ω = {1,2} un juego con dos jugadores y sea v la función característica definida por:

℘(Ω)→,0,1- {1}→v1+=0 {2}→v2+=0

{1,2}→v*1,2}=1 (12) Ningún jugador consigue nada por sí mismo pero cooperando entre ellos logran una unidad de beneficio.

Se ve que el núcleo de este juego consiste en todas las probabilidades sobre Ω, es decir M(P) es el simplex [0, 1].

Figura 2. Núcleo particular para caso A

El valor de Shapley de ({1,2},℘{1,2} v) es, como siempre, el centro de gravedad del núcleo y en este caso dicho centro de gravedad es la probabilidad P(½, ½): esto es, los jugadores se reparten el beneficio por igual.

Caso B

Consideremos la cuestión ya mencionada de si existe Dios. Hay dos respuestas posibles: si o no. Sea Θ = {si, no} y la función de creencia mínima:

℘( Θ)→,0,1- {si}→BELsi+=0 {no}→BELno+=0

{si, no}→BELsi, no+=1 (13) ya que todos estamos dispuestos a creer que existe o que no existe, pero salvo por creencias personales, no sabemos en absoluto si existe o no. Como antes el conjunto de probabilidades P tales que BEL ≤ P ≤ P

*

es el simplex [0,1].

Figura 3. Núcleo particular para caso B

El valor de Shapley sería igualmente la probabilidad P(½, ½) que equivale a creer que existe en un 50% de las veces y en otro 50% que no. Esto no parece una redistribución de la creencia total BEL{si, no} =1 muy razonable.

Claramente la redistribución de la creencia a partes iguales sólo puede depender de forma subjetiva de la persona a la que se le plantee la cuestión. De igual modo, en el ejemplo del juego cooperativo, la redistribución del beneficio dependerá del trabajo real llevado a cabo por cada jugador en la coalición y no sólo por el beneficio total que dicha coalición reporta. La cuestión no es fácil como el siguiente caso demuestra:

EL CASO DEL PADRE A CARA O CRUZ. Un hombre fue acusado en un caso de paternidad debido a un gen cuya frecuencia en la población adulta es del 1% y que se trasmite con probabilidad 1 de padres a hijos. Tanto el presunto padre como el niño causante del litigio poseían ese gen, por lo que el fiscal del caso planteó la conveniencia de obtener la probabilidad de que el acusado fuera el padre dado que el niño tenía el gen.

Representando el suceso “el acusado es el padre” por A

y el hecho cierto de que “el niño tienen el gen” por B, el

fiscal aplicó el teorema de Bayes y calculó:

(4)

De lo anteriormente dicho sabemos que P(A/B)=1 y P(B/A

^c

)= 0.01=1%. Por tanto sólo se necesita conocer los valores de P(A) y P(A

^c

), sustituir y calcular la probabilidad de P(A/B). El fiscal estimó que ambas eran 0.5, es decir, unos valores que trataban de reflejar el desconocimiento que se tenía de la posible paternidad y puesto que podía ser o no el padre, lo lógico, pensó el fiscal, parecía ser asignar igual probabilidad a ambos supuestos. El resultado de esa redistribución de la creencia, que corresponde al valor de Shapley, no pudo ser más concluyente en contra del acusado porque P(A/B) resultó ser aproximadamente 0.99. El defensor recurrió esa redistribución de la creencia y basó su recurso precisamente en la asignación, considerada por el fiscal, del valor de Shapley a la función de creencia mínima:

℘(A=el acusado es el padre, A

^c

= el acusado no es el padre)→,0,1-

A+→BELA+=0 {A

^c

+→BEL* A

^c

}=0

{A, A

^c

+→BEL* A, A

^c

}=1 (15) El defensor mostró que llevada a sus últimas consecuencias, semejante asignación de probabilidades equivalía a declarar padre a cualquier adulto por el procedimiento de cara o cruz ya que se confundía ignorancia con probabilidad. Para rematar su discurso obtuvo P(A/B) para distintos valores de P(A) que se representan en la siguiente gráfica.

Figura 4. P(A/B) en función de P(A)

Se ve que para valores bajos de P(A), entre 0 y 0.1, P(A/B) da valores bajos que difícilmente condenan a nadie. Puesto que BEL(A) = inf {P(A): P probabilidad del simplex [0,1]}=0 es la creencia adecuada para el suceso A= el acusado es el padre, cualquier redistribución de la creencia total BEL{A, A

^c

}= 1en alguna probabilidad del simplex [0,1], como el valor de Shapley, puede ser erróneo y puramente subjetivo.

5. EJEMPLOS DE APLICACIONES.

5.1 Detección de objetos abandonados/robados en secuencias de vídeo-seguridad

El método de Dempster-Shafer se basa en la mezcla de información procedente de varios detectores, combinando dicha información para mejorar los resultados obtenidos de modo independiente por cada uno de esos detectores.Se fusiona así la información de los dos detectores, D

1

y D

2

. De cada detector, se tiene una probabilidad de robo P

Di

(S) , otra probabilidad de

abandono P

Di

(U) y una probabilidad de incertidumbre P

Di

(I) . La suma de estas 3 probabilidades tiene que ser uno.

Dicho método difiere con la estimación Bayesiana en que las probabilidades que se calculan en él dependen de las condiciones de robo, abandono y de incertidumbre, y no solo de la condición de robo o de abandono como en el caso anterior.

Combinando dichas probabilidades, se obtienen 9 probabilidades, 3 pertenecientes al abandono, 3 pertenecientes al robo, y otras 3 probabilidades que no utilizaremos debido a que se basan en el cruce de eventos incompatibles (robo-abandono, P

Di

(S) y P

D2

(U) y abandono-robo, P

Di

(U) y P

D2

(S), y al cruce de ambas incertibumbres (P

Di

(I) y P

D2

(I)).

La probabilidad final de robo y de abandono, se calcula de la siguiente manera:

(16) (17) Donde las probabilidades parciales son:

(18) Veamos un ejemplo en la tabla 1.

La probabilidad final de robo,

, será de 0.93745.

La probabilidad final de abandono,

, será de 0.054.

La probabilidad final de incertidumbre, de la combinación de los dos detectores, que corresponde a k3, es de 0.01125.

La suma de estas tres posibilidades, es uno, por lo tanto se corrobora que estamos ante un método que corrobora las reglas de la teoría de la probabilidad, descartándose el valor de k1 y k2.

5.2 Gestión de las catástrofes

El sistema asistencial en las catástrofes tiene que llevar a

cabo una serie de funciones como: definición clara de la

alerta, confirmación y paso a la fase de alarma,

organización del centro de mando unificado, movilización

de los recursos, alerta de los centros sanitarios,

(5)

Tabla 1. Ejemplo del modelo de fusión de Dempster-Shafer

Tabla 2. Tabla de asignación básica, credibilidad y plausibilidad para un potencial no normalizado

organización “in situ” de un centro de coordinación y comunicaciones ante la catástrofe, sectorización de la zona siniestrada, normas de transporte sanitario, traslado de víctimas, ingreso en los centros hospitalarios, cobertura de objetivos sanitarios tardíos y fin del estado de alarma.

Todo esto se puede crear bajo un SIAC (Sistema integrado de asistencia a catástrofes). Se trataría de un centro general de asistencia a catástrofes, dotado con un ordenador central provisto de los más importantes y actuales protocolos de comunicaciones donde también residiría la base de datos central que recogería todas las incidencias que se produjeran y gestionaría los recursos disponibles.

En este ámbito sería necesario el tratamiento de la incertidumbre porque en muchos casos el conocimiento que se tiene de la situación es impreciso o inexacto. De este modo, ya en 1977 apareció el modelo de certeza que se utilizó en Mycin. Posteriormente aparecieron otros modelos adaptados a este campo como la lógica difusa, las reyes bayesianas de creencias o la propia teoría de la evidencia de Dempster-Shafer, en las que las evidencias establecidas por el experto están orientadas a grupos de hipótesis en vez de a premisas individuales, como ya se ha comentado. Dos parámetros son los que se usan:

credibilidad y plausibilidad, pudiendo extenderse el procedimiento para la combinación de n reglas. Después de un estudio cuidadoso se llegó a que la teoría de la evidencia de Dempster-Shafer es el método más adecuado para resolver este problema.

5.3 Ejemplo en fútbol

Se tiene D = {x} como el dominio para un potencial de

credibilidad φ con y

. Por ejemplo, x

1

, x

2

y x

3

representan respectivamente el resultado de un partido de fútbol, siendo x

1

que el equipo local gane, x

2

que el equipo visitante gane y x

3

que el partido quede empatado. Dadas las asignaciones básicas de la tabla 2 (provenientes del juicio de un experto), se puede

calcular su credibilidad y plausibilidad (aparecen también en tabla). Por ejemplo, para el cálculo de :

(19) Que representa el grado de credibilidad que apoya las afirmaciones x

1

y x

2.

Si hacemos lo mismo para obtenemos:

+

(20) Que puede interpretarse como el grado hasta el cual no podemos dudar de las afirmaciones x

1

y x

2

. Nótese que el experto asigna un valor al conjunto vacío, lo que significa que asigna posibilidad de ser a una afirmación no especificada en el dominio.

Ahora bien, la Tabla 4 muestra un potencial incompleto.

Para obtener el potencial completo, los datos deben normalizarse, distribuyendo la proporción de masa en conflicto entre todos los elementos focales como sigue:

Asignación básica normalizada:

(21)

Y para la credibilidad y plausibilidad, se tiene:

(22)

(6)

Tabla 3. Tabla de asignación básica, credibilidad y plausibilidad normalizados.

Tabla 4. Cálculo de los potenciales combinados para el diagnóstico de gripe (C), resfriado (F), migraña (H) y meningitis (M).

φ

1

φ

2

φ

3

[φ

1

(C,F,M)]

m

=0.6 [φ

2

(C,F,M)]

m

=0.7 [φ

3

(C,F,M)]

m

=0.42 [φ

1

(Q)]

m

=0.4 [φ

2

(C,F,H)]

m

=0.3 [φ

3

(C,F,H)]

m

=0.28 [φ

1

(C,F,M)]

m

=0.6 [φ

2

(Q)]

m

=0.7 [φ

3

(C,F,M)]

m

=0.18

[φ

1

(Q)]

m

=0.4 [φ

2

(Q)]

m

=0.3 [φ

3

(Q)]

m

=0.12 Denotando con subíndices en letras mayúsculas los

valores normalizados y subíndices en letras minúsculas los valores originales. De esta manera, la Tabla 3 se obtiene normalizando los datos de la Tabla 2.

5.4 Ejemplo en medicina

Suponemos Q como el dominio del problema, con cuatro elementos focales: gripe (C), resfriado (F), migraña (H) y meningitis (M). La tarea será poner asignación básica a los elementos del dominio Q. Se puede asignar un valor a conjuntos de estas hipótesis,por ejemplo, el tener fiebre podría apoyar {C, F, M}. Dado que los elementos de Q son hipótesis mutuamente excluyentes, la evidencia a favor de una puede afectar la credibilidad hacia otra.

Se supone que la primera pieza de evidencia es que el paciente tiene fiebre, la cual tiene un apoyo de [φ

1

(C,F,M)]

m

=0.6. Si esta fuera la única hipótesis, entonces [φ

1

(Q)]

m

=0.4, que indica que el resto del apoyo se reparte entre todos los elementos de Q.

Si ahora se obtiene una nueva evidencia para el diagnóstico, ya que el paciente tiene mucha náusea, diríamos que [φ

2

(C,F,M)]

m

=0.7 y [φ

2

(Q)]

m

=0.3.

Ahora con la regla de Dempster se intersectan los conjuntos focales de φ

1

con φ

2

, como se muestra en la tabla 4, obteniendo un nuevo potencial φ

3

. Debido a que el espacio focal es pequeño, las intersecciones que se pueden encontrar son pocas, (las que se ven en la tabla) obteniendo los valores para φ

3

por simple multiplicación.

La marginalización toma un potencial de credibilidad φ en un dominio D y produce un nuevo potencial φ

^↓D’

en D’ ⊆ D que es usado para concentrar la información contenida en φ a un dominio más pequeño D’, y es definida por:

En donde denota la proyección del conjunto al nuevo dominio D’.

Una nota importante es que la normalización puede ser realizada tanto antes como después de la combinación o marginalización, es decir:

v(φ

1

⊗ φ

2

)= v(φ

1

)⊗ v(φ

2

) (24) ν (φ

^↓D'

)= ν (φ)

^↓D'

(25) Así, la normalización puede siempre ser propuesta hasta el final de los cálculos.

El potencial práctico para la toma de decisiones del marco teórico recién expuesto consiste en:

1) Su capacidad para modelar el conocimiento adquirido por la persona que toma las decisiones a través de observaciones o experimentos, y

2) Su habilidad para distinguir entre ignorancia e incertidumbre. Esta última característica es crucial, pues tradicionalmente se ha considerado a la falta de información como una situación indeseable y perjudicial para la toma de decisiones.

5.5 Averiguar el asesino.

El Sr López fue asesinado y sabemos que el asesino es uno de los tres asesinos más conocidos, Julio, Javi o Sonia. Por lo tanto, tenemos un conjunto de hipótesis, es

decir, nuestro marco de discernimiento es = {Julio, Javi, Sonia}. La única evidencia que tenemos

es que hay una persona que vió salir al asesino, y ésta asegura que con un 80% de probabilidad es un hombre.

Por lo que podemos decir que P(hombre) = 0.8. Esta medida de la incertidumbre es lo que hemos llamado Asignación Básica de Probabilidad (bpa). Por lo tanto, tenemos un bpa dado por m

1

({Julio, Javi}) = 0.8, como no sabemos nada de la probabilidad restante, toda ella se

asigna al marco de discernimiento m

1

({Julio, Javi, Sonia}) = 0.2.

El punto clave es que las asignaciones a un singleton

pueden funcionar al mismo tiempo como asignaciones

para varias proposiciones. Esta situación no se permite

en la teoría Bayesiana clásica. Por lo que la Teoría de la

evidencia puede verse como una generalización de la

teoría Bayesiana, que evita el problema de tener que

(7)

Tabla 5: Combinación de dos proposiciones de evidencia

m

1

({Julio, Javi}) = 0.8 m

1

({Julio, Javi, Sonia}) = 0.2 m

2

({Sonia, Javi}) = 0.6 m

3

({Javi}) = 0.48 m

3

({Sonia, Javi}) = 0.12 m

2

({Julio, Javi, Sonia}) = 0.4 m

3

({Julio, Javi}) = 0.32 m

3

({Sonia, Javi, Julio}) = 0.08

asignar probabilidades no disponibles y hacer suposiciones sobre ellas.

Si ahora sabemos que Julio se fue de viaje a Canarias con una evidencia del 0.6 cuando el asesinato ocurrió, podemos decir que tenemos un bpa dado por m

2

({Sonia, Javi}) = 0.6.

Como no sabemos nada sobre el resto de la probabilidad, volveremos a asignarlo a todo el marco de discernimiento, resultando m

2

({Julio, Javi, Sonia}) = 0.4.

Si estuviéramos en la probabilidad clásica, ahora combinaríamos ambas probabilidades simplemente con una multiplicación entre ellas. Pero en el caso de la Teoría de evidencia, se requiere una multiplicación más compleja que combina ambas partes de la evidencia. En la Tabla 5 se muestra dicho resultado.

El resultado de combinar las dos afirmaciones dadas es el de intersectar los conjuntos A y B, donde A cumple que m

1

({A}) = M

1

y B cumple m

2

({B}) = M

2

. La creencia ocurrida en la intersección del producto entre M

1

y M

2

. Por ejemplo:

m

3

({Javi,Sonia}) = m

1

({Julio,Javi,Sonia}) x m

2

({Sonia,Javi}) = 0.2 x 0.6 = 0.12. (26) Podemos construir esta evidencia para encontrar algún grado de creencia: la creencia en un conjunto es la suma de todas las probabilidades de los subconjuntos que la forman. Por ejemplo:

Bel({Julio,Javi}) = m

3

({Julio}) + m

3

({Javi}) + m

3

({Javi,Julio}) = 0+ 0.48 + 0.32 = 0.8 (27) 6. CONCLUSIONES

En este trabajo hemos explicado la Teoría de la evidencia de Dempster-Shafer desarrollando su contenido teórico y viendo algunos ejemplos de sus posibles aplicaciones.

También comparamos esta teoría con la teoría de juegos concluyendo que son matemáticamente similares.

La Teoría de la evidencia difiere de los métodos tradicionales de probabilidad en que no requiere que la creencia en una proposición implique que a la no creencia en esa proposición se le asigne sólo la probabilidad de que ocurra lo contrario. Lo que da más realismo al planteamiento de los problemas.

Por ejemplo, en el debate actual sobre los riesgos de salud asociados a los teléfonos móviles, las investigaciones no concluyen que exista ese riesgo pero no se puede decir que el riesgo sea despreciable.

En la teoría de la evidencia también es importante destacar que los métodos numéricos de la incertidumbre pueden ser asignados a conjuntos solapados de hipótesis, eventos o proposiciones y no sólo a hipótesis individuales como se hace tradicionalmente.

Siempre se ha optado por ignorar la incertidumbre, eliminar los datos ambiguos o faltantes y considerar únicamente la información que se conoce con certeza.

Sin embargo, la teoría de Dempster-Shafer nos permite adoptar una perspectiva distinta, tratando de aprovechar la falta de información para lograr un mejor conocimiento de la situación.

Así, la teoría de la evidencia enriquece a la teoría de la probabilidad mediante un marco teórico más general, que permite distinguir entre ignorancia e incertidumbre introduciendo elementos como la creencia no asignada, el grado de duda o el grado de verosimilitud.

7. REFERENCIAS

[1] Jaime Moreno Llorena, “Teoría de la Evidencia de Dempster-Shafer” Curso Doctorado: Razonamiento Bajo Incertidumbre ETSI, UAM Mayo de 2002.

[2] Álvaro Bayona Gómez, “Detección de objetos abandonados/robados en secuencias de video- seguridad” Proyecto Fin de Carrera, Universidad Autónoma de Madrid, Septiembre de 2009.

[3] José Antonio Núñez del Prado, Mª Pilar García Pineda, Antonio Heras Martínez “Teoría de juegos cooperativos versus teoría de la evidencia”

Universidad Complutense de Madrid. XII Jornadas de ASEPUMA.

[4] José Fernando Reyes Saldaña, Rodolfo García Flores, “Toma de decisiones mediante técnicas de razonamiento incierto” Ingenierías, Julio-Septiembre 2005, Vol. VIII, No. 28.

[5] V. Maojo, F. Martin, A. Pazos, “Gestión de las catástrofes con técnicas de inteligencia artificial”.

[6] J.F. Blanes Noguera, “Percepción y representación del entorno en robótica móvil” Tesis doctoral.

Universidad Politécnica de Valencia. Septiembre 2000.

[7] J.F. Reyes Saldaña, “Generando sugerencias de inventario mediante la teoría de la evidencia de Dempster-Shafer” Universidad Autónoma de Nuevo León. Diciembre de 2005.

TEORÍA DE LA EVIDENCIA DE DEMPSTER-SHAFER

TEORÍA DE LA EVIDENCIA DE DEMPSTER-SHAFER

Marta Salas Costumero Patricia Sanz Berjas

1. INTRODUCCIÓN

La teoría de Dempster-Shafer es una extensión a la teoría de la probabilidad para describir incertidumbre en la evidencia.

Además, la teoría de Demster-Shafer permite que la evidencia adquirida mediante observaciones o experimentos apoye al mismo tiempo varias conclusiones mutuamente excluyentes o ninguna conclusión en particular.

En este trabajo se desarrollará más específicamente la teoría de la evidencia de Demster-Shafer y se comparará con la teoría de juegos.

Posteriormente se presentarán varias aplicaciones reales, tales como gestión de catástrofes o detección de objetos abandonados o robados en secuencias de vídeo- seguridad, entre otras.

2. DESARROLLO DE LA TEORÍA

Esta teoría no precisa de un modelo de probabilidad completo para trabajar sino que intenta sacar beneficio de la utilización de conjuntos de hipótesis en lugar de las hipótesis por separado.

Procura facilitar la reasignación de probabilidad de creencia en las hipótesis cuando cambian las evidencias y pretende modelar la disminución del conjunto de hipótesis de trabajo a partir de la acumulación de evidencias.

La Teoría de la Evidencia supone que hay un conjunto exhaustivo de hipótesis mutuamente excluyentes Θ = {θ

, θ

... θ

}, al que se llama Marco de Discernimiento, sobre el que se pretende razonar considerando el impacto de las evidencias que puedan aparecer.

A diferencia de otros enfoques, esta teoría sostiene que se debe considerar el impacto de las evidencias no sólo sobre las hipótesis individuales originales, sino además sobre los grupos de éstas, que son los subconjuntos de Θ, a los que se considera también hipótesis. De esta

forma, las nuevas hipótesis son las posibles disyunciones de las hipótesis originales.

El conjunto de partes de Θ, representado por P(Θ), está compuesto por todos los subconjuntos de Θ, incluido el conjunto vacío (Ø) y el propio Θ. El conjunto P(Θ), y no Θ, es entonces el conjunto de hipótesis considerado.

La Teoría de la Evidencia utiliza una función µ, llamada Asignación Básica de Probabilidad, para asignar a cada elemento de P(Θ) un valor indicativo de la creencia que, dada una evidencia, se deposita en él. La función µ cumple las siguientes propiedades:

(1) (2) (3) (1) quiere decir que la creencia, dada una evidencia, depositada en el conjunto vacío es siempre cero. (2) indica que a todos los subconjuntos de Θ se les asigna un valor de creencia real entre 0 y 1, y (3) que la suma de todos los valores asignados tiene que ser uno.

Sólo en el caso de que µ asignara valores distintos de cero a los subconjuntos unitarios de Θ, µ se comportaría como una Función de Densidad de Probabilidad.

Por otro lado, si el impacto de una evidencia apoya un subconjunto de hipótesis de Θ que no es unitario, equivale a decir que la evidencia confirma la creencia en las hipótesis de Θ que forman el subconjunto, pero sin concretar el impacto en la creencia de cada una de ellas.

La Teoría de la Evidencia proporciona con la Asignación

Básica de Probabilidad una forma de representar el

impacto de la evidencia sobre el Marco de

Discernimiento. Así, establece una serie de instrumentos

de medida para intentar determinar el grado de creencia

que se puede depositar en cada hipótesis considerando

las evidencias disponibles. Se trata de los grados de creencia, duda y verisimilitud, y el intervalo de creencia, que se definen a continuación.

El Grado de Creencia en un elemento A de P(Θ) se escribe como Bel(A) y representa la mínima creencia en la hipótesis A, como resultado de una evidencia. Se define por tanto como la suma de las asignaciones básicas de probabilidad hechas a todos los subconjuntos de A:

(4) El Grado de Duda, dada una evidencia, en la negación de A, Bel(¬A), es el Grado de Duda en A. Se escribe como D(A) y representa la mínima creencia en la negación de la hipótesis A como resultado de una evidencia:

(6) Se cumple que el Grado de Creencia siempre es menor que el Grado de Verisimilitud.

El intervalo entre el Grado de Creencia y el de Verosimilitud de un elemento A de P(Θ) es el Intervalo de Creencia en A. Se escribe como un par [Bel(A), Pl(A)] y representa el nivel de incertidumbre sobre la hipótesis A, como resultado de una evidencia.

La Teoría de la Evidencia propone un proceso iterativo para evaluar el impacto sobre las hipótesis de sucesivas evidencias. En este proceso, la creencia en las hipótesis adquiridas en una iteración (µ

), como resultado de considerar el impacto de una evidencia, se combina con la adquirida en la iteración siguiente (µ

), al evaluar el impacto de una nueva evidencia.

Dicha combinación (µ

= µ

µ

) se realiza mediante la Regla de Combinación de Dempster:

(7) (8)

o lo que es equivalente, para el último caso:

(10)

Siendo

(11) donde la constante k provoca un efecto de normalización por el que se elimina la creencia en el conjunto vacío repartiéndola entre todos los demás elementos de P(Θ) en proporción a la creencia depositada en ellos.

Se demuestra que la función así obtenida µ

es una Asignación Básica de Probabilidad como µ

y µ

. La propiedad conmutativa de la multiplicación garantiza que esta regla genera los mismos valores de forma independiente del orden en que se combinen las funciones y, por tanto, del orden en que se consideren las evidencias.

3. CRÍTICAS A LA TEORÍA DE LA EVIDENCIA:

Falta de rigor: la regla de combinación de Dempster se presenta sin ninguna justificación como una fórmula que parece reflejar la acumulación de evidencia.

Interpretación del intervalo de creencia, que desde el punto de vista de los defensores de la Inferencia Bayesiana es errónea.

Complejidad computacional: el tamaño del conjunto de hipótesis considerado P(Θ) depende exponencialmente del tamaño del conjunto de hipótesis de partida Θ, con lo que el problema de asignar probabilidades de creencia a las hipótesis es también exponencial.

Limitaciones sobre las hipótesis, que deben ser mutuamente excluyentes, condición que no es siempre posible conseguir ni es suficiente para representar la realidad en todos los casos.

Limitaciones sobre las evidencias, que se supone que deben ser independientes, algo que no siempre se puede conseguir.

Restricciones en la combinación de evidencias, la exigencia de eliminar todos los conflictos entre las evidencias lleva a resultados que no son intuitivos y que resultan incorrectos.

4. COMPARACIÓN DE LA TEORÍA DE LA EVIDENCIA CON LA TEORÍA DE JUEGOS

y la función de creencia BEL por la función característica del juego v: 2

≥ v(A) + v(B) que es exactamente la condición que

cumplen las funciones de creencia. La idea subyacente

es la misma: la coalición A ε 2

es más que la “suma” de sus jugadores y ha de tener mejor pago v(A) que la suma de los pagos individuales v(A) ≥ Σ v( i ), esto significa que ha de ser superaditiva. Esta similitud de planteamientos hace que ambas teorías puedan ser consideradas equivalentes entre sí.

Las funciones de creencia permiten representar la ignorancia mejor que la teoría de las probabilidades.

Desde el punto de vista de la teoría de la evidencia la ignorancia puede ser mejor representada por una función de creencia BEL: 2

→ [0 1] con BEL(sí) = 0, BEL(no) = 0 y BEL (sí o no) = 1.

Figura 1. Núcleo de un juego cooperativo

Caso A:

Sea Ω = {1,2} un juego con dos jugadores y sea v la función característica definida por:

℘(Ω)→,0,1- {1}→v*1+=0 {2}→v*2+=0

{1,2}→v*1,2}=1 (12) Ningún jugador consigue nada por sí mismo pero cooperando entre ellos logran una unidad de beneficio.

Se ve que el núcleo de este juego consiste en todas las probabilidades sobre Ω, es decir M(P) es el simplex [0, 1].

Figura 2. Núcleo particular para caso A

El valor de Shapley de ({1,2},℘{1,2} v) es, como siempre, el centro de gravedad del núcleo y en este caso dicho centro de gravedad es la probabilidad P(½, ½): esto es, los jugadores se reparten el beneficio por igual.

Caso B

Consideremos la cuestión ya mencionada de si existe Dios. Hay dos respuestas posibles: si o no. Sea Θ = {si, no} y la función de creencia mínima:

℘( Θ)→,0,1- {si}→BEL*si+=0 {no}→BEL*no+=0

{si, no}→BEL*si, no+=1 (13) ya que todos estamos dispuestos a creer que existe o que no existe, pero salvo por creencias personales, no sabemos en absoluto si existe o no. Como antes el conjunto de probabilidades P tales que BEL ≤ P ≤ P*

es el simplex [0,1].

Figura 3. Núcleo particular para caso B

El valor de Shapley sería igualmente la probabilidad P(½, ½) que equivale a creer que existe en un 50% de las veces y en otro 50% que no. Esto no parece una redistribución de la creencia total BEL{si, no} =1 muy razonable.

℘(Ω)→,0,1- {1}→v1+=0 {2}→v2+=0

℘( Θ)→,0,1- {si}→BELsi+=0 {no}→BELno+=0

{si, no}→BELsi, no+=1 (13) ya que todos estamos dispuestos a creer que existe o que no existe, pero salvo por creencias personales, no sabemos en absoluto si existe o no. Como antes el conjunto de probabilidades P tales que BEL ≤ P ≤ P

A+→BELA+=0 {A