Inteligencia Artificial
Redes bayesianas
Departamento de Ciencias de la Computación e Inteligencia Artificial
Grafos
Grafo no dirigido:
u�
= (𝑉 , 𝐸)
▶
𝑉
conjunto finito devértices.▶
𝐸 ⊆ {{𝑢, 𝑣} | 𝑢, 𝑣 ∈ 𝑉 , 𝑢 ≠ 𝑣}
conjunto dearistas.▶
{𝑢, 𝑣} ∈ 𝐸
lo notaremos por𝑢 − 𝑣
. Grafo dirigido:u�
= (𝑉 , 𝐸)
▶
𝑉
conjunto finito devértices.▶
𝐸 ⊆ 𝑉 × 𝑉
conjunto dearcos.▶
⟨𝑢, 𝑣⟩ ∈ 𝐸
lo notaremos por𝑢 → 𝑣
.▶
𝑢
padrede𝑣
y𝑣
hijode𝑢
.Grafo no dirigido: ejemplo
A C D E B F G H I Grafo no dirigido A C D E B F G H I Grafo dirigidoCaminos
Vértices
𝑢
y𝑣
conectados,𝑢 ∼ 𝑣
, si𝑢 → 𝑣
,𝑣 → 𝑢
o𝑢 − 𝑣
.▶ Caminodelongitud
𝑛 − 1
:⟨𝑣
1, … , 𝑣
𝑛⟩
con𝑣
𝑖− 𝑣
𝑖+1 o𝑣
𝑖→ 𝑣
𝑖+1, para todo𝑖 = 1, … , 𝑛 − 1
.▶ Senderoen un grafo dirigido:
⟨𝑣
1, … , 𝑣
𝑛⟩
con𝑣
𝑖∼ 𝑣
𝑖+1,para todo
𝑖 = 1, … , 𝑛 − 1
.▶
𝑢
ancestrode𝑣
y𝑣
descendientede𝑢
si existe camino de𝑢
a𝑣
.Caminos: ejemplo
A C D E B F G H I Camino de A a G A C D E B F G H I Sendero de A a GGrafos acíclicos dirigidos
Cicloen un grafo dirigido: camino
⟨𝑣
1, … , 𝑣
𝑛⟩
de longitud almenos 1 tal que
𝑣
1= 𝑣
𝑛.Grafo acíclico dirigido(DAG): grafo dirigido que no tiene ciclos.
Esqueletode un DAG: grafo no dirigido que resulta al reemplazar todos los arcos dirigidos por aristas no dirigidas.
DAGs: ejemplo
A C D E B F G H I Ciclo A C D E B F G H I DAGOrden topológico
Orden topológicode los vértices de un DAG
u�
= (𝑉 , 𝐸)
:⟨𝑣
1, … , 𝑣
𝑛⟩
tal que si𝑣
𝑖→ 𝑣
j∈ 𝐸
, entonces𝑖 < 𝑗
.Algoritmo para obtener un orden topológico de
u�
:1: establecer todos los vértices de
u�
como no marcados2: para
𝑖
desde1
hasta𝑛
hacer3:
𝑣
𝑖 ← cualquier vértice𝑣
cuyos padres estén todosmarcados
4: marcar
𝑣
𝑖5: fin para
Orden topológico: ejemplo
A C D E B F G H I Orden topológico:Orden topológico: ejemplo
A C D E B F G H I Orden topológico: A,Orden topológico: ejemplo
A C D E B F G H I Orden topológico: A, D,Orden topológico: ejemplo
A C D E B F G H I Orden topológico: A, D, C,Orden topológico: ejemplo
A C D E B F G H I Orden topológico: A, D, C, F,Orden topológico: ejemplo
A C D E B F G H I Orden topológico: A, D, C, F, G,Orden topológico: ejemplo
A C D E B F G H I Orden topológico: A, D, C, F, G, B,Orden topológico: ejemplo
A C D E B F G H I Orden topológico: A, D, C, F, G, B, E,Orden topológico: ejemplo
A C D E B F G H I Orden topológico: A, D, C, F, G, B, E, H,Orden topológico: ejemplo
A C D E B F G H I Orden topológico: A, D, C, F, G, B, E, H, I.Grafos morales
Grafo moralde un DAG
u�
= (𝑉 , 𝐸)
: grafo no dirigidou�
m= (𝑉 , 𝐸
m)
con𝐸
m= {{𝑢,𝑣} |
𝑢
tienen un hijo común eny𝑣
están conectados ou�
}
Manto de Markovde un vértice
𝑣
enu�
: conjunto de vérticesconectados a
𝑣
en el grafo moral deu�
.Grafos morales: ejemplo
A C D E B F G H I DAG A C D E B F G H I Grafo moral Manto de Markov de D:{
A, B, C, E, F, G}
.Repaso de
Eventos
Variable aleatoria discreta
𝑋
: toma valores en un conjunto finitoVal(𝑋)
.Dadas
𝑋
1, … , 𝑋
𝑛 variables aleatorias discretas:▶ Espacio de eventos
𝑆
: asignaciones conjuntas de valores.▶ Evento elemental
𝑎
: elemento del espacio de eventos, lonotaremos
𝑋
1= 𝑥
1, … , 𝑋
𝑛= 𝑥
𝑛.▶ Evento
𝐴
: subconjunto del espacio de eventos.Variables aleatorias discretas: ejemplo
Consideremos los siguientes objetos:
1 1 1 2
1 1 2 2
1 2 2 2
Elegimos uno de los objetos al azar:
▶ VariableForma:
Val(
Forma) = {
cuadrado,
círculo,
triángulo}
▶ VariableSombreado:
Val(
Sombreado) = {
no,
sí} = {¬
sombreado,
sombreado}
▶ VariableValor:
Espacio de eventos: ejemplo
𝑆 = {(
Forma=
cuadrado, ¬
sombreado,
Valor= 1),
(
Forma=
cuadrado, ¬
sombreado,
Valor= 2),
(
Forma=
cuadrado,
sombreado,
Valor= 1),
(
Forma=
cuadrado,
sombreado,
Valor= 2),
(
Forma=
círculo, ¬
sombreado,
Valor= 1),
(
Forma=
círculo, ¬
sombreado,
Valor= 2),
(
Forma=
círculo,
sombreado,
Valor= 1),
(
Forma=
círculo,
sombreado,
Valor= 2),
(
Forma=
triángulo, ¬
sombreado,
Valor= 1),
Eventos: ejemplo
▶
¬
sombreado∧
Valor= 2 ≡
{(
Forma=
cuadrado, ¬
sombreado,
Valor= 2),
(
Forma=
círculo, ¬
sombreado,
Valor= 2),
(
Forma=
triángulo, ¬
sombreado,
Valor= 2)}
▶
¬(
Valor= 2 ∨ (sombreado ∧
Forma=
cuadrado)) ≡
{(
Forma=
cuadrado, ¬
sombreado,
Valor= 1),
(
Forma=
círculo, ¬
sombreado,
Valor= 1),
(
Forma=
círculo,
sombreado,
Valor= 1),
(
Forma=
triángulo, ¬
sombreado,
Valor= 1),
(
Forma=
triángulo,
sombreado,
Valor= 1)}
Probabilidades
Función de probabilidadsobre un espacio de eventos
𝑆
:ℙ: {𝐴 | 𝐴 ⊆ 𝑆} → ℝ
tal que1.
ℙ(𝐴) ≥ 0
, para todo𝐴 ⊆ 𝑆
.2.
ℙ(𝑆) = 1
.3. Para todo par de eventos
𝐴, 𝐵 ⊆ 𝑆
mutuamente exclusivosPropiedades de la función de probabilidad
▶ℙ(¬𝐴) = 1 − ℙ(𝐴)
, para todo𝐴 ⊆ 𝑆
. ▶ℙ(𝐴) ≤ ℙ(𝐵)
, para todo𝐴 ⊆ 𝐵
. ▶ℙ(𝐴) ≤ 1
, para todo𝐴 ⊆ 𝑆
. ▶ℙ(𝐴 ∪ 𝐵) = ℙ(𝐴) + ℙ(𝐵) − ℙ(𝐴 ∩ 𝐵)
, para todo𝐴, 𝐵 ⊆ 𝑆
. ▶ℙ(𝐴) = ∑
𝑛𝑖=1ℙ(𝑎
𝑖)
, para todo𝐴 = {𝑎
1, … , 𝑎
𝑛}
.Función de probabilidad: ejemplo
ℙ(
Forma=
cuadrado, ¬
sombreado,
Valor= 1) = 0,
ℙ(
Forma=
cuadrado, ¬
sombreado,
Valor= 2) = 1
12,
ℙ(
Forma=
cuadrado,
sombreado,
Valor= 1) = 14,
…
ℙ(¬
sombreado∧
Valor= 2) = 1
12 +
12 +
1
12 =
1
1
4
ℙ(¬(
Valor= 2 ∨ (sombreado ∧
Forma=
cuadrado))) =
Probabilidades condicionadas
Probabilidad conjuntade dos eventos𝐴
y𝐵
:ℙ(𝐴, 𝐵) ≝ ℙ(𝐴 ∩ 𝐵)
Probabilidad de
𝐴
condicionadaa𝐵
, conℙ(𝐵) > 0
:Regla de Bayes
Regla fundamental: para cualesquiera dos eventos
𝐴
y𝐵
ℙ(𝐴, 𝐵) = ℙ(𝐴 | 𝐵)ℙ(𝐵) = ℙ(𝐵 | 𝐴)ℙ(𝐴)
Sigue inmediatamente laregla de Bayes:
ℙ(𝐴 | 𝐵) = ℙ(𝐵 | 𝐴)ℙ(𝐴)
ℙ(𝐵)
Probabilidades condicionadas: ejemplo
ℙ(
Valor= 2 |
sombreado) = ℙ(
Valor= 2,
sombreado)
ℙ(
sombreado)
= 1/4
3/4 =
1
3
Regla de Bayes:
ℙ(
Valor= 2 |
sombreado)
= ℙ(
sombreadoℙ(
|
sombreadoValor= 2)ℙ(
)
Valor= 2)
Distribuciones de probabilidad
Distribución de probabilidadde una variable
𝑋
conVal(𝑋) = {𝑥
1, … , 𝑥
𝑛}
:ℙ(𝑋) ≝ (ℙ(𝑋 = 𝑥
1), … , ℙ(𝑋 = 𝑥
𝑛))
Dada otra variable
𝑌
, notaremosℙ(𝑌 | 𝑋)
el conjunto dedistribuciones de probabilidad
ℙ(𝑌 | 𝑋 = 𝑥)
, para cada𝑥 ∈ Val(𝑋)
.Distribuciones de probabilidad: ejemplo
ℙ(
Forma)
: cuadrado1/3
círculo1/3
triángulo1/3
ℙ(
Sombreado)
: no1/4
sí3/4
ℙ(
Valor)
: 11/2
21/2
ℙ(
Forma|
Valor,
Sombreado)
:1 2
sí no sí
cuadrado
1/2 1/3 0
círculo
1/3 1/3 1/3
Marginalización sobre una variable
𝑋
,𝑌
dos v. a.,Val(𝑋) = {𝑥
1, … , 𝑥
𝑚}
,Val(𝑌 ) = {𝑦
1, … , 𝑦
𝑛}
Regla de la probabilidad total:
ℙ(𝑥
i) =
𝑛∑
𝑗=1ℙ(𝑥
𝑖, 𝑦
𝑗)
La distribución de probabilidad
ℙ(𝑋)
se puede determinar apartir de la distribución de probabilidad conjunta
ℙ(𝑋, 𝑌 )
.ℙ(𝑋) =
(
∑
𝑛𝑗=1
ℙ(𝑥
1, 𝑦
𝑗), … ,
𝑛Marginalización: ejemplo
ℙ(
Valor= 1) = ∑
formasombra∑
ℙ(
forma,
sombra, 1)
= (0 + 14) + (0 +
1
6) + (0 +
12) =
1
1
2
ℙ(
Valor= 2) = ∑
formasombra∑
ℙ(
forma,
sombra, 2)
= ( 1
12 + 0) + (
12 +
1
12) + (
1
12 +
1
1
6) =
1
2
Independencia
𝑋
esindependientede𝑌
,𝑋⊥
ℙ𝑌
, siℙ(𝑥 | 𝑦) = ℙ(𝑥)
para todo
𝑥 ∈ Val(𝑋), 𝑦 ∈ Val(𝑌 )
.𝑋
escondicionalmente independientede𝑌
dado𝑍
,𝑋⊥
ℙ𝑌 | 𝑍
, siℙ(𝑥 | 𝑦, 𝑧) = ℙ(𝑥 | 𝑧)
para todo
𝑥 ∈ Val(𝑋), 𝑦 ∈ Val(𝑌 ), 𝑧 ∈ Val(𝑍)
.Independencia: ejemplo
Forma⟂
ℙ Sombreado:ℙ(
forma,
sombreado) = 14 =
1
3 ⋅
3
4 = ℙ(
forma)ℙ(
sombreado)
ℙ(
forma, ¬
sombreado) = 1
12 =
1
3 ⋅
1
4 = ℙ(
forma)ℙ(¬
sombreado)
con forma
∈ Val(
Forma)
.Forma
/⟂
ℙ Valor:ℙ(
cuadrado, 1) = 14 ≠
1
3 ⋅
1
2 = ℙ(
cuadrado)ℙ(1)
Sombreado/⟂
ℙ Valor:ℙ(
sombreado, 1) = 12 ≠
3
4 ⋅
1
2 = ℙ(
sombreado)ℙ(1)
Independencia condicional: ejemplo
Consideremos los siguientes objetos:
1 1 1 2 1 1 2 2 1 2 2 2 Forma
/⟂
ℙ Sombreado:ℙ(
cuadrado,
sombreado) = 14 ≠
1
3 ⋅
1
2 = ℙ(
cuadrado)ℙ(
sombreado)
Independencia condicional: ejemplo
Consideremos los siguientes objetos:
1 1 1 2
1 1 2 2
1 2 2 2
Forma
⟂
ℙ Sombreado|
Valor:ℙ(
forma, ¬
sombreado| 1) = 0 = ℙ(
forma| 1)ℙ(¬
sombreado| 1)
ℙ(
forma, ¬
sombreado| 2) = ℙ(
forma| 2)ℙ(¬
sombreado| 2)
ℙ(
forma,
sombreado| 1) = ℙ(
forma| 1)ℙ(
sombreado| 1)
ℙ(
forma,
sombreado| 2) = 0 = ℙ(
forma| 2)ℙ(
sombreado| 2)
Regla de la cadena
Dado el conjunto de variables
𝑿 = {𝑋
1, … , 𝑋
𝑛}
, ladistribución de probabilidad conjunta
ℙ(𝑿)
se puededescomponer como
ℙ(𝑿) = ℙ(𝑋
𝑛| 𝑋
𝑛−1, … , 𝑋
1) ⋯ ℙ(𝑋
2| 𝑋
1)ℙ(𝑋
1)
=
∏
𝑛Regla de la cadena: ejemplo
ℙ(
Forma,
Sombreado,
Valor)
= ℙ(
Sombreado|
Forma,
Valor)ℙ(
Forma|
Valor)ℙ(
Valor)
= ℙ(
Sombreado|
Valor,
Forma)ℙ(
Valor|
Forma)ℙ(
Forma)
= ℙ(
Forma|
Sombreado,
Valor)ℙ(
Sombreado|
Valor)ℙ(
Valor)
Sistemas expertos
Sistemas capaces de resolver tareas dentro de un determinado dominio de conocimiento.
Componentes principales:
▶ Conocimiento, que necesita serrepresentado.
Representación del conocimiento
Requisitos: ▶ Potencia expresiva. ▶ Facilidad de interpretación. ▶ Eficiencia de la inferencia. Ejemplos de formalismos:▶ Sistemas basados en reglas.
▶ Sistemas basados en lógicas.
Conocimiento incierto
Ejemplo de regla:
Caries
→
Dolor de muelasLa regla es determinista, pero no siempre una caries causa dolor de muelas.
Los sistemas basados en reglas tienen serias limitaciones para representar conocimiento incierto y razonar con él.
Las redes bayesianas son sistemas expertos que representan el conocimiento incierto mediante probabilidades.
Componentes de una red bayesiana
Componente cualitativa:
▶ Representa relaciones de dependencia entre variables.
▶ DAG:
▶ vértices, variables aleatorias discretas; ▶ arcos, dependencias directas;
▶ caminos, dependencias indirectas.
Componente cuantitativa:
▶ Representa la fuerza de las relaciones de dependencia.
▶ Distribución de probabilidad conjunta descompuesta en
Modelo de la alarma
El Sr. Holmes está trabajando en su despacho cuando recibe unallamadade teléfono de su vecino el
Dr. Watson, quien le dice que laalarmaantirrobo de Holmes ha saltado. Convencido de que ha habido un intento deroboen su casa, Holmes corre a su coche y se dirige a su casa. Por el camino escucha en la radio una
noticiaque informa de que ha habido un pequeño
terremotoen el área. Sabiendo que los terremotos tienden a hacer que las alarmas antirrobo salten, regresa a su despacho.
Modelo de la alarma: DAG
Robo Alarma Terremoto Noticia LlamadaModelo de la alarma: DPCs I
ℙ(Robo)
: R = no0.90
R = sí0.10
ℙ(Terremoto)
: T = no0.99
T = sí0.01
ℙ(Alarma | Robo, Terremoto)
:R = no R = sí
T = no T = sí T = no T = sí
A = no
0.99 0.10 0.10 0.01
Modelo de la alarma: DPCs II
ℙ(Noticia | Terremoto)
: T = no T = sí N = no0.999 0.01
N = sí0.001 0.99
ℙ(Llamada | Alarma)
: A = no A = sí Ll = no0.99 0.05
0.01 0.95
Evidencias
Dado un conjunto
𝑿
de variables, una evidencia para esasvariables es
ε
𝑿: Val(𝑿) → ℝ
≥0Dos tipos de evidencia:
▶ Evidenciafuerte(
ε
): asigna cero a todos salvo uno de loseventos.
▶ Evidenciadébil(
ε
).Asumiendo
Val(Alarma) =
no,
sí:ε
Alarma= (0, 1)
certeza de que la alarma ha sonadoε
Alarma= (1, 2)
la alarma ha sonado con el doble deFlujo de información
▶ Conexionesen serie: Alarma Robo Llamada ▶ Conexionesdivergentes: Terremoto Alarma Noticia ▶ Conexionesconvergentes: Alarma Robo TerremotoConexiones en serie
La información se puede transmitir a través de una conexión en
Conexiones en serie
La información se puede transmitir a través de una conexión en
serie
𝑋 → 𝑌 → 𝑍
, salvo que se conozca el estado de𝑌
.Sin evidencia de Alarma:
Alarma
Robo Llamada
ℙ(
R = sí) = 0.1
ℙ(
Ll = sí) = 0.11
Conexiones en serie
La información se puede transmitir a través de una conexión en
serie
𝑋 → 𝑌 → 𝑍
, salvo que se conozca el estado de𝑌
.Con evidencia fuerte de Alarma: Alarma
ε
Robo Llamada
ℙ(
R = sí|
A = sí) = 0.84
ℙ(
Ll = sí|
A = sí) = 0.95
ℙ(
R = sí|
Ll = sí,
A = sí) = 0.84 ℙ(
Ll = sí|
R = sí,
A = sí) = 0.95
Conexiones divergentes
La información se puede transmitir a través de una conexión
Conexiones divergentes
La información se puede transmitir a través de una conexión
divergente
𝑋 ← 𝑌 → 𝑍
, salvo que se conozca el estado de𝑌
.Sin evidencia de Terremoto:
Terremoto
Alarma Noticia
ℙ(
A = sí) = 0.11
ℙ(
N = sí) = 0.01
Conexiones divergentes
La información se puede transmitir a través de una conexión
divergente
𝑋 ← 𝑌 → 𝑍
, salvo que se conozca el estado de𝑌
.Con evidencia fuerte de Terremoto: Terremoto
ε
Alarma Noticia
ℙ(
A = sí|
T = sí) = 0.91
ℙ(
N = sí|
T = sí) = 0.99
ℙ(
A = sí|
N = sí,
T = sí) = 0.91 ℙ(
N = sí|
A = sí,
T = sí) = 0.99
Conexiones convergentes
La información solo se puede transmitir a través de una
conexión convergente
𝑋 → 𝑌 ← 𝑍
si se conoce el estado deConexiones convergentes
La información solo se puede transmitir a través de una
conexión convergente
𝑋 → 𝑌 ← 𝑍
si se conoce el estado de𝑌
o de alguno de sus descendientes.Sin evidencia de Alarma:
Alarma
Robo Terremoto
Conexiones convergentes
La información solo se puede transmitir a través de una
conexión convergente
𝑋 → 𝑌 ← 𝑍
si se conoce el estado de𝑌
o de alguno de sus descendientes.Con evidencia fuerte de Alarma:
Alarma
ε
Robo Terremoto
ℙ(
R = sí|
A = sí) = 0.84
ℙ(
T = sí|
A = sí) = 0.08
ℙ(
R = sí|
T = sí,
A = sí) = 0.11 ℙ(
T = sí|
R = sí,
A = sí) = 0.01
Conexiones convergentes
La información solo se puede transmitir a través de una
conexión convergente
𝑋 → 𝑌 ← 𝑍
si se conoce el estado de𝑌
o de alguno de sus descendientes.Con evidencia débil de Alarma:
Alarma
ε
Robo Terremoto
ℙ(
R = sí|
Ll = sí) = 0.77
ℙ(
T = sí|
Ll = sí) = 0.08
Razonamientos en redes bayesianas
La representación de las dependencias entre variables mediante un DAG proporciona un medio compacto pero potente de realizar razonamientos abductivos, deductivos e intercausales.
Razonamientos en redes bayesianas
La representación de las dependencias entre variables mediante un DAG proporciona un medio compacto pero potente de realizar razonamientos abductivos, deductivos e intercausales. Razonamiento abductivo:
Robo
Alarma
Terremoto
Razonamientos en redes bayesianas
La representación de las dependencias entre variables mediante un DAG proporciona un medio compacto pero potente de realizar razonamientos abductivos, deductivos e intercausales. Razonamiento deductivo: Robo Alarma Terremoto
ε
Noticia LlamadaRazonamientos en redes bayesianas
La representación de las dependencias entre variables mediante un DAG proporciona un medio compacto pero potente de realizar razonamientos abductivos, deductivos e intercausales. Razonamiento intercausal: Robo Alarma
ε
Terremotoε
Noticiad-separación
Un sendero
π = ⟨𝑢, … , 𝑣⟩
en un DAGu�
= (𝑉 , 𝐸)
se dice queestábloqueadopor
𝑈 ⊆ 𝑉
, siπ
contiene un vértice𝑤
tal que:▶ o bien
𝑤 ∈ 𝑈
y los arcos deπ
no forman una conexiónconvergente en
𝑤
;▶ o bien
𝑤 ∉ 𝑈
,de(𝑤) ∩ 𝑈 = ∅
y los arcos deπ
forman unaconexión convergente en
𝑤
.Dados tres conjuntos disjuntos
𝑿, 𝒀
y𝒁
de variables de𝑉
, sedice que
𝑿
e𝒀
estánd-separadosdado𝒁
,𝑿⊥
u�𝒀 | 𝒁
, sid-separación: ejemplo
X
A B
d-separación: ejemplo
X
A B
C Y
d-separación: ejemplo
X A B C Y bloqueado en AX ⟂
u�Y | A
d-separación: ejemplo
X A B C Y bloqueado en BX ⟂
u�Y | A
d-separación: ejemplo
X A B C YX ⟂
u�Y | A
X /⟂
u�Y | B
d-separación: ejemplo
X A B C Y no bloqueadoX ⟂
u�Y | A
X /⟂
u�Y | B
d-separación: ejemplo
X A B C YX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
d-separación: ejemplo
X A B C Y bloqueado en BX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
d-separación: ejemplo
X A B C Y bloqueado en A, B y CX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
d-separación: ejemplo
X A B C YX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
X /⟂
u�Y | A, B
d-separación: ejemplo
X A B C Y no bloqueadoX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
X /⟂
u�Y | A, B
d-separación: ejemplo
X A B C YX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
X /⟂
u�Y | A, B
X ⟂
u�Y | A, C
d-separación: ejemplo
X A B C Y bloqueado en A y BX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
X /⟂
u�Y | A, B
X ⟂
u�Y | A, C
d-separación: ejemplo
X A B C Y bloqueado en B y CX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
X /⟂
u�Y | A, B
X ⟂
u�Y | A, C
d-separación: ejemplo
X A B C YX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
X /⟂
u�Y | A, B
X ⟂
u�Y | A, C
X /⟂
u�Y | B, C
d-separación: ejemplo
X A B C Y no bloqueadoX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
X /⟂
u�Y | A, B
X ⟂
u�Y | A, C
X /⟂
u�Y | B, C
d-separación: ejemplo
X A B C YX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
X /⟂
u�Y | A, B
X ⟂
u�Y | A, C
X /⟂
u�Y | B, C
X ⟂
u�Y | A, B, C
d-separación: ejemplo
X A B C Y bloqueado en AX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
X /⟂
u�Y | A, B
X ⟂
u�Y | A, C
X /⟂
u�Y | B, C
X ⟂
u�Y | A, B, C
d-separación: ejemplo
X A B C Y bloqueado en CX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
X /⟂
u�Y | A, B
X ⟂
u�Y | A, C
X /⟂
u�Y | B, C
X ⟂
u�Y | A, B, C
d-separación: ejemplo
X A B C YX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
X /⟂
u�Y | A, B
X ⟂
u�Y | A, C
X /⟂
u�Y | B, C
X ⟂
u�Y | A, B, C
X ⟂
u�Y
d-separación: ejemplo
X A B C Y bloqueado en BX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
X /⟂
u�Y | A, B
X ⟂
u�Y | A, C
X /⟂
u�Y | B, C
X ⟂
u�Y | A, B, C
X ⟂
u�Y
d-separación: ejemplo
X A B C Y bloqueado en A y BX ⟂
u�Y | A
X /⟂
u�Y | B
X ⟂
u�Y | C
X /⟂
u�Y | A, B
X ⟂
u�Y | A, C
X /⟂
u�Y | B, C
X ⟂
u�Y | A, B, C
X ⟂
u�Y
Criterios para d-separación
u�
= (𝑉 , 𝐸)
un DAG:▶ El manto de Markov de
𝑋 ∈ 𝑉
es el subconjunto minimal𝑈 ⊆ 𝑉
que d-separa a𝑋
del resto del grafo.𝑋⊥
u�𝑉 ∖ (𝑈 ∪ {𝑋}) | 𝑈
▶ Dados
𝑿, 𝒀 , 𝒁 ⊆ 𝑉
disjuntos,𝑿
e𝒀
están d-separadosdado
𝒁
si en el grafo(
u�
an(𝑿∪𝒀 ∪𝒁))
mtodo camino entre𝑿
e
𝒀
pasa por𝒁
.Toda variable de
𝑋 ∈ 𝑉
está d-separada de sus noCriterios para d-separación: ejemplo
A B C
D E F G
H I J
Criterios para d-separación: ejemplo
A B C D E F G H I J K Manto de Markov de F:{B, E, G, I, J}
F ⟂
u� resto del grafo|
Criterios para d-separación: ejemplo
A B C D E F G H𝑿 = {D, H}
𝒀 = {C, G}
𝒁 = {B, E, F}
𝑿 /⟂
u�𝒀 | 𝒁
Mapas de dependencia e independencia
ℙ
distribución de probabilidad sobre𝑉
yu�
= (𝑉 , 𝐸)
un DAG.▶
u�
mapa de dependencias(mapa-D) deℙ
: para todo𝑿, 𝒀 , 𝒁 ⊆ 𝑉
disjuntos𝑿⊥
ℙ𝒀 | 𝒁 ⇒ 𝑿⊥
u�𝒀 | 𝒁
▶
u�
mapa de independencias(mapa-I) deℙ
: para todo𝑿, 𝒀 , 𝒁 ⊆ 𝑉
disjuntos𝑿⊥
u�𝒀 | 𝒁 ⇒ 𝑿⊥
ℙ𝒀 | 𝒁
Limitación expresiva de los DAGs
Consideremos
𝑋
1, 𝑋
2, 𝑋
3, 𝑋
4 cumpliendo únicamente lassiguientes relaciones de independencia:
𝑋
1⊥
ℙ𝑋
2𝑋
1⊥
ℙ𝑋
4| 𝑋
2, 𝑋
3𝑋
2⊥
ℙ𝑋
3| 𝑋
1, 𝑋
4Redes bayesianas
Definición
Dada una distribución de probabilidad
ℙ
sobre un conjunto de variables𝑿
, unared bayesianaℬ
consta de:1. Un DAG
u�
= (𝑿, 𝐸)
.2. Un conjunto
u�
de distribuciones condicionales, conteniendoℙ(𝑋 | pa(𝑋))
, para cada𝑋 ∈ 𝑿
.Descomposición de la distribución conjunta
Una red bayesiana permite representar una distribución conjunta como producto de distribuciones condicionales:
ℙ(𝑿) =
∏
𝑛𝑖=1
ℙ(𝑋
i| pa(𝑋
𝑖))
Esta descomposición posibilita reducir el número de parámetros necesarios.
Modelo de la alarma:
▶ Distribución conjunta:
2
5− 1 = 31
parámetros.▶ Distribuciones condicionales:
(2 − 1) + (2 − 1) + 4(2 − 1) + 2(2 − 1) + 2(2 − 1) = 10
Construcción de redes bayesianas
Sea
𝑿
el conjunto de variables de la red bayesiana.1: Establecer un orden
𝑋
1, … , 𝑋
𝑛 entre las variables de𝑿
.2:
u�
← DAG con conjunto de vértices𝑿
y sin arcos3: para
𝑖
desde1
hasta𝑛
hacer4:
pa(𝑋
𝑖)
←𝒀 ⊆ {𝑋
1, … , 𝑋
𝑖−1}
minimal tal que𝑋
𝑖⟂
ℙ{𝑋
1, … , 𝑋
𝑖−1} ∖ 𝒀 | 𝒀
5: para
𝑋
enpa(𝑋
𝑖)
hacer6: añadir
𝑋 → 𝑋
𝑖 au�
7: fin para
Construcción de redes bayesianas
Orden entre las variablesEl resultado proporcionado por el algoritmo de construcción de redes bayesianas:
▶ puede variar si se parte de diferentes ordenaciones de
𝑿
.▶ representa siempre la misma distribución de probabilidad
conjunta
ℙ
de𝑿
.Es conveniente partir de un orden causal entre las variables:
▶ la red bayesiana obtenida será más compacta;
▶ las tablas de probabilidad condicionadas ocuparán menos
espacio;
Equivalencia de redes bayesianas
Dos redes bayesianas sobre las mismas variables son
equivalentessi representan la misma distribución de probabilidad conjunta.
Unaestructura-ves una conexión convergente
𝑋
𝑖→ 𝑋
𝑘← 𝑋
𝑗tal que
𝑋
𝑖 y𝑋
𝑗 no están conectados.Dos redes bayesianas son equivalentes si y solo si los DAGs asociados tienen el mismo esqueleto y las mismas estructuras-v.
Ejemplo de redes bayesianas equivalentes
Supongamos que𝑋⊥
ℙ𝑌 | 𝑍
.𝑍
𝑋
𝑌
ℬ1
𝑍
𝑋
𝑌
ℬ2
𝑍
𝑋
𝑌
ℬ3
ℬ
1 representaℙ(𝑋, 𝑌 , 𝑍) = ℙ(𝑋 | 𝑌 , 𝑍)ℙ(𝑌 | 𝑍)ℙ(𝑍)
= ℙ(𝑋 | 𝑍)ℙ(𝑌 | 𝑍)ℙ(𝑍)
ℬ
2 representaℙ(𝑋, 𝑌 , 𝑍) = ℙ(𝑋 | 𝑍, 𝑌 )ℙ(𝑍 | 𝑌 )ℙ(𝑌 )
= ℙ(𝑋 | 𝑍)ℙ(𝑍 | 𝑌 )ℙ(𝑌 )
ℬ
3 representaℙ(𝑋, 𝑌 , 𝑍) = ℙ(𝑌 | 𝑍, 𝑋)ℙ(𝑍 | 𝑋)ℙ(𝑋)
= ℙ(𝑌 | 𝑍)ℙ(𝑍 | 𝑋)ℙ(𝑋)
Inferencia probabilística en
redes bayesianas discretas
Consultas
Consulta probabilística: determinar
ℙ(𝒀 | ε)
▶
𝒀
: subconjunto devariables de consulta.▶
ε
:evidenciadisponible sobre otras variables.Consulta MAP: determinar
arg m ́ax
𝒘ℙ(𝒘 | ε)
▶
ε
: evidencia sobre el subconjunto de variables𝑬
.▶
𝒘
: asignación de valores al resto de variables𝑾 = 𝑿 ∖ 𝑬
.Consulta MAP marginal: determinar
arg m ́ax
𝒚ℙ(𝒚 | ε)
▶
ε
: evidencia sobre el subconjunto de variables𝑬
.▶
𝒚
: asignación de valores al subconjunto de variablesConsultas
Dificultad del problema:
MAP marginal
>
MAP>
probabilísticaEn este tema nos centramos únicamente en las consultas probabilísticas.
Potenciales
Potencial de probabilidadsobre conjunto de variables
𝑿
,denominadoámbitodel potencial:
ϕ: Val(𝑿) → ℝ
≥0con
Val(𝑿) = Val(𝑋
1) × ⋯ × Val(𝑋
𝑛)
Ejemplos:
𝐴 = {a
1, a
2}
y𝐵 = {b
1, b
2}
. Potencial de ámbito𝐴
:ϕ
1(𝐴)
a
1a
2 1 2 Potencial de ámbito𝐴, 𝐵
:ϕ
2(𝐴, 𝐵)
b
1b
2a
1a
2a
1a
2 5 7 3 1Evidencias
Una evidencia sobre un conjunto de variables
𝑿
es un potencialde probabilidad con ámbito
𝑿
.Evidencia de que
𝐴 = a
2:a
1a
2Evidencias
Una evidencia sobre un conjunto de variables
𝑿
es un potencialde probabilidad con ámbito
𝑿
.Evidencia de que
(𝐴, 𝐵) = (a
1, b
1)
o(𝐴, 𝐵) = (a
2, b
2)
:b
1b
2a
1a
2a
1a
2Evidencias
Una evidencia sobre un conjunto de variables
𝑿
es un potencialde probabilidad con ámbito
𝑿
.Evidencia de que
𝐴 = a
1 es el doble de verosímil que𝐴 = a
2:a
1a
2Producto de potenciales
Dados dos potenciales
ϕ(𝑿)
yψ(𝒀 )
, el productoϕψ
es elpotencial de ámbito
𝑿 ∪ 𝒀
definido, para cada𝒛 ∈ Val(𝑿 ∪ 𝒀 )
, como(ϕψ)(𝒛) = ϕ(𝒛
𝑿)ψ(𝒛
𝒀)
donde
𝒛
𝑿 y𝒛
𝒀 son las proyecciones de𝒛
a𝑿
e𝒀
.Propiedades:
1. Conmutativa:
ϕ
1ϕ
2= ϕ
2ϕ
1.Producto de potenciales: ejemplo
ψ
1(𝐴, 𝐵)
:a
1a
2a
3b
1b
2b
1b
2b
1b
2 0.5 0.8 0.1 0 0.3 0.9ψ
2(𝐵, 𝐶)
:b
1b
2c
1c
2c
1c
2 0.5 0.7 0.1 0.2ψ
1ψ
2= ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2Producto de potenciales: ejemplo
ψ
1(𝐴, 𝐵)
:a
1a
2a
3b
1b
2b
1b
2b
1b
2 0.5 0.8 0.1 0 0.3 0.9ψ
2(𝐵, 𝐶)
:b
1b
2c
1c
2c
1c
2 0.5 0.7 0.1 0.2ψ
1ψ
2= ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7b
2 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2Producto de potenciales: ejemplo
ψ
1(𝐴, 𝐵)
:a
1a
2a
3b
1b
2b
1b
2b
1b
2 0.5 0.8 0.1 0 0.3 0.9ψ
2(𝐵, 𝐶)
:b
1b
2c
1c
2c
1c
2 0.5 0.7 0.1 0.2ψ
1ψ
2= ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2Producto de potenciales: ejemplo
ψ
1(𝐴, 𝐵)
:a
1a
2a
3b
1b
2b
1b
2b
1b
2 0.5 0.8 0.1 0 0.3 0.9ψ
2(𝐵, 𝐶)
:b
1b
2c
1c
2c
1c
2 0.5 0.7 0.1 0.2ψ
1ψ
2= ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7b
2 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2Producto de potenciales: ejemplo
ψ
1(𝐴, 𝐵)
:a
1a
2a
3b
1b
2b
1b
2b
1b
2 0.5 0.8 0.1 0 0.3 0.9ψ
2(𝐵, 𝐶)
:b
1b
2c
1c
2c
1c
2 0.5 0.7 0.1 0.2ψ
1ψ
2= ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7 0×0.1 0×0.2 0.9×0.1 0.9×0.2Producto de potenciales: ejemplo
ψ
1(𝐴, 𝐵)
:a
1a
2a
3b
1b
2b
1b
2b
1b
2 0.5 0.8 0.1 0 0.3 0.9ψ
2(𝐵, 𝐶)
:b
1b
2c
1c
2c
1c
2 0.5 0.7 0.1 0.2ψ
1ψ
2= ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7b
2 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2Producto de potenciales: ejemplo
ψ
1(𝐴, 𝐵)
:a
1a
2a
3b
1b
2b
1b
2b
1b
2 0.5 0.8 0.1 0 0.3 0.9ψ
2(𝐵, 𝐶)
:b
1b
2c
1c
2c
1c
2 0.5 0.7 0.1 0.2ψ
1ψ
2= ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7 0×0.1 0×0.2 0.9×0.1 0.9×0.2Producto de potenciales: ejemplo
ψ
1(𝐴, 𝐵)
:a
1a
2a
3b
1b
2b
1b
2b
1b
2 0.5 0.8 0.1 0 0.3 0.9ψ
2(𝐵, 𝐶)
:b
1b
2c
1c
2c
1c
2 0.5 0.7 0.1 0.2ψ
1ψ
2= ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7b
2 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2Producto de potenciales: ejemplo
ψ
1(𝐴, 𝐵)
:a
1a
2a
3b
1b
2b
1b
2b
1b
2 0.5 0.8 0.1 0 0.3 0.9ψ
2(𝐵, 𝐶)
:b
1b
2c
1c
2c
1c
2 0.5 0.7 0.1 0.2ψ
1ψ
2= ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7 0.9×0.1 0.9×0.2Producto de potenciales: ejemplo
ψ
1(𝐴, 𝐵)
:a
1a
2a
3b
1b
2b
1b
2b
1b
2 0.5 0.8 0.1 0 0.3 0.9ψ
2(𝐵, 𝐶)
:b
1b
2c
1c
2c
1c
2 0.5 0.7 0.1 0.2ψ
1ψ
2= ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7b
2 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2Producto de potenciales: ejemplo
ψ
1(𝐴, 𝐵)
:a
1a
2a
3b
1b
2b
1b
2b
1b
2 0.5 0.8 0.1 0 0.3 0.9ψ
2(𝐵, 𝐶)
:b
1b
2c
1c
2c
1c
2 0.5 0.7 0.1 0.2ψ
1ψ
2= ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7 0.9×0.1 0.9×0.2Producto de potenciales: ejemplo
ψ
1(𝐴, 𝐵)
:a
1a
2a
3b
1b
2b
1b
2b
1b
2 0.5 0.8 0.1 0 0.3 0.9ψ
2(𝐵, 𝐶)
:b
1b
2c
1c
2c
1c
2 0.5 0.7 0.1 0.2ψ
1ψ
2= ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7b
2 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2Producto de potenciales: ejemplo
ψ
1(𝐴, 𝐵)
:a
1a
2a
3b
1b
2b
1b
2b
1b
2 0.5 0.8 0.1 0 0.3 0.9ψ
2(𝐵, 𝐶)
:b
1b
2c
1c
2c
1c
2 0.5 0.7 0.1 0.2ψ
1ψ
2= ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7Cociente de potenciales
Dados dos potenciales
ϕ(𝑿)
yψ(𝒀 )
, el cocienteϕ/ψ
es elpotencial de ámbito
𝑿 ∪ 𝒀
definido, para cada𝒛 ∈ Val(𝑿 ∪ 𝒀 )
, como(ϕ/ψ)(𝒛) =
⎧⎪
⎨
⎪⎩
ϕ(𝒛
𝑿)/ψ(𝒛
𝒀),
siψ(𝒛
𝒀) ≠ 0
0,
siϕ(𝒛
𝑿) = 0
no definido
,
en otro casoMarginalización de potenciales
Dado un potencial
ϕ(𝑿)
, la marginalización deϕ
sobre𝒀 ⊆ 𝑿
es el potencial de ámbito
𝑿 ∖ 𝒀
definido, para cada𝒛 ∈ Val(𝑿 ∖ 𝒀 )
, como∑
𝒀ϕ(𝒛) = ∑
𝒚∈𝒀ϕ(𝒛.𝒚)
donde
𝒛.𝒚
es el elemento deVal(𝑿)
tal que(𝒛.𝒚)
𝑿∖𝒀= 𝒛
y(𝒛.𝒚)
𝒀= 𝒚
.Propiedades:
1. Conmutativa:
∑
𝑨∑
𝑩ϕ = ∑
𝑩∑
𝑨ϕ
.Marginalización de potenciales: ejemplo
ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.25 0.35 0.05 0.07 0.15 0.21b
2 0.08 0.16 0 0 0.09 0.18∑
𝐵ψ
3= ψ
4(𝐴, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2 0.25+0.08 0.35+0.16 0.05+0 0.07+0 0.15+0.09 0.21+0.18Marginalización de potenciales: ejemplo
ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.25 0.35 0.05 0.07 0.15 0.21b
2 0.08 0.16 0 0 0.09 0.18∑
𝐵ψ
3= ψ
4(𝐴, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2 0.35+0.16 0.05+0 0.07+0 0.15+0.09 0.21+0.18Marginalización de potenciales: ejemplo
ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.25 0.35 0.05 0.07 0.15 0.21b
2 0.08 0.16 0 0 0.09 0.18∑
𝐵ψ
3= ψ
4(𝐴, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2 0.25+0.08 0.35+0.16 0.05+0 0.07+0 0.15+0.09 0.21+0.18Marginalización de potenciales: ejemplo
ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.25 0.35 0.05 0.07 0.15 0.21b
2 0.08 0.16 0 0 0.09 0.18∑
𝐵ψ
3= ψ
4(𝐴, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2 0.07+0 0.15+0.09 0.21+0.18Marginalización de potenciales: ejemplo
ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.25 0.35 0.05 0.07 0.15 0.21b
2 0.08 0.16 0 0 0.09 0.18∑
𝐵ψ
3= ψ
4(𝐴, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2 0.25+0.08 0.35+0.16 0.05+0 0.07+0 0.15+0.09 0.21+0.18Marginalización de potenciales: ejemplo
ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.25 0.35 0.05 0.07 0.15 0.21b
2 0.08 0.16 0 0 0.09 0.18∑
𝐵ψ
3= ψ
4(𝐴, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2 0.21+0.18Marginalización de potenciales: ejemplo
ψ
3(𝐴, 𝐵, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2b
1 0.25 0.35 0.05 0.07 0.15 0.21b
2 0.08 0.16 0 0 0.09 0.18∑
𝐵ψ
3= ψ
4(𝐴, 𝐶)
:a
1a
2a
3c
1c
2c
1c
2c
1c
2 0.25+0.08 0.35+0.16 0.05+0 0.07+0 0.15+0.09 0.21+0.18Normalización de potenciales
Lanormalizaciónrespecto a
𝑿
de un potencialϕ
de ámbito𝑿, 𝒀
lo transforma en la distribución de probabilidadℙ(𝒀 | 𝑿)
:η
𝑿(ϕ) = ϕ
∑
𝒀ϕ
Normalización de potenciales
Lanormalizaciónrespecto a
𝑿
de un potencialϕ
de ámbito𝑿, 𝒀
lo transforma en la distribución de probabilidadℙ(𝒀 | 𝑿)
:η
𝑿(ϕ) = ϕ
∑
𝒀ϕ
Notaremosη = η
∅. Ejemplos:ℙ(𝐴) = η(ϕ
1(𝐴))
=
∑
ϕ
1(𝐴)
𝐴ϕ
1(𝐴)
a
1a
2 1 3 23Normalización de potenciales
Lanormalizaciónrespecto a
𝑿
de un potencialϕ
de ámbito𝑿, 𝒀
lo transforma en la distribución de probabilidadℙ(𝒀 | 𝑿)
:η
𝑿(ϕ) = ϕ
∑
𝒀ϕ
Notaremosη = η
∅. Ejemplos:ℙ(𝐴, 𝐵) = η(ϕ
2(𝐴, 𝐵))
=
ϕ
2(𝐴, 𝐵)
b
1b
2a
1a
2a
1a
2Normalización de potenciales
Lanormalizaciónrespecto a
𝑿
de un potencialϕ
de ámbito𝑿, 𝒀
lo transforma en la distribución de probabilidadℙ(𝒀 | 𝑿)
:η
𝑿(ϕ) = ϕ
∑
𝒀ϕ
Notaremosη = η
∅. Ejemplos:ℙ(𝐴 | 𝐵) = η
𝐵(ϕ
2(𝐴, 𝐵))
=
ϕ
2(𝐴, 𝐵)
∑
𝐴ϕ
2(𝐴, 𝐵)
b
1b
2𝑎
1 125 34𝑎
2 127 14Eliminación de una variable
Sean
Φ
un conjunto de potenciales y𝑋
una variable.El proceso deeliminar
𝑋
deΦ
consta de los siguientes pasos:1. Calcular
Φ
𝑋= {ϕ ∈ Φ | 𝑋 ∈ ámbito(ϕ)}
.2. Calcular
ϕ
−𝑋= ∑
𝑋∏ Φ
𝑋.Reducción de potenciales
ψ1(𝐴, 𝐵): a1 a2 a3 b1 b2 b1 b2 b1 b2 0.5 0.8 0.1 0 0.3 0.9 ψ2(𝐵, 𝐶): b1 b2 c1 c2 c1 c2 0.5 0.7 0.1 0.2 ε(𝐵): b1 b2 1 0Reducción de potenciales
ψ1(𝐴, 𝐵): a1 a2 a3 b1 b2 b1 b2 b1 b2 0.5 0.8 0.1 0 0.3 0.9 ψ2(𝐵, 𝐶): b1 b2 c1 c2 c1 c2 0.5 0.7 0.1 0.2 ε(𝐵): b1 b2 1 0 ψ1ψ2ε: a1 a2 a3 c1 c2 c1 c2 c1 c2 b1 0.5×0.5×1 0.5×0.7×1 0.1×0.5×1 0.1×0.7×1 0.3×0.5×1 0.3×0.7×1 b2 0.8×0.1×0 0.8×0.2×0 0×0.1×0 0×0.2×0 0.9×0.1×0 0.9×0.2×0Reducción de potenciales
ψ1(𝐴, 𝐵): a1 a2 a3 b1 b2 b1 b2 b1 b2 0.5 0.8 0.1 0 0.3 0.9 ψ2(𝐵, 𝐶): b1 b2 c1 c2 c1 c2 0.5 0.7 0.1 0.2 ε(𝐵): b1 b2 1 0 ∑𝐵ψ1ψ2ε: a1 a2 a3 c1 c2 c1 c2 c1 c2 0.5×0.5×1 0.5×0.7×1 0.1×0.5×1 0.1×0.7×1 0.3×0.5×1 0.3×0.7×1 +0.8×0.1×0 +0.8×0.2×0 +0×0.1×0 +0×0.2×0 +0.9×0.1×0 +0.9×0.2×0Reducción de potenciales
ψ′ 1(𝐴): a1 a2 a3 b1 b2 b1 b2 b1 b2 0.5 0.8 0.1 0 0.3 0.9 ψ′ 2(𝐶): b1 b2 c1 c2 c1 c2 0.5 0.7 0.1 0.2 ε(𝐵): b1 b2 1 0 ∑𝐵ψ1ψ2ε = ψ1′ψ2′: a1 a2 a3 c1 c2 c1 c2 c1 c2 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7Algoritmo de eliminación de variables
Dada una red bayesiana
ℬ
con conjunto de variables𝑿
, serealiza la consulta
ℙ(𝒀 | ε)
:▶ Variables de consulta:
𝒀
.▶ Variables de evidencia:
𝑬 = ámbito(ε)
.▶ Variables a eliminar:
𝒁 = 𝑿 ∖ (𝒀 ∪ 𝑬)
.Algoritmo de eliminación de variablespara calcular
ℙ(𝒀 | ε)
:1:
Φ
← DPCs deℬ
junto conε
2: elegir
𝑍
1, … , 𝑍
n ordenación de𝒁
3: para
𝑖
desde1
hasta𝑛
hacer4: eliminar
𝑍
𝑖 deΦ
5:
Φ
←Φ
−𝑍𝑖6: fin para
Ejemplo de inferencia probabilística
Calcular
ℙ(
Robo|
llamada, ¬
noticia)
.Algoritmo de eliminación de variables:
Potenciales Variable a eliminar
ϕ
R(R)
,ϕ
T(T)
,ϕ
A(A, R, T)
,ϕ
N(T)
,ϕ
Ll(A)
Tϕ
R(R)
,ϕ
Ll(A)
,ϕ
−T(A, R)
Aϕ
R(R)
,ϕ
−A(R)
Devolverη(ϕ
R(R)ϕ
−A(R))
.Potenciales iniciales I
ϕ
R(Robo)
: R = no0.90
R = sí0.10
ϕ
T(Terremoto)
: T = no0.99
T = sí0.01
ϕ
A(Alarma, Robo, Terremoto)
:R = no R = sí
T = no T = sí T = no T = sí
A = no
0.99 0.10 0.10 0.01
Potenciales iniciales II
ϕ
N(Terremoto)
: T = no T = sí N = no0.999 0.01
ϕ
Ll(Alarma)
: A = no A = sí Ll = sí0.01 0.95
Eliminación de la variable Terremoto
ϕ
Tϕ
Aϕ
N(Alarma, Robo, Terremoto)
:R = no A = no A = sí T = no
0.99 × 0.99 × 0.999 0.99 × 0.01 × 0.999
T = sí0.01 × 0.1 × 0.01
0.01 × 0.9 × 0.01
R = sí A = no A = sí T = no0.99 × 0.1 × 0.999 0.99 × 0.9 × 0.999
T = sí0.01 × 0.01 × 0.01 0.01 × 0.99 × 0.01
Eliminación de la variable Terremoto
ϕ
−T(Alarma, Robo) = ∑
Tϕ
Tϕ
Aϕ
N: R = no R = sí A = no A = sí A = no A = sí0.9791299 0.0099801 0.098902 0.890208
Eliminación de la variable Alarma
ϕ
Llϕ
−T(Alarma, Robo)
: R = no R = sí A = no0.01 × 0.9791299 0.01 × 0.098902
A = sí0.95 × 0.00099801 0.95 × 0.890208
ϕ
−A(Robo) = ∑
Aϕ
Llϕ
−T: R = no R = sí0.019272394 0.84668662
Resultado de la inferencia probabilística
ϕ
Rϕ
−A(Robo)
: R = no R = sí0.9 × 0.019272394 0.1 × 0.84668662
η(ϕ
Rϕ
−A(Robo))
: R = no R = sí0.170027507 0.829972493
Variables irrelevantes
Variableirrelevantepara la consulta
ℙ(𝒀 | ε)
: ni ella ni ningunode sus descendientes es una variable de consulta ni de evidencia.
Ejemplo: en el modelo de la alarma, la variable Noticia es
irrelevante para la consulta
ℙ(
Robo|
llamada)
.ℙ(
R|
ll) ∝ ℙ(
R,
ll) = ∑
T,A,Nℙ(
R,
T,
A,
ll,
N)
= ∑
T,A,Nℙ(
R)ℙ(
T)ℙ(
A|
R,
T)ℙ(
ll|
A)ℙ(
N|
T)
= ℙ(
R) ∑
Tℙ(
T) ∑
Aℙ(
A|
R,
T)ℙ(
ll|
A) ∑
Nℙ(
N|
T)
Complejidad del algoritmo
Complejidad del algoritmo de eliminación de variables:
▶ Exponencial en el tamaño máximo de los ámbitos de los
potenciales generados.
▶ Lineal para las redes bayesianas cuyo DAG subyacente es un
poliárbol (es decir, su esqueleto es un árbol).
El orden en el que se eliminan las variables influye en la eficiencia del algoritmo:
▶ Cálculo más eficiente si el orden de eliminación lleva a
potenciales generados de menor tamaño.
Inferencia aproximada en redes bayesianas
Métodos basados en la generación aleatoria de muestras de la red bayesiana.
Muestra aleatoria: asignación de valores a las variables, con probabilidad de generación igual a la probabilidad conjunta.
1:
𝑋
1, … , 𝑋
𝑛 orden topológico de las variables2: para
𝑖
desde1
hasta𝑛
hacer3:
𝑥
𝑖 ← elemento aleatorio deVal(𝑋
𝑖)
según ladistri-bución
ℙ(𝑋
𝑖| pa(𝑋
𝑖))
4: fin para
Muestra aleatoria: ejemplo
Modelo de la alarma: en este ejemplo elegimos en cada caso el valor más probable.
▶
ℙ(
Robo) = (0.9, 0.1)
. Elegimos ¬robo.▶
ℙ(
Terremoto) = (0.99, 0.01)
. Elegimos ¬terremoto.▶
ℙ(
Alarma|
¬robo,
¬terremoto) = (0.99, 0.01)
. Elegimos¬alarma.
▶
ℙ(
Llamada|
¬alarma) = (0.99, 0.01)
. Elegimos ¬llamada.▶
ℙ(
Noticia|
¬terremoto) = (0.999, 0.001)
. Elegimos¬noticia.
Valor aleatorio de una variable
Sea
𝑋
una variable aleatoria discreta con:▶
Val(𝑋) = {𝑥
1, … , 𝑥
n}
.▶
ℙ(𝑋 = 𝑥
𝑖) = 𝑝
𝑖(∑
𝑛𝑖=1𝑝
𝑖= 1)
.Para generar un valor aleatorio de
𝑋
:1: generar un valor aleatorio
𝑝 ∈ (0, 1)
2: devolver
𝑥
𝑗 tal que∑
𝑗−1𝑖=1𝑝
𝑖< 𝑝 ≤ ∑
𝑗𝑖=1𝑝
𝑖0 1
𝑝
Estimación de la probabilidad conjunta
𝑒
1, … , 𝑒
𝑁 secuencia de muestras aleatorias de una redbayesiana para
ℙ
.La ley fuerte de los grandes números nos asegura que
#{𝑒
𝑖| 𝑒
𝑖= (𝑥
1, … , 𝑥
n)}
Algoritmo de muestreo con rechazo
𝑒[𝒀 ]
: valores asignados a las variables de𝒀
por la muestra𝑒
.1:
ϕ
← potencial de ámbito𝒀
que asigna0
a cadacombi-nación de valores
2: Generar
𝑁
muestras aleatorias𝑒
1, … , 𝑒
𝑁3: para cada muestra
𝑒
generadahacer4: si
𝑒
es compatible conε
entonces5: incrementar