e Inteligencia Artificial

(1)

Inteligencia Artificial

Redes bayesianas

Departamento de Ciencias de la Computación e Inteligencia Artificial

(2)

(3)

Grafos

Grafo no dirigido:

u�

= (𝑉 , 𝐸)

▶

𝑉

conjunto finito devértices.

▶

𝐸 ⊆ {{𝑢, 𝑣} | 𝑢, 𝑣 ∈ 𝑉 , 𝑢 ≠ 𝑣}

conjunto dearistas.

▶

{𝑢, 𝑣} ∈ 𝐸

_{lo notaremos por}

𝑢 − 𝑣

_. Grafo dirigido:

u�

= (𝑉 , 𝐸)

▶

𝑉

conjunto finito devértices.

▶

𝐸 ⊆ 𝑉 × 𝑉

conjunto dearcos.

▶

⟨𝑢, 𝑣⟩ ∈ 𝐸

_{lo notaremos por}

𝑢 → 𝑣

_.

▶

𝑢

_padre_de

𝑣

_y

𝑣

_hijo_de

𝑢

_.

(4)

Grafo no dirigido: ejemplo

A C D E B F G H I Grafo no dirigido A C D E B F G H I Grafo dirigido

(5)

Caminos

Vértices

𝑢

y

𝑣

conectados,

𝑢 ∼ 𝑣

, si

𝑢 → 𝑣

,

𝑣 → 𝑢

o

𝑢 − 𝑣

.

▶ Caminodelongitud

𝑛 − 1

:

⟨𝑣

₁

, … , 𝑣

_𝑛

⟩

con

𝑣

_𝑖

− 𝑣

_𝑖+1 o

𝑣

𝑖

→ 𝑣

𝑖+1, para todo

𝑖 = 1, … , 𝑛 − 1

.

▶ Senderoen un grafo dirigido:

⟨𝑣

₁

, … , 𝑣

_𝑛

⟩

con

𝑣

_𝑖

∼ 𝑣

_𝑖+1,

para todo

𝑖 = 1, … , 𝑛 − 1

.

▶

𝑢

ancestrode

𝑣

y

𝑣

descendientede

𝑢

si existe camino de

𝑢

a

𝑣

.

(6)

Caminos: ejemplo

A C D E B F G H I Camino de A a G A C D E B F G H I Sendero de A a G

(7)

Grafos acíclicos dirigidos

Cicloen un grafo dirigido: camino

⟨𝑣

₁

, … , 𝑣

_𝑛

⟩

de longitud al

menos 1 tal que

𝑣

₁

= 𝑣

_𝑛.

Grafo acíclico dirigido(DAG): grafo dirigido que no tiene ciclos.

Esqueletode un DAG: grafo no dirigido que resulta al reemplazar todos los arcos dirigidos por aristas no dirigidas.

(8)

DAGs: ejemplo

A C D E B F G H I Ciclo A C D E B F G H I DAG

(9)

Orden topológico

Orden topológicode los vértices de un DAG

u�

= (𝑉 , 𝐸)

:

⟨𝑣

1

, … , 𝑣

𝑛

⟩

tal que si

𝑣

𝑖

→ 𝑣

j

∈ 𝐸

, entonces

𝑖 < 𝑗

.

Algoritmo para obtener un orden topológico de

u�

:

1: establecer todos los vértices de

u�

como no marcados

2: para

𝑖

desde

1

hasta

𝑛

hacer

3:

𝑣

_𝑖 ← cualquier vértice

𝑣

cuyos padres estén todos

marcados

4: marcar

𝑣

_𝑖

5: fin para

(10)

Orden topológico: ejemplo

A C D E B F G H I Orden topológico:

(11)

Orden topológico: ejemplo

A C D E B F G H I Orden topológico: A,

(12)

Orden topológico: ejemplo

A C D E B F G H I Orden topológico: A, D,

(13)

Orden topológico: ejemplo

A C D E B F G H I Orden topológico: A, D, C,

(14)

Orden topológico: ejemplo

A C D E B F G H I Orden topológico: A, D, C, F,

(15)

Orden topológico: ejemplo

A C D E B F G H I Orden topológico: A, D, C, F, G,

(16)

Orden topológico: ejemplo

A C D E B F G H I Orden topológico: A, D, C, F, G, B,

(17)

Orden topológico: ejemplo

A C D E B F G H I Orden topológico: A, D, C, F, G, B, E,

(18)

Orden topológico: ejemplo

A C D E B F G H I Orden topológico: A, D, C, F, G, B, E, H,

(19)

Orden topológico: ejemplo

A C D E B F G H I Orden topológico: A, D, C, F, G, B, E, H, I.

(20)

Grafos morales

Grafo moralde un DAG

u�

= (𝑉 , 𝐸)

: grafo no dirigido

u�

m

_{= (𝑉 , 𝐸}

m

₎

_con

𝐸

m

= {{𝑢,𝑣} |

𝑢

tienen un hijo común eny

𝑣

están conectados o

u�

}

Manto de Markovde un vértice

𝑣

en

u�

: conjunto de vértices

conectados a

𝑣

en el grafo moral de

u�

.

(21)

Grafos morales: ejemplo

A C D E B F G H I DAG A C D E B F G H I Grafo moral Manto de Markov de D:

{

A, B, C, E, F, G

}

.

(22)

Repaso de

(23)

Eventos

Variable aleatoria discreta

𝑋

: toma valores en un conjunto finito

Val(𝑋)

.

Dadas

𝑋

₁

, … , 𝑋

_𝑛 variables aleatorias discretas:

▶ Espacio de eventos

𝑆

: asignaciones conjuntas de valores.

▶ Evento elemental

𝑎

: elemento del espacio de eventos, lo

notaremos

𝑋

₁

= 𝑥

₁

, … , 𝑋

_𝑛

= 𝑥

_𝑛.

▶ Evento

𝐴

: subconjunto del espacio de eventos.

(24)

Variables aleatorias discretas: ejemplo

Consideremos los siguientes objetos:

1 1 1 2

1 1 2 2

1 2 2 2

Elegimos uno de los objetos al azar:

▶ VariableForma:

Val(

Forma

) = {

cuadrado

,

círculo

,

triángulo

}

▶ VariableSombreado:

Val(

Sombreado

) = {

no

,

sí

} = {¬

sombreado

,

sombreado

}

▶ VariableValor:

(25)

Espacio de eventos: ejemplo

𝑆 = {(

Forma

=

cuadrado

, ¬

sombreado

,

Valor

= 1),

(

Forma

=

cuadrado

, ¬

sombreado

,

Valor

= 2),

(

Forma

=

cuadrado

,

sombreado

,

Valor

= 1),

(

Forma

=

cuadrado

,

sombreado

,

Valor

= 2),

(

Forma

=

círculo

, ¬

sombreado

,

Valor

= 1),

(

Forma

=

círculo

, ¬

sombreado

,

Valor

= 2),

(

Forma

=

círculo

,

sombreado

,

Valor

= 1),

(

Forma

=

círculo

,

sombreado

,

Valor

= 2),

(

Forma

=

triángulo

, ¬

sombreado

,

Valor

= 1),

(26)

Eventos: ejemplo

▶

¬

sombreado

∧

Valor

= 2 ≡

{(

Forma

=

cuadrado

, ¬

sombreado

,

Valor

= 2),

(

Forma

=

círculo

, ¬

sombreado

,

Valor

= 2),

(

Forma

=

triángulo

, ¬

sombreado

,

Valor

= 2)}

▶

¬(

Valor

= 2 ∨ (sombreado ∧

Forma

=

cuadrado

)) ≡

{(

Forma

=

cuadrado

, ¬

sombreado

,

Valor

= 1),

(

Forma

=

círculo

, ¬

sombreado

,

Valor

= 1),

(

Forma

=

círculo

,

sombreado

,

Valor

= 1),

(

Forma

=

triángulo

, ¬

sombreado

,

Valor

= 1),

(

Forma

=

triángulo

,

sombreado

,

Valor

= 1)}

(27)

Probabilidades

Función de probabilidadsobre un espacio de eventos

𝑆

:

ℙ: {𝐴 | 𝐴 ⊆ 𝑆} → ℝ

tal que

1.

ℙ(𝐴) ≥ 0

, para todo

𝐴 ⊆ 𝑆

.

2.

ℙ(𝑆) = 1

.

3. Para todo par de eventos

𝐴, 𝐵 ⊆ 𝑆

mutuamente exclusivos

(28)

Propiedades de la función de probabilidad

▶

ℙ(¬𝐴) = 1 − ℙ(𝐴)

, para todo

𝐴 ⊆ 𝑆

. ▶

ℙ(𝐴) ≤ ℙ(𝐵)

, para todo

𝐴 ⊆ 𝐵

. ▶

ℙ(𝐴) ≤ 1

, para todo

𝐴 ⊆ 𝑆

. ▶

ℙ(𝐴 ∪ 𝐵) = ℙ(𝐴) + ℙ(𝐵) − ℙ(𝐴 ∩ 𝐵)

, para todo

𝐴, 𝐵 ⊆ 𝑆

. ▶

ℙ(𝐴) = ∑

𝑛_𝑖=1

ℙ(𝑎

_𝑖

)

, para todo

𝐴 = {𝑎

₁

, … , 𝑎

_𝑛

_}

.

(29)

Función de probabilidad: ejemplo

ℙ(

Forma

=

cuadrado

, ¬

sombreado

,

Valor

= 1) = 0,

ℙ(

Forma

=

cuadrado

, ¬

sombreado

,

Valor

= 2) = 1

12,

ℙ(

Forma

=

cuadrado

,

sombreado

,

Valor

= 1) = 14,

…

ℙ(¬

sombreado

∧

Valor

= 2) = 1

12 +

1 12 =

1

4 ℙ(¬(

Valor

= 2 ∨ (sombreado ∧

Forma

=

cuadrado

))) =

(30)

Probabilidades condicionadas

Probabilidad conjuntade dos eventos

𝐴

y

𝐵

:

ℙ(𝐴, 𝐵) ≝ ℙ(𝐴 ∩ 𝐵)

Probabilidad de

𝐴

condicionadaa

𝐵

, con

ℙ(𝐵) > 0

:

(31)

Regla de Bayes

Regla fundamental: para cualesquiera dos eventos

𝐴

y

𝐵

ℙ(𝐴, 𝐵) = ℙ(𝐴 | 𝐵)ℙ(𝐵) = ℙ(𝐵 | 𝐴)ℙ(𝐴)

Sigue inmediatamente laregla de Bayes:

ℙ(𝐴 | 𝐵) = ℙ(𝐵 | 𝐴)ℙ(𝐴)

_ℙ(𝐵)

(32)

Probabilidades condicionadas: ejemplo

ℙ(

Valor

= 2 |

sombreado

) = ℙ(

Valor

= 2,

sombreado

)

ℙ(

sombreado

)

= 1/4

_{3/4 =}

1 ₃

Regla de Bayes:

ℙ(

Valor

= 2 |

sombreado

)

= ℙ(

sombreado

_ℙ(

|

_sombreadoValor

= 2)ℙ(

₎

Valor

= 2)

(33)

Distribuciones de probabilidad

Distribución de probabilidadde una variable

𝑋

con

Val(𝑋) = {𝑥

1

, … , 𝑥

𝑛

}

:

ℙ(𝑋) ≝ (ℙ(𝑋 = 𝑥

1

), … , ℙ(𝑋 = 𝑥

𝑛

))

Dada otra variable

𝑌

, notaremos

ℙ(𝑌 | 𝑋)

el conjunto de

distribuciones de probabilidad

ℙ(𝑌 | 𝑋 = 𝑥)

, para cada

𝑥 ∈ Val(𝑋)

.

(34)

Distribuciones de probabilidad: ejemplo

ℙ(

Forma

)

: cuadrado

1/3

círculo

1/3

triángulo

1/3

ℙ(

Sombreado

)

: no

1/4

sí

3/4

ℙ(

Valor

)

: 1

1/2

2

1/2

ℙ(

Forma

|

Valor

,

Sombreado

)

:

1 2

sí no sí

cuadrado

1/2 1/3 0

círculo

1/3 1/3 1/3

(35)

Marginalización sobre una variable

𝑋

,

𝑌

dos v. a.,

Val(𝑋) = {𝑥

₁

, … , 𝑥

_𝑚

_}

,

Val(𝑌 ) = {𝑦

₁

, … , 𝑦

_𝑛

_}

Regla de la probabilidad total:

ℙ(𝑥

i

) =

𝑛

∑

_𝑗=1

ℙ(𝑥

𝑖

, 𝑦

𝑗

)

La distribución de probabilidad

ℙ(𝑋)

se puede determinar a

partir de la distribución de probabilidad conjunta

ℙ(𝑋, 𝑌 )

.

ℙ(𝑋) =

₍

_∑

𝑛

𝑗=1

ℙ(𝑥

1

, 𝑦

𝑗

), … ,

𝑛

(36)

Marginalización: ejemplo

ℙ(

Valor

= 1) = ∑

formasombra

∑

ℙ(

forma

,

sombra

, 1)

= (0 + 14) + (0 +

1 6) + (0 +

12) =

1

2 ℙ(

Valor

= 2) = ∑

formasombra

∑

ℙ(

forma

,

sombra

, 2)

= ( 1

_{12 + 0) + (}

_{12 +}

1 _{12) + (}

1 _{12 +}

1

1 _{6) =}

1 ₂

(37)

Independencia

𝑋

esindependientede

𝑌

,

𝑋⊥

_ℙ

𝑌

, si

ℙ(𝑥 | 𝑦) = ℙ(𝑥)

para todo

𝑥 ∈ Val(𝑋), 𝑦 ∈ Val(𝑌 )

.

𝑋

escondicionalmente independientede

𝑌

dado

𝑍

,

𝑋⊥

ℙ

𝑌 | 𝑍

, si

ℙ(𝑥 | 𝑦, 𝑧) = ℙ(𝑥 | 𝑧)

para todo

𝑥 ∈ Val(𝑋), 𝑦 ∈ Val(𝑌 ), 𝑧 ∈ Val(𝑍)

.

(38)

Independencia: ejemplo

Forma

⟂

_ℙ Sombreado:

ℙ(

forma

,

sombreado

) = 14 =

1 3 ⋅

3 4 = ℙ(

forma

)ℙ(

sombreado

)

ℙ(

forma

, ¬

sombreado

) = 1

12 =

1 3 ⋅

1 4 = ℙ(

forma

)ℙ(¬

sombreado

)

con forma

∈ Val(

Forma

)

.

Forma

/⟂

_ℙ Valor:

ℙ(

cuadrado

, 1) = 14 ≠

1 3 ⋅

1 2 = ℙ(

cuadrado

)ℙ(1)

Sombreado

/⟂

_ℙ Valor:

ℙ(

sombreado

, 1) = 12 ≠

3 4 ⋅

1 2 = ℙ(

sombreado

)ℙ(1)

(39)

Independencia condicional: ejemplo

1 1 1 2 1 1 2 2 1 2 2 2 Forma

/⟂

_ℙ Sombreado:

ℙ(

cuadrado

,

sombreado

) = 14 ≠

1 3 ⋅

1 2 = ℙ(

cuadrado

)ℙ(

sombreado

)

(40)

Independencia condicional: ejemplo

1 1 1 2

1 1 2 2

1 2 2 2

Forma

⟂

_ℙ Sombreado

_|

Valor:

ℙ(

forma

, ¬

sombreado

| 1) = 0 = ℙ(

forma

| 1)ℙ(¬

sombreado

| 1)

ℙ(

forma

, ¬

sombreado

| 2) = ℙ(

forma

| 2)ℙ(¬

sombreado

| 2)

ℙ(

forma

,

sombreado

| 1) = ℙ(

forma

| 1)ℙ(

sombreado

| 1)

ℙ(

forma

,

sombreado

| 2) = 0 = ℙ(

forma

| 2)ℙ(

sombreado

| 2)

(41)

Regla de la cadena

Dado el conjunto de variables

𝑿 = {𝑋

₁

, … , 𝑋

_𝑛

_}

, la

distribución de probabilidad conjunta

ℙ(𝑿)

se puede

descomponer como

ℙ(𝑿) = ℙ(𝑋

𝑛

| 𝑋

𝑛−1

, … , 𝑋

1

) ⋯ ℙ(𝑋

2

| 𝑋

1

)ℙ(𝑋

1

)

=

_∏

𝑛

(42)

Regla de la cadena: ejemplo

ℙ(

Forma

,

Sombreado

,

Valor

)

= ℙ(

Sombreado

|

Forma

,

Valor

)ℙ(

Forma

|

Valor

)ℙ(

Valor

)

= ℙ(

Sombreado

|

Valor

,

Forma

)ℙ(

Valor

|

Forma

)ℙ(

Forma

)

= ℙ(

Forma

|

Sombreado

,

Valor

)ℙ(

Sombreado

|

Valor

)ℙ(

Valor

)

(43)

(44)

Sistemas expertos

Sistemas capaces de resolver tareas dentro de un determinado dominio de conocimiento.

Componentes principales:

▶ Conocimiento, que necesita serrepresentado.

(45)

Representación del conocimiento

Requisitos: ▶ Potencia expresiva. ▶ Facilidad de interpretación. ▶ Eficiencia de la inferencia. Ejemplos de formalismos:

▶ Sistemas basados en reglas.

▶ Sistemas basados en lógicas.

(46)

Conocimiento incierto

Ejemplo de regla:

Caries

→

Dolor de muelas

La regla es determinista, pero no siempre una caries causa dolor de muelas.

Los sistemas basados en reglas tienen serias limitaciones para representar conocimiento incierto y razonar con él.

Las redes bayesianas son sistemas expertos que representan el conocimiento incierto mediante probabilidades.

(47)

Componentes de una red bayesiana

Componente cualitativa:

▶ Representa relaciones de dependencia entre variables.

▶ DAG:

▶ _{vértices, variables aleatorias discretas;} ▶ _{arcos, dependencias directas;}

▶ _{caminos, dependencias indirectas.}

Componente cuantitativa:

▶ Representa la fuerza de las relaciones de dependencia.

▶ Distribución de probabilidad conjunta descompuesta en

(48)

Modelo de la alarma

El Sr. Holmes está trabajando en su despacho cuando recibe unallamadade teléfono de su vecino el

Dr. Watson, quien le dice que laalarmaantirrobo de Holmes ha saltado. Convencido de que ha habido un intento deroboen su casa, Holmes corre a su coche y se dirige a su casa. Por el camino escucha en la radio una

noticiaque informa de que ha habido un pequeño

terremotoen el área. Sabiendo que los terremotos tienden a hacer que las alarmas antirrobo salten, regresa a su despacho.

(49)

Modelo de la alarma: DAG

Robo Alarma Terremoto Noticia Llamada

(50)

Modelo de la alarma: DPCs I

ℙ(Robo)

: R = no

0.90

R = sí

0.10 ℙ(Terremoto)

: T = no

0.99

T = sí

0.01 ℙ(Alarma | Robo, Terremoto)

:

R = no R = sí

T = no T = sí T = no T = sí

A = no

0.99 0.10 0.10 0.01

(51)

Modelo de la alarma: DPCs II

ℙ(Noticia | Terremoto)

: T = no T = sí N = no

0.999 0.01

N = sí

0.001 0.99

ℙ(Llamada | Alarma)

: A = no A = sí Ll = no

0.99 0.05

0.01 0.95

(52)

Evidencias

Dado un conjunto

𝑿

de variables, una evidencia para esas

variables es

ε

𝑿

: Val(𝑿) → ℝ

≥0

Dos tipos de evidencia:

▶ Evidenciafuerte(

ε

): asigna cero a todos salvo uno de los

eventos.

▶ Evidenciadébil(

ε

).

Asumiendo

Val(Alarma) =

no

,

sí:

ε

Alarma

= (0, 1)

certeza de que la alarma ha sonado

ε

Alarma

= (1, 2)

la alarma ha sonado con el doble de

(53)

Flujo de información

▶ Conexionesen serie: Alarma Robo Llamada ▶ Conexionesdivergentes: Terremoto Alarma Noticia ▶ Conexionesconvergentes: Alarma Robo Terremoto

(54)

Conexiones en serie

La información se puede transmitir a través de una conexión en

(55)

Conexiones en serie

serie

𝑋 → 𝑌 → 𝑍

, salvo que se conozca el estado de

𝑌

.

Sin evidencia de Alarma:

Alarma

Robo Llamada

ℙ(

R = sí

) = 0.1

ℙ(

Ll = sí

) = 0.11

(56)

Conexiones en serie

serie

𝑋 → 𝑌 → 𝑍

𝑌

.

Con evidencia fuerte de Alarma: Alarma

ε

Robo Llamada

ℙ(

R = sí

|

A = sí

) = 0.84

ℙ(

Ll = sí

|

A = sí

) = 0.95

ℙ(

R = sí

|

Ll = sí

,

A = sí

) = 0.84 ℙ(

Ll = sí

|

R = sí

,

A = sí

) = 0.95

(57)

Conexiones divergentes

La información se puede transmitir a través de una conexión

(58)

Conexiones divergentes

divergente

𝑋 ← 𝑌 → 𝑍

𝑌

.

Sin evidencia de Terremoto:

Terremoto

Alarma Noticia

ℙ(

A = sí

) = 0.11

ℙ(

N = sí

) = 0.01

(59)

Conexiones divergentes

divergente

𝑋 ← 𝑌 → 𝑍

𝑌

.

Con evidencia fuerte de Terremoto: Terremoto

ε

Alarma Noticia

ℙ(

A = sí

|

T = sí

) = 0.91

ℙ(

N = sí

|

T = sí

) = 0.99

ℙ(

A = sí

|

N = sí

,

T = sí

) = 0.91 ℙ(

N = sí

|

A = sí

,

T = sí

) = 0.99

(60)

Conexiones convergentes

La información solo se puede transmitir a través de una

conexión convergente

𝑋 → 𝑌 ← 𝑍

si se conoce el estado de

(61)

Conexiones convergentes

𝑋 → 𝑌 ← 𝑍

𝑌

o de alguno de sus descendientes.

Sin evidencia de Alarma:

Alarma

Robo Terremoto

(62)

Conexiones convergentes

𝑋 → 𝑌 ← 𝑍

𝑌

Con evidencia fuerte de Alarma:

Alarma

_ε

Robo Terremoto

ℙ(

R = sí

|

A = sí

) = 0.84

ℙ(

T = sí

|

A = sí

) = 0.08

ℙ(

R = sí

|

T = sí

,

A = sí

) = 0.11 ℙ(

T = sí

|

R = sí

,

A = sí

) = 0.01

(63)

Conexiones convergentes

𝑋 → 𝑌 ← 𝑍

𝑌

Con evidencia débil de Alarma:

Alarma

_ε

Robo Terremoto

ℙ(

R = sí

|

Ll = sí

) = 0.77

ℙ(

T = sí

|

Ll = sí

) = 0.08

(64)

Razonamientos en redes bayesianas

La representación de las dependencias entre variables mediante un DAG proporciona un medio compacto pero potente de realizar razonamientos abductivos, deductivos e intercausales.

(65)

Razonamientos en redes bayesianas

La representación de las dependencias entre variables mediante un DAG proporciona un medio compacto pero potente de realizar razonamientos abductivos, deductivos e intercausales. Razonamiento abductivo:

Robo

Alarma

Terremoto

(66)

Razonamientos en redes bayesianas

La representación de las dependencias entre variables mediante un DAG proporciona un medio compacto pero potente de realizar razonamientos abductivos, deductivos e intercausales. Razonamiento deductivo: Robo Alarma Terremoto

ε

Noticia Llamada

(67)

Razonamientos en redes bayesianas

La representación de las dependencias entre variables mediante un DAG proporciona un medio compacto pero potente de realizar razonamientos abductivos, deductivos e intercausales. Razonamiento intercausal: Robo Alarma

ε

Terremoto

ε

Noticia

(68)

d-separación

Un sendero

π = ⟨𝑢, … , 𝑣⟩

en un DAG

u�

= (𝑉 , 𝐸)

se dice que

estábloqueadopor

𝑈 ⊆ 𝑉

, si

π

contiene un vértice

𝑤

tal que:

▶ o bien

𝑤 ∈ 𝑈

y los arcos de

π

no forman una conexión

convergente en

𝑤

;

▶ o bien

𝑤 ∉ 𝑈

,

de(𝑤) ∩ 𝑈 = ∅

y los arcos de

π

forman una

conexión convergente en

𝑤

.

Dados tres conjuntos disjuntos

𝑿, 𝒀

y

𝒁

de variables de

𝑉

, se

dice que

𝑿

e

𝒀

estánd-separadosdado

𝒁

,

𝑿⊥

_u�

𝒀 | 𝒁

, si

(69)

d-separación: ejemplo

X

A B

(70)

d-separación: ejemplo

X

A B

C Y

(71)

d-separación: ejemplo

X A B C Y bloqueado en A

X ⟂

u�

Y | A

(72)

d-separación: ejemplo

X A B C Y bloqueado en B

X ⟂

u�

Y | A

(73)

d-separación: ejemplo

X A B C Y

X ⟂

u�

Y | A

X /⟂

u�

Y | B

(74)

d-separación: ejemplo

X A B C Y no bloqueado

X ⟂

u�

Y | A

X /⟂

u�

Y | B

(75)

d-separación: ejemplo

X A B C Y

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

(76)

d-separación: ejemplo

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

(77)

d-separación: ejemplo

X A B C Y bloqueado en A, B y C

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

(78)

d-separación: ejemplo

X A B C Y

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

X /⟂

u�

Y | A, B

(79)

d-separación: ejemplo

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

X /⟂

u�

Y | A, B

(80)

d-separación: ejemplo

X A B C Y

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

X /⟂

u�

Y | A, B

X ⟂

u�

Y | A, C

(81)

d-separación: ejemplo

X A B C Y bloqueado en A y B

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

X /⟂

u�

Y | A, B

X ⟂

u�

Y | A, C

(82)

d-separación: ejemplo

X A B C Y bloqueado en B y C

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

X /⟂

u�

Y | A, B

X ⟂

u�

Y | A, C

(83)

d-separación: ejemplo

X A B C Y

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

X /⟂

u�

Y | A, B

X ⟂

u�

Y | A, C

X /⟂

u�

Y | B, C

(84)

d-separación: ejemplo

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

X /⟂

u�

Y | A, B

X ⟂

u�

Y | A, C

X /⟂

u�

Y | B, C

(85)

d-separación: ejemplo

X A B C Y

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

X /⟂

u�

Y | A, B

X ⟂

u�

Y | A, C

X /⟂

u�

Y | B, C

X ⟂

u�

Y | A, B, C

(86)

d-separación: ejemplo

X A B C Y bloqueado en A

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

X /⟂

u�

Y | A, B

X ⟂

u�

Y | A, C

X /⟂

u�

Y | B, C

X ⟂

u�

Y | A, B, C

(87)

d-separación: ejemplo

X A B C Y bloqueado en C

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

X /⟂

u�

Y | A, B

X ⟂

u�

Y | A, C

X /⟂

u�

Y | B, C

X ⟂

u�

Y | A, B, C

(88)

d-separación: ejemplo

X A B C Y

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

X /⟂

u�

Y | A, B

X ⟂

u�

Y | A, C

X /⟂

u�

Y | B, C

X ⟂

u�

Y | A, B, C

X ⟂

u�

Y

(89)

d-separación: ejemplo

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

X /⟂

u�

Y | A, B

X ⟂

u�

Y | A, C

X /⟂

u�

Y | B, C

X ⟂

u�

Y | A, B, C

X ⟂

u�

Y

(90)

d-separación: ejemplo

X A B C Y bloqueado en A y B

X ⟂

u�

Y | A

X /⟂

u�

Y | B

X ⟂

u�

Y | C

X /⟂

u�

Y | A, B

X ⟂

u�

Y | A, C

X /⟂

u�

Y | B, C

X ⟂

u�

Y | A, B, C

X ⟂

u�

Y

(91)

Criterios para d-separación

u�

= (𝑉 , 𝐸)

un DAG:

▶ El manto de Markov de

𝑋 ∈ 𝑉

es el subconjunto minimal

𝑈 ⊆ 𝑉

que d-separa a

𝑋

del resto del grafo.

𝑋⊥

u�

𝑉 ∖ (𝑈 ∪ {𝑋}) | 𝑈

▶ Dados

𝑿, 𝒀 , 𝒁 ⊆ 𝑉

disjuntos,

𝑿

e

𝒀

están d-separados

dado

𝒁

si en el grafo

₍

u�

_{an(𝑿∪𝒀 ∪𝒁)}

₎

mtodo camino entre

𝑿

e

𝒀

pasa por

𝒁

.

Toda variable de

𝑋 ∈ 𝑉

está d-separada de sus no

(92)

Criterios para d-separación: ejemplo

A B C

D E F G

H I J

(93)

Criterios para d-separación: ejemplo

A B C D E F G H I J K Manto de Markov de F:

{B, E, G, I, J}

F ⟂

u� resto del grafo

|

(94)

Criterios para d-separación: ejemplo

A B C D E F G H

𝑿 = {D, H}

𝒀 = {C, G}

𝒁 = {B, E, F}

𝑿 /⟂

u�

𝒀 | 𝒁

(95)

Mapas de dependencia e independencia

ℙ

distribución de probabilidad sobre

𝑉

y

u�

= (𝑉 , 𝐸)

un DAG.

▶

u�

mapa de dependencias(mapa-D) de

ℙ

: para todo

𝑿, 𝒀 , 𝒁 ⊆ 𝑉

disjuntos

𝑿⊥

ℙ

𝒀 | 𝒁 ⇒ 𝑿⊥

u�

𝒀 | 𝒁

▶

u�

mapa de independencias(mapa-I) de

ℙ

: para todo

𝑿, 𝒀 , 𝒁 ⊆ 𝑉

disjuntos

𝑿⊥

u�

𝒀 | 𝒁 ⇒ 𝑿⊥

ℙ

𝒀 | 𝒁

(96)

Limitación expresiva de los DAGs

Consideremos

𝑋

₁

, 𝑋

₂

, 𝑋

₃

, 𝑋

₄ cumpliendo únicamente las

siguientes relaciones de independencia:

𝑋

1

⊥

ℙ

𝑋

2

𝑋

1

⊥

ℙ

𝑋

4

| 𝑋

2

, 𝑋

3

𝑋

2

⊥

ℙ

𝑋

3

| 𝑋

1

, 𝑋

4

(97)

Redes bayesianas

Definición

Dada una distribución de probabilidad

ℙ

sobre un conjunto de variables

𝑿

, unared bayesiana

ℬ

consta de:

1. Un DAG

u�

= (𝑿, 𝐸)

.

2. Un conjunto

u�

de distribuciones condicionales, conteniendo

ℙ(𝑋 | pa(𝑋))

, para cada

𝑋 ∈ 𝑿

.

(98)

Descomposición de la distribución conjunta

Una red bayesiana permite representar una distribución conjunta como producto de distribuciones condicionales:

ℙ(𝑿) =

_∏

𝑛

𝑖=1

ℙ(𝑋

i

| pa(𝑋

𝑖

))

Esta descomposición posibilita reducir el número de parámetros necesarios.

Modelo de la alarma:

▶ Distribución conjunta:

2

5

− 1 = 31

parámetros.

▶ Distribuciones condicionales:

(2 − 1) + (2 − 1) + 4(2 − 1) + 2(2 − 1) + 2(2 − 1) = 10

(99)

Construcción de redes bayesianas

Sea

𝑿

el conjunto de variables de la red bayesiana.

1: Establecer un orden

𝑋

₁

, … , 𝑋

_𝑛 entre las variables de

𝑿

.

2:

u�

← DAG con conjunto de vértices

𝑿

y sin arcos

3: para

𝑖

desde

1

hasta

𝑛

hacer

4:

pa(𝑋

_𝑖

)

←

𝒀 ⊆ {𝑋

₁

, … , 𝑋

_𝑖−1

}

minimal tal que

𝑋

𝑖

⟂

ℙ

{𝑋

1

, … , 𝑋

𝑖−1

} ∖ 𝒀 | 𝒀

5: para

𝑋

en

pa(𝑋

_𝑖

)

hacer

6: añadir

𝑋 → 𝑋

_𝑖 a

u�

7: fin para

(100)

Construcción de redes bayesianas

Orden entre las variables

El resultado proporcionado por el algoritmo de construcción de redes bayesianas:

▶ puede variar si se parte de diferentes ordenaciones de

𝑿

.

▶ representa siempre la misma distribución de probabilidad

conjunta

ℙ

de

𝑿

.

Es conveniente partir de un orden causal entre las variables:

▶ la red bayesiana obtenida será más compacta;

▶ las tablas de probabilidad condicionadas ocuparán menos

espacio;

(101)

Equivalencia de redes bayesianas

Dos redes bayesianas sobre las mismas variables son

equivalentessi representan la misma distribución de probabilidad conjunta.

Unaestructura-ves una conexión convergente

𝑋

_𝑖

→ 𝑋

_𝑘

← 𝑋

_𝑗

tal que

𝑋

_𝑖 y

𝑋

_𝑗 no están conectados.

Dos redes bayesianas son equivalentes si y solo si los DAGs asociados tienen el mismo esqueleto y las mismas estructuras-v.

(102)

Ejemplo de redes bayesianas equivalentes

Supongamos que

𝑋⊥

_ℙ

𝑌 | 𝑍

.

𝑍

𝑋

𝑌

ℬ1

𝑍

𝑋

𝑌

ℬ2

𝑍

𝑋

𝑌

ℬ3

ℬ

1 representa

ℙ(𝑋, 𝑌 , 𝑍) = ℙ(𝑋 | 𝑌 , 𝑍)ℙ(𝑌 | 𝑍)ℙ(𝑍)

= ℙ(𝑋 | 𝑍)ℙ(𝑌 | 𝑍)ℙ(𝑍)

ℬ

2 representa

ℙ(𝑋, 𝑌 , 𝑍) = ℙ(𝑋 | 𝑍, 𝑌 )ℙ(𝑍 | 𝑌 )ℙ(𝑌 )

= ℙ(𝑋 | 𝑍)ℙ(𝑍 | 𝑌 )ℙ(𝑌 )

ℬ

3 representa

ℙ(𝑋, 𝑌 , 𝑍) = ℙ(𝑌 | 𝑍, 𝑋)ℙ(𝑍 | 𝑋)ℙ(𝑋)

= ℙ(𝑌 | 𝑍)ℙ(𝑍 | 𝑋)ℙ(𝑋)

(103)

Inferencia probabilística en

redes bayesianas discretas

(104)

Consultas

Consulta probabilística: determinar

ℙ(𝒀 | ε)

▶

𝒀

: subconjunto devariables de consulta.

▶

ε

:evidenciadisponible sobre otras variables.

Consulta MAP: determinar

arg m ́ax

_𝒘

ℙ(𝒘 | ε)

▶

ε

: evidencia sobre el subconjunto de variables

𝑬

.

▶

𝒘

: asignación de valores al resto de variables

𝑾 = 𝑿 ∖ 𝑬

.

Consulta MAP marginal: determinar

arg m ́ax

_𝒚

ℙ(𝒚 | ε)

▶

ε

: evidencia sobre el subconjunto de variables

𝑬

.

▶

𝒚

: asignación de valores al subconjunto de variables

(105)

Consultas

Dificultad del problema:

MAP marginal

>

MAP

>

probabilística

En este tema nos centramos únicamente en las consultas probabilísticas.

(106)

Potenciales

Potencial de probabilidadsobre conjunto de variables

𝑿

,

denominadoámbitodel potencial:

ϕ: Val(𝑿) → ℝ

≥0

con

Val(𝑿) = Val(𝑋

₁

) × ⋯ × Val(𝑋

_𝑛

)

Ejemplos:

𝐴 = {a

₁

, a

₂

_}

y

𝐵 = {b

₁

, b

₂

_}

. Potencial de ámbito

𝐴

:

ϕ

1

(𝐴)

a

1

a

2 1 2 Potencial de ámbito

𝐴, 𝐵

:

ϕ

2

(𝐴, 𝐵)

b

1

b

2

a

1

a

2

a

1

a

2 5 7 3 1

(107)

Evidencias

Una evidencia sobre un conjunto de variables

𝑿

es un potencial

de probabilidad con ámbito

𝑿

.

Evidencia de que

𝐴 = a

₂:

a

1

a

2

(108)

Evidencias

𝑿

es un potencial

𝑿

.

Evidencia de que

(𝐴, 𝐵) = (a

₁

, b

₁

)

o

(𝐴, 𝐵) = (a

₂

, b

₂

)

:

b

1

b

2

a

1

a

2

a

1

a

2

(109)

Evidencias

𝑿

es un potencial

𝑿

.

Evidencia de que

𝐴 = a

₁ es el doble de verosímil que

𝐴 = a

₂:

a

1

a

2

(110)

Producto de potenciales

Dados dos potenciales

ϕ(𝑿)

y

ψ(𝒀 )

, el producto

ϕψ

es el

potencial de ámbito

𝑿 ∪ 𝒀

definido, para cada

𝒛 ∈ Val(𝑿 ∪ 𝒀 )

, como

(ϕψ)(𝒛) = ϕ(𝒛

𝑿

)ψ(𝒛

𝒀

)

donde

𝒛

_𝑿 y

𝒛

_𝒀 son las proyecciones de

𝒛

a

𝑿

e

𝒀

.

Propiedades:

1. Conmutativa:

ϕ

₁

ϕ

₂

= ϕ

₂

ϕ

₁.

(111)

Producto de potenciales: ejemplo

ψ

1

(𝐴, 𝐵)

:

a

1

a

2

a

3

b

1

b

2

b

1

b

2

b

1

b

2 0.5 0.8 0.1 0 0.3 0.9

ψ

2

(𝐵, 𝐶)

:

b

1

b

2

c

1

c

2

c

1

c

2 0.5 0.7 0.1 0.2

ψ

1

ψ

2

= ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2

(112)

Producto de potenciales: ejemplo

ψ

1

(𝐴, 𝐵)

:

a

1

a

2

a

3

b

1

b

2

b

1

b

2

b

1

b

2 0.5 0.8 0.1 0 0.3 0.9

ψ

2

(𝐵, 𝐶)

:

b

1

b

2

c

1

c

2

c

1

c

2 0.5 0.7 0.1 0.2

ψ

1

ψ

2

= ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7

b

2 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2

(113)

Producto de potenciales: ejemplo

ψ

1

(𝐴, 𝐵)

:

a

1

a

2

a

3

b

1

b

2

b

1

b

2

b

1

b

2 0.5 0.8 0.1 0 0.3 0.9

ψ

2

(𝐵, 𝐶)

:

b

1

b

2

c

1

c

2

c

1

c

2 0.5 0.7 0.1 0.2

ψ

1

ψ

2

= ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2

(114)

Producto de potenciales: ejemplo

ψ

1

(𝐴, 𝐵)

:

a

1

a

2

a

3

b

1

b

2

b

1

b

2

b

1

b

2 0.5 0.8 0.1 0 0.3 0.9

ψ

2

(𝐵, 𝐶)

:

b

1

b

2

c

1

c

2

c

1

c

2 0.5 0.7 0.1 0.2

ψ

1

ψ

2

= ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7

b

2 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2

(115)

Producto de potenciales: ejemplo

ψ

1

(𝐴, 𝐵)

:

a

1

a

2

a

3

b

1

b

2

b

1

b

2

b

1

b

2 0.5 0.8 0.1 0 0.3 0.9

ψ

2

(𝐵, 𝐶)

:

b

1

b

2

c

1

c

2

c

1

c

2 0.5 0.7 0.1 0.2

ψ

1

ψ

2

= ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7 0×0.1 0×0.2 0.9×0.1 0.9×0.2

(116)

Producto de potenciales: ejemplo

ψ

1

(𝐴, 𝐵)

:

a

1

a

2

a

3

b

1

b

2

b

1

b

2

b

1

b

2 0.5 0.8 0.1 0 0.3 0.9

ψ

2

(𝐵, 𝐶)

:

b

1

b

2

c

1

c

2

c

1

c

2 0.5 0.7 0.1 0.2

ψ

1

ψ

2

= ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7

b

2 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2

(117)

Producto de potenciales: ejemplo

ψ

1

(𝐴, 𝐵)

:

a

1

a

2

a

3

b

1

b

2

b

1

b

2

b

1

b

2 0.5 0.8 0.1 0 0.3 0.9

ψ

2

(𝐵, 𝐶)

:

b

1

b

2

c

1

c

2

c

1

c

2 0.5 0.7 0.1 0.2

ψ

1

ψ

2

= ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7 0×0.1 0×0.2 0.9×0.1 0.9×0.2

(118)

Producto de potenciales: ejemplo

ψ

1

(𝐴, 𝐵)

:

a

1

a

2

a

3

b

1

b

2

b

1

b

2

b

1

b

2 0.5 0.8 0.1 0 0.3 0.9

ψ

2

(𝐵, 𝐶)

:

b

1

b

2

c

1

c

2

c

1

c

2 0.5 0.7 0.1 0.2

ψ

1

ψ

2

= ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7

b

2 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2

(119)

Producto de potenciales: ejemplo

ψ

1

(𝐴, 𝐵)

:

a

1

a

2

a

3

b

1

b

2

b

1

b

2

b

1

b

2 0.5 0.8 0.1 0 0.3 0.9

ψ

2

(𝐵, 𝐶)

:

b

1

b

2

c

1

c

2

c

1

c

2 0.5 0.7 0.1 0.2

ψ

1

ψ

2

= ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7 0.9×0.1 0.9×0.2

(120)

Producto de potenciales: ejemplo

ψ

1

(𝐴, 𝐵)

:

a

1

a

2

a

3

b

1

b

2

b

1

b

2

b

1

b

2 0.5 0.8 0.1 0 0.3 0.9

ψ

2

(𝐵, 𝐶)

:

b

1

b

2

c

1

c

2

c

1

c

2 0.5 0.7 0.1 0.2

ψ

1

ψ

2

= ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7

b

2 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2

(121)

Producto de potenciales: ejemplo

ψ

1

(𝐴, 𝐵)

:

a

1

a

2

a

3

b

1

b

2

b

1

b

2

b

1

b

2 0.5 0.8 0.1 0 0.3 0.9

ψ

2

(𝐵, 𝐶)

:

b

1

b

2

c

1

c

2

c

1

c

2 0.5 0.7 0.1 0.2

ψ

1

ψ

2

= ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7 0.9×0.1 0.9×0.2

(122)

Producto de potenciales: ejemplo

ψ

1

(𝐴, 𝐵)

:

a

1

a

2

a

3

b

1

b

2

b

1

b

2

b

1

b

2 0.5 0.8 0.1 0 0.3 0.9

ψ

2

(𝐵, 𝐶)

:

b

1

b

2

c

1

c

2

c

1

c

2 0.5 0.7 0.1 0.2

ψ

1

ψ

2

= ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7

b

2 0.8×0.1 0.8×0.2 0×0.1 0×0.2 0.9×0.1 0.9×0.2

(123)

Producto de potenciales: ejemplo

ψ

1

(𝐴, 𝐵)

:

a

1

a

2

a

3

b

1

b

2

b

1

b

2

b

1

b

2 0.5 0.8 0.1 0 0.3 0.9

ψ

2

(𝐵, 𝐶)

:

b

1

b

2

c

1

c

2

c

1

c

2 0.5 0.7 0.1 0.2

ψ

1

ψ

2

= ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7

(124)

Cociente de potenciales

Dados dos potenciales

ϕ(𝑿)

y

ψ(𝒀 )

, el cociente

ϕ/ψ

es el

potencial de ámbito

𝑿 ∪ 𝒀

definido, para cada

𝒛 ∈ Val(𝑿 ∪ 𝒀 )

, como

(ϕ/ψ)(𝒛) =

⎧⎪

⎨

⎪⎩

ϕ(𝒛

𝑿

)/ψ(𝒛

𝒀

),

si

ψ(𝒛

𝒀

) ≠ 0

0,

si

ϕ(𝒛

_𝑿

_{) = 0}

no definido

,

en otro caso

(125)

Marginalización de potenciales

Dado un potencial

ϕ(𝑿)

, la marginalización de

ϕ

sobre

𝒀 ⊆ 𝑿

es el potencial de ámbito

𝑿 ∖ 𝒀

definido, para cada

𝒛 ∈ Val(𝑿 ∖ 𝒀 )

, como

∑

_𝒀

ϕ(𝒛) = ∑

_𝒚∈𝒀

ϕ(𝒛.𝒚)

donde

𝒛.𝒚

es el elemento de

Val(𝑿)

tal que

(𝒛.𝒚)

_𝑿∖𝒀

= 𝒛

y

(𝒛.𝒚)

𝒀

= 𝒚

.

Propiedades:

1. Conmutativa:

∑

_𝑨

∑

_𝑩

ϕ = ∑

_𝑩

∑

_𝑨

ϕ

.

(126)

Marginalización de potenciales: ejemplo

ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.25 0.35 0.05 0.07 0.15 0.21

b

2 0.08 0.16 0 0 0.09 0.18

∑

_𝐵

ψ

3

= ψ

4

(𝐴, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2 0.25+0.08 0.35+0.16 0.05+0 0.07+0 0.15+0.09 0.21+0.18

(127)

Marginalización de potenciales: ejemplo

ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.25 0.35 0.05 0.07 0.15 0.21

b

2 0.08 0.16 0 0 0.09 0.18

∑

_𝐵

ψ

3

= ψ

4

(𝐴, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2 0.35+0.16 0.05+0 0.07+0 0.15+0.09 0.21+0.18

(128)

Marginalización de potenciales: ejemplo

ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.25 0.35 0.05 0.07 0.15 0.21

b

2 0.08 0.16 0 0 0.09 0.18

∑

_𝐵

ψ

3

= ψ

4

(𝐴, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2 0.25+0.08 0.35+0.16 0.05+0 0.07+0 0.15+0.09 0.21+0.18

(129)

Marginalización de potenciales: ejemplo

ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.25 0.35 0.05 0.07 0.15 0.21

b

2 0.08 0.16 0 0 0.09 0.18

∑

_𝐵

ψ

3

= ψ

4

(𝐴, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2 0.07+0 0.15+0.09 0.21+0.18

(130)

Marginalización de potenciales: ejemplo

ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.25 0.35 0.05 0.07 0.15 0.21

b

2 0.08 0.16 0 0 0.09 0.18

∑

_𝐵

ψ

3

= ψ

4

(𝐴, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2 0.25+0.08 0.35+0.16 0.05+0 0.07+0 0.15+0.09 0.21+0.18

(131)

Marginalización de potenciales: ejemplo

ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.25 0.35 0.05 0.07 0.15 0.21

b

2 0.08 0.16 0 0 0.09 0.18

∑

_𝐵

ψ

3

= ψ

4

(𝐴, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2 0.21+0.18

(132)

Marginalización de potenciales: ejemplo

ψ

3

(𝐴, 𝐵, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2

b

1 0.25 0.35 0.05 0.07 0.15 0.21

b

2 0.08 0.16 0 0 0.09 0.18

∑

_𝐵

ψ

3

= ψ

4

(𝐴, 𝐶)

:

a

1

a

2

a

3

c

1

c

2

c

1

c

2

c

1

c

2 0.25+0.08 0.35+0.16 0.05+0 0.07+0 0.15+0.09 0.21+0.18

(133)

Normalización de potenciales

Lanormalizaciónrespecto a

𝑿

de un potencial

ϕ

de ámbito

𝑿, 𝒀

lo transforma en la distribución de probabilidad

ℙ(𝒀 | 𝑿)

:

η

𝑿

(ϕ) = ϕ

_∑

𝒀

ϕ

(134)

Normalización de potenciales

𝑿

de un potencial

ϕ

de ámbito

𝑿, 𝒀

ℙ(𝒀 | 𝑿)

:

η

𝑿

(ϕ) = ϕ

_∑

𝒀

ϕ

Notaremos

η = η

_∅. Ejemplos:

ℙ(𝐴) = η(ϕ

1

(𝐴))

=

_∑

ϕ

1

(𝐴)

𝐴

ϕ

1

(𝐴)

a

1

a

2 1 3 23

(135)

Normalización de potenciales

𝑿

de un potencial

ϕ

de ámbito

𝑿, 𝒀

ℙ(𝒀 | 𝑿)

:

η

𝑿

(ϕ) = ϕ

_∑

𝒀

ϕ

Notaremos

η = η

_∅. Ejemplos:

ℙ(𝐴, 𝐵) = η(ϕ

2

(𝐴, 𝐵))

=

ϕ

2

(𝐴, 𝐵)

b

1

b

2

a

1

a

2

a

1

a

2

(136)

Normalización de potenciales

𝑿

de un potencial

ϕ

de ámbito

𝑿, 𝒀

ℙ(𝒀 | 𝑿)

:

η

𝑿

(ϕ) = ϕ

_∑

𝒀

ϕ

Notaremos

η = η

_∅. Ejemplos:

ℙ(𝐴 | 𝐵) = η

𝐵

(ϕ

2

(𝐴, 𝐵))

=

ϕ

2

(𝐴, 𝐵)

∑

_𝐴

ϕ

2

(𝐴, 𝐵)

b

1

b

2

𝑎

1 ₁₂5 3₄

𝑎

2 ₁₂7 1₄

(137)

Eliminación de una variable

Sean

Φ

un conjunto de potenciales y

𝑋

una variable.

El proceso deeliminar

𝑋

de

Φ

consta de los siguientes pasos:

1. Calcular

Φ

_𝑋

= {ϕ ∈ Φ | 𝑋 ∈ ámbito(ϕ)}

.

2. Calcular

ϕ

−𝑋

= ∑

_𝑋

∏ Φ

_𝑋.

(138)

Reducción de potenciales

ψ₁(𝐴, 𝐵): a1 a2 a3 b1 b2 b1 b2 b1 b2 0.5 0.8 0.1 0 0.3 0.9 ψ₂(𝐵, 𝐶): b1 b2 c1 c2 c1 c2 0.5 0.7 0.1 0.2 ε(𝐵): b1 b2 1 0

(139)

Reducción de potenciales

ψ₁(𝐴, 𝐵): a1 a2 a3 b1 b2 b1 b2 b1 b2 0.5 0.8 0.1 0 0.3 0.9 ψ₂(𝐵, 𝐶): b1 b2 c1 c2 c1 c2 0.5 0.7 0.1 0.2 ε(𝐵): b1 b2 1 0 ψ1ψ2ε: a1 a2 a3 c₁ c₂ c₁ c₂ c₁ c₂ b1 0.5×0.5×1 0.5×0.7×1 0.1×0.5×1 0.1×0.7×1 0.3×0.5×1 0.3×0.7×1 b2 0.8×0.1×0 0.8×0.2×0 0×0.1×0 0×0.2×0 0.9×0.1×0 0.9×0.2×0

(140)

Reducción de potenciales

ψ₁(𝐴, 𝐵): a1 a2 a3 b1 b2 b1 b2 b1 b2 0.5 0.8 0.1 0 0.3 0.9 ψ₂(𝐵, 𝐶): b1 b2 c1 c2 c1 c2 0.5 0.7 0.1 0.2 ε(𝐵): b1 b2 1 0 ∑_𝐵ψ1ψ2ε: a1 a2 a3 c1 c2 c1 c2 c1 c2 0.5×0.5×1 0.5×0.7×1 0.1×0.5×1 0.1×0.7×1 0.3×0.5×1 0.3×0.7×1 +0.8×0.1×0 +0.8×0.2×0 +0×0.1×0 +0×0.2×0 +0.9×0.1×0 +0.9×0.2×0

(141)

Reducción de potenciales

ψ′ 1(𝐴): a1 a2 a3 b1 b2 b1 b2 b1 b2 0.5 0.8 0.1 0 0.3 0.9 ψ′ 2(𝐶): b1 b2 c1 c2 c1 c2 0.5 0.7 0.1 0.2 ε(𝐵): b1 b2 1 0 ∑_𝐵ψ1ψ2ε = ψ1′ψ2′: a1 a2 a3 c1 c2 c1 c2 c1 c2 0.5×0.5 0.5×0.7 0.1×0.5 0.1×0.7 0.3×0.5 0.3×0.7

(142)

Algoritmo de eliminación de variables

Dada una red bayesiana

ℬ

con conjunto de variables

𝑿

, se

realiza la consulta

ℙ(𝒀 | ε)

:

▶ Variables de consulta:

𝒀

.

▶ Variables de evidencia:

𝑬 = ámbito(ε)

.

▶ Variables a eliminar:

𝒁 = 𝑿 ∖ (𝒀 ∪ 𝑬)

.

Algoritmo de eliminación de variablespara calcular

ℙ(𝒀 | ε)

:

1:

Φ

← DPCs de

ℬ

junto con

ε

2: elegir

𝑍

₁

, … , 𝑍

_n ordenación de

𝒁

3: para

𝑖

desde

1

hasta

𝑛

hacer

4: eliminar

𝑍

_𝑖 de

Φ

5:

Φ

←

Φ

−𝑍𝑖

6: fin para

(143)

Ejemplo de inferencia probabilística

Calcular

ℙ(

Robo

|

llamada

, ¬

noticia

)

.

Algoritmo de eliminación de variables:

Potenciales Variable a eliminar

ϕ

R

(R)

,

ϕ

T

(T)

,

ϕ

A

(A, R, T)

,

ϕ

N

(T)

,

ϕ

Ll

(A)

T

ϕ

R

(R)

,

ϕ

Ll

(A)

,

ϕ

−T

(A, R)

A

ϕ

R

(R)

,

ϕ

−A

(R)

Devolver

η(ϕ

_R

(R)ϕ

−A

(R))

.

(144)

Potenciales iniciales I

ϕ

R

(Robo)

: R = no

0.90

R = sí

0.10 ϕ

T

(Terremoto)

: T = no

0.99

T = sí

0.01 ϕ

A

(Alarma, Robo, Terremoto)

:

R = no R = sí

T = no T = sí T = no T = sí

A = no

0.99 0.10 0.10 0.01

(145)

Potenciales iniciales II

ϕ

N

(Terremoto)

: T = no T = sí N = no

0.999 0.01

ϕ

Ll

(Alarma)

: A = no A = sí Ll = sí

0.01 0.95

(146)

Eliminación de la variable Terremoto

ϕ

T

ϕ

A

ϕ

N

(Alarma, Robo, Terremoto)

:

R = no A = no A = sí T = no

0.99 × 0.99 × 0.999 0.99 × 0.01 × 0.999

T = sí

0.01 × 0.1 × 0.01

0.01 × 0.9 × 0.01

R = sí A = no A = sí T = no

0.99 × 0.1 × 0.999 0.99 × 0.9 × 0.999

T = sí

0.01 × 0.01 × 0.01 0.01 × 0.99 × 0.01

(147)

Eliminación de la variable Terremoto

ϕ

−T

_{(Alarma, Robo) = ∑}

T

ϕ

T

ϕ

A

ϕ

N: R = no R = sí A = no A = sí A = no A = sí

0.9791299 0.0099801 0.098902 0.890208

(148)

Eliminación de la variable Alarma

ϕ

Ll

ϕ

−T

(Alarma, Robo)

: R = no R = sí A = no

0.01 × 0.9791299 0.01 × 0.098902

A = sí

0.95 × 0.00099801 0.95 × 0.890208

ϕ

−A

_{(Robo) = ∑}

A

ϕ

Ll

ϕ

−T: R = no R = sí

0.019272394 0.84668662

(149)

Resultado de la inferencia probabilística

ϕ

R

ϕ

−A

(Robo)

: R = no R = sí

0.9 × 0.019272394 0.1 × 0.84668662

η(ϕ

R

ϕ

−A

(Robo))

: R = no R = sí

0.170027507 0.829972493

(150)

Variables irrelevantes

Variableirrelevantepara la consulta

ℙ(𝒀 | ε)

: ni ella ni ninguno

de sus descendientes es una variable de consulta ni de evidencia.

Ejemplo: en el modelo de la alarma, la variable Noticia es

irrelevante para la consulta

ℙ(

Robo

|

llamada

)

.

ℙ(

R

|

ll

) ∝ ℙ(

R

,

ll

) = ∑

T,A,N

ℙ(

R

,

T

,

A

,

ll

,

N

)

= ∑

T,A,N

ℙ(

R

)ℙ(

T

)ℙ(

A

|

R

,

T

)ℙ(

ll

|

A

)ℙ(

N

|

T

)

= ℙ(

R

) ∑

T

ℙ(

T

) ∑

A

ℙ(

A

|

R

,

T

)ℙ(

ll

|

A

) ∑

N

ℙ(

N

|

T

)

(151)

Complejidad del algoritmo

Complejidad del algoritmo de eliminación de variables:

▶ Exponencial en el tamaño máximo de los ámbitos de los

potenciales generados.

▶ Lineal para las redes bayesianas cuyo DAG subyacente es un

poliárbol (es decir, su esqueleto es un árbol).

El orden en el que se eliminan las variables influye en la eficiencia del algoritmo:

▶ Cálculo más eficiente si el orden de eliminación lleva a

potenciales generados de menor tamaño.

(152)

Inferencia aproximada en redes bayesianas

Métodos basados en la generación aleatoria de muestras de la red bayesiana.

Muestra aleatoria: asignación de valores a las variables, con probabilidad de generación igual a la probabilidad conjunta.

1:

𝑋

₁

, … , 𝑋

_𝑛 orden topológico de las variables

2: para

𝑖

desde

1

hasta

𝑛

hacer

3:

𝑥

_𝑖 ← elemento aleatorio de

Val(𝑋

_𝑖

)

según la

distri-bución

ℙ(𝑋

_𝑖

_{| pa(𝑋}

_𝑖

))

4: fin para

(153)

Muestra aleatoria: ejemplo

Modelo de la alarma: en este ejemplo elegimos en cada caso el valor más probable.

▶

ℙ(

Robo

) = (0.9, 0.1)

. Elegimos ¬robo.

▶

ℙ(

Terremoto

) = (0.99, 0.01)

. Elegimos ¬terremoto.

▶

ℙ(

Alarma

|

¬robo

,

¬terremoto

) = (0.99, 0.01)

. Elegimos

¬alarma.

▶

ℙ(

Llamada

|

¬alarma

) = (0.99, 0.01)

. Elegimos ¬llamada.

▶

ℙ(

Noticia

|

¬terremoto

) = (0.999, 0.001)

. Elegimos

¬noticia.

(154)

Valor aleatorio de una variable

Sea

𝑋

una variable aleatoria discreta con:

▶

Val(𝑋) = {𝑥

₁

, … , 𝑥

_n

_}

.

▶

ℙ(𝑋 = 𝑥

_𝑖

_{) = 𝑝}

_𝑖

_(∑

𝑛_𝑖=1

𝑝

_𝑖

= 1)

.

Para generar un valor aleatorio de

𝑋

:

1: generar un valor aleatorio

𝑝 ∈ (0, 1)

2: devolver

𝑥

_𝑗 tal que

∑

𝑗−1_𝑖=1

𝑝

_𝑖

< 𝑝 ≤ ∑

𝑗_𝑖=1

𝑝

_𝑖

0 1

𝑝

(155)

Estimación de la probabilidad conjunta

𝑒

1

, … , 𝑒

𝑁 secuencia de muestras aleatorias de una red

bayesiana para

ℙ

.

La ley fuerte de los grandes números nos asegura que

#{𝑒

𝑖

| 𝑒

𝑖

= (𝑥

1

, … , 𝑥

n

)}

(156)

Algoritmo de muestreo con rechazo

𝑒[𝒀 ]

: valores asignados a las variables de

𝒀

por la muestra

𝑒

.

1:

ϕ

← potencial de ámbito

𝒀

que asigna

0

a cada

combi-nación de valores

2: Generar

𝑁

muestras aleatorias

𝑒

₁

, … , 𝑒

_𝑁

3: para cada muestra

𝑒

generadahacer

4: si

𝑒

es compatible con

ε

entonces

5: incrementar

ϕ(𝑒[𝒀 ])

en 1 6: si no entonces 7: rechazar

𝑒

8: fin si 9: fin para 10: devolver

η(ϕ)

Se tiene que

η(ϕ) −−−−−→

𝑁→+∞

ℙ(𝒀 | ε)

.