• No se han encontrado resultados

Aprendizaje Automático Cuestiones y ejercicios

N/A
N/A
Protected

Academic year: 2022

Share "Aprendizaje Automático Cuestiones y ejercicios"

Copied!
16
0
0

Texto completo

(1)

Aprendizaje Automático Cuestiones y ejercicios

Francisco Casacuberta Nolla & Enrique Vidal Ruiz Escola Tècnica Superior d'Informàtica Dep. de Sistemes Informàtics i Computació

Universitat Politècnica de València

Septiembre, 2019

(2)

Tema 3: Técnicas de optimización

Cuestiones

1 A En la optimización directa de una función convexa q, ∇q(Θ?) = 0 es una condición necesaria y suciente para que Θ?sea solución. ¾Y si no es convexa?

A) ∇q(Θ?) = 0 es una condición necesaria B) ∇q(Θ?) = 0 es una condición suciente

C) ∇q(Θ?) = 0 no es condición necesaria ni suciente.

D) ∇q(Θ?) 6= 0

2 B La técnica de descenso por gradiente garantiza, bajo determinadas condiciones, alcanzar un mínimo local. ¾De qué depende que sea un mínimo u otro?

A) Del factor de aprendizaje B) De la inicialización

C) De la forma de la funcion q a optimizar D) Del número de mínimos locales.

3 B La técnica de descenso por gradiente garantiza, bajo determinadas condiciones, alcanzar un mínimo local. ¾En que caso ese mínimo es único?

A) Nunca

B) La función q es convexa C) La función q es polinómica D) Siempre

4 B El algoritmo perceptrón cuando se aplica a una muestra de entrenamiento que no es linealmente separable verica:

A) Converge en un número de iteraciones doble al número de muestras B) No converge nunca

C) A veces converge y a veces no

D) Converge en un número de iteraciones jo

Problemas

1. Estimar los parámetros µ de una simple gaussiana multivariada (en Rd) a partir de un conjunto de entrenamiento S = {x1, . . . , xN}y suponiendo que Σ está jada a una matriz unidad:

p(x | Θ) = (2π)−d/2|Σ|−1/2exp



−1

2(x − µ)TΣ−1(x − µ)



Solución:

ˆ µ = 1

N

N

X

n=1

xn

2. Minimizar q(θ) = θ21+ θ22 con θ1+ θ2= 1 Solución:

Λ(θ, β) = θ21+ θ22+ β(1 − θ1− θ2)

∂Λ

∂θ1 = 2 θ1− β = 0 ∂Λ

∂θ2 = 2 θ2− β = 0 θ1(β) = β

2 θ2(β) =β 2

ΛD(β) = β2

2 + β(1 − β) = −β2 2 + β dΛD

dβ = − β + 1 = 0 ⇒ β= 1

θ1) = θ2) = 1 2

(3)

3. Aplicar la técnica de los mutiplicadores de Langrange al problema de la minimización de q(θ) = q0 + (θ − θ0)2 con θ ≤ θ1 en el caso de que θ1> θ0

Solución: Aplicar la condición KKT.

4. Aplicar la técnica de los mutiplicadores de Langrange al problema de la minimización de q(θ) = q0 + (θ − θ0)2 con q(θ) + θ = K, donde K es una constante

5. Demostrar que en cualquier problema de clasicación en C clases, la estimación de máxima verosimilitud de la proba- bilidad a priori de cada clase c, 1 ≤ c ≤ C, es ˆpc= nc/N, donde N = Pcnc es el número total de datos observados y nc es el número de datos de la clase c.r

Solución: Similar al visto en clase para dos clases.

6. Calcular los gradientes de las funciones perceptrón y de Widrow-Ho

Solución: Gradiente de la función perceptrón

∇qS(θ) = ∇ X

(x,c)∈S c θtx < 0

−c θtx

= ∇ X

(x,c)∈S c θtx < 0

−c X

i

θi xi

∂qS(θ)

∂θj

= X

(x,c)∈S c θtx < 0

−c xj

∇qS(θ) = X

(x,c)∈S c θtx < 0

−c x

Gradiente de la función de Widrow -Ho

∇qS(θ) = ∇1 2

X

(x,y)∈S

θtx − y2

= ∇1 2

X

(x,y)∈S

X

i

θixi− yi

!2

∂qS(θ)

∂θj

= X

(x,y)∈S

X

i

θixi− yi

! xj

∇qS(θ) = X

(x,y)∈S

tx − y) x

(4)

Tema 4: Máquinas de vectores soporte

Cuestiones

1 B En el caso de SVM para muestras linealmente separables, indicar qué armación es la incorrecta:

A) Los vectores soporte están formados por al menos una muestra de cada clase.

B) Los vectores soporte están formados por al menos dos muestra de una clase y una muestra de la otra clase..

C) Los vectores soporte son las únicas muestras que contribuyen en la obtención del vector de pesos D) El umbral se dena a partir de un vector soporte

2 C En el caso de SVM con márgenes blandos, las muestras que no son vectores soporte (n : αn= 0), verican que A) ζn> 0

B) ζn< 0 C) ζn= 0 D) ζn6= 0

Problemas

1. Desmostrar que en el caso de una función discriminante para dos clases, el valor de la función en un punto es propor- cional a la distancia al hiperplano separador.

Solución:

a) El vector de pesos es perpendicular al hiperplano separador

6

-

H

@

@

@

@

@

@

@

@

@

@

@

@

@

@

@

@

@

@@ θtx + θ0= 0

 θ

* xa

1 xb

@@R

xb− xa

xa, xb∈ H ⇒ g(xa) = g(xb) = 0

⇒ θt(xb− xa) = 0

⇒ θ ⊥ H

(5)

b) El vector asociado a un punto cualquier se descompone en un vector al hiperplanos separador y un vector perpendicular al hiperplano separador

6

-

H

@

@

@

@

@

@

@

@

@

@

@

@

@

@

@

@

@

@

@ xtθ + θ0= 0

 θ





















 xp 

xn 



























 x

x = xp+ xn ⇒ x = xp+ r θ

||θ||

⇒ g(x) = θ0+ θtx

= θ0+ θtxp+ r θtθ

||θ||

= r ||θ||

2. Dada una función discriminante lineal φ(x; Θ), y un conjunto de puntos S = {(x1, c1), . . . , (xN, cN)}, encontrar la forma canónica con respecto a S del hiperplano que dene la función discriminante lineal φ(x; Θ).

Solución:

a) ˆϕ = m´ın1≤n≤Ncntxn+ θ0) b) θci= θi/ ˆϕpara 0 ≤ i ≤ d

3. Dada una función discriminante φ(x; Θ), demostrar que si γ ∈ R+, entonces γ φ(x; Θ) y φ(x; Θ) representan la misma frontera de decisión.

Solución: Sean H0 y H las fronteras de decisión asociadas a φ(x; Θ) y a γ φ(x; Θ), respectivamente. H0 viene dado por la ecuación: φ(x; Θ) = 0; y H por: γ φ(x; Θ) = 0. Como γ > 0, la ecuadión de H se puede reescribir como:

φ(x; Θ) = 0, que es la misma ecuación que la de H0.

4. Desarrollar completamente los pasos necesarios hasta obtener la lagrangiana dual ΛD(α). en el problema de la clasi- caciónde margen máximo.

Solución:

∂Λ(θ, θ0, α)

∂θi

= θi

N

X

n=1

cnαnxni= 0 para 1 ≤ i ≤ d ⇒ θ(α) =

N

X

n=1

cnαnxn

∂Λ(θ, θ0, α)

∂θ0

=

n

X

n=1

cnαn= 0

ΛD(α) = Λ(θ, θ0, α)

= 1

∗tθ

N

X

n=1

αn



cn∗txn+ θ0) − 1

= 1

2

N

X

n,n0=1

cncn0αnαn0xntxn0

N

X

n=1

αn cn N

X

n0=1

cn0αn0xn0txn+ θ0

!

− 1

!

= −1 2

n

X

n,n0=1

cncn0αnαn0xntxn0 − θ0

N

X

n=1

αncn+

N

X

n=1

αn

=

N

X

n=1

αn−1 2

N

X

n,n0=1

cncn0αnαn0xntxn0

(6)

5. Sea S = {((1, 1)t, +1), ((2, 2)t, −1)} una muestra de entrenamiento. Mediante el método de los multiplicadores de Lagrange, obtener (analíticamente) θ? y θ? que clasiquen S con el máximo margen.

Solución: Pista: Resolver el problema primal y hacer uso de las condiciones KKT.

6. Sea φ(x; θ, θ0), x, θ ∈ R2, una FDL obtenida mediante el método SVM a partir de una muestra de entrenamiento en 2 dimensones. Obtener las ecuaciones de: a) la recta de decisión asociada a φ; b) las ecuaciones de las rectas que denen las fronteras del margen.

Solución:

a) Ecuación de la recta de separación asociada a φ:

φ(x; θ, θ0) = 0 ⇒ θ1x1+ θ2x2+ θ0= 0 ⇒ x2= −θ1 θ2

x1−θ0 θ2

b) Ecuaciones de las rectas que denen las fronteras del margen:

φ(x; θ, θ0) = +1 ⇒ θ1x1+ θ2x2+ θ0= +1 ⇒ x2= −θ1 θ2

x1−θ0− 1 θ2

φ(x; θ, θ0) = −1 ⇒ θ1x1+ θ2x2+ θ0= −1 ⇒ x2= −θ1

θ2

x1−θ0+ 1 θ2

7. Sea S una muestra linealmente separable. Demostrar que el margen óptimo es:

2 X

n∈V

α?n

!−1/2

Solución:

k2 = θ∗tθ

= X

n∈V

cn α?n θ∗txn

= X

n∈V

α?n(1 − cn θ0)

= X

n∈V

α?n− θ0 X

n∈V

αn cn

= X

n∈V

α?n 2

kθk = 2

pP

n∈V α?n

8. Desarrollar completamente los pasos necesarios para encontrar una SVM para el caso que no es linealmente separable.

Solución: Los mismos pasos que en el caso linealmente separabler 9. Linealizar una función discriminante cúbica

Solución:

Similar al desarrollo visto en clase con la función cuadrática.

10. Construir un DAG para un problema de clasicación en cuatro clases.

Solución:

1 vs 4

2 vs 4

3 vs 4 2 vs 3

1 vs 3

1 vs 2

NO 1 NO 4

NO 2 NO 4 NO 1 NO 3

NO 3 NO 4 NO 2 NO 3 NO 1 NO 2

4 3 2 1

(7)

11. Dado una muestra de entrenamiento linealmente separable

S = {((1, 4), +1), ((2, 2), +1), ((2, 3), +1), ((4, 2), +1), ((3, 4), −1), ((3, 5), −1), ((5, 4), −1), ((5, 6), −1)},

al calcular los multiplicadores de Lagrange óptimos α se obtiene [0.87, 0.0, 0.0, 0.75, 1.62, 0.0, 0.0, 0.0]. Obtener la correspondiente función discriminante lineal, calcular el margen óptimo y clasicar la muestra (4, 5).

Solución:

Vector de pesos y umbral:

θ = X

n∈V

cn α?n xn= 0.87 (1, 4)t+ 0.75 (4, 2)t− 1.62 (3, 4)t= (−1.0, −1.5)t θ0 = c5− θ∗tx5= 8.0

0 1 2 3 4 5 6 7

0 1 2 3 4 5 6 7

0.00 0.00

0.00

0.00 0.00

0.87

0.75 1.62

El margen óptimo es

2 X

n∈V

α?n

!−1/2

= 2

√0.87 + 0.75 + 1.62 = 1.11

La clasicación de x = (4, 5) será

(−1.0, −1.5)t(4, 5) + 8.0 = −3.5 < 0 ⇒ clase − 1 12. Dado una muestra de entrenamiento

S = {((1, 4), +1), ((2, 2), +1), ((2, 3), +1), ((4, 2), +1), ((3, 4), −1), ((3, 5), −1), ((5, 4), −1), ((5, 6), −1), ((4, 4), +1), ((4, 3), −1)},

al calcular los multiplicadores de Lagrange óptimos α con C = 1000 se obtiene [250.87, 0.0, 0.0, 500.75, 751.62, 0.0, 0.0, 0.0, 1000.0, 1000.0]

Obtener la correspondiente función discriminante lineal, las tolerancias óptimas ζn y clasicar la muestra (4, 5).

Solución: Procedimiento similar al problema anterior, Para calcular las tolerancias óptimas ζn, utilizar la condición KKT (1) de la transaparencia SVM en el caso de no separabilidad lineal de los apuntes de APR. Los resultados se muestran en la siguiente gura.

(8)

0 1 2 3 4 5 6 7 0

1 2 3 4 5 6 7

0.00 0.00

0.00 0.00

0.00 0.00

0.00 0.00

0.00 0.00

0.00 250.87

-0.00 500.75

3.00 1000.00 0.00

751.62

0.50 1000.00 marg = 1.11

(9)

Tema 5: Redes neuronales multicapa

Cuestiones

1 C La derivada de la función sigmoid gS0(z) = d gS

d z verica una de las siquientes propiedades A) gS0(z) = gS2(z)

B) gS0(z) = gS(z)(1 − gS(z))2 C) gS0(z) = gS(z) (1 − gS(z)) D) gS0(z) = (1 − gS(z))

2 A La derivada de la función tangente hiperbólica g0T(z) = d gT

d z verica una de las siquientes propiedades A) gT0 (z) = 1 − (gT(zk))2

B) gT0 (z) = 1 − gT(zk)

C) gT0 (z) = (1 − gT(zk)) gT(zk) D) gT0 (z) = (gT(zk)2

3 B La parálisis de una red multicapa se proeduce cuando:

A) En entrenamiento se alcanza un mínimo de la función de error.

B) En entrenamiento, la red no evoluciona porque la derivada de la función de activación es muy pequeña C) En clasicación, la red devuelve un cero

D) En entrenamiento, se acaban las muestras de entrenamiento

Problemas

1. Demostrar que gT(z) = 2gS(2z) − 1 ∀z ∈ R

2. Demostrar que la derivada de la función Softmax es, dados z1, . . . , zn∈ R, gM(zi) = exp(zi)

P

jexp(zj) ⇒ gM0 (zi) = d gM

d z = gM(zi) (1 − gM(zi))

3. Supongamos que queremos resolver un problema de clasicación en 3 clases con un perceptrón multicapa con dos capas ocultas (M3= 3). Se emplean funciones de activación en escalón en las capas ocultas y softmax en la capa de salida.

Las muestras se representan en un espacio de representación de dos dimensiones (M0= 2). Calcula la salida de la red neuronal para la muestra x = (−1, 2) con los siguientes vectores de pesos:

θ11= [2, −2, 0] θ21= [2, −1, −1] θ13= [−2, 1, 1]

θ12= [0, 1, 0, −1] θ22= [0, 2, −3, 0]

θ13= [1, 1, 1] θ23= [−1, 0, 1] θ33= [1, 2, 1]

Solución:

Salida de la primera capa oculta

φ11= θ11tx = 2 · 1 + (−2) · (−1) + 0 · 2 = 4 s11= g(φ11) = 1 φ12= θ21tx = 2 · 1 + (−1) · (−1) + (−1) · 2 = 1 s12= g(φ12) = 1 φ13= θ13tx = (−2) · 1 + 1 · (−1) + 1 · 2 = −1 s13= g(φ13) = 0 Salida de la segunda capa oculta

φ21= θ12ts1= 0 · 1 + 1 · 1 + 0 · 1 + (−1) · 0 = 1 s21= g(φ21) = 1 φ22= θ22ts1= 0 · 1 + 2 · 1 + (−3) · 1 + 0 · 0 = −1 s22= g(φ22) = 0 Salida de la capa salida

φ31= θ31ts2= 1 · 1 + 1 · 1 + 1 · 0 = 2 exp(φ31) = 7.3891 φ32= θ32ts2= (−1) · 1 + 0 · 1 + 1 · 0 = −1 exp(φ32) = 0.36788

φ33= θ33ts2= 1 · 1 + 2 · 1 + 1 · 0 = 3 exp(φ33) = 20.086 exp(φ31) + exp(φ32) + exp(φ33) = 27.843

s31= 7.389

27.843 = 0.26539 s32= 0.36788

27.843 = 0.013213 s33=20.086

27.843 = 0.72140

(10)

x = (−1, 2)es de la clase 3

4. Dado una muestra de entrenamiento S = {((1, 4), A), ((2, 3), B), ((4, 2), B), ((3, 5), C), ((5, 4), C)}, generar un conjunto de entrenamiento con los rangos de entrada normalizados.

Solución:

a) S0= {(1, 4), (2, 3), (4, 2), (3, 5), (5, 4) b) µ1=1 + 2 + 4 + 3 + 5

5 = 3

µ2=4 + 3 + 2 + 5 + 4

5 = 3.6

σ1=

r(−2)2+ (−1)2+ 12+ 02+ 22

5 − 1 = 1.5811

σ2=

r1.62+ (−0.6)2+ (−1.6)2+ 1.42+ 0.42

5 − 1 = 1.3784

c) Conversión:

(1, 4) ⇒ (1 − 3

1.5811,4 − 3.6

1.3784) = (−1.264, 0.29019) (2, 3) ⇒ (2 − 3

1.5811,3 − 3.6

1.3784) = (−0.63247, −0.43529) (4, 2) ⇒ (4 − 3

1.5811,2 − 3.6

1.3784) = (0.63247, −1.1608) (3, 5) ⇒ (3 − 3

1.5811,5 − 3.6

1.3784) = (0.0, 1.0157) (5, 4) ⇒ (5 − 3

1.5811,4 − 3.6

1.3784) = (1.2649, 0.29019)

(11)

5. Considerar un perceptrón de dos capas con la siguiente topología: dos entradas, tres nodos en la capa de salida y dos en la oculta, todos los nodos con función de activación sigmoid. Sus pesos son:

θ11= (1, 1, 1)t θ12= (1, 2, 1)t

θ21= (1, 1, 1)t θ22= (−1, −2, −1)t θ23= (−1, 2, −1)t

Detallar la traza de una iteración del algoritmo BackProp, con factor de aprendizaje ρ = 1.0, para una muestra de entrenamiento (x, t), x = (−2, 1)t, t = (0, 1, 0)t.

Solución: Utilizaremos la notación extendida para x con x0= 1.0: x = (−2, 1)t→ x = (1, −2, 1)t a) Cálculo hacia adelante de las salidas de cada nodo:

1) Capa oculta: φ11(x) = θ11tx = 0; s11= g(φ11(x)) = 1

1 + exp(0) = 0.5 φ12(x) = θ12tx = −2; s12= g(φ12(x)) = 1

1 + exp(2) = 0.11920 (Notacion extendida) s10= 1.0

2) Capa de salida: φ21(s1) = θ21ts1= 1.61920; s21= g(φ21(s1)) = 1

1 + exp(−1.61920) = 0.83468 φ22(s1) = θ22ts1= −2.11920; s22= g(φ22(s1)) = 1

1 + exp(2.11920) = 0.10724 φ23(s1) = θ23ts1= −0.11920; s23= g(φ23(s1)) = 1

1 + exp(0.11920) = 0.47024 b) Cálculo de errores hacia atrás:

1) Errores en la capa de salida:

δ21= (t1− s21) g021) = (t1− s21)s21(1 − s21) = −0.11518 δ22= (t2− s22) g022) = (t2− s22)s22(1 − s22) = 0.08547 δ23= (t3− s23) g023) = (t3− s23)s23(1 − s23) = −0.11714 2) Errores en la capa oculta:

δ11= (δ21 θ112 + δ22 θ221+ δ23 θ231) g011) = (δ21 θ211+ δ22 θ221+ δ32 θ231) s11(1 − s11) = −0.12582 δ21= (δ21 θ122 + δ22 θ222+ δ23 θ232) g012) = (δ21 θ212+ δ22 θ222+ δ32 θ232) s12(1 − s12) = −0.00834 c) Actualización de los pesos:

1) Actualización de pesos de la capa de salida:

θ102 = θ210+ ∆θ102 = θ210+ ρ δ12 s10 = 0.88483 θ112 = θ211+ ∆θ112 = θ211+ ρ δ12 s11 = 0.94241 θ122 = θ212+ ∆θ122 = θ212+ ρ δ12 s12 = 0.98627 θ202 = θ220+ ∆θ202 = θ220+ ρ δ22 s10 = −0.91452 θ212 = θ221+ ∆θ212 = θ221+ ρ δ22 s11 = −1.95726 θ222 = θ222+ ∆θ222 = θ222+ ρ δ22 s12 = −0.98981 θ302 = θ230+ ∆θ302 = θ230+ ρ δ32 s10 = −1.11714 θ312 = θ231+ ∆θ312 = θ231+ ρ δ32 s11 = 1.94143 θ322 = θ232+ ∆θ322 = θ232+ ρ δ32 s12 = −1.01396 2) Actualización de pesos de la capa oculta:

θ110= θ110+ ∆θ110= θ110+ ρ δ11 x0 = 0.87418 θ111= θ111+ ∆θ111= θ111+ ρ δ11 x1 = 1.25163 θ112= θ112+ ∆θ112= θ112+ ρ δ11 x2 = 0.87418 θ120= θ120+ ∆θ120= θ120+ ρ δ12 x0 = 0.99166 θ121= θ121+ ∆θ121= θ121+ ρ δ12 x1 = 2.01668 θ122= θ122+ ∆θ122= θ122+ ρ δ12 x2 = 0.99166

(12)

Tema 6: Modelos grácos

Cuestiones

1 B El grafo de la gura

a

b

c

representa una de las siguientes distribuciones conjuntas:

A) P (a, b, c) = P (a) P (b) P (c) B) A ninguna distribución

C) P (a, b, c) = P (a | c) P (b | a) P (c | b) D) P (a, b, c) = P (a | c, b) P (b | a, c) P (c | b, a)

Problemas

1. Dibujar la red bayesiana asociada a

P (a, b, c, d, e, f, g, h) = P (b) P (a | b) P (d | b) P (e | a) P (g | a) P (h | d) P (c | d) P (f | b, e, g, h, c) Solución:

a

b

e

d

g h c

f

2. Dibujar la red bayesiana asociada a

P (a, b, c, d, e, g, h) = P (b) P (c) P (h) P (a | b) P (g) P (d | c, b, h) P (e | c, a, g, h) Solución:

a

b

e

g d c h

3. Las frases de un lenguaje se pueden modelar probabilísticamente mediante n-gramas, esto es la probabilidad de una palabra depende de las n − 1 últimas palabras:

P (X1, X2, . . . , XN) = P (X1) P (X2| X1) P (X3| X1, X2, X3) . . . P (XN | X1, X2, . . . , XN −1)

≈ P (X1) P (X2| X1) P (X3| X1, X2, X3) . . . P (Xi | Xi−n+2, . . . , Xi−1) . . . P (XN | XN −n+2, X2, . . . , XN −1)

(13)

Para N = 4, construir las redes bayesianas en los casos en que n = 1, 2, 3 Solución:

X 1

X

2 X

3

X 4

X 1

X 2

X 3

X 4

X 1

X

2 X

3

X 4

n=1

n=2

n=3

4. Dado un espacio de obervaciones Rd, un modelo de Markov oculto (ver asignatura SIN) H = (Q, PT, pO, PI), donde Qes un conjunto nito de estado, PT(E0= e0| E = e)es la probabilidad de pasar del estado e ∈ Q al estado e0 ∈ Q, PO(X = x | E = e)es la el valor de la densidad de probablidad de emitiir x ∈ Rd enl estado e ∈ Q y PI(E = e) es la probabilidad de que el estado e ∈ Q sea estado inicial. La probabilidad de que H genere una cadena dada de N obervaciones x1, . . . , xN con xi∈ Rd para 1 ≤ i ≤ N es:

pH(X1= x1, . . . , XN = xN) = X

e1,...,eN∈Q

PI(E1= e1) PO(X1= x1| E1= e1) PT(E2= e2| E1= e1) PO(X2= x2| E2= e2) . . .

PT(XN = eN | EN −1= eN −1) PO(XN = xN | EN = eN) Se pide construir al red bayesiana que permita calcular pH(X1= x1, . . . , X5= x5)

Solución:

E

1 E

2

E

3 E

4

E 5

X

1 X

2

X

3 X

4

X 5 Esta red bayesiana permite representar la probabilidad conjunta

P (X1= x1, . . . , X5= x5, E1= e1, . . . , E5= e5) =

PI(E1= e1) PO(X1= x1| E1= e1) PT(E2= e2| E1= e1) PO(X2= x2| E2= e2) . . . PT(X5= e5| E4= e4) PO(X5= x5| E5= e5) y pH(X1= x1, . . . , X5= x5)se calcula como

pH(X1= x1, . . . , X5= x5) = X

e1,...,eN∈Q

P (X1= x1, . . . , X5= x5, E1= e1, . . . , E5= e5)

5. En el ejemplo sobre el depósito de combustible, batería e indicador eléctrico, se tiene que:

B es el estado de la batería (cargada B = 1 o descargada B = 0) C es el estado del depósito de combustible (lleno C = 1 o vacío C = 0)

(14)

I es el estado del indicador eléctrico del combustible (lleno I = 1 o vacío I = 0)

P (B = 1) = P (C = 1) = 0.9 P (I = 1 | B = 1, C = 1) = 0.8 P (I = 1 | B = 1, C = 0) = 0.2 P (I = 1 | B = 0, C = 1) = 0.2 P (I = 1 | B = 0, C = 0) = 0.1

B C

I

P (B, C, I) = P (B) P (C) P (I | B, C)

Comprobar que P (C = 0 | I = 0, B = 0) ≈ 0.111 Solución:

P (C = 0 | I = 0, B = 0) = P (C = 0, I = 0, B = 0) P (I = 0, B = 0)

= P (C = 0, I = 0, B = 0)

P (C = 0, I = 0, B = 0) + P (C = 1, I = 0, B = 0)

= P (B = 0) P (C = 0) P (I = 0 | B = 0, C = 0)

P (B = 0) P (C = 0) P (I = 0 | B = 0, C = 0) + P (B = 0) P (C = 1) P (I = 0 | B = 0, C = 1)

= 0.1 × 0.1 × 0.9

0.1 × 0.1 × 0.9 + 0.1 × 0.9 × 0.8

= 0.111

6. En la inferencia en cadenas, ¾Qué ocurre si también conocemos xi0 ∈ Ex+

n con i0 < i? y ¾Qué ocurre si también conocemos xf0 ∈ Exn con f0 > f?

Solución:

P (xn| xi0, xi, xf) = P (xn, xi0 | xi, xf)

P (xi0 | xi, xf) =P (xn | xi, xf)P (xi0| xi, xf)

P (xi0 | xi, xf) = P (xn| xi, xf) P (xn| xi, xf, xf0) = P (xn| xi, xf)

7. Dada una red bayesiana con estructura de cadena,

P (x1, x2, . . . , xn, . . . , xN −1, xN) = P (x1)P (x2| x1) · · · P (xn| xn−1) · · · P (xN | xN −1) obtener una expresión recursiva para calcular de P (xn)

Solución:

P (xn) = X

xn−1

P (xn, xn−1)

= X

xn−1

P (xn−1)P (xn | xn−1)

Sea µ(xj)def= P (xj):

µ(x1) = P (x1) µ(xn) = X

xn−1

P (xn | xn−1) µ(xn−1)

Por tanto: P (xn) = µ(xn) 8. Dada la siguiente red bayesiana

d c e

a b

Demostrar que P (a, b | c) = P (a | c) P (b | c)

(15)

Solución:

P (a, b | c) = P (a, c, b) P (c)

= P

d,eP (a, d, c, e, b) P (c)

= P

d,eP (a)P (d | a)P (c | d)P (e | c)P (b | e) P (c)

= P (a)P

d(P (d | a)P (c | d))P

e(P (e | c)P (b | e)) P (c)

= P (a)P

dP (d, c | a)P

eP (b, e | c) P (c)

= P (a)P (c | a)P (b | c) P (c)

= P (a | c) P (b | c)

9. Considerar la red bayesiana R denida como P (U, V, X, Y ) = P (U) P (X | U) P (V | U) P (Y | V ), cuyas variables U, V , toman valores en el conjunto {1, 2} y las variables X, Y en el conjunto {"a","b"} y las distribuciones de probabilidad asociadas son como sigue:

P (U )viene dada por P (U = 1) = 2/5, P (U = 2) = 3/5 P (V | U )viene dada por la tabla A

P (X | U )y P (Y | V ) son idénticas y vienen dadas por la tabla B A 1 2

1 0 1

2 1 0

B "a" "b"

1 3/4 1/4 2 1/3 2/3 a) Representar grácamente la red

b) Obtener una expresión simplicada de P (X, Y ) en función de las distribuciones que denen R y calcular P (X ="a", Y = "a")

c) ¾Cuáles son los valores de u, v para los que P (U, V | X = "a", Y = "a") es máxima?

d) R corresponde a un proceso de generación de una cadena de dos símbolos mediante un modelo de Markov.

Representar grácamente este modelo.

Solución:

a) Representación gráca de la red:

U

X

V

Y

b) Obtener una expresión simplicada de P (X, Y ) en función de las distribuciones que denen R:

P (X, Y ) = X

u

X

v

P (U = u) P (X | U = u) P (V = v | U = u) P (Y | V = v)

= X

u

P (U = u) P (X | U = u) X

v

P (V = v | U = u) P (Y | V = v)

≡ X

u

P (u) P (X | u) X

v

P (v | u) P (Y | v)

P (X ="a", Y = "a") = X

u

P (u) P ("a" | u) X

v

P (v | u) P ("a" | v)

= X

u

P (u) P ("a" | u)

P (V = 1 | u) P ("a" | V = 1) + P (V = 2 | u) P ("a" | V = 2)

= X

u

P (u) P ("a" | u)3

4P (V = 1 | u) +1

3P (V = 2 | u)

= 2 5· 3

4· (3 4 · 0 +1

3 · 1) +3 5 ·1

3 · (3 4 · 1 +1

3· 0)

= 6 60 + 9

60 = 1 4

(16)

c) Valores de U, V para los que P (U, V | X = "a", Y = "a") es máxima:

ˆ

u, ˆv = arg max

u,v

P (U = u, V = v | X ="a", Y = "a")

= arg max

u,v

P (U = u, V = v, X = ”a”, Y = ”a”)

P (X = ”a”, Y = ”a”) = arg max

u,v

P (U = u, V = v, X ="a", Y = "a")

= arg max

u,v

P (U = u) · P (X = ”a” | U = u) · P (V = v | U = u) · P (Y = ”a”) | V = v) . . . Solo hay dos combinaciones no nulas: U = 1, V = 2 y U = 2, V = 1.

De estas la máxima se obtiene con: ˆu = 1, ˆv = 2 d) Modelo de Markov representado por R:

1.0

1.0

1 2

a 3/4 b 1/4

a 1/3 b 2/3

2/5 3/5

Referencias

Documento similar

En suma, la búsqueda de la máxima expansión de la libertad de enseñanza y la eliminación del monopolio estatal para convertir a la educación en una función de la

Después de una descripción muy rápida de la optimización así como los problemas en los sistemas de fabricación, se presenta la integración de dos herramientas existentes

6 Para la pervivencia de la tradición clásica y la mitología en la poesía machadiana, véase: Lasso de la Vega, José, “El mito clásico en la literatura española

o Si dispone en su establecimiento de alguna silla de ruedas Jazz S50 o 708D cuyo nº de serie figura en el anexo 1 de esta nota informativa, consulte la nota de aviso de la

 Tejidos de origen humano o sus derivados que sean inviables o hayan sido transformados en inviables con una función accesoria..  Células de origen humano o sus derivados que

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)