• No se han encontrado resultados

Transfer Learning. Eduardo Morales INAOE. Introducción. Transfer en Aprendizaje por Refuerzo. Tranfer en Redes Bayesianas

N/A
N/A
Protected

Academic year: 2021

Share "Transfer Learning. Eduardo Morales INAOE. Introducción. Transfer en Aprendizaje por Refuerzo. Tranfer en Redes Bayesianas"

Copied!
77
0
0

Texto completo

(1)

Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transfer Learning

Eduardo Morales

INAOE

(2)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Contenido

1 Introducci ´on

2 Transfer en Aprendizaje por Refuerzo

3 Tranfer en Redes Bayesianas

4 Tranfer en ´Arboles de Descisi ´on

5 Temas relacionados y preguntas abiertas

(3)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Antecedentes

Los algoritmos de aprendizaje han logrado avances muy importantes en los ´ultimos a ˜nos

En general suponen que los ejemplos de entrenamiento y prueba tienen los mismos atributos y provienen de la misma distribuci ´on

Si la distribuci ´on cambia, normalmente se tienen que reconstruir los modelos

En algunas aplicaciones es muy caro o no se pueden recolectar los ejemplos de entrenamiento para

reconstruir un modelo

Aprendizaje por transferencia o transfer learning puede

(4)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transfer Learning

TL puede servir cuando los datos:

Son escasos

Est ´an desactualizados

TL permite que los dominios, tareas y distribuciones sean diferentes en los ejemplos de entrenamiento y prueba

(5)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transfer Learning

Definici ´on: Dado un dominio (Df) y tarea (Tf) fuentes, un dominio (Do) y tarea (To) objetivos, aprendizaje por transferencia busca mejorar el aprendizaje de la funci ´on objetivo usando conocimiento en Df y Tf

Cuando las tareas son diferentes entonces los dominios de las clases son diferentes

(6)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transfer Learning

En TL se consideran tres aspectos fundamentales:

¿Qu ´e transferir?

¿C ´omo transferir?

¿Cu ´ando transferir?

El transferir conocimiento no siempre es ´util y puede da ˜nar el desempe ˜no de los algoritmos (negative transfer)

(7)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Algoritmos

Podemos catalogar a los algoritmos de TL en tres:

Inductive transfer learning: la tarea fuente y objetivo son diferentes: (i) se tienen muchos datos del dominio fuente, (ii) no se tienen datos del dominio fuente

Transductive transfer learning: las tareas de la fuente y objetivo son las mismas, pero los dominios son

diferentes: (i) los espacios de atributos son diferentes en la fuente y en el objetivo, (ii) los atributos son iguales pero las probabilidades marginales son diferentes (P(Xf) 6=P(Xo))

Unsupervised transfer learning: no se tienen datos

(8)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Algoritmos

(9)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Inductive Transfer Learning

Opciones de conocimiento a transferir:

Transferir instancias: en este caso los espacios de atributos son iguales, aunque no necesariamente todos los ejemplos son ´utiles

Transferir la representaci ´on de los atributos: aprender una representaci ´on de baja dimensionalidad que se pueda compartir entre tareas

Transferir par ´ametros: ya sean par ´ametros o distribuciones de los algoritmos de aprendizaje utilizados

Transferir conocimiento relacional: relaciones

(10)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transductive Transfer Learning

En transductive learning todos los ejemplos

(entrenamiento y prueba) se conocen de entrada y en transductive transfer learning se conocen algunos ejemplos no etiquetados de la tarea objetivo

Se pueden transferir:

Instancias: usan muestreos (importance sampling)

Transferir la representaci ´on de los atributos

(11)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Unsupervised Transfer Learning

No se tienen etiquetas en los ejemplos fuente y objetivo

Se pueden transferir representaciones de atributos, e.g., Self-taught clustering: clustering de una peque ˜na colecci ´on de datos sin etiquetas usando una gran cantidad de datos no etiquetados de la fuente

(12)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transferencia Negativa

Ocurre cuando el dominio y tarea fuentes reducen el desempe ˜no del aprendizaje en la tarea objetivo

¿Qu ´e falta?:

¿C ´omo evitar transferencia negativa?

Estudiar “transferibilidad” entre dominios fuente y objetivo

¿Se puede transferir parte del dominio?

Transferir entre dominios y tareas m ´ultiples con diferentes atributos (heterogeneous transfer learning)

Escalarlo a aplicaciones m ´as grandes

(13)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transfer Learning

En esta clase s ´olo vamos a ver algunos aspectos de Inductive Transfer Learning

Nos vamos a enfocar en transferencia en tres ´areas:

Aprendizaje por Refuerzo

Redes Bayesianas

Arboles de decisi ´on´

(14)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transfer en Aprendizaje por Refuerzo

RL:

No requiere de un modelo del ambiente

El agente aprende solo

Converge a la pol´ıtica ´optima Pero:

El aprendizaje es lento

Pocos desarrollos en ambientes complejos con variables continuas

No se pueden reutilizar pol´ıticas

(15)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transfer en Aprendizaje por Refuerzo

En Aprendizaje por Refuerzo (RL), TL se usa para usar conocimiento de una o m ´as tareas fuente para

aprender una o m ´as tareas objetivo

Los pasos a seguir son:

Dada una tarea objetivo, seleccionar la(s) tarea(s) fuente(s) de las cuales se va a transferir

Aprender c ´omo se relacionan las tareas fuente y objetivo

Transferir de forma efectiva conocimiento de la(s) fuente(s) a la(s) tarea(s) objetivo

(16)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

M ´etricas de Desempe ˜ no

Se pueden usar diferentes m ´etricas para evaluar los beneficios de TL:

Jumpstart: El desempe ˜no inicial de un agente en la tarea objetivo

Desempe ˜no asint ´otico: El desempe ˜no final del agente en la tarea objetivo

Recompensa total: La recompensa total acumulaa

Raz ´on de transferencia: La divisi ´on entre la

recompensa total acumulada con y sin transferencia

Tiempo para alcanzar el umbral: El tiempo requerido

(17)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Efectos de TL en RL

(18)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Selecci ´ on de Diferentes Fuentes

¿Qu ´e suposiciones se hacen en cuanto a las posibles diferencias entre el fuente y el objetivo?

¿C ´omo garantizar no transferir de tareas irrelevantes?

¿Se hace selecci ´on de diferentes fuentes?

¿Se hace un mapeo entre tareas? Est ´a dado o es autom ´atico? (Inter-task mapping

¿Se puede transferir informaci ´on cualitativa?

En general, en la mayor´ıa de los algoritmos el mapeo lo da el usuario!

(19)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Conocimiento a Transferir

Puede ser conocimiento de bajo nivel, e.g., tuplas

<s, a, r , s0 >, funciones de valor (V , Q), la pol´ıtica (π), el modelo de transici ´on (p(s0| s, a))

Pueden ser de m ´as alto nivel, e.g., qu ´e acciones usar en determinado momento, pol´ıticas parciales u opciones, distribuciones a priori, atributos relevantes para aprender, reward shaping, definici ´on de subtareas

¿Qu ´e algoritmos se pueden usar?

(20)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Conocimiento a Transferir

Se puede transferir entre tareas que tengan diferentes:

funciones de transici ´on (p(s0 | s, a)), espacio de estados (S), estados iniciales (s0), estados metas (sf), variables de estado (S), funciones de recompensa (R), conjuntos de acciones (A), ...

Relacionado: Multi-Task Learning suponen que todos los problemas son de la misma distribuci ´on, e.g., aprender varios p ´endulos invertidos.

(21)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Aplicaciones

Vamos a describir aplicaciones en donde:

Transferimos (hiper-)par ´ametros

Transferimos tuplas transformadas En un contexto de Procesos Gaussianos

(22)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Procesos Gaussianos

Distribuci ´on Gaussiana multivariada

p(x ; µ, Σ) = 1

(2π)n/2|Σ|1/2exp(−1

2(x − µ)TΣ−1(x − µ))

Un proceso gaussiano es una generalizaci ´on a un n ´umero infinito de variables: GP(m(·), k (·, ·))

(23)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Motivaci ´ on

Aunque parece peor trabajar con dimensionalidad infinita, lo que se calcula se hace en dimensiones finitas

(24)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Procesos Gaussianos

En particular, se debe cumplir que:

p " ~h h~

#

|X , X

!

∼ N



~0,

 k (X , X ) k (X , X) k (X,X ) k (X,X)



Para el ruido:

p ~

~





∼ N ~0,

"

σ2I ~0

~0T σ2I

#!

(25)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Procesos Gaussianos

Suponemos que son independientes, por lo que su suma tambi ´en lo es:

 ~y y~



|X , X =" ~h h~

# + ~

~





N



~0,

 k (X , X ) + σ2I k (X , X) k (X,X ) k (X,X) + σ2I



(26)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Procesos Gaussianos

Usando las reglas de condicionamiento gaussianas, se sigue que:

~y|~y , X , X ∼ N (µ, Σ) donde:

µ =K (X,X )(K (X , X ) + σ2I)−1~y

Σ=K (X,X)+σ2I−K (X,X )(K (X , X )+σ2I)−1K (X , X)

(27)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Kernel e Hiperpar ´ametros

k (x , x0) = α20exp(−1

2((x − x0 λ )2)

(28)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

C ´alculo de los Hiperpar ´ametros

Recordando la definici ´on de una distribuci ´on gaussiana multivariable:

p(x |µ, Σ) = 1

(2π)n/2|Σ|1/2exp(−1

2(x − µ)TΣ−1(x − µ))

P(y |x , θ) sigue una distribuci ´on gaussiana multivariable con media cero y covarianza de K + σ2nI (si

consideramos ruido) logp(y |x , θ) = −1

2yT(K + σ2nI)−1y −1

2log|K + σn2I| −n 2log2π

(29)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Hiperpar ´ametros

Los hiperpar ´ametros nos determinan las posibles distribuciones

Para obtener los hiperpar ´ametros podemos derivar con respecto a θ

Se sigue un proceso basado en gradiente (es un problema de optimizaci ´on no-convexo), por ejemplo, basado en gradiente conjugado o quasi-Newton

Se puede caer en m´ınimos locales

(30)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

PILCO

PILCO (Probabilistic Inference for Learning Control)

xt =f (xt−i,ut−i)

P(xt|xt−i,ut−i) = GP(m, k )

PILCO usa diferencias como predictor: ∆t =xt − xt−i y un kernel exponencial cuadrado

(31)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

PILCO

Interact with environment, apply π to obtain tuples REPEAT

Infer transition function distribution f from tuples and hyper-parameters θ REPEAT

Evaluate policy π over f Get Vπ

Improve π (Updating parameters ψ) UNTIL convergence

π ← π(ψ)

Interact with environment, apply π to obtain more tuples Learn θp from all tuples

(32)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Motivaci ´ on

VIDEO DE PILCO

(33)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

QTL

La idea es transferir hiperpar ´ametros (sesgo sobre la distribuci ´on de posibles funciones de transici ´on)

Hay que definir c ´omo hacer la transferencia

Esta se hace de forma gradual:´

Usando un factor de olvido

Θ0= Θs

Θi = γΘi−i+ (1 − γ)Θpi,i > 0

Actualizaci ´on Bayesiana

p(Θpk) ∼ N (µp, σ2p) σk2= σ

2 pσk −i2 σ2p2k +1

p(Θ | Θ ) ∼ N (µ , σ2) σ2 = 1

(34)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transferir Tuplas

Al transferir tuplas se tiene que definir cu ´ales

Filtro de Lazaric:

¿De d ´onde transferir? La probabilidad de que la tarea origen genere muestras de la tarea destino (task compliance)

¿Cu ´ales transferir? Muestras muy relevantes o muy alejadas (relevance)

(35)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

SST

S´ıntesis de Tuplas:

Aprender una funci ´on de transici ´on en la tarea objetivo

Aprender/usar la funci ´on de transici ´on de la tarea original

Aprender una funci ´on de diferencias

En espacios poco explorados, generar ejemplos artificiales usando los ejemplos de la tarea original y la funci ´on de diferencias

(36)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

D ´ onde y Cu ´antas Tuplas

En lugares desconocidos (alejados en < s, a >): Si ya tengo ejemplos, no necesito generar

Generar hasta completar el n ´umero de ejemplos usados en la tarea original

Mantener ese n ´umero fijo => ir reduciendo el n ´umero de ejemplos de la tarea original conforme se explora la tarea objetivo

(37)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Proceso

(38)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Proceso

(39)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Proceso

(40)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Proceso

(41)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Experimentos

Probar en 3 dominios:

1 P ´endulo invertido (cl ´asico)

2 Auto en la monta ˜na (tranferencia negativa)

3 De cuadric ´optero a helic ´optero

(42)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Experimentos QTL

Probar:

Transferencia desde diferentes variantes

Usar hiperpar ´ametros de la tarea original

Usar la pol´ıtica de la tarea original

Diferentes valores de γ (γ = 0 => PILCO)

Enfoque Bayesiano

(43)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Resultados

(44)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Resultados

(45)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Resultados

(46)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Experimentos SST

PILCO

Transferir todas la tuplas

Transferir usando un filtro simple

Transferir usando el filtro de Lazaric

Todas las tuples + SST

Filtro simple + SST

Filtro Lazaric + SST

(47)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Resultados SST

(48)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Resultados SST

(49)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Resultados SST

(50)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Helic ´ optero a Cuadr ´ optero

VIDEO

(51)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transfer en Redes Bayesianas

Las Redes Bayesianas han probado ser un formalismo adecuado para tratar informaci ´on con incertidumbre

Para aprender una Red Bayesiana necesitamos determinar la estructura de la red y las tablas de dependencia condicional

Con pocos datos lo que se aprende es poco confiable

Vamos a ver un mecanimo de transferencia usando como base el algorithm PC

(52)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transfer en Redes Bayesianas

PC aprende un esqueleto (grafo no dirigido) y despu ´es determina la direcci ´on de las ligas

Para determinar el esqueleto empieza con una red no dirigida completamente conectada y determina la independencia condicional de cada par de variables dados subconjuntos de variables

TL en BNs: Algoritmo para aprendizaje de red

bayesiana incorporando informaci ´on de bases de datos auxiliares

(53)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

TL en BN

Extensi ´on del algoritmo PC, para el caso en donde tenemos pocos datos para la tarea objetivo y tenemos muchos datos de tareas fuentes

Las diferencias con PC son en la forma en que se evaluan las pruebas de independencia

Para cada par de variables X,Y la medida de independiencia es una combinaci ´on lineal de la

estimaci ´on de la tarea objetivo con la tarea del dominio auxiliar m ´as cercana

La combinaci ´on lineal es pesada por factores que

(54)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Algoritmo

Initialize a complete undirected graph G0, Set i = 0 repeat

for X ∈ X do

for Y ∈ ADJ(X ) do

for S ⊆ ADJ(X ) − {Y }, | S |= i do

Find the most similar auxiliary domain, k , and its similarity measure SkXY

Determine the confidence measures α(X , Y |S) for target and auxiliary domains

Obtain the combined independence measure IF(X , Y | S) if IF(X , Y | S)then

Remove the edge X − Y from G0 end if

end for end for end for

(55)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

TL en BN

La medida de entrop´ıa cruzada utilizada en PC depende del tama ˜no de la base de datos

Se puede mostrar que el error de esta prueba es proporcionalmente asint ´otico a log N2N , donde N es el tama ˜no de la base de datos

Para estimar la confianza en la prueba de independencia entre X y Y , dado S:

α(X , Y |S) = 1 −log N 2N × T

(56)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Similitud entre Tareas

Para medir la similaridad entre tareas se usa una medida de similaridad global y una local

La medida global considera todas las medidas de independencia condicional I(X , Y | S)

SgDj =depj+indj

depj = n ´umero de dependencias condicionales comunes entre la tarea objetivo y la tarea auxiliar j

indj = n ´umero de independencias condicionales comunes entre todos los pares de variables en la tarea

(57)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Similitud entre Tareas

La medida local de similaridad es:

SlDj(X , Y ) =

 1,0 If I0(X , Y |S) = IDj(X , Y |S) 0,5 If I0(X , Y |S) 6= IDj(X , Y |S) Donde:

I0(X , Y |S) = resultado de la prueba de independencia en la tarea objetivo

IDj(X , Y |S) = resultado de la prueba en la tarea auxiliar j

Las constantes dan diferente peso a las estructuras auxiliares que tienen la misma o diferente estructura

(58)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Similitud entre Tareas

Se combinan estas dos medidas como:

SkXY =SgDk× SlDk(X , Y )

Y la medida combinada de independencia se calcula como una combinaci ´on lineal pesada de las medidas de independencia de las tareas objetivo y fuentes:

IF(X , Y |S) = α0(X , Y |S) × sgn(I0(X , Y |S))+

SkXY αDXY(X , Y |S) × sgn(IDXY(X , Y |S))

sgn(I) = +1 si la prueba de independencia es positiva y

−1 de otra forma

α (X , Y |S) es la medida de confianza en el dominio

(59)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Aprendizaje de Par ´ametros

Combinar las CPTs (tablas de probabilidad condicional)

Unificar variables:

Mismas variables: f ´acil

M ´as padres en las estructuras auxiliares: aplicar marginalizaci ´on (sumar sobre todos los valores de las variables extra)

Menos padres en las estructuras auxiliares: duplicar los valores de las CPTs para todos los valores de las variables extra

Una combinaci ´on de las 2 anteriores: primero marginalizar y luego duplicar

(60)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Tablas de Probabilidad Condicional

Ya que se tienen las mismas variables existen varias formas de combinar los valores de las CPTs:

Lineal:

P(X ) = k ×

n

X

i=1

wiPi(X )

Pi(X ) probabilidad condicional del i- ´esimo modelo, wi es el peso asociado esa probabilidad y k es un factor de normalizaci ´on

Logar´ıtmica.

P(X ) = k ×

n

YPi(X )wi

(61)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Distance Based Linear Pool

Obten las probabilidades promedio de todas las BDs descontadas por su nivel de confianza (fi):

p = k

n

X

i=1

(fi × pi)

k es un factor de normalizaci ´on, y fi depende del tama ˜no de los datos

fi =

( 1 − log(cc f)

f if cf ≥ 3

1 − cf×log(3)3 if cf <3

(62)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Distance Based Linear Pool

Estima la nueva probabilidad condicional como:

p0target = (1 − ci)ptarget+cip

donde: ci expresa cuanto considerar de las CPT de otras redes

ci = (di− dmin) × cmax− cmin dmax− dmin

 +cmin donde dmax y dmin es la distancia m ´axima y m´ınima de la probabilidad objetivo con respecto al promedio y cmax

y cmin indica que tan cerca queremos considerar la

(63)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Local Linear Pool

Usa s ´olo las m ´as parecidas a las locales y las pesa de acuerdo a su confianza

ptarget0 =ftarget× ptarget+ (1 − ftarget) ×plocal donde ftarget da el nivel de confianza en las CPTs (fi de antes) y

plocal = 1 n

n

X

i=1

pi ∀pi s.t. pi ∈ {ptarget± (ptarget− p)}

(64)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Resultados cambiando la cantidad de

datos

(65)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Resultados cambiando datos y n ´ umero de

fuentes

(66)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

TL en Redes Bayesianas de Nodos Temporales

Una red bayesiana de nodos temporales sirve para modelar procesos din ´amicos que est ´an caracterizados por cambios irreversibles

Dominio auxiliar

Dominio auxiliar

Dominio auxiliar

Dominio objetivo

(67)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Esquema General

(68)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Determinaci ´ on de Intervalos

(69)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Resultados en HIV

(70)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transferencia Usando ´ Aboles de Decisi ´ on

Se tienen datos relacionados a estr ´es y sus modelos ( ´arboles) para varios personas

Se tiene un usuario nuevo, con pocos datos, y se quiere dar una estimaci ´on aceptable de su nivel de estr ´es

Idea: Transferir datos/modelos de otros usuarios para mejorar la predicci ´on del nuevo

(71)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transferencia Usando ´ Aboles de Decisi ´ on

Se probaron 4 esquemas de transferencia:

1 Na¨ıve: Encuentra el modelo m ´as parecido, transfiere los datos (los junta con los del nuevo usuario) e induce un nuevo ´arbol

2 Umbral: Encuentra los modelos m ´as parecidos (arriba de cierto umbral), transfiere los datos de los usuarios parecidos e induce un nuevo ´arbol

3 Muestreo: Encuentra los k modelos m ´as parecidos y muestrea sus datos proporcionalmente a su medida de similaridad

4 Ensamble: Usa los k modelos m ´as parecidos, junto con

(72)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Medidad de Similaridad entre ´ Arboles

Sean Di y Dj dos ´arboles con H y K hojas que clasifican n ejemplos.

Formamos la matriz:

M = [mhk], h = 1, . . . , H y k = 1, . . . , K donde mhk es el n ´umero de ejemplos que pertenencen a la h- ´esima hoja de Di y a la k - ´esima hoja de Dj ymh0=PK

k =1mhk, m0k =PH

h=1mhk.

La medida se disimilatidad se define como:

d (Di,Dj) =

H

X

h=1

αh(1 − sh)mh0

n +

K

X

k =1

αk(1 − sk)m0k n

(73)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Medidad de Similaridad entre ´ Arboles

shk mide la similaridad entre hojas tomando en cuenta las clases y ejemplos:

shk = mhkchk

√mh0m0k k = 1, . . . , K

donde chk =1 si la h- ´esima hoja de Di tiene la misma clase que la k - ´esima hoja de Dj, y chk =0 si no.

sh=m ´ax{shk, k = 1, . . . , K }

(74)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Medidad de Similaridad entre ´ Arboles

αh =q − p + 1 mide la disimilaridad entre hojas, dependiendo de la longitud de los caminos diferentes (p), y la profundidad en donde difieren (q)

El valor m ´aximo de d (Di,Dj)se alcanza cuando la diferencia entre los ´arboles es m ´axima y su similaridad de predicci ´on es cero

El factor de normalizaci ´on es:

m ´ax d (Di,Dj) =

H

X

h=1

αhmh0

n +

K

X

k =1

αkm0k n

donde αhes la longitud del nodo ra´ız a la h- ´esima hoja

La medida de disimilaridad normalizada es entonces:

(75)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Resultados

(76)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Algunas T ´ecnicas Relacionadas

Lifelong learning

Imitation learing

Human advice

Shaping

Concept Drift

(77)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Preguntas Abiertas

Si se tiene un modelo de una tarea fuente, ¿c ´omo modificarlo para la tarea objetivo?

¿Se pueden modificar las tareas fuentes autom ´aticamente para mejorar el aprendizaje?

¿Se pueden tomar ideas de theoryrevision/refinement para hacer un mapeo entre tareas?

¿La transferencia se podr´ıa utilizar para mejorar el mecanismo de exploraci ´on del agente en la tarea objetivo?

Transferencia negativa: No hay trabajo que defina de

Referencias

Documento similar

Más de 20 años después se publica el artículo &#34;Playing Atari with Deep Reinforcement Learning&#34; [1], del que hablaremos en este trabajo, donde se logra insertar con

En este artículo se propone el formalismo de las redes bayesianas como mecanismo de representación del conocimiento en la capa superior de una arquitectura genérica

En nuestro caso, la utilizaremos para poder integrar el desarrollo de nuestros algoritmos, así como los que ya están implemen- tados, con el entorno utilizado....

Para ello se han medido aspectos como el porcentaje de individuos que acaban eligiendo el mismo ítem al final de las ejecuciones o el tiempo en el cual se produce este

- El problema ABP lo obtenían en Moodle (bajándose el correspondiente archivo pdf depositado en el foro del grupo) y sabían cómo tenían que trabajar en las fechas

A lo largo del presente documento se pretende sintetizar el momento actual tan apasionante que están viviendo las Operadoras de Telecomunicaciones, por un lado reejando el

Al salir un gradiente de temperatura mucho más alto en nuestro caso por haber usado el coeficiente de conductividad térmica del aire como hemos explicado al poner las condiciones

Llevan el cursor al vértice B’ y giran el triángulo (los lados de los triángulos quedan aproximadamente paralelos). Llevan el cursor al segmento a’ y lo arrastra hasta superponer