Transfer Learning. Eduardo Morales INAOE. Introducción. Transfer en Aprendizaje por Refuerzo. Tranfer en Redes Bayesianas

(1)

Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Transfer Learning

Eduardo Morales

INAOE

(2)

Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas

Contenido

1 Introducci ´on

2 Transfer en Aprendizaje por Refuerzo

3 Tranfer en Redes Bayesianas

4 Tranfer en ´Arboles de Descisi ´on

5 Temas relacionados y preguntas abiertas

(3)

Antecedentes

• Los algoritmos de aprendizaje han logrado avances muy importantes en los ´ultimos a ˜nos

• En general suponen que los ejemplos de entrenamiento y prueba tienen los mismos atributos y provienen de la misma distribuci ´on

• Si la distribuci ´on cambia, normalmente se tienen que reconstruir los modelos

• En algunas aplicaciones es muy caro o no se pueden recolectar los ejemplos de entrenamiento para

reconstruir un modelo

• Aprendizaje por transferencia o transfer learning puede

(4)

Transfer Learning

• TL puede servir cuando los datos:

• Son escasos

• Est ´an desactualizados

• TL permite que los dominios, tareas y distribuciones sean diferentes en los ejemplos de entrenamiento y prueba

(5)

Transfer Learning

• Definici ´on: Dado un dominio (D_f) y tarea (T_f) fuentes, un dominio (D_o) y tarea (T_o) objetivos, aprendizaje por transferencia busca mejorar el aprendizaje de la funci ´on objetivo usando conocimiento en D_f y T_f

• Cuando las tareas son diferentes entonces los dominios de las clases son diferentes

(6)

Transfer Learning

• En TL se consideran tres aspectos fundamentales:

• ¿Qu ´e transferir?

• ¿C ´omo transferir?

• ¿Cu ´ando transferir?

• El transferir conocimiento no siempre es útil y puede da ñar el desempe ño de los algoritmos (negative transfer)

(7)

Algoritmos

Podemos catalogar a los algoritmos de TL en tres:

• Inductive transfer learning: la tarea fuente y objetivo son diferentes: (i) se tienen muchos datos del dominio fuente, (ii) no se tienen datos del dominio fuente

• Transductive transfer learning: las tareas de la fuente y objetivo son las mismas, pero los dominios son

diferentes: (i) los espacios de atributos son diferentes en la fuente y en el objetivo, (ii) los atributos son iguales pero las probabilidades marginales son diferentes (P(X_f) 6=P(Xo))

• Unsupervised transfer learning: no se tienen datos

(8)

Algoritmos

(9)

Inductive Transfer Learning

Opciones de conocimiento a transferir:

• Transferir instancias: en este caso los espacios de atributos son iguales, aunque no necesariamente todos los ejemplos son ´utiles

• Transferir la representaci ´on de los atributos: aprender una representaci ´on de baja dimensionalidad que se pueda compartir entre tareas

• Transferir par ´ametros: ya sean par ´ametros o distribuciones de los algoritmos de aprendizaje utilizados

• Transferir conocimiento relacional: relaciones

(10)

Transductive Transfer Learning

• En transductive learning todos los ejemplos

(entrenamiento y prueba) se conocen de entrada y en transductive transfer learning se conocen algunos ejemplos no etiquetados de la tarea objetivo

• Se pueden transferir:

• Instancias: usan muestreos (importance sampling)

• Transferir la representaci ´on de los atributos

(11)

Unsupervised Transfer Learning

• No se tienen etiquetas en los ejemplos fuente y objetivo

• Se pueden transferir representaciones de atributos, e.g., Self-taught clustering: clustering de una peque ˜na colecci ´on de datos sin etiquetas usando una gran cantidad de datos no etiquetados de la fuente

(12)

Transferencia Negativa

• Ocurre cuando el dominio y tarea fuentes reducen el desempe ˜no del aprendizaje en la tarea objetivo

• ¿Qu ´e falta?:

• ¿C ´omo evitar transferencia negativa?

• Estudiar “transferibilidad” entre dominios fuente y objetivo

• ¿Se puede transferir parte del dominio?

• Transferir entre dominios y tareas m ´ultiples con diferentes atributos (heterogeneous transfer learning)

• Escalarlo a aplicaciones m ´as grandes

(13)

Transfer Learning

• En esta clase s ´olo vamos a ver algunos aspectos de Inductive Transfer Learning

• Nos vamos a enfocar en transferencia en tres ´areas:

• Aprendizaje por Refuerzo

• Redes Bayesianas

• Arboles de decisi ´on´

(14)

Transfer en Aprendizaje por Refuerzo

RL:

• No requiere de un modelo del ambiente

• El agente aprende solo

• Converge a la pol´ıtica ´optima Pero:

• El aprendizaje es lento

• Pocos desarrollos en ambientes complejos con variables continuas

• No se pueden reutilizar pol´ıticas

(15)

Transfer en Aprendizaje por Refuerzo

• En Aprendizaje por Refuerzo (RL), TL se usa para usar conocimiento de una o m ´as tareas fuente para

aprender una o m ´as tareas objetivo

• Los pasos a seguir son:

• Dada una tarea objetivo, seleccionar la(s) tarea(s) fuente(s) de las cuales se va a transferir

• Aprender c ´omo se relacionan las tareas fuente y objetivo

• Transferir de forma efectiva conocimiento de la(s) fuente(s) a la(s) tarea(s) objetivo

(16)

M ´etricas de Desempe ˜ no

Se pueden usar diferentes m ´etricas para evaluar los beneficios de TL:

• Jumpstart: El desempe ˜no inicial de un agente en la tarea objetivo

• Desempe ño asint ótico: El desempe ño final del agente en la tarea objetivo

• Recompensa total: La recompensa total acumulaa

• Raz ´on de transferencia: La divisi ´on entre la

recompensa total acumulada con y sin transferencia

• Tiempo para alcanzar el umbral: El tiempo requerido

(17)

Efectos de TL en RL

(18)

Selecci ´ on de Diferentes Fuentes

• ¿Qu ´e suposiciones se hacen en cuanto a las posibles diferencias entre el fuente y el objetivo?

• ¿C ´omo garantizar no transferir de tareas irrelevantes?

• ¿Se hace selecci ´on de diferentes fuentes?

• ¿Se hace un mapeo entre tareas? Est ´a dado o es autom ´atico? (Inter-task mapping

• ¿Se puede transferir informaci ´on cualitativa?

• En general, en la mayor´ıa de los algoritmos el mapeo lo da el usuario!

(19)

Conocimiento a Transferir

• Puede ser conocimiento de bajo nivel, e.g., tuplas

<s, a, r , s⁰ >, funciones de valor (V , Q), la pol´ıtica (π), el modelo de transici ´on (p(s⁰| s, a))

• Pueden ser de m ás alto nivel, e.g., qu é acciones usar en determinado momento, pol´ıticas parciales u opciones, distribuciones a priori, atributos relevantes para aprender, reward shaping, definici ón de subtareas

• ¿Qu ´e algoritmos se pueden usar?

(20)

Conocimiento a Transferir

• Se puede transferir entre tareas que tengan diferentes:

funciones de transici ´on (p(s⁰ | s, a)), espacio de estados (S), estados iniciales (s₀), estados metas (s_f), variables de estado (S), funciones de recompensa (R), conjuntos de acciones (A), ...

• Relacionado: Multi-Task Learning suponen que todos los problemas son de la misma distribuci ´on, e.g., aprender varios p ´endulos invertidos.

(21)

Aplicaciones

Vamos a describir aplicaciones en donde:

• Transferimos (hiper-)par ´ametros

• Transferimos tuplas transformadas En un contexto de Procesos Gaussianos

(22)

Procesos Gaussianos

• Distribuci ´on Gaussiana multivariada

p(x ; µ, Σ) = 1

(2π)^n/2|Σ|^1/2exp(−1

2(x − µ)^TΣ⁻¹(x − µ))

• Un proceso gaussiano es una generalizaci ´on a un n ´umero infinito de variables: GP(m(·), k (·, ·))

(23)

Motivaci ´ on

Aunque parece peor trabajar con dimensionalidad infinita, lo que se calcula se hace en dimensiones finitas

(24)

Procesos Gaussianos

• En particular, se debe cumplir que:

p " ~h h~∗

#

|X , X∗

!

∼ N

~0,

k (X , X ) k (X , X∗) k (X_∗,X ) k (X_∗,X_∗)

• Para el ruido:

p ~

~

∗

∼ N ~0,

"

σ²I ~0

~0^T σ²I

#!

(25)

Procesos Gaussianos

• Suponemos que son independientes, por lo que su suma tambi ´en lo es:

~y y~_∗

|X , X∗ =" ~h h~∗

# + ~

~

∗

∼

N

~0,

k (X , X ) + σ²I k (X , X∗) k (X∗,X ) k (X∗,X∗) + σ²I

(26)

Procesos Gaussianos

• Usando las reglas de condicionamiento gaussianas, se sigue que:

~y_∗|~y , X , X_∗ ∼ N (µ^∗, Σ^∗) donde:

µ^∗ =K (X∗,X )(K (X , X ) + σ²I)⁻¹~y

Σ^∗=K (X∗,X∗)+σ²I−K (X∗,X )(K (X , X )+σ²I)⁻¹K (X , X∗)

(27)

Kernel e Hiperpar ´ametros

k (x , x⁰) = α²₀exp(−1

2((x − x⁰ λ )²)

(28)

C ´alculo de los Hiperpar ´ametros

• Recordando la definici ´on de una distribuci ´on gaussiana multivariable:

p(x |µ, Σ) = 1

(2π)^n/2|Σ|^1/2exp(−1

2(x − µ)^TΣ⁻¹(x − µ))

• P(y |x , θ) sigue una distribuci ´on gaussiana multivariable con media cero y covarianza de K + σ²_nI (si

consideramos ruido) logp(y |x , θ) = −1

2y^T(K + σ²_nI)⁻¹y −1

2log|K + σ_n²I| −n 2log2π

(29)

Hiperpar ´ametros

• Los hiperpar ´ametros nos determinan las posibles distribuciones

• Para obtener los hiperpar ´ametros podemos derivar con respecto a θ

• Se sigue un proceso basado en gradiente (es un problema de optimizaci ´on no-convexo), por ejemplo, basado en gradiente conjugado o quasi-Newton

• Se puede caer en m´ınimos locales

(30)

PILCO

• PILCO (Probabilistic Inference for Learning Control)

• xt =f (x_t−i,u_t−i)

• P(x_t|x_t−i,u_t−i) = GP(m, k )

• PILCO usa diferencias como predictor: ∆_t =x_t − xt−i y un kernel exponencial cuadrado

(31)

PILCO

Interact with environment, apply π to obtain tuples REPEAT

Infer transition function distribution f from tuples and hyper-parameters θ REPEAT

Evaluate policy π over f Get V^π

Improve π (Updating parameters ψ) UNTIL convergence

π ← π(ψ)

Interact with environment, apply π to obtain more tuples Learn θ_p from all tuples

(32)

Motivaci ´ on

VIDEO DE PILCO

(33)

QTL

• La idea es transferir hiperpar ámetros (sesgo sobre la distribuci ón de posibles funciones de transici ón)

• Hay que definir c ´omo hacer la transferencia

• Esta se hace de forma gradual:´

• Usando un factor de olvido

Θ₀= Θ_s

Θ_i = γΘ_i−i+ (1 − γ)Θ_p_i,i > 0

• Actualizaci ´on Bayesiana

p(Θpk) ∼ N (µ_p, σ²_p) σ_k²= ^σ

2 pσ_{k −i}² σ²_p+σ²_{k +1}

p(Θ | Θ ) ∼ N (µ , σ²) σ² = ¹

(34)

Transferir Tuplas

• Al transferir tuplas se tiene que definir cu ´ales

• Filtro de Lazaric:

• ¿De d ´onde transferir? La probabilidad de que la tarea origen genere muestras de la tarea destino (task compliance)

• ¿Cu ´ales transferir? Muestras muy relevantes o muy alejadas (relevance)

(35)

SST

S´ıntesis de Tuplas:

• Aprender una funci ´on de transici ´on en la tarea objetivo

• Aprender/usar la funci ´on de transici ´on de la tarea original

• Aprender una funci ´on de diferencias

• En espacios poco explorados, generar ejemplos artificiales usando los ejemplos de la tarea original y la funci ´on de diferencias

(36)

D ´ onde y Cu ´antas Tuplas

• En lugares desconocidos (alejados en < s, a >): Si ya tengo ejemplos, no necesito generar

• Generar hasta completar el n ´umero de ejemplos usados en la tarea original

• Mantener ese n ´umero fijo => ir reduciendo el n ´umero de ejemplos de la tarea original conforme se explora la tarea objetivo

(37)

Proceso

(38)

Proceso

(39)

Proceso

(40)

Proceso

(41)

Experimentos

Probar en 3 dominios:

1 P ´endulo invertido (cl ´asico)

2 Auto en la monta ˜na (tranferencia negativa)

3 De cuadric ´optero a helic ´optero

(42)

Experimentos QTL

Probar:

• Transferencia desde diferentes variantes

• Usar hiperpar ´ametros de la tarea original

• Usar la pol´ıtica de la tarea original

• Diferentes valores de γ (γ = 0 => PILCO)

• Enfoque Bayesiano

(43)

Resultados

(44)

Resultados

(45)

Resultados

(46)

Experimentos SST

• PILCO

• Transferir todas la tuplas

• Transferir usando un filtro simple

• Transferir usando el filtro de Lazaric

• Todas las tuples + SST

• Filtro simple + SST

• Filtro Lazaric + SST

(47)

Resultados SST

(48)

Resultados SST

(49)

Resultados SST

(50)

Helic ´ optero a Cuadr ´ optero

VIDEO

(51)

Transfer en Redes Bayesianas

• Las Redes Bayesianas han probado ser un formalismo adecuado para tratar informaci ´on con incertidumbre

• Para aprender una Red Bayesiana necesitamos determinar la estructura de la red y las tablas de dependencia condicional

• Con pocos datos lo que se aprende es poco confiable

• Vamos a ver un mecanimo de transferencia usando como base el algorithm PC

(52)

Transfer en Redes Bayesianas

• PC aprende un esqueleto (grafo no dirigido) y despu ´es determina la direcci ´on de las ligas

• Para determinar el esqueleto empieza con una red no dirigida completamente conectada y determina la independencia condicional de cada par de variables dados subconjuntos de variables

• TL en BNs: Algoritmo para aprendizaje de red

bayesiana incorporando informaci ´on de bases de datos auxiliares

(53)

TL en BN

• Extensi ´on del algoritmo PC, para el caso en donde tenemos pocos datos para la tarea objetivo y tenemos muchos datos de tareas fuentes

• Las diferencias con PC son en la forma en que se evaluan las pruebas de independencia

• Para cada par de variables X,Y la medida de independiencia es una combinaci ´on lineal de la

estimaci ´on de la tarea objetivo con la tarea del dominio auxiliar m ´as cercana

• La combinaci ´on lineal es pesada por factores que

(54)

Algoritmo

Initialize a complete undirected graph G⁰, Set i = 0 repeat

for X ∈ X do

for Y ∈ ADJ(X ) do

for S ⊆ ADJ(X ) − {Y }, | S |= i do

Find the most similar auxiliary domain, k , and its similarity measure SkXY

Determine the confidence measures α(X , Y |S) for target and auxiliary domains

Obtain the combined independence measure IF(X , Y | S) if IF(X , Y | S)then

Remove the edge X − Y from G⁰ end if

end for end for end for

(55)

TL en BN

• La medida de entrop´ıa cruzada utilizada en PC depende del tama ˜no de la base de datos

• Se puede mostrar que el error de esta prueba es proporcionalmente asint ´otico a ^{log N}_2N , donde N es el tama ˜no de la base de datos

• Para estimar la confianza en la prueba de independencia entre X y Y , dado S:

α(X , Y |S) = 1 −log N 2N × T

(56)

Similitud entre Tareas

• Para medir la similaridad entre tareas se usa una medida de similaridad global y una local

• La medida global considera todas las medidas de independencia condicional I(X , Y | S)

Sg_Dj =dep_j+ind_j

• dep_j = n ´umero de dependencias condicionales comunes entre la tarea objetivo y la tarea auxiliar j

• indj = n ´umero de independencias condicionales comunes entre todos los pares de variables en la tarea

(57)

Similitud entre Tareas

• La medida local de similaridad es:

Sl_Dj(X , Y ) =

1,0 If I₀(X , Y |S) = I_Dj(X , Y |S) 0,5 If I₀(X , Y |S) 6= I_Dj(X , Y |S) Donde:

• I₀(X , Y |S) = resultado de la prueba de independencia en la tarea objetivo

• I_Dj(X , Y |S) = resultado de la prueba en la tarea auxiliar j

• Las constantes dan diferente peso a las estructuras auxiliares que tienen la misma o diferente estructura

(58)

Similitud entre Tareas

• Se combinan estas dos medidas como:

Sk_XY^∗ =Sg_Dk× Sl_Dk(X , Y )

• Y la medida combinada de independencia se calcula como una combinaci ´on lineal pesada de las medidas de independencia de las tareas objetivo y fuentes:

I_F(X , Y |S) = α₀(X , Y |S) × sgn(I₀(X , Y |S))+

Sk_XY^∗ α_D_XY(X , Y |S) × sgn(I_D_XY(X , Y |S))

• sgn(I) = +1 si la prueba de independencia es positiva y

−1 de otra forma

• α (X , Y |S) es la medida de confianza en el dominio

(59)

Aprendizaje de Par ´ametros

• Combinar las CPTs (tablas de probabilidad condicional)

• Unificar variables:

• Mismas variables: f ´acil

• M ´as padres en las estructuras auxiliares: aplicar marginalizaci ´on (sumar sobre todos los valores de las variables extra)

• Menos padres en las estructuras auxiliares: duplicar los valores de las CPTs para todos los valores de las variables extra

• Una combinaci ´on de las 2 anteriores: primero marginalizar y luego duplicar

(60)

Tablas de Probabilidad Condicional

Ya que se tienen las mismas variables existen varias formas de combinar los valores de las CPTs:

• Lineal:

P(X ) = k ×

n

X

i=1

w_iP_i(X )

P_i(X ) probabilidad condicional del i- ´esimo modelo, w_i es el peso asociado esa probabilidad y k es un factor de normalizaci ´on

• Logar´ıtmica.

P(X ) = k ×

n

YP_i(X )^wⁱ

(61)

Distance Based Linear Pool

• Obten las probabilidades promedio de todas las BDs descontadas por su nivel de confianza (f_i):

p = k

n

X

i=1

(f_i × p_i)

k es un factor de normalizaci ´on, y f_i depende del tama ˜no de los datos

f_i =

( 1 − ^log(c_c ^f⁾

f if c_f ≥ 3

1 − ^c^f^×log(3)₃ if c_f <3

(62)

Distance Based Linear Pool

• Estima la nueva probabilidad condicional como:

p⁰_target = (1 − c_i)ptarget+c_ip

donde: c_i expresa cuanto considerar de las CPT de otras redes

c_i = (d_i− d_min) × cmax− c_min dmax− d_min

+c_min donde d_max y d_min es la distancia m ´axima y m´ınima de la probabilidad objetivo con respecto al promedio y cmax

y c_min indica que tan cerca queremos considerar la

(63)

Local Linear Pool

• Usa s ´olo las m ´as parecidas a las locales y las pesa de acuerdo a su confianza

p_target⁰ =ftarget× ptarget+ (1 − ftarget) ×p_local donde ftarget da el nivel de confianza en las CPTs (f_i de antes) y

p_local = 1 n

n

X

i=1

p_i ∀p_i s.t. p_i ∈ {p_target± (p_target− p)}

(64)

Resultados cambiando la cantidad de

datos

(65)

Resultados cambiando datos y n ´ umero de

fuentes

(66)

TL en Redes Bayesianas de Nodos Temporales

• Una red bayesiana de nodos temporales sirve para modelar procesos din ´amicos que est ´an caracterizados por cambios irreversibles

Dominio auxiliar

Dominio objetivo

(67)

Esquema General

(68)

Determinaci ´ on de Intervalos

(69)

Resultados en HIV

(70)

Transferencia Usando ´ Aboles de Decisi ´ on

• Se tienen datos relacionados a estr ´es y sus modelos ( ´arboles) para varios personas

• Se tiene un usuario nuevo, con pocos datos, y se quiere dar una estimaci ´on aceptable de su nivel de estr ´es

• Idea: Transferir datos/modelos de otros usuarios para mejorar la predicci ´on del nuevo

(71)

Transferencia Usando ´ Aboles de Decisi ´ on

Se probaron 4 esquemas de transferencia:

1 Na¨ıve: Encuentra el modelo m ´as parecido, transfiere los datos (los junta con los del nuevo usuario) e induce un nuevo ´arbol

2 Umbral: Encuentra los modelos m ´as parecidos (arriba de cierto umbral), transfiere los datos de los usuarios parecidos e induce un nuevo ´arbol

3 Muestreo: Encuentra los k modelos m ´as parecidos y muestrea sus datos proporcionalmente a su medida de similaridad

4 Ensamble: Usa los k modelos m ´as parecidos, junto con

(72)

Medidad de Similaridad entre ´ Arboles

• Sean D_i y D_j dos ´arboles con H y K hojas que clasifican n ejemplos.

• Formamos la matriz:

M = [m_hk], h = 1, . . . , H y k = 1, . . . , K donde m_hk es el n úmero de ejemplos que pertenencen a la h- ésima hoja de D_i y a la k - ésima hoja de D_j ym_h0=PK

k =1m_hk, m_0k =PH

h=1m_hk.

• La medida se disimilatidad se define como:

d (D_i,D_j) =

H

X

h=1

α_h(1 − s_h)m_h0

n +

K

X

k =1

α_k(1 − s_k)m_0k n

(73)

Medidad de Similaridad entre ´ Arboles

• s_hk mide la similaridad entre hojas tomando en cuenta las clases y ejemplos:

s_hk = m_hkc_hk

√m_h0m_0k k = 1, . . . , K

donde c_hk =1 si la h- ´esima hoja de D_i tiene la misma clase que la k - ´esima hoja de D_j, y c_hk =0 si no.

• s_h=m ´ax{s_hk, k = 1, . . . , K }

(74)

Medidad de Similaridad entre ´ Arboles

• αh =q − p + 1 mide la disimilaridad entre hojas, dependiendo de la longitud de los caminos diferentes (p), y la profundidad en donde difieren (q)

• El valor m áximo de d (D_i,D_j)se alcanza cuando la diferencia entre los árboles es m áxima y su similaridad de predicci ón es cero

• El factor de normalizaci ´on es:

m ´ax d (D_i,D_j) =

H

X

h=1

α_hm_h0

n +

K

X

k =1

α_km_0k n

donde α_hes la longitud del nodo ra´ız a la h- ´esima hoja

• La medida de disimilaridad normalizada es entonces:

(75)

Resultados

(76)

Algunas T ´ecnicas Relacionadas

• Lifelong learning

• Imitation learing

• Human advice

• Shaping

• Concept Drift

(77)

Preguntas Abiertas

• Si se tiene un modelo de una tarea fuente, ¿c ´omo modificarlo para la tarea objetivo?

• ¿Se pueden modificar las tareas fuentes autom ´aticamente para mejorar el aprendizaje?

• ¿Se pueden tomar ideas de theoryrevision/refinement para hacer un mapeo entre tareas?

• ¿La transferencia se podr´ıa utilizar para mejorar el mecanismo de exploraci ´on del agente en la tarea objetivo?

• Transferencia negativa: No hay trabajo que defina de