Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transfer Learning
Eduardo Morales
INAOE
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Contenido
1 Introducci ´on
2 Transfer en Aprendizaje por Refuerzo
3 Tranfer en Redes Bayesianas
4 Tranfer en ´Arboles de Descisi ´on
5 Temas relacionados y preguntas abiertas
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Antecedentes
• Los algoritmos de aprendizaje han logrado avances muy importantes en los ´ultimos a ˜nos
• En general suponen que los ejemplos de entrenamiento y prueba tienen los mismos atributos y provienen de la misma distribuci ´on
• Si la distribuci ´on cambia, normalmente se tienen que reconstruir los modelos
• En algunas aplicaciones es muy caro o no se pueden recolectar los ejemplos de entrenamiento para
reconstruir un modelo
• Aprendizaje por transferencia o transfer learning puede
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transfer Learning
• TL puede servir cuando los datos:
• Son escasos
• Est ´an desactualizados
• TL permite que los dominios, tareas y distribuciones sean diferentes en los ejemplos de entrenamiento y prueba
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transfer Learning
• Definici ´on: Dado un dominio (Df) y tarea (Tf) fuentes, un dominio (Do) y tarea (To) objetivos, aprendizaje por transferencia busca mejorar el aprendizaje de la funci ´on objetivo usando conocimiento en Df y Tf
• Cuando las tareas son diferentes entonces los dominios de las clases son diferentes
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transfer Learning
• En TL se consideran tres aspectos fundamentales:
• ¿Qu ´e transferir?
• ¿C ´omo transferir?
• ¿Cu ´ando transferir?
• El transferir conocimiento no siempre es ´util y puede da ˜nar el desempe ˜no de los algoritmos (negative transfer)
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Algoritmos
Podemos catalogar a los algoritmos de TL en tres:
• Inductive transfer learning: la tarea fuente y objetivo son diferentes: (i) se tienen muchos datos del dominio fuente, (ii) no se tienen datos del dominio fuente
• Transductive transfer learning: las tareas de la fuente y objetivo son las mismas, pero los dominios son
diferentes: (i) los espacios de atributos son diferentes en la fuente y en el objetivo, (ii) los atributos son iguales pero las probabilidades marginales son diferentes (P(Xf) 6=P(Xo))
• Unsupervised transfer learning: no se tienen datos
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Algoritmos
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Inductive Transfer Learning
Opciones de conocimiento a transferir:
• Transferir instancias: en este caso los espacios de atributos son iguales, aunque no necesariamente todos los ejemplos son ´utiles
• Transferir la representaci ´on de los atributos: aprender una representaci ´on de baja dimensionalidad que se pueda compartir entre tareas
• Transferir par ´ametros: ya sean par ´ametros o distribuciones de los algoritmos de aprendizaje utilizados
• Transferir conocimiento relacional: relaciones
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transductive Transfer Learning
• En transductive learning todos los ejemplos
(entrenamiento y prueba) se conocen de entrada y en transductive transfer learning se conocen algunos ejemplos no etiquetados de la tarea objetivo
• Se pueden transferir:
• Instancias: usan muestreos (importance sampling)
• Transferir la representaci ´on de los atributos
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Unsupervised Transfer Learning
• No se tienen etiquetas en los ejemplos fuente y objetivo
• Se pueden transferir representaciones de atributos, e.g., Self-taught clustering: clustering de una peque ˜na colecci ´on de datos sin etiquetas usando una gran cantidad de datos no etiquetados de la fuente
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transferencia Negativa
• Ocurre cuando el dominio y tarea fuentes reducen el desempe ˜no del aprendizaje en la tarea objetivo
• ¿Qu ´e falta?:
• ¿C ´omo evitar transferencia negativa?
• Estudiar “transferibilidad” entre dominios fuente y objetivo
• ¿Se puede transferir parte del dominio?
• Transferir entre dominios y tareas m ´ultiples con diferentes atributos (heterogeneous transfer learning)
• Escalarlo a aplicaciones m ´as grandes
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transfer Learning
• En esta clase s ´olo vamos a ver algunos aspectos de Inductive Transfer Learning
• Nos vamos a enfocar en transferencia en tres ´areas:
• Aprendizaje por Refuerzo
• Redes Bayesianas
• Arboles de decisi ´on´
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transfer en Aprendizaje por Refuerzo
RL:
• No requiere de un modelo del ambiente
• El agente aprende solo
• Converge a la pol´ıtica ´optima Pero:
• El aprendizaje es lento
• Pocos desarrollos en ambientes complejos con variables continuas
• No se pueden reutilizar pol´ıticas
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transfer en Aprendizaje por Refuerzo
• En Aprendizaje por Refuerzo (RL), TL se usa para usar conocimiento de una o m ´as tareas fuente para
aprender una o m ´as tareas objetivo
• Los pasos a seguir son:
• Dada una tarea objetivo, seleccionar la(s) tarea(s) fuente(s) de las cuales se va a transferir
• Aprender c ´omo se relacionan las tareas fuente y objetivo
• Transferir de forma efectiva conocimiento de la(s) fuente(s) a la(s) tarea(s) objetivo
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
M ´etricas de Desempe ˜ no
Se pueden usar diferentes m ´etricas para evaluar los beneficios de TL:
• Jumpstart: El desempe ˜no inicial de un agente en la tarea objetivo
• Desempe ˜no asint ´otico: El desempe ˜no final del agente en la tarea objetivo
• Recompensa total: La recompensa total acumulaa
• Raz ´on de transferencia: La divisi ´on entre la
recompensa total acumulada con y sin transferencia
• Tiempo para alcanzar el umbral: El tiempo requerido
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Efectos de TL en RL
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Selecci ´ on de Diferentes Fuentes
• ¿Qu ´e suposiciones se hacen en cuanto a las posibles diferencias entre el fuente y el objetivo?
• ¿C ´omo garantizar no transferir de tareas irrelevantes?
• ¿Se hace selecci ´on de diferentes fuentes?
• ¿Se hace un mapeo entre tareas? Est ´a dado o es autom ´atico? (Inter-task mapping
• ¿Se puede transferir informaci ´on cualitativa?
• En general, en la mayor´ıa de los algoritmos el mapeo lo da el usuario!
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Conocimiento a Transferir
• Puede ser conocimiento de bajo nivel, e.g., tuplas
<s, a, r , s0 >, funciones de valor (V , Q), la pol´ıtica (π), el modelo de transici ´on (p(s0| s, a))
• Pueden ser de m ´as alto nivel, e.g., qu ´e acciones usar en determinado momento, pol´ıticas parciales u opciones, distribuciones a priori, atributos relevantes para aprender, reward shaping, definici ´on de subtareas
• ¿Qu ´e algoritmos se pueden usar?
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Conocimiento a Transferir
• Se puede transferir entre tareas que tengan diferentes:
funciones de transici ´on (p(s0 | s, a)), espacio de estados (S), estados iniciales (s0), estados metas (sf), variables de estado (S), funciones de recompensa (R), conjuntos de acciones (A), ...
• Relacionado: Multi-Task Learning suponen que todos los problemas son de la misma distribuci ´on, e.g., aprender varios p ´endulos invertidos.
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Aplicaciones
Vamos a describir aplicaciones en donde:
• Transferimos (hiper-)par ´ametros
• Transferimos tuplas transformadas En un contexto de Procesos Gaussianos
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Procesos Gaussianos
• Distribuci ´on Gaussiana multivariada
p(x ; µ, Σ) = 1
(2π)n/2|Σ|1/2exp(−1
2(x − µ)TΣ−1(x − µ))
• Un proceso gaussiano es una generalizaci ´on a un n ´umero infinito de variables: GP(m(·), k (·, ·))
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Motivaci ´ on
Aunque parece peor trabajar con dimensionalidad infinita, lo que se calcula se hace en dimensiones finitas
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Procesos Gaussianos
• En particular, se debe cumplir que:
p " ~h h~∗
#
|X , X∗
!
∼ N
~0,
k (X , X ) k (X , X∗) k (X∗,X ) k (X∗,X∗)
• Para el ruido:
p ~
~
∗
∼ N ~0,
"
σ2I ~0
~0T σ2I
#!
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Procesos Gaussianos
• Suponemos que son independientes, por lo que su suma tambi ´en lo es:
~y y~∗
|X , X∗ =" ~h h~∗
# + ~
~
∗
∼
N
~0,
k (X , X ) + σ2I k (X , X∗) k (X∗,X ) k (X∗,X∗) + σ2I
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Procesos Gaussianos
• Usando las reglas de condicionamiento gaussianas, se sigue que:
~y∗|~y , X , X∗ ∼ N (µ∗, Σ∗) donde:
µ∗ =K (X∗,X )(K (X , X ) + σ2I)−1~y
Σ∗=K (X∗,X∗)+σ2I−K (X∗,X )(K (X , X )+σ2I)−1K (X , X∗)
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Kernel e Hiperpar ´ametros
k (x , x0) = α20exp(−1
2((x − x0 λ )2)
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
C ´alculo de los Hiperpar ´ametros
• Recordando la definici ´on de una distribuci ´on gaussiana multivariable:
p(x |µ, Σ) = 1
(2π)n/2|Σ|1/2exp(−1
2(x − µ)TΣ−1(x − µ))
• P(y |x , θ) sigue una distribuci ´on gaussiana multivariable con media cero y covarianza de K + σ2nI (si
consideramos ruido) logp(y |x , θ) = −1
2yT(K + σ2nI)−1y −1
2log|K + σn2I| −n 2log2π
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Hiperpar ´ametros
• Los hiperpar ´ametros nos determinan las posibles distribuciones
• Para obtener los hiperpar ´ametros podemos derivar con respecto a θ
• Se sigue un proceso basado en gradiente (es un problema de optimizaci ´on no-convexo), por ejemplo, basado en gradiente conjugado o quasi-Newton
• Se puede caer en m´ınimos locales
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
PILCO
• PILCO (Probabilistic Inference for Learning Control)
• xt =f (xt−i,ut−i)
• P(xt|xt−i,ut−i) = GP(m, k )
• PILCO usa diferencias como predictor: ∆t =xt − xt−i y un kernel exponencial cuadrado
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
PILCO
Interact with environment, apply π to obtain tuples REPEAT
Infer transition function distribution f from tuples and hyper-parameters θ REPEAT
Evaluate policy π over f Get Vπ
Improve π (Updating parameters ψ) UNTIL convergence
π ← π(ψ)
Interact with environment, apply π to obtain more tuples Learn θp from all tuples
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Motivaci ´ on
VIDEO DE PILCO
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
QTL
• La idea es transferir hiperpar ´ametros (sesgo sobre la distribuci ´on de posibles funciones de transici ´on)
• Hay que definir c ´omo hacer la transferencia
• Esta se hace de forma gradual:´
• Usando un factor de olvido
Θ0= Θs
Θi = γΘi−i+ (1 − γ)Θpi,i > 0
• Actualizaci ´on Bayesiana
p(Θpk) ∼ N (µp, σ2p) σk2= σ
2 pσk −i2 σ2p+σ2k +1
p(Θ | Θ ) ∼ N (µ , σ2) σ2 = 1
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transferir Tuplas
• Al transferir tuplas se tiene que definir cu ´ales
• Filtro de Lazaric:
• ¿De d ´onde transferir? La probabilidad de que la tarea origen genere muestras de la tarea destino (task compliance)
• ¿Cu ´ales transferir? Muestras muy relevantes o muy alejadas (relevance)
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
SST
S´ıntesis de Tuplas:
• Aprender una funci ´on de transici ´on en la tarea objetivo
• Aprender/usar la funci ´on de transici ´on de la tarea original
• Aprender una funci ´on de diferencias
• En espacios poco explorados, generar ejemplos artificiales usando los ejemplos de la tarea original y la funci ´on de diferencias
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
D ´ onde y Cu ´antas Tuplas
• En lugares desconocidos (alejados en < s, a >): Si ya tengo ejemplos, no necesito generar
• Generar hasta completar el n ´umero de ejemplos usados en la tarea original
• Mantener ese n ´umero fijo => ir reduciendo el n ´umero de ejemplos de la tarea original conforme se explora la tarea objetivo
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Proceso
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Proceso
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Proceso
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Proceso
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Experimentos
Probar en 3 dominios:
1 P ´endulo invertido (cl ´asico)
2 Auto en la monta ˜na (tranferencia negativa)
3 De cuadric ´optero a helic ´optero
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Experimentos QTL
Probar:
• Transferencia desde diferentes variantes
• Usar hiperpar ´ametros de la tarea original
• Usar la pol´ıtica de la tarea original
• Diferentes valores de γ (γ = 0 => PILCO)
• Enfoque Bayesiano
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Resultados
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Resultados
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Resultados
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Experimentos SST
• PILCO
• Transferir todas la tuplas
• Transferir usando un filtro simple
• Transferir usando el filtro de Lazaric
• Todas las tuples + SST
• Filtro simple + SST
• Filtro Lazaric + SST
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Resultados SST
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Resultados SST
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Resultados SST
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Helic ´ optero a Cuadr ´ optero
VIDEO
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transfer en Redes Bayesianas
• Las Redes Bayesianas han probado ser un formalismo adecuado para tratar informaci ´on con incertidumbre
• Para aprender una Red Bayesiana necesitamos determinar la estructura de la red y las tablas de dependencia condicional
• Con pocos datos lo que se aprende es poco confiable
• Vamos a ver un mecanimo de transferencia usando como base el algorithm PC
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transfer en Redes Bayesianas
• PC aprende un esqueleto (grafo no dirigido) y despu ´es determina la direcci ´on de las ligas
• Para determinar el esqueleto empieza con una red no dirigida completamente conectada y determina la independencia condicional de cada par de variables dados subconjuntos de variables
• TL en BNs: Algoritmo para aprendizaje de red
bayesiana incorporando informaci ´on de bases de datos auxiliares
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
TL en BN
• Extensi ´on del algoritmo PC, para el caso en donde tenemos pocos datos para la tarea objetivo y tenemos muchos datos de tareas fuentes
• Las diferencias con PC son en la forma en que se evaluan las pruebas de independencia
• Para cada par de variables X,Y la medida de independiencia es una combinaci ´on lineal de la
estimaci ´on de la tarea objetivo con la tarea del dominio auxiliar m ´as cercana
• La combinaci ´on lineal es pesada por factores que
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Algoritmo
Initialize a complete undirected graph G0, Set i = 0 repeat
for X ∈ X do
for Y ∈ ADJ(X ) do
for S ⊆ ADJ(X ) − {Y }, | S |= i do
Find the most similar auxiliary domain, k , and its similarity measure SkXY
Determine the confidence measures α(X , Y |S) for target and auxiliary domains
Obtain the combined independence measure IF(X , Y | S) if IF(X , Y | S)then
Remove the edge X − Y from G0 end if
end for end for end for
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
TL en BN
• La medida de entrop´ıa cruzada utilizada en PC depende del tama ˜no de la base de datos
• Se puede mostrar que el error de esta prueba es proporcionalmente asint ´otico a log N2N , donde N es el tama ˜no de la base de datos
• Para estimar la confianza en la prueba de independencia entre X y Y , dado S:
α(X , Y |S) = 1 −log N 2N × T
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Similitud entre Tareas
• Para medir la similaridad entre tareas se usa una medida de similaridad global y una local
• La medida global considera todas las medidas de independencia condicional I(X , Y | S)
SgDj =depj+indj
• depj = n ´umero de dependencias condicionales comunes entre la tarea objetivo y la tarea auxiliar j
• indj = n ´umero de independencias condicionales comunes entre todos los pares de variables en la tarea
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Similitud entre Tareas
• La medida local de similaridad es:
SlDj(X , Y ) =
1,0 If I0(X , Y |S) = IDj(X , Y |S) 0,5 If I0(X , Y |S) 6= IDj(X , Y |S) Donde:
• I0(X , Y |S) = resultado de la prueba de independencia en la tarea objetivo
• IDj(X , Y |S) = resultado de la prueba en la tarea auxiliar j
• Las constantes dan diferente peso a las estructuras auxiliares que tienen la misma o diferente estructura
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Similitud entre Tareas
• Se combinan estas dos medidas como:
SkXY∗ =SgDk× SlDk(X , Y )
• Y la medida combinada de independencia se calcula como una combinaci ´on lineal pesada de las medidas de independencia de las tareas objetivo y fuentes:
IF(X , Y |S) = α0(X , Y |S) × sgn(I0(X , Y |S))+
SkXY∗ αDXY(X , Y |S) × sgn(IDXY(X , Y |S))
• sgn(I) = +1 si la prueba de independencia es positiva y
−1 de otra forma
• α (X , Y |S) es la medida de confianza en el dominio
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Aprendizaje de Par ´ametros
• Combinar las CPTs (tablas de probabilidad condicional)
• Unificar variables:
• Mismas variables: f ´acil
• M ´as padres en las estructuras auxiliares: aplicar marginalizaci ´on (sumar sobre todos los valores de las variables extra)
• Menos padres en las estructuras auxiliares: duplicar los valores de las CPTs para todos los valores de las variables extra
• Una combinaci ´on de las 2 anteriores: primero marginalizar y luego duplicar
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Tablas de Probabilidad Condicional
Ya que se tienen las mismas variables existen varias formas de combinar los valores de las CPTs:
• Lineal:
P(X ) = k ×
n
X
i=1
wiPi(X )
Pi(X ) probabilidad condicional del i- ´esimo modelo, wi es el peso asociado esa probabilidad y k es un factor de normalizaci ´on
• Logar´ıtmica.
P(X ) = k ×
n
YPi(X )wi
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Distance Based Linear Pool
• Obten las probabilidades promedio de todas las BDs descontadas por su nivel de confianza (fi):
p = k
n
X
i=1
(fi × pi)
k es un factor de normalizaci ´on, y fi depende del tama ˜no de los datos
fi =
( 1 − log(cc f)
f if cf ≥ 3
1 − cf×log(3)3 if cf <3
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Distance Based Linear Pool
• Estima la nueva probabilidad condicional como:
p0target = (1 − ci)ptarget+cip
donde: ci expresa cuanto considerar de las CPT de otras redes
ci = (di− dmin) × cmax− cmin dmax− dmin
+cmin donde dmax y dmin es la distancia m ´axima y m´ınima de la probabilidad objetivo con respecto al promedio y cmax
y cmin indica que tan cerca queremos considerar la
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Local Linear Pool
• Usa s ´olo las m ´as parecidas a las locales y las pesa de acuerdo a su confianza
ptarget0 =ftarget× ptarget+ (1 − ftarget) ×plocal donde ftarget da el nivel de confianza en las CPTs (fi de antes) y
plocal = 1 n
n
X
i=1
pi ∀pi s.t. pi ∈ {ptarget± (ptarget− p)}
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Resultados cambiando la cantidad de
datos
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Resultados cambiando datos y n ´ umero de
fuentes
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
TL en Redes Bayesianas de Nodos Temporales
• Una red bayesiana de nodos temporales sirve para modelar procesos din ´amicos que est ´an caracterizados por cambios irreversibles
Dominio auxiliar
Dominio auxiliar
Dominio auxiliar
Dominio objetivo
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Esquema General
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Determinaci ´ on de Intervalos
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Resultados en HIV
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transferencia Usando ´ Aboles de Decisi ´ on
• Se tienen datos relacionados a estr ´es y sus modelos ( ´arboles) para varios personas
• Se tiene un usuario nuevo, con pocos datos, y se quiere dar una estimaci ´on aceptable de su nivel de estr ´es
• Idea: Transferir datos/modelos de otros usuarios para mejorar la predicci ´on del nuevo
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Transferencia Usando ´ Aboles de Decisi ´ on
Se probaron 4 esquemas de transferencia:
1 Na¨ıve: Encuentra el modelo m ´as parecido, transfiere los datos (los junta con los del nuevo usuario) e induce un nuevo ´arbol
2 Umbral: Encuentra los modelos m ´as parecidos (arriba de cierto umbral), transfiere los datos de los usuarios parecidos e induce un nuevo ´arbol
3 Muestreo: Encuentra los k modelos m ´as parecidos y muestrea sus datos proporcionalmente a su medida de similaridad
4 Ensamble: Usa los k modelos m ´as parecidos, junto con
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Medidad de Similaridad entre ´ Arboles
• Sean Di y Dj dos ´arboles con H y K hojas que clasifican n ejemplos.
• Formamos la matriz:
M = [mhk], h = 1, . . . , H y k = 1, . . . , K donde mhk es el n ´umero de ejemplos que pertenencen a la h- ´esima hoja de Di y a la k - ´esima hoja de Dj ymh0=PK
k =1mhk, m0k =PH
h=1mhk.
• La medida se disimilatidad se define como:
d (Di,Dj) =
H
X
h=1
αh(1 − sh)mh0
n +
K
X
k =1
αk(1 − sk)m0k n
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Medidad de Similaridad entre ´ Arboles
• shk mide la similaridad entre hojas tomando en cuenta las clases y ejemplos:
shk = mhkchk
√mh0m0k k = 1, . . . , K
donde chk =1 si la h- ´esima hoja de Di tiene la misma clase que la k - ´esima hoja de Dj, y chk =0 si no.
• sh=m ´ax{shk, k = 1, . . . , K }
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Medidad de Similaridad entre ´ Arboles
• αh =q − p + 1 mide la disimilaridad entre hojas, dependiendo de la longitud de los caminos diferentes (p), y la profundidad en donde difieren (q)
• El valor m ´aximo de d (Di,Dj)se alcanza cuando la diferencia entre los ´arboles es m ´axima y su similaridad de predicci ´on es cero
• El factor de normalizaci ´on es:
m ´ax d (Di,Dj) =
H
X
h=1
αhmh0
n +
K
X
k =1
αkm0k n
donde αhes la longitud del nodo ra´ız a la h- ´esima hoja
• La medida de disimilaridad normalizada es entonces:
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Resultados
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Algunas T ´ecnicas Relacionadas
• Lifelong learning
• Imitation learing
• Human advice
• Shaping
• Concept Drift
Introducci ´on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en Arboles de´ Descisi ´on Temas relacionados y preguntas abiertas
Preguntas Abiertas
• Si se tiene un modelo de una tarea fuente, ¿c ´omo modificarlo para la tarea objetivo?
• ¿Se pueden modificar las tareas fuentes autom ´aticamente para mejorar el aprendizaje?
• ¿Se pueden tomar ideas de theoryrevision/refinement para hacer un mapeo entre tareas?
• ¿La transferencia se podr´ıa utilizar para mejorar el mecanismo de exploraci ´on del agente en la tarea objetivo?
• Transferencia negativa: No hay trabajo que defina de