Aprendizaje por Refuerzo

(1)

Tratamiento Inteligente de la Informaci´ on y Aplicaciones

Juan A. Bot´ıa Blaya

Departamento de Ingenier´ıa de la Informaci´ on y las Comunicaciones Universidad de Murcia

November 24, 2009

(2)

1 Introducci´ on

2 Ejemplo

3 Pol´ıticas, funciones valor y acciones

4 Cr´ıtico heur´ıstico adaptativo

5 Aprendizaje Q

6 Aprendizaje Q para sistemas difusos

(3)

Aprendizaje por Refuerzo Introducci´on

M´ etodos de aprendizaje

Dependiendo de la informaci´ on utilizada para el aprendizaje

1

Un profesor directo: que proporciona, en cada instante de tiempo, la acci´ on de control correcta a ser aplicada por el aprendedor

2

Un profesor indirecto: que sin proporcionar las acciones correctas, suministra los efectos deseados del proceso

3

Una medida de rendimiento: indica la calidad del aprendedor en un conjunto de estados (i.e. como en la medida de adaptaci´ on de un individuo en una poblaci´ on de algoritmo evolutivo)

4

Un cr´ıtico: que asigna recompensas y castigos con respecto a los

estados alcanzados por el aprendedor, pero no proporcionar acciones

correctas ni trayectorias a seguir.

(4)

Problemas de decisi´ on de Markov (MDP)

Un proceso de decisi´ on de Markov es un proceso estoc´ astico que viene caracterizado por cinco elementos:

1

pasos para la decisi´ on

2

estados

3

acciones

4

probabilidades de transici´ on y

5

recompensas

(5)

Problemas de decisi´ on de Markov (MDP) y II

En algunos casos, es posible encontrar un agente encargado de controlar el camino de decisi´ on tomado en el proceso probabil´ıstico En cada paso el sistema se encuentra en un estado de toma de decisiones

como resultado de la ejecuci´ on de una acci´ on en un estado determinado, el agente decisor recibe una recompensa Tras esto, el sistema pasa al estado siguiente con una cierta probabilidad

Una regla de decisi´ on es una funci´ on usada para seleccionar, en cada estado, una acci´ on.

Una pol´ıtica es un conjunto de esas reglas de decisi´ on sobre el espacio

de estados

(6)

Prob. de decisi´ on de Markov (MDP) (y II)

Sea MDP = {X

n

: n ∈ N , X

n

∈ X } un proceso de decisi´ on de Markov

I

X

n

es el estado en la fase de decisi´ on n−´ esima

I

N los enteros naturales

Sea el paso n, donde X

n

= i ∈ X , la acci´ on escogida es a

n

∈ A

i

, siendo A

i

el conjunto de acciones que pueden tomarse en el estado i y S

A_i

= A. el conjunto de acciones posibles Dada a ∈ A, lleva asociada una matriz de transiciones a estados P(a) de la cadena de Markov MDP, en donde P(x

_j

|x

_i

, a) es la probabilidad de mover desde el estado i al j ejecutando la acci´ on a

Definimos tambi´ en una funci´ on de recompensa r : X × A → <,

en donde r (i , a) es la recompensa esperada al ejecutar la acci´ on a en el estado i

Asumimos: (a) r s acotadas superior e inferiormente, (b) probabilidades de la matriz de

transiciones estacionarias y (c) espacio de estados finito.

(7)

Estructura de un aprendedor por refuerzo

(8)

El entorno

La informaci´ on que el sistema conoce sobre el entorno, en un instante t se puede representar en un vector de contexto x t (vector de

descripci´ on del estado)

La decisi´ on acerca de qu´ e acci´ on se ha de ejecutar se tomar´ a en base a este vector

I

si no incluye toda la informaci´ on importante para el modelado, la calidad del aprendizaje se ver´ a afectada

P(x _j |x _i , a) ser´ a cero en la mayor´ıa de estados y para la mayor´ıa de acciones

Si las P(x _j |x _i , a) se conocen, entonces disponemos de un modelo del mundo.

Si no

1

Podemos aprenderlo

2

Podemos prescindir de ´ el

(9)

Resultados de ejecuci´ on de acciones

Los resultados (i.e. recompensas) son valores escalares r (x

i

, x

j

), recibidas por el sistema a ra´ız de la transici´ on de un estado a otro

En el caso general, las recompensas pueden generarse apartir de una distribuci´ on de probabilidad

En sistemas de aprendizaje por refuerzo simples, la acci´ on m´ as deseable es aquella que proporciona la recompensa inmediata m´ as alta

I

el resultado que se va a alcanzar en cada instante es conocido pero la acci´ on para ello no est´ a clara

I

Ejemplo: mover la garra de un brazo de robot

En el caso general se maximiza la suma esperada de recompensas descontadas recibidas (retorno)

E (

_∞

X

t=0

γ

^t

r

t

)

I

r

t

la recompensa recibida en la transici´ on del estado x

t

al x

t+1

en el instante t

I

La constante 0 ≤ γ ≤ 1 se denomina factor de descuento y asegura que la suma de

recompensas es finita t (r (x

t

, x

t+1

))

(10)

Importancia de las recompensas

Las recompensas definen

I

el problema a resolver y

I

las restricciones impuestas a la pol´ıtica de control que usa el sistema aprendedor

si no se da una buena recompensa a una acci´ on considerada como buena o una mala recompensa a una acci´ on considerada como mala

I

el sistema aprendedor puede no satisfacer los requerimientos del dise˜ nador

la tarea debe estar totalmente descrita mediante la funci´ on de

recompensa

(11)

Aprendizaje por Refuerzo Ejemplo

Ejemplo: el robot reciclador

Robot m´ ovil que recolecta latas vac´ıas de bebidas, en un entorno de oficina.

I

Tiene sensores para detectar las latas

I

mediante una garra puede recogerlas y colocarlas en un dep´ osito de abordo

I

se alimenta con una bater´ıa recargable En cada momento, el robot debe decidir si

1

busca una lata activamente,

2

permanece estacionario y espera a que alguien le lleve una lata o

3

vuelve a la estaci´ on base a recargar su bater´ıa.

(12)

Ejemplo: el robot reciclador (y II)

Entorno:

I

la mejor forma de encontrar latas es buscarlas activamente (bater´ıa sufre descarga r´ apidamente)

I

la espera no descarga la bater´ıa

I

Si se descarga el robot debe apagarse y esperar a ser rescatado,

produci´ endose as´ı una recompensa baja.

(13)

Ejemplo: decisiones

Dependen ´ unicamente del nivel de energ´ıa de su bater´ıa

Consideraremos ´ unicamente dos niveles de energ´ıa, alto y bajo: cjto. de estados es S = {alto, bajo}

Cjto. acciones/estado es A(alto) = {busca, espera} y A(bajo) = {busca, espera, recarga}

b´ usqueda que comienza con un nivel alto permanece alto con una probabilidad α y cambia a bajo con una probabilidad 1 − α

b´ usqueda realizada con nivel bajo mantiene la bater´ıa al mismo nivel con una probabilidad β y la agota con una probabilidad 1 − β

Cada lata recolectada resulta en una recompensa de una unidad rescatar al robot genera un refuerzo de -3

Sean R

^search

y R

^wait

, se tendr´ a que R

^search

> R

^wait

no puede recolectar latas mientras que se vuelve a recargar la bater´ıa y tampoco cuando

la bater´ıa est´ a agotada

(14)

Probs de transici´ on entre estados

s s ⁰ a P _ss ^a

0

R ^a _ss

0

alto alto busca α R ^search

alto bajo busca 1 − α R ^search

bajo alto busca 1 − β -3

bajo bajo busca β R ^search

alto alto espera 1 R ^wait

alto bajo espera 0 R ^wait

bajo alto espera 0 R ^wait

bajo bajo espera 1 R ^wait

bajo alto recarga 1 0

bajo bajo recarga 0 0

(15)

MDP

(16)

Pol´ıticas y funciones valor

La pol´ıtica es el conjunto de decisiones sobre acciones hechas por el sistema, π No tiene que ser determinista, pudi´ endose definir mediante una distribuci´ on de probabilidad

Un sistema aprendedor por refuerzo busca encontrar la pol´ıtica que maximize la recompensa obtenida para todos los estados del entorno x ∈ X alcanzados

una funci´ on valor V

^π

(x ) encargada de predecir el retorno obtenido para cada estado, puede definirse para una pol´ıtica π como

V

^π

(x

t

) = E (

_∞

X

k=t

γ

^k−t

r

_k

)

. (1)

La pol´ıtica π

^∗

para la cual V

^π^∗

(x ) ≥ V

^π

(x ) para todo x ∈ X se denomina pol´ıtica ´ optima

encontrar π

^∗

es el objetivo m´ as ambicioso de todo sistema de aprendizaje por refuerzo

(17)

Pol´ıticas, funciones valor y acciones

Refuerzo mediante programaci´ on din´ amica

Podemos rescribir la ecuaci´ on anterior en t´ erminos de las predicciones de la funci´ on valor sobre estados que pueden alcanzarse mediante transiciones al siguiente estado as´ı:

V ^π (x _i ) = X

x

j

∈X

P(x _j |x _i , a)[r (x _i , x _j ) + γV ^π (x _j )] (2)

Esta expresi´ on es la clave del aprendizaje por refuerzo ya que nos va a

permitir aproximar la funci´ on valor para una pol´ıtica cualquiera π, de

manera iterativa.

(18)

Ecuaci´ on de Optimalidad de Bellman

Enunciado: una funci´ on valor es optimal para cada estado x _i ∈ X si y solo si se tiene que

V ^π

^∗

(x i ) = max

a∈A

X

x

j

∈X

P(x j |x _i , a)[r (x i , x j ) + γV ^π

^∗

(x j )]

Consid´ erese el caso en el que conocemos las probabilidades P(x _j |x _i , a) para todo estado x _i , x _j y acci´ on a ∈ A

I

Podemos determinar la funci´ on valor ´ optima, totalmente off-line, mediante

V (x

_i

) ← max

a∈A

X

x_j∈X

P(x

_j

|x

i

, a)[r (x

_i

, x

_j

) + γV (x

_j

)]

I

Se exige que la ecuaci´ on se aplique en cada estado x

_i

∈ X y que

I

Cada estado debe visitarse un n´ umero suficiente de veces para asegurar

convergencia

(19)

La pol´ıtica ´ optima

Obs´ ervese que la pol´ıtica ´ optima se encuentra apartir de la funci´ on valor

se hace mediante las acciones a que maximizan la ecuaci´ on anterior para cada estado x _i

Estas acciones, as´ı escogidas, se denominan greedy y la pol´ıtica que lleva a escogerlas, pol´ıtica greedy

la pol´ıtica ´ optima π ^∗ puede corresponderse con la pol´ıtica greedy dada una funci´ on valor que se haya calculado en un instante determinado sin necesariamente haber llegado a la funci´ on valor ´ optima

I

las acciones que actualmente tienen predicciones del mayor retorno podr´ıan ser

´

optimas aun siendo no ´ optimas las predicciones

No hay forma de saberlo

(20)

La pol´ıtica ´ optima (y II)

La regla de actualizaci´ on anterior puede aplicarse a los estados en cualquier orden con convergencia garantizada siempre que todos los estados se visiten repetidas veces

Los m´ etodos basados en PD pueden ser muy costosos

computacionalmente: informaci´ on puede necesitar muchas pasadas para propagarse hacia atr´ as en situaciones que requieren secuencias de estados muy largas hasta alcanzar estados finales.

Soluci´ on: PD en tiempo real

I

las ´ unicas regiones (i.e. grupos de estados) sobre las que se aprende son aquellas formadas por estados visitados realmente por el sistema durante su funcionamiento normal

I

los estados a actualizar se seleccionan mediante la ejecuci´ on de ensayos (i.e. trials)

I

el sistema realiza una actualizaci´ on en el estado x

t

y luego ejecuta la acci´ on greedy

para llegar al estado x

t+1

(21)

Mecanismos de selecci´ on de acciones

Sea Q ∗ (a) el valor ´optimo de retorno obtenido por la acci´on a Sea el valor estimado en el instante t, Q_t(a)

la regla de selección más simple es la greedy, aquella que Qt(a^∗) = maxaQt(a) I explota siempre el conocimiento actual que se tiene sobre la función valor I no emplea ningún tiempo extra en muestrear acciones aparentemente inferiores

Alternativa -greedy

I el algoritmo se comporte de manera greedy la mayor parte del tiempo

I con una probabilidad peque˜na , seleccionar una acci´on aleatoriamente, con probabilidad uniforme I Ventajas: efectiva y sencilla de implementar

I Desventaja: escoge con igual probabilidad entre todas las acciones

Alternativa softmax

I las acciones se colocan en un ranking deacuerdo con sus valores de retorno I Distribuci´on de Boltzman

e^{Qt (a)/τ} n P b=1

e^{Qt (b)/τ}

(22)

Aprendizaje sin un modelo del mundo inicial

En el caso de que no tengamos un modelo del mundo disponible a priori, tenemos entonces dos opciones:

Aprender un modelo apartir de la experiencia, Usar m´ etodos que no requieren de ese modelo.

En ambos casos se debe explorar

Para aprender un modelo del mundo, el sistema debe intentar diferentes acciones en cada estado para construir as´ı una imagen de las transiciones entre estados que pueden darse

Aunque no se aprenda el modelo, el sistema aprendedor debe explorar para

actualizar su funci´ on valor de manera satisfactoria

(23)

Aprendizaje de un modelo del mundo

Podemos aprender un modelo apartir de realizar ensayos en el entorno

I

off-line: identificaci´ on de sistemas cl´ asica

I

de manera simult´ anea mientras aprendemos tambi´ en la funci´ on valor Una vez aproximado el modelo puede usarse para realizar

actualizaciones de la funci´ on valor completamente off-line

El m´ etodo b´ asico de aprendizaje en entornos Markovianos se hace mediante la expresi´ on

P(x j |x _i , a) = n(x _i , a, x _j )

n(x i , a)

(24)

Alternativas al aprendizaje de un modelo

Para este tipo de enfoque existen dos m´ etodos principalmente:

Critico heur´ıstico adaptativo: son m´ etodos que mantienen una estrategia de aprendizaje separada para la pol´ıtica actual y la funci´ on valor y

Aprendizaje Q: m´ etodos que aprenden una funci´ on valor que, a su vez, lleva definida impl´ıcitamente la pol´ıtica.

Las actualizaciones de la funci´ on valor se han de basar estrictamente en la experiencia del sistema en el entorno, de manera on-line

en cada visita a un estado, solamente puede ejecutarse una acci´ on

Se trata de maximizar la utilidad de la informaci´ on extraida de la experimentaci´ on para

minimizar as´ı el n´ umero de trials

(25)

Aprendizaje por Refuerzo Cr´ıtico heur´ıstico adaptativo

Critico heur´ıstico adaptativo (CHA)

Estrategia basada en PD denominada de iteraci´ on sobre la pol´ıtica Funciones V y pol´ıticas se aprenden iterativamente repitiendo constantemente los dos pasos siguientes:

1

Aprender una funci´ on valor usando una pol´ıtica fija y

2

Aprender la pol´ıtica greedy con respecto a la actual funci´ on valor mantenida fija.

Se seleccionan acciones mediante una distribuci´ on de probabilidad usada por el actor

Se modifica la distribuci´ on mencionada con refuerzo generado por el

cr´ıtico

(26)

CHA (II)

V se aprende mediante una actualizaci´ on incremental de sus valores seg´ un la expresi´ on

V (x t ) ← V (x t ) + α[r t + γV (x t+1 ) − V (x t )],

El valor V (x t ) solamente puede actualizarse ejecutando una acci´ on y llegando tras esto al estado x t+1 (aqu´ı ya se sabe qu´ e V (x t+1 ) utilizar)

Como la pol´ıtica queda fijada la transici´ on a los posibles estados x _j

reflejar´ an las probabilidades P(x _j |xi , a) y la predicci´ on esperada

E {V (x i )} tendr´ a que converger.

(27)

Aprendizaje por Refuerzo Cr´ıtico heur´ıstico adaptativo

CHA (III)

La pol´ıtica se actualiza mediante una cr´ıtica

La cr´ıtica refleja el error entre predicciones consecutivas de V

t = r t + γV (x t+1 ) − V (x t ) La manera exacta de utilizar depende del actor

I

En el caso de tener un conjunto de acciones discretas para cada estado

I

Sea W (x

t

, a

t

) el peso que la acci´ on a

t

tiene con respecto al resto de acciones que pueden ejecutarse en el estado x

t

W (x

t

, a

t

) ← W (x

t

, a

t

) +

t

.

(28)

Aprendizaje Q

Con el aprendizaje Q, usamos una funci´ on nueva que tiene en cuenta tambi´ en las acciones y que puede usarse igual que V

Se trabaja al mismo tiempo con el aprendizaje de la pol´ıtica y del retorno esperado a largo plazo

Definimos la funci´ on Q como Q ^π (x _i , a) = X

x

j

∈X

P(x _j |x _i , a)[r (x _i , x _j ) + γV ^π (x _j )]

La equivalencia entre Q y V viene dada por V ^π (x ) = max

a∈A Q ^π (x , a)

(29)

Aprendizaje por Refuerzo Aprendizaje Q

Q, actualizaci´ on de valores

Q puede aprenderse aun cuando las probabilidades de transici´ on entre estados no son conocidas

La actualizaci´ on se hace mediante

Q(x

t

, a) ← Q(x

t

, a) + α[r

t

+ γV (x

t+1

) − Q(x

t

, a)]

Si aplicamos la equivalencia anterior

Q(x

t

, a) ← Q(x

t

, a) + α[r

t

+ γ max

a∈A

Q(x

t+1

, a) − Q(x

t

, a)].

Una vez aprendida la funci´ on Q, la pol´ıtica se puede determinar f´ acilmente si en cada estado x

i

se escoje la acci´ on con mayor valor para la funci´ on Q

Mientras se est´ a realizando el aprendizaje, las predicciones de Q no van a ser precisas del todo

I

la pol´ıtica greedy no resulta apropiada

I

Compromiso exploraci´ on/explotaci´ on

(30)

Predicci´ on mediante diferencias temporales

Para Sutton hay dos tipos de problemas de predicci´ on

1

aquellos que se realizan en un solo paso

F

toda la informaci´ on sobre lo correcta que resulta cada predicci´ on se revela en el instante

2

los que se realizan en varios pasos

F

no se revela hasta m´ as de un paso despu´ es de haber hecho la predicci´ on, revel´ andose, eso si, informaci´ on parcial acerca de la exactitud de cada predicci´ on en cada paso

En un problema de predicci´ on de varios pasos la experiencia viene dada en forma de secuencias observaci´ on-salida en la forma x

1

, x

2

, . . . , x

m

, z

Para cada secuencia, el aprendedor va a producir una secuencia de predicciones P

1

, P

2

, . . . , P

m

, cada una de las cuales es una estimaci´ on de z

Gen´ ericamente, las predicciones se realizan mediante una funci´ on param´ etrica, de

par´ ametros w , por lo tanto P(x

t

, w ).

(31)

Formulaci´ on del problema

Cualquier procedimiento de aprendizaje se va a basar en la actualizaci´on de los valores de w Asumimos que w se actualiza una vez por cada par salida-secuencia de observaciones Para cada secuencia, se calcula ∆wt, y se actualiza w

w ← w + m X t=1

∆w_t. (3)

Desde la ´optica del enfoque supervisado, cada secuencia de observaciones y su salida se transforman en pares observaci´on-salida, esto es (x₁, z), (x₂, z), . . . , (xm, z)

I La regla protot´ıpica de actualizaci´on de los pesos es

∆wt= α(z − Pt)∆wPt, (4)

siendo α el ratio de aprendizaje

(32)

Diferencias temporales

Sea una secuencia de predicciones Pt, P_t+1, . . . , sobre el valor que va a tener una variable aleatoria r_T en un instante futuro T

Una vez que se conoce r_T, las P_tpara todo t < T se pueden mejorar mediante

∆P_t= α(r_T− P_t), (5)

siendo, como siempre, α el ratio de aprendizaje Y podemos expandirla as´ı

∆Pt = α[(P_t+1− P_t) + (P_t+2− P_t+1) + · · · + (P_{T −1}− P_{T −2}) + (r_T− P_{T −1})]

= α

T −1 P k=t

(P_k+1− P_k)

en donde r_T= P_T

I Interpretaci´on: en cada instante t, cada predicci´on P_ksiendo k ≥ t se puede actualizar haciendo uso del error TD (Temporal Differences) actual (P_t+1− P_t)) (se hace innecesario esperar hasta T )

(33)

Actualizaci´ on de los ∆w _t mediante TD

Vamos a obtener una expresi´on para el aprendizaje de los w_tmedinate los (P_t+1− P_t)

Por la transparencia anterior sabemos que z − Pt= m P k=t

(P_k+1− P_k), siendo P_m+1^def= z.

Si combinamos las ecuaciones 3 y 4 tenemos

w ← w + m P t=1

α(z − Pt)∆wPt = w + m P t=1 α

m P k=t

(P_k+1− P_k)∆wPt

= w +

m P k=1 α

k P t=1

(P_k+1− P_k)∆wPt

= w +P^m t=1

α(P_t+1− P_t)P^t k=1

∆_wP_k

Con lo que al final, la cantidad con la que actualizar w_tqueda

∆wt= α(P_t+1− P_t) t X k=1

∆wP_k

(34)

TD(λ)

Dependiendo de la importancia que se d´ e a los errores TD futuros para actualizar las predicciones actuales, tenemos una familia completa de algoritmos TD(λ)

0 ≤ λ ≤ 1 es el par´ ametro que pondera esa importancia, mediante

∆w

t

= α(P

t+1

− P

t

)

t

X

k=1

λ

^t−k

∆

w

P

k

Si λ = 1, es equivalente al procedimiento anterior

Si λ = 0, cada actualizaci´ on ∆P

t

se basa solamente en el error TD del siguiente instante (P

t+1

− P

t

)

Para valores de λ < 1, las actualizaciones son diferentes a las de procedimientos de

aprendizaje supervisado

(35)

El algoritmo SARSA

Los métodos de aprendizaje basados en diferencias temporales pueden también emplearse para control (i.e. para aproximar una función acción-valor)

Tenemos que estimar Q^π(s, a) para la pol´ıtica π actual y para todos los estados s y acciones a Un episodio consiste en una secuencia alternativa de estados y pares estado-acci´on

La regla de actualizaci´on ser´a:

Q(st, at) ← Q(st, at) + α[r_t+1+ γQ(s_t+1, a_t+1) − Q(st, at)].

I

La actualizaci´ on se har´ a despu´ es de cada transici´ on desde un estado no terminal s

t

I

Si s

t+1

es terminal, entonces Q(s

t+1

, a

t+1

) se define como cero

I

Esta regla usa cada elemento de la qu´ıntupla (s

t

, a

t

, r

t+1

, s

t+1

, a

t+1

), de

ah´ı el nombre de SARSA

(36)

SARSA

Inicializar Q(s, a) arbitrariamente Repetir para cada episodio

I

Inicializar s

I

Escoger a desde s usando una pol´ ıtica derivada de Q (e.g. -greedy)

I

Repetir para cada paso del episodio

F

Ejecutar acci´ on a y observar estado s

⁰

F

Escoger a

⁰

desde s

⁰

usando una pol´ ıtica derivada de Q (e.g. -greedy)

F

Q(s, a) ← Q(s, a) + α[r + γQ(s

⁰

, a

⁰

) − Q(s, a)]

F

s ← s

⁰

; a ← a

⁰

I

Hasta que s es terminal

(37)

Elegibilidades

Las eligibilidades son un mecanismo para acelerar la convergencia a una funci´ on valor aceptable (λ > 0).

Consiste en una variable adicional asociada a cada estado, denominada traza de elegibilidad.

I

Para un estado s, su traza de elegibilidad en un instante t se va a denotar como e

_t

(s) ∈ <

I

Su actualizaci´ on es la siguiente, en un instante t:

e

_t

(s) =

γλe

t−1

(s) si s 6= s

t

γλe

t−1

(s) + 1 si s = s

t

para todo s ∈ S siendo γ el factor de descuento y λ el par´ ametro

correspondiente a la familia de algoritmos TD

(38)

Evoluci´ on de elegibilidades para s

Cada paso, la traza de elegibilidad de cada estado va a decaer por el factor γλ

Las trazas indican qu´ e estados

son elegibles para aplicar los cambios correspondientes a la funci´ on valor

(39)

SARSA(λ)

Tambi´ en pueden aplicarse a control, como en el algoritmo SARSA Vamos a necesitar una traza de elegibilidad para cada par

estado-acci´ on

la expresi´ on de actualizaci´ on de la funci´ on Q es la siguiente:

Q _t+1 (s, a) = Q _t (s, a) + αδ _t e _t (s, a), para todo par s, a en donde

δ _t = r _t+1 + γQ _t (s _t+1 , a _t+1 ) − Q _t (s, a) y

e _t (s, a) =

γλe _t−1 (s, a) si s 6= s _t o a 6= a _t

γλe _t−1 (s, a) + 1 si s = s _t y a = a _t

(40)

SARSA(λ), Algoritmo

Inicializar Q(s, a) arbitrariamente y e(s, a) = 0 para todo s, a Repetir para cada episodio

Inicializar s, a

Repetir para cada paso del episodio

I Ejecutar acci´on a y observar estado r y s⁰

I Escoger a⁰desde s⁰ usando una pol´ıtica derivada de Q (e.g. -greedy) I δ ← r + γQ(s⁰, a⁰) − Q(s, a)

I e(s, a) ← e(s, a) + 1 I Para todo s, a

F Q(s, a) ← Q(s, a) + αδe(s, a) F e(s, a) ← γλe(s, a) I s ← s⁰, a ← a⁰ Hasta que s es terminal

(41)

Representaci´ on de funciones V y Q

¿c´ omo almacenar la informaci´ on que se obtiene de la interacci´ on con el entorno?

El sistema ideal debe

I

preservar toda la informaci´ on ´ util aprendida

I

generalizarla en otros estados para disminuir en la medida de lo posible el tiempo de aprendizaje

I

Compromiso almacenaje-generalizaci´ on

Aprendizaje supervisado vs. refuerzo

I

Supervisado: conjunto de entrenamiento fijo y creado de antemano, presentado de manera repetida

I

Refuerzo: datos se generan de manera continua a medida que se

experimenta con el entorno (incluso una ´ unica vez); estados no

visitadas muy frecuentemente pueden olvidarse

(42)

Aproximador de funciones V y Q

Los siguientes son requerimientos que debe satisfacer un aproximador de funciones para ser adecuado en sistemas de aprendizaje por refuerzo que operan en entornos con un n´ umero elevado de dimensines:

I

Un algoritmo de aprendizaje que sea capaz de aprender on-line de ejemplos de entrenamiento individuales (debe prescindir del lote de ejemplares prefijado de antemano)

I

Capacidad para proporcionar salidas continuas ante entradas continuas,

I

Capacidad de generalizaci´ on para permitir convergencia r´ apida en predicciones para todos los puntos de espacios de estados continuos.

Ejemplo: optimizaci´ on de pesos de los arcos de un MLP mediante gradiente descendente.

(43)

M´ etodos de aproximaci´ on tabulares

Es posible usar simples tablas en donde almacenar simplemente todos los valores de la funci´ on Q para cada estado y acci´ on

El entorno debe transformarse en estados discretos, tal y como se exige en la formulacei´ on de entornos Markovianos

Desventajas

I

necesidad de un enorme espacio en memoria para representar el retorno correspondiente a todos los estados junto con sus acciones

I

en una tabla no hay generalizaci´ on posible y la convergencia hacia

aproximaciones aceptables puede resultar considerablemente lenta

(44)

M´ etodos de aproximaci´ on tabulares

En el caso de espacios de estados continuos

particionamos el espacio de estados en regiones separadas y asociamos cada bloque de estados continuos con una entrada en la tabla

El ´ exito de la generalizaci´ on impl´ıcita al colapsar varios estados en

una entrada de la tabla depende de c´ omo de bien puede representarse

la funci´ on aprendida con un espacio de estados continuo discretizado

(45)

Representaci´ on mediante redes neuronales

Algoritmo TD(λ)

Sea z las salidas, en forma de predicciones del algoritmoTD(λ) bien en forma de escalares bien en forma de vectores.

Sea y

_i^t

la salida, en el instante t del nodo de salida i -´ esimo del perceptr´ on multicapa Sea O el conjunto de ´ındices para los nodos de salida de la red

Siendo, k ∈ O, y

_k^t

se denota alternativamente como P

_k^t

para hacer ´ enfasis en que es una predicci´ on

Para todo k ∈ O, z

k

es la componente del vector de salida correspondiente al nodo de salida k

z

k

se predice mediante cada P

_k^t

, t = 1, . . . , m, en donde m es el n´ umero de ejemplos en el conjunto de entrenamiento.

Por definici´ on, tenemos que P

_k^m+1

= z

_k

.

(46)

M´ as notaci´ on

Sea w

i

ij

^t

el peso, en el instante t del arco que va desde el nodo i al j Sea FO

j

el fan-out de la unidad j y sea FI

j

el fan-in del nodo j

Los nodos con ´ındices en el conjunto FI

j

contribuyen a la suma ponderada s

_j^t

en la unidad j mediante la expresi´ on

s

_j^t

= X

i ∈FI_j

w

_ij^t

y

_i^t

La salida final del nodo j -´ esimo se obtiene mediante una sigmoide tal que as´ı:

y

_j^t

= f (s

_j^t

) = 1 1 + e

^−s^j^t

Debemos distinguir dos casos de implementaci´ on, cuando λ = 0 y cuando λ > 0

(47)

Implementaci´ on para el caso TD(0)

La funci´ on de error viene dada por sucesivas diferencias en las predicciones temporales

E ^t = X

k∈O

(P _k ^t+1 − P _k ^t ) ²

Para componer la regla de actualizaci´ on de los pesos, solo hemos de

tener en cuenta los pesos de la red para la predicci´ on P _k ^t y no los de

la predicci´ on en el instante siguiente, P _k ^t+1 .

(48)

Implementaci´ on para el caso TD(0)

La regla es

w

_ij^t+1

= w

_ij^t

− α P

k∈O

„

∂E^t

∂P_k^t

∂w_ij^t

«

= w

_ij^t

− α

^∂E^t

∂P_j^t

∂P^t_j

∂w_ij^t

= w

_ij^t

− α

^∂E^t

∂s_j^t

∂w_ij^t

= w

_ij^t

+ αδ

_j^t

y

_i^t

, en donde δ

_j^t

se calcula haciendo uso de la expresi´ on

δ

^t_i

= − ∂E

^t

∂s

_i^t

= 8

<

:

(P

_i^t+1

− P

_i^t

)y

_i^t

(1 − y

_i^t

), i ∈ O P

j ∈FO_i

−

^∂E^t

δs^t_j

∂s_j^t

∂y_i^t

∂s_i^t

= P

j ∈FO_i

δ

_j^t

w

_ij^t

y

_i^t

(1 − y

_i^t

) sino

(49)

Implementaci´ on para el caso λ > 0

El algoritmo para el caso TD(0) es bastante similar al backpropagation convencional

El caso genérico para TD(λ) es ligeramente diferente ya que el proceso de retropropagación del error producirá una eligibilidad para cada parámetro a optimizar (i.e. peso)

Cuando se calcula una diferencia temporal, se propaga a todos los pesos y esa propagaci´on se ha de combinar con las elegibilidades.

La regla de actualizaci´on de pesos es ahora

w_ij^t+1= w_ij^t+ αX k∈O

(P^t+1_k − P_k^t)e^t_ijk,

en donde e^t_ijkes la elegibilidad k-´esima en el instante t para el peso del arco desde el nodo i al nodo j

I Para el cálculo de e^t_ijkse obtiene la suma desde el primer instante, hasta el actual t de cada término ∂Pⁿ_k/∂w_ijⁿ que es, en definitiva, la variación de la predicción en el instante t para el nodo de salida k, con respecto al arco del cual se calcula la misma.

(50)

Implementaci´ on para el caso λ > 0 (II)

De manera iterativa, las eligibilidades se calculan usando las expresiones

e

_ijk^t+1

= λe

^t_ijk

+

^∂P

t+1 k

∂w_ij^t+1

= λe

^t_ijk

+

^∂P

t+1 k

∂s_j^t+1

∂s^t+1_j

∂w_ij^t+1

= λe

^t_ijk

+ δ

^t+1_kj

y

_i^t+1

,

en donde δ

_kj^t+1

= ∂P

_k^t+1

/∂s

_j^t+1

se calcula mediante un procedimiento recursivo que propaga el error hacia atr´ as como sigue

δ

^t_ki

= ∂P

_k^t

∂s

_i^t

= 8

> >

<

> >

:

y

_i^t

(1 − y

_i^t

), si k = i

0, si k ∈ O y k 6= i

P

j ∈FO_i

∂P_k^t

∂s_j^t

∂s^t_j

∂y_i^t

∂s_i^t

= P

j ∈FO_i

δ

^t_kj

w

_ij^t

y

_i^t

(1 − y

_i^t

) , si no

(51)

Aprendizaje Q para sistemas difusos

Aprendizaje por refuerzo de sistemas de inferencia difusos

Los controladores difusos son sistemas expertos basados en reglas difusas

En el control difuso las reglas que gobiernan el control se construyen a mano incorporando conocimiento de un experto

La extracci´ on natural del conocimiento experto es una tarea dif´ıcil de realizar

Proponemos un algoritmo de ajuste de los consecuentes (crisp) para

aprendizaje on-line

(52)

Cr´ıtico heur´ıstico adaptativo difuso

En la arquitectura de aprendizaje por refuerzo del cr´ıtico heur´ıstico adaptativo ten´ıamos un actor y un cr´ıtico.

I El actor se encargaba de, mediante el uso de una pol´ıtica fija, ejecutar la acci´on escogida probabil´ısticamente.

I El cr´ıtico generaba una determinada recompensa, positiva o negativa, que actualizaba directamente la pol´ıtica.

En este caso vamos a usar un FIS para representar la funci´on valor, en lugar de una tabla de tipo look-up.

El cr´ıtico se modelar´a mediante el vector de conclusiones asociadas al estado, v

I Cada componente es la contribuci´on al valor de aproximaci´on de V de una regla del FIS El actor tiene un conjunto discreto de acciones para cada estado

I En realidad, cada regla tiene un conjunto de acciones posible con sus correspondientes probabilidades

(53)

Reglas del sistema difuso

Cada regla R _i tiene:

un valor v ⁱ que aproxima a a la funci´ on valor V ^∗ , un conjunto discreto de acciones U (i ) y

un vector de par´ ametros w ⁱ que proporciona las probabilidades de las

diferentes acciones disponibles para la regla, y as´ı aproximar una

pol´ıtica optimal.

(54)

Esquema del Sistema de Inferencia Difuso

(55)

El cr´ıtico

Aproxima la funci´on valor V (S )

En el instante de tiempo t, el valor V_t(s_t) se calcula con la salida de todas las reglas (i.e. el vector de conclusiones v ) mediante

V_t(s_t) = X Ri ∈At

v_tⁱα_Ri= v_tΦ^T_t,

I s_tel estado en que se encuentra el aprendedor en el instante t I α_Riel grado de disparo de la regla R_iaplicando la T-norma del producto El error que hay que aplicar a la funci´on valor viene dado por

_t+1= r_t+1+ γV_t(S_t+1) − V_t(S_t)

siendo γ el factor de olvido o descuento

El ajuste de los valores del vector de conclusiones v , se hace aplicando la regla delta

v_t+1= v_t+ β_t+1Φ_t

en donde β es el ratio de aprendizaje del cr´ıtico.

(56)

El actor

Para representar la pol´ıtica, se usa un vector de par´ametros wⁱpara cada regla R_idifusa.

Cuando la regla se activa, la acci´on local de R_ise toma en cuenta para componer la acci´on global

Ut(St) = X Ri ∈At

− greedy_{U (i )}(w_tⁱ)α_Ri,

Para el ajuste de w_i, la regla de aprendizaje del actor se basa en el uso de la cantidad _t+1

I Si la del cr´ıtico es una medida relevante (i.e. corresponde a la función valor con pol´ıtica optimal en el instante t), un error TD positivo implica que la acción que se acaba de aplicar es mejor que la correspondiente a la pol´ıtica t-optimal. Por lo tanto, es necesario incrementar la calidad de esa acción para el estado correspondiente.

I si el error TD es negativo, se debe decrementar la calidad de la acción porque esa acción ha llevado al sistema a un estado con una función valor peor que la prevista.

Finalmente

w_t+1ⁱ (U_tⁱ) = w_tⁱ(Uⁱ_i) + t+1α_Ri, ∀R_i∈ A_t, siendo Uⁱ_tla acci´on escogida mediante la estrategia -greedy para la regla R_ien el instante t

(57)

Trazas de elegibilidad

El procedimiento que acabamos de describir ´unicamente modifica los par´ametros de las reglas activadas en el instante de tiempo t (TD(0))

Aplicaremos elegibilidades a los t´erminos que intervienen en la actualizaci´on de vt+1y wt+1 Si planteamos un TD(λ) con λ ∈ [0, 1], la traza del cr´ıtico, Φten el instante t se define

Φt= t X n=0

(γλ)^t−nΦn= Φt+ γλ t−1 X n=0

(γλ)^(t−1)−nΦn,

con lo que al final tenemos que

Φt= Φt+ γλΦ_t−1.

Con esta traza llevaremos la cuenta de la salida que ha ido obteniendo cada regla.

(58)

Trazas de elegibilidad (II)

Ahora determinamos las elegibilidades para la actualizaci´ on de w ⁱ . Sea e _t ⁱ (U ⁱ ) la traza asociada con la acci´ on discreta U ⁱ de la regla R _i en el instante T , entonces

e _t ⁱ (U ⁱ ) =

λ ⁰ e _t−1 ⁱ (U ⁱ ) + Φ ⁱ _t U ⁱ = U _t ⁱ λ ⁰ e _t−1 ⁱ (U ⁱ ) sino siendo λ ⁰ el del actor.

Las ecuaciones de actualizaci´ on se modifican para obtener v _t+1 = v _t + β _t+1 Φ _t .

w _t+1 = w _t + _t+1 e _t .

(59)

Algoritmo Final

Inicialización: Sea t + 1 el instante de tiempo actual, el aprendedor ha llevado acabo la acción U_tescogida mediante la estrategia -greedy, recibiendo una señal de refuerzo r_t+1deacuerdo con la transición al siguiente estado. Tras el paso de fuzzificación y el cálculo de la fuerza de cada regla (i.e. Φ_t+1describe el nuevo estado S_t+1), los cinco pasos son

1 Estimación de la función valor correspondiente al estado actual: Vt(S_t+1) = vtΦ^T_t+1 2 Cálculo del error TD: _t+1= r_t+1+ γV_t(S_t+1) − V_t(S_t)

3 Ajuste de par´ametros mediante las ecuaciones

v_t+1 = v_t+ β_t+1Φ_t. w_t+1 = wt+ _t+1et.

4 Estimación de la función valor correspondiente al estado actual con el vector de conclusiones nuevo v_t+1para ser usada en la siguiente iteración, en el cálculo del error TD

5 Para cada regla hacer

1 Elección de la acción local 2 Actualización de la traza de elgibilidad 6 Computación y disparo de la acción global U_t+1

(60)

Aprendizaje por Refuerzo

Aprendizaje por Refuerzo

Tratamiento Inteligente de la Informaci´ on y Aplicaciones

Juan A. Bot´ıa Blaya

Departamento de Ingenier´ıa de la Informaci´ on y las Comunicaciones Universidad de Murcia

November 24, 2009

1 Introducci´ on

2 Ejemplo

3 Pol´ıticas, funciones valor y acciones

4 Cr´ıtico heur´ıstico adaptativo

5 Aprendizaje Q

6 Aprendizaje Q para sistemas difusos

M´ etodos de aprendizaje

Dependiendo de la informaci´ on utilizada para el aprendizaje

Un profesor directo: que proporciona, en cada instante de tiempo, la acci´ on de control correcta a ser aplicada por el aprendedor

Un profesor indirecto: que sin proporcionar las acciones correctas, suministra los efectos deseados del proceso

Una medida de rendimiento: indica la calidad del aprendedor en un conjunto de estados (i.e. como en la medida de adaptaci´ on de un individuo en una poblaci´ on de algoritmo evolutivo)

Un cr´ıtico: que asigna recompensas y castigos con respecto a los

estados alcanzados por el aprendedor, pero no proporcionar acciones

correctas ni trayectorias a seguir.

Problemas de decisi´ on de Markov (MDP)

Un proceso de decisi´ on de Markov es un proceso estoc´ astico que viene caracterizado por cinco elementos:

pasos para la decisi´ on

estados

acciones

probabilidades de transici´ on y

recompensas

Problemas de decisi´ on de Markov (MDP) y II

En algunos casos, es posible encontrar un agente encargado de controlar el camino de decisi´ on tomado en el proceso probabil´ıstico En cada paso el sistema se encuentra en un estado de toma de decisiones

como resultado de la ejecuci´ on de una acci´ on en un estado determinado, el agente decisor recibe una recompensa Tras esto, el sistema pasa al estado siguiente con una cierta probabilidad

Una regla de decisi´ on es una funci´ on usada para seleccionar, en cada estado, una acci´ on.

Una pol´ıtica es un conjunto de esas reglas de decisi´ on sobre el espacio

de estados

Prob. de decisi´ on de Markov (MDP) (y II)

Sea MDP = {X

: n ∈ N , X

∈ X } un proceso de decisi´ on de Markov

X

es el estado en la fase de decisi´ on n−´ esima

N los enteros naturales

Sea el paso n, donde X

= i ∈ X , la acci´ on escogida es a

∈ A

, siendo A

el conjunto de acciones que pueden tomarse en el estado i y S

= A. el conjunto de acciones posibles Dada a ∈ A, lleva asociada una matriz de transiciones a estados P(a) de la cadena de Markov MDP, en donde P(x

|x

, a) es la probabilidad de mover desde el estado i al j ejecutando la acci´ on a

Definimos tambi´ en una funci´ on de recompensa r : X × A → <,

en donde r (i , a) es la recompensa esperada al ejecutar la acci´ on a en el estado i

Asumimos: (a) r s acotadas superior e inferiormente, (b) probabilidades de la matriz de

transiciones estacionarias y (c) espacio de estados finito.

Estructura de un aprendedor por refuerzo

El entorno

La informaci´ on que el sistema conoce sobre el entorno, en un instante t se puede representar en un vector de contexto x t (vector de

descripci´ on del estado)

La decisi´ on acerca de qu´ e acci´ on se ha de ejecutar se tomar´ a en base a este vector

si no incluye toda la informaci´ on importante para el modelado, la calidad del aprendizaje se ver´ a afectada

P(x j |x i , a) ser´ a cero en la mayor´ıa de estados y para la mayor´ıa de acciones

Si las P(x j |x i , a) se conocen, entonces disponemos de un modelo del mundo.

Si no

Podemos aprenderlo

Podemos prescindir de ´ el

Resultados de ejecuci´ on de acciones

Los resultados (i.e. recompensas) son valores escalares r (x

, x

), recibidas por el sistema a ra´ız de la transici´ on de un estado a otro

En el caso general, las recompensas pueden generarse apartir de una distribuci´ on de probabilidad

En sistemas de aprendizaje por refuerzo simples, la acci´ on m´ as deseable es aquella que proporciona la recompensa inmediata m´ as alta

el resultado que se va a alcanzar en cada instante es conocido pero la acci´ on para ello no est´ a clara

Ejemplo: mover la garra de un brazo de robot

En el caso general se maximiza la suma esperada de recompensas descontadas recibidas (retorno)

E (

X

γ

r

)

r

la recompensa recibida en la transici´ on del estado x

al x

P(x _j |x _i , a) ser´ a cero en la mayor´ıa de estados y para la mayor´ıa de acciones

Si las P(x _j |x _i , a) se conocen, entonces disponemos de un modelo del mundo.

s s ⁰ a P _ss ^a

R ^a _ss

alto alto busca α R ^search

alto bajo busca 1 − α R ^search

bajo bajo busca β R ^search

alto alto espera 1 R ^wait

alto bajo espera 0 R ^wait

bajo alto espera 0 R ^wait

bajo bajo espera 1 R ^wait