Steady state

(1)

MIT Department of Brain and Cognitive Sciences 9.641J, Spring 2005 - Introduction to Neural Networks Instructor: Professor Sebastian Seung

Backprop for recurrent

networks

(2)

Steady state

• Reward is an explicit function of x.

• The steady state of a recurrent network.

x

_i

= f W

_ij

x

_j

+ b

_i

j

 ∑

  

 

max

W ,b

R x ( )

(3)

Recurrent backpropagation

• Find steady state

x = f ( ^Wx ⁺ ^b )

• Calculate slopes

D = diag { ^f ^′ ( ^Wx ⁺ ^b ) }

∂ ^R

−1

− W

^T

) ^s ⁼

• Solve for s

( ^D

∂ ^x

• Weight update

ΔW = η ^sx

^T

(4)

Sensitivity lemma

∂ ^R ∂ ^R

= x

∂ ^W

_ij

∂ ^b

_i ^j

(5)

Input as a function of output

• What input b is required to make x a steady state?

b

_i

= f

−1

( ^x

_i

) ⁻ ∑ ^{W x}

_ij _j

j

• This is unique, even when output is not a unique function of the input!

(6)

Jacobian matrix

b

_i

= f

−1

( ^x

_i

) ⁻ ∑ ^{W x}

_ij _j

j

∂ ^b

_i

x

= f

⁻¹

′ ( ) ^δ ⁻ ^W

∂ ^x

_j ⁱ ^ij ^ij

= ( ^D

⁻¹

⁻ ^W )

_ij

(7)

Chain rule

∂ ^R

= ∑ ^∂ ^R ^∂ ^b

ⁱ

∂ ^x

_j _i

∂ ^b

_i

∂ ^x

_j

= ∑ ^∂ ^R ₍ ^D

⁻¹

⁻ ^W ₎

∂ ^b

ij

i i

∂ ^R

= ( ^D

⁻¹

⁻ ^W

^T

)

∂ ^x ∂ ^b

(8)

Trajectories

• Initialize at x(0)

• Iterate for T time steps

x

_i

( ) t ⁼ ^f ^W

_ij

^x

_j

( ^t ⁻ ¹ ) ⁺ ^b

_i

j

 ∑

  

 

max

W ,b

R x ( ( ) 1 ^{,K ,} ^{x T} ( ) )

(9)

Unfold time into space

• Multilayer perceptron

– Same number of neurons in each layer – Same weights and biases in each layer

(weight-sharing)

( )

^W ^,b

( )

^W ^,b ^W ^,b

( )

x 0 ⎯ ⎯→ x 1 ⎯ ⎯→L ⎯ ⎯→ x T

(10)

Backpropagation through time

• Initial condition x(0)

x ( ^t ) ⁼ ^f ( ^Wx ( ^t ⁻ ¹ ) ⁺ ^b ( ^t ) )

• Compute

R / ∂ ^x ( ^t )

• Final condition s(T+1)=0

∂ ^R

( ) ⁼ ^{D t W}

^T

^{s t} ⁺ ¹ ) ⁺ ^{D t}

s t ( ) ( ( )

∂ ^{x t} ( )

Δ W = η ∑ ^{s t} _{( )} ^{x t} ₍ ⁻ ¹ ₎

^T

^Δ ^b ⁼ ^η ∑ ^{s t} _{( )}

t t

(11)

Input as a function of output

x ( ^t ) ⁼ ^f ( ^Wx ( ^t ⁻ ¹ ) ⁺ ^b ( ^t ) )

( ) ⁼ ^f

⁻¹

( ( ) ) ⁻ ^{Wx t} ⁻ ¹ )

b t x t (

x ( ¹ ) ^, ^x ( ² ) ^{,K ,} ^x ( ^T ⁻ ¹ ) ^, ^x ( ^T )

b ( ¹ ) ^, ^b ( ² ) ^{,K ,} ^b ( ^T ⁻ ¹ ) ^, ^b ( ^T )

(12)

Jacobian matrix

( ) ⁼ ^f

⁻¹

( ^{x t} (

t

b t ( ) ) ⁻ ^{Wx t} ⁻ ¹ )

−1

t

∂ ^b

_i

( )

= δ

_tt_'

( ^D ^{( )} ) ⁻ ^W ^δ

∂ ^x

_j

( ) ^t ^'

^ij ^ij ^t−1,t^'

( ) ⁼ ^diag ^{ ^{f Wx t} ⁻ ¹ ) ⁺ ^{b t}

D t ( ( ( ) ) ^}

(13)

Chain rule

∂ ^R

∂ ^x

_j

( ) ^t ^′ ⁼

∂ ^R

∂ ^b

_i

( ) ^t

∂ ^b

_i

( ) ^t

∂ ^x

_j

( ) ^t ^′

i,t ′

∑

= s

_i

( ) t ′

i

∑ ( ^D

⁻¹

( ) ^t ^′ )

_ij

⁻ ^s

ⁱ

⁽ ^t ^' ⁺¹ ⁾ ^W

^ij

i

∑

∂ ^R

∂ ^{x t} ( ) ⁼ ^D

−1

( ) t ^{s t} ( ) ⁻ ^W

^T

^{s t} ( ⁺¹ )

Steady state

Backprop for recurrent

networks

Steady state

x

= f W

x

+ b

 ∑

  

 

max

R x ( )

Recurrent backpropagation

x = f ( Wx + b )

D = diag { f ′ ( Wx + b ) }

∂ R

− W

) s =

( D

∂ x

ΔW = η sx

Sensitivity lemma

∂ R ∂ R

= x

∂ W

∂ b

Input as a function of output

b

= f

( x

) − ∑ W x

Jacobian matrix

b

= f

( x

) − ∑ W x

∂ b

x

= f

′ ( ) δ − W

∂ x

= ( D

− W )

Chain rule

∂ R

= ∑ ∂ R ∂ b

∂ x

∂ b

∂ x

= ∑ ∂ R ( D

− W )

∂ b

∂ R

∂ R

= ( D

− W

)

∂ x ∂ b

Trajectories

x

( ) t = f W

x

( t − 1 ) + b

 ∑

  

 

max

R x ( ( ) 1 ,K , x T ( ) )

Unfold time into space

( )

( )

( )

x 0 ⎯ ⎯→ x 1 ⎯ ⎯→L ⎯ ⎯→ x T

Backpropagation through time

x ( t ) = f ( Wx ( t − 1 ) + b ( t ) )

R / ∂ x ( t )

∂ R

( ) = D t W

s t + 1 ) + D t

x = f ( ^Wx ⁺ ^b )

D = diag { ^f ^′ ( ^Wx ⁺ ^b ) }

∂ ^R

) ^s ⁼

( ^D

∂ ^x

ΔW = η ^sx

∂ ^R ∂ ^R

∂ ^W

∂ ^b

( ^x

) ⁻ ∑ ^{W x}

( ^x

) ⁻ ∑ ^{W x}

∂ ^b

′ ( ) ^δ ⁻ ^W

∂ ^x

= ( ^D

⁻ ^W )

∂ ^R

= ∑ ^∂ ^R ^∂ ^b

∂ ^x

∂ ^b

∂ ^x

= ∑ ^∂ ^R ₍ ^D

⁻ ^W ₎

∂ ^b

∂ ^R

∂ ^R

= ( ^D

⁻ ^W

∂ ^x ∂ ^b

( ) t ⁼ ^f ^W

^x

( ^t ⁻ ¹ ) ⁺ ^b

R x ( ( ) 1 ^{,K ,} ^{x T} ( ) )

x ( ^t ) ⁼ ^f ( ^Wx ( ^t ⁻ ¹ ) ⁺ ^b ( ^t ) )

R / ∂ ^x ( ^t )

∂ ^R

( ) ⁼ ^{D t W}

^{s t} ⁺ ¹ ) ⁺ ^{D t}

∂ ^{x t} ( )

Δ W = η ∑ ^{s t} _{( )} ^{x t} ₍ ⁻ ¹ ₎

^Δ ^b ⁼ ^η ∑ ^{s t} _{( )}

x ( ^t ) ⁼ ^f ( ^Wx ( ^t ⁻ ¹ ) ⁺ ^b ( ^t ) )

( ) ⁼ ^f

( ( ) ) ⁻ ^{Wx t} ⁻ ¹ )

x ( ¹ ) ^, ^x ( ² ) ^{,K ,} ^x ( ^T ⁻ ¹ ) ^, ^x ( ^T )

b ( ¹ ) ^, ^b ( ² ) ^{,K ,} ^b ( ^T ⁻ ¹ ) ^, ^b ( ^T )

( ) ⁼ ^f

( ^{x t} (

b t ( ) ) ⁻ ^{Wx t} ⁻ ¹ )

∂ ^b

( ^D ^{( )} ) ⁻ ^W ^δ

∂ ^x

( ) ^t ^'

( ) ⁼ ^diag ^{ ^{f Wx t} ⁻ ¹ ) ⁺ ^{b t}

D t ( ( ( ) ) ^}

∂ ^R

∂ ^x

( ) ^t ^′ ⁼

∂ ^R

∂ ^b

( ) ^t

∂ ^b

( ) ^t

∂ ^x

( ) ^t ^′

∑ ( ^D

( ) ^t ^′ )

⁻ ^s

⁽ ^t ^' ⁺¹ ⁾ ^W

∂ ^R

∂ ^{x t} ( ) ⁼ ^D

( ) t ^{s t} ( ) ⁻ ^W

^{s t} ( ⁺¹ )