Que son las redes neuronales? Una introducción informal

(1)

¿Que son las redes neuronales?

Una introducci ´on informal

Julio Waissman Vilanova

Licenciatura en Ciencias de la Computaci ´on Departamento de Matem ´aticas

(2)

Plan de la presentaci ´on

1 _{Motivaci ´on}

2 Modelos simples de una neurona

3 _{Arquitecturas principales}

4 El perceptr ´on

(3)

¿Para que estudiar las redes neuronales?

Para entender como funciona el cerebro .

El cerebro es una cosa bastante complicada, con partes, que si uno las empieza a manipular, el propietario muere generalmente. Por eso los m ´etdos de simulaci ´on

computacional son muy importantes.

Para entender un tipo de computo paralelo .

Computo paralelo basado en la aplicaci ´on masiva de operaciones simples.

Para resolver problemas pr ´acticos usando aprendizaje .

A pesar que las redes neuronales no son un modelo preciso del cerebro, se pueden utilizar para resolver una gran cantidad de problemas pr ´acticos.

(4)

(5)

Sinapsis

Cuando un impulso electrico viaja a trav és de un ax ón a una sinapsis, se transmite a trav és de un l´ıquiso neurotransmisor. El impulso se transmite por difusi ón a las neuronas receptoras. La efectividad de las sinapsis puede ser cambiada (peso sin áptico).

La sinapisi es lenta, pero usa muy poca energ´ıa, y se adapta a partir de se ˜nales disponibles localmente.

(6)

¿Como funciona el cerebro?

Solo unas pocas neuronas se conectan con receptores o actuadores.

Cada neurona recibe estimulos de otras neuronas.

El efecto de cada entrada de otra neurona es controlado por un peso sin ´aptico.

El peso sin ´aptico se adapta de forma que la red en forma global aprende a realizar operaciones ´utiles.

Tenemos aproximadamente 1011 neuronas, cada una con 104

(7)

(8)

(9)

Modelos simples de una neurona

Para modelar cosas hay que idealizarlas.

Eliminar detalles complicados no esenciales para la comprensi ´on del fen ´omeno.

Vale la pena realizar modelos comprensibles de cosas que sabemos son incorrectas (sin olvidar que son incorrectas). Asumamos que las neuronas transmiten valores reales y no impulsos.

(10)

Neuronas lineales

y = b +X

i

xiwi

Si hacemos aprender a esta neurona, podemos probar con neuronas m ´as complicadas.

y es lasalida, b es elsesgo, x_i la i– ´esimaentraday w_i elpesoen la i– ´esima entrada.

(11)

Neuronas binarias

z =X i xiwi y = 1 si z ≥ θ 0 en otro caso Propuestas por McCulloch y Pitts en 1943.

Se asume que cada impulso es como el valor de verdad de una proposici ´on l ´ogica.

(12)

Neuronas binarias

Representaci ´on alternativa

z = b +X i xiwi y = 1 si z ≥ 0 0 en otro caso

La neurona binaria es equivalente a aplicar una funci ´on no lineal a la neurona lineal.

(13)

Neuronas lineales rectificadas

ReLU z = b +X i xiwi y = z si z ≥ 0 0 en otro caso

Relativamente reciente, muy r ´apido de calcular. Muy eficiente en problemas de aprendizaje profundo.

(14)

Neuronas sigmoidales

Log´ıstica z = b +X i xiwi y = 1 1 + e−z

Devuelve un valor real acotado, imitando una neurona binaria. F ´acil de derivar (lo que es ´util para el aprendizaje).

(15)

Neuronas estoc ´asticas

Estoc ´astica z = b +X i xiwi P[s = 1] = 1 1 + e−z

Mismas ecuaciones que la log´ıstica, pero diferente significado. Probabilidad de tener un impulso en un intervalo de tiempo corto. La salida es una distribuci ´on de Poisson.

(16)

Arquitecturas principales de redes neuronales

Por arquitectura, consideramos la forma en que se conectan las

neuronas entre si. Tambien se le conoce comotopolog´ıade la red

neuronal.

Dos arquitecturas generales b ´asicas: alimentaci ´on hacia adelante, y recursivas.

Para este curso nos centraremos en las de alimentaci ´on hacia adelante.

(17)

Redes con alimentaci ´on hacia adelante

Redes m ás comunes en aplicaciones pr ácticas La primer capa es la entrada y la última la salida

Si tienen m ´as de una capa oculta se les conoce como redes

neuronalesprofundas(Deep neural network).

Calculan una serie de transformaciones de los datos de entrada. La funci ´on de activaci ´on de cada neurona es no lineal.

(18)

(19)

Redes recurrentes

Existen ciclos en sus conexiones

Solo se pueden analizar en funci ón del tiempo Din ámicas complicadas y dificultad en el aprendizaje Biol ógicamente son un poco m ás realistas

(20)

(21)

Aplicaci ´on de la redes recurrentes

M étodo natural para modelar informaci ón en forma secuencial Habilidad para recordar informaci ón

Ejemplo (Ilya Sutskever, 2011)

In 1974 Northern Denver had been overshadowed by CNL, and several Irish intelligence agencies in the Mediterranean region.

However, on the Victoria, Kings Hebrew stated that Charles decided to escape during an alliance. The mansion house was completed in 1882, the second in its bridge are omitted, while closing is the proton reticulum composed below it aims, such that it is the blurring of appearing on any well-paid type of box printer.

(22)

Redes recurrentes sim ´etricas

Redes recurrentes, donde todas las conexiones son en ambas direcciones y con el mismo peso en ambas direcciones. Un caso simple de analizar de redes recurrentes.

Si no hay unidades ocultas se conocen comoredes de Hopfield.

Si tiene unidades ocultas se conocen comom ´aquinas de

(23)

El preceptr ´on

Y ahora regresemos a la m ´as simple de las redes neuronales hacia adelante:El perceptr ´on

Red neuronal hacia adelante, con solo dos capas (no hay capa oculta)

(24)

El Perceptr ´on

Popularizado por Rosenblatt a principios de los 60. Parec´ıan tener gran poder de aprendizaje en la ´epoca. En 1969, Minsky y Papert hacen pedazos al perceptr ´on. Actualmente es usado en problemas con varios millones de entradas.

(25)

Ejemplo simple de un perceptr ´on

Red simple para reconocer formas escritas a mano. Dos capas de neuronas:

Neuronas en la primer capa representan intensidad de pixeles. Neuronas en la segunda capa representan formas conocidas.

Un pixel vota por una forma solo si tiene tinta. Cada pixel puede vota por cada forma. La forma m ´as votada es seleccionada.

(26)

Ilustraci ´on del problema

A very simple way to recognize handwritten shapes

•  Consider a neural network with two

layers of neurons.

–

 

neurons in the top layer represent

known shapes.

–

 

neurons in the bottom layer

represent pixel intensities.

•  A pixel gets to vote if it has ink on it.

–

 

Each inked pixel can vote for several

different shapes.

•  The shape that gets the most votes wins.

(27)

Representaci ´on de pesos

How to display the weights

Give each output unit its own “map” of the input image and display the weight coming from each pixel in the location of that pixel in the map.

Use a black or white blob with the area representing the magnitude of the weight and the color representing the sign.

The input image

1 2 3 4 5 6 7 8 9 0

El color (blanco o negro) representa el signo del voto. El ´area representa la intensidad (peso) del voto.

(28)

Aprendizaje

How to learn the weights

Show the network an image and increment the weights from active pixels to the correct class.

Then decrement the weights from active pixels to whatever class the network guesses.

The image

1 2 3 4 5 6 7 8 9 0

Muestra un ejemplo conocido a la red, e incrementa el peso de los pixeles activos para la forma correcta.

Decrementa el peso de los pixeles activos para la forma seleccionada por la red neuronal.

(29)

Aprendizaje

The image

(30)

Aprendizaje

The image

(31)

Aprendizaje

The image

(32)

Aprendizaje

The image

(33)

Aprendizaje

The image

(34)

Aprendizaje

The learned weights

The image

1 2 3 4 5 6 7 8 9 0

(35)

Problemas con el aprendizaje

Una red con solo dos capas es equivalente a un patron r´ıgido por cada forma.

El ganador es el patron con m ´as traslape.

Los d´ıgitos escritos a mano son mucho m ´as complejos. Es necesario capturar otras caracter´ısticas.

(36)

Ejemplo de d´ıgitos escritos a mano

Examples of handwritten digits that can be recognized

correctly the first time they are seen

(37)

Limitaciones del perceptr ´on

El perceptr ´on no puede resolver ni siquiera los problemas m ´as elementales no linealmente separables.

A geometric view of what binary threshold neurons cannot do

•  Imagine “data-space” in which the

axes correspond to components of an

input vector.

–

 

Each input vector is a point in this

space.

–

 

A weight vector defines a plane in

data-space.

–

 

The weight plane is perpendicular

to the weight vector and misses

0,1

0,0

_1,0

1,1

weight plane

output =1

output =0

The positive and negative cases

(38)

Limitaciones del perceptr ´on

El perceptr ´on no puede resolver patrones simples con translaci ´on.

Discriminating simple patterns

under translation with wrap-around

•  Suppose we just use pixels as

the features.

•  Can a binary threshold unit

discriminate between different

patterns that have the same

number of on pixels?

–

 

Not if the patterns can

translate with wrap-around!

pattern A

pattern B

(39)

Una catastrofe para las redes neuronales

El objetivo del reconocimiento de patrones es reconocer patrones, a pesar de transformaciones como la translaci ´on.

Para resolver estos problemas, es necesario extraer otro tipo de caracter´ısticas para reconocer translaciones, u otro subpatron informativo.

La parte sabrosa entonces hay que programarla a mano, y le dejamos el problema f ´acil al algoritmo de aprendizaje.

(40)

Aprendizaje con neuronas ocultas

Redes sin neuronas ocultas solo pueden hacer funciones muy simples entre las entradas y las salidas.

Neuronas ocultas lineales no ayudan, el resultado sigue siendo una combinaci ´on lineal de las entradas.

No linealidades fijas a la salida tampoco son suficientes.

Es necesario agregar capas de neuronas adaptables y no lineales.

Para que esto sea posible es necesario ajustar todos los pesos al mismo tiempo, y no solo los de la capa de salida.

Aprender pesos en las capas ocultas es equivalente a aprender nuevas caracter´ısticas.

Problema dif´ıcil, ya que nadie da indicaciones de como deben ser esas nuevas caracter´ısticas.

(41)

¿Que sigue?

Ahora falta ver

Como aprender en forma gen ´erica (sin capas ocultas) Como generalizar esto a una o varias capas ocultas.

Que son las redes neuronales? Una introducción informal