Aprendizaje rápido en Redes Neuronales Convolucionales por medio de sFFT

(1)

Universidad de los Andes

Trabajo de grado

Aprendizaje r´

apido en Redes Neuronales

Convolucionales por medio de sFFT

Autor:

Felipe

Su´

arez Colmenares

Supervisor:

Prof. Fernando

Lozano

Trabajo de grado como requisito

para obtener el t´ıtulo de Ingeniero Electr´

onico

Departamento de Ingenier´ıa El´

ectrica y Electr´

onica

(2)

(3)

iii

Agradecimientos

Agradezco profundamente a mis padres y mi hermano por acompañarme y soportarme en todo momento. Su compañ´ıa es invaluable y con ellos estaré eternamente agradecido. Agradezco a mi asesor Fernando Lozano por su gran labor como profesor en varias ocasiones y como mentor de este proyecto. A todos mis amigos en Ingenier´ıa much´ısimas gracias por tenerme paciencia. A mis amigos de Matemáticas les agradezco por mostrarme el valor de la amistad, por compartir conmigo su amor por el conocimiento y por su constante ambición de superación.

(4)

(5)

v

´

_{Indice general}

Agradecimientos III

Introducci´on 1

1. Marco Te´orico 3

1.1. Aprendizaje de M´aquinas . . . 3

1.1.1. Enfoque de Estad´ıstica . . . 3

1.1.2. Enfoque de Optimizaci´on . . . 4

1.2. Redes Neuronales . . . 5

1.2.1. Redes Convolucionales . . . 6

1.3. Transformada de Fourier . . . 7

1.3.1. Transformada Discreta de Fourier . . . 8

1.3.2. Transformada Dispersa de Fourier . . . 8

2. Metodolog´ıa 11 2.1. Algoritmo de Entrenamiento . . . 11

2.1.1. Backpropagation . . . 11

2.1.2. Convoluci´on . . . 12

3. Evaluaci´on Computacional 19 3.1. CUDA y Programaci´on Paralela . . . 20

3.2. CUFFT . . . 21

3.3. Convoluci´on . . . 22

3.3.1. Discusi´on de resultados . . . 25

3.4. Entrenamiento de redes . . . 26

3.4.1. DTD . . . 26

3.4.2. KTH . . . 27

3.4.3. Kylberg . . . 28

3.4.4. Retinopat´ıa Diab´etica . . . 29

3.4.5. STL . . . 30

3.4.6. Discusi´on de Resultados . . . 31

4. Conclusiones y trabajo futuro 33

A. Demostraci´on de los teoremas 35

(6)

(7)

vii

´

_{Indice de figuras}

1.1. MuestraX para dos clasesY = 0,1. . . 4

1.2. Densidades marginalesFX|Y=0, FX|Y=1. . . 4

1.3. Modelo de una neurona. . . 5

1.4. Convoluci´on entre una Imagen a color y un banco deD filtros. . . 7

1.5. Lena,X, y su transformada de Fourier, log₁₀(1 +|F(X)|). . . 8

1.6. Una imagen de lentejas,X, y su transformada de Fourier, log₁₀(1 +|F(X)|). . . . 8

1.7. Ilustraci´on del funcionamiento de sfft. [6] . . . 9

2.1. Ilustración de dos submuestras, un en dimensión 1 y la otra en dimensión 2. . . 14

2.2. Ilustración de unakmódulo suma en dimensión 1. . . 14

2.3. Ilustraci´on de la propuesta para efectuar convoluci´on. . . 16

3.1. Im´agenes de ejemplo de 5 clases de la base DTD. . . 20

3.2. Im´agenes de ejemplo de 5 clases de la base KTH. . . 20

3.3. Im´agenes de ejemplo de 5 clases de la base Kyleberg. . . 20

3.4. Cinco im´agenes de ejemplo de la baseDiabetic Retinopathy. . . 20

3.5. Im´agenes de ejemplo de 5 clases de la base _stl. . . 20

3.6. Breve ilustración de la arquitectura en una GPU y CPU. Gráfica de desempeño en GFLOPs/s. [15] . . . 21

3.7. log₁₀(CP U [ms]) . . . 23

3.8. log₁₀(vl nnconv/fft conv) . . . 24

3.9. log₁₀(vl nnconv/sfft conv) . . . 25

3.10. Desempe˜novl nnconv(izquierda) contrasfft conv (derecha). . . 26

(8)

(9)

ix

´

_{Indice de cuadros}

3.1. Bancos de datos evaluados. . . 19

3.2. Tiempo en milisegundos que le tom´o a_Matlab (CUDA) realizarF(X). . . 22

3.3. Tiempo, en milisegundos, en realizarvl nnconv(X,F) en GPU. . . 23

3.4. Tiempo, en milisegundos, en realizarfft conv(X,F) en GPU. . . 24

3.5. Tiempo, en milisegundos, en realizarsfft conv(X,F) en GPU. . . 25

3.6. Red para el_DTDen dimensi´on 64×64. . . 26

3.9. Red para el_KTHen dimensi´on 128×128. . . 28

3.11. Red para el_Kylebergen dimensi´on 128×128. . . 29

3.12. Red para elDiabetic Retinopathy en dimensi´on 64×64. . . 29

3.13. Red para elDiabetic Retinopathy en dimensi´on 128×128. . . 30

(10)

(11)

1

Introducci´

on

La historia del hombre nos ubica en una época atravesada por decenas de años de crecimiento exponencial en capacidad de cómputo al mismo tiempo que por siglos de rigurosas construcciones de conocimiento matemático. Esta coincidencial conjunción dio origen al estudio sobre el aprendi-zaje de máquinas e inteligencia artificial desde hace casi cuarenta años. Desde entonces, el hombre ha sido capaz combinar el soporte teórico pertinente con técnicas avanzadas de diseño para desa-rrollar dispositivos con capacidades sobrehumanas que constituyen un amplio espectro habilidades comoinferencia yreconocimiento de patrones.

Entre los algoritmos de aprendizaje de máquinas más exitosos se encuentra el algoritmo deredes neuronales [1]. El éxito de este algoritmo radica en su gran versatilidad sobre el tipo de informa-ción que utiliza, su simple formulación, su sencillo algoritmo de aprendizaje y su gran desempeño. Conforme crece la capacidad de almacenamiento de información, procesamiento de datos y abs-tracción teórica; también crecen los deseos por crear máquinas más inteligentemente ambiciosas. Es por esto que uno de los retos más grandes consiste de acelerar dichas etapas de aprendizaje. Por lo tanto, el objetivo de este trabajo es desarrollar un algoritmo más rápido para llevar a cabo el entrenamiento de Redes Neuronales Convolucionales.

En el cap´ıtulo 1 explicaremos los conceptos básicos necesarios para entender al algoritmo pro-puesto. Estos incluyen definiciones básicas de aprendizaje estad´ıstico y su versión como problema de optimización. También introduciré los conceptos de convolución, redes neuronales y transforma-da de Fourier explicando, en catransforma-da caso, las versiones que son más apropiadas para el entendimiento del algoritmo y mostrando algunos ejemplos pertinentes.

El cap´ıtulo 2 hablaremos sobre la metodolog´ıa llevada a cabo para implementar el algoritmo tomando como base las herramientas del cap´ıtulo 1. Mostraremos cómo funciona el aprendizaje de máquinas para la clasificación por redes neuronales. Finalmente probaremos cómo la propuesta ayudar´ıa a disminuir el tiempo de entrenamiento, para el cual entrenaremos varias bases de datos conocidas en la literatura en el cap´ıtulo 3.

Las conclusiones de este trabajo se consignan en el cap´ıtulo 4 junto a algunas propuestas de mejoramiento.

(12)

(13)

3

Cap´ıtulo 1

Marco Te´

orico

1.1. Aprendizaje de M´

aquinas

Suponga que tiene un conjunto de información muy grande de la cual desea obtener informa-ción. Por ejemplo, el banco de datos de todos los exámenes en un hospital; la calificación asignada por cada usuario en un foro de pel´ıculas; la imágenes médicas de resonancia magnética de muchos pacientes en el mundo1_{; la variaci´}_{on de la contaminaci´}_{on del agua en distintos puntos de un r´ıo}2

; o la distribución de altura y peso de distintas poblaciones en un pa´ıs. Es natural preguntarse por la procedencia de los datos. ¿Están los datos relacionados de alguna forma? ¿Existen tendencias o agrupaciones en los datos? ¿Si tengo un dato adicional incompleto podr´ıa aproximarme a la información restante con algún grado de certeza?

En casos pequeños una opción válida podr´ıa ser graficar los datos en un plano y tratar de responder estas preguntas emp´ıricamente. Normalmente, sin embargo, todas las aplicaciones son solo tratables por medio de implementaciones computacionales. As´ı, en el aprendizaje de máquinas el objetivo es diseñar un algoritmo que aprenda por s´ı solo a partir de datos preexistentes algún tipo de fenómeno, algún patrón. Los problemas clásicos se pueden categorizar en Clasificar, Inferir, Ordenar y validar dependencia.

1.1.1. Enfoque de Estad´ıstica

El enfoque usual en estad´ıstica para el problema declasificaci´onconsiste en suponer que existe una noci´on de dependencia probabil´ıstica entre el espacio de los objetos que queremos clasificar, y el conjunto de clases posible. Supongamos que tenemos un conjunto de datos{X1, X2, . . . , Xn}que

pertenecen al espacioX, cada uno de los cuales tiene una etiqueta{Y1, Y2, . . . , Yn}en un conjunto

de clasesY. Supongamos que los datos provienen de una distribuci´on desconocidaFXy las clases de

otra distribuciónFY. El problema de clasificación consiste de encontrar una funciónc:X→Y, es

decir, una clasificaci´on de los enXen las clases enY. La idea es encontrar una clasificaci´oncbuena.

En el fondo, nos estamos preguntando por la distribución conjunta (X, Y). Entonces, sur-gen varias preguntas pertinentes como: ¿Cómo encontrar una función c a partir de los datos

{(X1, Y1), . . . ,(Xn, Yn)} con el menor error de clasificaci´on E = P(c(X) 6= Y)? ¿Qu´e tan r´

api-do pueapi-do encontrar esta funciónc si tengon datos? ¿Para una clasificaciónc fija, cómo se puede calcular o estimar dicho errorE?

El teorema Bayes nos garantiza que lo mejor que se podr´ıa clasificar a X en Y est´a dictado por las distribuciones condicionales de Y. Suponiendo que las variables admiten una funci´on de densidadf(X,Y), el clasificador de Bayes se define:

c:X→Y, c(x) = arg max

y∈Y

f(Y|X=x)(y). (1.1)

Teorema 1.1.1. (Teorema de clasificaci´on de Bayes) Sean {(Xi, Yi)}i≤n ⊆X ×Y realizaciones

de una variable aleatoria con distribuci´onFX,Y. Si(X, Y)admite una densidadfX,Y, entonces la

1_{https://www.kaggle.com/c/mlsp-2014-mri/data}

(14)

4 Cap´ıtulo 1. Marco Te´orico

función de clasificación c : X →Y con el menor error de clasificación E =_P(C(X)6=Y) es el clasificador dado por,

c(x) = arg max

y∈Y

f(Y|X=x)(y).

El teorema de Bayes dio lugar a que los estad´ısticos se enfocaran en formas de estimar dicho clasificador. El concepto general del teorema es intuitivo, si pensamos afY|X=x(y) como la

proba-bilidad relativa de que la clasificación seay dado quexes la realización, entonces la clasificación es el valor de la clase que maximiza esta probabilidad. No obstante, el teorema también nos dice que hay un l´ımite para el error de clasificación; y este está dado por el error del clasificador de Bayes. Considere el siguiente ejemplo,

Ejemplo 1.1.1. Suponga que hay dos clases, Y = {0,1}, y la variable aleatoria X es tal que X|Y=0 ∼ N(1,1), y X|Y=1 ∼ N(−1,1). Suponiendo que la cantidad de elementos en cada clase

es la misma (fy(y) = 0,5δ0+ 0,5δ1), entonces, fY|X=x(y) = fX|Y=y(x)_ffY(y)

X(x) =fX|Y=y(x)

1 2fX(x). Por lo tanto,

c(x) =

(

1, si fX|Y=1(x)> fX|Y=0(x),

0, si fX|Y=1(x)< fX|Y=0(x).

=

(

1, si x <0, 0, si x >0.

o

oo

o

o o

o

oo o

o

o o

o

oo

o

−3

−2

−1

0

1

2

3 −1.0

0.0

1.0 X

x

x x

x

x x

x

x x

x

Y=0 Y=1

Figura 1.1: MuestraX para dos clasesY = 0,1.

−3

−2

−1

0

1

2

3

0.00

0.10 t

F_0 F_1

Figura 1.2:Densidades marginalesFX|Y=0, FX|Y=1.

1.1.2. Enfoque de Optimizaci´

on

En el mismo contexto anterior, suponga que tenemos un conjunto de datos{(Xi, Yi)}. El

pro-blema de encontrar una funciónc :X →Y buena, requiere de formalizar el concepto de ser o no buena. Para abordar esta disyuntiva, se plantean los errores emp´ıricos y error cuadrático como la frecuencia de error en la muestra y el promedio del cuadrado de la diferencia entre la clasificación y el valor real respectivamente:

ˆ E(c) = 1

n

n X

i=1

(15)

1.2. Redes Neuronales 5

M SE(c) = 1 n

n X

i=1

(c(Xi)−Yi)2. (1.3)

Ahora bien, es ´util restringir el clasificadorca una familia de posibles clasificadoresF. De este modo, el problema de encontrar un buen clasificador se puede reescribir formalmente de la manera siguiente:

Dados{(Xi, Yi)}i=1,...,n, c= arg min f∈F

E(f). (1.4)

Para que estos problemas sean matemáticamente tratables, es necesario imponer condiciones sobre los datos, la familia de clasificadores y la formulación de los errores. Naturalmente, estamos interesados en encontrar una solución óptima en un tiempo razonable. Normalmente se utiliza el MSE para resolver este problema por sus propiedades de diferenciabilidad. Sin embargo, a veces es mejor utilizar otras funciones, también diferenciables, como 1

n P

i||c(Xi)−Yi||p. Por estas razones,

a la familia de funciones F se le exige que se sea diferenciable con respecto a algún parámetro de modo que el problema original,c= arg min_f_∈FE(f), se pueda representar como un problema de optimización que se haya estudiado y su solución —o sus métodos para encontrar soluciones aproximadas— sea conocida. Por ejemplo, es deseable poder obtener una representación Lineal, Cuadrática, Semidefinida o Convexa en general. Cada uno de los cuatro tipos de problemas men-cionados anteriormente ha sido ampliamente estudiados y son áreas activas de investigación en optimización. Algunos de los métodos más famosos para resolverlos son Simplex, SMO, Goemans-Williamson, Lagrange-KKT, entre otros. [2]

Dichos enfoques —de estad´ıstica y de optimización— enriquecieron la formulación del proble-ma de clasificación hasta el punto en que se logró formalizar, y en cierto sentido unificar, la teor´ıa de aprendizaje y aprendibildiad. Veamos brevemente uno de los hechos que constituyeron la base de esta teor´ıa. Asumiendo las mismas hipótesis mencionadas anteriormente, el teorema de apren-dibilidad de Vapnik-Chervonenkis demuestra que es posible, para una familia de clasificadoresF

no muy general, estimar correctamente el error _P(c(X) 6= Y) por medio del error emp´ırico Ê. Un hecho asombroso como este, a pesar de que merece una lectura más cuidadosa y detenida, no se demostrará formalmente en este proyecto, pues se sale de los objetivos planteados. El lector interesado debe remitirse a [3].

1.2. Redes Neuronales

Las redes neuronales son un tipo de clasificador inspirado en la idea de que una acción está determinada por distintos tipos de excitación de sus entradas. Considere el bloque Σ, cuya sali-da depende de una transformación lineal a fin de sus entradas X1, . . . , Xn. Para representar la

excitaci´on se aplica sucesivamente una funci´onf no lineal a Σ,

Σ =w0+w1X1+· · ·+wnXn, Y =f(Σ)3.

Figura 1.3: Modelo de una neurona.

En suma, tenemos queY =f(w0+w1X1+· · ·+wnXn) donde w1, . . . , wn. As´ı, el problema

se reduce a encontrar los valoreswi que mejor aproximen aY conociendoXi. Cuandof(t) =t el

(16)

problema original se vuelve equivalente un problema de regresi´on lineal, pero cuandoY toma va-lores en un conjunto discreto, las aproximaciones usuales para resolver el problema de regresi´on no sirven. Cuando, por ejemplo,f(t) =₁(t≥0), entonces, considerados (1, X1, . . . , Xn) como puntos

enRn, la clasificaci´onc representar´a la pertenencia del vector (1, X1, . . . , Xn) al lado positivo del

semiplano con normal (w0, w1, . . . , wn).

Intuitivamente, aumentar la cantidad de neuronas hasta formar una red puede mejorar la capacidad del algoritmo para clasificar acertadamente. De ah´ı, una red neuronal —también llamada perceptrón multicapa en el contexto particular clasificación binaria— consiste de utilizar varias neuronas para generar múltiples activaciones Σ1, . . . ,Σm, de las cuales se extraen también múltiples

excitacionesf1, . . . , fm. Aunquefipuede ser una funci´on arbitraria, para el problema espec´ıfico de

clasificación es recomendable utilizar funciones que tomen valores en [0,1]. Utilizar varias capas de neuronas para formar unared neuronal nos conlleva a mejorar la resolución al discernir los datos en sus clases correspondientes. De hecho, cualquier función es aproximable por medio de funciones de activación. Este es un hecho importante que vale la pena tener en cuenta y se le llama por Teorema de Aproximación Universal.

Teorema 1.2.1. (Teorema de Aproximación Universal [4]) Seaφ:R→Runa función monótona

creciente y continua. SeaI⊆Rmun conjunto compacto. Entonces, para toda toda funci´on continua

sobre I,f ∈C(I), y >0 existenN ∈N,α1, . . . , αN, b1, . . . , bN ∈R,w1, . . . , wN ∈Rm tales que,

ˆ

f(x) :=X

i

αiφ(wiTx+bi), sup x∈I

|fˆ(x)−f(x)|=||fˆ−f||∞< .

Si juntamos el teorema de aproximación universal y el teorema de Bayes podemos pensar que, en el caso ideal, resolver el problema de clasificación para una red neuronal suficientemente grande nos llevará a una solución que se aproxima, en el l´ımite, al clasificador de Bayes. A pesar de las buenas intenciones al aumentar el tamaño de la red, surgen consecuentemente muchas más preguntas tales como ¿Cuántas capas son suficientes? ¿Qué funciones de activación son mejores? ¿Cómo implementar una red grande computacionalmente? ¿Cómo entrenar la red? Estas preguntas aún no tienen soluciones exactas y en la práctica se recurre a pruebas heur´ısticas sobre estos parámetros. Las funciones de activación más comunes son la sigmoidal φ(t) = ₁₊1_e−t; la arcontangente φ(t) =

2

πarctan(t); la funci´on de escal´on de Heaviside φ(t) = 1(t ≥0); y la rectificadora lineal φ(t) =

m´ax(0, t).

1.2.1. Redes Convolucionales

Las redes convolucionales son un tipo de red neuronal artificial en la que existen capas de activaci´on en las que se utiliza convoluciones en lugar de producto punto. Es decir, se reemplaza φ(wT_x₊_{b) por}_φ(w_∗_x₊_{b). Esta idea sugiere varias ventajas: primero, la cantidad de par´}_ametros

de entrenamiento aumenta, lo que podr´ıa traducirse a una mejor resolución en la captura de atri-butos relevantes para la clasificación. También resulta ser conveniente utilizar convolución porque, gracias al teorema de convolución, podemos representar cualquier tipo de filtro de respuesta finita al impulso (FIR) por medio de una convolución. Por lo tanto, podr´ıa pensarse que las capas con-volucionales actúan como filtros que, a medida que se entrena la red, se van adaptando al tipo de problema espec´ıfico en el que se quiere clasificar.

Recordemos que la convolución entre dos señales X ∈Rn yY ∈Rm nos forma otra señal en

Rm+n dada por

(X∗Y)i= X

k

XkYi−k = X

r+s=i

XrYs. (1.5)

Para matrices tenemos la siguiente definici´on para la convoluci´on entre una imagenX y un filtro F. Considere una imagenX ∈RM×N y un filtroF ∈Rm×n, entoncesY :=X∗F es la matriz en

en_R(M+m)×(N+n)_{en donde,}

Yij = X

k,l

Xk,lFi−k,j−l= X

k+l=i X

r+s=j

(17)

1.3. Transformada de Fourier 7

Ejemplo 1.2.1. Se calcula el resultado de la convoluci´on entre una imagen de 512×512 y un filtro de 3×3.

∗ 



−1 −2 1

3 2 −1 1 1 −2



=

Una capa de la red convolucional está conformada, entonces, por varias secciones de covolución. Para generalizar esta idea a imágenes representadas por tres canales —RGB— se consideran tam-bién tres canales de filtros y el resultado final se suma. Esto es, siXRGB ∈RM×N×3,F ∈Rm×n×3

XRGB∗FRGB :=XR∗FR+XG∗FG+XB∗FB. (1.7)

Ahora bien, el resultado de aplicar la convoluci´on a un conjunto de filtrosF1, . . . , FD∈Rm×n×3

ser´a F= (F1, . . . , FD)∈Rm×n×3×D.

XRGB∗F:= (XRGB∗F1, . . . , XRGB∗FD).

Figura 1.4:Convoluci´on entre una Imagen a color y un banco deDfiltros.

1.3. Transformada de Fourier

La transformada de Fourier es una transformación entre espacios de Hilbert que, aplicado a la caso de L2(C)[0,2π] o l2(C), se traduce en captura de información frecuencial de la función a la

que se le aplica. La definici´on es,

f ∈(H,h·,·i) con base ortonormal (ex)x∈I, F(f)(x) :=hf, exi. (1.8)

Ejemplo 1.3.1. Se consideran los casos particulares L2(C)[0,2π],l2(C), que son conocidos como

CTFT y DTFT respectivamente.

f ∈L2(C)[0,2π], F(f)(x) :=

Z 2π

0

f(t)e−2πixtdt. (1.9)

f ∈l2(C), F(f)[n] :=

∞

X

k=−∞

(18)

1.3.1. Transformada Discreta de Fourier

La transformada discreta de Fourier es una implementación numérica de la transformada de una señal que se asume es una submuestra de una señal periódica. La definición de esta es, dado un vector X∈Rn,

ˆ X(i) =

n−1

X

j=0

X(j)ωij_n, dondeωn:=e2

√

−1π/n_. _(1.11)

El algoritmo de Cooley-Tukey permite calcular esta transformaci´on en tiempo O(nlogn). La versi´onddimensional de esta transformada es natural:

X ∈Rn×···×n=Rn

d

, X7→X,ˆ Xˆ(i1,...,id)=

X

(i0

1,...,i0d)∈[n]d X(i0

1,...,i

0 d)ω

i1i01+···+idi0d

n . (1.12)

En particular para una imagen, la transformada se reescribe como una transformada primero por filas(o columnas) y luego por columnas(o filas).

X ∈RM×N, F(X)(i, j) =

M X

i0₌₁

N X

j0₌₁

X(i0, j0)ω_Mii0ω_Njj0. (1.13)

Ejemplo 1.3.2. Se consideran las transformadas de Fourier para dos im´agenes4

F

−→

Figura 1.5: Lena,X, y su transformada de Fourier, log10(1 +|F(X)|).

F

−→

Figura 1.6:Una imagen de lentejas,X, y su transformada de Fourier, log10(1 +

|F(X)|).

1.3.2. Transformada Dispersa de Fourier

Los autores en [6] crearon un algoritmo muy eficiente para calcular esta transformación pa-ra señales que son dispersas en frecuencia. Una señal x∈ Rn esk-dispersa en frecuencia cuando

|{supp(ˆx)}| ≤k, es decir, cuandoxtiene a lo m´askcomponentes frecuenciales no nulas. Si tuvi´ era-mos que calcular la transformada de Fourier discreta sobre un conjunto de se˜nales {x1, . . . , xn}

que sabemos a prior es disperso, esperar´ıamos que exista una implementación más eficiente para calcularla. El algoritmo diseñado en el laboratorio de inteligencia artificial del MIT aprovecha al

(19)

1.3. Transformada de Fourier 9

máximo la propiedad de dispersión para utilizar métodos estocásticos de estimación. Dicho algorit-mo es capaz de encontrar con alta probabilidad la transformada en señales exactamentekdispersas en tiempoO(klogn). Para señales aproximadamentek-dispersas el tiempo que le toma algoritmo esO(klognlog(n/k)). La idea del algoritmo es simple: estimar las posiciones de los coeficientes grandesInnerLoop locate; estimar el espectro en estas posicionesInnerLoop estimate; repetir la localización hasta tener una estimación casi exacta, y recuperar el valor del espectro en estas posiciones.

Algorithm 1Sparse one-dimensional Fast Fourier Transform

1: procedure_InnerLoop

2: procedure _{InnerLoop locate}(X, σ, G, d)

3: Yi ←Xσi+τ.

4: Yi ←GiXσi+τ.

5: Zi←P_j_≡B_iYj.

6: Zˆi←Pj∈[B]Zjω

ij B.

7: Hashed Index←Seleccionar losd´ındices m´as altos en {|Zˆi|}.

8: Index←σ−1_{(Hashed Index).}

9: returnIndex 10: end procedure

11: procedure InnerLoop estimate(Index,G) 12: EstimateIndex= ˆZHashed Index/GHashed Index.

13: V alueIndex=EstimateIndex.

14: V alue[n]−Index = 0.

15: returnV alue. 16: end procedure 17: end procedure

Algorithm 2Sparse one-dimensional Fast Fourier Transform

1: procedureOuterLoop(X, G, d)

2: fori∈ {1, . . . , O(logn)}do 3: σ←k, such that (n, k) = 1.

4: Indexi ←InnerLoop locate(X, σ, G, d)

5: end for

6: I← {j∈ ∪iIndexi:|{i:j∈Indexi}| ≥ n₂}.

7: V alue←InnerLoop estimate(I, G). 8: ReturnValues.

9: end procedure

Una imagen de ejemplo del funcionamiento se muestra a continuaci´on.

(20)

(21)

11

Cap´ıtulo 2

Metodolog´ıa

Para abordar el problema de clasificación de imágenes, proponemos utilizar redes neuronales convolucionales. El clasificador c consistirá de una sucesión de capas c = (c1, c2, . . . , cn) que se

aplican serialmente de modo la clasificaci´on de una imagenA∈Rm×n×3 se efectuar´a al aplicar la

primera capa,c1, e iterativamente aplicar el resultado de la capa actual a la siguiente,

A c1

−→c1(A)

c2

−→ . . . cn

−→c(A).

Los par´ametros que se aprenden durante el proceso de aprendizaje son entonces los par´ ame-tros wi de cada capa ci. Consiguientemente nuestro clasificador, c, est´a parametrizado porw :=

(w1, . . . , xn). Para ello, se propone el siguiente esquema de soluci´on:

1. Obtener un conjunto de im´agenes previamente clasificadas:{(Xi, Yi)}i≤n.

2. Particionar este conjunto en dos subconjuntos:train,val, donde |val_n |=k%.

3. Para el conjuntotrain, resolver —o aproximar— la soluci´on del problema de optimzaci´on,

w∗= arg min w∈W

M SE(c(w)).

4. Estimar el error de clasifcaci´on en el conjuntoval,

ˆ

E(w∗) = _|_val1_| |val|

X

i=1

1(c(Xi)6=Yi).

El paso clave de este esquema es la aproximación a la solución del problema de optimiza-ción. Dado que las exitaciones son no lineales, utilizaremos un técnica conocida como descenso de gradiente con tasa de aprendizajeη; regularización tipo weight decayλ; y momentumα. Las descripciones de estos conceptos se muestran en la siguiente sección.

2.1. Algoritmo de Entrenamiento

2.1.1. Backpropagation

El aprendizaje es perfecto cuando_P(c(X)6=Y) = 0. Ya vimos que no siempre es posible alcan-zar aprendizaje perfecto y además la mejor clasificación está siempre dominada por la clasificación intr´ınseca de Bayes. De esta forma, el proceso de entrenamiento consiste de encontrar el c que minimiceEc=P(c(X)6=Y). Como es usual, estos problema no son siempre convexos, y por ende

no existe un método general de resolverlo. As´ı, toca recurrir a métodos iterativos aproximados, acá consideramos el caso de descenso de gradiente con tasa de aprendizaje η, regularizaciónλ, y momentumα.

Dados{(Xi, Yi)}i∈train, w∗= arg min

w 1 2

X

i∈train

||cw(Xi)−Yi||22+

λ 2||w||

2

(22)

12 Cap´ıtulo 2. Metodolog´ıa

Algorithm 3Gradient Descent

1: procedure _{Gradient Descent}({(Xi, Yi)}i∈train, Ep, η, λ, α,w0)

2: w←w0.

3: fori∈ {1, . . . , Ep}do

4: w←w−η(∇wM SE(cw) +λw) +α∆(w). 5: end for

6: Return w. 7: end procedure

Dependiendo de las condiciones de la red, calcular∇wM SE(cw) puede ser muy complicado si se utiliza la f´ormula entera de todas las capas para el error. Sin embargo, es claro que∇wM SE(cw) = P

i(cw(Xi)−Yi)(∇w(cw)). As´ı que el problema se transforma en calcular∂cw/∂wi. Ahora, el hecho

de que la red est´e divida en capas una tras otra,c=cn◦cn−1◦ · · · ◦c1, nos permite calcular esta

derivada de manera iterativa utilizando la regla de la cadena. A este proceso se le conoce como BackPropagation. El concepto general de BackPropagation se basa en:

∂cw ∂wi

= ∂(cn(cn1◦ · · · ◦c1))

∂wi

= ∂cn ∂wi

((cn1◦ · · · ◦c1))

∂(cn1◦ · · · ◦c1)

∂wi

. (2.2)

En este orden de ideas, para entrenar la red es necesario saber c´omo calcular las derivadas en cada una de las capas ∂cj/∂wi. En la pr´actica existen muchas propuestas para las capas. En

este trabajo nos limitaremos a utilizar solamente las capas de convolución, y las capas no lineales correspondientes aReLu,MaxySoftMax. La capaSoftMaxes una versión diferenciable del máximo y se define como:

X ∈_Rk1×k2_, _SoftMax_(X_{) = log}



 k1 X

i=1

k2 X

j=1

eX(i,j)



. (2.3)

Ahora bien, cada uno de los t´erminos∂M SE(cw)/∂wien el algoritmo de descenso de gradiente

incluye toda la muestra de entrenamientotrain. Esto no solo puede hacer el proceso más lento y más pesado computacionalmente, sino que puede resultar en soluciones que no son óptimas [7]. Por esta razón se ha pensado en que es mejor realizar cada paso durante Backpropagation utilizando submuestras de train denominadas batches. Al algoritmo basado en entrenamiento porbatches se le conoce comoStochastic Gradient Descent.

Algorithm 4Stochastic Gradient Descent

1: procedure _SGD({(Xi, Yi)}i∈train, Ep, η, λ, α,w0, B)

2: train=T1∪ · · · ∪Tk, tales que|Ti| ≤B.

3: w←w0.

4: fori∈ {1, . . . , k}do

5: w←Gradient Descent({(Xj, Yj)}j∈Ti, Ep, η, λ, α,w).

6: end for 7: Return w. 8: end procedure

2.1.2. Convoluci´

on

Las redes convolucionales revolucionaron las máquinas de clasificación en cuanto los compu-tadores fueron mejorados, pues, aunque la teor´ıa de BackPropagation para redes convolucionales fue creada desde hace más de treinta años, no fue posible implementarla eficientemente sino hasta hace menos de diez. Desde entonces, se han creado áreas en las que se busca cómo aplicar estas redes en otras ramas de las ciencias y al mismo tiempo se han concentrado muchos esfuerzos por tratar de mejorar su desempeño y disminuir el costo computacional y temporal. Veamos breve-mente por qué es pesado computacionalmente.

(23)

2.1. Algoritmo de Entrenamiento 13

Si tenemos un batch de tamaño BX de imágenes XRGB de tres canales de tamaño RM×N,

en total tendremos un arreglo de tama˜no X ∈ RM×N×3×BX_{. De la misma manera, tenemos un} conjunto deDfiltros de tres canales de tama˜noRm×n, as´ı queF∈Rm×n×3×D. Entonces, por cada

una de lasBX imágenes en elbatchhay que realizar la operación de convolución para obtener un

arreglo enR(M−m+1)×(N−n+1)×D. En cada convoluci´on estamos realizando un producto-suma que

requiere deO(m×n) operaciones, que se deben repetir a lo largo de toda la imagen (M −m+ 1)×(N−n+ 1) veces. As´ı que al final, una sola convoluci´on con un solo filtro tiene complejidad en tiempo de,

O((m×n)((M−m+ 1)×(N−n+ 1))).

Por lo tanto la complejidad de la operaci´on completaX∗Fes,

O((m×n)((M −m+ 1)×(N−n+ 1))(3)(D)(BX)).1

Para facilitar los cálculos asumiremos de aqu´ı en adelante que la imagánes y los filtros serán cuadrados,M =N,m=n. As´ı, la expresión para la complejidad de la convolución porbatches,

O(m2(M−m+ 1)2(3)(D)(BX)). (2.4)

La convolución es, por lo tanto, la operación que domina el tiempo de ejecución del algoritmo de aprendizaje. La propuesta de este trabajo es optimizar dicho proceso combinando las ideas de transformada dispersa de Fourier, convolución y procesamiento paralelo en tarjetas gráficas. Va-rios autores [8, 9] ya han explorado la viabilidad de utilizar transformadas de Fourier para facilitar labor extensiva y repetida de la convolución.

La propuesta, siguiendo las ideas de los autores en [9], es transformar las imágenesX→ F(X), F→ F(F), para que las convoluciones se puedan hacer más rápidamente apelando al teorema que relaciona la transformada de Fourier y las convoluciones.

Teorema 2.1.1. (Teorema uni-dimensional Convoluci´on Fourier) SeanX ∈_RN_,_F_∈

Rn. Defina

X∗F =:Y ∈RN−n+1, comoYi=P_jXi+jFn−j. SiFN denota la FFTN-dimensional, entonces,

∀i=n+ 1, . . . , N : FN(X)iFN(F)i=FN(X∗F)i−n.

As´ı que para efectuar la convoluci´on entreXyF, solo tenemos que hacer 3(D)(BX) productos

directo de F(X) y F(F) que requieren M2 operaciones. Transformar cada imagen (filtro) toma O(2M2logM), as´ı que en total la complejidad de transformar, hacer producto directo y posterior-mente hacer la transformaci´on inversa es,

O(2M2log(M)(3DBX) +M2(3DBX) + 2M2log(M)(DBX)). (2.5)

Entonces, se puede notar que la complejidad está dominada por el tiempo que toma la primera transformación deXy F. As´ı que nos enfocaremos en optimizar este proceso en particular. Para tal fin vamos a construir una transformada más rápida,sfft, basada en la idea de la transformada dispersa de [6] y el hecho que las imágenes grandes son dispersas en frecuencia. Vea, por ejemplo, las figuras 1.4 y 1.5. Para construir el algoritmo tendremos en cuenta las siguientes definiciones.

Definici´on 2.1.1. Para n := (n1, . . . , nd) ∈ Nd definimos, n-transformada discreta de Fourier

como:

Fn:Cn1×···×nd →Cn1×···×nd,

X7→Xˆ, Xˆ(i1, . . . , id) =

X

(j1,...,jd)∈[n1]×···×[nd]

X(j1, . . . , jd)ωi1j1n1 . . . ω idjd

nd .

Dondeωa =e 2π√−1

a .

Definici´on 2.1.2. araK:= (k1, . . . , kd)∈Nd definimos,k-submuestra como:

SK:Cn1×···×nd→Ck1×···×kd,

1_{En esta notaci´}_{on de complejidad conservo la constante 3 para hacer las comparaciones con otras}

(24)

X7→Y, Y(i1, . . . , id) =X(i1bn_k1

1c, . . . , , idb nd

kdc).

Ejemplo 2.1.1. Se muestran ejemplos de Sk yS(n/2,n/2).

Figura 2.1: Ilustraci´on de dos submuestras, un en dimensi´on 1 y la otra en

dimensi´on 2.

Definici´on 2.1.3. ParaK:= (k1, . . . , kd)∈Nd definimos, k-m´oduloSuma como:

ΣK :Cn1×···×nd→Ck1×···×kd,

X7→Y, Y(i1, . . . , id) = X

jl≡_klil

X(j1, . . . , jd).

Ejemplo 2.1.2. Se muestra un ejemplo deΣk.

Figura 2.2: Ilustración de unakmódulo suma en dimensión 1.

Definici´on 2.1.4. Paraσ:= (σ1, . . . , σd)∈Nd definimos, σ-permutaci´on como:

Pσ:Cn1×···×nd→Cn1×···×nd,

X7→Y, Y(j1, . . . , jd) =X(σ1j1, . . . , σdjd).

Con estas definiciones ya podemos construir el algoritmo. Antes de esto, consideremos los siguientes dos teoremas que relacionan la transformada de FourierndimensionalFncon la trans-formadakdimensionalFk; laksubmuestraSk; lakm´odulo suma Σk; y laσpermutaci´onPσ.

Teorema 2.1.2. Sean k,n, con ki|ni. Sean Fn,Sk,Σk,Fk como en las definiciones 2.1.1-2.1.4. Entonces, el siguiente diagrama es conmutativo:

Cn Cn

Ck Ck

Fn

Sk αΣk Fk

, dondeα= QQk_n.

La conclusión de este teorema es que si, en lugar de calcular transformada de Fourier completa, calculamos la transformada de una submuestra, entonces es lo mismo que hacer una módulo suma de la transformada completa. O sea que, si quisiéramos reconstruir la transformada de Fourier de una señal grande, podemos solo calcular la transformada de una submuestra y luego mapear los coeficientes a las posiciones reales —escalando apropiadamente porα−1— sabiendo que provienen de una suma módulo.

(25)

Teorema 2.1.3. Seank,n, conki|ni. SeanFn,Sk,Σk,Fk, Pσ como en las definiciones 2.1.1-2.1.4,

siendo(σ,n) = 1. SeaG∈Cn. Entonces, el siguiente diagrama conmuta:

Cn Cn

Ck Ck

Fn

Pσ Pσ−1

Fn

Q_n_G_· _ˆ G∗ Fn

ΣK SK Fk

Este teorema es esencialmente el corazón del algoritmo de la transformada dispersa del MIT. El primer diagrama captura el hecho que permutar en espacio y luego transformar es equivalente a transformar y luego efectuar la permutación inversa. Este paso es el que se repiteO(logn) veces. En el siguiente diagrama se resume el hecho que filtrar en espacio —multiplicar punto a punto— y luego transformar es equivalente a transformar y luego hacer convolución con la transformada del filtro. En este paso del algoritmo la señal, que está permutada en frecuencia, se le aplica la convolución con un filtro cuya función es visibilizar las frecuencias altas. Para esto se escoge un filtro lo más parecido a una ventana exacta para que cuando se efectúe la convolución cada frecuencia se repita uniformemente sobre un intervalo de dimensiónk—también llamadobucketpor los autores originales. Finalmente, en el último diagrama se captura el hecho inverso al teorema 2.1.2, a saber, sumar módulo y luego transformar es equivalente a transformar y luego submuestrear. En este paso, ya que hemos “agrandado” cada coeficiente grande en el paso previo al filtrar, vamos ahora a submuestrear de tal forma que, con alta probabilidad recuperemos los coeficientes agrandados. En resumen podemos resumir que el algoritmo disperso, descrito en el teorema 2.1.3 realiza lo siguiente:

1. Permutar los coeficientes.

2. Replicar estos coeficientes a lo largo de una ventanak.

3. Escoger una muestra de cada ventana y as´ı recuperar cada coeficiente.

Se describen los dos algoritmos propuestos que denominarésfft1ysfft2. El primer algoritmo asume que todos los coeficientes se encuentran, posiblemente aproximadamente, concentrados sobre la ventana de tamañoky por lo tanto al k-submuestrear en frecuencia se suman módulok, pero solo el término de la ventana es no nulo.

Algorithm 5sparse Fourier Transform 1

1: procedure_sfft1(X,k)

2: α← QQ_nk.

3: Y ← SkX.

4: Yˆ ← Fk(Y).

5: Xˆ ←α−1_{hash( ˆ}_Y_). _._{hash retorna las posiciones de la}_{kventana centrada en}_0.

6: ReturnX.ˆ 7: end procedure

Para la construcción desfft2vamos a asumir que la señalX está espectralmente concentrada en una kventana centrada en 0, y los coeficientes que no están dentro de la ventana son pocos —dispersos. Entonces, primero se estiman dichos coeficientes que están por fuera de la ventana utilizando la transformada dispersa original [6], pero adaptada para dos dimensiones. Luego se efectúasfft1para reconstruir la ventana.

(26)

Algorithm 6sparse Fourier Transform 2

1: procedure _sfft1(X,k, G, d) 2: outside←OuterLoop(X, G, d). 3: inside←sfft1(X,k).

4: Xˆ ←outside∪inside. 5: ReturnX.ˆ

6: end procedure

As´ı, podremos cambiar la transformaci´on de los BX batches de XRGB en tiempo O(klogk)

con sfft1y en tiempoO(klogk+klogn) consfft2. Además, el filtroGque se utilizará será la

ventana exacta de tamañok, pues la multiplicación punto a punto en GPU toma solamenteO(1). A continuación se muestra la complejidad temporal teórica de cada proceso de estos dos diagramas. La demostración de estos hechos la puede encontrar en el apéndice.

Cn Cn

Ck Ck

Fn

Sk αΣk Fk

GP U

−→ C

n

Cn

Ck Ck

O(nlogn)

O(1) O(logk)

O(klogk)

Cn Cn

Ck Ck

Fn

Pσ Pσ−1

Fn

Q_n_G_· _ˆ G∗ Fn

ΣK SK Fk

GP U −→

Cn Cn

Ck Ck

O(nlogn)

O(1) O(1)

O(nlogn)

O(1) O(1)

O(nlogn)

O(logk) O(1)

O(klogk)

En conclusión, se implementará la convolución utilizando el siguiente diagrama,

Figura 2.3:Ilustraci´on de la propuesta para efectuar convoluci´on.

En suma, queremos resolver el problema de optimizaci´on 4 utilizando descenso de gradiente para lo cual necesitamos calcular∂L/∂wi, que, a su vez, se puede reducir a calcular∂cj/∂wi(2.2).

(27)

Para las capas diferentes a convolución – y por lo tanto no lineales– la derivada se puede calcular fácilmente y la implementación ya viene dada para_Matlabpor [10]. Nos enfocaremos en el an´ ali-sis de∂c/∂wi cuandoc es una convolución y veremos cómo se traduce esta derivada a su versión

frecuencial.

Sea X∈RM×M×3×BX_,_F_∈

Rm×m×3×BF _y_Y_∈

R(M−m+1)×(M−m+1)×BF×BX _{tales que,}

Y=X∗F.

Por 2.2, tenemos que _∂∂L_X y ∂L_∂_F se pueden calcular conociendo _∂∂L_Y. De hecho, dado que la operaci´on∗es lineal, para cadai∈[BX],

∂L ∂Xi

= X

f∈[BF] ∂L ∂Yf i

∗∂Yf i

∂Xi

= X

f∈[BF] ∂L ∂Yf i

∗Ff.

An´alogamente, para cadaf ∈[Bf],

∂L ∂Ff

= X

i∈[BX] ∂L ∂Yf i

∗∂Yf i

∂Ff

= X

i∈[BX] ∂L ∂Yf i

∗Xi.

Ahora bien, la transformada de Fourier tambi´en es lineal y tambi´en podemos utilizar el dominio frecuencial para calcular las derivadas. Las versiones frecuenciales de∂L/∂wison por consiguiente:

Fn

_∂L

∂Xi

l

= X

f∈[BF]

Fn

_∂L

∂Yf i

l

Fn(Ff)l. (2.6)

Fn

_∂L

∂Ff

l

= X

i∈[BX]

Fn

_∂L

∂Yf i

l

(28)

(29)

19

Cap´ıtulo 3

Evaluaci´

on Computacional

En esta sección vamos evaluar los algoritmos descritos en la sección anterior. La implementación de estos algoritmos se llevó a cabo en una máquina con sistema operativoWindowscon una CPU que consiste de 8 procesadores AMD FX-8350, con 8Gb de memoria RAM y GPU GeForce GTX 750 con capacidad de cómputo 5.0. Se utilizó el toolbox de versión libreMatConvNet[10], sobre

MatlabR 2015a. Para la implementaci´on de los algoritmos dispersos nos basamos en el algoritmo implementado sobre C++ [6] transferido a CUDA y Matlab. Las bases de datos utilizadas para demostrar la efectividad del algoritmo las puede encontrar en [5, 11, 12, 13, 14].

El primer banco de imágenes,_DTD, fue recopilado por Cimpoi et al. [11]. Este consiste de 47 clases de texturas diversas presentes en la naturaleza. Las imágenes están a color y cada clase con-tiene 120 instancias de imágenes de distintos tamaños, lo que equivale a un total de 5640 imágenes de entrenamiento.

En el segundo banco de imágenes,_KTH, hay una pequeña colección de imágenes con texturas de ambientes de hogar [13]. Las imágenes están escala de grises y tienen dimensión 640×480 pixeles. Hay un total de 15 clases y 40 instancias por clase. La cantidad total de instancias en la base de datos es, por lo tanto, 600.

La tercera base de datos evaluada es la colección de imágenes, Kyleberg , consistente de 19 clases de texturas variadas [5]. Las imágenes se encuentran en escalas de grises en dimensión 576×576. En cada clase hay 160 instancias para el entrenamiento.

La cuarta base de datos, _{Diabetic Retinopathy} , fue obtenida del desaf´ıo de detección de Diabetes realizado por Kaggle [14]. Esta base de datos contiene las fotograf´ıas a color de la retina de alrededor de 9000 pacientes. Cada paciente está clasificado en una de 5 clases dependiendo del estado de su Diabetes Retinopática. Las clases sonSin DR,DR Dócil,DR Moderada,DR Severa y DR proliferativa. El tamaño original de 2496×1664, pero acá utilizamos una reducción a 256×256.

Finalmente evaluamos la base de datos construida inicialmente por la universidad de Stanford y posteriormente procesada por Ng et al._stl[12]. En esta tenemos 10 clases de objetos y/o animales a color en dimensión 96×96. En las siguientes figuras se ilustran imágenes de algunas de las clases en cada banco de datos. Puede encontrar el resumen de esta información en la siguiente tabla.

Base de datos Clases Instancias Instancias/clase Dimensi´on Color

DTD 47 5640 120 200–400 S´ı

KTH 15 600 40 640×480 No

Kyleberg 19 3040 160 576×576 No

Diabetic Retinopathy 5 18307 (13410,1312,2754,449,382) 256×256 S´ı

stl 10 13000 1300 96×96 S´ı

(30)

20 Cap´ıtulo 3. Evaluaci´on Computacional

Banded Cracked HoneyCombed Pasiley Swirly

Figura 3.1:Im´agenes de ejemplo de 5 clases de la baseDTD.

Brick Carpet Fur Knit Uphosltery

Figura 3.2:Im´agenes de ejemplo de 5 clases de la baseKTH.

Blanket Ceiling Floor Rice Stone

Figura 3.3: Im´agenes de ejemplo de 5 clases de la baseKyleberg.

Figura 3.4:Cinco im´agenes de ejemplo de la baseDiabetic Retinopathy.

Dog Cat Bird Airplane Car

Figura 3.5:Im´agenes de ejemplo de 5 clases de la basestl.

3.1. CUDA y Programaci´

on Paralela

Se implementarán los algoritmos en la versión basada en C de la plataforma de programación en tarjetas gráficas CUDA. La programación sobre este lenguaje requiere un estudio detallado de la arquitectura particular de cada tarjeta gráfica y de descripciones más precisas sobre el hardware espec´ıfico que se emplea durante la ejecución de cada comando. Por lo tanto no se comentarán muchos detalles sobre cómo está conformada esta tarjeta de procesamiento. A grandes rasgos, la tarjeta de procesamiento gráfico, GPU, puede realizar muchas más operaciones en paralelo que un procesador central, CPU, debido a que su arquitectura enfoca más transistores en más submódulos de procesamiento (ALU, CONTROL y CACHE). Por lo tanto en la GPU tenemos capacidad de realizar más operaciones en las unidades Aritmético-Lógicas (ALU) de manera independiente a

(31)

3.2. CUFFT 21

cambio de tener menos registros por Unidad y unidades menos r´apidas.

Figura 3.6:Breve ilustraci´on de la arquitectura en una GPU y CPU. Gr´afica de

desempe˜no en GFLOPs/s. [15]

En muchos casos resulta mejor tener pocos procesadores con más velocidad de operación por segundo y con gran capacidad de memoria que tener muchos procesadores no tan rápido. Para algoritmos que necesiten operar muchos procesos de forma serial es recomendable utilizar im-plementaciones en CPU. Si, por el contrario, necesitemos hacer operaciones sencillas sobre cada elemento de un arreglo y las operaciones entre arreglos son todas independientes entonces podr´ıa explorarse qué tan eficiente ser´ıa la implementación sobre GPU. Cabe notar que para realizar ope-raciones sobre la GPU es necesario primer transferir los datos a la memoria global de la GPU, efectuar las operaciones y luego trasferir los datos procesados de la GPU a la CPU. De aqu´ı en adelante llamaremos a las memorias del CPU y GPU comohost ydevice respectivamente como es común en literatura.

3.2. CUFFT

Nuestra propuesta para la optimización del algoritmo está centrada en la capacidad de realizar rápidamente la trasformada de Fourier. Dado que en los algoritmos sFFT1 y sFFT2 realizamos

Fk(X), donde k|n y ki ni, debemos tener presente la complejidad intr´ınseca de Fk. Tanto Matlab como CUDA tienen versiones ya implementadas basadas en la versi´on original del

algo-ritmo de Cooley-Tukey. Vale la pena tener en cuenta las siguientes consideraciones sobre cada una de las dos implementaciones:

1. Matlab utiliza versiones optimizadas del algoritmo de Cooley-Tukey para inputs con di-mensiones que son potencias de primos peque˜nos:{2a,3b,5c}.

2. Matlab precompila implementaciones apropiadas de FFTW en CPU. En CPU utiliza ver-siones de CUFFT.

3. CUDA por s´ı solo no contiene comandos para realizar esta operaci´on por lo cual necesita incluir la librer´ıacufft.

4. CUDA necesita crear un planificador para la transformada en cada operaci´on y para esto es necesario realizar lo siguiente:

Instanciar un planificadorplan de tipocufftHandle.

Inicializar el planificador definido previamente por medio de cufftPlanMany. Acá se definen todos los parámetros de la transformada (Dimensión, muestreo, batches). Liberar el espacio de memoria para el plan por medio decufftDestroy.

5. CUDA permite realizar transformadasC→R(transformada directa) yR→C(transformada

inversa) aprovechando las simetr´ıas de cada una.

(32)

Naturalmente, queremos utilizar la implementación más rápida y que utilice eficientemente el uso de memoria. Para esto se decidió, por un lado, convertir cada base de datos a escala de grises y uniformizar todos los tamaños a {642_,₁₂₈2_,₂₅₆2_}_{. Por otro lado, pondremos a prueba ambas}

implementaciones variando el tamaño de los batches. Veremos cuál implementación utiliza más eficiente la memoria utilizando elNVIDIA visual profiler y evaluaremos los tiempos de corrida de ambos con los comandos de matlabgputimeit.

Dimensi´on

64 128 256

4 0.15(1.49) 0.15(2.03) 0.34(2.61) 16 0.29(2.01) 0.38(2.61) 1.11(6.12) Batch 64 0.72(2.60) 1.27(7.79) 3.57(21.20)

256 2.99(7.68) 4.61(21.32) 78.19(76.98) 512 10.38(15.61) 8.98(39.05) 153.43(152.19)

Cuadro 3.2: Tiempo en milisegundos que le tom´o a Matlab(CUDA) realizar

F(X).

Se puede notar que es el para dimensiones inferiores a 256 y bathces de tamaño menores que 512, el tiempo que le toma aMatlab llevar a cabo la fft es menor.Matlab optimiza los llamados de FFT en dimensiones pequeñas y a eso se debe esta discrepancia. Sin embargo, cuando la cantidad de batches aumenta y en imágenes más grandes ambos procesos toman el mismo tiempo. Veamos qué ocurre en profiler cuando (Batch, Dimension) = (64,256),(512,256).

El comando utilizado en el NVIDIA visual profiler es

-nojvm -nosplash -r test

El resultado demuestra que ambas transformadas realizan exactamente la misma operación (llamado a CUFFT con la misma cantidad de threads y blocks). Sin embargo _Matlab realiza múltiples operaciones para redimensionar el arreglo enRM×M×1×Bch y luego s´ı efectúa la

trans-formada. Por otro lado el llamado del kernel que realiza CUFFT directamente es más eficiente en cuanto a que el kernel realiza la copia de X a dX más rápido pero desalocar la memoria le toma

m´as tiempo. Por tanto se decide utilizar la implementaci´on fft deMatlab .

3.3. Convoluci´

on

En esta secci´on pondremos a prueba la diferentes versiones para realizar la operaci´onX∗F, en el queX∈RM×M×1×BX_,_F_∈

Rk×k×1×Bf _{sobre el rango}

(M, k, BX, BF)∈ {26,27,28} × {4,8,12,16} × {25,26,27} × {2,4,6,8,10}.

A continuaci´on vamos a contrastar los tiempos de los algoritmos vl nnconv [10], fftconv, y

sfftconv 5. La primera tabla muestra el tiempo de ejecuci´on de vl nnconv y en la imagen

si-guiente se muestran un mapa de color con la relaci´on de este tiempo con los de vl nnconv y

(33)

3.3. Convoluci´on 23

M 64 128 256

k 4 8 12 16 4 8 12 16 4 8 12 16

BF BX

32 1.30 2.06 3.58 5.52 2.44 6.40 11.58 17.68 7.32 20.12 41.63 71.15

2 64 2.44 3.85 6.80 9.76 4.19 11.56 21.04 35.09 13.89 39.95 83.02 141.92

128 4.66 7.52 11.67 18.96 8.10 22.09 41.65 69.91 27.83 79.62 165.70 283.78

32 1.29 2.08 3.57 5.55 2.51 6.44 12.05 17.66 7.47 20.19 41.68 71.13

4 64 2.37 3.86 6.77 10.73 4.27 11.27 21.93 35.03 14.14 40.07 83.09 142.10

128 4.57 7.41 13.24 21.28 7.97 22.20 41.76 69.77 28.99 79.77 165.72 283.88

32 1.28 2.08 3.55 5.54 2.30 5.85 10.71 17.76 7.63 21.03 41.76 71.20

6 64 2.38 3.86 6.72 10.77 4.28 11.38 21.10 35.05 16.27 49.36 83.31 142.09

128 4.04 7.15 12.28 19.11 9.39 23.23 41.92 69.87 29.53 80.35 165.88 283.89

32 1.28 2.09 3.53 3.20 2.55 6.16 10.79 17.73 9.00 20.49 41.85 71.31

8 64 2.40 3.91 6.83 10.71 4.61 11.71 21.28 35.15 15.65 40.79 83.40 142.23

128 4.24 6.65 11.77 21.35 8.99 22.94 42.21 70.05 31.84 81.13 166.53 284.29

32 1.29 2.13 3.57 5.59 2.81 6.16 10.83 18.53 9.28 21.21 42.10 71.37

10 64 2.42 3.74 6.95 10.21 5.83 12.40 22.27 35.24 17.69 41.64 83.84 142.55

128 4.15 6.80 11.69 19.20 10.00 23.62 42.49 70.29 131.28 175.80 258.90 372.11

Cuadro 3.3:Tiempo, en milisegundos, en realizarvl nnconv(X,F) en GPU.

M, k

4 8 64 12 16 | 4 1288 12 16 | 4 2568 12 16

B

F

,

BX

---32

2 64

128 ---32

4 64

128 ---32

6 64

128 ---32

8 64

128 ---32

10 64

128

---0.5 1 1.5 2 2.5

(34)

M 64 128 256

k 4 8 12 16 4 8 12 16 4 8 12 16

BF BX

32 1.16 1.13 1.14 1.13 3.498 3.43 3.38 3.24 12.91 12.11 12.11 12.66

2 64 1.93 1.97 1.96 1.87 6.42 6.12 6.39 6.03 23.61 23.46 23.48 23.92

128 3.55 3.43 3.26 3.22 12.24 11.51 11.54 11.53 - - -

-32 1.87 1.88 1.89 1.91 6.09 6.1 6.1 5.78 23.79 22.78 22.28 22.35

4 64 3.28 3.29 3.29 3.26 11.36 11.12 10.95 11.23 108.64 108.1 109.29 107.69

128 6.1 6.07 6.06 6.05 21.71 21.62 22.53 21.24 - - -

-32 2.54 2.52 2.53 2.56 8.17 8.17 8.72 8.7 81.35 81.79 80.72 81.65

6 64 4.59 4.59 4.62 4.61 16.05 15.74 15.65 15.73 222.2 221.15 220.26 223.66

128 8.1321 8.64 8.66 8.08 82.35 79.44 78.79 80.67 - - -

-32 3.23 3.16 3.24 5.55 11.27 11.3 10.84 10.61 112 109.17 107.55 112.39

8 64 5.89 6 5.9 5.89 21.45 21.66 20.55 20.61 - - -

-128 11.27 10.56 10.99 11.32 105.76 105.57 106.18 107.18 - - -

-32 3.89 3.9 3.88 3.89 13.98 13.3 13.08 13.91 135.97 136.9 134.62 134.72

10 64 7.27 7.25 6.41 6.92 66.96 67.55 67.32 65.05 - - -

-128 13.44 13.01 12.99 12.97 133.33 130.64 129.44 125.76 - - -

-Cuadro 3.4:Tiempo, en milisegundos, en realizarfft conv(X,F) en GPU.

M, k

4 8

64

12 16 | 4 8

128

12 16 | 4 8

256

12 16

B

F

B

X

---32

2 64

128 ---32

4 64

128 ---32

6 64

128 ---32

8 64

128 ---32

10 64

128

---1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6

(35)

3.3. Convoluci´on 25

M 64 128 256

k 4 8 12 16 4 8 12 16 4 8 12 16

BF BX

32 0.63 0.63 0.63 0.63 1.31 1.31 1.31 1.31 4.07 4.07 4.07 4.07

2 64 0.924 0.924 0.924 0.924 2.22 2.22 2.22 2.22 7.54 7.54 7.54 7.54

128 1.43 1.43 1.43 1.43 3.99 3.99 3.99 3.99 80 80 80 80

32 0.93 0.93 0.93 0.93 2.22 2.22 2.22 2.22 7.62 7.62 7.62 7.62

4 64 1.4 1.4 1.4 1.4 3.97 3.97 3.97 3.97 79.43 79.43 79.43 79.43

128 2.36 2.36 2.36 2.36 7.42 7.42 7.42 7.42 - - -

-32 1.19 1.19 1.19 1.19 3.12 3.1215 3.12 3.13 74 74 74 74

6 64 1.92 1.92 1.92 1.92 5.7 5.7 5.7 5.7 143 143 143 143

128 3.28 3.28 3.28 3.28 60.69 60.69 60.69 60.69 - - -

-32 1.52 1.52 1.52 1.52 3.96 3.96 3.96 3.96 81.37 81.37 81.37 81.37

8 64 2.36 2.36 2.36 2.36 7.4 7.4 7.4 7.4 - - -

-128 4.13 4.13 4.13 4.13 78.8 78.8 78.8 78.8 - - -

-32 1.74 1.74 1.74 1.74 4.86 4.86 4.86 4.86 101.98 101.98 101.98 101.98

10 64 2.88 2.88 2.88 2.88 50.99 50.99 50.99 50.99 - - -

-128 5.19 5.19 5.19 5.19 99.43 99.43 99.43 99.43 - - -

-Cuadro 3.5:Tiempo, en milisegundos, en realizarsfft conv(X,F) en GPU.

M, k

4 8

64

12 16 | 4 8

128

12 16 | 4 8

256

12 16

B

F

, B

X

---32

2 64

128 ---32

4 64

128 ---32

6 64

128 ---32

8 64

128 ---32

10 64

128

--- -1

-0.5 0 0.5 1

Figura 3.9: log10(vl nnconv/sfft conv)

3.3.1. Discusi´

on de resultados

La tabla nos muestra resultados importantes acerca de los tiempos de cada uno de los algorit-mos propuestos frente a la implementación directa de convolución por MatConvNet. El tiempo de ejecución para una convolución por mediovl nnconvincrementa conforme aumentan la dimensión de las imágenesM, la dimensión del filtrok, el tamaño del batch de las imágenesBX, y el tamaño

del batchBF. Este incremento es un resultado coherente, pues hay m´as entradas sobre las que toca

hacer operaciones. También se puede ver que, entre todas las variables que influyen sobre el entre-namiento, la dimensión de las imágenes,M, es la que más incrementa el tiempo de ejecución. Esto sugiere que, el entrenar una banco de imágenes por redes convolucionales, hay que dar atención especial a la dimensión en el que se encuentran las imágenes. El primer mapa de colores resalta este

(36)

hecho mostrando los tiempos m´as grandes (colores claros) a medida que aumenta M, k, BX, BF y

tiempos relativamente cortos (colores oscuros) en el caso contrario.

La implementación devl nnconvsobre las GPU y CPU descritas al comienzo de esta sección favorecen al tiempo consumido por la GPU. Este hecho es plausible y obedece a la naturaleza lineal de la convolución que es aprovechada al máximo por implementaciones rápidas lineales en paralelo. El lector interesado puede mirar la documentación de CUBLAS. Una de las consecuencias de realizar la convolución en el dominio frecuencial es que la complejidad permanece inalterada a variaciones dek(ver 2.4). Esto se hace evidente en el segundo mapa de colores y la segunda tabla. De esta manera, aunque para tamaños de kernelk pequeños sea más rápido hacer la convolución directa, la FFT nos da la posibilidad de utilizar kerneles más grandes sin sacrificar más tiempo. En la mayor´ıa de casos, resulta ser más conveniente utilizarfft convquevl nnconv, puede observarse los cuadros que están en azul en el segundo y tercer mapa. Sin embargo, este umbral depende también de M, BX y BF. Esta dependencia se atenúa con la implementación de sfft, pues en

principio, las imágenes más grandes resultarán ser más dispersas y por lo tanto no será necesario calcularFn(X) sinoFk(Sk(X)).

3.4. Entrenamiento de redes

Luego de analizar el comportamiento de las capas convolucionales, procederemos a entrenar varias arquitecturas de redes convolucionales sobre todas los bancos de datos. Para tal fin, pro-cedimos a entrenar cada uno de la escogencias de (M, k, BX, BF) que se utilizaron en la secci´on

de convolución y aqu´ı reportamos los resultados de la mejor implementación. Se compararán los tiempos y frecuencia de error para la mejor red entrenada con: la versión en GPU devl nnconv,

fft conv, ysfft conv.

3.4.1. DTD

La red que mejor dio resultados fue:

Capa Conv bnorm max Conv Bnorm max Conv ReLu SoftMax

64 8 1 3 4 1 3 5 1 1

Batch 2 2 2 16 16 16 16 47 1

Cuadro 3.6: Red para elDTDen dimensi´on 64×64.

Velocidad devl nnconv:759 Hz Velocidad de sfft conv:977 Hz

training epoch 0 10 20 30 40 50

energy 3 3.2 3.4 3.6 3.8 4 objective train val training epoch 0 10 20 30 40 50

error 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 error traintop1err traintop5err valtop1err valtop5err training epoch

0 20 40 60 80 100

energy 3.62 3.64 3.66 3.68 3.7 3.72 3.74 3.76 objective train val training epoch

0 20 40 60 80 100

error 0.76 0.78 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 error traintop1err traintop5err valtop1err valtop5err

(37)

3.4. Entrenamiento de redes 27

Capa Conv bnorm max Conv Bnorm max Conv ReLu SoftMax

128 12 1 6 4 1 4 4 1 1

Batch 2 2 2 16 16 16 16 47 1

Cuadro 3.7:Red para elDTDen dimensi´on 128×128.

Velocidad de vl nnconv: 34 Hz Velocidad desfft conv: 95 Hz

energy 2.9 3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 objective train val training epoch 0 10 20 30 40 50

error 0.4 0.5 0.6 0.7 0.8 0.9 1 error traintop1err traintop5err valtop1err valtop5err training epoch 0 10 20 30 40 50

energy 2.9 3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 objective train val training epoch 0 10 20 30 40 50

error 0.4 0.5 0.6 0.7 0.8 0.9 1 error traintop1err traintop5err valtop1err valtop5err

Figura 3.11:Desempe˜novl nnconv(izquierda) contrasfft conv(derecha).

3.4.2. KTH

Capa Conv bnorm max Conv ReLu SoftMax

64 8 1 5 11 1 1

Batch 2 2 2 15 15 1

Velocidad de vl nnconv:500 Hz Velocidad desfft conv: 3 kHz

energy 1.8 2 2.2 2.4 2.6 2.8 3 objective train val training epoch 0 20 40 60 80 100

error 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 error traintop1err traintop5err valtop1err valtop5err training epoch 0 20 40 60 80 100

energy 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 objective train val training epoch 0 20 40 60 80 100

error 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 error traintop1err traintop5err valtop1err valtop5err

(38)

Capa Conv bnorm max Conv Bnorm max Conv Bnorm max Conv ReLu SoftMax

128 16 1 3 4 1 3 4 1 3 2 1 1

Batch 2 2 2 2 2 2 2 2 2 15 15 1

Cuadro 3.9: Red para elKTHen dimensi´on 128×128.

energy

100 101

102 objective

train val

error 0.3 0.4 0.5 0.6 0.7 0.8 0.9 error traintop1err traintop5err valtop1err valtop5err training epoch 0 50 100 150 200

energy

10-1 100

101

102 objective

train val

training epoch 0 50 100 150 200

error 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 error traintop1err traintop5err valtop1err valtop5err

3.4.3. Kylberg

Capa Conv bnorm max Conv ReLu SoftMax

64 12 1 4 13 1 1

Batch 2 2 2 15 15 1

training epoch 0 50 100 150

energy 10-3 10-2 10-1 100 101

102 objective

train val

training epoch 0 50 100 150

error 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 error traintop1err traintop5err valtop1err valtop5err training epoch 0 20 40 60 80 100 120

energy 100 objective train val training epoch 0 20 40 60 80 100 120

error 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 error traintop1err traintop5err valtop1err valtop5err

(39)

Capa Conv bnorm max Conv Bnorm max Conv Bnorm max Conv ReLu SoftMax

128 12 1 3 4 1 3 4 1 3 3 1 1

Batch 2 2 2 20 20 20 20 20 20 19 19 1

Cuadro 3.11:Red para elKylebergen dimensi´on 128×128.

Velocidad de vl nnconv: 88 Hz Velocidad desfft conv: 462 Hz

energy 100 objective train val training epoch 0 20 40 60 80 100

error 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 error traintop1err traintop5err valtop1err valtop5err training epoch 0 20 40 60 80 100

energy 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 objective train val training epoch 0 20 40 60 80 100

error 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 error traintop1err traintop5err valtop1err valtop5err

3.4.4. Retinopat´ıa Diab´

etica

Capa Conv bnorm max Conv SoftMax

64 8 1 10 5 1

Batch 2 2 2 15 1

Cuadro 3.12:Red para elDiabetic Retinopathy en dimensi´on 64×64.

Velocidad de vl nnconv:932 Hz Velocidad desfft conv:2.3 kHz

energy 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 objective train val training epoch 0 20 40 60 80 100

error 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 error traintop1err traintop5err valtop1err valtop5err training epoch 0 20 40 60 80 100

energy 1 1.5 2 2.5 3 3.5 objective train val training epoch 0 20 40 60 80 100

error 0 0.1 0.2 0.3 0.4 0.5 0.6 error traintop1err traintop5err valtop1err valtop5err

(40)

Capa Conv bnorm max Conv Bnorm max Conv max Conv SoftMax

128 8 1 3 4 1 3 4 3 3 1

Batch 2 2 2 4 4 4 8 8 15 1

Cuadro 3.13:Red para elDiabetic Retinopathyen dimensi´on 128×128.

error 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 error traintop1err traintop5err valtop1err valtop5err training epoch 0 20 40 60 80 100

error 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 error traintop1err traintop5err valtop1err valtop5err

3.4.5. STL

Capa Conv bnorm max Conv Bnorm max Conv SoftMax

64 12 1 3 12 1 3 5 1

Batch 2 2 2 4 4 4 10 1

Cuadro 3.14:Red para elstlen dimensi´on 96×96.

energy 1.4 1.5 1.6 1.7 1.8 1.9 objective train val training epoch 0 10 20 30 40 50

error 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 error traintop1err traintop5err valtop1err valtop5err training epoch 0 20 40 60 80 100

energy 1.4 1.5 1.6 1.7 1.8 1.9 objective train val training epoch 0 20 40 60 80 100

error 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 error traintop1err traintop5err valtop1err valtop5err

(41)

3.4.6. Discusi´

on de Resultados

Mientras que la velocidad de entrenamiento fue notoriamente mayor para el entrenamiento de las redes en todos los casos, los errores de generalización obtenidos del entrenamiento de las redes en tanto vl nnconv como sfft conv fueron parecidos. As´ı mismo, los errores de entrenamiento de las redes fueron semejantes entre s´ı en todos los casos salvo por una excepciones. Por ejemplo, para la base _DTDla implementación dispersa obtuvo un error de entrenamiento más acorde al error de generalización y por lo tanto no se presentó overfitting a diferencia de la implementación directa. En otros casos –como la base_KTHen dimensión 128 y la base_{Diabetic Retinopathy} en dimensión 64, – ocurrió el fenómeno inverso: el error de entrenamiento no se diferenció del error de generalización.

El error cuadrático medio también fue similar para ambas formas de entrenar la red, pero el mismo error, para el conjunto de validación, fue notoriamente mejor en el caso disperso. Esto nos sugiere que la red en el caso disperso tiene un comportamiento más robusto en términos de con-vergencia. Probablemente, esto es consecuencia de que, por una lado, entrenar por medio de la red dispersa es equivalente a realizar un filtro sobre la imagen que elimina frecuencias pequeñas que ayuda para la clasificación y, por otro lado, la capa dispersa no es completamente lineal (al no ser la transformada completa) y por ende puede pensarse que hace el papel de capa lineal y capa no lineal al mismo tiempo.

Las gráficas demuestran que el aprendizaje basado en redes convolucionales por medio una transformada dispersa es posible y además tiene consecuencias favorables. Dado que el tiempo de entrenamiento es mucho menor y el error de generalización, en muchos casos, es similar o menor al error de generalización usual, entonces una posible utilidad de esta red es utilizarla para estimar el error real de generalización al entrenar una red con la convolución directa, en un tiempo mucho menor. Otra posible aplicación es reemplazar del todo la primera capa convolucional por la capa dispersa y enfocarse en tratar de sintonizar esta red para obtener mejores resultados.

(42)