Implementación de una herramienta de optimización iterativa para códigos OpenCL

(1)

Departamento de Electr´onica e Sistemas

Proxecto de Fin de Carreira de Enxe˜

nar´ıa Inform´

atica

Implementaci´

on de una herramienta de

optimizaci´

on iterativa para c´

odigos OpenCL

Autor: Jorge Fern´andez Fabeiro

Directores: Diego Andrade Canosa

Basilio B. Fraguela Rodr´ıguez

(2)

(3)

T´ıtulo: Implementación de una herramienta de optimización iterativa para códigos OpenCL

Clase: Investigaci´on y desarrollo

Autor : Jorge Fern´andez Fabeiro

Directores: Diego Andrade Canosa

Basilio Bernardo Fraguela Rodr´ıguez

Tribunal :

Fecha de lectura:

Calificaci´on:

(4)

(5)

Santiago Ram´on y Cajal

(6)

(7)

En primer lugar, me gustar´ıa agradecer a los profesores Diego Andrade y Basilio B. Fraguela el haber vuelto a darme la oportunidad de trabajar con ellos proponi´endome llevar a cabo el presente proyecto, as´ı como toda la ayuda prestada a lo largo de estos meses.

As´ı mismo, este proyecto no habr´ıa llegado a buen puerto sin los consejos de la gente del laboratorio del Grupo de Arquitectura de Computadores, en especial de Diego Darriba (siempre aguantándome cuando alguna cosa se torc´ıa), Iván Cores (dando cuando uno menos se lo espera ese toque de humor tan necesario) y Moisés Viñas (siempre dispuesto a echar un cable con todas las prácticas y trabajos del Máster).

Llegar hasta aqu´ı tampoco habr´ıa sido posible sin la compañ´ıa de Jorge, Sergio y V´ıctor. Sin ellos, estos tres años que he necesitado para terminar el segundo ciclo no habr´ıan sido lo mismo. Tampoco me olvido de los compañeros (ellos ya saben quienes son) que han compartido conmigo prácticamente toda mi vida universitaria desde aquel principio de curso de octubre de 2005.

Ya para terminar, y en absoluto por ello menos importante, nunca podré agrade-cer lo suficiente a mis padres que siempre hayan estado ah´ı, apoyando lo que hago y animándome a continuar con ello (si es que los recortes no acaban con la Universidad Pública...).

A todos vosotros, de nuevo, muchas gracias.

(8)

(9)

La evolución de la arquitectura de computadores ha permitido que, en la actualidad, cualquier ordenador cuente con capacidades de procesamiento paralelo gracias a que contiene un procesador multinúcleo y una tarjeta gráfica con capacidades GPGPU. En este contexto aparece un nuevo paradigma conocido como((computación heterogénea)), que busca explotar simultáneamente todos esos recursos para obtener el máximo rendi-miento posible. Dentro de dicho paradigma, OpenCL parece ser la opción mejor posicio-nada para la programación de este tipo de arquitecturas. Sin embargo, OpenCL cuenta con el inconveniente de que la portabilidad de código entre arquitecturas no se ve refle-jada de forma efectiva en el rendimiento: un código optimizado para una determinada plataforma puede ser ejecutado en otra diferente, pero dif´ıcilmente se conseguirá el mismo rendimiento que en la original para la que fue optimizado.

La herramienta OCLOptimizer implementada en este Proyecto Fin de Carrera bus-ca dotar a un usuario-programador experto de todo lo necesario para conseguir esta portabilidad efectiva. La herramienta recibe como entradas un kernel OpenCL anotado con una serie de directivas y un fichero de configuración en el que especifica informa-ción como los parámetros de entrada del kernel, el tipo de dispositivo sobre el que se ejecutará, etc. Las directivas deben ser introducidas por el usuario e indican a la he-rramienta qué optimizaciones se deben probar sobre qué partes del código. La salida se compone de un código de host autogenerado y una versión del kernel optimizada para una determinada plataforma. En esta primera versión de la herramienta se ha implementado como única técnica a aplicar por la herramienta el desenrollamiento de bucles. Los resultados experimentales muestran que del uso de la herramienta se pueden

(10)

asociados a cada kernel, liberando as´ı al programador del tedioso y repetitivo trabajo que supone su escritura.

Palabras clave

(11)

1. Introducci´on 1

1.1. Motivaci´on . . . 2

1.2. Objetivos . . . 4

1.3. Estado del arte . . . 5

1.3.1. Procesadores multin´ucleo . . . 5

1.3.2. Surgimiento y popularizaci´on de la computaci´on GPGPU . . . . 6

1.3.3. Herramientas de computaci´on GPGPU y heterog´enea . . . 8

1.3.4. Técnicas de optimización automática . . . 9

1.3.5. Herramientas de análisis y transformación de código . . . 12

1.4. Metodolog´ıa de desarrollo . . . 13

1.5. Planificaci´on del trabajo . . . 13

1.6. Estructura del documento . . . 14

2. El est´andar OpenCL 15 2.1. Introducci´on . . . 15

2.1.1. Comunidad de desarrollo . . . 16

2.1.2. Evoluci´on y situaci´on actual del proyecto . . . 16

2.1.3. Implementaciones disponibles . . . 18 2.2. La arquitectura OpenCL . . . 18 2.2.1. Modelo de plataforma . . . 19 2.2.2. Modelo de ejecuci´on . . . 19 2.2.3. Modelo de memoria . . . 23 ix

(12)

2.2.4. Modelo de programaci´on . . . 26

2.3. Programaci´on de aplicaciones con OpenCL . . . 28

2.3.1. Desarrollo de un c´odigo de host . . . 29

2.3.2. Desarrollo de un c´odigo de kernel . . . 35

2.3.3. Comentarios . . . 37

3. LLVM y Clang 39 3.1. La infraestructura de compilaci´on LLVM . . . 39

3.1.1. Inciativas surgidas desde LLVM . . . 40

3.2. El frontend Clang . . . 41

3.2.1. Motivaci´on . . . 41

3.2.2. Objetivos . . . 42

3.2.3. Caracter´ısticas . . . 42

3.2.4. Arquitectura . . . 43

3.3. Análisis y transformación de código con Clang . . . 46

3.3.1. Introducci´on . . . 46

3.3.2. An´alisis de c´odigo . . . 46

3.3.3. Transformaci´on de c´odigo . . . 53

3.3.4. Comentario sobre los tutoriales . . . 61

4. La herramienta OCLOptimizer 63 4.1. Descripci´on y funcionamiento de la herramienta . . . 63

4.1.1. Preprocesado . . . 69

4.1.2. Optimizaci´on . . . 69

4.1.3. Evaluaci´on . . . 71

4.2. Ejemplo completo de ejecuci´on . . . 74

4.2.1. C´odigo original y c´odigo anotado . . . 74

4.2.2. Fichero de configuraci´on . . . 75

4.2.3. Descripci´on del proceso de optimizaci´on iterativa . . . 76

4.3. Estructura . . . 80

(13)

4.4.1. Introducci´on te´orica . . . 84

4.4.2. Implementaci´on en la herramienta . . . 87

4.5. Detalles de dise˜no e implementaci´on . . . 92

4.5.1. Interacci´on con Clang . . . 92

4.5.2. Modelado de las optimizaciones . . . 95

5. Resultados experimentales 99 5.1. Producto matriz-vector . . . 100

5.2. Convoluci´on de im´agenes . . . 103

5.3. Resumen . . . 109

6. Conclusiones 111 6.1. Resumen del trabajo realizado . . . 111

6.2. Objetivos alcanzados . . . 112

6.3. L´ıneas futuras . . . 114

A. Manual de usuario 115 A.1. Instalaci´on . . . 115

A.1.1. Consideraciones previas . . . 115

A.1.2. Instalaci´on de LLVM y Clang . . . 116

A.1.3. Instalaci´on de la herramienta . . . 117

A.2. Uso de la herramienta . . . 117

A.2.1. Anotaci´on del c´odigo . . . 118

A.2.2. Fichero de configuraci´on . . . 118

B. C´odigos del ejemplo completo de ejecuci´on 121 B.1. Ficheros de entrada . . . 121

B.1.1. C´odigos de kernel . . . 121

B.1.2. Fichero de configuraci´on . . . 124

B.2. Ficheros de salida . . . 126

B.2.1. Versi´on ´optima del kernel . . . 126

(14)

B.3. Otros datos de interés . . . 132 B.3.1. Salida por pantalla de la herramienta . . . 132 B.3.2. Versión intermedia subóptima . . . 134

(15)

1.1. Representación de un pipeline gráfico genérico . . . 7

1.2. Pipeline gr´afico compatible con OpenGL 4 y Direct3D 11 . . . 8

1.3. Situación de OpenCL en las técnicas de paralelización actuales . . . 10

2.1. Miembros del OpenCL Working Group . . . 16

2.2. Eje temporal de la evoluci´on del proyecto OpenCL . . . 16

2.3. Diagrama del modelo de plataforma de OpenCL . . . 19

2.4. Espacio bidimensional de work-items de un dispositivo OpenCL . . . 20

2.5. Ejemplo de identificaci´on de work-items en un espacio bidimensional . . 21

2.6. Diagrama de ejecuci´on en orden y fuera de orden en una cola OpenCL . 22 2.7. Organizaci´on de las regiones de memoria en un dispositivo OpenCL . . 23

3.1. Arquitectura de alto nivel de Clang . . . 43

4.1. Proceso general de optimizaci´on iterativa implementado en la herramienta 66 4.2. Diagrama general de funcionamiento de OCLOptimizer . . . 68

4.3. Proceso de optimizaci´on iterativa ejecutado en el ejemplo . . . 77

4.4. Diagrama de clases de la herramienta . . . 81

4.5. Esquema de ejecuci´on de un pipeline de 5 etapas . . . 85

4.6. Ejemplo de desenrollamiento de bucles con factor 2 . . . 86

4.7. Ejemplo de desenrollamiento de bucles con factor 3 . . . 86

4.8. Diagrama de clases del patr´on M´etodo Factor´ıa original . . . 97 4.9. Detalle del diagrama de clases sobre el modelado de las optimizaciones . 98

(16)

5.1. Aceleraciones obtenidas en GPU para multiplicaciones matriz-vector . . 100 5.2. Aceleración en GPU para una multiplicación matriz-vector 4000 × 4000 102 5.3. Convolución para una imagen de entrada 8 × 8 y máscara 3 × 3 . . . 104 5.4. Aceleraciones obtenidas para la convolución de imágenes en GPU . . . . 105 5.5. Aceleración en GPU para una convolución 8192 × 8192 . . . 107 5.6. Aceleraciones obtenidas para la convolución de imágenes en CPU . . . . 107 5.7. Aceleraciones obtenidas para una convolución 8192 × 8192 en CPU . . . 109

(17)

2.1. Tipos de reserva de memoria en OpenCL . . . 24 2.2. Visibilidad del acceso a memoria en OpenCL . . . 24 2.3. Tipos de dispositivos recogidos en el estándar OpenCL . . . 31 5.1. Tiempos de referencia de la multiplicación matriz-vector en GPU . . . . 101 5.2. Tiempos de OCLOptimizer para multiplicaciones matriz-vector . . . 103 5.3. Tiempos de referencia de la convolución de imágenes en GPU . . . 106 5.4. Tiempos de referencia de la convolución de imágenes en CPU . . . 108 5.5. Tiempos de ejecución de OCLOptimizer para convolución de imágenes . 108

(18)

(19)

2.1. Ejemplo de kernel OpenCL: suma de vectores . . . 28

2.2. Ejemplo de definici´on de workspaces OpenCL para una suma de vectores 29 2.3. Ejemplo de obtenci´on de plataformas en un host OpenCL . . . 30

2.4. Ejemplo de obtenci´on de dispositivos en un host OpenCL . . . 30

2.5. Ejemplo de creaci´on de un contexto OpenCL . . . 31

2.6. Ejemplo de creaci´on de una cola de comandos OpenCL . . . 32

2.7. Ejemplo de creaci´on de buffers OpenCL para una suma de vectores . . . 32

2.8. Ejemplo de transferencia de datos para una suma de vectores . . . 33

2.9. Ejemplo de carga y compilaci´on de un kernel OpenCL . . . 34

2.10. Paso de argumentos y ejecuci´on del kernel OpenCL vecsum . . . 34

2.11. Ejemplo de recogida de datos para una suma de vectores . . . 35

2.12. Ejemplo de liberaci´on de recursos OpenCL . . . 35

3.1. Ejemplo de instanciaci´on de un Preprocessor de Clang . . . 48

3.2. Ejemplo de env´ıo de ficheros de c´odigo a un Preprocessor de Clang . . 49

3.3. Ejemplo de separación en tokens de un fichero de código C con Clang . 50 3.4. Ejemplo de diagnóstico para un fichero de cabeceras no encontrado . . . 50

3.5. Ejemplo de definici´on de opciones de b´usqueda de cabeceras de Clang . 50 3.6. Definiciones necesarias para llamar a clang::ParseAST() . . . 52

3.7. Ejemplos de declaraciones de variables . . . 52

3.8. Ejemplo de sobreescritura de la funci´on HandleTopLevelDecl . . . 54

3.9. Constructor de la clase MyRewriter . . . 56

3.10. M´etodo parse() del ejemplo MyRewriter . . . 56 xvii

(20)

3.11. Implementación del método Initialize() de MyConsumer . . . 57 3.12. Implementación del método HandleTopLevelDecl() de MyConsumer . . 58 3.13. Implementación del método MyConsumer::HandleTopLevelSingleDecl() 59 3.14. Implementación del método MyConsumer::HandleTranslationUnit() . 60 3.15. Método VisitStmt() de MyConsumer . . . 61 4.1. Expresión regular de formato de las directivas #pragma oclopts . . . . 67 4.2. Ejemplo de uso de las anotaciones de optimización . . . 68 4.3. Ejemplo de transformación a función de las anotaciones de optimización 69 4.4. Extracto del kernel de ejemplo anotado con directivas #pragma oclopts 75 4.5. Desenrollamiento óptimo propuesto para el primer bucle . . . 79 4.6. Desenrollamiento óptimo propuesto para el segundo bucle . . . 79 4.7. Implementación del método UnrollAnnotation::ApplyAnnotation() . 88 4.8. Esquema del método UnrollingAnnotation::UnrollIncrement() . . . 89 4.9. Esquema del método UnrollingAnnotation::AdaptLoopCondition() . 90 4.10. Esquema de implementación de UnrollAnnotation::UnrollBody() . . 91 4.11. Esquema del código de UnrollingAnnotation::UnrollStatement() . . 92 4.12. Implementación de la clase AnnotationCreator . . . 97 5.1. Pseudocódigo del algoritmo de convolución . . . 104 B.1. Código original del kernel de ejemplo . . . 122 B.2. Código del kernel de ejemplo anotado con directivas #pragma oclopts . 123 B.3. Configuración de los parámetros generales de la ejecución del ejemplo . 124 B.4. Configuración de los parámetros de compilación del ejemplo . . . 124 B.5. Configuración de las dimensiones del espacio de trabajo del ejemplo . . 124 B.6. Configuración del argumento de salida del ejemplo . . . 124 B.7. Configuración de argumentos de la primera multiplicación del ejemplo . 125 B.8. Configuración de argumentos de la segunda multiplicación del ejemplo . 125 B.9. Configuración del argumento de tamaño del problema del ejemplo . . . 126 B.10.Desenrollamientos propuestos en la versión seleccionada como óptima . 127 B.11.Código de host : definición del espacio de trabajo del ejemplo . . . 128 B.12.Código de host : definición e inicialización de buffers de usuario . . . 128

(21)

B.13.C´odigo de host : definici´on del contexto de trabajo y la cola de comandos 129

B.14.C´odigo de host : definici´on de los buffers de transferencia de OpenCL . . 130

B.15.C´odigo de host : construcci´on del programa . . . 130

B.16.C´odigo de host : paso de argumentos al kernel y ejecuci´on . . . 131

B.17.C´odigo de host : transferencia de datos a buffers de usuario . . . 131

B.18.C´odigo de host : liberaci´on de recursos de OpenCL . . . 132

B.19.Salida por pantalla: informaci´on de inicio . . . 132

B.20.Salida por pantalla: informaci´on del primer nivel de versiones . . . 133

B.21.Salida por pantalla: tiempos del primer nivel de versiones intermedias . 133 B.22.Salida por pantalla: informaci´on del segundo nivel de versiones . . . 134

B.23.Salida por pantalla: tiempos del segundo nivel de versiones . . . 134

(22)

(23)

Introducci´

on

La Ley de Moore, formulada por el co-fundador de Intel, Gordon Earl Moore, en 1965, predec´ıa que el número de transistores que ser´ıa posible integrar en un mismo circuito se duplicar´ıa cada dos años [1]. Este planteamiento, que gobernó y sigue go-bernando los procesos de fabricación de semiconductores, sentó asimismo las bases de la arquitectura de computadores, habiendo permitido elevar sistemáticamente el nivel de integración de transistores en una misma oblea de silicio, y con él la capacidad de cómputo de los diferentes procesadores. Sin embargo, el mantener este crecimiento del nivel de integración a la vez que se aumenta la frecuencia de reloj de funcionamiento de los circuitos ha terminado por revelar las limitaciones de los materiales semiconductores actuales (problemas de disipación de calor, consumo excesivo de energ´ıa, etc.). Estas limitaciones han llevado a los fabricantes a reorientar su trabajo hacia nuevos diseños, como la replicación de núcleos con un nivel de integración elevado, pero a la vez con una frecuencia de funcionamiento que, aún siendo alta, no requiera de unos sistemas de disipación de calor tan complejos. Este paradigma de diseño y construcción ha dado lugar a lo que actualmente se conoce como procesadores multicore o multinúcleo.

Hoy en d´ıa, la mayor´ıa de los ordenadores cuentan con capacidades de procesamien-to paralelo gracias al procesador de varios núcleos que incorporan y, en una porción cada vez creciente, también a las tarjetas gráficas con capacidades GPGPU. Con la

(24)

tecnolog´ıa en esta situación, es altamente interesante contemplar la posibilidad de au-nar los recursos convencionales de computación de los procesadores multinúcleo con las capacidades de propósito general de las GPUs, dando lugar a la llamada((computación heterogénea)), nuevo paradigma que trata de explotar de forma simultánea y coordina-da las capacicoordina-dades de todos estos recursos de naturaleza tan diversa [2]. OpenCL, que es un estándar industrial abierto [3][4][5] ideado para la programación de plataformas tan diferentes como CPUs, GPUs, DSPs o FPGAs, goza de creciente relevancia en este contexto.

A continuación se comentará la motivación que ha llevado al desarrollo del presente proyecto (sección 1.1), as´ı como los objetivos propuestos (sección 1.2). Tras ello se realizará un breve recorrido por el estado del arte de las tecnolog´ıas más relevantes (sección 1.3). Finalmente, se especificará la metodolog´ıa y planificación seguidas para el desarrollo del proyecto (secciones 1.4 y 1.5) y se detallará la estructura en cap´ıtulos del presente documento (sección 1.6).

1.1. Motivaci´

on

Como se ha dicho en el apartado anterior, OpenCL es un estándar que permite la programación de dispositivos de muy variada ´ındole (CPUs, GPUs, DSPs, FPGAs...), ofreciendo para sus códigos portabilidad funcional entre los distintos tipos de plata-formas compatibles con el estándar. Sin embargo, esta portabilidad funcional no se ve reflejada en una portabilidad del rendimiento: un código que haya sido expresamen-te optimizado para su ejecución en una determinada plataforma muy probablemente obtendrá un rendimiento muy por debajo del óptimo en otra diferente. El trabajo de experimentación consistente en la escritura y prueba de distintas versiones de un código aplicando múltiples optimizaciones con distintos parámetros para generar las versiones ´

optimas de un código OpenCL para diferentes plataformas resulta especialmente pesa-do, sobre todo si éste tiene que ser realizado a mano por el programador. La motivación principal del presente proyecto es facilitar este trabajo al programador automatizando en la medida de lo posible este proceso de optimización. Para ello es interesante que

(25)

el programador pueda guiar el proceso especificando qué optimizaciones desea aplicar sobre ciertas partes del codigo. La herramienta deber´ıa evaluar todas las posibilidades sugeridas automáticamente, proporcionando como salida una versión modificada del código de entrada de acuerdo a las optimizaciones planteadas.

Los compiladores actuales son capaces de realizar optimizaciones automáticas de los códigos que procesan. Sin embargo, las transformaciones que realizan suelen ser de tipo source-to-binary, es decir, el compilador baraja diferentes optimizaciones y las aplica di-rectamente al generar el binario correspondiente, que suele estar programado en código máquina (como es el caso de GCC, por ejemplo) o utilizando algún tipo de representa-ción intermedia (por ejemplo, LLVM-IR). As´ı, con estos compiladores, el programador no es consciente en ningún momento de qué cambios concretos se han realizado en su código ni puede modificar fácilmente el resultado a posteriori. Sin embargo, ser´ıa interesante que al final del proceso el usuario obtenga un código optimizado, lo que le permitirá conocer qué partes del código han sido transformadas y de qué manera, para poder aplicar a posteriori otras optimizaciones adicionales de forma manual sobre el mismo si as´ı lo desea. Por otra parte, una vez aplicada una transformación sobre cierta parte del código, al generarse el binario correspondiente, resultar´ıa complejo mantener la información del resto de optimizaciones a probar y las porciones de código sobre las que ser´ıan aplicadas. Esto es especialmente cierto dado que muchas optimizaciones se refieren a transformaciones de código expresado sobre estructuras de control de alto nivel, cuyas semánticas se pierden o diluyen al transformarlas en código ejecutable. Por estos motivos, resulta especialmente importante que el usuario manipule en todo momento código de alto nivel.

As´ı mismo, los trabajos actuales en este campo suelen centrarse en la aplicación de técnicas de optimización automática en problemas muy concretos, como operaciones SpMV1 [6] o FFT2 [7]. Lo que se pretende con la herramienta a implementar en este proyecto es proporcionar al prorgamador una forma rápida y accesible de realizar el proceso de optimización iterativa de cualquier kernel OpenCL.

1

Sparse Matrix-Vector Multiplication, multiplicaci´on matriz dispersa-vector

2

(26)

1.2. Objetivos

El objetivo principal que se pretende alcanzar con el presente proyecto es propor-cionar a la comunidad de desarrolladores de OpenCL un mecanismo de asistencia a la optimización de sus códigos, intentando reducir al máximo el tiempo invertido en el pro-ceso de aplicación de las distintas transformaciones sobre los mismos. Dicho mecanismo se basa en dos puntos fundamentales: por una parte, la generación del código de kernel ´

optimo a partir de la combinación de las optimizaciones propuestas, y por otra, la gene-ración automática de los códigos de host necesarios para ejecutar dichos kernels. Para la generación automática de las diferentes versiones de prueba, el usuario determinará me-diante una serie de directivas de compilación definidas a tal efecto qué optimizaciones desea probar sobre qué fragmentos de código, de modo que la herramienta localizará la aparición de las mismas en el kernel a optimizar y realizará sobre dichos fragmentos las transformaciones de código necesarias para aplicar las optimizaciones solicitadas. En cuanto a la generación automática de códigos de host, el usuario solamente debe especificar mediante un fichero de configuración, junto con otros parámetros de fun-cionamiento (variables de entrada y salida, dimensiones del problema, tamaño de los grupos de trabajo global y local...), en qué tipo de dispositivo desea probar su progra-ma, generándose as´ı para cada kernel un código de host adaptado exactamente a las condiciones establecidas. De esta forma se consigue eximir al programador de una tarea muy tediosa y repetitiva pero imprescindible para poder ejecutar cualquier kernel en dispositivos compatibles con OpenCL.

Para poder alcanzar este objetivo, en primer lugar resulta imprescindible realizar un estudio de las diferentes técnicas de optimización que pueden ser de aplicación en códigos de kernel de OpenCL, siendo de especial relevancia los siguientes dos tipos:

Técnicas de optimización secuencial, como pueden ser el desenrollamiento de bu-cles, con el que se busca explotar al máximo el paralelismo a nivel de instrucción intr´ınseco a cualquier procesador actual.

(27)

procesado y la jerarqu´ıa de memoria de las tarjetas gr´aficas, como el cambio de granularidad de las tareas o el aprovechamiento de la memoria local.

Por otra parte, para poder realizar las transformaciones asociadas a las diferentes optimizaciones, es necesario conocer la estructura del código de partida y poder mani-pularla en consecuencia. Para ello resulta también imprescindible estudiar las distintas opciones existentes para la realización de tareas de análisis y transformación de código. As´ı mismo, también resulta de vital importancia que el proceso de optimización iterativa implementado en la herramienta sea lo más eficiente y flexible posible.

1.3. Estado del arte

A continuación se realiza una breve descripción de la evolución de las tecnolog´ıas en las que se basa el presente proyecto, haciendo especial hincapié en los cambios que ha experimentado la arquitectura de computadores en lo que respecta tanto a los procesa-dores de propósito general como a las tarjetas gráficas y su conversión en plataformas de computación, as´ı como en los diferentes mecanismos de análisis, transformación y optimización de código disponibles.

1.3.1. Procesadores multin´ucleo

Tal y como se acaba de comentar en la introducción del presente cap´ıtulo, la ex-plotación de las capacidades de los dispositivos semiconductores mediante el aumento sistemático tanto del nivel de integración de transistores como de la frecuencia de reloj de funcionamiento terminó por revelar sus limitaciones técnicas, surgiendo problemas derivados principalmente del elevado consumo de energ´ıa que comenzaban a experimen-tar los circuitos, la imposibilidad de disipar de ellos la gran cantidad de calor generada y la problemática de sincronización de la información entre sus componentes debido a las altas frecuencias de trabajo.

(28)

de nuevos procesadores que integraban, en un mismo chip, varias réplicas de procesado-res completos conocidas como núcleos o cores, dando lugar a los llamados procesadores multinúcleo o multicore. Ejemplos muy conocidos de esto son las gamas de procesadores fabricados por Intel Core Duo, Core 2 Duo, Xeon o, más recientemente, Core i3, Core i5 y Core i7.

Sin embargo, en los últimos años los distintos fabricantes están comenzando a explo-rar nuevas v´ıas que les permitan aplicar esta idea de incluir varios núcleos en un mismo procesador sin necesidad de que dichos núcleos estén dedicados a las mismas tareas. As´ı han surgido diseños como las gamas de APUs3 de AMD Fusion y, más reciente-mente, Heterogeneous, o las diferentes versiones de los procesadores Tegra de NVIDIA, en los que en un mismo chip se integran diferentes tipos de circuiter´ıa dedicados a dife-rentes tareas: computación de propósito general (CPU), procesamiento gráfico (GPU), decodificación dedicada de audio y v´ıdeo, etc. En lo que respecta a AMD, ha orienta-do más sus desarrollos en este campo hacia su instalación en ordenadores completos, mientras que NVIDIA los ha enfocado más hacia el mercado de dispositivos móviles (tablets, smartphones, etc.).

Por otra parte, inspirándose en todo el desarrollo que ha experimentado la compu-tación de propósito general en GPUs (conocida como((computación GPGPU))), el cual será comentado con cierto detalle en el apartado 1.3.2, Intel ha presentado reciente-mente la arquitectura MIC, acrónimo de Many Integrated Core. Con esta arquitectura masivamente paralela, aún en pleno desarrollo, es posible integrar en un dispositivo que se conecta a un ordenador mediante una conexión PCI-Express más de 50 núcleos de propósito general y que además son compatibles con las herramientas tradicionales de programación paralela para sistemas x86.

1.3.2. Surgimiento y popularizaci´on de la computaci´on GPGPU

En sus inicios, a finales de la d´ecada de 1960 y principios de la de 1970, la finalidad de las tarjetas gr´aficas no era otra que realizar el trabajo necesario para poder mostrar

3

(29)

textos y formas sencillas en la pantalla de un ordenador, siendo responsabilidad de la CPU toda la computaci´on previa necesaria.

Con el paso del tiempo, las necesidades de la industria del software en lo que a capacidades gráficas se refer´ıa fue creciendo espectacularmente, las cuales fueron siendo satisfechas poco a poco añadiendo a las tarjetas circuitos espec´ıficos que acelerasen ciertas fases del procesamiento gráfico, liberando as´ı a la CPU de dichos trabajos. Dichas fases constituyen lo que se conoce como un pipeline gráfico, del cual puede verse un ejemplo sencillo en la figura 1.1. En las primeras implementaciones de estos pipelines, todas las fases realizaban un trabajo previamente establecido en el hardware, no siendo posible ningún tipo de reprogramación de las mismas. Estos pipelines se fueron sofisticando hasta alcanzar las tecnolog´ıas disponibles actualmente, que permiten la programación de algunas de sus fases, como es el caso del ejemplo mostrado en la figura 1.2. El objetivo de la computación GPGPU es aprovechar las capacidades de ese tipo de unidades de procesamiento para tareas de propósito general, en lugar de limitarlas a su uso tradicional.

Figura 1.1: Representación de un pipeline gráfico genérico

Uno de los ejemplos más conocidos de este tipo de plataformas de computación es la familia de dispositivos Tesla fabricados por NVIDIA, en la cual es posible en-contrar desde tarjetas gráficas domésticas con capacidades GPGPU adicionales hasta

(30)

Figura 1.2: Representaci´on de un pipeline gr´afico compatible con OpenGL 4 y Direct3D 11

pequeños clusters ya ensamblados y exclusivamente dedicados a este tipo de compu-tación. Además, de entre los 10 primeros supercomputadores de la edición de junio de 2012 del TOP500 [8], varios de ellos cuentan con dispositivos de este tipo como recursos de computación.

1.3.3. Herramientas de computaci´on GPGPU y heterog´enea

Como se acaba de comentar en el apartado anterior, es posible reprogramar algu-nas de las unidades del pipeline de las tarjetas gráficas utilizando APIs espec´ıficas para gráficos 2D y 3D como OpenGL o Direct3D. Sin embargo, este tipo de APIs se basan en las abstracciones gráficas que se manejan en las diferentes fases del pipeline, como pue-den ser texturas, geometr´ıas o proyecciones. Estos conceptos resultan imprescindibles en el tratamiento de gráficos, pero pueden resultar complicados de aplicar en tareas de computación de propósito general. Con el objetivo de ocultar parcialmente estos

(31)

deta-lles o, al menos, ayudar al programador a su gestión, diferentes fabricantes y grupos de trabajo han ido liberando al mercado diversas propuestas de lenguajes o herramientas para la programación de dispositivos GPGPU. Entre ellas se pueden destacar algunas como Microsoft DirectCompute, BrookGPU, CUDA o OpenCL. Estas plataformas se sirven de diferentes lenguajes para la programación de los dispositivos compatibles con las mismas, de entre los cuales las extensiones de C para OpenCL y CUDA son los que actualmente han alcanzado una posición de relevancia en el mercado.

Comparativamente, se puede atribuir a la extensión de CUDA para C cierta ven-taja sobre OpenCL en lo que a rendimiento respecta, en tanto en cuanto se trata de un lenguaje especialmente diseñado para el aprovechamiento de las capacidades de los dispositivos fabricados por NVIDIA compatibles con CUDA. Sin embargo, OpenCL no presenta estas restricciones de compatibilidad y permite desarrollar programas para su ejecución ya no sólo en gran cantidad de tarjetas gráficas (independientemente de su fabricante), sino también, como ya se ha comentado, en otros dispositivos como CPUs, DSPs o FPGAs. La figura 1.3 ilustra este concepto representando OpenCL como la pla-taforma de trabajo que cubre la intersección entre procesadores multinúcleo capaces de ejecutar una gran cantidad de procesos de forma simultánea, y por otra, las capacidades existentes en las GPUs actuales para tratar de forma paralela grandes volúmenes de datos. De esta forma, OpenCL es un estándar de ((computación heterogénea)) [3][4][5] que permite ejecutar un mismo código sobre diferentes plataformas, obteniendo de este modo una auténtica portabilidad funcional. Sin embargo, el rendimiento de dicho c´ odi-go puede no ser portable, de forma que var´ıe notablemente entre plataformas, y siendo por tanto tarea del programador intentar ajustar su programa a las caracter´ısticas de cada una de ellas.

En el cap´ıtulo 2 se proporciona más información acerca del estándar OpenCL.

1.3.4. Técnicas de optimización automática

Se procede a continuación a comentar el estado actual de las diferentes técnicas de optimización de código.

(32)

Figura 1.3: Situación de OpenCL en las técnicas de paralelización para CPUs y GPUs

Optimizaci´on directa

Es habitual que los compiladores actuales cuenten con multitud de opciones que permitan al desarrollador probar diferentes optimizaciones sobre el código original a compilar. Ejemplos muy conocidos y ampliamente utilizados de ello son los conjuntos de optimizaciones ofrecidos por compiladores como GNU C Compiler [9] o Intel C++ Compiler [10]. Con estas optimizaciones, el compilador intenta mejorar el rendimiento y/o el tamaño del programa resultante a expensas de una mayor duración del proceso de compilación o de poder depurar el programa mediante depuradores como GDB.

El nivel de detalle que se puede alcanzar a la hora de aplicar las diferentes opti-mizaciones proporcionadas por alguno de estos compiladores puede llegar a ser muy elevado, dependiendo siempre del dominio que el programador tenga del lenguaje y de las posibilidades que éste le ofrece. Por regla general, los compiladores ofrecen paque-tes de optimizaciones, como por ejemplo los asociados a las opciones -O1, -O2, -O3, etc. de GCC, que permiten a los desarrolladores mejorar sus códigos sin realizar un estudio exhaustivo de las posibles optimizaciones a aplicar. Junto a estos paquetes de optimizaciones, los compiladores ofrecen opciones para aplicar optimizaciones concretas [11] como desenrollamientos o vectorizaciones de bucles, inlining de funciones, infor-mación acerca del no solapamiento de regiones de memoria accedidas por determinados punteros...

(33)

Optimizaci´on iterativa

Los compiladores hacen un uso extensivo de técnicas directas de optimización para conseguir mejorar el rendimiento de los programas. Sin embargo, la aplicación de dichas optimizaciones suele estar basada en análisis estáticos del código a partir de modelos simplificados de las máquinas o en heur´ısticas simples que a menudo se muestran insu-ficientes. El problema de este enfoque reside en la incompletitud intr´ınseca del análisis estático de código [12], lo que supone que, pese a afinar bastante el rendimiento, los compiladores basados en estas técnicas de optimización no puedan determinar de for-ma directa cuál es la mejor optimización aplicable a un código para obtener el mejor rendimiento posible en una plataforma concreta.

La solución que se ha venido planteando en los últimos años como alternativa para suplir estas carencias ha sido la llamada ((compilación iterativa)). Esta técnica consiste en la aplicación expl´ıcita de sucesivas transformaciones de código sobre un programa dado, las cuales son evaluadas a fin de seleccionar la mejor o las mejores antes de pasar a experimentar con otras transformaciones sobre ellas. El proceso de selección se realiza mediante mediante la ejecución real de las diferentes versiones generadas, o, de forma más sofisticada, analizando y prediciendo su comportamiento mediante diferentes modelos de rendimiento o heur´ısticas. La principal desventaja de esta técnica reside en un incremento notable del tiempo de compilación, debido al alto coste de evaluar todas las versiones generadas para seleccionar la óptima.

Los grandes costes de la compilación iterativa la han relegado tradicionalmente al campo de la computación embebida, donde el tamaño de los programas suele ser re-ducido y el proceso de compilación se limita a las fases de desarrollo del producto, de modo que una vez establecida la versión óptima para un programa y un dispositivo dados, no deber´ıa de ser necesaria la repetición del proceso. Evidentemente, el uso de esta técnica en grandes códigos basados en paradigmas tradicionales de programación se seguirá viendo afectado por este importante inconveniente. Sin embargo, la aplica-ción exitosa durante años de esta técnica en códigos embebidos anima a probarla con códigos de propósito general, pero que cuentan con la ventaja de ser de reducido

(34)

ta-ma˜no como, por ejemplo, los kernels que se utilizan en lenguajes orientados a GPGPU como son CUDA u OpenCL.

Otro motivo que pone en valor el uso de técnicas de optimización iterativa en entor-nos GPGPU es el continuo cambio en el diseño de este tipo de arquitecturas, lo que hace especialmente complicado mantener y publicar, con el tiempo suficiente, compiladores que puedan explotar al máximo las nuevas caracter´ısticas que dichos dispositivos van incorporando.

1.3.5. Herramientas de análisis y transformación de código

Debido a la elevada complejidad que ello comporta, se ha descartado el desarrollo desde cero de un mecanismo de análisis y transformación de código. As´ı, se procedió a la búsqueda de herramientas alternativas para la realización de este tipo de tareas, comenzando por aquellas de uso más habitual, como, por ejemplo, GNU C Compiler.

Si bien el uso más conocido de GCC es como herramienta de compilación de código, existe también la posibilidad de utilizar los componentes que lo forman para construir herramientas que realicen diversas transformaciones de código. Sin embargo, GCC ha sido construido como un compilador monol´ıtico y estático, lo que complica bastante su integración en otras herramientas. As´ı mismo, tanto la evolución histórica como la pol´ıtica actual que gobierna su diseño hacen complicado desacoplar el frontend del resto del compilador [13].

Una alternativa que actualmente está tomando una posición importante en este cam-po es la infraestructura de compilación LLVM [14]. De todas formas, el uso directo de este compilador no ser´ıa lo más adecuado para este proyecto, ya que funciona siguiendo un paradigma source-to-binary. Sin embargo, Clang, frontend para C, C++ y Objective-C del compilador LLVM, permite realizar operaciones de tipo source-to-source con el código. Si bien su finalidad principal es la misma que la de GCC, es decir, su uso co-mo herramienta de compilación, en este caso s´ı está documentado su uso alternativo como mecanismo de análisis y transformación de código. Por otra parte, como ya se

(35)

ha comentado, cuenta con un diseño más apropiado para su integración en otras herra-mientas a través de una API. Estos dos motivos fueron resultaron decisivos para el uso de Clang en el desarrollo de la herramienta.

1.4. Metodolog´ıa de desarrollo

La metodolog´ıa de desarrollo empleada se basa en un proceso incremental basado en prototipos. Se ha elegido este enfoque de trabajo gracias, principalmente, a la flexibili-dad que éste permite en caso de ser necesario corregir decisiones erróneas o modificar funcionalidades procedentes de incrementos anteriores. De hecho, desde el principio se consideró que la probabilidad de tener que hacer frente a este tipo de problemáticas era considerable debido a la elevada complejidad asociada al uso a bajo nivel de las capacidades de análisis léxico y sintáctico de código C proporcionadas por Clang.

En una fase inicial se realizó una toma de contacto con las herramientas básicas de trabajo (Clang y OpenCL), implementando un prototipo capaz de procesar un kernel OpenCL y de utilizar las funciones correspondientes de Clang para conocer su estructu-ra. En fases posteriores, y tomando como base dicho prototipo, se han ido incorporando diferentes funcionalidades hasta, finalmente, obtener una implementación completa-mente funcional de la herramienta, capaz de aplicar a un kernel las optimizaciones especificadas por el usuario y evaluar las versiones generadas a partir de las mismas.

1.5. Planificaci´

on del trabajo

Las caracter´ısticas de un proyecto de investigación y desarrollo como éste hacen es-pecialmente complicado el establecimiento de una planificación tradicional del trabajo, realizada a priori. En concreto, la falta de experiencia con gran parte de las tecnolog´ıas a utilizar, as´ı como la necesidad de estudiar la viabilidad de la realización de los ob-jetivos marcados utilizando dichas tecnolog´ıas, imposibilitó el establecimiento a priori de una planificación temporal fiable, por lo que se decidió prescindir de ella.

(36)

1.6. Estructura del documento

Junto con este primer cap´ıtulo introductorio, la presente memoria se compone de los siguientes cap´ıtulos, cuyo contenido se resume a continuaci´on:

Cap´ıtulo 2 Este cap´ıtulo se dedica ´ıntegramente a la presentación del estándar de computación heterogénea OpenCL, comentando sus principales caracter´ısticas y diseccionando punto por punto su arquitectura.

Cap´ıtulo 3 En este cap´ıtulo se presenta la infraestructura de compilación LLVM, as´ı como la estructura y capacidades de análisis y transformación de código del frontend para C/C++ Clang.

Cap´ıtulo 4 En este cap´ıtulo se describe el resultado final del proceso de desarrollo de esta herramienta de optimizaci´on iterativa, la cual constituye el principal objetivo del presente proyecto.

Cap´ıtulo 5 En este cap´ıtulo se detallarán los resultados experimentales obtenidos en las pruebas de optimización realizadas con la herramienta para diferentes proble-mas implementados en OpenCL, tanto sintéticos como reales.

Cap´ıtulo 6 Este cap´ıtulo, con el que se cierra el presente documento, establece las conclusiones extra´ıdas del trabajo realizado y planteando posibles l´ıneas futuras de investigaci´on y desarrollo.

As´ı mismo, se incluyen los siguientes ap´endices:

Apéndice A Este apéndice recoge un breve manual de usuario de la herramienta, explicando el formato de las anotaciones de código y el proceso de instalación. Apéndice B En este apéndice se incluyen los códigos y ficheros de configuración más

relevantes que intervienen en un ejemplo completo de ejecución de la herramienta. Apéndice C En este apéndice se lista el contenido del soporte de almacenamiento

´

(37)

El est´

andar OpenCL

El presente cap´ıtulo pretende servir de introducción al estándar de computación heterogénea OpenCL ya citado y brevemente comentado en apartados anteriores. Se comenzará en la sección 2.1 con una introducción de dicho proyecto, para después entrar en profundidad en la sección 2.2 en detalles como la arquitectura de la plataforma y los modelos que la componen. Finalmente se describirá paso a paso en la sección 2.3 el procedimiento a seguir para la implementación de un sencillo kernel OpenCL y su posterior ejecución en un dispositivo compatible con el estándar.

2.1. Introducci´

on

OpenCL (acrónimo de Open Computing Language) es un estándar industrial abierto [4] ideado para la programación de plataformas tan heterogéneas como CPUs, GPUs e incluso otros procesadores como DSPs1 o FPGAs2. Bajo el estándar OpenCL se define un framework de programación paralela compuesto por un lenguaje de programación basado en C99, una API, diversas librer´ıas y una plataforma de ejecución. De esta ma-nera, OpenCL proporciona una abstracción de bajo nivel que permite acceder, a través del framework, a una gran cantidad de detalles espec´ıficos del hardware subyacente.

1

Digital Signal Processor, procesador digital de prop´osito espec´ıfico para se˜nales.

2

Field Programmable Gate Array, dispositivo semiconductor de l´ogica programable.

(38)

2.1.1. Comunidad de desarrollo

Como ya se ha comentado, OpenCL es un estándar abierto mantenido por el consor-cio tecnológico sin ánimo de lucro Khronos Group. Sin embargo, el responsable inicial de su desarrollo y evolución fue Apple, a quien después acompañaron otras empresas de la talla de AMD, IBM, Intel o NVIDIA. En la figura 2.1 puede apreciarse la diversidad de firmas dentro de los múltiples sectores de la investigación y la industria tecnol´ ogi-ca que participan de uno u otro modo en el OpenCL Working Group: fabriogi-cantes de procesadores y FPGAs, desarrolladores de middleware y de aplicaciones, instituciones universitarias, laboratorios y centros de investigación...

Figura 2.1: Miembros del OpenCL Working Group

2.1.2. Evoluci´on y situaci´on actual del proyecto

A continuación se comenta el proceso de desarrollo del proyecto OpenCL desde sus or´ıgenes con la formación de un grupo de trabajo al respecto en el seno del Khronos Group hasta la publicación en noviembre de 2011 de la especificación de la que será la próxima versión, OpenCL 1.2. La figura 2.2 resume en un eje temporal los hitos princi-pales de la evolución del proyecto OpenCL, la cual se comenta, a continuación, versión por versión.

(39)

OpenCL 1.0

En junio de 2008 fue constituido el correspondiente grupo de trabajo, contando el mismo con la participación de compañ´ıas de los sectores de CPUs, GPUs, procesadores embebidos y software. Este primer grupo trabajó durante 5 meses hasta concretar los detalles técnicos de la especificación de OpenCL 1.0 [3] en noviembre de 2008. Un mes más tarde, una vez revisado, se aprobó su lanzamiento al público, siendo incorporado por Apple a su sistema operativo Mac OS X Snow Leopard.

OpenCL 1.1

La versión 1.1 de OpenCL [4] fue ratificada por el Khronos Group en junio de 2010, y con ella se añadieron mejoras de cara al rendimiento y la flexibilidad de programación de los dispositivos, como por ejemplo:

Nuevos tipos de datos como vectores de 3 componentes o formatos de im´agenes. Operaciones sobre regiones completas de un buffer, tales como lectura, escritura y copia de regiones rectangulares en 1D, 2D y 3D.

Uso mejorado de los eventos para gestionar y controlar la ejecuci´on de comandos.

OpenCL 1.2

En noviembre de 2011, el Khronos Group anunció la especificación de la versión 1.2 de OpenCL [5], que viene a complementar todav´ıa más las funcionalidades añadidas en versiones anteriores, sobre todo en lo que a rendimiento y programación paralela se refiere.

Algunas de estas nuevas caracter´ısticas son las siguientes:

Particionado de dispositivos, de modo que sea posible dividir un dispositivo en subdispositivos a los que asignar tareas como si de unidades individuales de computaci´on se tratase. Esto resulta especialmente ´util para reservar zonas

(40)

con-cretas de los dispositivos y as´ı reducir la latencia de operaciones que sean cr´ıticas en tiempo.

Separación de la compilación y enlazado de objetos, de manera que sea posible compilar OpenCL en librer´ıas externas para su inclusión en otros programas. Built-in kernels que implementan funcionalidades espec´ıficas o no programables propias de los diferentes dispositivos subyacentes, como por ejemplo, codificación y decodificación de v´ıdeo o procesado digital de señales.

2.1.3. Implementaciones disponibles

Aunque se trate de un estándar mantenido por el Khronos Group, esta organización simplemente se encarga de gobernar el proceso de desarrollo y evolución de las diferen-tes especificaciones de OpenCL, dejando en manos de la industria la implementación del estándar para su uso en los diferentes dispositivos compatibles. Han sido precisa-mente algunos de los miembros del OpenCL Working Group quienes han desarrollado sus propias implementaciones de OpenCL, orientándolas y optimizándolas en cada caso de acuerdo con sus propios objetivos empresariales. Ejemplo de ello son AMD (espe-cialmente orientada hacia sus APUs Heterogeneous y Fusion), NVIDIA (como capa de abstracción sobre la arquitectura CUDA), Intel (para las últimas generaciones de sus procesadores) o IBM (para sus procesadores Power, habituales en los equipos de supercomputación que comercializan).

2.2. La arquitectura OpenCL

Las ideas que subyacen de la definición del estándar OpenCL se organizan de acuerdo a una arquitectura basada en una jerarqu´ıa de modelos compuesta por los modelos de plataforma (Platform Model ), ejecución (Execution Model ), memoria (Memory Model ) y programación (Programming Model ).

(41)

2.2.1. Modelo de plataforma

OpenCL plantea un modelo que pueda servir de abstracción sobre la arquitectura concreta de las diferentes plataformas de computación compatibles con el estándar. Según este modelo, que pretende ilustrar la figura 2.3, toda plataforma compatible se compone de un host conectado a uno o más dispositivos OpenCL. Cada dispositivo OpenCL se divide en una o más unidades de computación (CUs, Computing Units), las cuales a su vez están divididas en uno o más elementos de procesado (PEs, Processing Elements), siendo en este último nivel del dispositivo donde se realiza el trabajo de computación.

Figura 2.3: Diagrama del modelo de plataforma de OpenCL

Una aplicación OpenCL se ejecuta en un host teniendo en cuenta las caracter´ısticas espec´ıficas del mismo. Desde dicho host, la aplicación env´ıa comandos a los elementos de procesado de los dispositivos, de modo que aquellos que se encuentran agrupados en una misma unidad de computación ejecutan un mismo flujo de instrucciones, bien como unidades SIMD, bien como unidades SPMD, según las necesidades de la aplicación.

2.2.2. Modelo de ejecuci´on

La ejecución de un programa OpenCL tiene lugar en dos partes: kernels que se ejecutan en uno o más dispositivos y un programa host que se ejecuta sobre el mismo y define el contexto de trabajo de los kernels y gestiona su ejecución.

(42)

Organizaci´on del trabajo

El núcleo del modelo de ejecución de OpenCL viene definido por cómo se ejecutan los kernels. Cuando el host env´ıa un kernel para su ejecución, se define un espacio de trabajo, de modo que se ejecuta una instancia de dicho kernel para cada punto del espacio previamente definido. Esta instancia recibe el nombre de work-item (elemento de trabajo) y se identifica de forma global por el punto que lo representa en el espacio de trabajo, el cual se define como una matriz de varias dimensiones. Cada work-item ejecuta el mismo código, aunque el camino concreto de cada ejecución y los datos que en ésta se manipulan pueden variar entre los diferentes work-items. A su vez, los work-items pueden organizarse en work-groups, los cuales también se identifican por su posición en el espacio de trabajo e, internamente, se organizan como matrices de varias dimensiones formando un espacio local. Las instancias asociadas a los work-items de un work-group dado se ejecutan concurrentemente en los elementos de procesado de una misma unidad de computación. La figura 2.4 muestra cómo se organiza un espacio de trabajo bidimiensional en OpenCL, pudiendo verse en la figura 2.5 un ejemplo de sencillo de identificación de work-items en un espacio bidimensional de tamaño (8, 12) subdividido en grupos de tamaño (4, 4).

(43)

Figura 2.5: Ejemplo de identificaci´on de work-items en un espacio bidimensional

Contexto de ejecuci´on

Una de las principales finalidades del host es definir y gestionar el contexto en el que se ejecutarán los diferentes kernels. Este contexto es creado y manipulado por el host mediante un ((código de host)) construido utilizando las funciones del API de OpenCL. El contexto gestiona, entre otras cosas, los dispositivos OpenCL presentes en la plataforma, los kernels que se ejecutarán sobre los dispositivos, los objetos de programa (ejecutables de los kernels) y los objetos de memoria (buffers de transferencia de datos entre host y kernel ).

Colas de comandos

El host crea una estructura de datos llamada ((cola de comandos)) para coordinar la ejecuci´on de los kernels en los diferentes dispositivos, de modo que el host env´ıa comandos a dicha cola para que ´estos sean planificados sobre los dispositivos incluidos en el contexto.

Dichos comandos pueden dividirse de acuerdo a la siguiente clasificaci´on:

Comandos de ejecuci´on de kernel : Ejecutan un kernel sobre los elementos de procesado de un dispositivo.

Comandos de memoria: Transfieren datos a, desde, o entre objetos de memoria, o bien reservan y liberan el espacio asociado a los mismos en el host.

(44)

Comandos de sincronizaci´on: Determinan el orden de ejecuci´on del resto de comandos.

Como ya se ha comentado, la cola de comandos planifica la ejecución de los mismos en un dispositivo. Después, éstos se ejecutan de manera as´ıncrona entre dicho dispositivo y el host de acuerdo a alguno de los siguientes modos cuyo funcionamiento ilustra la figura 2.6 y que a continuación se relacionan:

Figura 2.6: Diagrama de ejecuci´on en orden y fuera de orden en una cola OpenCL

Ejecución en orden: Los comandos son lanzados y completados en el orden en que han sido encolados, de modo que un comando que aparezca primero en la cola siempre se completará antes de que comience el siguiente. Como puede deducirse, este modo supone la serialización de todos los comandos encolados.

Ejecución fuera de orden: Los comandos son lanzados en orden, pero no se espera a la finalización de un comando anterior para la ejecución de otro posterior. En este caso, es responsabilidad expresa del programador utilizar los comandos de sincronización pertinentes para que la ejecución del código de host sea la esperada. Los comandos de memoria y de ejecución de kernel encolados generan los llamados ((objetos de evento)), los cuales pueden ser utilizados para controlar la ejecución entre comandos y para coordinar la ejecución entre el host y los dispositivos. As´ı mismo, es posible asociar múltiples colas bajo un mismo contexto. Utilizando este modo de trabajo, las colas se ejecutan de forma concurrente pero independientemente, sin que OpenCL garantice ningún mecanismo expl´ıcito de sincronización entre las mismas.

(45)

Categor´ıas de kernels

El modelo de ejecución de OpenCL soporta dos categor´ıas diferentes de kernels. Por una parte, kernels de OpenCL, escritos utilizando la extensión de C para OpenCL y compilados con el compilador de OpenCL. Todas las implementaciones del estándar han de soportar este tipo de kernels, si bien éstas pueden proporcionar otros mecanismos para su creación. Por otra se encuentran los llamados kernels ((nativos)), que son accedi-dos mediante un puntero a función y son encolados para su ejecución en un dispositivo con el resto de kernels OpenCL, con los que además comparten los objetos de memoria. Ejemplos de ello ser´ıan funciones definidas en un código de aplicación o procedentes de una librer´ıa. Nótese que esta funcionalidad es meramente opcional y que la semántica de los kernels nativos es dependiente de cada implementación, de modo que lo único que se incluye en el API de OpenCL son funciones para consultar las capacidades de un dispositivo y determinar si alguna concreta está soportada.

2.2.3. Modelo de memoria

Los work-items encargados de la ejecuci´on de un kernel pueden acceder a cuatro regiones de memoria diferentes organizadas de acuerdo al esquema de la figura 2.7 y que a continuaci´on se citan ordenadas de menor a mayor velocidad de acceso:

(46)

Memoria global: Esta regi´on de memoria permite accesos de lectura-escritura a todos los work-items de todos los work-groups, pudiendo leer o escribir datos en cualquier elemento de un objeto de memoria. As´ı mismo, dependiendo de las capacidades del dispositivo, las lecturas y escrituras en memoria global podr´ıan almacenarse en cach´e.

Memoria constante: Es una región de la memoria global que permanece cons-tante durante la ejecución de un kernel, siendo el host el encargado de reservar e inicializar los objetos de memoria almacenados en esta región.

Memoria local: Es una regi´on local respecto de un work-group, la cual puede ser utilizada para reservar variables compartidas por todos los work-items del grupo. En algunos dispositivos se implementa como una regi´on exclusiva, mientras que en otros se utilizan secciones de la memoria global dedicadas.

Memoria privada: Una regi´on de memoria privada para cada work-item, de modo que las variables definidas en la misma no son visibles por los dem´as items.

Las tablas 2.1 y 2.2 describen en qué casos en que tanto el kernel como el host pueden reservar memoria de una región concreta, en qué forma pueden hacerlo (estática o en tiempo de compilación, diánimca o en tiempo de ejecución) y qué tipo de acceso les está permitido (sólo lectura, lectura-escritura o acceso prohibido).

Global Constante Local Privada

Host Dinámica Dinámica Dinámica Sin reserva

Kernel Sin reserva Estática Estática Estática

Tabla 2.1: Tipos de reserva de memoria en OpenCL

Global Constante Local Privada

Host R-W R-W Sin acceso Sin acceso

Kernel R-W S´olo lectura R-W R-W

(47)

El código de host se sirve del API de OpenCL para crear objetos de memoria en la región global, as´ı como para encolar aquellos comandos de memoria que operen sobre dichos objetos. Los modelos de memoria del host y del dispositivo OpenCL son, en su mayor´ıa, independientes entre s´ı. Esto resulta necesario dado que el host está definido fuera de OpenCL. Sin embargo, ambas partes tienen que poder interactuar, lo cual sucede de una de las dos siguientes formas: copiando datos expl´ıcitamente o asignando y desasignando regiones de un objeto de memoria. Para copiar datos de forma expl´ıci-ta, el host encola comandos para transferir los datos entre el objeto de memoria y la suya propia, pudiendo ser estos comandos tanto bloqueantes como no bloqueantes. La llamada a la función de OpenCL encargada de realizar una transferencia bloqueante de memoria finaliza una vez los recursos de memoria asociados al host pueden ser reuti-lizados de forma segura. Para una transferencia no bloqueante, la función de OpenCL finaliza tan pronto como el comando es encolado, sin importar si es seguro o no reutilizar la memoria del host.

El método de asignación/desasignación permite al host asociar una región del objeto de memoria a su espacio de direcciones. De la misma forma que sucede con el método de copia expl´ıcita, en este caso el comando de memoria correspondiente también puede ser bloqueante o no bloqueante. Una vez se ha realizado la asociación entre el objeto de memoria y el host, este último puede leer o escribir en esa región. El propio host se encarga de desasignar la región una vez se hayan completado los accesos (lecturas y/o escrituras) a la misma.

Consistencia de memoria

OpenCL se basa en un modelo de consistencia relajada de memoria, de modo que no se garantiza que el estado de la memoria visible para un work-item sea consistente en todo momento para el resto de work-items. Dentro de cada work-item s´ı se cumple una consistencia de carga/almacenamiento (load/store consistency ). La memoria local es consistente para todos los work-items dentro del mismo grupo cuando la ejecuci´on alcanza una barrera que afecte a dicho grupo, lo cual tambi´en se cumple para la memoria

(48)

global. Sin embargo, para este tipo de memoria no existen garant´ıas de consistencia entre grupos diferentes. Finalmente, la ´unica forma de garantizar la consistencia de memoria entre objetos compartidos por distintos comandos encolados es introducir un punto de sincronizaci´on en el momento que se desee comprobar el estado de la memoria.

2.2.4. Modelo de programaci´on

Como ya se introdujo en apartados anteriores, el modelo de ejecución de OpenCL soporta los modelos de programación paralela basados tanto en datos como en tareas, as´ı como versiones h´ıbridas de los mismos. Aunque sea compatible con ambos, el diseño de OpenCL ha sido realizado siguiendo el modelo de paralelismo de datos.

Paralelismo de datos

Este modelo parte de la definición de operación como una secuencia de instrucciones aplicada simultáneamente a múltiples elementos de un objeto de memoria. El espacio de ´ındices asociado al modelo de ejecución de OpenCL define los work-items y la asocia-ción del conjunto de datos a los mismos. Si se aplicase el paralelismo de datos de forma estricta, existir´ıa siempre una relación uno a uno entre cada work-item y cada elemento del objeto de memoria sobre el que se ejecutará, en paralelo, el kernel. OpenCL, en cambio, implementa una versión relajada del modelo que no siempre requiere de esta asociación. OpenCL proporciona un modelo jerárquico de programación paralela de datos, habiendo dos formas para especificar esta subdivisión jerárquica. En el modelo expl´ıcito el programador define el número total de work-items que trabajarán en para-lelo, as´ı como la agrupación de éstos para formar work-groups. En el modelo impl´ıcito, el programador solamente especifica el número total de work-items, dejando que sea la implementación de OpenCL quien gestione la división en work-groups.

(49)

Paralelismo de tareas

El paralelismo basado en tareas implementado en OpenCL se basa en un modelo en el que se ejecuta una sola instancia de un kernel independientemente del espacio de ´ındices. Lógicamente, equivale a ejecutar un kernel en una unidad de computación que cuente con un work-group formado por un único work-item. Bajo este modelo, los usuarios pueden extraer paralelismo utilizando los tipos de datos vectoriales implementados por el dispositivo, encolando varias tareas o encolando kernels nativos desarrollados usando un modelo de programación ortogonal a OpenCL.

Sincronizaci´on

OpenCL ofrece dos posibilidades diferentes para la inserción de puntos de sincro-nización, bien entre los work-items de un mismo work-group, bien entre los comandos encolados bajo un mismo contexto. La sincronización entre work-items dentro de un mismo work-group se consigue mediante una barrera de work-group que forzará que to-dos los items la alcancen antes de que sea posible continuar con la ejecución más allá de la misma. Nótese que no es posible la definición de barreras parciales de este tipo, de modo que la ejecución solamente proseguirá si está definida y la alcanzan todos los items, o bien si directamente no se encuentra definida. As´ı mismo, no existe mecanismo alguno de sincronización entre grupos.

En lo que respecta a la sincronizaci´on entre comandos de una misma cola, existen dos posibilidades:

Barrera de cola de comandos: Este tipo de barrera asegura que todos los co-mandos previamente encolados han finalizado su ejecuci´on y que todas las actua-lizaciones de los objetos de memoria implicados ser´an visibles para los comandos subsiguientes antes de que comiencen a ejecutarse. Esta barrera solamente puede usarse para sincronizar comandos dentro de una misma cola.

Espera por un evento: Todas las funciones de la API que resultan en la inser-ci´on de comandos en la cola devuelven un evento que identifica al comando y a

(50)

los objetos de memoria que modifica. Si un comando subsiguiente espera por la aparici´on de dicho evento, queda garantizada la visibilidad de las modificaciones previas sobre los objetos de memoria antes de su ejecuci´on.

2.3. Programaci´

on de aplicaciones con OpenCL

Tal y como se ha ido comentando a lo largo del presente cap´ıtulo, para poder progra-mar cualquier tipo de aplicación utilizando OpenCL es necesario establecer el comporta-miento de las dos principales partes de cualquier plataforma de computación compatible con el estándar: el host y los dispositivos. Para la programación de los dispositivos, en-cargados de realizar las tareas de computación, es necesario desarrollar lo que se conoce como((código de kernel)). Este código es el que implementará las funciones propiamente dichas, y se escribe utilizando la extensión de C para OpenCL. Por su parte, el host debe ejecutar lo que se conoce como((código de host)), cuya función principal es definir y gestionar del contexto de ejecución utilizando las funciones del API que OpenCL proporciona a tal efecto. A continuación se explica, para un ejemplo sencillo (una suma de vectores), los pasos a seguir para desarrollar ambos tipos de código.

El listado 2.1 contiene la implementación de un kernel que realiza la suma de dos vectores con valores de tipo float y longitud N. Aunque a simple vista se asemeja bastante a una función convencional escrita en C, existen ciertas caracter´ısticas que serán aclaradas posteriormente.

1 _ _ k e r n e l void vecsum ( _ _ g l o b a l const float *a , _ _ g l o b a l const float *b , _ _ g l o b a l f l o a t * c , u n s i g n e d int N )

2 {

3 u n s i g n e d int xid = g e t _ g l o b a l _ i d (0) ; 4 if ( xid < N )

5 c [ xid ] = a [ xid ]+ b [ xid ]; 6 }

(51)

De todas formas, para poder explicar de forma clara los detalles del código mostrado del listado, es necesario comentar antes los pasos que es necesario seguir para imple-mentar el código de host que cree y gestione el contexto adecuado para la ejecución del kernel.

2.3.1. Desarrollo de un c´odigo de host

Para poder definir el contexto adecuado para ejecutar el kernel del listado, es nece-sario desarrollar un c´odigo de host que realice las siguientes operaciones:

Definici´on de los espacios de trabajo

Tal y como se ha comentado en el apartado 2.2.2, OpenCL distribuye la ejecución de los kernels de acuerdo a un espacio de trabajo que modela la organización de los diferentes núcleos de los dispositivos de la plataforma. En este caso, al tratarse la suma de vectores de una operación extremadamente sencilla, la definición de los espacios de trabajo (listado 2.2) no reviste complejidad alguna: se necesitarán tantos work-items como elementos tengan los arrays que representan a los vectores A y B (l´ınea 1), y cada uno de dichos items realizarán su propio cálculo de Ci= Ai+ Bi correspondiente

a una componente del vector suma C (l´ınea 2).

1 size_t g l o b a l _ w o r k _ s i z e = N ; 2 size_t l o c a l _ w o r k _ s i z e =1;

Listado 2.2: Ejemplo de definici´on de workspaces OpenCL para una suma de vectores

Obtenci´on de las plataformas OpenCL a usar

La primera operación a realizar en un código de host OpenCL es comprobar la existencia de plataformas compatibles con el estándar para, posteriormente, seleccionar aquella o aquellas que se desean utilizar para ejecutar sobre ellas el kernel. La función que permite obtener esta información es clGetPlatformIDs, la cual es utilizada en

(52)

primer lugar para saber cu´antas plataformas hay disponibles en el sistema (l´ınea 3 del listado 2.3). Una vez conocido el n´umero de platformas (almacenado en la variable nPlatforms), se reserva memoria para almacenar los identificadores de las mismas (l´ınea 4) y se vuelve a llamar a clGetPlatformIDs (l´ınea 5) para obtener dichos datos y volcarlos en la estructura pltfrmIds.

1 c l _ u in t n P l a t f o r m s ;

2 c l _ p l a t f o r m _ i d * p l t f r m I d s ;

3 c l G e t P l a t f o r m I D s (0 , NULL , & n P l a t f o r m s ) ;

4 p l t f r m I d s = malloc ( sizeof ( c l _ p l a t f o r m _ i d ) * n P l a t f o r m s ) ; 5 c l G e t P l a t f o r m I D s ( nPlatforms , p l t f r m I d s , NULL ) ;

Listado 2.3: Ejemplo de obtenci´on de plataformas en un host OpenCL

Obtenci´on de los dispositivos OpenCL a usar

Una vez conocidas las plataformas disponibles, se ha de elegir qué dispositivos de las mismas se desean utilizar. De forma similar a como sucede para las plataformas, en el caso de los dispositivos también resulta necesario llamar dos veces a clGetDeviceIDs, función que permite obtener sus identificadores. En primer lugar (l´ınea 1 del listado 2.4) se obtiene, para un identificador de plataforma dado, el número de dispositivos dispo-nibles. Una vez reservado el espacio necesario (l´ınea 2), se obtienen los identificadores correspondientes (l´ınea 3). Nótese que para obtener tanto el número de dispositivos co-mo la lista de identificadores, es necesario especificar qué tipo de dispositivos se desean utilizar (véase tabla 2.3). En este caso, el dispositivo en cuestión es una GPU, cuyo identificador de tipo es CL DEVICE TYPE GPU.

1 c l G e t D e v i c e I D s ( pl_ID , C L _ D E V I C E _ T Y P E _ G P U ,0 , NULL ,& nGPUS ) ; 2 clDevs = malloc ( sizeof ( c l _ d e v i c e _ i d ) * nGPUS ) ;

3 c l G e t D e v i c e I D s ( pl_ID , C L _ D E V I C E _ T Y P E _ G P U , nGPUS , clDevs , NULL ) ;

(53)

Identificador Descripci´on

CL DEVICE TYPE CPU CPU del host

CL DEVICE TYPE GPU GPU

CL DEVICE TYPE ACCELERATOR Acelerador dedicado (un blade, por ejemplo) CL DEVICE TYPE DEFAULT Dispositivo por defecto de la plataforma CL DEVICE TYPE ALL Todos los dispositivos

Tabla 2.3: Tipos de dispositivos recogidos en el est´andar OpenCL

Creaci´on de un contexto para los dispositivos

Una vez seleccionados plataforma y dispositivo kernel, se procede a crear el contexto que servirá de base para la ejecución del kernel. Previamente (l´ınea 1 del listado 2.5) a la creación del contexto se define un array cps de propiedades en el que se indica qué plataforma se va a usar. A partir de dicho array se crea el contexto context llamando a la función clCreateContextFromType (l´ınea 2) especificando, además de las propiedades, el tipo de dispositivo a usar. También ser´ıa posible especificar un puntero a función que será invocada por OpenCL para informar de cualquier error sucedido en el seno del contexto creado y gestionarlo según establezca el usuario.

1 c l _ c o n t e x t _ p r o p e r t i e s cps [3] = { C L _ C O N T E X T _ P L A T F O R M ,( c l _ c o n t e x t _ p r o p e r t i e s ) p l a t f o r m s [ s e l e c t e d _ p l a t f o r m ] , 0};

2 c o n t ex t = c l C r e a t e C o n t e x t F r o m T y p e ( cps , C L _ D E V I C E _ T Y P E _ G P U , NULL , NULL ,& err ) ;

Listado 2.5: Ejemplo de creaci´on de un contexto OpenCL

Creaci´on de colas de comandos

Con el contexto creado, es el momento de establecer la cola o colas que servirán al host para enviar diferentes tipos de comandos al dispositivo. Para crear una cola basta llamar a la función clCreateCommandQueue (listado 2.6) indicando el contexto para el que se está creando la cola, a qué dispositivo se enviarán los comandos que en ella se inserten y el modo o modos de ejecución de la misma. Existen dos posibles modos de ejecución: CL QUEUE PROFILING ENABLE, que indica que la cola admitirá operaciones de