1. Introducción 1.1. CPU

(1)

(2)

(3)

1. Introducci´

on

El presente proyecto tiene como objetivo ver la importancia de paralelizar algoritmos cuyo requerimiento de cómputo es muy grande, con el fin de disminuir el tiempo de ejecución para tener resultados en un tiempo más corto, as´ı como poder correr sistemas mucho más grandes.

Tomaremos el modelo de Ising el cual se analizará en 2D, éste modelo lo ejecutaremos secuencial en un CPU y en paralelo ejecutándose en un GPU, mediremos tanto el tiempo de ejecución as´ı como las propiedades termodinámicas y como se afectan por el tamaño finito del sistema.

La paralelización es una forma de cómputo o cálculo en la cual varios procesos se pueden realizarse simultáneamente. Basado en el principio de dividir los problemas grandes para obtener varios problemas pequeños, que son posteriormente solucionados en paralelo.

Un programa secuencial se puede paralizar de 3 formas:

Nivel de procedimientos: en ´este caso se ejecutan varias llamadas a procedimientos de forma simult´anea.

Nivel de bucles: en éste caso se ejecutan varias iteraciones y/o sentencias del bucle en paralelo. Nivel de bloque básico: en éste caso se ejecutan en paralelo varias operaciones de un bloque de sentencias de asignación.

El proceso de paralelización se realiza a nivel de programa fuente en alto nivel, generando una versión equivalente paralela también en alto nivel. A partir del programa original se realiza un detallado análisis de las dependencias entre sentencias del bucle. Estas dependencias determinan un orden parcial de ejecución de las operaciones del bucle que debe ser preservado en la nueva versión generada la cual se paraleliza.

Este proyecto tiene como objetivo la paralelización, usando CUDA, de un modelo de Ising en 2D y usando la metodolog´ıa de tablero de ajedrez para analizar los efectos de tamaño finito en las propiedades termodinámicas y además de calcular los tiempos de ejecuación como función del tamaño del sistema y su comparación con uno simular usando código secuencial.

1.1. CPU

La CPU (Central Procesing Unit) es la parte inteligente del sistema, interpreta las instrucciones del programa de usuario y consulta el estado de las entradas; dependiendo de dichos estados y del programa, ordena la activaci´on de las salidas deseadas.

La CPU est´a constituida por los siguientes elementos:

Unidad de control (UC): es la responsable de seguir cada una de las operaciones que realiza una instrucci´on.

Unidad aritmética y lógica: es la responsable de recibir todas las operaciones asignadas y convertirlas en datos, esas operaciones son del tipo lógico-matemático y son respaldadas por un co-procesador matemático.

El registro: es responsable en detallar las instrucciones tanto efectivas como fallidas. Podemos mencionar un sub-grupo en el que se encuentra el registro contador y es el esponsable de indicar cuál es la instrucción que sigue en el proceso y la memoria caché que es la responsable de guardar los procesos que son de uso regular con el fin de cargarlos rápidamente al ser requeridos.

(4)

La CPU es una unidad de procesamiento general, está preparada para operaciones matemáticas y lógicas con las cuales podemos realizar casi cualquier tarea a una velocidad rápida. El problema viene cuando nos metemos en programas con una carga gráfica muy grande, como pueden ser videojuegos o programas de diseño 3D. Estos programas están continuamente procesando formas y texturas, y hacerlo por medio de la CPU no suele ser la mejor manera, ya que no está espec´ıficamente diseñada para estas tareas (ver figura 1).

Figura 1: Descripci´on simplificada del CPU.

1.2. GPU

Por sus siglas en inglés, la GPU es la Graphics Processing Unit[2], o unidad de procesamiento de gráficos. Impulsada por la insaciable demanda del mercado de tiempo real, los gráficos de alta definición en 3D, la GPU programable se ha convertido en un procesador de varios núcleos, con paralelismo alto y multihilo, con una tremenda potencia de cálculo y un gran ancho de banda de memoria.

Sin embargo, existe una discrepancia con respecto a la capacidad de punto flotante entre la CPU y la GPU debido a que la GPU está especializada para la computación intensiva, la com-putación de paralelismo alto, y por lo tanto diseñada de tal manera que más transistores se dedican al procesamiento de datos en lugar de almacenamiento en caché de datos y al control de flujo, por lo que en ocasiones la cantidad de accesos a memoria puede jugar en su contra. La GPU es especialmente adecuada para abordar los problemas que se pueden expresar como cálculos paralelos de datos (el mismo programa de ejecuta en muchos elementos de datos en paralelo) con alta inten-sidad aritmética. Como el mismo programa se ejecuta para cada elemento de datos, hay un menor requerimiento de control de flujo sofisticado, y como se ejecuta en muchos elementos de datos y tienen alta intensidad aritmética, la latencia de acceso a memoria puede ser ocultada con cálculos en lugar de cachés de datos grandes (ver figura 2).

Cuda es un chip que está en la tarjeta gráfica del ordenador el cual se encarga del procesamiento gráfico, está constituido de varios núcleos que ofrecen alto rendimiento, encargada de procesar gráficos u operaciones de coma flotante.

(5)

Figura 2: Arquitectura de un GPU

Algunas de las caracter´ıstica principales que deben de considerarse cuando se utiliza la GPU para realizar c´alculos mat´ematicos son:

Todos los núcleos ejecutan la misma instrucción simultáneamente pero con distintos datos (ver figura 3).

M´ınimo de 32 hilos realizando la misma tarea (casi) al mismo tiempo.

T´ecnica tradicional en el procesamiento gr´afico y en muchas aplicaciones cient´ıficas.

Actualmente existen tres grandes tipos de unidades de procesamiento gr´afico, m´as que por la ar-quitectura, la diferencia entre ellos es por el modo en que son implementadas las GPU:

Tarjetas dedicadas: éste tipo de unidades gráficas son las que proporcionan mayor potencia. Como su nombre lo indica, tienen una serie de especificaciones y están diseñadas para cumplir con sus tareas espec´ıficas, por lo que son mucho más eficientes. Generalmente se suele entender que una tarjeta dedicada es aquella que se integra a la tarjeta madre mediante un puerto aparte. Esto último no siempre es necesario, y lo que realmente define a una tarjeta gráfica dedicada es que tiene RAM independiente que solo podrá ser utilizada por el GPU, y mientras cumpla con este requisito puede estar integrada a la placa base o incluso al CPU.

Tarjetas integradas: a diferencia de las unidades dedicadas, las integradas utilizan la memoria del sistema para realizar sus funciones. Son este tipo de soluciones las m´as comunes en las

(6)

compuatdoras modernos, usándose casi en el 90 % de los equipos de cómputo, incluyendo smartphones, tablets y la mayor´ıa de PCs. Con frecuencia el núcleo central de estas unidades sol´ıa estar en la tarjeta madre, pero más recientemente las cosas han cambiado, y tanto AMD como Intel suelen integrarlas ahora en sus procesadores, y les han denominado AMD Accelerated Processing Unit e Intel HD Graphics respectivamente.

Tarjetas h´ıbridos: están diseñadas para mantener precios relativamente bajos y al mismo tiem-po asegurar niveles de tiem-potencia adecuados, las unidades gráficas h´ıbridas también comparten la memoria del sistema, pero para disminuir el tiempo de latencia de esta última, integran una cantidad limitada de memoria propia que se encarga de realizar las labores inmediatas. Suele ser éste el tipo de gráficos que encontraremos en compuatdoras portátiles que prometen tarjetas dedicadas (ver figura 4).

A diferencia de los procesadores centrales, diseñados con pocos núcleos pero altas frecuencias de reloj, las GPU suelen tener grandes cantidades de núcleos de procesamiento a frecuencias de reloj relativamente bajas. En la actualidad, la mayor´ıa de los núcleos de procesamiento están dirigidos a dos funciones: procesamiento de vértices y de p´ıxeles.

Además, este procesador está espec´ıficamente diseñado para trabajar con gráficos, con funciones espec´ıficas y una arquitectura muy basada en el procesamiento en paralelo. En pocas palabras, con la aceleración por GPU lo que hacemos es quitar trabajo a la CPU y dárselo a la GPU, que lo hará más rápido y mejor.

Algunos programas usan aceleración por GPU, pero sin embargo no trabajan con formas, como por ejemplo los reproductores de v´ıdeo, entonces, ¿para qué usan la GPU? pues algunas tarjetas gráficas soportan la decodificación por hardware, es decir, dan la posibilidad de decodificar un v´ıdeo por medio de un chip integrado, que lo hace más rápido y quitando carga a la CPU, por ejemplo, un GPU Chrome apenas pod´ıa con 36 imágenes, mientras que con la aceleración GPU se puede ver cómo IE 9 manejaba hasta 256 imágenes con bastante fluidez.

(7)

Otras aplicaciones también usan la aceleración por GPU, desde la versión CS4, Photoshop y el resto de la suite de Adobe aprovecha la potencia de la tarjeta gráfica para aumentar el rendimiento de la aplicación, sobre todo cuando trabaja con gráficos 3D. Google Earth también tiene aceleración por GPU y en general, todos los programas que trabajen con 3D.

Figura 4: Comparaci´on de las arquitecturas del CPU y GPU.

1.3. OpenGL

OpenGL (Open Graphics Library)[3] es una especificación estándar que define una API multi-lenguaje y multiplataforma para escribir aplicaciones que produzcan gráficos 2D y 3D. La interfaz consiste en más de 250 funciones diferentes que pueden usarse para dibujar escenas tridimension-ales complejas a partir de primitivas geométricas simples, tales como puntos, l´ıneas y triángulos. Se usa ampliamente en CAD, realidad virtual, representación cient´ıfica, visualización de información y simulación de vuelo. También se usa en desarrollo de videojuegos, donde compite con Direct3D en plataformas Microsoft Windows.

OpenGL consiste en una serie de librer´ıas y rutinas de clases por lo cual (ver figura 5), OpenGL no es un paquete de software de renderizado y modelado como Blender o 3D Max, es una API de bajo nivel que proporciona una interfaz de hardware de gráficos. No es por lo tanto ningún lenguaje de programación, sino tan sólo un conjunto de librer´ıas que son utilizadas a través de lenguajes de programación como VisualC++ para conseguir un interfaz software entre las aplicaciones y el hardware gráfico. OpenGL permite:

1. Construir formas geom´etricas a partir de primitivas.

2. Ubicar los objetos en el espacio tridimensional y seleccionar el punto de vista de la escena. 3. Aplicar el color a los objetos, ya sea mediante una asignaci´on expl´ıcita de la aplicaci´on, a

partir de las condiciones de iluminaci´on o mediante la utilizaci´on de texturas.

4. Convertir la descripción matemática de los objetos y la información sobre el color en pixeles de la pantalla, proceso que se llama rasterización.

Existen implementaciones eficientes de OpenGL suministradas por fabricantes para Mac OS, Mi-crosoft Windows, Linux, varias plataformas Unix, y PlayStation 3. Tambi´en existen varias

(8)

im-Figura 5: Representación gráfica del proceso de reasterización con OpenGL.

plementaciones software que permiten que OpenGL est´e disponible para diversas plataformas sin soporte de fabricante.

1.4. MPI

MPI (Message Passing Interface)[1] es un estándar que define la sintaxis y la semántica de las funciones contenidas en una biblioteca de paso de mensajes diseñada para ser usada en programas que exploten la existencia de múltiples procesadores. El modelo de programación que subyace tras MPI es MIMD (Multiple Instruction streams, Multiple Data streams)i (ver figura 6), un caso partic-ular de MIMD en el que todos los procesos ejecutan el mismo programa, aunque no necesariamente la misma instrucción al mismo tiempo.

Figura 6: Representación de Multiple Instruction Streams (MIMD) utilizado en MPI. MPI proporciona una librer´ıa de funciones para C, C++ o Fortran (77 y 90) que son empleadas en los programas para comunicar datos entre procesos, el paso de mensajes es una técnica empleada en programación concurrente para aportar sincronización entre procesos y permitir la exclusión mutua. Su principal caracter´ıstica es que no precisa de memoria compartida, por lo que es muy importante en la programación de sistemas distribuidos. Algunas caracter´ısticas de MPI son:

1. Definir un entorno de programación único que garantice la portabilidad de las aplicaciones paralelas (multiprocesadores, multicomputadores, redes, heterogéneos).

(9)

2. Definir totalmente la interfaz de programación, sin especificar cómo debe ser la implementación del mismo.

3. Ofrecer implementaciones de calidad, de dominio público, para favorecer la extensión del estándar.

4. Existencia de implementaciones libres: Mpich, LAM-MPI, OpeinMPI, PVM, etc. Algunas desventajas de MPI son:

1. El acceso remoto a memoria es lento. 2. La programaci´on puede ser complicada.

2. Objetivos

El objetivo principal de este proyecto es usar la tecnolog´ıa CUDA de NVIDIA para desarrollar y optimizar un algoritmo en 2D para un modelo de Ising y su comparaci´on en rendimiento con c´odigos en serial.

Estudiar el efecto que tienen las propiedades termodinámicas sobre el efecto de tamaño finito y como se ven afectadas por el tiempo en la simulación.

3. Modelo de Ising

El modelo de Ising, llamado as´ı en honor al f´ısico Ernst Ising quien lo presento en 1925[4], y el cual es un modelo muy sencillo para estudiar el fenómeno f´ısico del ferromagnetismo. El modelo consiste de un arreglo de M puntos fijos en una red con diferente conetividad y es un modelo matemático de ferromagnetismo al estudiar mecánica estad´ıstica (ver figura 8). El modelo consta de variables discretas que representan los momentos dipolares magnéticos de los espines atómicos que pueden estar en uno de dos estados, qu´ı representados por + y −. Los giros están dispuestos en una red, permitiendo que cada giro pueda interactuar con sus primeros vecinos. El modelo de Ising permite identificar transiciones de fase de la isótropa al ferrofluido y es un modelo simplificado de la realidad. El modelo de Ising bidimensional es uno de los modelos estad´ısticos más simples para mostrar una transición de fase.

Los elementos microscópicos de dicha red, se les identifica con part´ıculas atómicas y únicamente se condidera su momento magnético y se les denomina espines, solo admiten dos posibles estados de energ´ıa: abajo/arriba, 0/1 o -1/+1 en las diversas interpretaciones posibles. En el caso del ferrofluido los vecinos prefieren alinearse y significa que {+, +} y {−, −} tienen la energ´ıa más baja que lo pares {+, −} y {−, +} (ver figura 8). La energ´ıa de interacción en un modelo de Ising se representa por:

E = −JX

k,l

σkσl (1)

donde σk,les el valor de los espines vecionos y J es un par´ametro positivo y aqu´ı tomaremos J = 1.

En dos dimensiones k y l difieren ya sea por un espaciado reticular en x o un espaciado en y. Esta suma se realiza solo una vez por cada par vecino. Por lo que primero se ejecuta sobre la mitad de

(10)

Figura 7: Representaci´on bidimensional del modelo de Ising. Este modelo considera M puntos fijos los cuales toman en consideraci´on un modelo de espines (momentos dipolares) que solo pueden tomar dos valores de energ´ıa, reprentados aqu´ı por + y −.

los vecinos. En el siguiente algoritmo se muestra como se calcula la energ´ıa de los vecinos en un

(11)

modelo Ising. C´alculo de la energ´ıa en el modelo de Ising input{σ1, ..., σN} E ← 0 f or k = 1, ..., N do f or n = 1, ..., N do j ← V ecinos(n, k) if (j 6= 0)then {E ← E − σkσj} output E (2) Si los movimientos de los espines son hacia arriba o abajo e independientes entonces todas las configuraciones son 2N _{ya que los valores de los espines pueden tomar: {σ}

1, ..., σN} = {±1, ..., ±1}.

3.1. Modelo bimensional: resultados

Mientras que el modelo de Ising unidimensional es un problema relativamente simple de resolver, el modelo de Ising bidimensional es altamente no trivial. Era sólo el genio de las matemáticas puras de Lars Onsager que fue capaz de encontrar una solución anal´ıtica para el modelo de Ising bidimensional. La temperatura cr´ıtica para el modelo de Ising bidimesional esta dada por Tc =

2

log(1+√2)= 2.269.

A continuación se presentan los resultados para el modelo de Ising en una red cuadrada de tamaño L × L, los sistemas estudiados usando el código serial fueron: L = 8, 16, 32, 64 y 128, mientras que para el código desarrollado en CUDA fueron L = 8, 16, 32, 64, 128, 256, 512, 1024 y 2048. En ambos sistemas, los observables calculados fueron la energ´ıa E y la magnetización M como función de la temperatura T , además del tiempo de simulación tsim.. En la figura 9 se muestran la

comparación de los resultados obtenidos con el código serial y el código usando CUDA, podemos observar que los valores de la E son los mismos para un sistema de tamaño L = 8, mientras que para el sistema con tamaño L = 128, para el caso del código en el CPU los resultados difieren de los obtenidos con el código obtendios en el GPU, en la fase ferrofluida, esto se debe a que el tiempo de simulación para el caso serial se debe de incrementar para obtener una mejor convergencia de la E en la fase ferrofluido y esto trae como consecuencia un tiempo de simulación mayor[5]. En la figura 10(a) se muestran los resultados de los sistemas simulados con el CPU, se puede observar que al aumentar el tamaño del sistema la convergencia en la energ´ıa e deficiente y para poder obtener el valor correcto, es necesario aumentar el número de configuraciones del sistema, lo cual trae un aumento considerable en el tiempo de simulaci’on, en la figura 10(b) se muestran los resultados de la enrg´ıa como función de la temperatura de sistema simulado en el GPU, podemos observar que los tamaños del sistema son considerablemente mayor que los que se pueden simular en el CPU, además es posible aumentar el tiempo de simulación para obtener una mejor convergencia de los observables en el sistema. Como conclusón de los resultados obtenidos para un modelo de Ising bidimensional utilizando programación serial y masivamente paralela, podemos observar que los

(12)

Figura 9: Energ´ıa vs. temperatura obtendida de las simulaciones con los c´odigos en el CPU y GPU para diferentes valores de L.

sistemas simulados con el código serial son muy limitados y las propiedades termodinámicas sufren de un claro efecto en los tiempos de simulación, mientrs que los obtenidos con el código en CUDA se pueden simular tamaños muy grandes, millones de espines en la red cuadradra y los resultados de la energ´ıa, presentada aqu´ı converge muy rapidamente al valor correcto calculado de la teória.

(13)

Figura 10: Energ´ıa vs. temperatura obtendida de las simulaciones con los c´odigos en el CPU (a) y GPU (b) para diferentes valores de L.

(14)

Referencias

[1] Parallel Programming with MPI, P. Pacheco, Morgan Kaufmann, 1996

[2] CUDA by Example: An Introduction to General-Purpose GPU Programming, J. Sanders, E. Kandrot, Addison-Wesley Professional, 2010.

[3] OpenGL Programming Guide: The Official Guide to Learning OpenGL, Version 4.3 (8th Edi-tion), D, Shreiner, G. Sellers, J. M. Kessenich, B. M. Licea-Kane, Addison-Wesley Professional, 2013.

[4] Statistical Mechanics: Algorithms and Computations, W. Krauth, Oxford University Press, USA, 2006.

[5] M. Weigel, Simulating spin models on GPU, Comput. Phys. Commun. 182, 1833 (2011)

Aprobaci´on

Dr. Jos´e Antonio Moreno Razo Departamento de F´ısica