2 Redes de interconexión fija
4.5 Evaluación, Infiniband
Las aplicaciones paralelizadas y las aplicaciones de servicios transaccionales pueden lograr mejoras significativas en el rendimiento, lo que posibilita la reducción de los tiempos de finalización. También simplifican la implementación de red al consolidar los clústeres de comunicación de almacenamiento y administración proporcionando un mejor rendimiento.
Se procede a la instalación de las tarjetas Infiniband 10 GB/s y su respectivo switch se realizan las mismas pruebas de rendimiento con la utilería Lizard donde los resultados aparecen en la Figura 4.4. En donde se muestran 185.6 Gflops de operaciones y un incremento en el rendimiento de 58.15 %
128 1 164 1.64 104.75 103.11 1.17 256 1 292 2.92 108.60 105.68 2.25 512 1 548 5.48 114.86 109.38 4.25 1,024 1 1060 10.60 165.84 153.77 5.89 2,048 1 2084 20.84 174.61 153.77 11.19 4,096 2 4,144 41.44 186.34 144.9 20.96 8,192 4 8,264 82.64 214.67 132.03 36.39 16,384 8 16,512 165.12 296.11 130.99 52.77 32,768 16 32,984 329.84 473.71 143.87 65.97 65,536 32 65,944 659.44 787.75 128.31 79.34 131,072 64 131,864 1,318.64 1,385.89 67.25 90.19 262,144 128 263,704 2,637.04 2,587.56 -49.48 96.62 524,288 256 527,384 5,273.84 5,264.37 -9.47 94.98 1,048,576 512 1,054,744 10,547.44 10,719.12 171.68 93.29 2,097,152 1,024 2,109,464 21,094.64 19,851.71 -1,242.93 100.75 4,194,304 2,048 4,206,904 42,069.40 40,963.82 -1,043.12 97.65
117 Figura 4. 4 Rendimiento Lizard 10 GB/s Infiniband
Se puede observar que con las tarjetas Infiniband hay un rendimiento mayor del 75 % a diferencia con las tarjetas Ethernet la siguiente figura 4.5 se puede
observar como es el desempeño de los servidores en el cluster.
Figura 4. 5 Rendimiento Cluster Infiniband
4.5.1 Análisis del ping-pong Infiniband
Desde la línea de comando y utilizando las herramientas de Intel Benchmark
C:\Program Files (x86)\Intel\MPI\4.0.1.007\em64t\bin\imb-mpi1.exe pingpong
Como se ha mencionado para el protocolo Infiniband, la unidad de información es el Datagrama, conformado de 64 bytes: Encabezado, Carga Util, CRC:
118
Para el número de bytes especificado menor a 64, el protocolo transmite de hecho 64 bytes. Ahora bien, 64 bytes equivalen a 640 bits por codificación. Cada bit requiere 1/100x106=10 ns. Los 640 bits requieren, por lo tanto, 6.4 us para su transmisión podemos hacer la siguiente tabla (tabla 4.4):
Corriendo las herramientas de Intel Benchmark Pingpong se obtuvieron los siguientes resultados tabla.
bytes de cuadros bytes tiempo tiempo diferencia ancho de banda datos totales (us) reportado
0 1 64 0.64 23.75 23.11 0 1 1 65 0.65 25.82 25.17 0.04 2 1 66 0.66 30.84 30.18 0.06 4 1 68 0.68 25.45 24.77 0.15 8 1 72 0.72 30.39 29.67 0.25 16 1 80 0.8 30.33 29.53 0.5 32 1 96 0.96 25.78 24.82 1.18 64 1 160 1.6 28.67 27.07 2.13 128 1 192 1.92 27.91 25.99 4.37 256 1 320 3.2 26.14 22.94 9.34 512 1 576 5.76 34.78 29.02 14.04 1,024 1 1,088 10.88 31.55 20.67 30.95 2,048 1 2,112 21.12 42.12 21 46.38 4,096 2 4,172 41.72 71.79 30.07 54.41 8,192 4 8,292 82.92 79.07 -3.85 98.81 16,384 8 16,532 165.32 107.45 -57.87 145.42 32,768 16 33,012 330.12 163.4 -166.72 191.25 65,536 32 65,972 659.72 274.84 -384.88 227.4 131,072 64 131,892 1,318.92 495.57 -823.35 252.24 262,144 128 263,732 2,637.73 793.93 -1,843.80 314.89 524,288 256 527,412 5,274.12 1,574.88 -3,699.24 317.48 1,048,576 512 1,054,772 10,547.72 3,301.15 -7,246.57 302.92 2,097,152 1,024 2,109,492 21,094.64 6,312.66 -14,781.98 316.82 4,194,304 2,048 42,189,232 421,892.32 12,999.75 -408,892.57 307.7
Tabla 4. 4 Análisis de pingpong Infiniband
Considerando los primeros 7 valores de la diferencia entre el tiempo total y tiempo de datos como la latencia de comunicación. El valor medio de la latencia sería, entonces, de donde se desprende la tabla 4.4.
119
TL=1/7(23.11+ 25.17+ … + 24.82) = 703.95/7 = 26.75 us.
En la tabla 4.5 se muestra el comparativo de los dos protocolos de comunicación Ethernet e Infiniband en sus respectivas mediciones de latencia y rendimiento.
Pruebas Ethernet Infiniband Latencia 100.56 us 26.75 us Rendimiento 106.3% 185.6 %
Tabla 4. 5 Comparativo Ethernet e Infiniband
Con estos resultados se concluye que los objetivos de este trabajo se han cumplido al realizar el comparativo y la implementación de las tarjetas de comunicación así como su respectivo switch.
120 CONCLUSIONES:
Al término del trabajo se cumplieron los objetivos en la evaluación de los dos protocolos para el área académica, llegando a las siguientes conclusiones:
En arquitecturas Ethernet el ancho de banda obtenido se reduce dramáticamente con la trasmisión de datos con archivos pequeños, ello ilustra la importancia de la latencia como factor limitante en la comunicación para aplicaciones de cómputo paralelo, aplicaciones en las cuales el intercambio de datos de control, de pocos bytes, ocurre con frecuencia.
Dado que los sistemas cluster de memoria distribuida se manejan un alto nivel de intercomunicación a través de la red MPI el uso de una red de baja latencia puede incrementar considerablemente el rendimiento del mismo.
Infiniband, al ser una red surgida de un estándar desarrollado específicamente para realizar la comunicación en clusters puede alcanzar anchos de banda elevados conservando una latencia baja, lo que representa una ventaja competitiva comparada con Ethernet en aplicaciones de granularidad fina.
Se sugiere para trabajos posteriores realizar los comparativos de latencias y ancho de banda con Infiniband en diferentes clusters del instituto, para así poder definir una red de alto rendimiento.
APORTACIONES:
En el Centro de Innovación y Desarrollo Tecnológico en Cómputo (CIDETEC) del IPN, con el desarrollo del presente Trabajo Terminal se logro migrar el clúster de una red de interconexión Ehternet con un rendimiento de 106.3 GFlops, a una red de interconexión Infiniband con un rendimiento de 185.6 GFlops, lo que representa un incremento del casi 75% siendo la primera en el I.
Se implemento un cluster experimental de 2 procesadores Dual-Core en la Dirección de Cómputo y Comunicaciones del IPN, el cual cuenta con redes de interconexión Ehternet e Infiniband para posteriores pruebas.
Se definieron elementos importantes para el diseño e implementación de clusters en el Instituto.
Este Trabajo Terminal permite tomar la decisión en la adquisición de clusters para el desarrollo de cómputo científico en el área académica como para los Centros de Investigación en el Instituto.
121 Referencias
[1] Dr. Klaus Michael Lindig Bos: Tesis Doctoral Una arquitectura para el procesamiento basada en una red crossbar modificada. 1996
[2] M. en C. Luis David Terán Gutiérrez Tesis de Maestría: Algoritmo de optimización de procesos paralelos bajo el modelo de programación ms-mpi en Arquitectura intel 2010
[3] T. Sterling, D. Becker, J. Dorband, D. Savarese, U. Ranawake and C. Packer. BEOWULF: A Parallel Workstation for Scientific Computation. Proceedings of the 1995 International Conference on Parallel Processing (ICPP), Agosto 1997, pp. 11-14.
[4] D. Ridge, D. Becker, P. Merkey and T. Sterling. Beowulf: Harnessing the Power of Parallelism in a Pile-of-PCs”. Proceedings of the 1997 IEEE Aerospace Conference, 1997.
[5] D. Nichols, “Multiprocessing in a Network of Workstations”. Ph.D. Thesis, CMU ReportsCMU-CS90-107, Carnegie-Mellon University, 1990.
[6] NOW Poryect. Network of Workstations”. University of California NOW Project,
Computer Science Division, Berkeley.
http://now.cs.berkeley.edu
[7] SHRIMP. Scalable, High Performance, Really Inexpensive Multi.Processor.
Princeton University Computer Science Department.
http://www.CS.Princeton.edu/shrimp/
[8] openMOSIX project. Linux Kernel extension for single-system image clustering
http://openmosix.sourceforge.net/
[9] Moshe Bar, Maya, Asmita, Snehal, Krushna. OpenMosix. Linux Congress 2003. Disponible en:
http://openmosix.sourceforge.net/linuxkongress_2003_openMosix.pdf
[10] F. Thomson Leighton: Introduction To Parallel Algorithms And Architectures : Arrays, Trees, Hypercubes.