Estudio de la viabilidad de una red híbrida foto-eléctrica

(1)

Departament d’Inform`atica de Sistemes i Computadors

Universitat Polit`ecnica de Val`encia

Estudio de la viabilidad de una red h´ıbrida

foto-el´ectrica

T

RABAJO

F

IN DE

M

ASTER

M´aster en Ingenier´ıa de Computadores

Autor

Jose Puche Lara

Directores

Prof. Salvador Petit

Prof. Mar´ıa Engracia G´omez Requena

Prof. Julio Sahuquillo Borr´as

(2)

(3)

Resumen

Las altas escalas de integración disponibles actualmente en la fabricación de microprocesadores hacen posible incluir cientos de núcleos de procesamiento den-tro del mismo chip. Para reducir la contención en el acceso a memoria principal, estos procesadoresmanycore incluyen varios controladores de memoria que son accesibles desde cualquier núcleo. Para permitir la comunicación entre los dife-rentes núcleos, as´ı como entre éstos y los controladores de memoria, los many-cores suelen utilizar una red de interconexión eléctrica conocida como NoC (del inglésNetwork on Chip).

En este contexto, la red dentro del chip es un elemento fundamental ya que puede incrementar significativamente la latencia de acceso a memoria por dos razones principales. Por un lado, la latencia de un acceso a memoria principal de-pende, entre otros, de la distancia (es decir, del número de saltos) que el acceso recorre por la red desde el núcleo de ejecución hasta el controlador correspon-diente. Por otro, dependiendo de la combinación de aplicaciones que se encuentre en ejecución y de la distribución de éstas en los núcleos, los accesos pueden en-contrar una alta contención tanto en la red como en los controladores de memoria. Estos factores pueden potencialmente reducir la escalabilidad de la red.

Una de las soluciones a estos problemas de escalabilidad es el uso de tec-nolog´ıas alternativas, como la fotónica, en el diseño de la red. En este trabajo se propone el diseño de una red h´ıbrida que combine las tecnolog´ıas eléctrica y fotónica. La red eléctrica se mantiene para su uso en distancias cortas, mientras que la red óptica establece comunicaciones directas nodo-controlador, reduciendo significativamente las altas latencias en el acceso a memoria.

Como paso previo al diseño, se realiza un estudio de exploración sobre el im-pacto de la distancia que separa las aplicaciones del controlador de memoria en las prestaciones de las mismas. El estudio también analiza el tráfico adicional ge-nerado por la prebúsqueda hardware y la contención producida por aplicaciones ejecutándose en nodos vecinos del manycore. Estos resultados se han considerado para diseñar el mecanismo de selección de red (h´ıbrida o eléctrica) en tiempo de ejecución. Los resultados obtenidos muestran que la introducción de la red h´ıbrida combinada con una técnica de conmutación eficiente permite reducir la degrada-ción de prestaciones de las aplicaciones hasta un 16 % respecto al peor de los casos.

Palabras Clave: Mecanismos de Prebúsqueda, Redes nanofotónicas, Contención de Me-moria, Procesadores Multinúcleo, Redes en Chip

(4)

Abstract

The scale of integration of current microprocessor manufacturing processes allows including hundred of cores on a single chip. To reduce main memory access contention, these processors (referred to as manycores) use to implement multiple memory controllers that can be accessed from the distinct cores in the chip. A Network on Chip (NoC) is implemented to enable communication among cores and between cores and memory controllers.

In this context, the NoC becomes a key component that can heavily increase memory access latency due to two main reasons. On one hand, memory access latency depends basically on the distance (i.e. the number of hops) that a mem-ory request has to travel from the requesting core to the corresponding memmem-ory controller across the NoC. On the other hand, requests can experience network and memory contention depending on the number of running applications, their memory access patterns and the cores they are allocated to. These factors can potentially reduce network scalability.

A possible solution to overcome these problems relies on the use of alterna-tive network technologies. One example of these emerging technologies is the nanophotonic technology. On this work we propose a hybrid network design that combines electrical and optical technologies. This way, electrical network is used to perform transactions over short distances, while the optical one communicates cores to memory controllers, significantly reducing memory latencies.

First, we study the impact of the distance between memory controllers and the core where applications are executed on the applications’ performance. This study also analyzes the additional traffic generated by hardware prefetchers as well as the contention produced by applications co-running on the CMP. The obtained results have been considered in the design of the network (electric or photonic) selection mechanism that applies at run time. Results achieved on the evaluation of our proposal show that the hybrid network jointly with an efficient NoC switch-ing mechanism reduces the performance degradation of the studied applications up to a 16% compared to the worst case.

Keywords: Prefetch Mchanisms, Nanophotonic Network, Memory Hierarchy Contention, Manycore Processors, Networks On Chip

(5)

´Indice general

1 Introducci´on 8

1.1 Limitaciones de las redes en chip tradicionales . . . 8

1.2 La tecnolog´ıa nanofot´onica . . . 9

1.3 Aportaciones de este Trabajo Fin de M´aster . . . 10

1.4 Estructura de este Trabajo Fin de M´aster . . . 11

2 Redes en chip 12 2.1 Redes el´ectricas en chip . . . 12

2.1.1 Aspectos de dise˜no de una red dentro del chip . . . 13

2.2 Redes ´opticas en chip . . . 16

2.2.1 Componentes de una red ´optica . . . 16

2.2.2 Esquemas de comunicación y asignación dewavelengths . 19 3 Trabajo relacionado 24 4 Propuesta: Red h´ıbrida fotoeléctrica 26 4.1 Modelo de red h´ıbrida . . . 26

4.1.1 Criterios de elecci´on de red . . . 29

5 Entorno experimental 32 5.1 El framework de simulaci´on Multi2Sim . . . 32

5.2 Ampliaciones realizadas sobre Multi2Sim . . . 33

5.2.1 M´ultiples redes de interconexi´on . . . 33

5.2.2 Virtual Cut-Through . . . 35

5.2.3 M´ultiples dominios de frecuencia a nivel de red . . . 38

5.2.4 Conversiones electrico-óptica y óptico-eléctrica . . . 38

5.2.5 Clasificaci´on de p´aginas de memoria . . . 39

5.2.6 Modelo de selecci´on de red . . . 39

5.3 Benchmarks utilizados para simulaci´on . . . 39

5.3.1 Aritm´etica de Enteros . . . 40

(6)

6 Resultados experimentales 44

6.1 Estudio de limitaciones de la red eléctrica . . . 44 6.1.1 Impacto de la distancia en las prestaciones . . . 46 6.1.2 Impacto de la prebúsqueda en la degradación de

presta-ciones por distancia . . . 49 6.1.3 Impacto de la contenci´on de la red en la degradaci´on de

prestaciones según la distancia . . . 51 6.2 Evaluación de red h´ıbrida . . . 55 6.2.1 Degradación de prestaciones en malla y red h´ıbrida . . . . 56 6.2.2 Distribución del tráfico en la red h´ıbrida . . . 61

7 Conclusiones 62

7.1 Contribuciones . . . 63 7.2 Trabajo futuro . . . 64 7.3 Publicaciones . . . 64

(7)

´Indice de figuras

2.1 Ejemplo de dise˜no por tiles de un chip multin´ucleo. . . 13

2.2 Ejemplo de comunicaci´on mediante un enlace ´optico. . . 18

2.3 Esquemas de comunicaci´on single writer. . . 19

2.4 Esquemas de comunicaci´on multiple writer. . . 20

2.5 Esquemas de comunicaci´on SWMR y MWSR con WDM de 3 longitudes de onda. . . 21

2.6 Esquema de comunicaci´on buffered-SWMR. . . 23

4.1 Modelo de red h´ıbrida propuesta. . . 27

5.1 Interconexión entre módulos de memoria antes y después de la ampliación de Multi2Sim. . . 34

5.2 Modelo de anillo ´optico en Multi2Sim. . . 35

5.3 Esquema de conexi´on entre dos nodos de red adyacentes en Mul-ti2Sim. . . 36

6.1 Topolog´ıa utilizada para medir el impacto de la distancia hasta el controlador. . . 44

6.2 MPKI de L2 de las aplicaciones estudiadas. . . 45

6.3 Impacto de la distancia en los ciclos de latencia de la aplicaci´on cactusADM. . . 46

6.4 Impacto de la distancia y SAF en las prestaciones (IPC) de las aplicaciones en orden creciente de izquierda a derecha. . . 47

6.5 Impacto de la distancia y VCT en las prestaciones de las aplica-ciones en orden creciente de izquierda a derecha. . . 48

6.6 Impacto de la preb´usqueda y SAF en las prestaciones de las apli-caciones en orden creciente de izquierda a derecha. . . 50

6.7 Impacto de la preb´usqueda y VCT en las prestaciones de las apli-caciones en orden creciente de izquierda a derecha. . . 51

6.8 Degradación de prestaciones en la aplicaciónastaren su ejecu-ción con dos corunners. A la izquierda, evaluado con SAF; a la derecha, VCT. . . 53

(8)

6.9 Degradación de prestaciones en la aplicación mcf en su ejecu-ción con dos corunners. A la izquierda, evaluado con SAF; a la derecha, VCT. . . 53 6.10 Degradación de prestaciones en la aplicaciónnamd en su

ejecu-ci´on con dos corunners. A la izquierda, evaluado con SAF; a la derecha, VCT. . . 53 6.11 Degradaci´on de prestaciones respecto al mejor caso en los nodos

0, 2, 4, 6, 15, 31, 47 y 63 de la malla con SAF. . . 57 6.12 Degradaci´on de prestaciones respecto al mejor caso en los nodos

0, 2, 4, 6, 15, 31, 47 y 63 de la red h´ıbrida con SAF. . . 57 6.13 Degradaci´on de prestaciones respecto al mejor caso en los nodos

0, 2, 4, 6, 15, 31, 47 y 63 de la malla con VCT. . . 58 6.14 Degradaci´on de prestaciones respecto al mejor caso en los nodos

0, 2, 4, 6, 15, 31, 47 y 63 de la red h´ıbrida con VCT. . . 58 6.15 Degradaci´on de prestaciones media de las aplicaciones en las

cua-tro configuraciones estudiadas. . . 59 6.16 Porcentaje de tr´afico encaminado por la red fot´onica en cada nodo

cuando se utiliza SAF. . . 60 6.17 Porcentaje de tr´afico encaminado por la red fot´onica en cada nodo

(9)

´Indice de tablas

4.1 Configuraci´on del sistema completo . . . 28 4.2 Modelos de latencia utilizados . . . 29

5.1 Transmisi´on ciclo a ciclo de un paquete de 72B en Multi2Sim con SAF. . . 37 5.2 Transmisi´on ciclo a ciclo de un paquete de 72B en Multi2Sim con

VCT. . . 37

6.1 IPCs deastar,mcfynamdejecutadas en solitario . . . 54 6.2 Distancia desde cada posici´on estudiada hasta los controladores

(10)

Acronyms

CMOS Complementary Metal Oxide Semiconductor. 17, 18

CMP Chip MultiProcessor. 8–10, 12–14, 16, 56, 63

DOR Dimension Ordered. 14

DWDM Dense Wavelength Division Multiplexing. 17, 19, 21

IPC Instrucciones Por Ciclo. 46, 49, 52, 54, 56, 57, 63

LLC Last Level Cache. 8, 9, 46, 49

MPKI Misses Per KiloInstruction. 46, 49, 50, 52, 60, 64

MWMR Multiple Writer Multiple Reader. 21

MWSR Multiple Writer Single Reader. 20, 23, 24

NoC Network On Chip. 56

SAF Store and Forward. 14, 16, 31, 44, 46, 47, 49, 51, 54, 56, 57, 60–62, 64

SWBR Single Writer Broadcast Reader. 19, 22

SWMR Single Writer Multiple Reader. 20–22, 24

TFM Trabajo Fin de M´aster. 8, 12, 16, 44

VCT Virtual Cut Through. 14, 15, 44, 46, 47, 51, 52, 54–62, 64

(11)

Cap´ıtulo 1

Introducci´on

Este cap´ıtulo presenta la motivación de la investigación desarrollada en este Tra-bajo Fin de Máster (TFM). Para ello, se introducen las ventajas y los problemas con los que se encuentan las redes en chip eléctricas tradicionales. A continuación, se propone la tecnolog´ıa nanofotónica como una alternativa que puede mitigar los problemas de escalabilidad de estas redes, mejorando las prestaciones y el consu-mo de las arquitecturas de los Chip MultiProcessor (CMP) actuales. Finalmente, se presenta un resumen de las aportaciones de este TFM.

1.1 Limitaciones de las redes en chip tradicionales

Con el objetivo de satisfacer los requisitos de escalabilidad de la Ley de Moore, las últimas generaciones de la mayor´ıa de microprocesadores han adoptado una ar-quitectura multinúcleo, también denominada multiprocesador en un chip o CMP. La arquitectura multinúcleo más común se denominatiled, en la que el procesador contiene múltiplestilesidénticos. Cada uno de estos tiles está compuesto por un núcleo de ejecución, su caché de L1 privada correspondiente y un banco o frag-mento de L2 que puede ser o bien privada o bien compartida entre los diferentes núcleos. Recientemente la caché de L2 tiende a ser privada y los tiles incorporan un banco de caché L3 que suele ejercer de último nivel de caché o Last Level Cache (LLC). Además, cada tile cuenta con un interfaz de red por el que accede a la red que lo comunica con el resto de tiles y componentes del chip.

En este tipo de arquitecturas, por tanto, cuando un núcleo necesita acceder a una parte de la caché que no se encuentra en su propio tile debe utilizar la red de interconexión para llegar hasta ella. La misma situación tiene lugar cuando el acceso es a los controladores de memoria, que se encuentran t´ıpicamente ubicados en los extremos del chip.

(12)

aplicaciones multihilo. Sin embargo, estas aplicaciones requieren unos mecanis-mos de comunicación y sincronización eficientes entre los diferentes hilos dentro del chip. Todo ello, unido a lo expuesto anteriormente, hace del diseño de una red en el chip eficiente un aspecto clave tanto en el rendimiento como en el consumo del CMP.

En lo que respecta a la necesidad de comunicaciones globales eficientes den-tro del chip, las redes eléctricas tradicionales presentan buenas prestaciones para un número reducido de nodos. Además, en estos casos, estas prestaciones se co-rresponden con un nivel razonable de consumo de energ´ıa. Sin embargo, diversos aspectos intr´ınsecos de este tipo de redes compromenten la escalabilidad de los futuros procesadoresmanycore. Con el aumento del número de núcleos se incre-menta la distancia recorrida en la red para acceder a los datos; esto provoca el aumento de la latencia y de la contención degradando la productividad de la red, as´ı como incrementando su consumo.

Pese a todas estas razones, las redes en chip convencionales son, actualmente, las más rápidas cuando se trata de comunicar nodos a una distancia relativamente corta. El estudio realizado en este trabajo está enfocado a cubrir las posibles ca-rencias que manifiestan este tipo de redes cuando el número de núcleos crece por encima de varias decenas.

1.2 La tecnolog´ıa nanofot´onica

En los últimos años, los avances en la fabricación sobre silicio de tecnolog´ıa fotónica han permitido la integración de interconexiones ópticas en los micro-procesadores. Esta tecnolog´ıa promete introducir mejoras en las tres cualidades deseables de toda tecnolog´ıa de interconexión: alto ancho de banda, alta eficiencia energética y baja latencia. Por otro lado, su capacidad para realizar transmisiones de datos a lo largo del chip con una latencia independiente de la distancia supone una solución a los problemas de escalabilidad de las redes en chip tradicionales.

Debido a estas caracter´ısticas, recientemente ha habido una serie de propuestas de redes nanofotónicas con diferentes topolog´ıas y para diferentes arquitecturas. La complejidad de estas propuestas es variada y oscila desde simples anillos [1, 2] fotónicos hasta topolog´ıas más complejas que intentan actuar comofat trees, ma-llas o toros tradicionales [3, 4]. Sin embargo, el uso de interconexiones fotónicas complejas puede limitar los beneficios en latencia o consumo energético debido a la cantidad de recursos ópticos necesarios para soportar los requisitos de este tipo de redes.

Otro aspecto clave se encuentra en que la capacidad de este tipo de redes para realizar tareas de encaminamiento dentro del chip es limitada. Si bien en otros con-textos comoexascale computingel encaminamiento es factible, la introducci´on de

(13)

algoritmos de encaminamiento complejos y eficientes en switches ´opticos es ac-tualmente un reto. Esta limitaci´on puede introducir complicaciones, por ejemplo, en CMPs que utilicen mecanismos de coherencia por hardware.

Además, el uso de redes nanofotónicas también se ve afectado por las limita-ciones de la transmisión de la información entre tecnolog´ıas. Puesto que el proce-sador trabaja con tecnolog´ıa eléctrica, es necesario para el env´ıo de información realizar la conversión de la señal eléctrica en óptica. Asimismo, para la recepción es necesario volver a convertir la señal óptica en eléctrica. Un diseño adecuado de una red nanofotónica dentro del chip debe controlar el consumo y latencia de estas conversiones de manera que estos se mantengan en unos l´ımites adecuados.

1.3 Aportaciones de este Trabajo Fin de M´aster

Teniendo en cuenta las ventajas e inconvenientes de las redes identificadas en los apartados anteriores, en este Trabajo Fin de Máster se propone una nueva red h´ıbrida que aune las ventajas de ambos tipos de tecnolog´ıas de red. En primer lugar, dada la velocidad y eficacia de las redes convencionales en distancias cortas, se propone la utilización de una malla eléctrica que interconecta todos los tiles del CMP as´ı como los controladores de memoria. Pero además, se introduce un anillo óptico que proporcione baja latencia y evite posibles contenciones cuando las transmisiones se realizan entre componentes lejanos en la red.

As´ı, las aportaciones de este Trabajo Fin de M´aster son las siguientes:

• Estudio de la escalabilidad de prestaciones de una red el´ectrica tradicional utilizando la suite de benchmarks SPEC2006.

• Categorización de las diferentes aplicaciones en función del impacto que presenta en sus prestaciones la distancia que separa el núcleo de cómputo donde se ejecutan del controlador de memoria.

• Estudio de la influencia de técnicas de prebúsqueda agresiva en la degrada-ción ocasionada por la distancia hasta el controlador.

• Estudio del impacto de la contenci´on junto con la distancia hasta el contro-lador en las prestaciones de las aplicaciones.

• Propuesta y evaluación de una red h´ıbrida fotoeléctrica que selecciona diante un modelo teórico la red más rápida para realizar una petición a me-moria desde un núcleo determinado.

(14)

1.4 Estructura de este Trabajo Fin de M´aster

El cap´ıtulo 2 introduce el campo de las redes en chip, el principal tema de investi-gación de este trabajo. El cap´ıtulo 3 expone y explica diferentes trabajos y art´ıcu-los previos que guardan relación con el sistema propuesto. El cap´ıtulo 4 presenta la propuesta de red h´ıbrida desarrollada en este trabajo. El capitulo 5 introduce el entorno de simulación sobre el que se ha implementado nuestra propuesta. En este cap´ıtulo se incluyen también las ampliaciones que se han realizado sobre el código del simulador Multi2Sim y que han hecho posible la simulación de la tec-nolog´ıa nanofotónica. El cap´ıtulo 6 muestra y discutee los resultados obtenidos en la evaluación de las propuesta. El cap´ıtulo 7 recoge las principales conclusio-nes de este trabajo y presenta posibles trabajos futuros relacionados con el tema tratado.

(15)

Cap´ıtulo 2

Redes en chip

En este cap´ıtulo se introducen las redes en chip, el principal tema de investigación de este TFM. En primer lugar, se introducen las redes en chip eléctricas utilizadas actualmente en la gran mayor´ıa de CMPs comerciales. Se presentan sus principa-les virtudes y defectos, as´ı como posibprincipa-les limitaciones que éstas pueden presentar en el futuro. A continuación se exponen las redes en chip nanofotónicas, enu-merando sus principales caracter´ısticas y componentes. Además, se presenta un análisis acerca de la viabilidad de este tipo de redes y su coste de implementación sobre silicio en la actualidad.

2.1 Redes el´ectricas en chip

A lo largo de la última década, los multiprocesadores en chip o CMPs han domina-do el mercadomina-do de los microprocesadomina-dores. Los esfuerzos realizadomina-dos anteriormente en conseguir incrementos de prestaciones aumentando la complejidad de los pro-cesadores superescalares han encontrado l´ımites en términos de área y consumo que no pueden ser pasados por alto. Como resultado, las arquitecturas multinúcleo pasan a ejercer un papel clave para conseguir un mayor rendimiento en los pro-cesadores sin incurrir en crecimientos de consumo prohibitivos. As´ı, uno de los princiaples paradigmas actuales se basa en utilizar hasta cientos de núcleos de ar-quitecturas relativamente simples y consumo limitado en lugar de un sólo núcleo excesivamente complejo.

El diseño de este tipo de procesadores está basado en la réplica de bloques idénticos denominadostilese interconectados por la red. Un tile t´ıpicamente está formado por el núcleo de procesamiento, varios niveles de caché privados y/o compartidos y la interfaz con la red de interconexión. La Figura 2.1 puede ob-servarse un diseño de alto nivel de un CMP de 64 nodos interconectados por una malla bidimensional. En el ejemplo, cada tile consta, además del núcleo y del

(16)

rou-Core

L1

Interfaz de red

Figura 2.1: Ejemplo de dise˜no por tiles de un chip multin´ucleo.

ter de la red, de una caché L1 y una caché L2. Observando esta figura, se aprecia claramente cómo el diseño puede ser ampliado fácilmente simplemente replican-do el tile.

En este nuevo paradigma, las redes de interconexiónon-chipjuegan un papel fundamental en el rendimiento de estos procesadores. Las redes en chip permiten además que las prestaciones se incrementen de un modo escalable, ya que éstas se encuentran asociadas a aumentar el número de núcleos (i.e.el nivel de parale-lismo) con los que cuenta el CMP.

2.1.1 Aspectos de dise ˜no de una red dentro del chip

Las redes en chip heredan la mayor´ıa de las técnicas y mecanismos ya diseñados para el campo de las redes de altas prestaciones. Sin embargo, a pesar de las si-militudes, existen ciertas limitaciones que obligan a establecer diferencias entre ambos contextos. Estas limitaciones están relacionadas con las altas escalas de integración on-chip y provocan que las redes en chip se encuentren mucho más expuestas a efectos f´ısicos que otro tipo de redes no llegan a experimentar. As-pectos como el tamaño de los búferes, la ubicación y longitud de los enlaces (que está directamente relacionada con la elección topolog´ıa) o el área de los switches utilizados son puntos clave en el diseño de una red en el chip eficiente.

A lo largo de este apartado se presentan los principales aspectos a tener en cuenta en el diseño de una red en el chip. Además, se discuten las opciones con-templadas y seleccionadas en el diseño del sistema base utilizado en este trabajo.

(17)

Topolog´ıas: La topolog´ıa constituye un aspecto de diseño clave en el rendi-miento y coste de cualquier red dentro del chip. La industria de multiprocesadores tiende a utilizar topolog´ıas de malla en las redes dentro del chip. Este tipo de to-polog´ıas es actualmente el más utilizado gracias a que se ajusta a la superficie bidimensional del silicio. Esto permite una fabricación en serie sencilla de

tiled-CMPs a la vez que ofrece unas prestaciones aceptables en términos de ancho de banda y latencia media. Por este motivo, esta topolog´ıa de red será utilizada como base en los estudios y análisis realizados.

Algoritmos de encaminamiento: La elección de una determinada topolog´ıa ofrece múltiples rutas de comunicación entre los nodos fuente y destino. Sin em-bargo, se debe realizar una correcta selección entre las diferentes rutas disponibles que permita un rendimiento sostenido de la red a la vez que evite situaciones de bloqueo y colapso en la misma. Es en este punto donde el algoritmo de encami-namiento establecido en cada uno de losswitchesde la red adquiere importancia. Durante la realización de este trabajo, el algoritmo de encaminamiento utilizado ha sido el algoritmo bien conocido XY o Dimension Ordered (DOR). En una ma-lla 2D que utiliza este algoritmo, los mensajes alcanzan primero la coordenada X del destino y posteriormente circulan sobre la coordenada Y del mismo. Se trata de un algoritmo determinista que garantiza la ausencia de interbloqueos en la red y cuya implementación sobre una malla requiere un coste m´ınimo.

Técnicas de conmutación: Las técnicas de conmutación determinan cómo los paquetes circulan por la red y qué recursos (como búferes o enlaces) utilizan a lo largo del tiempo. El principal objetivo de estas técnicas es proporcionar un uso equilibrado de los recursos de la red y evitar contenciones innecesarias en paque-tes listos para continuar su ruta. Las tres técnicas de conmutación bien conocidas son: Store and Forward (SAF), Virtual Cut Through (VCT) ywormhole. En SAF, cada nodo debe esperar la recepción del paquete completo antes de comenzar el reenv´ıo del mismo al siguiente nodo. Obsérvese que este esquema supone un in-cremento lineal de la latencia respecto a la distancia del origen al destino incluso en ausencia de contención en la red. Con VCT, un paquete puede comenzar a ser reenviado tan pronto como es recibida la cabecera del mismo. Este esquema permite solapar en el tiempo la recepción del paquete con el reenv´ıo al nodo si-guiente. Como alternativa a VCT,wormholecontrola el flujo de paquetes a nivel de flit en lugar de a nivel de paquete. Este cambio en el esquema permite utilizar búferes de tamaño más reducido pero como contrapartida puede presentar situa-ciones complejas en las que los mensajes quedan bloqueados en varios switches de la red simultáneamente. Wormhole aparece debido a la necesidad de reducir el área consumida por los switches dentro del chip; sin embargo, dado que

(18)

es-te aspecto no es relevanes-te en el presenes-te trabajo y wormholeofrece prestaciones similares a VCT, no se han realizado pruebas con esta t´ecnica.

Técnicas de control de flujo: Para garantizar la ausencia de pérdidas de paque-tes en la red (i.e. descarte de paquepaque-tes en presencia de bloqueo) el mecanismo de conmutación debe cooperar con técnicas de control de flujo a nivel de enlace. Estas técnicas proporcionan un modo de controlar el flujo de datos entre el emisor y el receptor de manera que el switch receptor no se ve obligado a descartar pa-quetes por falta de espacio en sus búferes. Las dos técnicas principales de control de flujo utilizadas son el control por créditos y la señalizaciónstop&go. La pri-mera de ellas mantiene una cuenta del número deslotsdisponibles en el búfer del receptor que se actualiza según la entrada o salida de nuevos flits en el búfer. El número de créditos se transmite a los switches anteriores y de esta forma el emi-sor cuenta con información acerca del estado del switch receptor. Por otro lado, la técnicastop&goenv´ıa una de estas dos señales cuando corresponde para permitir o impedir el env´ıo de nuevos paquetes al receptor.

La toma de decisiones adecuadas respecto a estos componentes permite obte-ner dise˜nos de redes en chip eficientes que ofrecen buenas prestaciones a costes aceptables.

Sin embargo, la red en el chip no está exenta de problemas en términos de escalabilidad. Conforme el número de nodos de la red crece, esta se puede ver expuesta a problemas de contención, cuellos de botella o variaciones de latencia. Además, estos problemas se acentúan cuando se trabaja con las topolog´ıas de malla 2D tan habituales dentro del campo de las redes en chip.

En las redes con topolog´ıa de malla bidimiensional existen varios aspectos que se ven comprometidos conforme crece el número de nodos. Uno de los aspectos principales se encuentra en el aumento de colisiones que se produce entre los mensajes en la red. Debido a que estos pasan más tiempo dentro de la misma, son más propensos a generar contención, lo que afecta a la productividad de la red. Además, al incrementar el número de nodos, la distancia media de la red no escala linealmente, lo que conlleva que la latencia de las transmisiones crece incluso en ausencia de contención.

Veamos un ejemplo para ilustrar este problema. Supongamos una malla bidi-mensional de 64 nodos distribuidos en 8 filas y 8 columnas. En el primer y último nodo se encuentran conectados los controladores de memoria a los que deberán acceder los 64 nodos de la red según corresponda. Además, la red utiliza switches segmentados de 3 etapas y 16 bytes/ciclo de ancho de banda en sus enlaces. As´ı, si el nodo 0 pretende almacenar un paquete de 72 bytes (formado por 64 bytes de tamaño de un bloque de caché más 8 bytes de cabecera) en el controlador

(19)

ubica-do junto al noubica-do 63, este paquete deberá realizar un total de 14 saltos por la red. La traducción en ciclos correspondiente con ese número de saltos depende de la técnica de conmutación utilizada por la red. En el peor de los casos la red utilizará conmutación SAF, lo que supondr´ıa que en cada nodo el paquete debe ser alma-cenado y serializado por completo hasta comenzar su reenv´ıo. As´ı, el número de ciclos de latencia en este caso ser´ıa14×(3 + 72₁₆) = 112ciclos.

El incremento en la latencia de las comunicaciones puede suponer una degra-dación de prestaciones del sistema completo cuando éste ralentiza el servicio de las peticiones de memoria. Por tanto, para evitar esta degradación en las presta-ciones se debe investigar en mecanismos que permitan paliar las dificultades de escalabilidad de la red en el chip. En este TFM se realiza un estudio de explo-ración que cuantifica los problemas ya identificados y se propone una solución basada en la tecnolog´ıa nanofotónica.

2.2 Redes ´opticas en chip

Las redes ópticas han sido tradicionalmente utilizadas en áreas metropolitanas de-bido a que la tecnolog´ıa fotónica es muy poco dependiente a la distancia entre los elementos que establecen comunicación. Esta latencia independiente de la dis-tancia, unida a la mayor eficiencia energética que presentan estas redes frente a las redes tradicionales, hacen de ellas un componente que potencialmente puede mejorar las prestaciones y consumo del CMP.

Gracias a los avances en tecnolog´ıa nanofotónica sobre el silicio, en la actua-lidad esta tecnolog´ıa se plantea como una alternativa real a las tradicionales redes eléctricas dentro del chip [5]. Las redes ópticas cuentan con la capacidad de trans-mitir varios flujos de información simultáneamente a altas velocidades, lo que se traduce en una reducción significativa del número de cables necesarios para llevar a cabo la comunicación entre múltiples emisores y receptores.

2.2.1 Componentes de una red ´optica

Para conseguir establecer una comunicación óptica completa entre dos compo-nentes dentro del chip se necesita de la integración de varios elementos propios de este tipo de redes. A continuación se exponen los principales dispositivos que se requieren para integrar una red fotónica completamente operativa dentro del chip.

• Láser:Los láseres son los encargados de introducir el haz de luz en el chip. Este componente puede ubicarse dentro o fuera del chip, aunque t´ıpicamen-te son emplazados en el ext´ıpicamen-terior del encapsulado. Esto se debe a que el consumo y el área que requieren los láseres on-chip son mucho mayores y supone por tanto un desperdicio de recursos para el resto de componentes.

(20)

• Waveguides: Los waveguides se acoplan a los láseres para transportar la señal luminosa. El proceso de fabricación de estos componentes es de vital importancia para evitar pérdidas de señal significativas (y por tanto desper-dicio de potencia) cuando se introducen cambios de dirección y giros en el waveguide. Estos elementos combinan dos materiales de alto y bajo ´ındice de refracción en su parte interna y externa respectivamente, confinando el haz luminoso y guiándolo hasta su destino. La elección de estos materiales as´ı como de un proceso de fabricación compatible con CMOS son cruciales para evitar que los waveguides presenten pérdidas de energ´ıa excesivas. Por otro lado, una de las mayores ventajas de las redes fotónicas radica en que la señal óptica se puede multiplexar en un rango finito de longitudes de onda owavelengths. Este proceso se conoce como Multiplexado por Divi-sión de Longitudes de Onda o Wavelength Division Multiplexing (WDM). Cuando el número de wavelengths en el que se divide la señal es elevado (t´ıpicamente hasta 64 longitudes de onda) este proceso recibe el nombre de Dense Wavelength Division Multiplexing (DWDM). Esta caracter´ıstica es la que dota a las redes ópticas de una densidad de ancho de banda elevada.

• Anillo resonador:Un anillo resonador es un componente formado por una waveguide que toma la forma de una circunferencia de diámetro reducido (entre 3 y 5 µm) [6]. Los resonadores son componentes ópticos que por defecto sólo reaccionan a una determinada longitud de onda, determinada por su diametro. Sin embargo, los resonadores pueden calibrarse para reac-cionar a diferentes longitudes de onda alterando la temperatura mediante la aplicación de corriente. Por tanto, cuando se usa WDM o DWDM se deben calibrar los resonadores involucrados en una comunicación óptica. Los ani-llos resonadores son el elemento base de dos componentes conocidos como moduladores y detectores:

- Modulador:Un modulador o transmisor es un anillo resonador que se encarga de imprimir la señal digital en la luz extra´ıda por el resonador y que circula por el waveguide. El material utilizado en los modula-dores es el Germanio, ya que puede ser utilizado en proceso CMOS y presenta un alto porcentaje de absorción luminosa. Generalmente, un modulador es simplemente un resonador que absorbe señal eléctrica y la modula en un determinado wavelengthλi.

- Detector: Un detector o receptor es un anillo resonador que se en-cuentra calibrado a una determinada longitud de onda. Act´ua como filtro de una wavelength λi y dirige los haces de luz extra´ıdos a un

(21)

detec-Envía 1 bit Driver A Modulador A en λi Laser Driver B + ampliﬁcador Receptor B en λi Recibe 1 bit λi λ0 ... λn Fotodetector

Figura 2.2: Ejemplo de comunicaci´on mediante un enlace ´optico.

tores como longitudes de onda esten asociadas a una comunicaci´on ´optica determinada.

• Fotodetector:Tras filtrar las longitudes de onda correspondientes a un des-tino, se les debe aplicar una operación de conversión óptico-eléctrica. Esta labor es realizada por el fotodetector, componente que extrae los fotones de la señal óptica y los transforma en corriente eléctrica. El fotodetector debe tener acoplado un amplificador de señal eléctrica para que la salida producida pueda ser tratada correctamente.

En la Figura 2.2 se puede observar un ejemplo de comunicación que emplea todos los componentes descritos anteriormente. La figura muestra cómo se realiza la transmisión de un flujo de bits entre un emisor y un receptor, utilizando un láser y un waveguide que permite WDM. En primer lugar, el modulador del emisor recibe la orden de transmitir un determinado flujo de bits. Para ello, el modulador A que opera a una determinadaλicomienza a codificar y modular dicho flujo en la

longitud de onda i. Obs´ervese que las posibles comunicaciones que usan el resto de longitudes de onda no se ven afectadas por este proceso.

Posteriormente, la señal luminosa modulada que circula por el waveguide pasa por el modulador B que debe ser previamente calibrado para resonar en la longitud de ondaλi. De esta manera el resonador reaccionará al paso de la luz y la filtrará,

realizando ésta un movimiento circular en el interior del anillo. A continuación, el fotodetector acoplado al anillo convierte la luz que circula en el interior del receptor. Finalmente, la señal eléctrica obtenida pasa a ser manejada por el driver B que almacena los valores correspondientes en los biestables del receptor.

(22)

Inputs Outputs (a) Esquema SWBR Inputs Outputs (b) Esquema SWMR

Figura 2.3: Esquemas de comunicaci´on single writer.

2.2.2 Esquemas de comunicaci´on y asignaci´on de

wavelengths

Pese a que la red óptica puede operar a frecuencias de hasta 10 GHz, ésta solo puede transmitir un bit en cada wavelength por ciclo. Esto significa que el número de wavelengths que se asignan a cada nodo es cr´ıtico, ya que repercute en el ancho de banda agregado con el que dicho nodo contará para sus transmisiones y recepciones.

Para la comunicación entre los diferentes nodos utilizando un único canal ópti-co existen numerosas propuestas en la literatura. Los esquemas que se explican a continuación permiten interconectar diferentes entradas con diferentes salidas me-diante el acceso a un canal de comunicación compartido. Más adelante, meme-diante la utilización de DWDM, el número de wavelengths asociadas a cada nodo se incrementará y, por tanto, estos esquemas podrán realizar env´ıos simultáneos en diferentes longitudes de onda.

• Single Writer Broadcast Reader (SWBR): En este esquema se realiza una difusión entre todos los receptores de una señal que ha introducido el emisor en una determinada longitud de onda. Se trata de un esquema poco habitual ya que requiere del calibrado de los moduladores de todos los receptores cada vez que se realiza una transmisión, lo que supone un desperdicio de energ´ıa en la red. En la Figura 2.3a puede apreciarse un diagrama sobre la comunicación en este esquema. Obsérvese cómo todos los anillos corres-pondientes a las salidas se encuentran calibrados para recibir el mensaje.

• Single Writer Multiple Reader (SWMR): En este esquema los modula-dores de los receptores se encuentran sin calibrar, por lo que por defecto ninguno de ellos extrae se˜nal alguna del waveguide. As´ı, cuando el emisor

(23)

Inputs Outputs Send Arbiter (a) Esquema MWSR Inputs Outputs Send Arbiter Recv Arbiter (b) Esquema MWMR

Figura 2.4: Esquemas de comunicaci´on multiple writer.

quiere enviar un paquete a un receptor, éste primero ha de comprobar que su anillo resonador se encuentra activo en la wavelength correspondiente. Esto requiere por tanto una lógica adicional eléctrica u óptica que permita al emisor activar y calibrar el filtro del receptor cuando corresponda. En la Figura 2.3b se puede observar un diagrama de comunicación de este esque-ma. Se trata de un esquema similar al correspondiente a SWBR pero en este caso sólo los receptores interesados en la comunicación son los que activan sus anillos resonadores.

• Multiple Writer Single Reader (MWSR):El esquema MWSR resulta de utilidad cuando varios emisores quieren comunicarse con un mismo destino. Sin embargo, este esquema precisa del uso de técnicas de arbitraje entre los diferentes emisores para decidir quién accede al medio óptico. Estas técni-cas de arbitraje pueden implementarse bien eléctricamente o bien mediante óptica. En la Figura 2.4a puede observarse este esquema de comunicación. La utilización de este esquema cuando se cuenta con DWDM permite asig-nar diferentes wavelengths a cada emisor. De esta manera, el arbitraje solo es necesario cuando varios emisors pretenden comunicarse con el mismo destino.

• Multiple Writer Multiple Reader (MWMR): En el caso de MWMR se permite la comunicación entre cualquier emisor con cualquier receptor, por lo que se debe arbitrar en ambos lados antes de realizar la transmisión para evitar colisiones. La cantidad de moduladores en este esquema es del orden deO(N ×bλ)dondeN es el número de nodos tanto emisores como

recep-tores ybλ es el n´umero de wavelengths utilizados. Se trata por tanto de un

(24)

Inputs 0-2 Output 0 Output 1 Output 2 λ0-2 λ₀ λ1 λ₂ λ0 λ1 λ₂ (a) Esquema SWMR λ0-2 λ0 λ1 λ2 Input 0 Input 1 Input 2 λ0 λ1 λ2 Outputs 0-2 (b) Esquema MWSR

Figura 2.5: Esquemas de comunicaci´on SWMR y MWSR con WDM de 3 longi-tudes de onda.

un coste elevado de recursos ´opticos. En la Figura 2.4b se puede observar el diagrama correspondiente a este esquema.

Estos esquemas de comunicación se corresponden con una red fotónica en la que el canal óptico no se encuentra multiplexado por longitudes de onda. Sin em-bargo, cuando se cuenta con DWDM, estos esquemas pueden ampliarse teniendo en cuenta que cada waveguide puede ser dividida en un total de hasta 64λi. Este

tipo de esquemas se utilizan para la implementación decrossbars ópticos, ya que permiten conectar un determinado número de entradas y salidas entre s´ı. En este punto se encuentra una de las principales decisiones de diseño de una red fotóni-ca ya que el esquema elegido tiene un impacto directo en el número de posibles comunicaciones paralelas y su ancho de banda.

En la Figura 2.5a se puede observar el esquema de comunicación SWMR co-rrespondiente a una multiplexación de la señal luminosa en tres longitudes de onda. En este caso, las tres entradas cuentan con unaλi propia para comunicarse

con cada una de las tres salidas. Sin embargo, se puede apreciar que en caso de que dos o más entradas pretendan comunicarse con el mismo terminal de salida se presenta un conflicto en la red. Por tanto, se debe utilizar una técnica de arbi-traje que determine qué entrada gana el acceso hacia la salida. De esta forma, el proceso de comunicación a seguir en este esquema ser´ıa el siguiente:

(25)

2. Una funci´on de arbitraje determina qu´e entrada es la escogida. Supongamos

I2 como la ganadora del medio.

3. La entradaI2, al saberse ganadora del arbitraje, env´ıa una se˜nal el´ectrica al

terminalO2 para que calibre correctamente el receptor que le corresponde

enλ2 (identificada con color amarillo).

4. El transmisor enI2 modula la longitud de ondaλ2 para enviar el paquete.

5. Finalmente, el terminal de salida recibe el paquete y lo convierte a señal eléctrica, terminando as´ı la comunicación.

Este tipo decrossbar óptico también permite implementar el esquema SWBR mediante el reenv´ıo del paquete a todas las terminales de salida. En este caso, ca-da terminal de salica-da convierte el paquete recibido y comprueba si es responsable del mismo. La utilidad de este esquema se reduce a la distribución de informa-ción de arbitraje redundante, ya que para comunicaciones entre pares consume significativamente más energ´ıa que el esquema SWMR.

En el esquema SWMR existe adem´as una alternativa que permite evitar uti-lizar arbitraje global antes de reauti-lizar el env´ıo. La soluci´on recibe el nombre de

buffered-SWMR y consiste en incluir búferes junto a cada receptor óptico en cada terminal de salida. As´ı, el emisor solo debe conocer si cuenta con espacio sufi-ciente en el búfer destino antes de enviar el paquete. En el lado del receptor, si este cuenta con paquetes disponibles en varias colas, realizará un arbitraje local entre las mismas e irá sirviendo los paquetes sucesivamente. Este esquema resulta de utilidad cuando no se cuenta con mecanismos de arbitraje global eficientes (i.e. mecanismos de arbitraje por tecnolog´ıa óptica que no ralentizan los env´ıos). En la Figura 2.6 se puede observar una ilustración de este esquema de comunicación.

Independientemente del tipo de esquema SWMR que se utilice, las comu-nicaciones bajo este patr´on necesitar´an al menos un transmisor por entrada y

O(N2 _× _b

λ) receptores donde N es el n´umero de nodos tanto emisores como

receptores ybλ es el n´umero de wavelengths utilizados en el bus. Por tanto, para

evitar disparar el consumo y coste de los recursos ´opticos, es recomendable utili-zar este esquema en situaciones en las que el n´umero de receptores es reducido.

Por otro lado, en la Figura 2.5b se presenta el esquema de comunicación MWSR que, al igual que en el caso anterior, utiliza tres longitudes de onda para interconectar tres entradas con tres salidas. En este caso, las longitudes de onda (o canales ópticos formados por varias λi) se asocian al número de salidas del

crossbar. Como resultado, en este caso también es necesario un arbitraje global que evite colisiones cuando dos o ma´s entradas pretenden comunicarse con una misma salida. De esta forma, el proceso de comunicación resulta prácticamente análogo al anterior:

(26)

Output 1 Output 2 0-2 0 1 2 0 1 2 Output 0 Inputs 0-2

Figura 2.6: Esquema de comunicaci´on buffered-SWMR.

1. Las entradasI1 eI2 intentan enviar un paquete a la salidaO2.

2. Una funci´on de arbitraje determina qu´e entrada es la escogida. En este caso se suponeI2 como la ganadora del medio.

3. En este caso, la salidaO2 ya se encuentra calibrada por defecto enλ2, por

lo que no es necesario realizar el calibrado activo en este esquema.

4. El transmisor enI2modula la longitud de ondaλ2 para enviar el paquete.

5. Finalmente, el terminal de salida recibe el paquete y lo convierte a señal eléctrica, terminando as´ı la comunicación.

La principal ventaja del esquema MWSR se encuentra en que no es necesario realizar el calibrado activo de las diferentes salidas. Gracias a esto, es posible evitar el consumo necesario para activar los receptores, a diferencia del caso del esquema SWMR que s´ı lo necesita.

En lo que respecta a componentes ´opticos, MWSR requiere de al menos un receptor por entrada y O(N2 _×_b

λ)transmisores. Esto quiere decir que, al igual

que el esquema SWMR, el número de componentes (transmisores en el caso de MWSR y receptores en el caso de SWMR) crece cuadráticamente. Por tanto estos esquemas deben ser utilizados en situaciones en las que el tamaño y requisitos de la red no impliquen un crecimiento desmedido de la cantidad de componentes ópticos necesarios. En caso contrario, el consumo derivado de estos componentes y el área utilizada por los mismos se convertirán en limitaciones para la red.

(27)

Cap´ıtulo 3

Trabajo relacionado

Este cap´ıtulo describe trabajos relacionados con la tecnolog´ıa fot´onica as´ı como su aplicaci´on a las redes en chip.

El desarrollo de la tecnolog´ıa fotónica as´ı como su integración en el silicio han sido campos ampliamente investigados en la última década. En [7], S. Abadalet. alestudian diferentes posibilidades de aplicación de la tecnolog´ıa fotónica en ar-quitecturas h´ıbridas y multiprocesadores. En lo que respecta a la utilización de los componentes ópticos en redes en chip, numerosos trabajos como [8–10] estudian diversas alternativas acerca de cómo abordar el diseño de una red fotónica dentro del chip, as´ı como sus oportunidades y retos.

Como resultado de estas investigaciones previas, a lo largo de los últimos años se han presentado numerosas propuestas de redes ópticas como solución a los pro-blemas cada vez mayores de escalabilidad en las prestaciones de las redes dentro del chip. En previsión de los requisitos de ancho de banda que necesitarán las arquitecturas futuras, D. Vantrease et. al proponen Corona [1], una arquitectura manycore 3D que utiliza comunicación mediante tecnolog´ıa fotónica tanto dentro como fuera del encapsulado.

Por otro lado, en [11] G. Kurianet. alpresentan ATAC, una arquitectura que cuenta con una red óptica dentro del chip que permite la interconexión de 1000 núcleos dentro del mismo. La principal diferencia que presenta con Corona radica en la asignación de los recursos ópticos a los emisores y receptores de la red. Como alternativa a Corona y ATAC, en [2] se propone Firefly, una arquitectura h´ıbrida que agrupa los núcleos del chip en clusters e interconecta dichos clusters mediante conexiones ópticas.

La integración de la tecnolog´ıa fotónica dentro del chip, sin embargo, no está exenta de dificultades. Debido a las caracter´ısticas especiales y a la reducida escala de los componentes ópticos, el desarrollo de NoCs fotónicas es muy sensible a los errores de fabricación; este propiedad se conoce como variabilidad en el proceso de fabricación. Respecto a este problema, en [12] se proponen diferentes

(28)

solucio-nes para mitigar el efecto de la variabilidad en la fabricaci´on en las prestaciosolucio-nes de la red fot´onica.

En [13] encontramos la red FlexiShare, un anillo fot´onico con un esquema MWMR propuesto para un CMP de 64 n´ucleos. Esta red utilia un mecanismo de arbitraje basado en flujos de tokens para incrementar la utilidad de la red. Los autores utilizan diferentes cantidades de canales y DWDM de 64 longitudes de onda por canal.

Si bien Corona, FlexiShare y Firefly presentan resultados y prestaciones acep-tables, lo hacen a cambio de una utilización significativa de los recursos ópticos. En [14], A. Garc´ıa-Guirado y S. Bartolini realizan un estudio de los componentes ópticos utilizados por estas tres redes y proponen una serie de pol´ıticas para admi-nistrar estos recursos de un modo más adecuado. Los autores proponen pol´ıticas basadas en el tamaño de los mensajes que circulan por la red, la disponibilidad de los recursos ópticos necesarios para la comunicación y la distancia que separa al emisor del receptor.

Las redes anteriores y los esquemas de comunicación comentados en el Apar-tado 2.2.2 requieren de técnicas de arbitraje a la hora de compartir los canales ópticos en comunicaciones simultáneas. En [15], D. Vantreaseet. al proponen la utilización de la tecnolog´ıa óptica para realizar las tareas de arbitraje y control de flujo. Los autores presentan dos clases de técnicas de arbitraje basadas en tokens y evalúan las mismas con objetivos relativos a latencia, utilización yfairness.

Aunque este trabajo se centra en la integración de la tecnolog´ıa fotónica den-tro del chip, oden-tros autores como Batten et. alproponen en [16] una estrategia de diseño para redes ópticas a nivel interchip. Además, realizan una propuesta so-bre cómo utilizar una red óptica para interconectar el procesador con la memoria principal.

(29)

Cap´ıtulo 4

Propuesta: Red h´ıbrida fotoel´ectrica

En este cap´ıtulo se describe la red h´ıbrida propuesta en este Trabajo Fin de Máster. Teniendo en cuenta las limitaciones de las redes en chip eléctricas ya explicadas en el Cap´ıtulo 2, en este trabajo presentamos una red formada por una malla bi-dimensional eléctrica acompañada por un anillo fotónico que permitirá reducir la latencia de las largas distancias dentro del chip.

4.1 Modelo de red h´ıbrida

El modelo de red h´ıbrida propuesto en este trabajo puede observarse en la Fi-gura 4.1. Los 64 nodos del CMP están conectados por una malla bidimensional eléctrica, a la que se conectan también a través del primer y último nodos (nodos 0 y 63) los controladores de memoria. Además, se incluye un anillo implementado con tecnolog´ıa fotónica.

Para conseguir que todos los nodos sean alcanzados por el anillo óptico, en esta propuesta el diseño de los tiles es simétrico en lugar de totalmente idéntico. De esta forma se consigue conectar los switches de 4 tiles para proporcionar un acceso cercano al anillo óptico. Esto es necesario ya que la tecnolog´ıa óptica no permite la implementación de waveguides que realicen un gran número de cambios de dirección. De lo contrario, la potencia requerida para transmitir el haz de luz por el waveguide se incrementar´ıa en exceso [17].

Por otra parte, la decisión de ubicar los controladores a ambos extremos de la red se corresponde con la situación habitual de estos componentes en las redes en chip tradicionales. Obsérvese que ambos controladores se encuentran separados por un total de 14 saltos en la red, lo que coincide con el diámetro de la misma.

El objetivo es, por tanto, reducir la latencia de las comunicaciones de los nodos que se encuentran m´as alejados de los controladores de memoria. La red h´ıbrida propuesta permite a los nodos que se encuentran a elevadas distancias de los

(30)

con-Figura 4.1: Modelo de red h´ıbrida propuesta.

troladores utilizar un camino alternativo y más veloz a través del cual realizar las peticiones y obtener los bloques de memoria. Sin embargo, este no será el único criterio que determine cuándo utilizar el anillo óptico. En el Apartado 4.1.1 se presentan los criterios contemplados a la hora de determinar qué red es utilizada para llevar a cabo un acceso a los controladores.

El esquema de comunicación utilizado en el anillo óptico requiere diferen-ciar entre la comunicación de nodo a controlador (nodo-controlador) y en sentido inverso (controlador-nodo). En lo que respecta al sentido nodo-controlador, se uti-liza un esquemabuffered-SWMR en el que cada nodo cuenta con cuatro1

longitu-des de onda asignadas para el envio de paquetes a los controladores de memoria. Debido a que el sistema cuenta con 64 nodos, se requieren al menos 256 wave-lengths para satisfacer este requisito. Teniendo en cuenta que cada waveguide se puede descomponer mediante DWDM en 64 wavelengths, se requieren al menos 4 waveguides para implementar la comunicaci´on nodo-controlador.

En lo que respecta al sentido controlador-nodo, se utiliza igualmente un es-quema buffered-SWMR en el que cada controlador tiene asignados un total de 32 wavelengths para el env´ıo de paquetes a los nodos. Puesto que el procesador cuenta con dos controladores, el sentido controlador-nodo requiere un waveguide completo adicional. En total, para la comunicaci´on en ambos sentidos se requieren 5 waveguides (es decir, 320 wavelengths) 4 para el env´ıo de paquetes en el sentido

1_{Este valor ha sido determinado tras un estudio te´orico del ancho de banda requerido para el}

(31)

N´ucleos de procesamiento

N´ucleos 64

ISA x86

Frequencia 3GHz

Pol´ıtica de issue Fuera de orden Predictor de saltos Combinado

Ancho de issue/commit 4 instrucciones/ciclo Tama˜no del ROB 256 entradas

Cola de Load/Store 64/48 entradas Jerarqu´ıa de cach´e

L1 Icache (privada) 32KB, 8 v´ıas, 64B-l´ınea, 2cc L1 Dcache (privada) 32KB, 8 v´ıas, 64B-l´ınea, 2cc

L2 (privada) 256KB, 16 v´ıas, 64B-l´ınea, 11cc, 16 MSHR Red de interconexi´on el´ectrica

Topolog´ıa 2D Mesh 8x8

Frecuencia 2 GHz

Encaminamiento X-Y

Tama˜no de los b´uferes 256B

Ancho de banda de enlace 16Bytes/ciclo

Conmutaci´on Store & Forward y Virtual Cut-Through Router Segmentado 3 etapas, 3 ciclos/hop

Red de interconexi´on ´optica

Topolog´ıa Anillo

Frecuencia 10 GHz

DWDM S´ı

No_{de waveguides} _{5, 64 wavelengths/waveguide}

Ancho de banda/wavelengh 1bit/ciclo

Esquema de comunicación Buffered-SWMR asimétrico Conversión Eléctrico- Óptica 1 ciclo

Conversión Óptico-Eléctrica 1 ciclo

Memoria principal Latencia fija 200 ciclos

(32)

nodo-controlador y 1 para el env´ıo de paquetes en el sentido controlador-nodo. El resto de los par´ametros del sistema base se pueden consultar en la Tabla 4.1.

4.1.1 Criterios de elecci´on de red

El funcionamiento de la red h´ıbrida propuesta depende de ciertos criterios relati-vos al estado de las redes en el momento de la comunicación. El objetivo primario de la red h´ıbrida es proporcionar a los nodos un acceso rápido a la memoria. Para conseguir esto, se han escogido una serie de criterios que permiten a un nodo de-terminar qué red utilizar en el momento de iniciar una petición al controlador de memoria. Estos criterios son los siguientes:

• Umbral de latencia: En este criterio se tienen en cuenta dos factores. El primer factor se debe a la comparación de los resultados obtenidos por el modelo teórico de la latencia de la red eléctrica en ausencia de contención y el modelo teórico de la latencia del anillo óptico. En caso de que la latencia teórica del anillo óptico resulte inferior, la transmisión es realizada por el mismo.

Para ambas redes, el modelo teórico de la latencia en ausencia de contención depende de la técnica de conmutación de paquetes utilizada. La Tabla 4.2 expone las expresiones correspondientes a los modelos teóricos de latencia de Store & Forward y Virtual Cut-Through. En ambos modelos, la variable

dse corresponde con la distancia en n´umero de saltos que separa al emisor del receptor;tlink es el tiempo que lleva a un paquete atravesar un enlace y

por tanto depende del tama˜no del paquete y del ancho de banda del enlace; y

thop es la cantidad de ciclos necesaria para atravesar elswitchsegmentado.

Finalmente, la última parte de la expresión hace referencia al tiempo de serialización necesario para reintroducir el paquete en un nuevo enlace y reenviarlo al siguiente destino.

Store & Forward

latSAF =tlink×(d+ 1) +thop×d+_bandwidthpacketSize

link ×d

Virtual Cut-Through

latV CT =tlink×(d+ 1) +thop×d+ _bandwidthpacketSize_link

(33)

Resulta llamativa en estas expresiones la diferencia de latencia derivada de la utilización de una técnica de conmutación u otra. En el caso de SAF, la latencia de serialización se incrementa proporcionalmente con el número de saltos, mientras que en VCT esta latencia permanece constante. Es im-portante destacar que para la red eléctrica el número de saltos depende de las posiciones relativas entre nodo y controlador, mientras que para la red óptica la distancia es constante ya que todos los nodos conectados al anillo óptico se comunican directamente a través de este con ambos controladores. El segundo factor tiene en cuenta la latencia de la red eléctrica en presencia de contención. Esta latencia no se calcula teóricamente sino que se obtiene a partir del valor de la latencia observado en la red por el último fallo de caché generado por la ejecución de una instrucción deload. Este valor se compara con la latencia teórica del anillo óptico y determina qué red debe utilizar-se. Nótese que no se tiene en cuenta la contención en la comunicación a través del anillo óptico debido a que el esquemabuffered-SWMR garantiza ausencia de contención en la comunicación entre nodos y controladores.

• Privacidad de los datos: Este criterio sólo se aplica a cargas paralelas y permite utilizar la red óptica para garantizar una rápida obtención de los da-tos privados desde la memoria principal, mientras que los dada-tos compartidos son proporcionados por las distintas cachés que se encuentren en posesión del bloque a través de la red eléctrica.

(34)

(35)

Cap´ıtulo 5

Entorno experimental

En este cap´ıtulo se presenta el entorno de simulación utilizado para evaluar la propuesta de este Trabajo Fin de Máster. Además, se describen las principales incorporaciones y ampliaciones que se han desarrollado sobre este entorno de trabajo con el objetivo de soportar la simulación de la tecnolog´ıa fotónica. Final-mente, se introducen las cargas multiprogramadas que se han utilizado durante las simulaciones para obtener los resultados.

5.1 El framework de simulaci´on Multi2Sim

Multi2sim [18] es un entorno de simulación dirigido por eventos y con precisión a nivel de ciclo diseñado para computación heterogénea CPU-GPU. Está escrito en lenguaje C e incluye modelos para CPUs superescalares, multinúcleo y multihilo, as´ı como para arquitecturas GPU. El simulador se encuentra en su versión 4.2, so-porta la ejecución cualquiersuitedebenchmarksde la que se disponga del código fuente e incluso de código pre-compilado de usuario en diversas arquitecturas sin necesidad de realizar tareas de portabilidad.

El entorno de simulación CPU se divide en dos componentes software princi-pales: el simulador funcional y el simulador arquitectural. La simulación funcional emula la ejecución de un programa en un procesador x86 nativo, interpretando el código binario del programa y reproduciendo dinámicamente su comportamien-to a nivel de ISA. Por otro lado, la simulación arquitectural obtiene una traza de las instrucciones x86 a partir del simulador funcional y sigue la ejecución de las estructuras hardware del procesador ciclo a ciclo. Este tipo de simulación modela procesadors superescalares multinúcleo segmentados fuera de orden, una jerar-qu´ıa de memoria completa con protocolo de coherencia caché y diferentes redes de interconexión. Sin embargo, Multi2Sim no ofrece un modelo detallado de me-moria principal, as´ı como del controlador de meme-moria, sino que las latencias

(36)

mo-deladas en el acceso a memoria principal son fijas independientemente del patr´on de accesos a memoria.

5.2 Ampliaciones realizadas sobre Multi2Sim

Durante la implementación de este Trabajo Fin de Máster se han realizado una serie de ampliaciones en el simulador Multi2Sim. Las extensiones implementa-das tienen el objetivo de permitir en primer lugar la simulación realista de las caracter´ısticas únicas de la tecnolog´ıa fotónica y, además, dotar al simulador de la capacidad de utilizar la mejor opción entre las redes disponibles.

As´ı, cabe destacar el estado del simulador Multi2Sim en su versi´on 4.2 antes de comenzar este trabajo. En lo que respecta a las caracter´ısticas relativas a los objetivos de este trabajo, ´estas eran:

• Multi2Sim permite declarar varias redes en sus archivos de configuración. Sin embargo, no admite más de una interconexión entre los módulos de me-moria por lo que estos no pueden seleccionar diferentes redes para acceder a otros niveles de la jerarqu´ıa de memoria.

• Multi2Sim define un sistema de red con una frecuencia ´unica, por lo que todas las redes declaradas en sus archivos de configuraci´on presentan la misma frecuencia.

• Multi2Sim no utiliza VCT. Calcula eltlinky eltserializaciondividiendo el

ta-ma˜no del paquete entre el ancho de banda del enlace, por lo que implementa SAF por defecto.

• Multi2Sim mantiene en la Unidad de Gestión de Memoria (MMU) una lista sobre las páginas de memoria utilizadas. No realiza sin embargo clasifica-ción alguna sobre estas páginas que permita diferenciar si contienen datos privados o compartidos.

Para alcanzar los objetivos de este trabajo, las caracter´ısticas anteriores del simulador deben ser modificadas. En los siguientes apartados se describen las implementaciones realizadas sobre el framework Multi2Sim que permiten utilizar la red h´ıbrida propuesta.

5.2.1 M ´ultiples redes de interconexi´on

La red h´ıbrida propuesta en el Cap´ıtulo 4 requiere por parte del sistema la capa-cidad de soportar dos redes completamente operativas. Adem´as, el anillo ´optico

(37)

IL1_i

L2

_i DL1_i neti

MP

mesh IL1_i

L2

_i DL1_i neti

MP

mesh ring *low_network = neti *low_network = neti

*low_network = mesh *high_network = mesh low_network[0] = mesh low_network[1] = ring high_network[0] = mesh high_network[1] = ring

Figura 5.1: Interconexión entre módulos de memoria antes y después de la am-pliación de Multi2Sim.

debe contar con caracter´ısticas espec´ıficas de la tecnolog´ıa fotónica como son la multiplexación en longitudes de onda o la frecuencia a 10 GHz. Por ello, la pri-mera extensión realizada sobre el simulador consiste en permitir que el sistema opere con dos redes simultáneamente.

Multi2Sim soporta la declaración de varias redes en el archivo de configura-ción correspondiente a la red. Partiendo de este punto, el siguiente paso consiste en habilitar a los diferentes módulos de memoria la utilización de cualquiera de las redes. En la Figura 5.1 se observa la diferencia entre cómo se realizaban las conexiones de los módulos de memoria en la versión 4.2 del simulador y cómo se realizan tras la ampliación.

Tal y como se indica en la Figura 5.1, esta modificación ha consistido en am-pliar el puntero utilizado anteriormente por los módulos de memoria para acceder a su red asociada. En la jerarqu´ıa de memoria de Multi2Sim, cada módulo de memoria cuenta con punteros para acceder a su red superior e inferior si la hu-biera. Por ello, en esta ampliación se han convertido los punteroslow network y

high networkdel LLC y de la memoria principal respectivamente en vectores de punteros. De esta forma, tanto los m´odulos de LLC como los controladores de memoria cuentan con tantas redes accesibles como elementos tiene su vector aso-ciado. As´ı, tras esta extensi´on, Multi2Sim soporta actualmente declarar cualquier

(38)

Nodo0 Nodo1 Nodo63 Switch0 Switch1 Switch63 Controlador0 Controlador1

Figura 5.2: Modelo de anillo ´optico en Multi2Sim.

número de redes de interconexión entre los módulos de LLC y memoria principal. Gracias a esta implementación, el anillo óptico se puede simular en Multi2Sim mediante conexiones directas entre cada nodo y cada controlador de memoria, limitando el ancho de banda de cada una de estas conexiones al determinado por el esquema de comunicación óptico seleccionado. El modelo de anillo óptico en Multi2Sim se presenta en la Figura 5.2.

5.2.2 Virtual Cut-Through

La técnica de conmutación Virtual Cut-Through es muy habitual en el campo de las redes en chip. Por tanto, para obtener resultados realistas relativos al impacto de diversos factores como distancia o contención en la red en el chip es necesario contar con un simulador que implemente esta técnica.

Para introducir la implementación de VCT es necesario explicar varios con-ceptos previos acerca de cómo opera la red en el framework Multi2Sim. En pri-mer lugar, Multi2Sim diferencia dos tipos de nodos: endpoints y switches. Los endpoints son nodos que se asocian a los módulos de memoria, mientras que los switches son los que llevan a cabo las tareas de interconexión entre nodos, control

(39)

Endpoint 0 Switch 0 Endpoint 1 0

1 2 3 4

5

Obuf00 Ibuf00 Obuf01 Ibuf10

Figura 5.3: Esquema de conexi´on entre dos nodos de red adyacentes en Mul-ti2Sim.

de flujo, conmutaci´on, etc.

El funcionamiento de la red se dirige por medio de una máquina de estados que se activa por medio de eventos. En la Figura 5.3 se muestra el esquema básico de conexión entre dos nodos. Los eventos que tienen lugar para llevar a cabo una comunicación entre ambos son los siguientes:

• Evento 0 -SEND: El evento SEND es el que inicia una transmisi´on. Intro-duce un paquete en la red, comprueba que el b´ufer de salida del endpoint tiene espacio disponible para el paquete y programa un evento OUTPUT para el ciclo siguiente.

• Evento 1 -OUTPUT: El evento OUTPUT realiza la transmisión por el enla-ce contiguo al búfer de salida en el que se encuentra el paquete. Comprueba que el búfer de entrada del siguiente switch o endpoint tiene espacio sufi-ciente para almacenar el paquete y programa el evento INPUT para n ciclos después, donden= _bandwidthpacketSize

link.

• Evento 2 - INPUT: El evento INPUT simula la segmentaci´on del switch en etapas. Este evento cuenta con un par´ametro que recibe el nombre de

bandwidthnode que, junto con el tama˜no de paquete, determina los ciclos

de latencia que se tarda en atravesar el switch. El siguiente evento OUT-PUT o RECEIVE que corresponda se programa tras n ciclos, donde n =

packetSize bandwidthnode.

• Evento 3 -OUTPUT: Este evento realiza las mismas acciones que el evento 1, dirigiendo esta vez el paquete al endpoint final.

• Evento 4 -INPUT: Este evento realiza las mismas acciones que el evento 2. Adem´as, se programa el evento RECEIVE para el mismo ciclo en el que se ha realizado este evento.

(40)

Ciclos 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Eventos S O O O O O I I I O O O O O I & R

Tabla 5.1: Transmisi´on ciclo a ciclo de un paquete de 72B en Multi2Sim con SAF.

Ciclos 0 1 2 3 4 5 6 7 8 9 10 F rag0 S O I I I O - - - - I & R F rag1 S O I I I O - - - I & R F rag2 S O I I I O - - I & R F rag3 S O I I I O - I & R F rag4 S O I I I O I & R

Tabla 5.2: Transmisi´on ciclo a ciclo de un paquete de 72B en Multi2Sim con VCT.

• Evento 5 -RECEIVE: Este evento lee el mensaje de la red y actualiza las estad´ısticas correspondientes al mismo. La latencia final de la comunica-ci´on se calcula obteniendo la diferencia entre el ciclo de env´ıo y el ciclo de recepci´on del paquete.

Siguiendo este esquema se aprecia la presencia impl´ıcita de conmutación Sto-re & Forward en Multi2Sim. Para ilustrar esto con un ejemplo, supongamos la transmisión de un paquete de 72 bytes (62B de datos más 8B de cabecera) entre dos nodos adyacentes siguiendo este esquema y contando con un ancho de ban-da de enlace de 16 bytes/ciclo; el evento INPUT consume un total de 3 ciclos en atravesar el switch.

La sucesión de ciclos correspondiente a este ejemplo se muestra en la Ta-bla 5.1. Tal y como se observa, la transmisión requiere un total de 14 ciclos debido a que, con 16 bytes/ciclo de ancho de banda, la serialización del paquete consume 5 ciclos tanto en el endpoint origen como en el switch que lo retransmite.

Para superar esta limitación de Multi2Sim, la implementación de VCT se ha basado en la división de los paquetes en fragmentos de tamaño igual o menor al ancho de banda del enlace expresado en bytes/ciclo. De esta forma, un paquete de 72 bytes queda dividido en 4 fragmentos de 16 bytes y un fragmento de 8 bytes. De esta forma se produce una segmentación de los eventos en el tiempo y se oculta la latencia de serialización del reenv´ıo por parte de los switches intermedios. Si-guiendo este esquema, la sucesión de ciclos del ejemplo anterior queda tal y como se observa en la Tabla 5.2. En este caso, la latencia de la transmisión se reduce a 10 ciclos gracias a la operación segmentada de la red.

Ob´servese que los ejemplos mostrados en las Tablas 5.1 y 5.2 se corresponden con comunicaciones a un salto de distancia. Conforme se incrementa la distancia de la comunicaci´on, SAF aumenta la latencia en 8 ciclos por salto mientras que