ArtigosDestaque

Intel SCCC: Pentium revisitado a pensar na Cloud

SCCC: Comunicação

Nesta imagem podemos ver que o router e a ligação entre os dois cores num “tile” usa um bus de 16 bytes. A latência do router é de quatro ciclos o que equivale a 2 nanosegundos.
O router está feito de maneira a que exista um controlo de power management, quando não está a ser utilizado e um dos ciclos é de pré computação.

De realçar que a rede interna neste processador é uma das partes fundamentais, visto termos 48 cores a comunicarem entre si.

Estes são os quatro ciclos de cada router, onde podemos ver que há uma pré computação.
Cada link tem uma bandwidth 64 Gigabytes por segundo. A 2 Ghz é a aplicada uma voltagem de 1.1 volts e o consumo é de 500 mW por cada router, a esta velocidade.

Aqui podemos ver a disposição da rede 2D, numa mesh 4X4.

Aqui temos ao detalhe a comunicação entre os dois cores de uma “tile”.
Podemos ver o buffer de 16 KB que existe entre os dois, que não é coerente e que partilham 384 KB de memória entre os dois, sendo que pode não ser simétrico.

 

SCCC: Memória

O que podemos ver neste slide é a confirmação que a memória que é partilhada entre os cores não é coerente.
Quando se diz que não é coerente é que não existe nada implementado a nível de hardware para manter a coerência e que tem que ser o software a fazê-lo.
A memória privada é coerente.

Cada core divide a memória em LUTs (Look Up Table). Cada unidade é composta por 16 Megabytes, apesar de poder ser programada dinamicamente.
A memória privada de cada core depende do tamanho total da memória RAM, mas no caso de ter 64 GB, cada core tem um pouco mais de 1.3 Gigabytes de memória privada.

Aqui podemos ver como é a estrutura da memória e se está na “die” do processador ou é externa.
Na mesma “die” temos a cache L1 e L2, além do buffer de comunicação entre dois cores em cada tile.
Externamente temos a memória RAM privada de cada processador e uma quantidade de memória RAM que é partilhada.
Apesar da memória RAM partilhada poder ter valores diferentes, o comum é ser de 64 MB para todos os cores, o que significa que ocupa quatro LUTs.

Neste slide podemos ver porque é que a Intel escolheu que a memória não fosse coerente por hardware.
A escolha foi para dar mais flexibilidade, poder ter várias aplicações a correr em domínios diferentes, redução de complexidade a nível de hardware e um menor consumo de energia.

Apesar de não estar no slide, o pensamento da Intel é que este modelo funciona em super computadores com milhares de nós e querem validar se o mesmo modelo pode ser aplicável a um processador com múltiplos cores.

Este é um teste feito num Xeon com 32 cores e não no SCCC, mas serve para mostrar que a diferença de performance entre ter coerência por hardware e por software, não é muita, mesmo com 32 threads.

 

SCCC: Gestão de energia

A gestão de energia, num processador que incluí múltiplos cores, routers e controladores de memória é fundamental. Neste cenário torna-se cada vez mais importante ter um o maior controlo possível.

Nesta imagem podemos ver que cada “tile” tem dois sensores de energia e consoante esses dados, podem ser tomadas acções externamente.

Temos aqui um gráfico que mostra o SCCC com vários valores de voltagem e velocidade.
Podemos ver que aumentando a voltagem, é possível ir aos 1.3 Ghz por core e 2.6 Ghz por core, mas o aumento da voltagem não é linear com o aumento da velocidade e por isso tem que se encontrar um ponto de equilibrio.

Este gráfico é muito interessante, pois mostra que se o processador estiver com os cores e routers completamente parados, pode descer a velocidade de cada core para 125 Mhz e do router para 250 Mhz, consumindo assim só 25 W.

Interessante também é o ponto de equilíbrio encontrado, nos 125 W, com todos os 48 cores e 24 routers a correram a 1 Ghz e 2Ghz, respectivamente.

De notar também que o leakage começa a ser substancial a partir de 1.21 Volts e que na máxima frequência o processador consome 200 W.

Estes dois gráficos mostram o trabalho que foi feito pela Intel na redução de consumo por parte dos cores e dos routers.
Quando todos os cores e routers estão a ser utilizados, em percentagem, o que consome mais energia são os cores, mas quando eles se encontram parados, a maior parte do consumo de 25 W é feita pelo controlador de memória.

Página anterior 1 2 3 4Página seguinte
Etiquetas

Artigos Relacionados

Close
Close