nVIDIA RTX 4090: O verdadeiro GPU 4K e altos FPS?

A nova rainha das placas gráficas chegou

leitura de 20 minutos

Comparativo da RTX 4090 vs RTX 3090 vs RTX 2080ti em vários jogos e ferramentas de produtividade. Qual o salto geracional? Será que temos finalmente um GPU que permita FPS altos a 4K? Será uma compra obrigatória em várias áreas de produtividade que usam GPU’s? Vamos tentar esclarecer as dúvidas neste comparativo.

Página 1
- Introdução
- Especificações
Página 2
- Gigabyte RTX 4090 Windforce
- Plataforma e metodologia de testes
Página 3
- Benchmarks de jogos
- Resumo de performance em jogos e consumo energético
- Testes Sintéticos 3Dmark
Página 4
- Testes de Produtividade
- Conclusão

Introdução

Chegou finalmente a muito antecipada nova geração de GPUs nVIDIA a começar pelo produto de topo: a RTX 4090. É a primeira aparição da arquitectura “Ada Lovelace” no mercado consumidor e na sua apresentação foram feitas declarações ousadas em que prometem tornar finalmente Ray-Tracing como algo que finalmente poderá ser usado a qualquer resolução, manter FPS altos e um aumento incrível em eficiência energética.

Foi também apresentada uma nova tecnologia: DLSS3.0. Essencialmente gera imagens intermédias para dar uma maior perceção de movimento ao custo de latência (precisa sempre de esperar por uma imagem próxima para calcular a intermédia a mostrar) que pode ou não ser totalmente compensado pela tecnologia nVIDIA reflex que tem como objetivo diminuir a latência de input. Esta tecnologia é complicada de ser analisada pois as imagens intermédias geradas muitas vezes têm problemas e a latência é um tema complexo. Dado a esses constrangimentos DLSS3.0 não será tema neste artigo de comparação.

As unidades de AI (tensor cores) e de ray tracing (RT cores) têm novas versões que a nVIDIA promete darem uma performance muito superior relativamente às versões anteriores.

Especificações

A RTX 4090 é baseada numa versão “cortada” do chip AD102 que apresenta especificações bastante atraentes:

	RTX 4090	RTX 3090	RTX 2080 ti
Chip	AD102	GA102	TU102
Variante	AD102-300-A1	GA102-300-A1	TU102-300A-K1-A1
Arquitetura	Ada Lovalace	Ampere	Turing
Data de lançamento	12/10/2022	24/09/2020	20/09/2018
Processo de fabrico	4N TSMC	8nm Samsung	12nm TSMC
Transístores	76,3 mil milhões	28,3 mil milhões	18,6 mil milhões
Área	608m²	628 mm²	754 mm²

Frequência base	2,2 GHz	1,4 GHz	1,35 GHz
Frequência de Boost	2,5 GHz	1,7 GHz	1,55 GHz
Potência Energética	450W	350W	250W

Shaders	16384	10496	4352
Unidades de texturas (TMUs)	512	328	272
Unidades de rasterização (ROPs)	176	112	88
Unidades de multi-processamento (SM)	128	82	68
Unidades Tensor (AI)	512 v(3)	328 v(2)	544 (v1)
Unidades Ray-Tracing	128 v(2)	82 v(2)	68 v(1)

Memória L1	128KB/SM	128 KB/SM	64 KB/SM
Memória L2	72 MB	6 MB	5.5 MB
Quantidade de Memória	24 GB	24 GB	11 GB
Tipo de memória	GDDR6X	GDDR6X	GDDR6
Barramento de memória	384-bit	384-bit	352-bit
Largura de banda	~1TB/s	936 GB/s	616 GB/s

Performance FP16	82 TFLOPS	35.58 TFLOPS	26.90 TFLOPS
Performance FP32	82 TFLOPS	35.58 TFLOPS	13.45 TFLOPS
Performance FP64	1,29 TFLOPS	0,566 TFLOPS	0,42 TFLOPS

Codificador/descodificador de vídeo NVENC	2*Gen8	1*Gen7	1*Gen6

Preço no lançamento	1599 USD	1499 USD	999 USD

É uma tabela extensa com muita informação mas vamos então às partes mais relevantes:

A nVIDIA transitou da Samsung para a TSMC para o fabrico desta nova geração. Os processos de fabrico da TSMC são mais densos (permitem mais transístores por área) e são bem mais eficientes o que permite atingir frequências bem mais altas com temperaturas mais simpáticas.
A densidade de transístores deu um salto tremendo apesar de ter uma área de silício similar.
As frequências do GPU quase duplicaram.
Voltámos a ter um aumento de consumo que não é insignificante mas isso não é bem a história toda (mais detalhes na secção de testes).
O número de shaders (mini-processadores usados para os cálculos) aumentou brutalmente apesar desta conta ser um pouco duvidosa pois a nVIDIA tem mudado a configuração dos mesmos e o número mais correto a seguir deverá ser as unidades de multi-processamento (SM).
Apesar da largura de banda ser similar entre a RTX 4090 e RTX 3090 a nova gráfica apresenta uma cache L2 imensamente maior. Isto na prática tem um efeito similar ao infinity cache da AMD em que com esta memória local rápida há uma grande diminuição da dependência de uma largura de banda grande para manter os cores alimentados com os dados necessários para eles estarem sempre ocupados.
Temos um grande upgrade na unidade NVENC que será clarificado em mais detalhe nos testes de transcode de vídeo.
Finalmente voltamos a ter infelizmente um novo salto em preço para o produto topo de gama de lançamento.

1 2 3 4 Página seguinte

Etiquetas

Ricardo Mendes

leitura de 20 minutos

Introdução

Especificações

Artigos Relacionados

Clean Install do OS X Lion

Antergos e Cinnamon: Desktop fresco sempre actualizado

Análise ao headset Steelseries Siberia V3 Prism

CM Storm Sirus