AMD RDNA 3 GPUS Profissional com 48 GB pode vencer os cartões NVIDIA 24 GB na IA – colocando o ‘grande’ no LLM

A AMD está voltando à NVIDIA com novos benchmarks Deepseek que reivindicam seu monstro 48GB RDNA 3 GPUS pode superar o RTX 4090 de geração anterior da equipe Green.

David McAfee, vice -presidente da AMD e gerente geral da Ryzen CPUs e Radeon Graphics Postado em x O fato de os cartões Radeon Pro W7900 e Pro W7800 48GB podem superar um RTX 4090 em até 7,3x no Deepseek R1.

A McAfee compartilhou um gráfico dos três GPUs marcados em várias iterações do Deepseek R1 usando o LM Studio 0.3.12 e o LLAMA.CPP RUNDTIME 1.18. As iterações R1 Deepseek consistiram em destilar Qwen 32b 8 bits, destill llama 70b 4 bits, destill qwen 32b 8 bits e destill llama 70b 4-bit. Os dois primeiros foram configurados para produzir instruções de conversação (com 20 tokens) e os últimos prompts de resumo (com 3017 tokens).

Clique Veja mais Para ver os resultados de referência:

Um único @Amd Radeon Pro W7800 48GB ou W7900 48GB possui vRAM suficiente para executar com excelente desempenho, mesmo o maior DeepSeek R1 destill (ou maior precisão para 32b). pic.twitter.com/4untO6xayg13 de março de 2025

Em Deepseek R1 Destill Qwen 32b de 8 bits, o RTX 4090 supostamente produziu 2,7 tokens por segundo, o Pro W7800 48GB produziu 19,1 e o Pro W7900 48GB produziu 19,8 tokens por segundo. Em Llama 70b de 40b, o RTX 4090 produziu 2,3 tokens por segundo, o Pro W7800 48GB 12,8 e o Pro W7900 48GB 12,7 tokens por segundo.

Em Destill Qwen 32b de 8 bits, o RTX 4090 produziu 2,5 tokens por segundo, Pro W7800 48GB 15,7 e Pro W7900 48GB 16,2 tokens por segundo. No R1 Distill Llama 70B 4 bits, o RTX 4090 produziu dois tokens por segundo, Pro W7800 48GB 10.1 e Pro W7900 48GB 10,4 tokens por segundo.

Os benchmarks da AMD afirmam que os GPUs Radeon Pro W7800 ou Pro W7900 48 GB são até 7,3x mais rápido em destilar Qwen 32b 8 bits, 5,5x mais rápido em destill llama 70b 4-bit, 6,5x mais rápido em destilar 32b 8-Bit e 5.2x Fart Faster em llx de 40bt 40b 40b 40b 40 Bit, mais rápido em llama 40B 42B e 5.2x mais rápido em lâmina de 42b e 5.

David McAfee afirma que os acabamentos de 48 GB do WPro W7800 e W7900 têm VRAM suficientes para executar os maiores modelos Deepseek R1. O VRAM é um dos aspectos mais críticos do processamento de grandes modelos de linguagem; Os parâmetros para LLMs são armazenados diretamente no VRAM e são diretamente proporcionais aos tamanhos do modelo. Assim, quanto maior um LLM, mais VRAM você precisa. Mas com a capacidade extra de VRAM vem com preços muito altos.

O W7900 48GB custa US $ 3.500 – US $ 1.500 em relação ao MSRP de US $ 2.000 do RTX 5090 e US $ 2.000 em relação ao MSRP de US $ 1.500 do RTX 4090 (embora quase 4090 fossem vendidos a esse preço). Mas, por outro lado, a GPU de 48 GB RDNA 3 é menor que a metade do preço da GPU NVIDIA de geração mais próxima de geração atual que você pode comprar hoje, o RTX A6000 ADA.

O marketing da AMD parece ótimo, mas já vimos isso antes. Os benchmarks compartilhados anteriormente da AMD do seu RX 7900 XTX superaram o RTX 4090 (principalmente) em benchmarks Deepseek R1. No entanto, a NVIDIA respondeu exibindo benchmarks do RTX 4090 (e RTX 5090), superando drasticamente o principal RDNA 3 GPU com as mesmas configurações Deepseek R1.

A AMD também deixou de compartilhar todos os benchmarks comparando o mais novo carro-chefe da NVIDIA, o RTX 5090, contra suas placas gráficas focadas em estação de trabalho de 48 GB baseadas em RDNA 3. Será interessante ver se a NVIDIA acompanhará mais uma rodada de benchmarks para combater a AMD, principalmente porque a AMD tem mais VRAM em seus cartões de 48 GB do que o RTX 5090 com seus 32 GB de GDDR7.

Source link