Nvidia anuncia Blackwell Ultra B300 – 1,5x mais rápido que o B200 com 288 GB HBM3E e 15 PFLOPS densos FP4

A NVIDIA anunciou oficialmente a GPU do Data Center Blackwell Ultra B300 hoje durante a palestra do CEO Jensen Huang no GTC 2025 em San Jose, CA.
Oferecendo 50% mais de memória e computação de FP4 do que a solução B200 existente, ele levanta as apostas na corrida para modelos de IA mais rápidos e capazes mais capazes mais uma vez. A Nvidia diz que é “construída para a era do raciocínio”, referenciando a AI LLMS mais sofisticada como Deepseek R1, que faz mais do que apenas regurgitar informações digeridas anteriormente.
Naturalmente, o Blackwell Ultra B300 não é apenas uma única GPU. Juntamente com o bloco de construção da base B300, haverá novas soluções de rack de servidor B300 NVL16, uma estação GB300 DGX e soluções de rack completa GB300 NV72L. Coloque oito racks NV72L e você obtém o superpod completo Blackwell Ultra DGX: 288 GRACE CPUS, 576 GPUS BLACKWELL UTLRA, 300TB de memória HBM3E e 11,5 exaflops de FP4.
Estes podem ser vinculados em soluções de supercomputador que a NVIDIA classifica como “fábricas de IA”.
Embora a Nvidia diga que o Blackwell Ultra terá 1,5x de computação FP4 mais densa, o que não está claro é se outra computação escalou da mesma forma. Esperamos que fosse o caso, mas é possível que a Nvidia tenha feito mais do que simplesmente permitir mais SMS, aumentar os relógios e aumentar a capacidade das pilhas HBM3E. Os relógios podem ser um pouco mais lentos nos modos FP8 ou FP16, por exemplo. Mas aqui estão as principais especificações que temos, com alguma inferência de outros dados (indicados por pontos de interrogação).
Plataforma | B300 | B200 | B100 |
---|---|---|---|
Configuração | Blackwell GPU | Blackwell GPU | Blackwell GPU |
FP4 tensor denso/esparso | 15/30 PETAFLOPS | 10/20 PETAFLOPS | 7/14 PETAFLOPS |
FP6/FP8 Tensor denso/esparso | 7.5/15 PETAFLOPS? | 5/10 PETAFLOPS | 3.5/7 PETAFLOPS |
INT8 Tensor Denso/Esparso | 7.5/15 PETAOPS? | 5/10 PETAOPS | 3.5/7 PETAOPS |
FP16/BF16 Tensor denso/esparso | 3,75/7.5 Petaflops? | 2,5/5 PETAFLOPS | 1.8/3.5 PETAFLOPS |
TF32 Tensor denso/esparso | 1,88/3,75 Petaflops? | 1,25/2.5 Petaflops | 0,9/1,8 PETAFLOPS |
FP64 Tensor denso | 68 terovlops? | 45 Traflops | 30 terovlops |
Memória | 288 GB (8×36 GB) | 192 GB (8×24 GB) | 192 GB (8×24 GB) |
Largura de banda | 8 tb/s? | 8 TB/S. | 8 TB/S. |
Poder | ? | 1300W | 700W |
Pedimos alguns esclarecimentos sobre o desempenho e os detalhes do Blackwell Ultra B300 e fomos informados: “Blackwell Ultra GPUS (em GB300 e B300) são chips diferentes dos GPUs Blackwell (GB200 e B200). Blackwell Ultra GPUs foi projetado para atender à demanda para a inferência de teste.
Isso significa que o B300 é um chip fisicamente maior para se ajustar a mais núcleos tensores no pacote? Parece ser o caso, mas estamos aguardando mais detalhes.
O que está claro é que as novas GPUs B300 oferecerão uma taxa de transferência computacional significativamente mais do que o B200. Ter 50% mais de memória de embalagem permitirá modelos de IA ainda maiores com mais parâmetros, e a computação que o acompanha certamente ajudará.
A Nvidia deu alguns exemplos do desempenho potencial, embora estes fossem comparados à tremonha, para que confundissem as águas. Gostaríamos de ver comparações entre B200 e B300 em configurações semelhantes – com o mesmo número de GPUs, especificamente. Mas não é isso que temos.
Ao aproveitar as instruções do FP4, usando o B300 ao lado de sua nova biblioteca de software do Dynamo para ajudar a servir modelos de raciocínio como Deepseek, a NVIDIA diz que um rack NV72L pode oferecer 30x a mais de desempenho de inferência do que uma configuração de tremonha semelhante. Esse número deriva naturalmente de melhorias para várias áreas da pilha de produtos, de modo que o NVLink mais rápido, a memória aumentada, a computação adicionada e o FP4 todo fatoram a equação.
Em um exemplo relacionado, o Blackwell Ultra pode oferecer até 1.000 tokens/segundo com o modelo Deepseek R1-671B, e pode fazê-lo mais rápido. Enquanto isso, Hopper oferece apenas até 100 tokens/segundo. Portanto, há um aumento de 10x na taxa de transferência, reduzindo o tempo para atender uma consulta maior de 1,5 minutos para 10 segundos.
Os produtos B300 devem começar a enviar antes do final do ano, em algum momento da segunda metade do ano. Presumivelmente, desta vez não haverá snafus de embalagem, e as coisas não serão adiadas, embora a Nvidia observe que ganhou US $ 11 bilhões em receita da Blackwell B200/B100 no último ano fiscal. É uma aposta segura dizer que espera aumentar drasticamente esse número para o próximo ano.