Incapaz de usar tecnologias de processo de ponta para produzir seus processadores de ponta para a IA, a Huawei deve confiar na força bruta-instalar mais processadores do que seus concorrentes do setor para obter desempenho comparável para a IA.
Para fazer isso, a Huawei adotou uma estratégia multifacetada que inclui um processador Hisilicon Dual Hisilicon 910C, interconexões ópticas e a solução de escala de rack huawei AI CloudMatrix 384 que se baseia em software proprietário, relatórios Semiânica . Todo o sistema fornece um desempenho mais baixo de 2,3x por watt que o GB200 NVL72 da NVIDIA, mas ainda permite que as empresas chinesas treinem modelos avançados de IA.
O CloudMatrix 384 da Huawei é um sistema de IA em escala de rack composto por 384 processadores ASCEND 910C organizados em uma rede de malha totalmente óptica e tudo para todos. O sistema abrange 16 racks, incluindo 12 racks de computação que abrigam 32 aceleradores cada e quatro racks de rede, facilitando interconexões de alta largura de banda usando 6.912 transceptores ópticos de GLPO de 800g.
Diferentemente dos sistemas tradicionais que usam fios de cobre para interconexões, o CloudMatrix depende inteiramente da óptica para a conectividade intra e entre rack, permitindo largura de banda de comunicação agregada extremamente alta. O CloudMatrix 384 é uma máquina de grau corporativo que possui recursos tolerantes a falhas e foi projetado para escalabilidade.
Em termos de desempenho, o CloudMatrix 384 fornece aproximadamente 300 pflops de densos computação BF16, que é quase duas vezes a taxa de transferência do sistema GB200 NVL72 da NVIDIA (que oferece cerca de 180 pflops BF16). Ele também oferece 2,1 vezes mais largura de banda de memória total, apesar de usar o HBM2E e mais de 3,6 vezes maior capacidade de HBM. A máquina também possui largura de banda de expansão 2,1 vezes maior e largura de banda de escala 5,3 vezes graças às suas interconexões ópticas.
No entanto, essas vantagens de desempenho vêm com uma troca: o sistema é 2,3 vezes menos eficiente em termos de potência por fracasso, 1,8 vezes menos eficiente por TB/s de largura de banda de memória e 1,1 vezes menos eficiente por TB da memória HBM em comparação com a NVIDIA.
Comparação entre GB200 NVL72 da NVIDIA e CloudMatrix CM384 da Huawei Deslizar para rolar horizontalmente
Linha 0 – Célula 0 GB200 NVL72 CloudMatrix CM384 Diferença BF16 PFLOPS DENOS 180.0 PFLOPS 300.0 PFLOPS 1.7x Capacidade HBM 13.8 TB 49.2 TB 3.6x Largura de banda HBM 576,0 TB/S. 1229.0 TB/S. 2.1x Escala largura de banda 518400.0 GB/S UNI-DI 1075200.0 GB/S UNI-DI 2.1x Dimensionar o tamanho do domínio 72,0 GPUs 384.0 GPUS 5.3x Escala largura de banda 28800.0 GB/S UNI-DI 153600.0 GB/S UNI-DI 5.3x All-In System Power 145 KW 559 KW 3.9x All-In Power por BF16 Flop denso 0,81 W/Tflop 1,87 com tflop 2.3x All-In Power por largura de banda de memória 251,7 W por TB/S 455,2 W por TB/S 1.8x All-In Power por capacidade de memória 10,5 kW / tb 11,4 kW / tb 1.1x
Mas isso realmente não importa, pois as empresas chinesas (incluindo a Huawei) não podem acessar de qualquer maneira o GB200 NVL72 da NVIDIA. Portanto, se eles querem obter um desempenho realmente alto para o treinamento de IA, estarão mais do que dispostos a investir no CloudMatrix 384 da Huawei.
No final do dia, o preço médio da eletricidade na China continental diminuiu de US $ 90,70 MWH em 2022 para US $ 56 MWh em algumas regiões em 2025 Portanto, os usuários do CM384 da Huawei não vão falir devido aos custos de energia. Assim, para a China, onde a energia é abundante, mas o silício avançado é restrito, a abordagem da Huawei à IA parece funcionar muito bem.
Hisilicon Ascend 910C: Huawei vai dupla chiplet Quando encontramos pela primeira vez o processador Hisilicon 910C de Huawei, de Huawei, foi uma foto de seu chiplet de computação, presumivelmente produzido pela SMIC, que tinha uma E/S que deveria conectá -lo à sua matriz de E/S. É por isso que pensamos que era um processador com um chiplet de computação. Estávamos errados.
Aparentemente, o Hisilicon Ascend 910C é um processador de dual-chiplet com oito módulos de memória HBM2E e sem uma matriz de E/S que se assemelha ao instinto da AMD MI250X e B200 da NVIDIA. A unidade fornece 780 BF16 TFLOPS em comparação com os 383 BF16 Tflops do MI250X e os TFLOPs 2,25 – 2,5 BF16 do B200.
Comparação entre B200 da NVIDIA e ascend de Huawei 910C Deslizar para rolar horizontalmente
Linha 0 – Célula 0 NVIDIA B200 (em GB200) Huawei Ascend 910C Diferença BF16 densos tflops 2500.0 tflops 780.0 tflops 0,3x Capacidade HBM 192,0 GB 128,0 GB 0,7x Largura de banda HBM 8.0 TB/S. 3.2 TB/S. 0,4x Escala largura de banda 7200,0 GB/S UNI-DI 2800.0 GB/S. 0,4x Escala largura de banda 400,0 GB/S. 400,0 GB/S. 1.0x
O Hisilicon Ascend 910C foi projetado na China para cargas de trabalho de treinamento e inferência em larga escala. O processador foi projetado usando ferramentas EDA avançadas de empresas conhecidas e pode ser produzido usando tecnologias de processo de classe 7nm. A semiânica relata que, embora a SMIC possa produzir chiplets de computação para o Ascend 910C, a grande maioria dos chiplets Ascend 910C usados por Huawei foram feitos pelo TSMC usando soluções alternativas envolvendo entidades de terceiros como o SophGO, permitindo que a Huawei obtenha as bolsas dos EUA, apesar dos restrições dos EUA. Estima -se que a Huawei adquirisse bolachas suficientes para mais de um milhão de processadores ASCEND 910C de 2023 a 2025. No entanto, à medida que os recursos da SMIC melhoram, a Huawei pode terceirizar mais produção para a fundição doméstica.
O ASCEND 910C usa a memória HBM2E, a maioria dos quais é proveniente da Samsung usando outro proxy, Coasia Electronics. A Coasia enviou os componentes HBM2E para a Faraday Technology, uma empresa de serviços de design, que então trabalhou com o SPIL para montar pilhas HBM2E ao lado de morrer lógica de 16 nm de baixo desempenho. Essas assembléias tecnicamente cumpriram os controles de exportação dos EUA porque não excederam nenhum limite descrito pelos regulamentos dos EUA. As unidades de sistema em pacote (SIP) foram enviadas para a China apenas para que suas pilhas HBM2E sejam descendadas para serem enviadas para a Huawei, que as reinstalou em seus SIPs de ascensão 910C.
Em termos de desempenho, o Ascend 910C é consideravelmente menos poderoso por chip do que as mais recentes GPUs B200ai da NVIDIA, mas a estratégia de design do sistema da Huawei compensa isso, ampliando o número de chips por sistema.
De fato, como o nome sugere, o CloudMatrix 384 é um cluster de computação de alta densidade composto por 384 processadores ASCEND 910C AI, organizados fisicamente em um sistema de 16 rack com 32 aceleradores de IA por rack. Dentro desse layout, 12 racks de computação de casa, enquanto quatro racks adicionais são alocados para troca de comunicação. Assim como na arquitetura da NVIDIA, todos os ASCEND 910Cs podem se comunicar, pois estão interconectados usando uma rede de malha personalizada.
No entanto, um recurso definidor do CM384 é sua dependência exclusiva de links ópticos para toda a comunicação interna dentro e entre racks. Ele incorpora 6.912 transceptores ópticos lineares (LPO) lineares, cada um com 800 Gbps, resultando em uma largura de banda interna total superior a 5,5 Pbps (687,5 Tb/s) em baixa latência e com perdas mínimas de integridade de sinal. O sistema suporta topologias de expansão e escala: ampliando a malha completa dentro dos 384 processadores e escala através de conexões adicionais entre cluster, o que permite a implantação em ambientes de hiperescala maior, mantendo a integração de computação rígida.
Com 384 processadores, o CloudMatrix 384 da Huawei oferece 300 pflops de desempenho denso de computação BF16, que é 166% maior em comparação com o GB200 NVL72 da NVIDIA. No entanto, toda a energia do sistema (incluindo redes e armazenamento) do CM384 é de cerca de 559 kW, enquanto o GB200 NVL72 da NVIDIA consome 145 kW.
Como resultado, a solução da NVIDIA oferece eficiência de potência 2,3 vezes maior que a solução da Huawei. Ainda assim, como observado acima, se a Huawei puder entregar seu CloudMatrix 384 em volumes, com software e suporte adequados, a última coisa com que seus clientes se importarão é o consumo de energia de seus sistemas.