Nvidia chama o modelo Deepseek R1 da China de ‘um excelente avanço de IA’

Jensen Huang, co-fundador e diretor executivo da Nvidia Corp., durante uma entrevista coletiva em Taipei, Taiwan, na terça-feira, 4 de junho de 2024. A NVIDIA ainda está trabalhando no processo de certificação da Samsung Electronics Co. Chips de memória, uma etapa final necessária antes que a empresa coreana possa começar a fornecer um componente essencial para o treinamento de plataformas de IA.

Annabelle Chih | Bloomberg | Getty Images

Nvidia Chamado modelo R1 de Deepseek de “um excelente avanço de IA”, apesar do surgimento da startup chinesa causar o preço das ações do fabricante de chips de 17% na segunda -feira.

“Deepseek é um excelente avanço da IA ​​e um exemplo perfeito de escala de tempo de teste”, disse um porta -voz da NVIDIA à CNBC na segunda -feira. “O trabalho da Deepseek ilustra como os novos modelos podem ser criados usando essa técnica, alavancando modelos amplamente disponíveis e computação que é totalmente compatível com o controle de exportação”.

Os comentários vêm depois que a Deepseek lançou na semana passada R1, que é um modelo de raciocínio de código aberto que supostamente superou os melhores modelos de empresas americanas como o OpenAI. O custo de treinamento auto-relatado da R1 foi inferior a US $ 6 milhões, o que é uma fração dos bilhões que as empresas do Vale do Silício estão gastando para construir seus modelos de inteligência artificial.

A declaração da NVIDIA indica que ela vê o avanço da Deepseek como criando mais trabalho para as unidades de processamento gráfico da fabricante de chips americanas ou GPUs.

Leia mais cobertura Deepseek

“A inferência requer um número significativo de GPUs NVIDIA e redes de alto desempenho”, acrescentou o porta-voz. “Agora temos três leis de dimensionamento: pré-treinamento e pós-treinamento, que continuam e novo escala no tempo de teste”.

A NVIDIA também disse que as GPUs usadas pela Deepseek eram totalmente compatíveis com exportação. Que os contadores escalam o CEO da IA ​​Alexandr Wang’s Comentários sobre a CNBC na semana passada O fato de ele acreditar que Deepseek usou os modelos NVIDIA GPUs que são proibidos na China continental. A Deepseek diz que usou versões especiais das GPUs da NVIDIA destinadas ao mercado chinês.

Analistas agora estão perguntando se investimentos de capital de bilhões de bilhões de dólares de empresas como MicrosoftAssim, Google e Meta Para a infraestrutura de IA baseada na NVIDIA, está sendo desperdiçada quando os mesmos resultados podem ser alcançados de maneira mais barata.

No início deste mês, a Microsoft disse que está gastando US $ 80 bilhões em infraestrutura de IA apenas em 2025, enquanto o CEO da Meta Mark Zuckerberg disse na semana passada que a empresa de mídia social planejava investir entre US $ 60 e US $ 65 bilhões em despesas de capital em 2025 como parte de sua estratégia de IA.

“Se os custos de treinamento do modelo forem significativamente mais baixos, esperaríamos um custo-benefício de curto prazo para publicidade, viagens e outras empresas de aplicativos de consumo que usam serviços de IA em nuvem, enquanto as receitas e custos de AI relacionados ao hiperscaler de longo prazo provavelmente serão Lower “, escreveu o analista do Bofa Securities, Justin Post, em uma nota na segunda -feira.

O comentário da Nvidia também reflete um novo tema que o CEO da NVIDIA, Jensen Huang, o CEO da Openai Sam Altman e o CEO da Microsoft, Satya Nadella, discutiram nos últimos meses.

Grande parte do boom da AI e da demanda por GPUs Nvidia foi impulsionada pela “Lei de Escala”, um conceito no desenvolvimento da IA proposto pelos pesquisadores do OpenAI em 2020. Esse conceito sugeriu que os melhores sistemas de IA poderiam ser desenvolvidos expandindo bastante a quantidade de computação e dados que foram necessários para a construção de um novo modelo, exigindo cada vez mais chips.

Desde novembro, Huang e Altman se concentram em uma nova ruga para a lei de escala, que Huang chama de “escala no tempo de teste”.

Esse conceito diz que, se um modelo de IA totalmente treinado gastar mais tempo usando energia extra ao fazer previsões ou gerar texto ou imagens para permitir que ele “raciocine”, ele fornecerá melhores respostas do que teria se fosse por menos tempo.

As formas da lei de escala de tempo de teste são usadas em alguns dos modelos do OpenAI como O1 bem como o modelo R1 de Deepseek.

ASSISTIR: Deepseek, um senso desafiador de excepcionalismo nos mercados, diz o gerente de fundos

Source link

Artigos Relacionados

Veja Também
Fechar
Botão Voltar ao Topo