Como a DeepSeek construiu sua IA com menos dinheiro?

No mês passado, os mercados financeiros dos EUA caíram depois que uma start-up chinesa chamada Deepseek disse que construiu um dos sistemas de inteligência artificial mais poderosos do mundo usando muito menos chips de computador do que muitos especialistas pensavam ser possível.
As empresas de IA normalmente treinam seus chatbots usando supercomputadores embalados com 16.000 chips especializados ou mais. Mas a Deepseek disse que precisava de apenas 2.000.
Como os engenheiros do Deepseek detalhados em um Trabalho de pesquisa Publicado logo após o Natal, a start-up usou vários truques tecnológicos para reduzir significativamente o custo de construção de seu sistema. Seus engenheiros precisavam de apenas US $ 6 milhões em poder de computação bruta, aproximadamente um décimo do que a Meta gasta na construção de sua mais recente tecnologia de IA.
O que exatamente o Deepseek fez? Aqui está um guia.
Como as tecnologias de IA são construídas?
As principais tecnologias de IA são baseadas no que os cientistas chamam de redes neurais, sistemas matemáticos que aprendem suas habilidades analisando enormes quantidades de dados.
Os sistemas mais poderosos passam meses analisando quase todo o texto em inglês na Internet, além de muitas imagens, sons e outros multimídia. Isso requer enormes quantidades de poder de computação.
Cerca de 15 anos atrás, os pesquisadores da IA perceberam que chips de computador especializados chamados unidades de processamento de gráficos, ou GPUs, eram uma maneira eficaz de fazer esse tipo de análise de dados. Empresas como a fabricante de chips do Vale do Silício, Nvidia, projetaram originalmente esses chips para renderizar gráficos para videogames de computador. Mas as GPUs também tinham um talento especial para administrar as contas que alimentavam redes neurais.
À medida que as empresas embalavam mais GPUs em seus data centers de computador, seus sistemas de IA poderiam analisar mais dados.
Mas as melhores GPUs custam cerca de US $ 40.000 e precisam de grandes quantidades de eletricidade. O envio dos dados entre os chips pode usar mais energia elétrica do que executar os chips.
Como o DeepSeek foi capaz de reduzir custos?
Fez muitas coisas. Mais notavelmente, abraçou um método chamado “mistura de especialistas”.
As empresas geralmente criavam uma única rede neural que aprendia todos os padrões em todos os dados na Internet. Isso era caro, porque exigia enormes quantidades de dados viajarem entre chips de GPU.
Se um chip estava aprendendo a escrever um poema e outro estava aprendendo a escrever um programa de computador, eles ainda precisavam conversar um com o outro, caso houvesse alguma sobreposição entre poesia e programação.
Com a mistura do método de especialistas, os pesquisadores tentaram resolver esse problema dividindo o sistema em muitas redes neurais: uma para poesia, uma para programação de computador, uma para biologia, uma para física e assim por diante. Pode haver 100 desses sistemas “especialistas” menores. Cada especialista pode se concentrar em seu campo particular.
Muitas empresas lutaram com esse método, mas a Deepseek foi capaz de fazê -lo bem. Seu truque era emparelhar esses sistemas “especialistas” menores com um sistema “generalista”.
Os especialistas ainda precisavam negociar algumas informações entre si, e o generalista – que tinha um entendimento decente, mas não detalhado de cada assunto – poderia ajudar a coordenar as interações entre os especialistas.
É um pouco como a supervisão de um editor uma redação cheia de repórteres especializados.
E isso é mais eficiente?
Muito mais. Mas essa não é a única coisa que Deepseek fez. Também dominou um truque simples envolvendo decimais que quem se lembra de sua aula de matemática do ensino fundamental pode entender.
Há matemática envolvida nisso?
Lembre -se de seu professor de matemática explicando o conceito de pi. PI, também indicado como π, é um número que nunca termina: 3.14159265358979…
Você pode usar π para fazer cálculos úteis, como determinar a circunferência de um círculo. Quando você faz esses cálculos, reduz π para apenas alguns decimais: 3.14. Se você usar esse número mais simples, obterá uma boa estimativa da circunferência de um círculo.
A Deepseek fez algo semelhante – mas em uma escala muito maior – ao treinar sua tecnologia de IA.
A matemática que permite que uma rede neural identifique padrões no texto é realmente apenas multiplicação – muitos e muita multiplicação. Estamos conversando meses de multiplicação em milhares de chips de computador.
Normalmente, os chips multiplicam números que se encaixam em 16 bits de memória. Mas o Deepseek apertou cada número em apenas 8 bits de memória – metade do espaço. Em essência, cortou vários decimais de cada número.
Isso significava que cada cálculo era menos preciso. Mas isso não importava. Os cálculos eram precisos o suficiente para produzir uma rede neural realmente poderosa.
É isso?
Bem, eles adicionaram outro truque.
Depois de espremer cada número em 8 bits de memória, a Deepseek seguiu uma rota diferente ao multiplicar esses números. Ao determinar a resposta para cada problema de multiplicação – fazendo um cálculo -chave que ajudaria a decidir como a rede neural operaria – estendeu a resposta em 32 bits de memória. Em outras palavras, manteve muito mais decimais. Tornou a resposta mais precisa.
Então, algum aluno do ensino médio poderia ter feito isso?
Bem, não. Os engenheiros Deepseek mostraram em seu artigo que também eram muito bons em escrever o código de computador muito complicado que diz ao GPUS o que fazer. Eles sabiam como espremer ainda mais eficiência desses chips.
Poucas pessoas têm esse tipo de habilidade. Mas os laboratórios de IA sérios têm os engenheiros talentosos necessários para corresponder ao que Deepseek fez.
Então, por que eles já fizeram isso?
Alguns laboratórios de IA podem estar usando pelo menos alguns dos mesmos truques. Empresas como o OpenAI nem sempre revelam o que estão fazendo a portas fechadas.
Mas outros ficaram claramente surpresos com o trabalho de Deepseek. Fazer o que a start-up fez não é fácil. A experimentação necessária para encontrar um avanço como essa envolve milhões de dólares – se não bilhões – em energia elétrica.
Em outras palavras, requer enormes quantidades de risco.
“Você tem que colocar muito dinheiro em risco para experimentar coisas novas – e muitas vezes elas falham”, disse Tim Dettmers, pesquisador do Instituto Allen de Inteligência Artificial em Seattle, especializada na construção de sistemas de IA eficiente e trabalhou anteriormente como um pesquisador de IA da Meta.
“É por isso que não vemos muita inovação: as pessoas têm medo de perder muitos milhões apenas para tentar algo que não funciona”, acrescentou.
Muitos especialistas apontaram que US $ 6 milhões da Deepseek cobriam apenas o que a start-up gastou ao treinar a versão final do sistema. Em seu artigo, os engenheiros da Deepseek disseram que gastaram fundos adicionais em pesquisa e experimentação antes do treinamento final. Mas o mesmo se aplica a qualquer projeto de IA de ponta.
Deepseek experimentou e valeu a pena. Agora, como a start-up chinesa compartilhou seus métodos com outros pesquisadores de IA, seus truques tecnológicos estão prontos para reduzir significativamente o custo da construção de IA