O que é Deepseek? E como está aumentando a IA?

Os estoques de tecnologia caíram. Empresas gigantes como Meta e Nvidia enfrentaram uma enxurrada de perguntas sobre seu futuro. E os executivos de tecnologia foram às mídias sociais para proclamar seus medos.

E foi tudo por causa de uma start-up de inteligência artificial chinesa pouco conhecida chamada Deepseek.

Deepseek causou ondas em todo o mundo na segunda -feira como uma de suas realizações – que havia criado um modelo de IA muito poderoso com muito menos dinheiro do que muitos especialistas da IA ​​pensavam ser possível – levantaram uma série de perguntas, incluindo se as empresas americanas eram até competitivas em IA não mais.

Deepseek é “o momento de Sputnik da IA”, Marc Andreessen, um capitalista de risco de tecnologia, Postado nas mídias sociais no domingo.

Como uma empresa que poucas pessoas ouvira falar de ter esse efeito?

A Deepseek é uma start-up fundada e de propriedade da empresa de comércio de ações chinesas High-Flyer. Seu objetivo é construir tecnologias de IA ao longo das linhas do ChatGpt Chatbot do OpenAI ou Gemini do Google. Até 2021, a Deepseek havia adquirido milhares de chips de computador da fabricante de chips americanos Nvidia, que são uma parte fundamental de qualquer esforço para criar sistemas de IA poderosos

Na China, a start-up é conhecida por agarrar jovens e talentosos pesquisadores de IA das principais universidades, prometendo altos salários e uma oportunidade de trabalhar em projetos de pesquisa de ponta. Tanto o High-Flyer quanto o Deepseek são administrados por Liang Wenfeng, um empresário chinês.

Nos últimos anos, a Deepseek lançou vários modelos de idiomas grandes, que é o tipo de tecnologia que sustenta os chatbots como ChatGpt e Gemini. Em 10 de janeiro, lançou seu primeiro aplicativo de chatbot gratuito, que foi baseado em um novo modelo chamado Deepseek-V3.

Quando a Deepseek apresentou seu modelo Deepseek-V3 no dia seguinte ao Natal, ele correspondia às habilidades dos melhores chatbots de empresas americanas como OpenAI e Google. Isso por si só teria sido impressionante.

Mas a equipe por trás do novo sistema também revelou um passo maior. Em um artigo de pesquisa explicando como construiu a tecnologia, a Deepseek disse que usava apenas uma fração dos chips de computador com os quais as empresas de IA líderes confiam para treinar seus sistemas.

As principais empresas do mundo normalmente treinam seus chatbots com supercomputadores que usam até 16.000 chips ou mais. Os engenheiros da Deepseek disseram que precisavam de apenas 2.000 chips da NVIDIA.

Desde o final de 2022, quando o OpenAI acionou o boom da IA, a noção predominante era que os sistemas de IA mais poderosos não puderam ser construídos sem investir bilhões de dólares em chips especializados de IA. Isso significaria que apenas as maiores empresas de tecnologia – como Microsoft, Google e Meta, todas baseadas nos Estados Unidos – poderiam se dar ao luxo de construir as principais tecnologias.

(O New York Times processou o OpenAI e seu parceiro, a Microsoft, alegando que a violação de direitos autorais de conteúdo de notícias relacionado aos sistemas de IA. As duas empresas de tecnologia negaram as reivindicações do processo.)

Mas os engenheiros da Deepseek disseram que precisavam de apenas US $ 6 milhões em poder de computação bruta para treinar seu novo sistema. Isso foi aproximadamente 10 vezes menos do que o que a Meta gastava construindo sua mais recente tecnologia de IA.

Os principais engenheiros da IA ​​nos Estados Unidos dizem que o trabalho de pesquisa da Deepseek apresentou maneiras inteligentes e impressionantes de criar tecnologia de IA com menos chips.

Em resumo, os engenheiros da startup demonstraram uma maneira mais eficiente de analisar dados usando os chips. Os principais sistemas de IA aprendem suas habilidades identificando padrões em enormes quantidades de dados, incluindo texto, imagens e sons. O Deepseek descreveu uma maneira de espalhar essa análise de dados em vários modelos especializados de IA – o que os pesquisadores chamam de um método de “mistura de especialistas” – enquanto minimiza o tempo perdido movendo dados de um lugar para outro.

Outros já usaram métodos semelhantes antes, mas a movimentação de informações entre os modelos tendia a reduzir a eficiência. A Deepseek fez isso de uma maneira que lhe permitisse usar menos poder de computação.

“Ficou muito claro que outras empresas, não apenas alguém como o Openai, podem construir esse tipo de sistema”, disse Tim Dettmers, pesquisador do Instituto Allen de Inteligência Artificial em Seattle e professor de ciência da computação na Universidade Carnegie Mellon, que especializado na construção de sistemas de IA eficientes. “Deepseek usou métodos que qualquer pessoa pode duplicar.”

O artigo de pesquisa da Deepseek levantou questões sobre se as grandes empresas americanas poderiam manter uma liderança significativa na IA que muitos especialistas acreditam que a tecnologia de IA se tornará uma mercadoria, com muitas empresas vendendo o mesmo produto.

O Deepseek-V3 pode responder a perguntas, resolver problemas lógicos e escrever seus próprios programas de computador com a mesma eficácia do que qualquer coisa já no mercado, de acordo com os testes padrão de benchmark.

Pouco antes de a Deepseek lançar sua tecnologia, o Openai havia revelado um novo sistema, chamado Openai O3, que parecia mais poderoso que o Deepseek-V3. Mas o Openai não lançou esse sistema para o público em geral.

O OpenAi O3 foi projetado para “raciocinar” por meio de problemas que envolvem matemática, ciências e programação de computadores. Muitos especialistas apontaram que a Deepseek não havia construído um modelo de raciocínio nesse sentido, o que é visto como o futuro da IA

Então, em 20 de janeiro, a Deepseek lançou seu próprio modelo de raciocínio chamado Deepseek R1, e também impressionou os especialistas. Isso acabou nos enviando investidores e outros em pânico no final da semana passada e no fim de semana, ao perceber a importância da nova tecnologia da Deepseek.

Sim, ainda importa.

Um grande número de chips de IA ainda pode ajudar as empresas de várias maneiras. Com mais chips, eles podem executar mais experimentos enquanto exploram novas maneiras de construir IA em outras palavras, mais chips ainda podem dar às empresas uma vantagem técnica e competitiva.

Mais fichas também serão necessárias para operar a nova geração de modelos de IA de “raciocínio”, disseram especialistas. Isso requer mais poder de computação quando pessoas e empresas as usam.

Sim. Para manter a liderança dos EUA na corrida global de IA, o governo Biden havia implementado regras que limitavam o número de chips poderosos que poderiam ser vendidos à China e outros rivais.

Mas o desempenho impressionante do modelo Deepseek levantou questões sobre as consequências não intencionais das restrições comerciais do governo americano. Os controles forçaram pesquisadores na China a serem criativos com uma ampla gama de ferramentas disponíveis gratuitamente na Internet.

Alguns especialistas continuam argumentando a favor das restrições comerciais dos EUA, dizendo que foram implementadas recentemente e que terão um efeito maior nas habilidades da China de criar IA com o passar dos anos.

Não. O mundo ainda não viu o modelo O3 da OpenAI e seu desempenho em testes de referência padrão foi mais impressionante do que qualquer outra coisa no mercado. Mas os especialistas estão preocupados com o fato de a China estar avançando em sistemas de IA de código aberto.

Como muitas outras empresas, a DeepSeek “Open de origem” seu mais recente sistema de IA, o que significa que ele compartilhou o código de computador subjacente com outras empresas e pesquisadores. Isso permite que outras pessoas construam e distribuam seus próprios produtos usando as mesmas tecnologias.

Isso faz parte da razão pela qual a Deepseek e outros na China foram capazes de construir sistemas de IA competitivos de maneira tão rápida e barata.

No mundo da IA, o Open Source recebeu o vapor pela primeira vez em 2023, quando a Meta compartilhou livremente um sistema de IA chamado lhama. Na época, muitos assumiram que o ecossistema de código aberto apenas floresceria se empresas como Meta-empresas gigantes com enormes data centers cheios de chips especializados-continuassem a abrir suas tecnologias.

Mas Deepseek e outros mostraram que esse ecossistema pode prosperar de maneiras que se estendem além dos gigantes da tecnologia americana.

Muitos especialistas argumentaram que as grandes empresas americanas não deveriam abrir suas tecnologias porque poderiam ser usadas para espalhar desinformação ou causar outros danos graves. Alguns legisladores dos EUA exploraram a possibilidade de prevenir ou estrangular a prática.

Mas outros especialistas argumentaram que, se os reguladores sufocam o progresso da tecnologia de código aberto nos Estados Unidos, a China terá uma vantagem significativa. Se as melhores tecnologias de código aberto vieram da China, argumentam esses especialistas, pesquisadores e empresas dos EUA criarão seus sistemas no topo dessas tecnologias.

A longo prazo, isso poderia colocar a China no coração da pesquisa e desenvolvimento da IA, o que poderia acelerar ainda mais seu esforço para construir uma ampla gama de tecnologias de IA, incluindo armas autônomas e outros sistemas militares.

Source link

Artigos Relacionados

Botão Voltar ao Topo