Anthropic desenvolveu um ‘scanner cerebral’ de IA para entender como os LLMs funcionam e acontece a razão pela qual os chatbots são terríveis em matemática simples e alucinados é mais estranho do que você pensou

Rastreando os pensamentos de um modelo de idioma grande – YouTube

É uma verdade peculiar que não entendemos como os grandes modelos de linguagem (LLMs) realmente funcionam. Nós os projetamos. Nós os construímos. Nós os treinamos. Mas o funcionamento interno deles é amplamente misterioso. Bem, eles eram. Isso é menos verdade agora graças a alguns Nova pesquisa por antropia Isso foi inspirado pelas técnicas de varredura cerebral e ajuda a explicar por que os chatbots alucinam e são terríveis com os números.

O problema é que, embora entendamos como projetar e construir um modelo, não sabemos como todos os zilhões de pesos e parâmetros, as relações entre dados dentro do modelo que resultam do processo de treinamento, realmente dão origem ao que parece ser saídas convincentes.

“Abra um modelo de idioma grande e tudo o que você verá é bilhões de números – os parâmetros”, diz Joshua Batson, cientista de pesquisa da Anthrópica (via Via MIT Technology Review), do que você encontrará se você espiar dentro da caixa preta que é um modelo de IA totalmente treinado. “Não é esclarecedor”, observa ele.

Para entender o que realmente está acontecendo, os pesquisadores da Anthropic desenvolveram uma nova técnica, chamada rastreamento de circuitos, para rastrear os processos de tomada de decisão dentro de um grande modelo de idioma passo a passo. Eles então o aplicaram ao seu próprio Claude 3.5 Haiku Llm.

A Anthrópica diz que sua abordagem foi inspirada nas técnicas de varredura cerebral usadas na neurociência e pode identificar componentes do modelo que estão ativos em momentos diferentes. Em outras palavras, é um pouco como um scanner cerebral, que partes do cérebro estão disparando durante um processo cognitivo.

É por isso que os LLMs são tão irregulares em matemática. (Crédito da imagem: Antrópico)

Anthrópica fez muitas descobertas intrigantes usando essa abordagem, entre as quais é por isso que os LLMs são tão terríveis na matemática básica. “Pergunte a Claude para adicionar 36 e 59 e o modelo passará por uma série de etapas ímpares, incluindo primeiro adicionar uma seleção de valores aproximados (adicione 40ish e 60ish, adicione 57ish e 36ish). No final de seu processo, ele obtém o valor de 9 e 92, que a resposta é que a sequência de 5 dígitos. O artigo do MIT explica.

Mas aqui está um pouco muito descolado. Se você perguntar a Claude como obteve a resposta correta de 95, aparentemente lhe dirá: “Eu adicionei os (6+9 = 15), carreguei o 1 e adicionei os 10s (3+5+1 = 9), resultando em 95”. Mas isso realmente reflete apenas respostas comuns em seus dados de treinamento sobre como a soma pode ser concluída, em oposição ao que realmente fez.

Em outras palavras, o modelo não apenas usa um método muito, muito estranho para fazer a matemática, mas você não pode confiar em suas explicações sobre o que acabou de fazer. Isso é significativo e mostra que as saídas do modelo não podem ser confiadas ao projetar o GuardaRails para a IA. Seus trabalhos internos também precisam ser entendidos.

Outro resultado muito surpreendente da pesquisa é a descoberta de que esses LLMs não, como é amplamente assumido, operam apenas prevendo a próxima palavra. Ao rastrear como Claude gerou dísticos de rima, o antropia descobriu que escolheu a palavra riming no final dos versos primeiro e depois preencheu o restante da linha.

“A coisa do planejamento em poemas me surpreendeu”, diz Batson. “Em vez de no último minuto tentar fazer a rima fazer sentido, sabe para onde está indo”.

Anthrópica descobriu que seu Claude LLM não apenas previu a próxima palavra. (Crédito da imagem: Antrópico)

Anthrópica também encontrou, entre outras coisas, que Claude “às vezes pensa em um espaço conceitual compartilhado entre idiomas, sugerindo que ele tem um tipo de” linguagem de pensamento “universal”.

De qualquer forma, aparentemente há um longo caminho a percorrer com esta pesquisa. Segundo a Antrópica, “atualmente leva algumas horas de esforço humano para entender os circuitos que vemos, mesmo em instruções com apenas dezenas de palavras”. E a pesquisa não explica como as estruturas dentro do LLMS são formadas em primeiro lugar.

Mas isso iluminou pelo menos algumas partes de como esses seres de IA estranhamente misteriosos – que criamos, mas não entendemos – na verdade funcionam. E isso tem que ser uma coisa boa.

Source link

Artigos Relacionados

Botão Voltar ao Topo