Por que o sucesso dos Pokémon do Google Gemini não é tudo o que se dividiu

Embora Gêmeos esteja usando seu modelo e processo de raciocínio para essas tarefas, ele está dizendo que Jaeles, especialmente esses agentes especiais, teve que representar graficamente o modelo básico para ajudar a enfrentar os desafios mais difíceis do jogo. Como Joel escreve, “Minha intervenção melhora as capacidades gerais de tomada de decisão e raciocínio de Gêmeos”.
O que estamos fazendo aqui?
Não me entenda mal, o Massage LLM de uma forma que pode derrotar o jogo Pokémon é definitivamente um sucesso. No entanto, o nível de “interferência” precisa ajudar as coisas de Gemini que o LLM ainda não pode ser livremente incapaz de ter em mente porque avaliamos esse sucesso.
Naquele momento, Gêmeos derrotou Pokémon (com uma pequena ajuda).
Nós já sabemos Certamente as ferramentas de reforço projetadas podem derrotar os Pokémon de uma maneira bastante eficaz (E isso também Um gerador de números aleatórios pode derrotar o jogo de maneira ineficaz) A ressonância especial do teste “LLM Play Pokemon” é ver se um modelo de idioma típico pode argumentar para sua própria solução para um jogo complexo. Através de informações externas, ferramentas ou “danos”, permitimos o modelo o máximo que pudermos. Este jogo é menos útil como esse teste.
Antrópico Disse em fevereiro A nuvem desempenhou o papel de Pokémon “, o sistema de IA dos glamours que lidam com os desafios não apenas através do treinamento, mas com o raciocínio geral, com uma capacidade crescente”. Mas, como Brad Shaw escreveu sobre Lishering, “sem um agente melhor (todos os modelos) têm a primeira tela do jogo, apenas tendo dificuldades no quarto vermelho!” Brad Shaw’s Então o teste de jogabilidade A LLMS livre de controle destaca como esses modelos geralmente enganam as condições do jogo, sem sentido, sem sentido ou mesmo impossíveis.
Em outras palavras, ainda estamos longe de ser um futuro tão imaginado, onde a inteligência geral artificial pode encontrar uma maneira de derrotar Pokemon porque você perguntou a ele.