Google DeepMind hoje anunciado A Gemini Robotics para trazer Gemini e “AI para o mundo físico”, com novos modelos capazes de “executar uma gama mais ampla de tarefas do mundo real do que nunca”.
Para que a IA seja útil e útil para as pessoas no domínio físico, elas precisam demonstrar raciocínio “incorporado” – a capacidade humana de compreender e reagir ao mundo ao nosso redor – e com segurança tomar medidas para fazer as coisas.
O objetivo é construir robôs de uso geral, com o CEO Sundar Pichai adicionando Como o Google “sempre pensou na robótica como um campo de testes úteis para traduzir a IA avança no mundo físico”.
“Gemini Robotics” é um modelo de ação de visão de visão (VLA) construído no Gemini 2.0 “com a adição de ações físicas como uma nova modalidade de saída com o objetivo de controlar diretamente robôs”.
Entrando, o Google tem “três principais qualidades” para modelos de IA robótica:
Generalidade: “Capaz de se adaptar a diferentes situações”
- A Gemini Robotics é “hábil em lidar com novos objetos, diversas instruções e novos ambientes”, incluindo “tarefas que nunca viu antes no treinamento”, alavancando o entendimento mundial subjacente de Gêmeos.
Interatividade: “Entenda e responda rapidamente a instruções ou mudanças em seu ambiente”
- O novo modelo do Google pode “responder aos comandos formulados em linguagem diária, conversacional e em diferentes idiomas”
Destreza: “Pode fazer os tipos de coisas que as pessoas geralmente podem fazer com as mãos e os dedos, como manipular cuidadosamente objetos”.
- “A Gemini Robotics pode enfrentar tarefas extremamente complexas e de várias etapas que requerem manipulação precisa, como dobrar ou embalar um lanche em uma bolsa Ziploc”.
O Google também anunciou o modelo Gemini Robotics-ER (“Raciocínio incorporado”) com uma melhor compreensão espacial “compreensão do mundo de maneiras necessárias para a robótica, concentrando-se especialmente no raciocínio espacial, e permite que os roboticistas o conectem com seus controladores de baixo nível existentes”.
Por exemplo, quando mostrado uma caneca de café, o modelo pode intuir uma compreensão apropriada de dois dedos para pegá-la pela alça e uma trajetória segura para abordá-la.
Esses modelos são executados em vários fatores de forma de robô (incluindo robôs bi-armas e humanóides), com testadores confiáveis, como robôs ágil, robôs de agilidade, Boston Dynamics e ferramentas encantadas.
FTC: Utilizamos links de afiliados de automóveis. Mais.