O Google revela a Robótica Gemini para construir robôs de uso geral

Google DeepMind hoje anunciado A Gemini Robotics para trazer Gemini e “AI para o mundo físico”, com novos modelos capazes de “executar uma gama mais ampla de tarefas do mundo real do que nunca”.

Para que a IA seja útil e útil para as pessoas no domínio físico, elas precisam demonstrar raciocínio “incorporado” – a capacidade humana de compreender e reagir ao mundo ao nosso redor – e com segurança tomar medidas para fazer as coisas.

O objetivo é construir robôs de uso geral, com o CEO Sundar Pichai adicionando Como o Google “sempre pensou na robótica como um campo de testes úteis para traduzir a IA avança no mundo físico”.

“Gemini Robotics” é um modelo de ação de visão de visão (VLA) construído no Gemini 2.0 “com a adição de ações físicas como uma nova modalidade de saída com o objetivo de controlar diretamente robôs”.

Entrando, o Google tem “três principais qualidades” para modelos de IA robótica:

Anúncio – Role para obter mais conteúdo

Generalidade: “Capaz de se adaptar a diferentes situações”

A Gemini Robotics é “hábil em lidar com novos objetos, diversas instruções e novos ambientes”, incluindo “tarefas que nunca viu antes no treinamento”, alavancando o entendimento mundial subjacente de Gêmeos.

https://www.youtube.com/watch?v=SY20X_TYWPQ

Interatividade: “Entenda e responda rapidamente a instruções ou mudanças em seu ambiente”

O novo modelo do Google pode “responder aos comandos formulados em linguagem diária, conversacional e em diferentes idiomas”

https://www.youtube.com/watch?v=hyqs2oaif-i

Destreza: “Pode fazer os tipos de coisas que as pessoas geralmente podem fazer com as mãos e os dedos, como manipular cuidadosamente objetos”.

“A Gemini Robotics pode enfrentar tarefas extremamente complexas e de várias etapas que requerem manipulação precisa, como dobrar ou embalar um lanche em uma bolsa Ziploc”.

https://www.youtube.com/watch?v=x-exzz-ciuw

O Google também anunciou o modelo Gemini Robotics-ER (“Raciocínio incorporado”) com uma melhor compreensão espacial “compreensão do mundo de maneiras necessárias para a robótica, concentrando-se especialmente no raciocínio espacial, e permite que os roboticistas o conectem com seus controladores de baixo nível existentes”.

Por exemplo, quando mostrado uma caneca de café, o modelo pode intuir uma compreensão apropriada de dois dedos para pegá-la pela alça e uma trajetória segura para abordá-la.

Esses modelos são executados em vários fatores de forma de robô (incluindo robôs bi-armas e humanóides), com testadores confiáveis, como robôs ágil, robôs de agilidade, Boston Dynamics e ferramentas encantadas.

https://www.youtube.com/watch?v=4mvgnmmp3c0

FTC: Utilizamos links de afiliados de automóveis. Mais.