O mais impressionante, desde o início, é a perceção em tempo real do robô humanoide Atlas, da Boston Dynamics. Como podemos ver no vídeo, o robô regista continuamente o que está à sua volta, os objetos, para a sua ação ser o mais precisa possível.
Atlas, agora totalmente elétrico, executa tarefas no laboratório
O robô tem como missão pegar numas tampas de motor e executar um movimento com elas. A máquina, regista constantemente o objeto para conhecer os locais onde deve pegar e pousar as peças. Atualiza em tempo real a sua compreensão do ambiente para manipular eficazmente os componentes. Ao pegar numa peça, analisa a sua forma e topologia para decidir como manuseá-la e onde colocá-la.
Destaca-se um momento aos 1:14 do vídeo, em que um engenheiro deixa cair uma tampa de motor. Atlas reage como se “ouvisse” a queda.
Depois, procura visualmente a peça, identifica-a, avalia a melhor forma de a recolher e coloca-a no local adequado com precisão.
Nesta demonstração em particular, o comportamento de procura foi acionado manualmente. O robô não deteta o som da peça a cair. Ele ‘encontra’ autonomamente o objeto no chão. Em prática, podemos correr o mesmo modelo de visão passivamente e acionar o mesmo comportamento se uma peça for detetada fora da posição durante a operação normal.
Explicou Scott Kuindersma, diretor sénior de investigação em robótica da Boston Dynamics.
O vídeo realça a capacidade do Atlas de adaptar-se e perceber o ambiente, ajustando a sua compreensão do mundo e mantendo a tarefa atribuída. Demonstra como o humanoide lida com ambientes caóticos, mantendo o foco no objetivo e ajustando-se em tempo real.
Segundo a Boston Dynamics:
Quando o objeto está no campo de visão das câmaras, o Atlas usa um modelo de estimativa de pose com base em renderização e comparação a partir de imagens monoculares. O modelo, treinado com dados sintéticos em larga escala, generaliza para objetos novos sem necessidade de re-treinamento, desde que exista um modelo CAD.
Com uma pose 3D inicial, o sistema refina iterativamente essa estimativa para reduzir a discrepância entre o modelo CAD renderizado e a imagem da câmara. Também pode começar com uma estimativa 2D (como uma máscara de objeto). Gera-se um conjunto de hipóteses de pose, avaliadas por um modelo de pontuação que seleciona a melhor para refinamento final. Este sistema é fiável para centenas de ativos industriais já modelados pela Boston Dynamics.
“Vejo, logo existo”
A orientação por visão em robôs existe desde os anos 90, quando já se conseguiam seguir objetos em movimento e ajustar o referencial local com base em marcas fiduciais. A grande diferença hoje nos humanoides é a mobilidade. Qualquer robô manipulador móvel precisa de atualizar constantemente o seu mapa do mundo.
A visão robótica moderna usa modelos de linguagem visual (VLM) para compreender o mundo através da câmara. Os robôs industriais antigos eram fixos ao solo e dependiam de visão 2D e calibração complexa. O Atlas, sendo móvel, compreende o mundo em 3D e continua as tarefas mesmo quando o ambiente muda à sua volta.
A Boston Dynamics admite que a demonstração combina funções baseadas em IA (como perceção) com programação procedural para gerir a missão. É uma boa amostra da evolução do software. Para que estes sistemas funcionem no mundo real, precisam de lidar tanto com mudanças subtis como com alterações significativas no ambiente.
A percorrer o mundo
Como podemos ver, o Atlas em movimento é fascinante. As suas ações, por vezes estranhas, ilustram como a IA percebe o mundo e escolhe os passos seguintes. Conforme é referido, no vídeo, vemos apenas uma fração desta tomada de decisão.
A Boston Dynamics já publicou vídeos com comportamentos baseados em motion capture (mocap), que mostram a agilidade do sistema com entradas suaves. Neste vídeo mais recente, sob controlo de IA, os movimentos são mais bruscos, distanciando-se dos vídeos com realismo quase humano baseados em mocap.
Há ainda muito processamento em tempo real necessário para o Atlas compreender o ambiente. Vemos o robô a parar, processar, decidir e seguir. Acredita-se que este tempo vá reduzir-se com a evolução do código e dos modelos de IA.
A corrida agora está em desenvolver software baseado em IA que permita aos robôs adaptar-se, compreender o seu meio e aprender continuamente com dados multimodais.