【AI学习】[2024北京智源大会]具身智能：具身智能关键技术研究：操纵、决策、导航

具身智能关键技术研究：操纵、决策、导航
董豪 | 北京大学助理教授

依然是边看边做些记录
在这里插入图片描述
这张图的重点是在说，我们的大脑，也是不同的部分处理不同的功能。这里面有些功能，比如视觉、听觉理解等功能，LLM已经具备，而有些功能没有具备，这些就是具身智能的重点

在这里插入图片描述
这就是具身智能的三个关键研究点。

在这里插入图片描述
仿真是方便的数据来源。通过已有的3D数据，合成数据。
通过数据，训练抓取功能。还有目标姿态估计，这样才能放置物体，这也是可以通过仿真获得海量数据进行训练的。
有了抓取和姿态估计，就可以完成很多任务。

在这里插入图片描述

灵巧手也可以通过合成数据训练。这里先要回答，灵巧手和二指等有什么区别？区别在于人的手有一个预抓取动作。
具体的训练，通过强化学习。因为这不是一个静态的抓取，是连续的动作

在这里插入图片描述
抓取之后，然后是操纵。这里是通过强化学习训练。

在这里插入图片描述
探索仿真的边界。通过探索，仿真是有边界的。

在这里插入图片描述
然后这里是探索双手的操作。

准备开源的平台：OmniSim
实现仿真到仿真。比如一个开门，不可能在真实环境去开一千个门吧，需要利用仿真

在这里插入图片描述
那仿真的边界在哪呢？目前最好的是视觉。
对于一个门，没有把手，即使是人，也需要尝试。这里就是交互式的尝试，这些都需要机器人在真实世界，交互后，才能提升。
我们也希望机器人能在真实世界学习提升，而不是固化了。
在这里插入图片描述
这个就是在真实世界里学习。

在这里插入图片描述
柔性物体的操作，是比较难的！通过强化学习，一个方法解决多种任务

在这里插入图片描述
这是机械臂的操作

在这里插入图片描述

这是通过在大淘宝买的东西做的机械臂。虽然误差大，但是通过视觉的闭环，依然可以工作。

如果仿真中没有的物体这么办？通过借助大模型，因为大模型见多识广，可以举一反三。
将仿真的操作能力，注入大模型，最后部署的是大模型。
具体的方式，就是通过问大模型，让大模型告诉如何操作。

在这里插入图片描述
然后发现，即使比较差的仿真，加上大模型，也可以比较好的工作。大模型可以做到新类别的泛化。

在这里插入图片描述
那接下来，就需要把长长的动作，进行任务分解。
上面这个图，就是大模型把一个任务，分解为一系统API。

在这里插入图片描述
接下来，是通过视觉的问题任务，经过数据集、微调环节，解决机器人的视觉问答任务。

任务编排不是瓶颈，大模型都可以实现。难点还是机械臂的操作。

在这里插入图片描述
然后是收纳，这个需要机器人自动完成。方法是从网络上获取大量图片，比如获取什么是整洁的样子，通过网上的几千张样例图片，获得分布的知识。

最后是具身导航，这个现在提的不多，但是未来可能有大用处。

在这里插入图片描述
物体导航。比如在屋里找，相应的东西。

这个也可以通过多模态的视觉语言大模型完成。

这是另外一个导航任务。视觉语言导航，跟随人的指令

这是一个真实世界部署的大模型，而不是仿真。方法是通过多专家讨论的方式，并不需要训练什么模型。
在这里插入图片描述
这是提出的第三种导航范式，需求驱动导航，因为前两种对人并不友好。