大模型机器人发展史：从VoxPoser、RT2到斯坦福Mobile ALOHA、Google机器人

前言

23年7月，我在朋友圈评估Google的RT2说道：

“大模型正在革新一切领域啊，超帅，通过大模型不仅能理解“人话”，还能对“人话”进行推理，并转变为机器人能理解的指令，从而分阶段完成任务。回头仔细看下论文”
当时便对大模型机器人印象深刻，一直想仔细研究下来着，但因为后来一直和团队忙于论文审稿GPT、企业知识库问答等项目，所以一直没抽出时间去深入研究

没成想，前几天，斯坦福的炒菜机器人火爆全网，再次让包括我在内的所有人目瞪口呆，再次在朋友圈评论道：

多模态 + 大模型 + AI agent可以全方位赋能机器人一年前我决心彻底写清楚ChatGPT原理一年前，因为对ChatGPT背后技术原理巨大的「好奇心」，加之极高的「分享热情」、以及想写一篇关于其原理最全面最深入最细致文章的「决心」，彻底改变了过去一年的轨迹最后，博客证明了技术研究能力，课程证明了教学教研能力，项目证明了带队开发能力一年后的今天，我下定决心准备彻底研究下机器人
刚好今年q1本身要做一个AI agent小项目，希望q2起，有机会做这个机器人agent大项目，如能和某高校实验室或资本合作更好

说干就干

一方面，我组建了一个斯坦福机器人复现小组(里面有CMU机器人方向博士毕业的)，准备复现斯坦福这个炒菜或家务机器人
二方面，我准备把大模型机器人的发展史以及其中涉及到的所有关键技术细节，全部都梳理一下(毕竟新闻稿只能看个大概，但想精准理解，必须结合一系列论文理解)

总之，不要看一篇新闻稿觉得很行，再看一篇又觉得不行了，不要人云亦云被新闻稿带节奏(比如，虽然其有些动作是被远程操控完成的，但还是有很多动作是其自主完成，比如对于一些简单的任务，Mobile ALOHA 可以在 50 次学习之后达到 90% 的行动成功率)，行与不行，得花几个月尝试下才可知，我们今年Q1之内的三个步骤：

先做技术准备
复现团队复现Mobile ALOHA
建后续迭代优化的机器人开发团队，作为我司的第4项目组

第一部分李飞飞团队：具身智能

1.1 机器人对从没见过的任务也能一次执行且不需要示范

大模型接入机器人，把复杂指令转化成具体行动规划，无需额外数据和训练，说白了，人类可以很随意地用自然语言给机器人下达指令，如：打开上面的抽屉，小心花瓶！

大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍，帮助机器人做行动规划

然后重点来了， 真实世界中的机器人在未经“培训”的情况下，就能直接执行这个任务。

新方法实现了零样本的日常操作任务轨迹合成，也就是机器人从没见过的任务也能一次执行，连给他做个示范都不需要。

可操作的物体也是开放的，不用事先划定范围，开瓶子、按开关、拔充电线都能完成

1.2 VoxPoser：大模型指导机器人如何与环境进行交互

1.2.1 3D Value Map：既标记了“在哪里行动”，也标记了“如何行动”

机器人如何直接听懂人话？李飞飞团队将该系统命名为VoxPoser，如下图所示，它的原理非常简单(项目地址、论文地址、代码地址)

首先，给定环境信息(用相机采集RGB-D图像)和我们要执行的自然语言指令
接着，LLM(大语言模型)根据这些内容编写代码，所生成代码与VLM(视觉语言模型)进行交互，指导系统生成相应的操作指示地图，即3D Value Map 所谓3D Value Map，它是Affordance Map和Constraint Map的总称，既标记了“在哪里行动”，也标记了“如何行动”
如此一来，再搬出动作规划器，将生成的3D地图作为其目标函数，便能够合成最终要执行的操作轨迹了而从这个过程我们可以看到，相比传统方法需要进行额外的预训练，这个方法用大模型指导机器人如何与环境进行交互，所以直接解决了机器人训练数据稀缺的问题更进一步，正是由于这个特点，它也实现了零样本能力，只要掌握了以上基本流程，就能hold任何给定任务

1.2.2 将指令拆解成很多子任务 + 规划路径

在具体实现中，作者将VoxPoser的思路转化为一个优化问题，即下面这样一个复杂的公式：

$\min _{\tau_{i}^{\mathbf{r}}}\left\{\mathcal{F}_{\text {task }}\left(\mathbf{T}_{i}, \ell_{i}\right)+\mathcal{F}_{\text {control }}\left(\tau_{i}^{\mathbf{r}}\right)\right\} \quad \text { subject to } \quad \mathcal{C}\left(\mathbf{T}_{i}\right)$

它考虑到了人类下达的指令可能范围很大，并且需要上下文理解，于是将指令拆解成很多子任务，比如开头第一个示例就由“抓住抽屉把手”和“拉开抽屉”组成

VoxPoser要实现的就是优化每一个子任务，获得一系列机器人轨迹，最终最小化总的工作量和工作时间

而在用LLM和VLM将语言指令映射为3D地图的过程中，系统考虑到语言可以传达丰富的语义空间，便利用“感兴趣的实体(entity of interest)”来引导机器人进行操作，也就是通过3D Value Map中标记的值来反应哪个物体是对它具有“吸引力”的，那些物体是具有“排斥性”。

还是以开头的例子举例，抽屉就是“吸引”的，花瓶是“排斥”的。

当然，这些值如何生成，就靠大语言模型的理解能力了。

而在最后的轨迹合成过程中，由于语言模型的输出在整个任务中保持不变，所以我们可以通过缓存其输出，并使用闭环视觉反馈重新评估生成的代码，从而在遇到干扰时快速进行重新规划

因此，VoxPoser有着很强的抗干扰能力，比如下图将废纸放进蓝色托盘

最后，作者还惊喜地发现，VoxPoser产生了4个“涌现能力”：

评估物理特性，比如给定两个质量未知的方块，让机器人使用工具进行物理实验，确定哪个块更重；
行为常识推理，比如在摆餐具的任务中，告诉机器人“我是左撇子”，它就能通过上下文理解其含义；
细粒度校正，比如执行“给茶壶盖上盖子”这种精度要求较高的任务时，我们可以向机器人发出“你偏离了1厘米”等精确指令来校正它的操作；
基于视觉的多步操作，比如叫机器人将抽屉精准地打开成一半，由于没有对象模型导致的信息不足可能让机器人无法执行这样的任务，但VoxPoser可以根据视觉反馈提出多步操作策略，即首先完全打开抽屉同时记录手柄位移，然后将其推回至中点就可以满足要求了

// 待更

第二部分 Google的RT-2

// 待更

第三部分

// 待更

第四部分斯坦福机器人Mobile ALOHA：炒菜、家务全活了

4.1 Mobile ALOHA与其前身ALOHA

4.1.1 Mobile ALOHA：通过示范数据做行为克隆，更结合前身ALOHA的静态数据做协同训练

在机器人技术领域，通过对人类示范进行模仿学习已经取得了令人瞩目的成绩。然而，目前大多数研究结果都集中在桌面操作上，缺乏完成一般任务的移动性和灵活性

近日，斯坦福一研究团队(Zipeng Fu、Tony Z. Zhao、Chelsea Finn)开发了一个系统：Mobile ALOHA

项目地址(可总览所有重要信息)：https://mobile-aloha.github.io/
论文地址：Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
硬件代码：hardware code之mobile-aloha
软件代码：learning code之act-plus-plus，本质就是ACT(关于什么是ACT，详见下节)
数据地址：public_mobile_aloha_datasets
硬件安装指南：Mobile ALOHA 🏄 Tutorial，该文档中涵盖了安装前身ALOHA的指南链接(简单粗暴理解的话，mobile aloha相当于在其前身aloha的基础上增加了移动底盘，即mobile aloha = aloha + mobile，至于前身ALOHA的更多信息详见下节)

由于其可以做各种家务，比如炒菜、刷碗等等，使得其一经发布便火爆全网

斯坦福家务机器人mobile-aloha

该系统用于模仿需要全身控制的双臂移动操作任务(In this work, we develop a systemfor imitating mobile manipulation tasks that are bi-manual and require whole-body control)

首先提出了Mobile ALOHA系统，作为低成本全身远程操作系统来收集数据(通过一个移动底座和一个全身远程操作界面增强了其前身ALOHA 系统)We first present Mobile ALOHA, a low-cost and whole-body teleoperation system for data collection. It augmentsthe ALOHA system [104] with a mobile base, and a whole-body teleoperation interface.
之后利用Mobile ALOHA 收集的示范数据(说白了，人类先做示范，然后机器人向人类学习)，进行有监督的行为克隆(behavioral cloning)，且和其前身ALOHA收集到的静态(示范)数据进行协同训练co-trainingUsing data col-lected with Mobile ALOHA, we then perform super-vised behavior cloning and find that co-training with existing static ALOHA datasets boosts performance on mobile manipulation tasks.
对于每个任务，只要用新平台采集的包含50条示范数据，然后结合前身ALOHA的静态示范数据，经过协同训练后成功率可达到90%，使得Mobile ALOHA能够自主完成复杂的移动操作任务，如炒虾、打开双门壁柜存放沉重的烹饪锅、呼叫并进入电梯以及使用厨房水龙头轻轻冲洗用过的平底锅。With 50 demonstra-tions for each task, co-training can increase successrates by up to 90%, allowing Mobile ALOHA to au-tonomously complete complex mobile manipulation tasks such as sauteing and serving a piece of shrimp,opening a two-door wall cabinet to store heavy cook-ing pots, calling and entering an elevator, and lightlyrinsing a used pan using a kitchen faucet.

4.1.2 Mobile ALOHA的前置工作：ALOHA与ACT

Mobile ALOHA其实是在23年ALOHA的工作基础上迭代优化出来的，不是一蹴而就，以下是关于ALOHA的一系列重要信息

ALOHA项目地址：https://tonyzhaozh.github.io/aloha/
论文地址：Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 这是其解读，论文中首次系统阐述了作为“无论是最新系统Mobile ALOHA还是其前身系统ALOHA中的关键技术”：即动作分块算法ACT
代码地址：https://github.com/tonyzhaozh/aloha*该代码仓库友情提醒： To build ALOHA, follow the Hardware Assembly Tutorial and the quick start guide below. To train imitation learning algorithms, you would also need to install ACT.*
硬件安装指南：ALOHA 🏖️ Tutorial (文档标题为：ALOHA 🏖️: A Low-cost Open-source Hardware for Bimanual Teleoperation)
基于动作分块算法ACT的训练代码：https://github.com/tonyzhaozh/act
关于ALOHA的更多信息，以及到底什么是ACT，请详见此文：《斯坦福机器人Mobile ALOHA的关键技术：动作分块ACT的算法原理与代码剖析》

4.2 Mobile ALOHA 硬件

4.2.1 Mobile ALOHA 硬件的总体情况

在此之前

能够即插即用的全身遥控硬件是比较昂贵的，比如像PR2、TIAGo这样的机器人价格一般超过20万美刀
且之前的机器人也没法完成复杂的需要双手互相配合的各种灵活操作，毕竟人类的十指多么灵活虽然最近的许多研究表明，在细粒度的多模态操作任务中，高表达能力的策略类方法(如扩散模型和Transformer)可以取得良好效果(While many recent works demon-strate that highly expressive policy classes such asdiffusion models and transformers can perform wellon fine-grained)，但目前尚不清楚这些方法是否适用于移动操作：随着附加自由度增加，手臂与基础动作之间的相互作用可能变得复杂，微小偏差可能导致手臂末端执行器姿态大幅漂移

而Mobile ALOHA 是一种低成本的移动机械手，可以执行各种家庭任务，其继承了原始 ALOHA 系统的优点，即低成本、灵巧、可维修的双臂远程操作装置，同时将其功能扩展到桌面操作之外，且重点做到了以下4点

移动能力：移动速度与人类行走速度相当，约为1.42m/s
稳定性：在操作重型家用物品(比如锅和橱柜)时它能保持稳定
全身遥控操作：手臂和底盘可以同时运动
无线：具有机载电源和计算设备(数据收集和推断期间的所有计算都是在配备了Nvidia 3070 Ti GPU (8GB VRAM)和Intel i7-12800H的消费级笔记本电脑上进行)

如上图所示

上图左侧部分(Mobile ALOHA has two wrist cameras and one top camera, with onboard power and compute) 展示了研究者发现将操作员的腰部与移动底座系在一起的设计是最简单直接的解决方案
上图中间部分(Middle: The teleoperation setup can be removed and only* two ViperX 300** [3] are used during autonomous execution. Both arms can reach a min/max height of 65cm/200cm, and extends 100cm from the base*)中的数据表明机械手相对于地面的垂直高度为 65 厘米至 200 厘米，可伸出底座 100 厘米，可举起 1.5 千克重的物体，并可在 1.5 米高处施加 100 牛的拉力这样的设计让 Mobile ALOHA 可以完成很多任务，包括实物烹饪、家务管理、人机互动等
上图右侧部分中列出了 Mobile ALOHA 的更多技术规格除了现成的机器人外，研究者还开源了所有的软件和硬件部件，并提供了详细的教程，包括三维打印、组装和软件安装

4.2.2 硬件材料清单与硬件制作步骤

首先，准备一系列硬件材料，比如

三个罗技C922x RGB的网络摄像头，分辨率为480 × 640，频率为50Hz(两个摄像头安装在跟随者机器人的手腕上，第三个摄像头面向前方)
笔记本电脑还通过USB串行端口接收来自所有4个手臂的本体感觉流，通过CAN总线接收来自移动的轮式底盘Tracer的本体感觉流

4.2.2.1 硬件材料清单Bill of Materials

Part

Quantity

Link

**Price **

(per unit)

Robots

从动臂ViperX 300 Robot Arm 6DOF

ViperX 300 Robot Arm 6DOF

$5,695.95

主动臂WidowX 250 Robot Arm 6DOF

WidowX 250 Robot Arm 6DOF - X-Series Robotic Arm

$3,295.95

移动的轮式底盘Tracer AGV

AgileX Tracer AGV

$8,999.95

Onboard Compute

**Lambda Labs Tensorbook **

Deep Learning Laptop - RTX 3080 Max-Q | Razer x Lambda Tensorbook

$2,399.00

Robot Frame

4040 800mm x 8

Amazon.com (2 pcs)

$42.29

4040 500mm x 6

Amazon.com (4 pcs)

$58.99

4040 400mm x 2

Amazon.com (1 pcs)

$22.99

4040 300mm x 7

Amazon.com (4 pcs)

$59.99

4040 L-shape connectors x 28

Amazon.com (6 pcs)

$32.99

4040 T-shape connectors x 4

Amazon.com (6 pcs)

$30.99

4040 45-degree corner connectors

**Amazon.com **

$21.99

4040 Corner Bracket and T-Slot Sliding Nuts

**Amazon.com **

$24.99

4040 caps

**Amazon.com **

$9.81

M6 20mm

(for mounting robot)

**Amazon.com **

$9.99

M6 T nuts for 4040

(for mounting robot)

**Amazon.com **

$14.16

Camera setup

相机Logitech C922x Pro Stream Webcam

Amazon.com

$98.35

USB Hub

Amazon.com

$19.99

Power

Battery Pack

**Amazon.com **

$699.00

600W DC Supply

**Amazon.com **

$59.00

12V DC Cable

**Amazon.com **

$15.99

Fork Spade Connectors

**Amazon.com **

$13.69

USB-A to Micro USB Cable

**Amazon.com **

$17.87

Wheel Odometry

DYNAMIXEL XL430-W250-T

**DYNAMIXEL XL430-W250-T - ROBOTIS **

$49.90

U2D2

**U2D2 - ROBOTIS **

$32.10

U2D2 Power Hub Board Set

**U2D2 Power Hub Board Set - ROBOTIS **

$19.00

Jumper Wire

**Amazon.com **

$9.99

Weights

**Amazon.com: ACCRETION 1 Oz Grey Adhesive Backed Wheel Weights (24 Oz Pack) : Automotive **

$14.65

Misc

Rubber Band

Amazon.com

$9.99

Gripping Tape

**Amazon.com **

$54.14

Common equipments

Allen keys

Hot glue gun

Total

$31,757.8

4.2.2.2 3D Printed Parts

对于人遥控端和机器操作端方面的执行器，请按照ALOHA的教程进行操作：ALOHA 🏖️ Tutorial。关于wheel odometry，以下是所需零件的清单(共6件)：

4.2.2.3 硬件安装指南Hardware Guide

硬件材料准备齐全后，按以下步骤一步步执行

Install ALOHA end-effectors 通过6个步骤打造ALOHA：ALOHA 🏖️ Tutorial，单纯打造这个还不具备移动功能的ALOHA便得花费3万刀中的1.9万刀
Build the robot frame
Mount the robots and the cameras
Cable connections

4.3 增加静态ALOHA 数据进行Co-training

4.3.1 静态ALOHA 数据的组成情况

对于机器人的训练，数据是一个很大的问题

使用模仿学习(imitation learning)来解决现实世界机器人任务的典型方法依赖于在特定机器人硬件平台上收集的目标任务数据集。然而，这种方法虽够但数据本身收集的过程过于冗长，因为在特定机器人硬件平台上，人类操作员需要从头开始为每个任务收集演示数据The typical approach for using imitation learning to solve real-world robotics tasks relies on using thedatasets that are collected on a specific robot hard-ware platform for a targeted task. This straightfor-ward approach, however, suffers from lengthy datacollection processes where human operators collect demonstration data from scratch for every task onthe a specific robot hardware platform. 且由于这些专门数据集中视觉差异有限，在这些数据集上训练得到的策略通常对感知干扰(如干扰和照明变化)不够鲁棒The policie strained on these specialized datasets are often not ro-bust to the perceptual perturbations (e.g. distractorsand lighting changes) due to the limited visual diver-sity in these datasets [95]
好在最近，在从不同但类似类型的机器人收集的各种真实数据集上进行co-training，在单臂操作和导航方面已经显示出了有希望的结果Recently, co-training ondiverse real-world datasets collected from different but similar types of robots have shown promising results on single-arm manipulation [11, 20, 31, 61],and on navigation [79].

斯坦福的研究者在这项工作中便使用的Co-training，且利用现有的静态ALOHA 数据集来提高移动操作的模仿学习性能，尤其是双臂动作

不含移动底盘的前身ALOHA收集到的静态数据集总共有 825 个示范动作，任务包括密封密封袋、拿起叉子、包装糖果、撕纸巾、打开带盖塑料瓶、玩乒乓球、分发胶带、使用咖啡机、交接铅笔和操作螺丝刀等需要注意的是，静态ALOHA 数据都是在黑色桌面上收集的，主动臂和从动臂都是固定在桌面上朝着对方(更多详见此文《斯坦福Mobile ALOHA的关键技术：动作分块ACT的算法原理、代码剖析、部署实践》) 这种设置与移动 ALOHA 不同，移动 ALOHA 的背景会随着移动底盘的变化而变化，主动臂和从动臂的两臂均平行朝着前方
在Co-training中，研究者没有对静态ALOHA 数据中的 RGB 观察结果或双臂动作使用任何特殊的数据处理技术

4.3.2 基于两套数据(静态ALOHA示范数据和移动ALOHA示范数据)训练损失函数

任务 $m$ 的移动操作策略 $\pi^{m}$ 的训练目标是最小化模拟损失函数 $L$

![\begin{array}{l} \mathbb{E}{\left(o^{i}, a{\text {arms }}^{i}, a_{\text {base }}^{i}\right) \sim D_{\text {mobile }}^{m}}\left[L\left(a_{\text {arms }}^{i}, a_{\text {base }}^{i}, \pi^{m}\left(o^{i}\right)\right)\right]+ \mathbb{E}{\left(o^{i}, a{\text {arms }}^{i}\right) \sim D_{\text {static }}}\left[L\left(a_{\text {arms }}^{i},[0,0], \pi^{m}\left(o^{i}\right)\right)\right] \end{array}](https://latex.csdn.net/eq?%5Cbegin%7Barray%7D%7Bl%7D%20%5Cmathbb%7BE%7D_%7B%5Cleft%28o%5E%7Bi%7D%2C%20a_%7B%5Ctext%20%7Barms%20%7D%7D%5E%7Bi%7D%2C%20a_%7B%5Ctext%20%7Bbase%20%7D%7D%5E%7Bi%7D%5Cright%29%20%5Csim%20D_%7B%5Ctext%20%7Bmobile%20%7D%7D%5E%7Bm%7D%7D%5Cleft%5BL%5Cleft%28a_%7B%5Ctext%20%7Barms%20%7D%7D%5E%7Bi%7D%2C%20a_%7B%5Ctext%20%7Bbase%20%7D%7D%5E%7Bi%7D%2C%20%5Cpi%5E%7Bm%7D%5Cleft%28o%5E%7Bi%7D%5Cright%29%5Cright%29%5Cright%5D+%20%5Cmathbb%7BE%7D_%7B%5Cleft%28o%5E%7Bi%7D%2C%20a_%7B%5Ctext%20%7Barms%20%7D%7D%5E%7Bi%7D%5Cright%29%20%5Csim%20D_%7B%5Ctext%20%7Bstatic%20%7D%7D%7D%5Cleft%5BL%5Cleft%28a_%7B%5Ctext%20%7Barms%20%7D%7D%5E%7Bi%7D%2C%5B0%2C0%5D%2C%20%5Cpi%5E%7Bm%7D%5Cleft%28o%5E%7Bi%7D%5Cright%29%5Cright%29%5Cright%5D%20%5Cend%7Barray%7D)

其中 $o^{i}$ 表示观察结果，包括两个手腕摄像头RGB(two wrist camera RGB observations)的、一个安装在手臂和手臂关节之间、以自我为中心的顶部摄像头RGB观察(top camera RGB observation mounted，其固定不动)，和14维的从臂关节位置，如下图左上角所示

我们以相同概率从静态ALOHA数据 $D_{\text {static }}$ 和移动ALOHA数据 $D_{\text {mobile }}^{m}$ 中进行抽样(两者占比其实影响不大，比如 $D_{\text {static }}$ 如果占比30%或50%，则成功率都最终能达到95%，当然如果 $D_{\text {static }}$ 占比70%，则成功率最终能达到90%)，并将批量大小设置为16

由于静态ALOHA数据没有移动基本动作，我们对动作标签进行零填充处理(zero-padding)，使得来自两个数据集的动作具有相同维度，我们还忽略了静态ALOHA数据中的前置摄像头，因此两个数据集都有3个摄像头Since static ALOHA datapoints have no mobile base actions, we zero-pad the action labels so actions from both datasets have the same dimension.We also ignore the front camera in the static ALOHA data so that both datasets have 3 cameras.
同时，我们仅根据移动ALOHA数据集 $D_{\text {mobile }}^{m}$ 的统计信息对每个动作进行标准化处理We normalize every action based on the statistics of the Mobile ALOHA dataset Dm mobile alone
在实验中，我们将这种协同训练方法与多种基本模仿学习方法(如ACT [Learning fine-grained bimanual manipulation with low-cost hardware]、扩散策略[Diffusion policy: Visuomotor policy learning via action diffusion]和VINN [The surprising effectiveness of representation learning for visual imitation])结合使用 In our experiments, we combine this* co-training** recipe with multiple base imitation learning approaches, including ACT [104], Diffusion Policy [18], and VINN [63]*

再次提醒，关于ACT的技术细节包括其代码实现，详见此文《斯坦福机器人Mobile ALOHA的关键技术：动作分块ACT的算法原理与代码剖析》，讲得非常细致

最终该团队选择了 7 个任务，它们涵盖了现实应用中可能出现的各种功能、对象和交互，分别是擦拭葡萄酒、煮虾、冲洗锅、使用橱柜、呼叫电梯、推椅子和击掌

下图则是机器人在执行任务时的导航移动轨迹

4.4 实验：协同训练是否有效提升ACT性能，且适合兼容多种模仿学习方法

在实验中回答两个核心问题：

移动ALOHA是否能够通过协同训练co-training和少量移动操作数据来获得复杂的移动操作技能？Can Mobile ALOHA acquire complex mobile manipulation skills with co-training and a small amount of mobile manipulation data?
移动ALOHA是否能够与不同类型的模仿学习方法一起工作，包括ACT、扩散策略和基于检索的VINN？Can Mobile ALOHA work with different types of imita-tion learning methods, including ACT [104], Diffu-sion Policy [18], and retrieval-based VINN [63]?

作为初步研究，我们将使用“动作分块”[action chunking]这种方法，在该方法中一个策略预测未来一系列动作，而不是每个时间步只预测一个动作。这种方法已经被应用于ACT和扩散策略，并且可以简单地添加到VINN中(As a preliminary, all methods we will examine em-ploy “action chunking” [104], where a policy predictsa sequence of future actions instead of one action ateach time step)

采用动作分块对于操作至关重要，它提高了生成轨迹的一致性，并减少了逐步策略推断所带来的延迟We found action chunking to be crucial formanipulation, improving the coherence of generated trajectory and reducing the latency from per-steppolicy inference.
我们观察到移动基座目标速度与实际速度之间存在延迟，而位置控制手臂则具有更小的延迟。为了解释移动基座d步骤上出现的延迟情况，我们使机器人执行长度为k-d 的第一个k-d 手臂行为以及最后一个k-d 基座行为We observe a delay between target and actual veloc-ities of our mobile base, while the delay for position-controlled arms is much smaller. To account for adelay of d steps of the mobile base, our robot exe-cutes the first k −d arm actions and last k −d baseactions of an action chunk of length k.

4.4.1 协同训练提高了性能且比预训练效果更好

研究发现，Co-training可以提高ACT性能。在7项具有挑战性的移动操作任务中，与静态ALOHA数据集进行Co-training可持续提高ACT的成功率

比如协同训练在擦拭酒的任务中的表现，成功率95%，大大优于预训练的成功率40% 在预训练过程中，作者首先用static ALOHA的数据训练了10k步，然后用mobile ALOHA的数据继续训练作者发现预训练的方式并没有提高模型的表现，猜测模型可能在使用mobile ALOHA数据进行微调的阶段已经忘记了在static ALOHA上学到的知识
那为何协同训练可以提高效果呢？作者认为，static ALOHA数据中关于抓取和接近物体的运动先验知识对训练mobile ALOHA的模型有很大帮助，尤其是其中腕部视角是具有不变性的，对场景的变换有较强的抗干扰能力

4.4.2 兼容ACT、扩散策略和VINN

除了ACT，还使用Mobile ALOHA训练了两种最新的模仿学习方法，即扩散策略[18]和VINN[63](*We train two recent imitation learning methods,Diffusion Policy [18] and VINN [63], with Mobile ALOHA in addition to ACT.*)

扩散策略通过逐步细化动作预测来训练神经网络。为提高推理速度，采用DDIM调度器并对图像观测应用数据增强以防止过拟合。co-training数据管道与ACT相同，在附录A中有更多的训练细节可供参考Diffusion policy trains aneural network to gradually refine the action predic-tion. We use the DDIM scheduler [85] to improve in-ference speed, and apply data augmentation to image observations to prevent overfitting. The co-training data pipeline is the same as ACT, and we includemore training details in the Appendix A.3.
VINN利用BYOL[Bootstrap your own latenta new approach to self-supervised learning]训练一个视觉表示模型(简单地用移动和静态数据的组合对BYOL编码器进行co-training)，并使用该模型从具有最近邻演示数据集中检索动作。且采用本体感知特征增强VINN检索，并调整相对权重以平衡视觉和本体感知特征的重要性VINN trains a visual representation model, BYOL [37] anduses it to retrieve actions from the demonstrationdataset with nearest neighbors. We augment VINNretrieval with proprioception features and tune therelative weight to balance visual and proprioceptionfeature importance 此外，进行了动作块的检索而非单个动作，并发现类似于Zhao等人的显著性能改进We also retrieve an action chunkinstead of a single action and find significant per-formance improvement similar to Zhao et al.. For

总之，带分块的VINN、扩散策略和ACT在Mobile ALOHA上都取得了良好的性能，并且受益于与静态ALOHA的协同训练Co-training

当然，在协同训练Co-training的过程中

ACT的表现最好
diffusion policy略差虽然它的模型表达能力比较强，但作者认为，50条的示教数据量可能不够
VINN最差比如对于VINN+擦红酒任务，Co-training的表现比起单独训练反而变差了，作者认为，这是由于VINN算法本身没有办法利用测试(应用)场景分布之外的数据(一种在测试时寻找训练集中nearest neighbour的方法），static ALOHA的数据对于VINN来讲就可能没那么有效

最终，仅用32000美元的预算，通过静态ALOHA数据Co-training的模仿学习，Mobile ALOHA只需要20-50个演示就能学会各种复杂的任务

斯坦福Mobile ALOHA向所有人展示了机器人在各种应用场景的潜力，甚至机器人开源实现了人人可复刻

第五部分 Google家务机器人

// 待更

参考文献与推荐阅读

李飞飞「具身智能」新成果！机器人接入大模型直接听懂人话，0预训练就能完成复杂指令 VoxPoser论文一作在Twitter上发的关于VoxPoser的视频：https://twitter.com/wenlong_huang/status/1677375515811016704
谷歌AGI机器人大招！54人天团憋7个月，强泛化强推理，DeepMind和谷歌大脑合并后新成果
斯坦福炒虾机器人爆火全网！华人团队成本22万元，能做满汉全席还会洗碗，新智元发的新闻稿
斯坦福开源的机器人厨子，今天又接手了所有家务，机器之心发的新闻稿
关于Google家务机器人的报道谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人，量子位谷歌家务机器人单挑斯坦福炒虾机器人！端茶倒水逗猫，连甩三连弹开打，新智元大模型正在重构机器人，谷歌Deepmind这样定义具身智能的未来，机器之心
ALOHA续作：Mobile ALOHA阅读笔记
..

标签：大模型机器人 Google RT2 Berkeley Gello

本文转载自: https://blog.csdn.net/v_JULY_v/article/details/135429156
版权归原作者 v_JULY_v 所有，如有侵权，请联系我们删除。

大模型机器人发展史：从VoxPoser、RT2到斯坦福Mobile ALOHA、Google机器人

前言

第一部分李飞飞团队：具身智能

1.1 机器人对从没见过的任务也能一次执行且不需要示范

1.2 VoxPoser：大模型指导机器人如何与环境进行交互

1.2.1 3D Value Map：既标记了“在哪里行动”，也标记了“如何行动”

1.2.2 将指令拆解成很多子任务 + 规划路径

第二部分 Google的RT-2

第三部分

第四部分斯坦福机器人Mobile ALOHA：炒菜、家务全活了

4.1 Mobile ALOHA与其前身ALOHA

4.1.1 Mobile ALOHA：通过示范数据做行为克隆，更结合前身ALOHA的静态数据做协同训练

4.1.2 Mobile ALOHA的前置工作：ALOHA与ACT

4.2 Mobile ALOHA 硬件

4.2.1 Mobile ALOHA 硬件的总体情况

4.2.2 硬件材料清单与硬件制作步骤

4.2.2.1 硬件材料清单Bill of Materials

4.2.2.2 3D Printed Parts

4.2.2.3 硬件安装指南Hardware Guide

4.3 增加静态ALOHA 数据进行Co-training

4.3.1 静态ALOHA 数据的组成情况

4.3.2 基于两套数据(静态ALOHA示范数据和移动ALOHA示范数据)训练损失函数

4.4 实验：协同训练是否有效提升ACT性能，且适合兼容多种模仿学习方法

4.4.1 协同训练提高了性能且比预训练效果更好

4.4.2 兼容ACT、扩散策略和VINN

第五部分 Google家务机器人

参考文献与推荐阅读

发表评论