论文地址
标题:Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
论文地址:https://arxiv.org/pdf/2303.04137.pdf
项目地址:https://diffusion-policy.cs.columbia.edu
单位:哥伦比亚大学
创新点
引入
扩散模型
(duffision model),输入一段
观测序列
,输出未来一段时间的
行为序列
,在机器人操作数据集上学习,即模仿学习或监督学习。相比于现在常用的模仿学习方法LSTM-GMM、IBC(Implicit behavioral cloning)、BET(Behavior transformers),在多个仿真和真实实验上
提升约46.9%
,在多个真实实验中与人类水平相近,方法结构如下:
采用CNN结构和Transformer架构分别构建了扩散模型,观测序列是图像或状态向量。
相比于以前的方法,该方法主要有以下提升:
- 处理多峰action分布。由于扩散模型在噪声中采样初始action,并在后续优化过程中增加了高斯扰动,使其能够不陷入局部最优。
- 高维连续行为输出。扩散模型天生就能输出高维信息。
- 训练稳定。以前的模仿学习方法大多采用
类对比学习损失
来优化基于能量的模型,其中负样本采样过程的不精确导致训练不稳定,扩散模型绕过了负样本采样过程,直接预测输出信息的梯度(即噪声,扩散模型不太熟,梯度和噪声有什么关系?)
除此之外,作者引入以下技术来发挥扩散模型的潜在能力:
- 引入receding-horizon control实现闭环规划。
- 直接输入视觉信息,通过视觉编码器提取特征,与扩散模型进行端到端训练。
- 针对CNN模型过于平滑的问题,构建Time-series diffusion transformer来处理需要高频行为变化的任务。
更详细的信息请看论文和网站。
总结
机器人操作领域发论文的热点又来了。
扩散模型大概率很难和强化学习结合,因为强化学习需要网络足够小从而在每次更新的很短时间内收敛,不过基于扩散模型的动力学模型可以试试。
版权归原作者 千羽QY 所有, 如有侵权,请联系我们删除。