机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 175|回复: 0

机器人模仿学习的困境

[复制链接]

2万

主题

2万

帖子

19万

积分

超级版主

Rank: 8Rank: 8

积分
193739
发表于 2025-9-19 10:11:36 | 显示全部楼层 |阅读模式
具身智能(Embodied AI)作为人工智能领域的前沿方向,旨在赋予机器人或智能体在物理世界中感知、决策和行动的能力。近年来,尽管视觉 - 语言 - 动作模型(Vision Language Action, VLA)已经取得了诸多进展,但具身智能领域尚未迎来 「GPT 时刻」。越来越多的研究人员开始相信,仅仅增加模型规模和数据量似乎不足以创造出通用操作模型,如果我们想要充分释放现有数据的潜力,就需要找到更有效的机器人操作建模方法。

来自字节跳动 Seed & 阿德莱德大学的研究者追根溯源,对模仿学习的基本范式进行了反思,发现现有建模思路或许存在缺陷:经典方法如 ACT、Diffusion Policy(DP)都遵循 「前向预测」(forward-prediction)范式。而然这种方式不可避免地存在较大的复合误差(compounding error)。
在该范式下,策略通常被优化为基于当前观察预测短期的下一步动作,而非确保最终能够成功完成整个任务。虽然引入了动作分块(action chunking)等策略来缓解复合误差,但无法解决其固有的 「短视性」问题。

基于该局限,研究者提出了 「动作链」(Chain-of-Action, CoA)—— 一种基于轨迹自回归的机器人操作策略。与经典范式区分,CoA 并不直接由观察映射到执行动作,而是由从最终位置反向自回归的生成轨迹点,推理出可执行的动作。研究团队初步发现,仅仅通过修改建模方式,CoA 在与 ACT 保持相同的基本结构下,空间泛化能力显著提升。这种建模方式为具身操作策略的建模提供了新的思路。
视频链接:
https://mp.weixin.qq.com/s/fJXWvpC1s_2FkoUYhnmTCg
论文标题:Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation
主页链接:https://chain-of-action.github.io/
文章链接:https://arxiv.org/pdf/2506.09990
代码链接:https://github.com/ByteDance-Seed/Chain-of-Action

核心思想:受到思维链(Chain-of-Thought)的启发,CoA 并不直接由观察映射到执行动作,而是在动作层面进行迭代式的推理。具体来说,CoA 逆向的生成针对目标任务的完整轨迹,这个生成过程统一在一个自回归网络下。自回归过程从 「关键帧动作」(keyframe action)开始,迭代地生成一连串完整的动作轨迹,直至当前的机器人夹爪的位置。这种 「从后往前」 的生成方式,为整个动作序列提供了的 「全局 - 局部」(global-to-local)结构性约束。因为每个后续生成的动作都以代表最终目标的 「关键帧」 为条件,所以最后执行的动作将会被最终目标所 「锚定」,空间泛化能力显著得到增强。
传统的时序集成策略基于前向时间假设,不适用于 CoA 的反向生成模式。CoA 通过反向时序集成,进一步提高预测的稳定性。

在涵盖 60 个任务的 RLBench 大规模拟基准测试中,CoA 的平均成功率达到了 55.2%,显著优于 ACT(38.9%)和 DP(32.6%)。相较于 ACT,CoA 在 81.7% 的任务中取得了更高的成功率,平均提升了 16.3%。相较于 DP,CoA 在 80.0% 的任务上表现更优,平均提升为 23.2%。
研究者在一台 Fetch 机器人上,围绕 8 项厨房任务进行了部署和测试。观察来自单个 RGB 摄像头,策略以 10Hz 的频率运行,每个任务测试 10 次。实验结果显示 CoA 取得了 61.3% 的平均成功率,ACT 成功率为 46.3%,DP 的成功率 36.3%。这验证了 CoA 建模范式在真实世界中的可用性。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-10-9 14:16 , Processed in 0.082380 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表