首获AAAI杰出论文奖,这个具身团队让机器人学会像人一样凝视目标
想象这样一个场景:一个机器人面前的首获视目桌上摆着一堆物体,其中包含红色积木和蓝色积木,杰出奖个具身此时,论文如果给出让它“把红色积木叠到蓝色积木上”的团队指令,它是让机否能顺利执行?
![]()
(来源:Nano Banana Pro)
对人类来说,这个任务听起来十分简单。器人因为你需要做的学会像人只是眼睛盯着红色积木,伸手拿起,样凝然后锁定蓝色积木,首获视目放到上面就大功告成。杰出奖个具身但对当前大多数机器人而言,论文事情并非如此。团队在很多时候,让机机器人的器人任务成功率并不稳定,它有可能径直去操纵其他物体,学会像人而非目标物体。
为什么如此简单的任务,对于机器人来说却无法稳定完成呢?
这是由于当前主流的 VLA 模型(Vision-Language-Action Model,视觉-语言-动作模型)在执行抓取任务时,视觉注意力往往呈弥散分布。也就是说,模型虽能输出动作序列,但其内部注意力并未真正聚焦于指令所指的目标物体(如红色积木),而是分散在图像多个区域。
这种注意力错位直接导致机器人的操作失误,例如容易抓取错误物体,或在多物体环境中定位不准。
为了解决这一问题,来自香港科技大学(广州)与西湖大学等高校的一支联合研究团队,在对主流 VLA 模型进行系统分析后,提出了 ReconVLA(重建式视觉-语言-动作模型)。
在这个模型中,他们创新性地引入了一种名为"隐式定位"(Implicit Grounding)的训练范式。不在推理阶段额外加模块,不输出边界框,而是在训练过程中,通过让模型重建目标操作区域的图像,迫使它在视觉编码阶段就把注意力集中到正确的地方。
![]()
图 | 团队论文(来源:arXiv)
据悉,该工作于上月荣获 AAAI 国际先进人工智能协会 2026 的杰出论文奖(Outstanding Paper Award)。
论文第一作者宋文轩告诉 DeepTech,当前 VLA 模型的主流架构,通常以一个预训练好的 VLM 为主干,再接上一个动作生成头(action head),用来输出机器人的控制信号。这个架构里,VLM 负责“看”和“理解”,动作头负责“做”。
![]()
图 | 宋文轩 (来源:被访者)
问题在于,VLM 最初是为图像理解和对话任务设计的,它学到的视觉表征(visual representation)侧重语义层面。比如识别一张图里有什么东西、它们之间的关系。但对机器人操控来说,真正重要的不只是“图里有什么”,而是“我该去操作哪里”,这涉及到操作可供性(affordance)的感知,是一种 VLM 原生训练目标中并不包含的能力。
另一位团队核心成员之一丁鹏翔补充,通用视觉模型和具身控制任务之间存在显著的领域差异(domain gap)。即便 VLM 在图像理解上极为强大,它也未必能自然迁移到机器人场景。这种能力缺失直接表现为视觉注意力的高度弥散。
![]()
图 | 丁鹏翔 (来源:受访者)
在简单场景下,注意力分散或许影响不大。如果桌上只有一个物体,就算注意力散一点,模型也大概率能抓对。但一旦场景变得杂乱,比如桌面上摆了五六样东西,麻烦就来了。
团队实验表明,此时,“模型往往看到物体就抓”。只要腕部相机视野中出现可抓取目标,模型就倾向于执行抓取动作,至于抓的是不是人类期望的那个,它并不总是关心。抓取动作的成功率可能很高,但抓取的正确率则是另一回事。这说明模型完成了动作层面的任务,却没有与人类意图对齐(intent alignment)。
另一个更隐蔽问题出现在长程任务(long-horizon task)中。所谓长程任务,就是需要多个步骤依次完成的操作链。因为即使每一步哪怕只有微小偏差,误差会逐步累积,到后面几步时,系统状态可能已经偏离了训练数据的分布。丁鹏翔举了一个直观的数字:即便单步成功率高达 99%,连续执行 100 步后的整体成功率也只剩约 36.6%。
那么,“隐式定位”到底是什么意思?具体又该如何实现?丁鹏翔给了 DeepTech 类比:人类在执行精细操作时,虽然看到的是整个场景,但真正聚焦的只有一小片区域。如果指令是“拿杯子”,哪怕桌上放了十样东西,人类的视觉焦点会自动锁定在杯子上,周围的一切都变得模糊。这种行为在视觉科学中叫做“凝视”(gaze)。
ReconVLA 借鉴了这一机制。在训练阶段,除了常规的动作预测损失之外,模型还需要完成一个辅助任务:重建当前图像中与操作目标对应的区域,即所谓的“凝视区域”(gaze region)。
![]()
(来源:论文)
具体来说,模型的视觉输出 token(称为"重建 token",reconstructive token)会被输入到一个轻量级的扩散变压器(diffusion transformer)中,该扩散模块的目标是从噪声中恢复出凝视区域的视觉特征。如果模型在编码阶段没有把注意力放在目标区域上,它输出的重建 token 就不会包含足够的细粒度信息,扩散模块就无法完成重建,损失函数就会惩罚它。
这形成了一个流畅的反馈回路:想要完成重建 → 必须关注目标 → 关注目标后视觉表征更精确 → 动作预测更准。整个过程中,没有任何显式的边界框输出,也没有外部检测模型参与推理。重建模块只在训练时存在,推理时被完全移除。这意味着 ReconVLA 在部署阶段的推理速度与常规 VLA 模型完全一致,不引入任何额外延迟。
这和此前的视觉定位方法有什么不同?
此前,视觉定位主要依赖于两种范式。一种是"显式定位"(Explicit Grounding),比如 RoboGround 和 VIP 等工作,它们使用外部检测模型(如 YOLO 或 LISA)先把目标物体裁剪出来,再把裁剪图像和原图一起输入 VLA。这种方法确实提供了更聚焦的视觉信息,但它依赖外部模型的精度,且两张图像的简单拼接引入了信息冗余。
另一种是"思维链定位"(CoT Grounding),如 ECoT 和 GraspVLA,让模型先输出目标的边界框坐标,再输出动作。这种方式在理论上很漂亮,但实验结果显示它甚至不如基线。在 CALVIN 基准测试中,CoT 方式的 5 步连续任务成功率几乎为零。原因可能在于,坐标形式的定位信息对 VLA 模型来说并不是一种高效的引导信号,同时要输出精确坐标和精确动作值,给训练带来了额外负担。
![]()
图 | 不同范式之间的概念比较(来源:论文)
相比之下,ReconVLA 的隐式定位在同一基准上取得了最高成绩。
在 CALVIN ABC→D 测试(要求模型在未见过的环境 D 中执行 5 步连续任务)中,ReconVLA 在第 5 个子任务上达到了 64.1% 的成功率,而基线模型为 49.0%,显式定位方法为 50.2%,提升约 15 个百分点。在更具挑战性的精细操作任务"积木堆叠"(stack block)中,基线成功率仅 59.3%,ReconVLA 达到 79.5%,提升超过 20 个百分点。
![]()
图 | 不同范式之间的测试分数对比(来源:论文)
为了让重建能力具备泛化性,团队还构建了一个大规模预训练数据集,包含超过 10 万条机器人操作轨迹和 200 万个数据样本。数据来源包括开源的 BridgeData V2 以及 LIBERO、CALVIN 两个仿真环境数据集。
凝视区域的标注借助了 Grounding DINO 这一开放词汇检测模型(open-vocabulary detector),大部分数据可以通过零样本(zero-shot)方式直接标注,对于机器人场景中一些较为罕见或复杂的物体,团队则进行了定制化微调。消融实验证实,预训练阶段对泛化能力的提升是显著的。移除预训练后,5 步连续任务的最终成功率从 64.1% 下降至 58.2%。
真实世界的实验进一步验证了这一方法的可行性。
团队使用一台 6 自由度的 AgileX PiPer 机械臂,配合两个深度相机(分别作为基座视角和手部视角),在四个代表性任务上进行了测试:将水果放入碗中、叠碗、翻杯子、整理桌面。在每个任务中,ReconVLA 都取得了最高成功率。
特别值得注意的是在“未见物体”(unseen objects)的测试中,当目标物体不在训练数据中时,对比方法 OpenVLA 和 PD-VLA 的成功率接近零,而 ReconVLA 仍能成功定位目标并完成操作,展现出其视觉泛化能力。
![]()
图 | 四个代表性任务的真实世界设置(来源:论文)
当然,任何方法都不是完美的。宋文轩向 DeepTech 坦言,ReconVLA 的主要额外成本在训练阶段——引入重建目标意味着更多的计算开销,尽管团队已经对扩散模块做了轻量化设计来控制这部分消耗。丁鹏翔指出了另一层局限:当前建模仍然主要基于二维视觉空间,在需要深度信息和三维几何约束的高精度任务中,即便二维定位更加精确,空间操作精度仍然可能受限。
团队透露,他们已在后续工作中开始探索三维感知建模(3D-aware modeling),相关成果已提交至近期的学术会议。此外,力觉感知和力控信号等多模态信息目前也尚未纳入框架,但从方法结构上看,这些模态完全可以通过同样的隐式建模机制整合进来。
谈到具身智能的落地前景,丁鹏翔的看法颇为务实。他认为 VLA 不必急于落地到某一个具体的垂直场景才算有价值。类比早期的 ChatGPT,GPT-3 发布时并没有立即嵌入某个特定行业流程,但它显著改变了写作和内容创作的效率。
VLA 的价值可能也会经历类似的“两步走”。第一步是降低部署成本。过去每个工厂任务都需要独立建模,如果有一个足够强的基础模型,企业只需少量微调就能完成适配;第二步才是结合 Agent 系统构建具体场景的闭环工作流。
他还补充说,他们曾将经过通用训练的模型部署到实际工业环境中测试拧螺丝、插接零部件等任务,结果显示只要基座模型足够稳定,下游任务性能就会显著提升。他认为短中期更具潜力的场景包括半结构化工业装配、轻工业精细操作以及商业服务机器人(如饮品制作)。这些场景的共同特点是操作链条明确、精度要求高、对重复性稳定性有刚需。
除研究外,这支团队还共同创建了一个名为 OpenHelix 的开源社区,目前已持续开源十余个项目,累计获得约 3,600 个 GitHub 星标。在资源有限的条件下,他们选择了一条"高效与聚焦"的路线。不追求数百张 GPU 的大规模训练和高度工程化的演示,而是专注于具有方法论洞见的研究方向。
他们相信,只有通过开放共享,研究成果才能真正落地到更多从业者手中。除了 ReconVLA 的后续迭代,团队还在推进触觉与力反馈、双臂协作等方向的研究,目标是拓宽 VLA 的能力边界,而不仅仅停留在单一展示型应用上。
https://arxiv.org/html/2508.10333v1
运营/排版:何晨龙
-
亚洲排名跌至第11名,面对日本队的尊严之战,中国男篮必须拿下 -
中国农业转型路径已见端倪 生态型农业走向现实 -
精品短剧集《奇迹》:一束束微光聚集在一起,就能照亮世界 -
四川省投资集团公司原副董事长赵德胜被移送司法 -
曝超级外援有望重返CBA!曾单场狂砍43+9,山东、北京或全力争抢 -
山东省居民平均工资在5万元以下 全国处第三梯队 -
“永不失联的爱”!一镜到底看四十不惑的“广州110” -
最高法对外公布《中国法院的司法公开》白皮书 -
争议!俄罗斯选手在冬奥会上未收到1万元的三星手机 疑遭区别对待 -
国土部:争取2015年底前颁布统一的登记簿册和证书 -
动画电影何以扛起中国电影市场的票房大旗 -
中国2月进出口总值1.7万亿 同比增长11.3%
最新更新
推荐阅读
- 意甲中场税前年薪前10:巴雷拉1200万第1,丁丁、恰20并列第二
- 2014年中国出境游超一亿人次 入境旅游2636万人次
- 教育部:直属高校应设立独立内部审计部门
- 外交部:不接受日方删除钓鱼岛网站英日文版要求
- 喜讯!这位新外援加盟将让朱鹏宇更上一层楼,球迷都为此点赞叫好
- 银行收紧房贷影响扩大 北京首套房贷款利率基本无折扣
- 外交部:不接受日方删除钓鱼岛网站英日文版要求
- 精品短剧集《奇迹》:一束束微光聚集在一起,就能照亮世界
- 《科学》证实:熬夜,其实是大脑在“吃屎”!
- 上海组建全国首支成建制特种机动队 驾黑色警车巡逻
- 教育部:96%以上的中小学校实现挂牌督导
- 教育部:直属高校应设立独立内部审计部门
猜你喜欢
- 喜讯!国足下期集训有望迎来全新后腰双子星上位,能力已得到认可
- 2014年全国房地产市场低迷 用地同比下降25.5%
- 证监会:股票发行注册制改革方案完成初稿 上报国务院
- 农业部长:农村土地承包经营权确权登记不搞一刀切
- 申花门将位置或迎来久违强援上位!中超首战就有望登场,值得期待
- 国内成品油价格2月10日零点上涨 90号汽油每升涨0.21元
- 2014年中国黄金产量451.8吨 连续8年全球第一
- 2025年全国微短剧月产量达3000部以上 你看过哪些?
- 哈登16分9助,骑士28分大胜!全队7人上双,最强五虎表现超预期
- 央行降息楼市股市受益 实体贷款利率仍难降
- 李劭强:个税起征点应考虑中低收入者基本生活
- 青海省省长郝鹏:做好城镇规划建设 提高管理水平

休闲
焦点
综合
热点
探索
娱乐
百科
知识
网站首页