英伟达给机器人装上龙虾大脑!具身智能的Harness来了

张开发
2026/4/3 14:24:40 15 分钟阅读
英伟达给机器人装上龙虾大脑!具身智能的Harness来了
henry 发自 凹非寺量子位 | 公众号 QbitAIHarness驾驭的风终究还是从大模型吹到了机器人刚刚英伟达开源了一个全新的机器人操控框架——CaP-X。基于这一框架机器人能盯着摄像头看懂环境然后现场写一段Python代码来控制自己。关键这还不是一次性的。如果某段代码成功完成任务它会被自动存进技能库而且适用于不同本体、形态的机器人系统。是不是很像龙虾的Skill最离谱的是这一框架还能把具身大模型比如VLA当作API来用直接一个大脑harness各类小脑感知与控制。在实测表现中基于这一框架打造的CaP-Agent0在7项核心任务中有4项成功率追平甚至超过人类专家手写程序。即便面对OpenVLA、Pi系列等基于预训练的端到端大模型CaP-X这种“靠逻辑取胜”的方案也展现出了旗鼓相当、甚至更领先的性能。英伟达机器人总管Jim Fan直接下结论智能体机器人Agentic robotics的时代来了如果说Harness之于大模型是把引擎装进一辆车那么CaP-X之于机器人就是让这台引擎学会了根据路况自己写驱动程序并随时给自己升级“代码外挂”。这一框架的发布标志着机器人领域正式迎来了属于自己的“Harness”时代。对此UCB教授Ken Goldberg评论道对机器人「代码即策略」CaP的前景感到非常兴奋从“人工脚手架”到“代码即策略”要理解CaP-X在做什么咱们先简单回顾一下当前机器人控制的主流做法。在传统的机器人控制中工程师得逐行编写感知、规划和反馈逻辑比如经典的TAMP框架也就是所谓的Human-in-the-loop人工干预。这种方法虽然精准透明但泛化性极差——经常是“换个杯子代码重写”。后来受到大模型Scaling Law的启发机器人领域开始采用基于数据驱动范式的、端到端的视觉-语言-动作VLA模型。在过去的一年里VLA 架构视觉-语言-动作战绩斐然机器人开始能叠衣服、干杂活。但问题在于VLA是个“黑盒”一旦出错很难调试而且遇到新任务还得重新收集数据训练。也就在最近受到龙虾OpenClaw、Claude code等一系列编程智能体进展的启发。研究人员开始思考能否用Gemini、GPT这样的大模型来替代传统控制中工程师的角色用Python代码直接调用机器人的接口而这就是CaP-X产生的背景它让大模型从“发号施令的指挥官”变成了“能写代码的程序员”。更进一步在CaP-X框架里连VLA策略也只是一个可以被随时调用的 API。简单来说以往的VLA是机器人的“全脑”从看图像到动手指全靠它。但在CaP-X里VLA变成了代码里的一行函数。比如当机器人需要“把盖子拧开”这种极高频、重手感的精细活时编程智能体不再自己写复杂的几何坐标而是直接调用VLA让VLA来执行精细的复杂操作。就这样CaP-X用通用的编程智能体取代了人类工程师配齐了全套的感知和驱动接口甚至能在干活的过程中自动合成技能库调用专攻操作的具身模型。接下来我们具体来看。具身智能的HarnessCaP-X本质上不是一个模型而是一整套驾驭框架包括交互式训练环境CaP-Gym、层级化基准测试CaP-Bench、无需训练的智能体框架CaP-Agent0和强化学习进化算法CaP-RL。CaP-Gym作为整个框架的核心CaP-Gym是一个基于标准Gymnasium接口构建的层级化控制框架。它将数字大脑和物理身体连接起来大模型每写出一行代码物理世界模拟器或真机就会实时给出反馈。在框架上CaP-Gym统一了感知基元与控制基元在感知方面智能体通过模块化的感知基元从环境中获取数据这些基元将原始传感器数据抽象为结构化的语义对象。它内置了SAM3语义分割和Molmo 2点选等工具把原始图像直接变成“这里有一个苹果”、“那里有一个杯子”这种结构化的语义对象。在控制方面智能体不直接发布关节空间动作指令而是调用运动规划器或逆运动学IK解算器如PyRoki自动处理碰撞检测和路径规划。也就是说无论是单手抓取、双臂协作还是移动机器人CaP-Gym提供了一个让大模型能直接在笛卡尔空间里进行“逻辑编程”的交互式沙盒。CaP-Bench在CaP-Gym的基础上研究还推出了CaP-Bench用来衡量模型能不能“驾驭”机器人。它专门用来测试当模型被推到第一线去“写动作代码”时它的代码质量、逻辑严密性以及面对物理反馈时的纠错能力到底如何。CaP-Bench主要从三个维度进行测试抽象层级Abstraction Level 将动作空间从人工设计的宏命令高层转变为原子级的基本基元底层时间交互Temporal Interaction 对比零样本单轮程序生成与多轮交互以量化故障恢复和迭代推理能力感知落地Perceptual Grounding 评估不同形式的视觉反馈如何影响智能体将任务相关的视觉特征转化为代码生成的能力。在对12个最先进的大模型包括 OpenAI o1、Gemini 3 Pro 等进行单轮盲测后结果表明随着人类先验脚手架的移除所有前沿模型的性能断崖式下跌没有一个能在底层基元上达到人类专家的零样本成功率。这证明了如果没有好用的接口目前强如GPT、Gemini 3 Pro的模型在底层动作逻辑面前依然会“抓瞎”离人类专家的水平还差得远。CaP-Agent0基于CaP-Bench的失败模式与经验研究又进一步推出了CaP-Agent0。CaP-Agent0通过专门的多轮推理循环和动态合成的技能库增强了基础模型核心组件如下多轮视觉差异比对VDM 模型直接看原始图像往往会“瞎”VDM能将前后帧的视觉差异转化为结构化的自然语言反馈智能体再基于语言反馈进一步修改代码。自动合成的持久化技能库 当模型在底层瞎摸索偶然成功后CaP-Agent0会自动提取这段成功的代码封装成一个可复用的“技能Skill”。随着尝试的增多它自己攒出了一个庞大的技能库把复杂问题越做越简单。并行集成推理 遇到难题同时生成多种方案并行尝试在每一轮中同时采样多个候选方案。此外团队还推出了CaP-RL直接利用环境反馈的成功与否作为可验证奖励用强化学习GRPO来后训练编程模型本身让它的写码直觉越来越准实验结论如开头所说在CaP-Bench的7项核心任务中即便剥离了所有高级接口、只给最底层的原子基元CaP-Agent0依旧表现优异。在总共7项任务中不仅在4项任务上的成功率追平甚至还超越了人类专家写的参考程序。而在LIBERO-PRO的长程任务中面对指令或位置的随机干扰无需训练的CaP-Agent0展现出了比OpenVLA等端到端模型更强大的鲁棒性。此外由于CaP-RL是在代码逻辑层进行强化学习而非像素层这种能力还可以直接零样本Zero-shot无损迁移到真实世界的机器人上。在论文的最后团队也坦诚地分享了目前的边界虽然程序化控制CaP在长程推理和逻辑规划上效果不错但在需要极高频视觉反馈和细腻触觉感知的“精细活儿”上比如倒水、精准插拔目前的纯代码方案还显得有些脆弱。一个极具前景的方向是CaP–VLA混合策略由编程智能体管理高层任务逻辑和错误恢复而将底层执行委派给VLA模型。从机器人技术的角度来看通过引入基于优化的控制基元允许智能体指定任务级约束并考虑避障可以进一步提升鲁棒性。代码即策略实话说代码即策略Code as Policy的思路其实并不是什么新鲜玩意。早在2022年谷歌就提出了CaP。是的Physical Intelligence的CEO Karol Hausman也是当年这篇论文的作者之一。CaP的核心思想是不要让大模型只输出“下一步做什么”而是直接让它把机器人执行的Python代码写出来。也就是说不同于以往把大模型当作高层规划器先输出抽象步骤再由其他模块执行的方法CaP直接生成更接近最终控制层的策略代码 。这样做有两个显而易见的好处一是代码天然适合表达条件判断、局部反馈回路和精确数值控制。二是也更容易把“靠近一点”“快一点”这类模糊指令转成具体动作参数 。近年来沿着这一路径的探索很多但大多数研究往往难以很好地区分到底是模型本身聪明还是工程师设计的接口提前把活儿给干了一大半除此之外大家也没搞清楚如果让模型多思考一会儿、多调试几次也就是测试时计算能不能弥补它在底层操作上的笨拙。而CaP-X 就像是这条路线的加强版它证明了具身智能的突破或许不需要无休止地堆砌真实的遥操数据。伴随着让模型在推理时多动脑子、用编程智能体代替人类在环的风潮吹向机器人领域CaP-X给出了一个新解法给大模型一个合理的“驾驭框架Harness”让它在代码的虚拟沙箱中自我试错、自我提炼它就能进化出适应一切物理世界的能力。参考链接[1] https://capgym.github.io[2]https://arxiv.org/abs/2603.22435一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 谁会代表2026年的AI龙虾爆火带动一波Agent与衍生产品浪潮。但真正值得长期关注的AI公司和产品或许不止于此。如果你正在做或见证着这些变化欢迎申报。让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/一键关注 点亮星标

更多文章