## 英伟达开源CaP-X：机器人学会现场写代码，具身智能迎来“驾驭”时刻
机器人控制的核心范式正在被代码逻辑颠覆。英伟达最新开源了机器人操控框架CaP-X，其核心突破在于让机器人能通过摄像头实时理解环境，并当场生成Python代码来控制自身行动。这并非一次性脚本，成功执行任务的代码会被自动存入一个通用技能库，可供不同形态和本体的机器人系统调用与复用。这一机制，被英伟达机器人研究负责人Jim Fan直接类比为“龙虾的技能库”，标志着智能体机器人时代的到来。

CaP-X框架的颠覆性在于其“代码即策略”的路径。它将具身大模型（如VLA）视为可调用的API，用一个大模型“大脑”来协调和驾驭多个负责感知与控制的“小脑”。在实测中，基于CaP-X构建的CaP-Agent0在7项核心任务中，有4项的成功率追平甚至超过了人类专家手写的程序。即便面对OpenVLA、Pi系列等基于海量数据预训练的端到端模型，CaP-X这种依赖逻辑生成的方案也展现出了旗鼓相当乃至更优的性能。

这一进展标志着机器人领域从“人工脚手架”和“数据黑盒”向“逻辑生成”的关键转向。传统控制方法依赖工程师逐行编写代码，泛化性差；而端到端的VLA模型虽能力强大，却如同黑盒，难以调试和适应新任务。CaP-X试图融合两者的优势：既保持代码的透明性与可解释性，又通过大模型的逻辑推理能力获得强大的泛化与适应能力。正如UC伯克利教授Ken Goldberg所评论，这为“代码即策略”的机器人未来打开了令人兴奋的想象空间。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 机器人, 开源框架, 具身智能, 代码生成
- **Credibility**: unverified
- **Published**: 2026-04-02 12:00:29
- **ID**: 47288
- **URL**: https://whisperx.ai/zh/intel/47288