## EvoClaw基准揭示AI编程残酷现实：持续开发成功率仅13.37%，OpenClaw等Agent面临持久战考验
AI编程正从辅助工具迈向自主演进的Agent时代，但一项名为EvoClaw的新研究揭示了这一愿景落地的巨大障碍。研究发现，当AI编程任务从“单点修复”转向“持续演进”的真实开发场景时，其表现会出现断崖式下跌，综合性能得分从超过80%骤降至最高不足40%。更关键的是，在需要连续执行多个相互依赖任务的场景中，AI Agent的持续开发成功率仅为13.37%。这意味着，AI距离真正胜任长期、连续、自主的软件演进工作，仍有明显差距。

这项由USC、UCR、Stanford、Princeton、Haven、OpenHands等多所机构研究人员联合发布的重磅评估基准，从开源项目中提取真实的代码演进历史，并将其重构为“里程碑任务依赖图”。该基准严格保留了任务间的代码时序依赖，模拟了软件随需求变更不断膨胀、早期隐患在后续版本中被放大的真实开发过程。研究指出，现有的AI编程评测（如SWE-bench）往往高估了Coding Agent的真实能力，因为它们大多聚焦于“独立任务”，而忽略了软件工程是一个持续演进过程的关键时间维度。

这一发现对OpenClaw等旨在长周期运行、自主迭代软件接口的AI Agent系统构成了直接挑战。代码库的持续膨胀和跨版本的系统性风险，是AI必须面对的持久博弈。EvoClaw基准的出现，标志着编程评测进入2.0时代，从评估单点修复能力转向检验持续演进能力。它暴露了当前AI在应对真实世界软件开发复杂性时的核心短板，即难以在时间与复杂度的双重压力下保持可靠迭代。这为整个AI编程领域敲响了警钟，表明从“能用”到“替代并超越人类”的路径，远比想象中更为崎岖。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: AI编程, 软件工程, 评估基准, Agent, 代码演进
- **Credibility**: unverified
- **Published**: 2026-03-25 12:39:44
- **ID**: 33303
- **URL**: https://whisperx.ai/en/intel/33303