## Disarray 以 77.78 分引爆 MLE-Bench 争议，AI Agent 基准测试真实性遭质疑
2026年2月3日，OpenAI推出的机器学习工程基准测试平台MLE-Bench的GitHub讨论区陷入激烈论战。导火索是一家名为Disarray的初创公司提交了一份高达77.78分的成绩。这一分数本身惊人，但更关键的是其背景：此前数月，全球多个顶尖团队的分数长期在60分上下艰难拉锯，每一分的提升都意味着AI Agent架构的实质性突破。Disarray凭空跳开的近20分，直接引爆了一场关于基准测试本质与有效性的核心争议。

MLE-Bench旨在测试AI Agent能否像真正的机器学习工程师一样，独立完成全套数据竞赛任务。它包含70多道源自真实Kaggle竞赛的题目，涵盖从房价预测到图像识别的广泛领域。Agent需要独立完成从理解问题、数据清洗、特征工程到模型调优与集成的全流程，且每道题需运行3次取平均分。一次完整的榜单提交，算力成本高达数万美元，耗时数周，因此其分数在业内具有沉甸甸的分量。自2025年9月以来，近10家参与者涌入，分数从40多分艰难爬升至60出头，竞争异常激烈。

然而，Disarray的“异常”高分将焦点引向了MLE-Bench的测试机制本身。与真实Kaggle竞赛使用选手完全无法接触的“私有测试集”进行“闭卷”评分不同，MLE-Bench因无法获取真正的私有测试集，采取了妥协方案：将原本完全公开的数据集拆分为“公开测试集”和模拟的“私有测试集”。问题的核心在于，这两份数据都曾在网上公开出现过。这一潜在的“开卷”漏洞，使得Disarray的突破性成绩面临严峻的审视，并引发了对整个AI Agent能力评估体系可靠性的根本性质疑。
---
- **Source**: 钛媒体
- **Sector**: The Lab
- **Tags**: AI Agent, MLE-Bench, 基准测试, 机器学习, OpenAI
- **Credibility**: unverified
- **Published**: 2026-04-12 01:53:48
- **ID**: 60329
- **URL**: https://whisperx.ai/zh/intel/60329