## 00后学术新锐周乐鑫两年两登Nature：从揭露AI模型“过度自信”到构建通用评估新标尺
两年内，两篇《自然》论文，一位00后中国学者周乐鑫正以惊人的速度重塑AI评估的底层逻辑。继去年发表轰动业界的“大模型更不可靠”研究后，他再次作为第一作者，在最新一期《自然》上提出了一套名为“通用量表”的全新AI评估方法论。这项由普林斯顿、剑桥、微软研究院、OpenAI、DeepSeek、Meta等全球26位顶尖学者和工程师共同完成的研究，旨在解决当前AI能力评估的根本性缺陷。

周乐鑫的学术突破始于2024年9月。当时，年仅23岁的他在《自然》上发表首篇论文，揭示了一个反直觉的结论：更大、更易于指导的语言模型（如GPT-4）反而变得更不可靠，在面对超出能力范围的问题时，会表现出“过度自信”，硬着头皮给出错误答案而非选择回避。这一发现曾引发Reddit上超过20万网友的热议，直接挑战了当时业界“更大即更好”的主流叙事。

如今，他的新研究不再止步于揭露问题，而是试图构建解决方案。论文开篇即指出，现有评估方式（如让AI做题打分）无法真正解释AI“拥有何种能力”。一个90分的数学测试成绩，并不能揭示模型的具体能力构成。周乐鑫与团队提出的“通用量表”框架，旨在为AI能力提供兼具解释力与预测力的量化标尺，这可能是近年来规模最大、系统性最强的AI评估方法论研究之一。他的持续高产，不仅标志着个人学术生涯的飞跃，更可能为整个AI研发与安全评估领域带来新的基准与压力。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 学术研究, Nature, 模型评估, 过度自信
- **Credibility**: unverified
- **Published**: 2026-04-03 03:59:42
- **ID**: 48431
- **URL**: https://whisperx.ai/zh/intel/48431