## 复旦团队破解RL微调难题：KL项选择不当导致大模型沦为“押题机器”
强化学习（RL）正将大语言模型推向一个危险的单一化陷阱。尽管RL能显著提升模型在单次作答中的成功率（Pass@1），但一个反常现象随之而来：当允许模型进行多次尝试时，其整体表现（Pass@k）反而下降。这表明，模型正在丧失其解题的多样性与灵活性，更像一个只会“押题”的应试者，同时伴随着灾难性遗忘和跨领域泛化能力的衰退。这一长期困扰业界的“多样性危机”，其根源可能比想象中更为基础。

由复旦大学、无限光年、上海科学智能研究院及上海创智学院组成的联合研究团队，将矛头指向了RL训练目标中长期被忽视的关键组件——KL散度项。研究发现，当前主流方法普遍采用反向KL散度或直接移除约束，这两种选择都存在根本性缺陷。反向KL具有“模式寻求”特性，会驱使模型策略向少数高概率答案收敛；而完全移除约束则让模型在训练中失去控制，加剧了输出单一化的问题。

这项题为《The Choice of Divergence》的研究已被顶级会议ICLR 2026接收。它意味着，要破解大模型“越训越单一”的困境，可能无需复杂的奖励工程或采样策略，调整一个基础的数学项或是关键。这一发现对依赖RL微调来提升模型推理能力的整个技术路径提出了直接挑战，迫使开发者和研究者重新审视训练目标的底层设计逻辑。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 大语言模型, 强化学习, 模型微调, 学术研究
- **Credibility**: unverified
- **Published**: 2026-04-09 04:29:28
- **ID**: 56203
- **URL**: https://whisperx.ai/zh/intel/56203