## 阿里通义实验室发布FIPO算法，攻克大模型推理长度停滞难题，性能反超o1-mini
阿里通义实验室智能计算团队推出了一项可能改变大模型强化学习训练格局的新算法。该团队宣布的FIPO（Future-KL Influenced Policy Optimization）算法，核心在于引入了创新的“Future-KL”机制，旨在通过奖励关键Token，直接解决长期困扰纯强化学习（Pure RL）训练的“推理长度停滞”难题。这意味着模型在复杂推理任务中，能够更有效地规划思维链，突破性能瓶颈。

据团队披露，在关键的32B参数规模的纯RL设定基准测试中，应用FIPO算法的模型率先实现了对知名竞品o1-mini以及同规模的DeepSeek-Zero-MATH的性能反超。这一结果不仅验证了FIPO机制的有效性，也标志着阿里在纯强化学习路径上取得了显著的技术突破。该算法并非简单的优化，而是针对大模型推理过程中的核心痛点——如何让模型在长序列思考中保持效率和准确性——提出了新的解决方案。

FIPO的推出，正值全球AI巨头在模型推理能力上激烈竞逐的关键时期。性能反超o1-mini等标杆模型，无疑为阿里通义大模型的技术路线增添了重要筹码。这可能会加剧国内大模型在底层训练算法层面的竞争，推动行业从单纯追求参数规模，转向对训练效率和推理深度的精细化探索。未来，该技术若成功应用于更大规模的模型，或将进一步重塑AI模型的能力边界与竞争格局。
---
- **Source**: 华尔街见闻 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 大语言模型, 强化学习, 算法突破, 阿里巴巴
- **Credibility**: unverified
- **Published**: 2026-04-07 14:59:16
- **ID**: 53369
- **URL**: https://whisperx.ai/zh/intel/53369