## 苹果AI团队突破：无需强化学习，仅靠“简单自蒸馏”显著提升代码模型性能
苹果AI研究团队提出了一种颠覆传统路径的方法——“简单自蒸馏”（SSD），绕过了当前提升大模型代码能力的核心瓶颈。该方法无需依赖稀缺的高质量人工数据、能力更强的教师模型，也避开了流程复杂且不稳定的强化学习（RL），仅通过模型自身采样和标准微调，就实现了代码生成能力的显著跃升。

SSD的实施流程极其简洁，仅包含三步：数据合成、训练和评估。其核心在于，直接从基础模型中以较高温度和特定截断配置采样生成代码解决方案，每个问题仅采样一个解，且这些原始输出无需经过代码执行环境或测试用例验证其正确性。随后，这些未经筛选、可能包含错误的样本被直接用作目标，对模型进行标准的监督微调。整个过程不引入外部验证器，完全依靠模型自身的“自蒸馏”实现进化。

实验结果表明，这种看似简单的方法效果显著。在LiveCodeBench v6基准测试中，Qwen3-30B-Instruct模型经过SSD训练后，pass@1指标从42.4%大幅提升至55.3%，相对提升幅度高达30.4%，其中困难问题的提升尤为明显。该方法在Qwen和Llama系列的多个不同规模模型上均取得了稳定的提升效果，为大型语言模型的代码能力优化提供了一个高效、低成本且互补的后训练新方向，可能对AI编程助手等领域产生直接影响。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 大语言模型, 代码生成, 机器学习, 苹果
- **Credibility**: unverified
- **Published**: 2026-04-09 09:30:12
- **ID**: 56600
- **URL**: https://whisperx.ai/zh/intel/56600