## DeepSeek 基础设施团队发布 Mega MoE：将 MoE 计算流程“焊死”成单一内核，挑战 GPU 效率极限
沉寂许久的 DeepSeek 基础设施团队昨日悄然更新了其 DeepGEMM 代码库，核心贡献并非新模型，而是一个名为“Mega MoE”的全新计算内核。这项更新直指当前混合专家模型（MoE）训练与推理中的一个核心痛点：由多个独立内核与频繁数据通信导致的 GPU 利用率低下。Mega MoE 的目标是将原本支离破碎的 MoE 计算流水线彻底重构，试图将效率压榨到硬件极限。

具体而言，传统的 MoE 流程如同一条被拆分成多个独立工位的流水线：token 分发、线性变换、激活函数、结果合并等步骤均需启动独立的内核，并在 GPU 间进行数据通信，导致“算一会儿，等一会儿”的典型低效模式。Mega MoE 的激进做法是将 dispatch、两层线性、SwiGLU 激活、combine 等所有步骤全部融合（fuse）进一个单一的“mega-kernel”中。更关键的是，它实现了计算与数据通信的并发执行，让 Tensor Core 的计算与 NVLink 的数据传输同时进行，从而大幅减少 GPU 的停顿等待时间，尤其在多卡、大规模 MoE 场景下，性能提升预期将更为显著。

此次更新清晰地揭示了 DeepSeek 团队在基础设施层面向效率极限“死磕”的技术方向。除了内核融合，他们还同步探索了 FP8 × FP4 的混合精度组合，并引入了用于 MQA logits 的 FP4 indexer。这些举措共同指向一个目标：在逼近“还能不能再省一点算力”的边界上持续突破。这不仅是单个内核的优化，更是在为未来更大规模、更复杂的 MoE 模型训练铺平道路，预示着底层计算库的竞争已进入白热化的微优化阶段。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 大语言模型, GPU优化, 混合专家模型, 基础设施
- **Credibility**: unverified
- **Published**: 2026-04-17 03:33:45
- **ID**: 68653
- **URL**: https://whisperx.ai/zh/intel/68653