## DeepSeek 基础设施团队发布 Mega MoE：将 MoE 流水线“焊死”成单一内核，挑战 GPU 效率极限
沉寂已久的 DeepSeek 团队昨日悄然更新其 DeepGEMM 代码库，核心并非新模型，而是一项名为“Mega MoE”的底层技术突破。这项由基础设施团队陈刚（Chenggang Zhao）等人贡献的项目，旨在彻底重构混合专家模型（MoE）的计算范式。其核心动作是将原本分散、低效的 MoE 计算流水线——包括分发（dispatch）、线性变换、SwiGLU 激活、结果合并（combine）等多个独立内核步骤——全部融合（fuse）进一个单一的“mega-kernel”中。此举直接瞄准了传统 MoE 实现中因频繁启动内核和GPU间数据通信导致的“算一会儿，等一会儿”的典型效率瓶颈。

Mega MoE 的激进之处在于，它不止于步骤合并，更实现了计算与通信的并发执行。这意味着 Tensor Core 的计算与 NVLink 的数据传输可以同时进行，GPU 不再因等待而频繁停顿，在多卡、大规模 MoE 场景下的利用率有望显著提升。这类似于将接力搬砖改造为连续运转的传送带。DeepSeek 此举清晰地表明，其技术攻坚方向正从模型架构创新，转向对现有架构的极限效率压榨。

为实现这一目标，团队正逼近硬件算力利用的边界。此次更新还引入了 FP8 × FP4 混合精度尝试，并专门为 MQA logits 开发了 FP4 索引器（indexer），旨在“还能不能再省一点算力”。结合对 GEMM 的重构和 JIT 编译加速，DeepSeek 似乎正系统性地打磨其 AI 基础设施的每一处性能细节，为未来可能的大规模复杂模型部署铺垫更强劲、更经济的底层算力基础。
---
- **Source**: 华尔街见闻 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, GPU优化, 混合专家模型, 计算效率, 基础设施
- **Credibility**: unverified
- **Published**: 2026-04-17 09:33:51
- **ID**: 69167
- **URL**: https://whisperx.ai/zh/intel/69167