## 微软发布三款自研AI模型，实测暴露短板：中文转写错乱，二倍速下“宕机”
微软昨日密集发布三款自研AI模型，覆盖语音转写、语音生成与图像生成三大核心场景。此举被外界解读为微软正加速构建自身AI技术栈，以降低对OpenAI的依赖。然而，实测结果却揭示了这些新模型在真实、复杂场景下的显著短板，尤其是在处理高难度中文内容时。

三款模型分别为MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2。微软官方宣称其性能卓越：转录速度是现有Azure Fast产品的2.5倍，在多项基准测试中优于OpenAI的Whisper-large-v3和谷歌的Gemini 3.1 Flash；语音模型可在1秒内生成60秒音频；图像生成速度提升至少2倍。但实测暴露了宣传与现实的差距。MAI-Transcribe-1在处理电影《无间道》经典天台对峙片段时，在一倍速下虽能准确转写，但输出文本无任何标点，严重影响可读性。更严重的是，当播放速度提升至二倍速时，模型将“我也读过警校，你们这些卧底真有意思”误识别为“我也读过剑桥，你们学会计真有意思”。面对《寒战》中节奏更快、情绪激烈的争吵片段时，模型甚至出现完全无响应的“宕机”现象。

MAI-Voice-1在语音生成上表现分化，能生成带有英式舞台感或美式逼真口水声的音频，显示出一定的技术潜力。MAI-Image-2在官方示例中表现尚可，但实测面对复杂指令时仍有局限。这一系列发布虽展示了微软在AI领域自研的决心与进展，但实测中暴露的可靠性问题，尤其是在非英语、高压力场景下的表现，为其“去OpenAI化”战略的实际效能打上了问号。模型的商业化定价（转录起价0.36美元/小时）能否被市场接受，将取决于其实际表现能否快速追上宣传口径。
---
- **Source**: 华尔街见闻 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 自研模型, 语音识别, 微软, OpenAI
- **Credibility**: unverified
- **Published**: 2026-04-03 13:29:22
- **ID**: 49176
- **URL**: https://whisperx.ai/zh/intel/49176