## 微软MAI与谷歌Gemma 4同日对决：封闭语音图像模型 vs. 开源本地化AI
微软与谷歌在同一天发布了战略迥异的新一代AI模型，标志着两大巨头在技术路线与市场策略上的正面分野。微软推出了名为MAI的系列基础模型，专注于语音转录、语音生成和图像生成，但仅通过其Azure Foundry平台和美国境内的MAI Playground提供，走的是封闭、专有的服务化路线。谷歌则反其道而行，发布了全新的Gemma 4模型系列，不仅全面开源，采用Apache 2.0许可，更关键的是强调其强大的本地运行能力，旨在覆盖从消费级GPU到数十亿安卓设备的广阔终端。

微软的MAI模型包括三款“世界级”自研产品：MAI-Transcribe-1支持25种语言，批量转录速度提升2.5倍；MAI-Voice-1能在一秒内生成60秒音频并支持定制语音；MAI-Image-2则是更快的文生图模型，已开始在Copilot中部署。微软明确表示，这些模型将快速集成到其消费者和商业产品生态中，包括Bing和PowerPoint，强化其云端产品矩阵的竞争力。

谷歌的Gemma 4则基于与Gemini 3同源的技术，提供从26B到轻量E4B的四个版本，分别针对开发者的IDE编程助手、代理工作流，以及移动和物联网设备的低延迟多模态处理。谷歌强调，这些模型遵循与专有模型相同的严格安全协议，可在Hugging Face、Kaggle等平台下载并完全离线运行。此举不仅降低了开发门槛，更直接将AI能力推向边缘设备，与微软的云端集中式服务形成鲜明对比，可能重塑开发者生态与AI应用的部署格局。
---
- **Source**: 华尔街见闻 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 开源模型, 微软, 谷歌, 本地AI
- **Credibility**: unverified
- **Published**: 2026-04-02 22:29:19
- **ID**: 48069
- **URL**: https://whisperx.ai/zh/intel/48069