## 谷歌Gemini 3.1 Flash Live发布：实时语音Agent能力跃升，Siri的“救星”来了？
谷歌正式推出其最高质量的实时语音模型Gemini 3.1 Flash Live，标志着语音交互能力进入新阶段。该模型的核心突破在于其“实时语音Agent能力”的显著升级，语音已可直接驱动应用开发（vibe coding）。在多项关键评测中，其表现已超过GPT-Realtime-1.5、Qwen3 Omni 30B A3B Instruct及GPT-4o Audio preview等竞争对手，被海外网友视为苹果Siri的潜在“救星”。

这款模型在Gemini App、Search Live及Google AI Studio中同步开放，专为实时语音交互优化。其关键提升包括：响应延迟降低、上下文记忆窗口扩大至此前2倍、多语言处理能力覆盖200多个国家和地区，以及对复杂任务场景的更好支持。在具体的性能测试中，Gemini 3.1 Flash Live在ComplexFuncBench audio测试中的函数调用准确率达到90.8%，相比其前代版本（71.5%和66.0%）有大幅跃升。在Audio MultiChallenge榜单中，其36.1%的得分也领先于主要竞品。

此次更新重点优化了实时对话体验。模型对语调、语速和停顿的处理更细腻，在嘈杂环境下的背景噪音过滤能力增强，能更稳定地识别并执行用户指令，对系统约束的遵循能力也有所提升。这一进展恰逢外媒曝出苹果计划在2026年WWDC上主打AI并推出新版Siri，且苹果已获得谷歌完整Gemini模型的直连权限。谷歌此次发布，无疑在语音AI的军备竞赛中投下了一枚重要砝码，直接面向生产力场景，为开发者与终端用户提供了更强大的“动嘴”工具。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 语音交互, Gemini, Siri, 实时模型
- **Credibility**: unverified
- **Published**: 2026-03-27 04:40:04
- **ID**: 36801
- **URL**: https://whisperx.ai/zh/intel/36801