## iPhone本地跑Gemma 4爆火，手机端AI推理速度超40 token/秒
谷歌开源的全新模型Gemma 4，正迅速成为手机用户的新玩具。其较小的E2B和E4B型号可直接在iPhone等手机端本地运行，支持原生全模态处理，并拥有128K的上下文窗口，被用户形容为“可以放进口袋的Gemini平替”。一个在X平台展示iPhone本地运行Gemma 4处理图片、音频和控制手电筒的视频，已获得数十万围观，用户惊叹其速度“快得像魔法一样”。

具体性能引发关注。在搭载苹果芯片的iPhone上，配合苹果优化的MLX框架，Gemma 4的推理速度被量化超过每秒40个token。类似的高速表现也在三星Galaxy手机上复现，甚至在开启“思考模式”后依然保持，这让手机端运行复杂AI模型成为未来可接受的选项，尤其在医疗等对数据隐私敏感的领域具有应用潜力。对于普通用户，体验门槛极低，只需通过谷歌官方发布的“Google AI Edge Gallery”应用即可下载并运行模型。

然而，模型的潜力与局限并存。在更强大的硬件如MacBook Pro M5 Pro上运行更大的Gemma 4 Mixture-of-Experts 26B版本时，其文本生成和代码解释表现顺畅。但当用户尝试将其作为需要大上下文（256K）、复杂提示词和稳定工具调用的编程代理（coding agent）使用时，模型则频繁出现卡顿、报错或输出结构错误，显示出其在处理复杂、持续性任务时的能力边界。这一性能转折，在用户将模型切换为其他选项时变得尤为明显。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 边缘计算, 谷歌, 苹果, 手机AI
- **Credibility**: unverified
- **Published**: 2026-04-06 05:59:20
- **ID**: 51073
- **URL**: https://whisperx.ai/zh/intel/51073