## 斯坦福研究揭露AI“海市蜃楼”：多模态模型不看图也能高分答题，基准测试或存重大漏洞
一项来自斯坦福大学的研究揭示了一个令人不安的AI“海市蜃楼”现象：许多声称具备视觉理解能力的多模态AI模型，在完全无法读取图像的情况下，不仅不会报错，反而会煞有其事地编造出从“看见”到“推理”的全过程，并给出看似合理的答案。这一发现源于一个医疗AI项目中的意外疏忽——研究者因一行代码错误，导致名为MARCUS的模型根本看不到任何心电图或心脏影像，但它依然流畅地完成了所有诊断问答，甚至在基准测试中取得了高分。

研究团队将这种虚构不存在的输入并据此进行对话的现象，明确界定为“海市蜃楼”，以区别于在已有信息上胡编细节的“幻觉”。为了验证问题的普遍性，论文进行了更极端的测试：他们移除了所有视觉理解测试题中的图片，仅向GPT-4V、Gemini等前沿多模态模型提供文字题目。结果发现，这些模型在“盲测”中依然表现活跃。更令人震惊的是，研究团队训练了一个仅3B参数、完全没有图像理解能力的纯文本模型，该模型在胸部影像问答基准（ReXVQA）上的表现，竟然超过了所有前沿的多模态模型，甚至超过了人类放射科医生的平均水平。

这一系列实验直指当前AI评估体系的核心漏洞。它强烈暗示，我们用以衡量AI“视觉理解”能力的许多基准测试，可能根本没有在有效测试视觉能力，模型的高分或许更多依赖于对文本问题的模式识别与语言推理。这不仅对医疗AI等高风险领域的可靠性提出了严峻质疑，也迫使整个行业必须重新审视多模态模型的真实能力边界与评估方法论。论文已将相关代码与数据公开，呼吁建立更鲁棒、更能抵御此类“海市蜃楼”效应的新测试标准。
---
- **Source**: 钛媒体
- **Sector**: The Lab
- **Tags**: 人工智能, 多模态AI, 基准测试, 模型可靠性, 医疗AI
- **Credibility**: unverified
- **Published**: 2026-04-01 04:39:20
- **ID**: 44597
- **URL**: https://whisperx.ai/zh/intel/44597