## 清华团队发现VLM几何短板：模型不是不会推理，而是根本“没看懂”图形
视觉语言模型（VLM）在几何问题上频频“翻车”，其根源可能并非推理能力不足，而是更基础的“视觉感知”存在缺陷。清华大学与光明实验室的研究团队通过分析主流模型的错误案例，揭示了一个关键问题：模型在几何图形识别阶段就已出现系统性偏差，包括错误识别点线圆、漏检垂直相切等关键关系，甚至“幻觉”出不存在的结构。这些发生在推理之前的“几何感知错误”，直接导致了后续逻辑链条的崩塌。

为精准定位这一能力瓶颈，研究团队提出了首个独立评测几何感知能力的框架——GEOPERCEIVE。与以往仅关注“答案是否正确”的端到端评测不同，该框架的核心是判断模型是否“看对”。团队设计了一种几何领域专用语言GeoDSL，用于结构化表示图形中的元素与关系。通过将模型输出的自然语言结果翻译为结构表示并进行精确匹配，GEOPERCEIVE能够实现元素级的自动化评分，从而精确定位模型在结构识别层面的具体短板。

在诊断出感知短板后，研究进一步探索了优化路径。团队提出了GEODPO方法，旨在通过结构化的强化学习，引导模型先“看懂”图形，再进行推理。这一工作不仅为评估多模态模型的底层感知能力提供了新工具，也指明了提升VLM在几何乃至更广泛结构化视觉任务上性能的关键方向：强化对视觉信息的精确结构化理解，是解决复杂推理问题的前提。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 视觉语言模型, 几何推理, 多模态AI, 模型评估
- **Credibility**: unverified
- **Published**: 2026-03-30 12:39:31
- **ID**: 41233
- **URL**: https://whisperx.ai/zh/intel/41233