## 视觉推理成AI最后短板：前Google 14年老将创立Elorian AI，融资5500万美元直指物理世界AGI
AI大模型在编程和数学领域已超越普通人，但视觉推理却仍是致命短板。即便是当前最强的视觉语言模型，在BabyVision基准测试中仅达到3岁孩童水平——这与语言模型的金牌水准形成鲜明反差。核心问题在于：现有VLM架构必须先将视觉输入转化为语言描述，再进行文本推理，而大量视觉任务根本无法用文字精确表达。这种"翻译损耗"从根本上限制了模型的视觉推理能力。

Google DeepMind工作14年的Andrew Dai与苹果AI专家Yinfei Yang联合创立Elorian AI，目标是让模型在"视觉空间"内实现原生思考，将推理能力从"儿童级别"提升至"成年级别"，冲击物理世界的AGI。Andrew Dai早在2012年便与Quoc V. Le共同撰写了对GPT诞生具有奠基意义的论文《Semi-supervised Sequence Learning》，并深度参与Palm到Gemini 1.5/2.5的所有大模型训练。Yinfei Yang则带来苹果端侧AI的核心经验。两人联手获得了Striker Venture Partners、Menlo Ventures、Altimeter等机构联合领投的5500万美元早期融资，Jeff Dean及多位顶尖AI科学家参投。

这笔资金将用于构建新一代视觉推理架构，绕过多模态融合的文本中介层，直接在像素级空间中完成感知与推理。若成功，意味着AI将具备理解真实三维世界、操控物理实体的能力——这正是当前机器人、自动驾驶、工业检测等领域的核心瓶颈。然而，视觉空间原生推理的技术路径尚无成熟先例，Elorian AI选择了一条高风险高回报的路径。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 视觉推理, AGI, 多模态模型, VLM, Elorian AI
- **Credibility**: unverified
- **Published**: 2026-04-23 13:57:44
- **ID**: 76417
- **URL**: https://whisperx.ai/en/intel/76417