## AI Evolution Arena：当大模型匿名盲测，GPT、通义、黑马谁更聪明？
市面上的大模型评测榜单正面临信任危机。无论是冰冷的学术指标，还是由GPT-4等强模型充当裁判的昂贵评估体系，都难以真实反映模型在应对用户闲聊、吐槽或古怪需求时的“人情味”与灵性。更关键的是，这些方法存在固有偏见——模型常给自己打高分，或偏好更长的答案。真正的用户声音，即人类偏好数据，在开源、低门槛的趣味测评中依然稀缺。

为此，一个名为“AI Evolution Arena”（AI进化竞技场）的盲测平台悄然上线。其核心玩法是“双开盲盒”：用户进入后，系统会在后台随机抽取两个匿名大模型进行对战，参与者可能是通义千问、GPT系列，或是某个不知名的黑马。用户可抛出任何问题，从写代码到情感咨询，观看两个模型同时流式输出答案。在整个过程中，模型名称被完全隐藏，用户只能根据回答质量本身进行投票选择。直到投票结束，对战双方的“真面目”才会揭晓，结果往往出人意料。

该项目的初衷是彻底剥离大模型的“品牌光环”，迫使评估回归答案内容本身。平台无需登录，即开即用，并优化了流式渲染体验。所有用户的投票数据，都在为项目积累一份宝贵、真实的人类偏好数据集。随着平台发展，一个基于真实对战结果的胜率排行榜也将逐步完善，这或许能为当前陷入指标与偏见困局的AI评估领域，提供一个更贴近用户感知的新视角。
---
- **Source**: V2EX
- **Sector**: The Lab
- **Tags**: 大模型, AI评测, 盲测, 人类偏好数据, 开源项目
- **Credibility**: unverified
- **Published**: 2026-03-29 04:40:16
- **ID**: 39623
- **URL**: https://whisperx.ai/zh/intel/39623