## AI 进化竞技场：当 GPT、通义、黑马模型匿名对决，你的偏好会背叛品牌吗？
市面上的大模型评测正陷入僵局。冰冷的学术指标无法衡量模型的‘人情味’，而用强模型当裁判不仅成本高昂，还充斥着自我偏好和答案长度的偏见。最核心的问题在于，普通用户真实、低门槛的‘用脚投票’数据极度稀缺。为了打破这种局面，一个名为‘AI Evolution Arena’的盲测竞技场悄然上线。

这个平台的核心玩法是‘双开盲盒’与‘匿名对战’。用户进入后，系统会在后台随机抽取两个匿名大模型——可能是通义千问、GPT系列，或是某个不知名的黑马。用户可以向它们提出任何问题，从写代码到情感咨询。两个模型会以流式输出的方式同时回答，但用户完全看不到它们的品牌名称。用户必须仅凭答案内容的质量做出选择：左边好、右边好、都好或都烂。只有在投票完成后，对战双方的真实身份才会揭晓，结果往往出人意料。

项目的初衷是彻底剥离大模型的‘厂牌光环’，让评估回归答案内容本身。平台无需登录，即开即用，并优化了交互体验。开发者的长远目标是通过积累大量真实的用户偏好投票，构建一个基于人类主观判断的胜率排行榜。每一次匿名选择，都在为理解‘哪个模型更聪明’沉淀一份去除了品牌偏见的关键数据。
---
- **Source**: V2EX
- **Sector**: The Lab
- **Tags**: 大模型, AI评测, 盲测, 人工智能, 开源项目
- **Credibility**: unverified
- **Published**: 2026-03-29 07:09:13
- **ID**: 39688
- **URL**: https://whisperx.ai/zh/intel/39688