## AI Evolution Arena：当大模型匿名对决，你还能认出GPT吗？
厌倦了冰冷的评测分数和充满偏见的AI裁判？一个名为“AI Evolution Arena”（AI进化竞技场）的盲测平台，正试图撕掉大模型的厂牌光环，让用户仅凭答案质量进行投票。开发者直言，当前主流评测体系存在三大痛点：学术指标无法衡量模型的“人情味”与灵性；用强模型当裁判不仅成本高，还存在明显的自我偏好和答案长度偏见；最关键的是，缺乏能让普通用户低门槛参与的、基于真实人类偏好的趣味测评。

为此，开发者创建了这个匿名对战平台。用户进入后，系统会在后台随机抽取两个匿名大模型（可能是通义千问、GPT系列或某个小众模型）。用户可以提出任何问题——写代码、讲笑话或情感咨询，两个模型将同时以流式输出答案，但全程隐藏其名称。用户必须抛开对品牌的固有认知，仅根据回答内容选择偏好（左边好、右边好、都好或都烂）。投票完成后，系统才会揭晓对战双方的“真身”，结果往往出人意料。

该平台旨在回归“回答内容本身”，所有流式渲染和交互体验均经过优化，无需登录即可使用。每一次匿名投票，都在为项目沉淀一份真实的人类偏好数据。开发者表示，后续将逐步完善胜率排行榜（Leaderboard），让这场持续进行的盲测，最终勾勒出剥离品牌滤镜后的大模型实力图谱。
---
- **Source**: V2EX
- **Sector**: The Lab
- **Tags**: 大模型, AI评测, 盲测, 人类偏好, 开源项目
- **Credibility**: unverified
- **Published**: 2026-03-29 02:39:23
- **ID**: 39472
- **URL**: https://whisperx.ai/en/intel/39472