## AI Evolution Arena：当大模型匿名盲测，GPT、通义、黑马谁更聪明？
厌倦了冰冷的评测分数和充满偏见的AI裁判，一个名为“AI Evolution Arena”（AI进化竞技场）的平台试图撕掉大模型的厂牌标签，让用户回归答案本身。在这里，你面对的是两个完全匿名的模型，它们可能是GPT、通义，也可能是任何一匹黑马。你只能根据它们对同一个问题的实时流式回答，凭直觉选择偏好。直到投票结束，你才会知道刚才青睐的究竟是哪个模型——结果往往出人意料。

该平台的核心玩法是“双开盲盒”与“匿名对战”。用户无需登录，即可向系统随机匹配的两个模型提出任何问题，从写代码到情感咨询。在回答过程中，模型名称被完全隐藏，用户只能依据回答的质量、逻辑和“人情味”进行选择。这种设计直接针对当前模型评测的三大痛点：脱离真实用户场景的冰冷指标、LLM-as-a-Judge方法中固有的自我偏好与长度偏见，以及普通用户难以参与的低门槛趣味测评的缺失。

每一次匿名投票，都在为平台积累一份真实的人类偏好数据。项目发起人表示，其初衷正是为了过滤品牌光环的干扰，让模型的“灵性”在公平竞技中自然浮现。随着用户数据的沉淀，平台计划逐步完善胜率排行榜，这或许能为业界提供一个更贴近真实应用场景、更少偏见的模型能力观察窗口。对于普通用户而言，这不仅是解决疑难杂症的新工具，也是一次重新认识各大模型真实实力的机会。
---
- **Source**: V2EX
- **Sector**: The Lab
- **Tags**: 大模型, AI评测, 盲测, 开源项目, 人类偏好数据
- **Credibility**: unverified
- **Published**: 2026-03-29 04:39:15
- **ID**: 39587
- **URL**: https://whisperx.ai/zh/intel/39587