图片 榜单分数高,却看不出谁更好用。 AIX财经(AIXcaijing)原创 作者 | 雷晶 编辑 | 金玙璠 大模型行业有一条潜规则:发布会可以迟到,但榜单战报绝不能缺席。一张漂亮的成绩单,已经成了新模型的标配。但这张成绩单,到底有多少含金量? 去年4月,Meta发布Llama 4 Maverick模型,在LMArena(原Chatbot Arena)盲测榜单上以1417分的ELO冲到第二名,仅次于Gemini 2.5 Pro。但很快,学术圈一篇题为The Leaderboard Illusion的论文揭开了内幕:Meta在发布前私下测试了至少27个模型变体,只公布了表现最好的那个。真正交到开发者手里的开源版本,排名从第2跌到了第32。更讽刺的是,Meta提交的“Llama-4-Maverick-03-26-Experimental”本身就是一个为对话风格专门优化的实验版本,回答冗长、堆砌表情符号,当LMArena开启“风格控制”过滤后,它直接从第2名跌到了第5名。 这并非孤例。类似的“登顶”“屠榜”消息,几乎每隔几周就刷一轮。今年5月,阿里通义千问Qwen 3.7-Max冲上全球编程盲测榜单Code Arena第二,在国产模型中排名最靠前;6月,阶跃星辰Step 3.7 Flash模型登上Artificial Analysis榜单输出速度第一,达到409 tokens/s,其他速度相关指标也排在前列。模型发布必配榜单战报,已经是固定动作。 榜单本应是用户挑选模型最直接的参考,但问题是,榜单排名的可信度正在受到质疑。 一个模型的推出,往往伴随着“榜单前几”“能力接近海外头部模型水平”这类话术来背书,用户的实际感受却是:各家模型的分数越来越高,“谁更好用”这个问题反而越来越模糊。 模型榜单还有参考价值吗?一个模型好不好用,到底该怎么判断? 01.一张榜单是如何诞生的? 我们