本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。过去这两年,大语言模型走得实在太快,尤其在那些需要复杂逻辑推理的任务上,能力已经高到了一个我们以前不太敢想的水平。我到现在还记得 ChatGPT-3.5 那个时代。那时候的 AI 顶多帮你做点简单数学题,写几行基础代码,稍微绕一点的问题就卡壳。没有联网搜索,更别提什么深度思考,它能回答你每一个问题,靠的全是预训练阶段塞进脑子里的那些“存货”,用完了就没了。但现在不一样了。模型开始学会自己拆问题,一步一步推,生成超长的思维链,甚至在数学竞赛、编程挑战这种硬核任务里,做出了让人类都瞪大眼睛的成绩。不过,Scaling Law这东西,带来了“大力出奇迹”的同时,也悄悄埋了一个问题:思考过剩。你回想一下那两个经典的AI笑话,就特别能说明问题:一个是美国人拿来测 AI 智商的:“Strawberry”这个单词里有几个字母“r”?这问题学前班小孩都能答出来。但一年前,ChatGPT 答错过,DeepSeek 答错过,豆包也答错过。像 R1 这种推理模型,甚至会翻来覆去想十分钟,自己跟自己辩论,最后慎重其事地告诉你:两个。等 AI 终于把这个坑填平了,中国人又出了个新题:要去 50 米外洗车,应该开车去还是走路去?AI 又乱了。有的秒回“走路去”,有的把时间、路程、成本全算了一遍,最后还是得出结论:“走路去”。看到了吗?为了让准确率再高那么一点点,模型一开启深度思考,就会长出大量冗余的推理步骤。浪费算力、抬高成本、拖慢响应,这是实实在在的问题。而且洗车那个例子也提醒我们,想得久,不代表想得对,有时候反而是因为想太多,自己把自己绕进去了。所以大家开始问:一个能力已经溢出的模型,真的需要想那么久吗?它自己知不知道,什么时候该停下来?字节跳动和北航最近发了篇论文,专门回答这个问题。这篇论文名为《Does Your Reasonin