近期,围绕Scaling Law的讨论不绝于耳。 起因是,The information在一篇文章指出,OpenAI下一代旗舰模型Orion(或称GPT-5)相较于现有模型,能力提升“有限”(代码能力甚至不如现有模型),远不如GPT-3到GPT-4的跃升,而且Orion在数据中心的运行成本更高。为此,OpenAI不得不连夜转变策略。 如果其所言非虚,就不会只有OpenAI一家被困扰。 果不其然,Google也“出事”了。其下一代Gemini模型原本应该是一次重大升级,但有员工透露:近期在大幅增加资源投入后,模型性能未达到领导层预期,团队连夜调整策略。 与此同时,Anthropic被曝已暂停推进Opus 3.5的工作,官网还撤下了“即将推出”字样。 “三巨头”接连碰壁,让人联想到:Scaling Law可能失效了? Scaling Law,即尺度定律,称得上AI行业的大模型第一性原理。 2020年,OpenAI在论文Scaling Laws for Neural Language Models提出该定律。其核心的观点是,影响大模型性能的三大要素:计算量、数据集大小、模型参数量。当不受其他两个因素制约时,模型性能与每个单独的因素都存在幂律关系。 只要Scaling Law成立,意味着“更大更好”“大力出奇迹的暴力美学”——大模型的能力可以通过堆更多的算力、搞更多的参数,喂更多的数据得到大幅提升。 如今,当模型规模和成本大幅增加,但实际性能却提升“有限”时,Scaling Law神话是否会被终结? 正方:Scaling Law神话终结 Ilya Sutskever:扩展训练的结果,已经趋于平稳。 作为Scaling Law的早期倡导者之一,前OpenAI首席科学家Ilya Sutskever表示,扩展训练的结果,已经趋于平稳。即,传统的无监督Pre-training已达极限。 他