原文标题:Is AI Progress Hitting A Plateau?
作者:Frank Downing & Jozef Soja(Next Generation Internet Team)
最近的头条新闻显示,人工智能性能指标与下一代模型的内部目标相去甚远,似乎达到了一个高点。我们的研究表明,现实情况更加微妙,多项指标都在稳步提高。
例如,在编码任务方面,基础模型的改进与新的代理框架相结合,在 SWE-Bench 基准测试中取得了持续进步。代理框架将基础大型语言模型与提示技术和编程工具相结合,解决了 SWE-Bench 基准测试中的实际软件开发任务。Anthropic 的最新模型目前已解决了 SWE-Bench 基准中 53% 的案例,与去年同期最佳解决方案解决的约 4% 的案例相比,取得了惊人的进步,如下图所示。
人工智能模型的经济性正沿着两条道路发展。
在第一条道路上,由使用人工智能的成本决定的应用编程接口(API)定价已大幅下降,如下图所示,从而实现了访问和企业采用的民主化。
在第二条道路上,构建人工智能的成本急剧增长,影响了训练前沿人工智能模型所需的资金量。因此,OpenAI 和 xAI 等人工智能实验室以更高的估值在私人市场上获得了数十亿美元的融资。谷歌、微软、Meta Platforms 和亚马逊等超级计算机公司正在通过增加资本支出计划来证实这一趋势,目前预计到 2025 年将达到 3000 亿美元。
重要的是,在解决扩展困境的其他措施中,推理时间计算可以抑制培训成本的上升。换句话说,将更多计算分配给推理--让模型 “思考 ”更长时间--正在加速性能的提升。根据我们的研究,OpenAI 和其他公司正在寻求推理时间计算创造新扩展模式的可能性。
尽管参与人工智能性能的前沿研究需要大量投资,而且传统的预训练方法带来的回报也在不断减少,但我们根据赖特定律对成本下降进行的研究表明,人工智能的发展并未触及天花板。
免责声明:本内容仅作为翻译记录,不构成任何投资建议。
精彩评论