((自动化翻译由路透提供,请见免责声明 ))
*
人工智能公司在训练新的大型语言模型时面临延误和挑战
*
一些研究人员正专注于为新模型的推理提供更多时间
*
这种转变可能会影响人工智能对芯片和能源等资源的军备竞赛
Krystal Hu/Anna Tong
路透11月11日 -
像OpenAI这样的人工智能公司正在寻求通过开发更像人类的算法 "思考 "方式的训练技术,来克服在追求越来越大的大型语言模型 (),从而克服意想不到的延迟和挑战。
人工智能科学家 ()、研究人员和投资者告诉路透
这些技术(OpenAI 最近发布的 o1 模型背后的技术)可能会重塑人工智能军备竞赛的格局,并对人工智能公司贪得无厌的资源类型产生影响、
但现在,一些最杰出的人工智能科学家正在直言不讳地指出这种 "越大越好 "理念的局限性。
人工智能实验室 Safe Superintelligence$(SSI)$ 和 OpenAI 的联合创始人伊利亚-苏茨克沃尔(Ilya Sutskever)最近对路透说,扩大预训练的结果
- 预训练
训练人工智能模型的阶段所取得的成果。
s
使用大量未标记数据来理解语言模式和结构的人工智能模型的训练阶段的结果
-
已趋于稳定。
Sutskever
被广泛认为是早期倡导者,他主张通过在预训练、计算和分析中使用更多的数据和计算能力来实现生成式人工智能的巨大飞跃。
这最终创造了 ChatGPT。Sutskever 于今年早些时候离开 OpenAI,创办了 SSI。
"2010 年代是规模化时代,现在我们再次回到了奇迹和发现的时代。每个人都在寻找下一件事,"Sutskever 说。"现在比以往任何时候都更需要扩展正确的事情。
Sutskever 拒绝透露他的团队如何解决这个问题的更多细节,只是说 SSI 正在研究一种扩大预训练规模的替代方法。
在幕后,据熟知内情的消息人士透露,各大人工智能实验室的研究人员在竞相发布大型语言模型的过程中,一直在遭遇延迟和令人失望的结果。
据三位熟悉私人事务的消息人士称,在发布大型语言模型的竞赛中,实验室一直在拖延,结果令人失望。
大型模型的所谓 "训练运行
大型模型的所谓 "训练运行 "通过同时运行数百个芯片,可以节省数千万美元。由于系统非常复杂,它们更容易出现硬件故障;研究人员可能要到运行结束后才能知道模型的最终性能,而这可能需要几个月的时间。
另一个问题是,大型语言模型会吞噬大量数据,而人工智能模型已经
人工智能模型已经耗尽了世界上所有容易获取的数据 ()。电力短缺也阻碍了训练运行,因为训练过程需要大量能源。
为了克服这些挑战,研究人员正在探索 "测试时间计算 "技术,这种技术可以在所谓的 "推理 "阶段或使用模型时增强现有的人工智能模型。例如,模型可以实时生成并评估多种可能性,最终选择最佳前进路径,而不是立即选择单一答案。
这种方法
可以让模型将更多的处理能力用于具有挑战性的任务,如数学或编码问题,或需要像人类一样进行推理和决策的复杂操作。
"上个月在旧金山举行的 TED 人工智能大会上,参与 o1 研究的 OpenAI 研究员诺姆-布朗(Noam Brown)说:"事实证明,让机器人在一手扑克牌中思考 20 秒钟,与将模型放大 10 万倍、训练时间延长 10 万倍所获得的提升性能是一样的。
路透今年 7 月首次报道
,OpenAI 在其新发布的名为 "o1 "的模型中采用了这一技术
,该
模型的前身是 Q* 和 草莓 (link) 。O1 模型可以通过多步骤的方式 "思考 "问题,类似于人类的推理。 它还涉及使用从 博士和行业专家 (link) 。o1 系列的秘诀是在 GPT-4 等 "基础 "模型的基础上进行另一套训练,该公司表示计划将这一技术应用到更多、更大的基础模型中。
与此同时,其他顶级人工智能实验室的研究人员,包括 Anthropic、xAI 和谷歌 DeepMind研究人员,也在努力开发他们自己版本的技术。
熟悉这些工作的人说。
"W
我们看到了很多低垂的果实,我们可以去摘取,让这些模型迅速变得更好,"OpenAI 首席产品官凯文-威尔(Kevin Weil)在 10 月份的一次技术会议上说。"等到人们追上来的时候,我们会努力再领先三步。"
谷歌和 xAI 没有回应置评请求,Anthropic 也没有立即发表评论。
这些影响可能会改变人工智能硬件的竞争格局,到目前为止,对Nvidia(Nvidia)人工智能芯片的狂热需求一直占据着主导地位。从红杉(Sequoia)到安德森-霍洛维茨(Andreessen Horowitz)等著名风险投资人都已投入数十亿美元,资助包括 OpenAI 和 xAI 在内的多个人工智能实验室开发昂贵的人工智能模型。
"红杉资本(Sequoia Capital)合伙人黄索尼娅(Sonya Huang)告诉路透:"这一转变将使我们从大规模预训练集群的世界转向推理云,即分布式、基于云的推理服务器。 对 Nvidia 最前沿的人工智能芯片的需求推动其跃升为全球最有价值的公司,并在今年 10 月超过了苹果。与Nvidia主导的训练芯片不同,这家芯片巨头可能在推理市场面临更多竞争。
该公司首席执行官黄仁勋(黄仁勋)曾谈到,使用其芯片进行推理的需求不断增加。
"我们现在发现了第二个缩放定律,这就是推理时的缩放定律......所有这些因素都导致对 Blackwell 的需求高得惊人,"黄仁勋上个月在印度的一次会议上说,他指的是该公司最新的人工智能芯片。
精彩评论