编译 | 汪越
编辑 | Panken
智东西11月12日消息,据路透社今日报道,OpenAI前联合创始人、现Safe Superintelligence(SSI)实验室创始人Ilya Sutskever告诉路透社,随着预训练阶段的模型性能逐渐停滞,行业正重新进入一个“发现和探索”的新阶段。Sutskever透露,SSI正在研究一种替代方法来扩大预训练。
今年9月,OpenAI的推理模型o1采用了“推理时间计算”(test-time compute)技术,这一技术使模型在实际使用时能够进行更复杂的推理和决策。业界逐渐转向通过改进推理技术来提升AI性能,这一趋势变化将对未来AI芯片和基础设施需求带来变化。OpenAI拒绝就此事发表评论。
一、规模扩展阶段已过,SSI、OpenAI等探索新扩展方式
过去几年中,科技公司纷纷通过增加数据量和计算能力来“扩展”大语言模型(LLM),以期获得更优的AI性能。然而,这种“规模越大越好”的理念正遭遇实际应用中的瓶颈与挑战。Sutskever谈道,2010年代是AI“规模化”的时代,但随着预训练阶段的模型性能逐渐停滞,行业正重新进入一个“发现和探索”的新阶段。
Sutskever提到的“预训练”阶段是指使用大量未标注数据训练AI模型,使其能够理解语言模式与结构。他谈道,这一阶段的性能增长已经趋于平缓,这意味着单靠增加计算力和数据量已不再足以推动重大突破。SSI正探索一种新的扩展方式,以期跳脱传统的规模扩展限制。
OpenAI最近推出的o1模型采用了“推理时间计算”技术。与传统的预训练不同,推理时间计算是在模型实际使用时(即“推理”阶段)进行的改进。当模型面临复杂的任务,如数学运算或编程问题时,它能够实时生成和评估多种解答路径,从而选出最佳解决方案,这一过程更加接近人类的多步骤思维。
OpenAI研究员Noam Brown在TEDAI大会上说,o1模型的这种方式相当高效:仅需20秒的推理时间便能提升模型性能,效果相当于对模型进行10万倍的扩展和更长时间的训练。通过这种技术,o1模型在特定任务上表现出色,特别是在需要复杂决策的场景下。
o1模型还基于专家数据和反馈进行额外的训练。相比于仅依赖数据量的扩展,这种方法更注重模型的精细化训练,使其能够更接近人类推理。此外,OpenAI表示计划将此方法应用到更大规模的基础模型上。
二、“推理时间计算”技术应对高成本与资源限制
据知情人士透露,主要AI实验室的研究人员在竞相发布超越OpenAI的GPT-4模型的大语言模型时,遇到了延迟,并且结果令人失望。大型模型的“训练运行”成本高昂,往往需要数千万美元以及大量的计算芯片资源。另外,由于系统的复杂性,这些训练运行更容易出现硬件故障。此外,模型的最终性能表现往往要经过数月的训练才能评估完成,这一过程对硬件和能源需求极大。
另一个问题是,训练大语言模型消耗了大量的数据,AI模型已经耗尽了所有容易获取的数据资源。电力短缺也阻碍了训练运行,因为整个训练过程需要大量的能量。
为了克服这些挑战,研究人员正在探索推理时间计算技术,这种方法可以减少对昂贵数据和计算资源的需求,转而提升模型实际应用时的灵活性。
与此同时,据知情人士透露,来自谷歌DeepMind、美国AI大模型独角兽Anthropic以及马斯克旗下大模型独角兽xAI等其他主要AI实验室的研究人员也在开发类似技术,以应对训练过程中的延迟和不理想的结果。谷歌和xAI没有回应置评请求,Anthropic也没有立即置评。
三、硬件需求从训练芯片转向推理芯片
AI模型推理阶段的优化可能会改变AI硬件的竞争格局。从红杉资本到Andreessen Horowitz等著名的风险投资人投入了数十亿美元,为包括OpenAI和xAI在内的多个AI实验室昂贵的AI模型开发提供资金,他们正在注意到这一转变,并权衡其对他们昂贵赌注的影响。
红杉资本合伙人Sonya Huang谈道,由于推理时间计算技术的应用需求增加,未来AI行业可能更侧重于“推理云”而非传统的“训练集群”。
传统的训练过程对英伟达的高端AI芯片需求极大,这使得英伟达的公司估值快速增长,并在10月一度超越苹果。但是,与此前占据主导地位的训练芯片不同,芯片巨头英伟达在推理市场可能面临更多竞争。
当被问及对其产品需求可能产生的影响时,英伟达创始人兼CEO黄仁勋谈道,随着推理技术的需求增多,公司也在增加Blackwell等新一代芯片的推理应用能力,以应对这类需求的增长。
结语:行业向精细化、推理优化方向发展
OpenAI推出的o1模型,通过采用“推理时间计算”技术,使AI系统能够在“推理”阶段进行多步骤思维,从而更接近人类的决策方式。这标志着AI行业从单纯追求模型规模扩展向更为精细化、推理优化的方向发展。
对于行业而言,这一变化不仅影响模型的设计和开发,还将重塑AI硬件和基础设施的需求结构。未来,AI公司或将更加注重推理阶段的性能提升,转向“推理云”的分布式计算架构。这意味着,英伟达等芯片供应商也需要适应市场需求的变化,加强芯片推理应用能力的研发。
精彩评论