Scaling Law是不是第一性原理?
作者|赵健
2024年智源大会上,月之暗面、百川智能、智谱AI、面壁智能四家大模型独角兽罕见同台,分享了各自对大模型的观点。
在关于AI安全、价格战等非技术性话题上,四家独角兽的观点各有侧重;而在AGI、Scaling Law等技术性话题上,则能明显感受到隐隐的观点分歧。
比如,月之暗面CEO杨植麟认为大模型,或者说Scaling Law,是通往AGI的第一性原理,提升模型规模的本质是压缩,而压缩可以产生智能。
百川智能CEO王小川则认为大模型是基石,但仅靠scaling Law是不够的,需要范式的改变。
智谱AI CEO张鹏认为,AGI的内涵与外延在不用的时期是动态变化的,现在每个人对于AGI的定义并不相同。
而王小川则从数学逻辑的角度定义,AGI就是实现了“人造医生”的那一刻。
这场圆桌的主题是《通往AGI之路》,这条路上已经形成了很多的共识,但仍然存在很细微的非共识。这些非共识,可能正是决定大模型成败的关键因素。
以下是本场圆桌论坛的核心观点,由甲子光年整理,略有删减:
1.大模型是通往AGI的基石?
杨植麟比较相信大模型的第一性原理,就是不断提升模型的规模,而这件事的本质是压缩,压缩就会产生智能。
当然,这个过程会面临很多的挑战,最大的挑战可能是数据的缺失,很多领域的数据并不丰富。如果我们想构建一个超越人类的AI系统,而现实中可能根本就不存在这样的数据,因为现在所有的数据都是由人类产生的。
杨植麟认为数据是当前最大的问题,而规模定律或大模型本身并没有什么问题。
月之暗面CEO 杨植麟
王小川则认为,“大模型是AGI的基石”这一说法是没有问题的,但Scaling Law只是在逼近AGI,光靠Scaling Law是不够的。从根本上讲,我们需要一个范式的转变,而今天大家看到的规模定律的成效只是迈出的第一步。
王小川提到了另一个常被人们忽视的议题,那就是将语言纳入大模型的框架内,将语言转化为数学表达。语言实际上在符号主义和连接主义之间架起了一座桥梁,这是通往AGI道路上的关键一步。王小川认为,未来,我们还需要更多的范式变革。例如,今天的大模型依赖于数据驱动的学习系统来进行知识压缩。但像AlphaGo这样的系统,能够进行自我思考和存储,也将发挥重要作用。
百川智能CEO 王小川
因此,王小川的结论是,我们已经进入了AGI的时代。在这个时代,我们有能力吸引更多的科学家和资源,共同迈向AGI。但仅凭目前公开的规模定律无法实现AGI。张鹏首先肯定了大模型一定是AGI的基石,至少是之一。但更关键的是“定义”问题。如何定义AGI,决定了这个问题的答案是什么。
张鹏观察到的现象是,从事人工智能领域的这群人是非常实用主义的,“不看广告看疗效”。大模型是否能够推动我们朝着每个人心中所定义的AGI的目标迈进,能否帮助我们到达顶峰,现在还没有确切的答案。但到目前为止,大模型非常有效地推动了这一进程,规模定律仍在发挥作用。
智谱AI CEO 张鹏
李大海是数学专业毕业的,表述也更加严谨。在他看来,大模型无疑是目前所有技术中,在通往人工通用智能(AGI)的道路上走得最远的一个。然而,它是否能够直接抵达终点,还有许多未知因素需要考虑,包括刚才提到的AGI的定义问题。
面壁智能CEO 李大海
2.一千个读者,一千个AGI
杨植麟认为对AGI的定义至关重要,但不必急于现在就给出一个精确量化的定义。
他表示,AGI可能更多地是一种定性的概念,一种感觉上的共识。AGI的核心作用在于,它能够使社会和个人对未来可能发生的变化有所准备。毕竟,这项技术的发展速度可能异常迅猛。如果我们能够对AGI有一个基本的共识,那么无论是个人职业发展还是行业趋势,我们都能更好地为此做准备。
但同时,从短期角度来看,我们也确实需要一些量化的标准来衡量AGI的发展进程。缺乏量化标准可能会导致我们难以评估技术的进步。因此,短期内,如何对AGI的进展进行评估,将是一个极具挑战性的问题。
对AGI进行合理的评估,这将会是“新的图灵测试”吗?
杨植麟认为,传统的图灵测试可能已不再完全适用于当今的人工智能评估。即便一个AI系统通过了图灵测试,它在许多领域仍然无法与人类的卓越表现相媲美。因此,评估AI智能需要更细致的维度划分,例如知识、推理和创造力,每项能力都需独特的评估方法。杨植麟认为,这一议题正受到广泛关注,其重要性不言而喻。王小川曾提到去年是智能纪元的元年,是因为我们掌握了Scaling Law,掌握了把语言变成数学。当机器掌握了语言,这将是一个翻天覆地的变化。
王小川说:“过去,人们常说图像识别和无人驾驶技术很厉害,但即使是狗也能导航和识别图片。然而,狗不具备语言能力。语言是我们认知世界的一种范式,我对此非常感兴趣。”
关于AGI的定义,全球范围内很难达成共识。王小川在大学学习数学时相信,通过变换可以将问题从一个空间转移到另一个空间来评估。
在他看来,能否人工制造“医生”,将是判断AGI的一个重要标志。
为什么选择医生这个职业?在讨论AGI时,人们通常首先将其视为工具。但王小川认为,AGI的首要变化是它开始具备思考、学习、沟通和共情能力,以及多模态图像处理能力。从学习范式的能力要求来看,我们实际上是在像评价人一样评价它。因此,我们的评价指标或学习范式是向人类学习,数据来源于人类社会产生的数据。而医生是所有职业中智力密度最高的职业之一。
这咋听上去有点违背常识,因为医生是一个垂直行业,而AGI要求具备通用能力。但在王小川看来,如果连医生都制造不了,那就别谈AGI了。在他的逻辑中,医生与AGI基本上是等价的。
王小川用数学做了类比:“在数学上,有一个问题强调自然数和偶数哪个多。我们的第一反应是偶数比自然数少,因为偶数是自然数的一个子集。但数学上我们知道它们是一样多的,因为每个自然数乘以2就是一个偶数,它们是可以映射的。今天,我将行业共识的能力映射到对医生的要求上。如果能够制造医生,那就是AGI。”
李大海尝试从经济学的角度来定义AGI。从经济学的角度讲,如果去执行任何一个任务,边际成本都为零,这就是我们理想中的AGI。李大海相信大模型能够把边际成本一直往下降,可能会逼近于零。
去年行业里大家去做大模型落地的时候,很多场景都还需要做微调,边际成本就很高。李大海相信,随着模型能力的提升,慢慢从微调逐步地只需要做Promot generate,慢慢地连Promot generate都不需要做,模型直接就问你到底有什么需求。
此外,李大海还提到了一个重要的概念“智能密度”,就是大模型的小型化。假如未来我们用一个10万亿的参数模型做到了AGI,那么把它的参数降到1万亿、降到1000亿,这也是一个要持续去突破的事情。
张鹏与杨植麟的观点相近,他更愿意相信AGI是我们的一种信念,是一个符号,而它的内涵外延是在不断变化的。就像早期定义AI是用图灵测试,而现在大家已经觉得这个过时了,就是因为随着技术的不断演进,对事情的认知越来越多、越来越深,AGI三个字母所代表的含义也在不断变化。
张鹏认为,如果现在就能把一个事情说得非常量化、非常清晰,内涵是什么,外延是什么,这件事情的天花板估计也就到头了。现在没有人能够说清楚,反而是一个好事,说明这个事情还有很多未知空间等待我们探索。
智谱AI当前的愿景是“让机器像人一样思考”,这是以人为参照,而机器的能力远不止人,我们期待它可以出现超越人的能力,会不断更新AGI的内涵和外延。
3.Scaling Law是第一性原理,但会持续演进
杨植麟认为,Scaling Law没有本质的问题,而且接下来提升3-4个数量级是非常确定的事情。
但这里面更重要的问题是怎么能够很高效地去scale,应该scale什么东西。如果只是像现在搞一堆网页文本,它就不一定是一个对的方向,这里面可能就会遇到很多挑战,比如推理能力不一定能够在这个过程中解决。
怎么定义Scaling Law?如果说就沿着当前现在的方法做next token prediction,再去scale很多个数量级,用跟现在完全一样的数据去分布,杨植麟觉得上限是很明显的。
但是,杨植麟认为,Scaling Law本身并不受这个东西的限制,只要有更多的算力,数据模型参数变大,持续产生更多的智能。现在并没有定义模型是什么样的,比如要多少个模态,中间数据是什么样的,数据是生成出来的还是用Web text,也没有规定Loss function是什么样的。
所以,他认为Scaling Law会持续演进,只是在这个过程中要scale的方法可能会发生很大的变化。
“本质上现在的大语言模型是世界模型的一个特例,只是先把里面一部分给做了,但是还能有更多持续的扩充训练方式,所以我觉得Scaling会持续。”
王小川认为,Scaling Law到目前为止没有看到边界,还在持续发挥价值。马斯克的xAI号称要买30万片B100、B200来做,所以美国在这方面的认真程度,甚至投入程度是远远高于中国的。
在王小川看来,在Scaling Law之外一定要去寻找范式上新的转化,不管战略上,还是信仰上,不只是简单地去 predict token 变成压缩模式。走出这样的体系才有机会走向 AGI,才有机会能跟最前沿的这代技术产生较量的能力。
张鹏认为,所有人类已知的规律,包括物理定律,都可能面临被推翻的一天。但目前我们还没有看到任何迹象表明Scaling Law会失效。在可预见的未来,它仍将保持有效。当然,所谓的有效性也是一个动态的概念,因为Scaling Law本身所包含的内容也在不断发展和演变。
比如,Scaling Law最初关注的是模型的参数规模。现在,它已经逐渐扩展到包括参数规模、数据量和数据质量等多个方面,形成了一种全面的计算量度。
以智谱AI自身为例,在开发悟道模型之初,就曾面临一个选择:是构建一个稠密的单体模型,还是采用MOE技术构建稀疏的多体模型。这实际上是在满足或追寻Scaling Law的不同策略。
张鹏表示,随着对这些规律的理解不断加深,其本质也逐渐被揭示。掌握这些本质,就相当于掌握了通往未来的钥匙。
正如李大海总结的那样,Scalinglaw是一个经验公式,是行业对大模型这样一个复杂系统观察以后的经验总结,随着训练过程中实验越来越多、认知越来越清晰,会有更细颗粒度的认知。面壁智能自己发现,在除了之前提到的参数规模等维度之外,训练模型时所采用的训练方法本身对Scaling Law以及智能的影响是相当显著的。当固定参数规模后,这种影响变得尤为关键。因为参数规模的增长是一个自然的扩展趋势,只需不断扩大规模即可。然而,要使端侧芯片能够支持这一规模的模型,并且实现足够高的智能水平,数据质量和训练方法等其他因素就变得至关重要。
4.开源不会削弱竞争力
关于开源,近期斯坦福的三位学生抄袭面壁智能MiniCPM大模型的事件闹的沸沸扬扬。对此,李大海也首次公开做出了回应,“我们完全没有想到我们的工作会以这种方式出圈,挺惶恐的”。
具体事件的经过是,面壁智能在5月20日开源了MiniCPM大模型之后,斯坦福的三位本科生在该模型基础上做了非常简单的高斯叠加,就号称是自己的模型。
这个模型一下子变得很受欢迎,因为该团队宣称这个模型的多模态能力跟GPT4-V完全对标,但是参数只有后者的1%,并且只需要500美金就能够训练出来。
李大海表示:“前两项是真的,我们模型确实有这个能力;但是500美金训练不出来,还是需要花很多钱。”
这件事让面壁智能更加坚定了开源的力量。5月29日事件发生以后,仅过一天开源社区热心参与者就发现了这一事实,并把这个事情曝光。开源力量很强大,不光有做原创工作的人,还有很参与者贡献需求、贡献反馈,这也是开源生态重要组成部分。李大海表示,持续做开源贡献能够给公司带来正向收益。
百川智能也是开源的参与者,Baichuan1、Baichuan2都对外开源了。
王小川解释开源的动机:“第一,开源在市场上有这个需求,2023年6月开源了第一版,9月份开源了第二版。去年,中国对大模型充满热情与紧迫感,开源策略在市场上产生了积极影响。作为认真开源的商业化厂商,百川获得了市场的认可,这对我们来说是一个巨大的鼓舞,无论是在人才储备还是资本关注方面,都为行业树立了标杆。
第二,开源也体现了一种心态。我们认识到模型的快速迭代,今天的领先并不意味着明天的竞争力。因此,开源并没有削弱我们的商业竞争力。我们果断地做出了开源决策,这不仅符合市场预期,也为公司赢得了声誉。如今,众多公司参与开源,共同推动中国生态追赶美国,保护知识产权。我期望这个生态能够持续繁荣发展。”
5.AI安全不是当下最突出的矛盾
对于业内非常关注的AI安全,杨植麟认为它至关重要。“AI安全问题虽然不是当前最突出的矛盾,但它是我们必须为未来做准备的关键储备。”
随着模型的发展,根据Scaling Law,算力每N个月增长10倍,智能水平随之提升,这是一个逐步适应的过程。
杨植麟提到了AI安全中需要关注的两个核心方面。首先,模型可能会受到用户恶意意图的影响,导致其执行本不应执行的任务。例如,当前有研究显示,通过在prompt中注入不当意图,可以操纵模型行为。其次,模型本身是否会发展出自己的动机,这与训练方法密切相关。我们需要探讨是否能在模型的基础层面注入类似AI宪法的功能,以界定其行为准则,确保无论用户给出何种指示,模型都不会违反这些基本原则。
王小川则提出了三个AI安全的内涵与外延。
首先,意识形态安全至关重要。在to C的服务中,保持与国家发展一致的意识形态是基本责任。每个模型都有其价值观,我们亦有我们的价值观,这种安全是对民族和社会负责的表现,是必须坚守的底线。
其次,关于模型可能毁灭人类的担忧,虽然听起来遥远,但值得我们深思。王小川表示不希望看到类似核弹那样毁灭人类文明的悲剧发生。人类文明历经千年发展,我们的智慧和模型不应成为毁灭地球的力量。然而,如果模型能比人类更聪明,能够承担更多任务,这是值得鼓励的。毕竟,人类的肉体终将消逝,而技术可以帮助我们延续和繁荣文明。去年王小川写了一封公开信,强调AGI的目标是帮助人类文明延续和繁荣,而非将机器视为奴隶或工具。这是我们以文明为标准看待安全的第二层理想。
最后,现实层面的安全问题。当我们讨论AGI的定义和评估时,许多人认为让AGI成为医生是一项艰巨的任务,目前还难以实现。如果连这样的能力都不具备,我们就不必担心它会颠覆人类社会。因此,从现实角度来看,近期内我们不必担心这种安全问题。
智谱AI前段时间与全球15家AI公司一起签署了负责任的AI承诺书,就是如何保证和如何努力让AI技术帮助这个人类、帮助这个社会、帮助这个地球,而不是去为恶。
张鹏认为,AI安全,防守永远比破坏更难,需要大家一起共同努力。
“我相信这个事情更重要的意义并不是我们现在能拿出多么安全的技术、方法或者管理规定去约束大家不要做这件事情,而是增强大家对这件事情的了解,对这件事情统一的认识,大家能够坐下来正面面对这些问题,把这些问题摆在桌面上来,希望更多人一起参与讨论这件事情,总有解决问题的办法。”
李大海则认为,现阶段的安全主要聚焦在基础安全跟内容安全上。当前的大模型本质上是只读的,无论是训练阶段还是推理阶段,模型的权重都是固定的,不会受到推理过程的影响。权重的更新是在模型训练的离线阶段完成的。然而,设想未来某一天,当我们将模型集成到机器人或其他终端设备上,使其能够根据实时数据动态调整权重,那时,AI的安全性将成为一个至关重要的议题。"
6.价格战是好事?
最后一个话题是近期的价格战。
杨植麟表示,这是一个非常关键的问题。如果将时间线拉长,最终一切都将回归到价值本身。
杨植麟有三个基本判断:“首先,随着时间的推移,我们在推理上的算力投入可能会在某个点显著超过训练算力。这将标志着价值的释放,之前训练的成本将得到覆盖。
其次,从消费者的角度来看,推理成本可能会显著低于获客成本。这意味着,从商业本质上讲,可能不会与以往的商业模式有根本的不同。
第三,目前AI在整个工作流程中的占比仍然很低,可能只有1%。也就是说,人类所做的工作远远多于AI。但在未来某个时点,AI所做的工作可能会超过人类。这时,它可能会催生新的商业模式,而不仅仅是目前B端通过API进行的价格战。可能是一个普惠的AI,根据其产生的价值进行分成的商业模式。这三个观点可能会对商业模式或ROI产生重要影响。”
王小川则认为,今天的价格战对中国发展大模型非常有益,他对此持积极态度。
首先,价格战是一种市场行为,是竞争导向的,至少带来两个积极结果:一是更多的公司和人开始使用大模型,许多之前不了解的企业现在开始免费使用POC,这使得大模型在中国迅速普及。
二是之前存在许多浪费。王小川观察到,许多有技术能力的企业都想自己训练一些大模型,甚至来找百川联合训练。他们本应是大模型的用户和消费者,却想转型成为供给方。有了价格战之后,许多企业开始清醒,重新考虑自己的定位和竞争优势,退回到成为大模型的用户,减少了浪费。这既促进了启蒙,也减少了对社会资源的消耗。更多的企业能够在市场中找到自己的定位,专注于自己的优势。
张鹏首先澄清了智谱AI并非这轮价格战的发起方。智谱AI一直坚持的是ROI,即给用户带来最大的收益价值,但是使用的技术和创新降低使用成本。
智谱AI推出的价格在很长一段时间内都是行业内极低的,因为技术确实能够做到这一点,能够释放成本空间。从宏观角度来看,这对中国大模型产业是有利的,让更多人使用,让大模型成为基础设施。基础设施意味着非常便宜,随时可用,不需要特别计较投入和收益。
张鹏表示:“智谱AI最近发布的新模型,成本压得非常低,甚至都不好意思报价了,难道单位价格要用厘吗?所以调整为每100万Token几分钱。这对整体产业是有好处的,但我们也要注意,不要过分关注或宣扬这件事情。商业上,牺牲企业短期成本,亏本经营不是正常的商业逻辑,只能持续很短的时间。最终,还是要回归到用户价值和生产力价值。”
面壁智能聚焦在端侧模型,因为看到了端侧更早更快落地的潜力。
李大海表示,最近有机构调研发现,全国10亿用户的手机端侧算力相当于约100万片A100,这是一个惊人的数字。如果能够充分利用不同手机上的算力,许多应用就可以落地。当然,在当前和未来的阶段,端侧和云侧模型需要良好协同。端侧有其优势,如更好的隐私保护和可靠性,但云上的模型在性能上肯定优于端侧。
李大海认为,当前的价格战多少有一些营销的成分,但他相信未来的竞争会更加健康,大家都能有利润,这才能真正推动各行各业的应用落地。
(封面图及文中图片来源:2024北京智源大会)
END.
精彩评论