AI计算爆发!吴泳铭力挺GPU计算,CPU真要沦为配角了?

9月19日,2024云栖大会中杭州如约召开,作为阿里云的年度重磅活动之一,云栖大会以引领计算技术创新为核心,致力于推动云计算、大数据、人工智能等前沿技术的发展与应用。

 

作为关注AI硬科技的头部新媒体,雷科技也应邀出席云栖大会,大会的开幕演讲由阿里集团 CEO、阿里智能云董事长兼 CEO 吴泳铭主持,而在整个主旨演讲中,最令人印象深刻的莫过于这段话:

生成式AI 改变计算架构,从 CPU 主导的计算体系到 GPU 主导的 AI 计算迁移。AI 时代将是“GPU算力为主,CPU算力为辅”的计算模式。2024年市场新增算力,超过50%的需求AI驱动产生,这一趋势将持续扩大。阿里云投资建设了大量的 AI计算基础设施,依然远远无法满足客户需求。

(图源:2024云栖大会)

没错,GPU计算,就是未来。

 

CPU曾是数字世界的基石

 

在过去几十年里,从云端服务器到超级计算机,CPU一直都充当着计算体系核心的责任。比如著名的天河一号,就采用了14336个商用处理器、7168个加速处理器和2048个自主飞腾-1000处理器,这些处理器基本是「CPU」,也就是“逻辑处理器”。

图源:维基百科

  

CPU主要被设计用于处理通用计算任务,进行复杂的逻辑运算和顺序运算。你可以将CPU看作是一个大学生,他有着足够的逻辑推算能力来处理各种复杂的任务,但是每次只能处理一个任务,也就是所谓的「单线程」。

 

虽然在后续的CPU设计中,工程师通过指令集、CPU架构等方式,让CPU可以同时处理两个工作(双线程),却已然是当下的极限。而且CPU在处理任务时,仍然需要先处理完手头的工作,再进入下一个工作流程,也就是「顺序执行」。

 

逻辑运算与顺序执行,构成了CPU的通用计算基础,只要你输入的程序符合CPU的运算逻辑,那么CPU所给出的计算结果都是一样的,并不会因为你使用的是AMD,他使用的是英特尔,所以你的1+1=2,他的1+1=3。

 

得益于强大的通用计算能力,CPU成为人类构建通用型计算中心时的首选,因为计算中心的设计初衷就是用来执行不同领域的计算任务。而服务器则是承担着为云端应用提供数据交换和计算等支持,为了使其能够适应不同类型的应用运算,通用计算能力就是关键。

图源:veer

GPU计算:从图形渲染到驱动AI

 

最近两年,一切都发生了翻天覆地的改变,GPU成为大多数新数据中心及超级计算机的核心,GPU算力的增长速度屡屡突破历史记录,企业疯狂采购GPU核心,搭建全新的计算矩阵,而这一切的「元凶」,就是生成式AI。

 

作为近年来最受关注、热度最高的前沿领域,生成式AI有一个特点,那就是对算力的恐怖需求,这个需求不仅体现在训练、优化AI大模型上,更是随着用户数量的增长飙升。生成式AI可以说是人类少有的,从出现到普及耗时最短的前沿科技,现如今每一个接入互联网的人,都可以通过访问通义千问等网站来使用生成式AI。

图源:通义千问

 

庞大的需求催生了数量众多的数据中心,但是也让一部分人对此产生疑惑:为什么要选择GPU而非CPU来搭建AI数据中心?

GPU最初的设计用途是图形渲染任务,这决定了其需要更强大的并行任务处理能力。以游戏为例,当你在游戏中看到一个箱子,实际上你看到的是一个由大量三角形组成的3D模型,如果你玩过早期的3D游戏,那么你肯定会对游戏中“有棱有角”的角色有着深刻印象。

图源:推特

 

实际上,这个问题就是因为早期的GPU算力不足,只能进行百位数的三角形运算,无法满足构建「光滑」模型的要求。随着GPU的运算性能加强,当我们可以在一秒的时间里渲染出千万级的三角形并组成3D模型,那么在游戏玩家的眼中,这个模型就有着非常真实的视觉效果,也就是「拟真级」精细建模。

 

因为需要处理的任务简单(生成三角形并着色),但是任务数量却非常多(千万级),导致GPU成为一个偏科生。论对单个数据的处理能力,GPU与CPU的对比就像是小婴儿与大学生,区别在于GPU是上千万个“小婴儿”的集合,而CPU则是几十个大学生的集合。

 

当我们需要执行一个将1000万个“三角形”从左边移动到右边的任务时,GPU和CPU谁的效率会更高?GPU的并行计算能力,也是其能够处理复杂3D模型渲染的关键。

 

而在生成式AI诞生后,人们发现GPU的并行计算能力,远比CPU要更适合进行AI运算,其中的原因则与AI大模型的底层结构有关。虽然在我们的眼中,AI大模型根据数据集群的不同,可以生成文字、图画、音乐等各种类型的结果,但是在实际运算中,所有数据其实都以一种形式存在——Token,也就是「最小语义单元」。

 

当你输入一段文字时,应用程序会将文字拆解为数以万计的Token,然后再丢到处理核心中进行计算。这个过程是否很眼熟?没错,整个逻辑与GPU渲染一个箱子其实是一样,将一个任务拆分成大量的小任务,然后根据AI模型的逻辑推理来整合结果并输出答案。

 

可以说,在AI时代的数据中心里,GPU就是整个AI算力矩阵的核心,其重要性要远远超过CPU,而掌握着最先进GPU的厂商,将成为半导体领域的无冕之王。

 

GPU为王、CPU为辅,群雄逐鹿AI计算

 

在目前的AI市场中,大多数人都认可一个观点:英伟达就是AI算力的代名词。不管是每秒可以进行数十万亿次浮点运算的H100,还是目前最强的消费级AI显卡RTX 4090,都让英伟达成为商业领域和消费领域无可争议的NO.1。

 

特别是在消费领域,英伟达已经成为个人AI计算机的唯一选择,其背后的原因就是英伟达的「杀手锏」——CUDA。CUDA是由NVIDIA开发的并行计算平台和编程模型,他的作用是允许开发者利用英伟达GPU的强大并行计算性能来执行通用计算任务。

图源:英伟达

 

看完上一章节的朋友,估计会有点蒙,为什么要用GPU来执行通用计算任务?这不是CPU的工作吗?没错,通用计算任务确实是CPU的强项,但是俗话说得好:三个臭皮匠,顶个诸葛亮。当GPU的并行算力强大到一定程度,那么只要有一个可以进行任务转换的模型,就可以将GPU算力运用在通用计算任务里。

 

与此同时,英伟达还为CUDA提供了丰富的工具和库,以及各种运算模型,让使用英伟达GPU的开发者可以大幅度节省开发时间,并且更好地发挥GPU性能。正是利用CUDA对并行算力的支配,使得英伟达GPU可以在个人电脑里有效执行各种通用计算任务,为用户提供足以支撑本地AI大模型部署的AI算力。

 

那么AMD就没有类似的工具吗?其实是有的,名为ROCm,ROCm的前身Radeon Open Compute其实早在2016年就已经发布,主要用于通用 GPU 计算(GPGPU)、高性能计算(HPC)和异构计算等领域。但是因为缺乏足够的支持,所以生态规模远远无法与CUDA相比,而在生成式AI爆火之后,AMD很快就意识到了Radeon Open Compute的重要性,将其更名为ROCm并投入大量的资源进行更新。

 

图源:AMD

作为一个AMD显卡用户,其实在过去的两年里是可以明显感受到AMD在AI领域的进步,曾经只能通过转译方式运行本地AI模型的AMD显卡,如今已经可以借助ROCm的工具,实现原生本地AI模型部署和运算,效率和算力都有着质的变化。

 

虽然还无法与CUDA相比,但是已经让人看到了些许的希望,更何况从价格上来说,性能相近的AMD显卡价格往往只要英伟达显卡的80%甚至70%。这也意味着AMD只要可以解决通用计算模型的问题,那么就可以为个人及小型企业提供更具性价比的选择,吃下相当一部分AI显卡市场。

不过在ROCm成熟之前,英伟达都仍然会是消费级AI市场的最佳选择。

 

与消费级市场不同的是,AMD在服务器市场的增长却十分迅猛,Data Center Dunamics的数据显示,2024年第一季度,AMD的数据中心业务创下内部收入的新纪录,同比增长达38%。而在第二季度,AI服务器的出货量同比增长41.5%,占整体出货量的12.2%。

 

虽然从整体的市场份额来看,英伟达仍然占据着90%以上的市场,但是AMD也并非唯一的挑战者。

 

谷歌前段时间推出的TPU(Tensor Processing Unit)芯片就专门用于加速机器学习和深度学习任务,采用Arm架构设计,在性能和能效上都有出色表现,已经被运用在谷歌的多项AI服务中。

 

而英特尔则是通过收购Habana Labs拿到了Gaudi AI加速器,结合新一代至强处理器的AI加速功能,紧密布局CPU AI领域。这个市场的规模同样不小,因为并非所有数据中心都以AI为核心应用,新一代CPU数据中心可以更好地兼顾通用型计算任务和AI计算任务,减少重复建设数据中心的成本与维护花销。

 

此外,英特尔也一直在关注移动PC的AI需求,这是英伟达目前最为弱势的市场,因为英伟达GPU虽然有着出色的AI算力,代价却是极高的功耗,无法满足移动PC的长续航要求,这就为英特尔等厂商留下了可乘之机。

 

在今年的IFA上,英特尔就推出了内置新一代NPU(AI加速核心)的酷睿Ultra 200v系列处理器,提供强大算力支持的同时还兼顾了长续航等要求,与高通等新一代Arm PC处理器在AI PC市场展开激烈争夺。

 

短时间来看,英伟达在AI算力市场的优势仍然巨大,但是长远来看,群狼环伺之下的AI市场,英伟达双拳难敌四手。诸如移动PC、智能终端等英伟达的弱势市场,很快就会被其他厂商瓜分干净,而关键的服务器市场也并非高枕无忧,AMD的MI300系列AI显卡份额增长迅速,已经足够引起英伟达的警觉。

 

不过,竞争所带来的创新与发展,才是科技进步的关键,随着AI领域的竞争加剧,实际上也在推动AI成本的下降,让AI技术得到更快、更广泛的应用。最后,我想用吴泳铭先生演讲中的一句话来作为结尾:

AI驱动的数字世界连接着具备AI能力的物理世界,将会大幅提升整个世界的生产力,对物理世界的运行效率产生革命性的影响。

 

一个崭新的世界,近在咫尺。 $阿里巴巴(BABA)$ $英伟达(NVDA)$ $美国超微公司(AMD)$

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论