vivant
2023-12-19
写的太好了 笑死了
NVLink,英伟达的另一张王牌
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
分享至
微信
复制链接
精彩评论
我们需要你的真知灼见来填补这片空白
打开APP,发表看法
APP内打开
发表看法
1
{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":253765977497848,"tweetId":"253765977497848","gmtCreate":1702990986496,"gmtModify":1702990988154,"author":{"id":3480645275647101,"idStr":"3480645275647101","authorId":3480645275647101,"authorIdStr":"3480645275647101","name":"vivant","avatar":"https://static.tigerbbs.com/3ab12bba42752e93c1e14c1dbda2b938","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":5,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":2,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body><p>写的太好了 笑死了</p></body></html>","htmlText":"<html><head></head><body><p>写的太好了 笑死了</p></body></html>","text":"写的太好了 笑死了","highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/253765977497848","repostId":2392998471,"repostType":2,"repost":{"id":"2392998471","kind":"news","pubTimestamp":1702945800,"share":"https://www.laohu8.com/m/news/2392998471?lang=&edition=full","pubTime":"2023-12-19 08:30","market":"us","language":"zh","title":"NVLink,英伟达的另一张王牌","url":"https://stock-news.laohu8.com/highlight/detail?id=2392998471","media":"远川科技评论","summary":"互联,AI芯片的下半场。","content":"<html><head></head><body><p>美国商务部的口风越来越紧,逼得黄式刀法重出江湖:多方证实,英伟达即将推出三款特供版GPU,由于出口管制,性能最强的H20,相较H100算力也大幅缩水80%。</p><p style=\"text-align: justify;\">算力被限制死,英伟达也只能在其他地方做文章。H20的最大亮点落在带宽:</p><p style=\"text-align: justify;\">带宽达到与H100持平的900G/s,为英伟达所有产品中最高。较A100的600G/s,和另外两款特供芯片A800和H800的400G/s大幅提高。</p><p style=\"text-align: justify;\"><strong>阉割算力,提升带宽。看似割韭菜,实则含金量不低。</strong></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/50002a5e03fedb756fec9a8b42314602\" alt=\"H20踩着红线免受制裁\" title=\"H20踩着红线免受制裁\" tg-width=\"1080\" tg-height=\"1051\"/><span>H20踩着红线免受制裁</span></p><p style=\"text-align: justify;\">简单来说,带宽的大小决定了单位时间向GPU传输的数据总量。<strong>考虑到人工智能对数据吞吐能力病态的要求,如今衡量GPU的质量,带宽已经成为算力之外最重要的指标。</strong></p><p style=\"text-align: justify;\">另一方面,云服务公司和大模型厂商不是只买几颗芯片,而是一次性采购几百上千张组成集群,芯片之间的数据传输效率也成了迫在眉睫的问题。</p><p style=\"text-align: justify;\">GPU和GPU之间的数据传输问题,让英伟达在<strong>芯片算力</strong>、<strong>CUDA生态</strong>之外的另一张王牌浮出了水面:<strong>NVLink</strong>。</p><p style=\"text-align: justify;\"><strong>数据传输,算力的紧箍咒</strong></p><p style=\"text-align: justify;\">要理解NVLink的重要性,首先要了解数据中心的工作原理。</p><p style=\"text-align: justify;\">我们平时玩游戏,一般只需要一块CPU加一块GPU。但训练大模型,需要的是成百上千个GPU组成的“集群”。</p><p style=\"text-align: justify;\">Inflection曾宣称他们正在构建的AI集群,包含多达22000张 NVIDIA H100。按照马斯克的说法,GPT-5的训练可能需要3万到5万张H100,虽然被Altman否认,但也可以窥见大模型对GPU的消耗。</p><p style=\"text-align: justify;\">特斯拉自家的超算Dojo ExaPod,就是由多个Cabinet机柜组成,每个机柜里有多个训练单元,每个训练单元都封装了25个D1芯片。一整台ExaPod包含3000个D1芯片。</p><p style=\"text-align: justify;\">但在这种计算集群中,会遇到一个严峻的问题:<strong>芯片彼此独立,如何解决芯片之间的数据传输问题?</strong></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/185383e60753a0cb967d1525e25d00c9\" alt=\"特斯拉的超算ExaPOD\" title=\"特斯拉的超算ExaPOD\" tg-width=\"1080\" tg-height=\"563\"/><span>特斯拉的超算ExaPOD</span></p><p style=\"text-align: justify;\">计算集群执行任务,可以简单理解为CPU负责下达命令,GPU负责计算。这个过程可以大概概括为:</p><p style=\"text-align: justify;\"><strong>GPU先从CPU那里拿到数据——CPU发布命令,GPU进行计算——GPU计算完成,将数据回传给CPU。如此循环往复,直到CPU汇总所有计算结果。</strong></p><p style=\"text-align: justify;\">数据一来一回,传输效率就至关重要。如果有多个GPU,GPU之间还要分配任务,这又涉及到数据的传输。</p><p style=\"text-align: justify;\"><strong>所以,假设一家公司买下100颗H100芯片,它拥有的算力并不是100颗芯片的算力简单相加,还要考虑到数据传输带来的损耗。</strong></p><p style=\"text-align: justify;\">一直以来,数据传输的主流方案是的<strong>PCIe</strong>。2001年,英特尔提出以PCIe取代过去的总线协议,联手20多家业内公司起草技术规范,英伟达也是受益者。但时至今日,PCIe的缺点变得越来越明显。</p><p style=\"text-align: justify;\"><strong>一是数据传输效率被算力的提升远远甩在了后面。</strong></p><p style=\"text-align: justify;\">从2001年到2017年,运算设备的算力提高了5000倍。同期,PCIe迭代到4.0,带宽(单通道)只从250MB/s提高到2GB/s,提升只有8倍。</p><p style=\"text-align: justify;\">算力的传输之间的巨大落差,导致效率大幅降低。就像摆了一桌满汉全齐,餐具就给一个挖耳勺,怎么吃都不痛快。</p><p style=\"text-align: justify;\"><strong>二是人工智能暴露了PCIe的设计缺陷。</strong></p><p style=\"text-align: justify;\">在PCIe的设计思路里,GPU之间的数据传输都必须经过CPU。换句话说就是GPU1想和GPU2交换数据,都得由CPU来分发。</p><p style=\"text-align: justify;\">这在以前不是什么问题,但人工智能主打一个大力出奇迹,计算集群里GPU数量迅速膨胀。如果每个GPU都要靠CPU传话,效率就大大降低了。用大家很熟悉的话来形容,就是“你一个人耽误一分钟,全班同学就浪费了一个小时”。</p><p style=\"text-align: justify;\">大幅提高PCIe的带宽,不太符合英特尔挤牙膏上瘾的人设。大幅提高CPU的处理能力是个办法,但英特尔要是有这个本事,英伟达和AMD活不到今天。</p><p style=\"text-align: justify;\">于是,深感时不我待的英伟达动了另起炉灶的心思。</p><p style=\"text-align: justify;\">2010年,英伟达推出GPU Direct shared memory技术,通过减少一次复制的步骤,加快了GPU1-CPU-GPU2的数据传输速度。</p><p style=\"text-align: justify;\">次年,英伟达又推出GPU Direct P2P技术,直接去掉了数据在CPU中转的步骤,进一步加快传输速度。</p><p style=\"text-align: justify;\">只是这些小幅度的技术改良,都基于PCIe方案。</p><p style=\"text-align: justify;\">和CUDA一样,PCIe的竞争力在于生态。所谓“生态”,核心就是“大家都在用你凭什么搞特殊”。由于大多数设备都采用PCIe接口,就算英伟达想掀桌子,其他人也得掂量掂量兼容性问题。</p><p style=\"text-align: justify;\">转折点出现在2016年,AlphaGo 3:0战胜李世石,GPU一夜之间从荼毒青少年的游戏显卡变成了人工智能的科技明珠,英伟达终于可以光明正大的进村了。</p><p style=\"text-align: justify;\"><strong>NVLink,解开PCIe封印</strong></p><p style=\"text-align: justify;\">2016年9月,IBM发布Power 8服务器新版本,搭载英伟达GPU:</p><p style=\"text-align: justify;\">两颗Power 8 CPU连接了4颗英伟达P100 GPU,其中数据传输的纽带从PCIe换成了英伟达自研NVLink,带宽高达80G/s,通信速度提高了5倍,性能提升了14%。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/426133a492edbfb232476633f83eae59\" alt=\"Power8+P100架构\" title=\"Power8+P100架构\" tg-width=\"1080\" tg-height=\"840\"/><span>Power8+P100架构</span></p><p style=\"text-align: justify;\">同时,NVLink还实现了GPU-GPU之间的直接传输,不带PCIe玩了。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/3e184c3620eda553070a650c5770bf74\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"1226\"/></p><p style=\"text-align: justify;\">2017年,基于Power8+P100的模型在22K的ImageNet数据集上实操了一把,识别准确率达到33.8%,虽然准确率相比前一年只提高了4%,但训练时间从10天大幅缩短到了7小时。</p><p style=\"text-align: justify;\">小试牛刀效果不错,老黄也不准备再装了。</p><p style=\"text-align: justify;\">从2017年的Volta架构开始,英伟达给每一代GPU都搭配了基于NVLink方案的NVSwitch芯片,用来处理GPU之间的数据传输。</p><p style=\"text-align: justify;\">NVLink和NVSwitch的关系,可以简单理解为:<strong>NVLink是一种技术方案,NVSwitch和NVLink交换机都是这种方案的载体。</strong></p><p style=\"text-align: justify;\">目前最新的DGX H100服务器中,每台服务器拥有8个H100 GPU、4个NVSwitch芯片相互连接。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/3e043ccaab8fdcd7109bab93101df6fc\" alt=\"带有标注的NVSwitch芯片裸片\" title=\"带有标注的NVSwitch芯片裸片\" tg-width=\"1080\" tg-height=\"312\"/><span>带有标注的NVSwitch芯片裸片</span></p><p style=\"text-align: justify;\">在DGX H100服务器发布的同时,英伟达还发布了搭载两个NVSwitch芯片的NVLink交换机,用来处理DGX H100服务器之间的数据传输。</p><p style=\"text-align: justify;\">也就是说,NVLink不仅负责DGX服务器内部8个GPU的连通,也负责整个服务器之间每个GPU的数据传输。</p><p style=\"text-align: justify;\">按照英伟达的设计,一个H100 SuperPOD系统,会用到32台服务器总共256个H100 GPU,算力高达1EFlops。每套系统搭配18台NVlink交换机,加起来就是128个NVSwitch芯片。</p><p style=\"text-align: justify;\"><strong>如上文所说,一个集群的算力并不是每个GPU算力的简单相加,服务器间的数据传输效率是主要的制约因素。当集群的规模越来越大,NVLink的重要性也就越来越强。</strong></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/894d54396bcf35135363ac5730923907\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"898\"/></p><p style=\"text-align: justify;\">NVLink渐成气候,老黄的野心也逐渐成型:和PCIe拉帮结派搞生态不同,NVLink必须绑定英伟达的芯片使用。当然,考虑到PCIe的既定生态,H100系列中也有多个支持PCIe的版本。</p><p style=\"text-align: justify;\">为了扩张自己的势力范围,英伟达还推出了基于Arm架构的Grace服务器CPU,用英伟达的CPU+英伟达的GPU+英伟达的互联方案,捆绑在一起,统一数据中心市场。</p><p style=\"text-align: justify;\">有了这一层铺垫,就不难理解H20的杀伤力。</p><p style=\"text-align: justify;\">虽然算力被砍了一大截,应付不了大参数的模型训练,但H20本身的高带宽和NVLink的加持,可以组成更大的集群,在一些小参数模型的训练和推理上,反而更具性价比。</p><p style=\"text-align: justify;\"><strong>在英伟达的示范下,AI的内卷也算力转向了互联技术。</strong></p><p style=\"text-align: justify;\"><strong>互联,AI芯片的下半场</strong></p><p style=\"text-align: justify;\">2023年11月,AMD发布预告已久的MI300系列,直接对标英伟达H100。</p><p style=\"text-align: justify;\">发布会上,除了例行的纸面算力比较外,Lisa Su重点强调了MI300带宽上的遥遥领先:MI300X带宽高达5.2TB/s,比H100还要高1.6倍。</p><p style=\"text-align: justify;\">这是实话,不过得先挤挤水分。</p><p style=\"text-align: justify;\">Lisa Su用来与MI300X比较的是H100 SXM版,但性能更高的H100 NVL版通过NVLink集成两颗GPU带宽达到7.8TB/s,仍高于MI300X的。</p><p style=\"text-align: justify;\">但这足见AMD对带宽的重视程度,以及AI芯片竞争的新焦点:<strong>互联技术</strong>。</p><p style=\"text-align: justify;\">英伟达发布NVLink的几个月后,AMD就推出了高速互联技术Infinity Fabric,提供CPU-CPU之间最高到512GB/s的带宽,后又扩展到GPU-GPU、CPU-GPU互联。</p><p style=\"text-align: justify;\">看着两大竞争对手甩开带宽的包袱放飞自我,英特尔作为PCIe的带头大哥,自然心情复杂。</p><p style=\"text-align: justify;\">2019年,英特尔联手戴尔、惠普等推出新的互联标准CXL,本质与NVLink和Inifinity Fabric一样,都是为了摆脱带宽掣肘,2.0标准最高带宽可达到32GT/s。</p><p style=\"text-align: justify;\">英特尔的心机在于,由于CXL是基于PCIe扩展的,因此和PCIe接口兼容。也就是说,过去用PCIe接口的设备可以“无痛”改用CXL,生态大法又立了大功。</p><p style=\"text-align: justify;\"><strong>芯片巨头围绕互联技术斗得正欢,转而自研芯片的AI大厂,也在解决互联问题。</strong></p><p style=\"text-align: justify;\">谷歌在自家TPU上采用了自研的光电路交换机技术(OCS),甚至还自研了光路开关芯片Palomar,只为了提高数据中心里几千颗TPU之间的通信速度。特斯拉也自己开发了通信协议,处理Dojo内部的数据传输。</p><p style=\"text-align: justify;\">回到本文开头,也正是这种差距,才让NVLink成为了英伟达的新“刀法”。</p><p style=\"text-align: justify;\">大模型所需的算力,并非国产AI芯片不可触及,但数据传输技术瘸腿依然会造成不可忽视的成本问题。</p><p style=\"text-align: justify;\">举一个不太严谨的例子,来帮助大家理解这个问题:</p><p style=\"text-align: justify;\">假设H20和国产AI芯片的单价都是1万元,一颗H20提供的算力是1,国产芯片提供的算力是2,但考虑到集群规模带来的算力损耗,由于NVLink的存在,H20的损耗是20%,国产芯片是50%,那么一个算力需求100的数据中心,需要125颗H20或是200颗国产芯片。</p><p style=\"text-align: justify;\"><strong>在成本上,就是125万和200万的差距。</strong></p><p style=\"text-align: justify;\">模型规模越大,数据中心所需的芯片越多,成本的差距就越大。要是黄仁勋狠狠心,刀法再犀利些,或许还可以卖出更低的价格。如果你是国内AIGC厂商的采购总监,你怎么选?</p><p style=\"text-align: justify;\"><strong>互联技术上的弱势,创造了英伟达的另一张王牌。</strong></p><p style=\"text-align: justify;\">按照当前的消息,原本11月发布的H20已经延后到明年第一季度,接受预定、出货时间也将顺势延后。延迟发布的原因并不确切,但在H20正式开售前,留给国产芯片的机会窗口,已经在倒计时了。</p><p style=\"text-align: justify;\">英伟达的伟大在于,它以高度的前瞻性,几乎以一己之力开辟了一条人工智能的高速公路。</p><p style=\"text-align: justify;\">而它的成功在于,黄仁勋在每一个你可能经过的车道,都提前修好了收费站。</p></body></html>","source":"lsy1571969218062","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>NVLink,英伟达的另一张王牌</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nNVLink,英伟达的另一张王牌\n</h2>\n\n<h4 class=\"meta\">\n\n\n2023-12-19 08:30 北京时间 <a href=https://mp.weixin.qq.com/s/zpBM1WMzVsaP9z6_8BnXUA><strong>远川科技评论</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>美国商务部的口风越来越紧,逼得黄式刀法重出江湖:多方证实,英伟达即将推出三款特供版GPU,由于出口管制,性能最强的H20,相较H100算力也大幅缩水80%。算力被限制死,英伟达也只能在其他地方做文章。H20的最大亮点落在带宽:带宽达到与H100持平的900G/s,为英伟达所有产品中最高。较A100的600G/s,和另外两款特供芯片A800和H800的400G/s大幅提高。阉割算力,提升带宽。看似割...</p>\n\n<a href=\"https://mp.weixin.qq.com/s/zpBM1WMzVsaP9z6_8BnXUA\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/f51e0887617e5ccdb1f56ab9d6b7e088","relate_stocks":{"NVDA":"英伟达"},"source_url":"https://mp.weixin.qq.com/s/zpBM1WMzVsaP9z6_8BnXUA","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"2392998471","content_text":"美国商务部的口风越来越紧,逼得黄式刀法重出江湖:多方证实,英伟达即将推出三款特供版GPU,由于出口管制,性能最强的H20,相较H100算力也大幅缩水80%。算力被限制死,英伟达也只能在其他地方做文章。H20的最大亮点落在带宽:带宽达到与H100持平的900G/s,为英伟达所有产品中最高。较A100的600G/s,和另外两款特供芯片A800和H800的400G/s大幅提高。阉割算力,提升带宽。看似割韭菜,实则含金量不低。H20踩着红线免受制裁简单来说,带宽的大小决定了单位时间向GPU传输的数据总量。考虑到人工智能对数据吞吐能力病态的要求,如今衡量GPU的质量,带宽已经成为算力之外最重要的指标。另一方面,云服务公司和大模型厂商不是只买几颗芯片,而是一次性采购几百上千张组成集群,芯片之间的数据传输效率也成了迫在眉睫的问题。GPU和GPU之间的数据传输问题,让英伟达在芯片算力、CUDA生态之外的另一张王牌浮出了水面:NVLink。数据传输,算力的紧箍咒要理解NVLink的重要性,首先要了解数据中心的工作原理。我们平时玩游戏,一般只需要一块CPU加一块GPU。但训练大模型,需要的是成百上千个GPU组成的“集群”。Inflection曾宣称他们正在构建的AI集群,包含多达22000张 NVIDIA H100。按照马斯克的说法,GPT-5的训练可能需要3万到5万张H100,虽然被Altman否认,但也可以窥见大模型对GPU的消耗。特斯拉自家的超算Dojo ExaPod,就是由多个Cabinet机柜组成,每个机柜里有多个训练单元,每个训练单元都封装了25个D1芯片。一整台ExaPod包含3000个D1芯片。但在这种计算集群中,会遇到一个严峻的问题:芯片彼此独立,如何解决芯片之间的数据传输问题?特斯拉的超算ExaPOD计算集群执行任务,可以简单理解为CPU负责下达命令,GPU负责计算。这个过程可以大概概括为:GPU先从CPU那里拿到数据——CPU发布命令,GPU进行计算——GPU计算完成,将数据回传给CPU。如此循环往复,直到CPU汇总所有计算结果。数据一来一回,传输效率就至关重要。如果有多个GPU,GPU之间还要分配任务,这又涉及到数据的传输。所以,假设一家公司买下100颗H100芯片,它拥有的算力并不是100颗芯片的算力简单相加,还要考虑到数据传输带来的损耗。一直以来,数据传输的主流方案是的PCIe。2001年,英特尔提出以PCIe取代过去的总线协议,联手20多家业内公司起草技术规范,英伟达也是受益者。但时至今日,PCIe的缺点变得越来越明显。一是数据传输效率被算力的提升远远甩在了后面。从2001年到2017年,运算设备的算力提高了5000倍。同期,PCIe迭代到4.0,带宽(单通道)只从250MB/s提高到2GB/s,提升只有8倍。算力的传输之间的巨大落差,导致效率大幅降低。就像摆了一桌满汉全齐,餐具就给一个挖耳勺,怎么吃都不痛快。二是人工智能暴露了PCIe的设计缺陷。在PCIe的设计思路里,GPU之间的数据传输都必须经过CPU。换句话说就是GPU1想和GPU2交换数据,都得由CPU来分发。这在以前不是什么问题,但人工智能主打一个大力出奇迹,计算集群里GPU数量迅速膨胀。如果每个GPU都要靠CPU传话,效率就大大降低了。用大家很熟悉的话来形容,就是“你一个人耽误一分钟,全班同学就浪费了一个小时”。大幅提高PCIe的带宽,不太符合英特尔挤牙膏上瘾的人设。大幅提高CPU的处理能力是个办法,但英特尔要是有这个本事,英伟达和AMD活不到今天。于是,深感时不我待的英伟达动了另起炉灶的心思。2010年,英伟达推出GPU Direct shared memory技术,通过减少一次复制的步骤,加快了GPU1-CPU-GPU2的数据传输速度。次年,英伟达又推出GPU Direct P2P技术,直接去掉了数据在CPU中转的步骤,进一步加快传输速度。只是这些小幅度的技术改良,都基于PCIe方案。和CUDA一样,PCIe的竞争力在于生态。所谓“生态”,核心就是“大家都在用你凭什么搞特殊”。由于大多数设备都采用PCIe接口,就算英伟达想掀桌子,其他人也得掂量掂量兼容性问题。转折点出现在2016年,AlphaGo 3:0战胜李世石,GPU一夜之间从荼毒青少年的游戏显卡变成了人工智能的科技明珠,英伟达终于可以光明正大的进村了。NVLink,解开PCIe封印2016年9月,IBM发布Power 8服务器新版本,搭载英伟达GPU:两颗Power 8 CPU连接了4颗英伟达P100 GPU,其中数据传输的纽带从PCIe换成了英伟达自研NVLink,带宽高达80G/s,通信速度提高了5倍,性能提升了14%。Power8+P100架构同时,NVLink还实现了GPU-GPU之间的直接传输,不带PCIe玩了。2017年,基于Power8+P100的模型在22K的ImageNet数据集上实操了一把,识别准确率达到33.8%,虽然准确率相比前一年只提高了4%,但训练时间从10天大幅缩短到了7小时。小试牛刀效果不错,老黄也不准备再装了。从2017年的Volta架构开始,英伟达给每一代GPU都搭配了基于NVLink方案的NVSwitch芯片,用来处理GPU之间的数据传输。NVLink和NVSwitch的关系,可以简单理解为:NVLink是一种技术方案,NVSwitch和NVLink交换机都是这种方案的载体。目前最新的DGX H100服务器中,每台服务器拥有8个H100 GPU、4个NVSwitch芯片相互连接。带有标注的NVSwitch芯片裸片在DGX H100服务器发布的同时,英伟达还发布了搭载两个NVSwitch芯片的NVLink交换机,用来处理DGX H100服务器之间的数据传输。也就是说,NVLink不仅负责DGX服务器内部8个GPU的连通,也负责整个服务器之间每个GPU的数据传输。按照英伟达的设计,一个H100 SuperPOD系统,会用到32台服务器总共256个H100 GPU,算力高达1EFlops。每套系统搭配18台NVlink交换机,加起来就是128个NVSwitch芯片。如上文所说,一个集群的算力并不是每个GPU算力的简单相加,服务器间的数据传输效率是主要的制约因素。当集群的规模越来越大,NVLink的重要性也就越来越强。NVLink渐成气候,老黄的野心也逐渐成型:和PCIe拉帮结派搞生态不同,NVLink必须绑定英伟达的芯片使用。当然,考虑到PCIe的既定生态,H100系列中也有多个支持PCIe的版本。为了扩张自己的势力范围,英伟达还推出了基于Arm架构的Grace服务器CPU,用英伟达的CPU+英伟达的GPU+英伟达的互联方案,捆绑在一起,统一数据中心市场。有了这一层铺垫,就不难理解H20的杀伤力。虽然算力被砍了一大截,应付不了大参数的模型训练,但H20本身的高带宽和NVLink的加持,可以组成更大的集群,在一些小参数模型的训练和推理上,反而更具性价比。在英伟达的示范下,AI的内卷也算力转向了互联技术。互联,AI芯片的下半场2023年11月,AMD发布预告已久的MI300系列,直接对标英伟达H100。发布会上,除了例行的纸面算力比较外,Lisa Su重点强调了MI300带宽上的遥遥领先:MI300X带宽高达5.2TB/s,比H100还要高1.6倍。这是实话,不过得先挤挤水分。Lisa Su用来与MI300X比较的是H100 SXM版,但性能更高的H100 NVL版通过NVLink集成两颗GPU带宽达到7.8TB/s,仍高于MI300X的。但这足见AMD对带宽的重视程度,以及AI芯片竞争的新焦点:互联技术。英伟达发布NVLink的几个月后,AMD就推出了高速互联技术Infinity Fabric,提供CPU-CPU之间最高到512GB/s的带宽,后又扩展到GPU-GPU、CPU-GPU互联。看着两大竞争对手甩开带宽的包袱放飞自我,英特尔作为PCIe的带头大哥,自然心情复杂。2019年,英特尔联手戴尔、惠普等推出新的互联标准CXL,本质与NVLink和Inifinity Fabric一样,都是为了摆脱带宽掣肘,2.0标准最高带宽可达到32GT/s。英特尔的心机在于,由于CXL是基于PCIe扩展的,因此和PCIe接口兼容。也就是说,过去用PCIe接口的设备可以“无痛”改用CXL,生态大法又立了大功。芯片巨头围绕互联技术斗得正欢,转而自研芯片的AI大厂,也在解决互联问题。谷歌在自家TPU上采用了自研的光电路交换机技术(OCS),甚至还自研了光路开关芯片Palomar,只为了提高数据中心里几千颗TPU之间的通信速度。特斯拉也自己开发了通信协议,处理Dojo内部的数据传输。回到本文开头,也正是这种差距,才让NVLink成为了英伟达的新“刀法”。大模型所需的算力,并非国产AI芯片不可触及,但数据传输技术瘸腿依然会造成不可忽视的成本问题。举一个不太严谨的例子,来帮助大家理解这个问题:假设H20和国产AI芯片的单价都是1万元,一颗H20提供的算力是1,国产芯片提供的算力是2,但考虑到集群规模带来的算力损耗,由于NVLink的存在,H20的损耗是20%,国产芯片是50%,那么一个算力需求100的数据中心,需要125颗H20或是200颗国产芯片。在成本上,就是125万和200万的差距。模型规模越大,数据中心所需的芯片越多,成本的差距就越大。要是黄仁勋狠狠心,刀法再犀利些,或许还可以卖出更低的价格。如果你是国内AIGC厂商的采购总监,你怎么选?互联技术上的弱势,创造了英伟达的另一张王牌。按照当前的消息,原本11月发布的H20已经延后到明年第一季度,接受预定、出货时间也将顺势延后。延迟发布的原因并不确切,但在H20正式开售前,留给国产芯片的机会窗口,已经在倒计时了。英伟达的伟大在于,它以高度的前瞻性,几乎以一己之力开辟了一条人工智能的高速公路。而它的成功在于,黄仁勋在每一个你可能经过的车道,都提前修好了收费站。","news_type":1},"isVote":1,"tweetType":1,"viewCount":734,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":16,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/253765977497848"}
精彩评论