英伟达GTC的一小步,AI进化史的一大步

出门问问
04-12

一个由AI驱动的未来世界是什么样?

英伟达GTC 2024大会交出了一份答卷——不仅推出最新架构的芯片及其算力集群,更在AI软件方面做了全栈升级;最新的数字孪生产品和机器人大模型让“虚拟人”和“具身智能”的热度再次提升;黄老板的主题演讲、李飞飞的“炉边谈话”以及“Transformer八子”的戏剧性对谈,将大会的关注度拉到前所未有的高点。

纵观英伟达的本次GTC大会,可以发现两个鲜明的趋势:一是软硬件同步发力,“加速推理”成为新产品的主基调;二是更加“All in AI”,在AI生态所能涉及到的各个方面全方位布局,以AI全生态 leader 的形象和地位屹立于世。

如同提起台积电,就让人联想到高精尖的n纳米芯片;很久以来,一提到英伟达,很多人认为他是那位隔壁造“卡”卖“卡”的暴发户,随着对GPU的需求激增发了AI财。这固然并非完全不对,但把如今的英伟达仅视为一位GPU硬件制造商,已未免狭隘。

的确,英伟达以GPU起家,从动力角度,几乎以一己之力推动了人工智能深度学习的革命,尤其是近年来的大模型创新。作为其底层发动机,遵循 scaling law,在大数据和大模型之上,“大力出奇迹”才有了大算力的保障。

英伟达不仅坐稳了GPU算力的宝座,并且不断自我逾越,保持GPU更新迭代在快车道前行,作为一家世界级前瞻企业,黄仁勋一直在AI软硬件全生态布局,以领导者的角色定位自己。

英伟达的AI全生态链有着某种超然的色彩,以一种对各友商兼容并蓄的姿态面对生态圈——毕竟几乎每一位实力玩家目前都对英伟达的GPU有需求。以自动驾驶硬件包为例,展厅上两大排展出了英伟达与20多家自动驾驶企业合作的产品,蔚为大观。

本次GTC具体发布了哪些产品?这些产品对于AI行业的发展有着什么意义?英伟达在AI领域布局的战略调整背后又有哪些核心考量?此文试予阐释。

01.

软硬件齐发力,更强算力、更易操作

去年3月,英伟达推出新H100,让大模型推理提速30倍,大力推动了大模型的平民化。

此次GTC,最王炸的产品自然是有着更强大Blackwell架构的B200 GPU,被英伟达称为“世界上最强大的芯片”

新的B200 GPU 拥有 2080 亿个晶体管,内置第二代Transformer引擎,第五代NVLink为每个GPU提供了突破性的1.8TB/s双向吞吐量;它还包含一个专用的RAS引擎,同时增加了机密计算功能和解压缩引擎。这些技术升级使其能够提供高达 20petaflops 的 FP4 算力,性能比上一代提高了五倍,成本和能耗降低了25倍。

而 GB200 超级芯片则由两个B200 GPU 和一个 Grace CPU 结合在一起,GB200的性能是H100的7倍,训练速度是H100的4倍。

黄仁勋在现场表示,“训练一个1.8万亿参数的大模型,之前需要8000个Hopper GPU和15兆瓦的功率。如今,2000个Blackwell GPU就可以做到这一点,而功耗仅为4兆瓦。”

除了B200 GPU和BG200 超级芯片,英伟达还发布了一系列算力集群产品——NVIDIA GB200 NVL 72,通用AI超级计算平台NVIDIA DGX B200,和新一代AI超级计算机DGX SuperPOD。

NVIDIA GB200 NVL72可以处理多达 27 万亿个参数的模型,对于LLM推理工作负载的性能提升高达30倍,成本和能耗降低高达25倍。

英伟达还发布了用于AI模型训练、调优和推理的通用AI超级计算平台NVIDIA DGX B200 系统,使得万亿参数模型实时推理速度比上一代产品提升了15倍。

图片

而新一代AI超级计算机DGX SuperPOD则由8个或以上的DGX GB200 系统构建而成,这些系统通过 NVIDIA Quantum InfiniBand 网络连接,可扩展到数万个GB200超级芯片。提供了海量共享显存空间,来赋能下一代 AI 模型。

每个DGX GB200系统搭载有36个GB200超级芯片,共包含36颗Grace CPU和72颗Blackwell GPU。这些超级芯片通过第五代NVLink连接成一台超级计算机。与NVIDIA H100 Tensor Core GPU 相比,GB200 超级芯片在大语言模型推理工作负载方面的性能提升了高达30倍。

这种量级上的性能提升意味着什么?

它意味着老黄在通向AGI的道路上,领导英伟达给作为AI主流的暴力美学和AGI的信奉者兑现了不言自明的一个承诺——GPU 在大模型的隔代升级中不做瓶颈。

这是一个非常豪迈的承诺,因为芯片的升级越来越临近单片的物理极限了。

除了在硬件层面接连祭出“大杀器”,在软件层面,英伟达也发布了好几款产品。

首先是推出一系列推理微服务NiM。随着AI技术的发展,企业需要越来越快速、高效地将生成式AI集成到自己的产品和服务中,英伟达推出的NiM微服务正是为了满足这一需求。它利用英伟达的CUDA GPU平台,为企业提供了一系列工具和服务,以便他们能够更容易地开发和部署AI应用,同时保留对知识产权的完整所有权和控制权。这为众多不懂大模型但又需要借力大模型来为场景应用降本增效的用户,提供了轻量级的新平台。

总的来说,NiM微服务就像是一个工具箱,通过简化的界面和操作流程,给想要部署生成式AI的企业提供了一套快速搭建和运行AI及其大模型应用的工具。

随着AI逐渐从训练走向大规模推理应用,NiM的推出或许是英伟达在AI领域的一个重要里程碑。正如黄仁勋所说,“成熟的企业平台坐拥一座数据金矿,这些数据可以转化为生成式AI助手”。

虽然此前微软、谷歌等大厂也推出了面向企业应用的各类平台和工具箱,英伟达依托自家硬件及其加速优势的NiM微服务无疑为客户提供又一个有竞争力的平台选项。

除了NIM,英伟达还宣布推出新的、基于 Nvidia CUDA-X 微服务的加速软件开发套件、库和工具,用于检索增强生成(RAG)、护栏、数据处理、高性能计算等任务。

同时,英伟达对 Nvidia Edify 平台进行了重大更新,用于可视化生成式 AI 工作负载的多模态架构,更新后的Nvidia Edify 获得了3D 资产生成功能,以及对生成式 AI 图像生成的更多控制。

通过观察上述产品我们可以看到,无论是能提供更大算力、更低单位成本的硬件产品还是能让部署模型更为简便的软件产品,英伟达都着重强调了以下几点:更大的显存、更快的计算、更低的时延、更快的部署。

而这一切,都指向了推理能力。

02.

推理:英伟达补齐短板的一把利剑

英伟达为什么如此重视大模型的“推理”?

市场需求是绝对的第一性原理。

本次GTC大会上,黄仁勋在演讲中说了这么一句话:“我想强调的是,使用加速计算技术,非IT行业正在AI领域取得突破,解决行业特定问题,预示着一个高达100万亿元的产业新纪元。”

怎么理解“加速计算带来的产业新纪元”?

推理需求会爆发,也必须爆发。随着多模态大模型的到来,我们即将迎来一个AI应用井喷的时代。

这也是英伟达在此次GTC大会上推出一系列推理GPU和推理软件的原因。早在之前的财报电话会上,英伟达就16次强调了“推理(inference)”这个词;黄仁勋也透露,英伟达目前的业务还是以训练为主,推理只占收入的40%。

老黄在多种场合强调了我们处在时代的转折点上,从搜索的时代进入AI生成(i.e.推理)的时代,这是生成式AI的本性。

如果能够吃下“推理”这块市场,那么英伟达就能打破人们对其“硬件厂商”的固有印象,将触角直接伸入软件和下游应用领域,从客户收入中获取分成,实现比单卖GPU更大的营收。

这也是为什么NiM如此重要的原因——它就像是英伟达在AI推理领域的“CUDA”,将优化的推理引擎、行业标准API和工具链,包括检索增强生成(RAG)技术,统统打包到一起,从开源模型到专有模型,都可以在任何有英伟达GPU的地方运行,无论它在云端服务器,还是在本地笔记本电脑上。让缺乏AI开发经验的传统企业,可以通过与AI聊天的形式,直接简单地部署自己的大模型。

NiM是英伟达下一代推理战略的基础,它相当于构建了一个全新的、无所不在的AI操作系统,模型开发者可以通过NiM部署、推广自己的产品,进而将其扩展到所有需要英伟达GPU的地方。平台和操作系统是跟着用户使用习惯走的,其弃用成本比任何硬件和GPU都要高。

此外,当前的多数大模型所采用的Transformer架构在推理方面的不足,是英伟达想要加强推理的另一个原因。

在本次GTC大会上,非常引人注目的一个事件就是黄仁勋与《Attention is All You Need》论文的八位作者、“Transformer八子”的对谈。在对谈中,作者之一、Cohere联合创始人兼CEO Aidan Gomez 提出了一个非常“辛辣”的观点——世界需要比Transformer更好的东西。

他的观点确实一针见血。尽管Transformer架构具有非常规模化的理解、生成能力,也凭借此特质成为了所有大模型的通用架构,但是大多数Transformer为基础的推理过程是自回归的,要一个词一个词地进行预测,这种繁复的计算方法让Transformer架构的推理效率比较低下,同时成本也很高。

因此,当前大语言模型在推理阶段面临的最大两个挑战就是:

一是计算资源的巨大需求(需要更大算力和数据的支持,以及更低的成本);

二是计算效率低下(或许需要更好的架构和算法)。

如今,英伟达用一个个王炸级的“算力猛兽”产品让第一个问题的解决看到了希望,而第二个问题,他们也在不断探索和尝试。

比如在2023年10月开源了TensorRT-LLM可扩展推理方案,以加速和优化NVIDIA GPU上最新大语言模型的推理性能。

而此次GTC上发布的Blackwell平台,通过全新的Blackwell GPU、NVLink和弹性技术,可以支持万亿参数规模的AI模型,新的Tensor核心和TensorRT-LLM 编译器,有助于解决推理效率的问题。

03.

从“卖铲人”,到 AI 生态全面布局

上文提到,英伟达正在试图摆脱其固有“硬件厂商”的印象,积极布局推理芯片和系统、往软件层面发力,与更多行业和应用做结合。此次GTC大会上,英伟达往AI应用层、行业层靠拢的决心体现地尤为明显。

比如英伟达发布了一个名为DRIVE Thor的车载计算平台,作为DRIVE Orin 的后续产品,DRIVE Thor可提供丰富的座舱功能,以及安全可靠的高度自动化驾驶和无人驾驶功能,并将所有功能整合至同一个集中式平台上。

多家头部电动汽车制造商都在GTC上展示了搭载DRIVE Thor的下一代AI车型。

再如英伟达发布了人形机器人通用基础模型Project GR00T,它能够理解自然语言,并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能,以便导航、适应现实世界并与之互动。

同时,英伟达还发布了人形机器人计算机Jetson Thor,它是一个全新的计算平台,能够执行复杂的任务并安全、自然地与人和机器交互,具有针对性能、功耗和尺寸优化的模块化架构,并对Issac机器人平台的生成式AI基础模型和仿真工具进行了重大升级。

图片

此外,在数字孪生领域,英伟达宣布将以API形式提供Omniverse Cloud,从而将工业数字孪生应用和工作流创建平台的覆盖范围扩展至整个软件制造商生态系统。借助五个全新Omniverse Cloud应用编程接口(API),开发者能够轻松地将Omniverse的核心技术直接集成到现有的数字孪生设计与自动化软件应用中。

从英伟达的各种技术展示可以看到,有了 Omniverse,各类游戏场景以及各种工业设计,无论是汽车设计还是仓库运营,都应该首先在虚拟场景反复试错,然后在到物理场景实施。

此次GPT 2024上,出门问问介绍的 DupDub 3D交互数字人项目就是与英伟达合作的,利用了Omniverse中的数字人引擎 ACE(Avatar Cloud Engine)的支持。

如此壮志,英伟达不再只是一个AI领域的“卖铲人”,而是多点开花、全面布局,试图在AI的各领域都占领一席之地,建立起一个从基础层、技术层到应用层都有自己参与的全方位生态体系——也就是黄仁勋口中的,“AI代工厂”和“数据仓库”。

英伟达现在正处于一个独特的地位,明面上不与任何人直接交手,在推行兼容并蓄策略的同时,在所有主要的AI赛道上都加注了巨大的投入。

有些方向处于独特的领导地位,如气候大模型、数字孪生;另外一些方向有后发直追的态势,如LLM,NiM,视觉模型等。

为什么是独特的地位?因为未来很长时间里,各家AI公司的最底层都要用到英伟达的卡。

同样是芯片公司,英伟达在当今AI时代的地位超越了PC和互联网时代如日中天的英特尔。

英特尔曾经是一个时代的象征,靠着其独有的IDM模式和全球领先的X86架构成为了芯片行业的领导者,曾经的市值比10个AMD和10个英伟达加起来还要高。然而,英特尔犯了墨守成规的错误,抱着IDM模式和X86架构不撒手,错过了5G基带芯片和GPU AI芯片的机会。而在智能手机和软件领域,英特尔更是错失了先机。

反观英伟达,即使其GPU产品已经占据了市场90%的份额,但他们仍然有很强的危机意识,积极进行多点布局——

早在2008年,英伟达就开始布局自动驾驶平台化芯片,抢占智能汽车市场份额;2016年推出通用并行计算和编程平台CUDA,打破了自60年前IBM System360以来CPU运算一统天下的局面,实现了加速计算,成为英伟达硬件和高性能运算生态的护城河;2017年宣布将英伟达的未来押注在AI上,将AI技术应用于计算机图像;2019年收购Mellanox,获得了InfiniBand技术,使网络交换速度得到保证;同时获得了Bluefield芯片,英伟达将其称为DPU(Data Processing Unit),降低了云数据中心的运营成本;2019年提出NVIDIA Omniverse元宇宙概念,2020年,Omniverse Open Beta 公测版本上线。如今,英伟达元宇宙打通不同设计平台,已成为元宇宙平台级应用;2021年推出自己的CPU Grace系列产品;2022年推出Hopper架构的 H100 GPU ,赶上了ChatGPT带来了生成式AI风口,一夜爆发;2023年推出AI Foundations服务,以及包括量子平台cuQuantum、DGX Cloud等在内的多种软件库。

黄仁勋很早就说过,只做一款芯片是不够的,而是要把芯片、软件、平台和处理器整合到一起,且能不断优化演进。

如今,英伟达的市值已经达到了惊人的2.36万亿美元,是英特尔的13倍,两家公司早已不可同日而语。昔日的霸主黯然离场,新生的后浪席卷而来,留下一个时代的烙印。

04.

“激进”策略的背后,能霸主多久

英伟达激进的生态策略能成功么?我们认为,大方向上没问题,但也面临着一些挑战。

比如,在一些具体行业无法提供更细致的服务,后劲不足,这是其一;二是其他大厂自研AI芯片,会导致其在小规模推理领域丧失一部分市场。

关于第一点,尽管对算力有狂热偏执的英伟达很早就开发出了大算力车规级芯片Orin,然而在正式上市一年多后,Orin的上车、上路率并未达到预期,价格昂贵是一方面,而另一个方面的原因则在于技术门槛太高。

即使英伟达后续又推出了算力更小、价格更便宜的Orin-N芯片,但销售情况也不理想。例如,高阶智驾的痛点在于深度定制,产品方案不像L2、L2+一样可以做出标准化。每个高阶智驾项目,都要从头到尾重复做一遍。

英伟达擅长做产品,但在服务的提供上却存在明显的短板——尽管英伟达为下游主机厂和自动驾驶公司推出了NVIDIA DRIVE™ 开源软件堆栈和高精地图解决方案,而且英伟达的生态伙伴策略也是兼容并蓄的,但毕竟开发费用高,国内服务支持差,只有“蔚小理”、比亚迪和少数科技公司背景出身的Tier 1企业才有能力搞定。

而其他友商如地平线,尽管产品力弱于英伟达,但还是决定投入重金自己来做生态和服务,不仅提供感知算法,而且会先帮客户解决基本的工程问题,使得客户开发的工作量大幅减少,最大程度压低算法和软件的适配周期。

至于第二点,尽管当下英伟达GPU的市场份额保持着绝对的领先地位,但是由于其价格昂贵,加上地缘政治的困扰,很多大厂都在埋头自研AI芯片,试图有一天可与英伟达争锋。

比如谷歌的AI芯片TPU v5e、亚马逊的推理芯片Inferentia、训练芯片Trainium;微软的Athena等,还有国内的华为。同时在今年,Sam Altman喊出了7万亿美元天价的芯片全产业链制造计划;软银创始人孙正义也被爆出正寻求高达1000亿美元资金,计划打造抗衡英伟达的AI芯片巨头。

英伟达在关键赛道的一家独大和垄断,也同时把自己树立成了“众矢之的”。

此外,英伟达的GPU更适合大参数模型的推理需求,而很多公司并不需要那么大参数的模型,在推理小参数模型时,使用别家芯片或是自研芯片可能会更合适。

因为科技公司自研芯片,出发点大多是推理参数较小的模型,然后再进一步扩展,比如阿里巴巴的含光800、百度的昆仑芯等。

自研芯片不仅不用向英伟达“交税”,即使性能低一点,但是能节省不少成本,比如Semi Analysis的分析师Dylan Patel在2023年9月就发文表示,在“训练、推理参数少于2000亿参数的大模型时,使用谷歌TPUv5e芯片的成本要低于A100 或 H100。

而在如今AI与细分行业结合越来越紧密的趋势下,“小模型的推理”或许会是一个更有潜力的新兴市场。英伟达如何将自己这部分业务的成本降到比竞争对手还低,或许也是一个棘手的挑战。

结语

AI浪潮的席卷速度,超越了以往任何一场技术革命。

纵观历史上伟大的公司,都有科技驱动价值的特征。历经了数次大胆押注和起死回生的英伟达,堪称一家伟大的公司,其对AI生态的布局称得上是高瞻远瞩,对于大模型行业的贡献也毋庸置疑。

早在十年前,2014年的GTC主题演讲中,黄仁勋表示,机器学习是“当今高性能计算领域最激动人心的应用之一,是其中一个已经取得令人兴奋的突破、巨大的突破、神奇的突破的领域是叫做深度神经网络的领域”,并直言“我们不是硬件公司,我们是AI公司。”

这十年之中,英伟达经历了它历史上最严重的股市崩盘,也经历了更加梦幻般的直升飞机式崛起——成为一家推动AGI潮流的底座引擎,带领大家看到AI时代的曙光。这一加速AI布局的远见卓识,何尝不是AI深度学习革命以来加速前行的领衔先锋和时代侧影。

十年后的今天,英伟达的目光所及之处,是AI革命的基础技术、OpenAI 的演变,以及延伸至后AGI时代。而眼下GTC的意义,是AI全生态的大结集和大检阅,是多模态大模型走向AGI的启航港。

它拉开了AI的新帷幕,让越来越多人开始投身于这场19世纪美国「造铁路」一般的事业,而这一轨道正以超乎预期的速度铺展。

今天英伟达GTC的一小步,已是AI进化史的一大步。

$出门问问(02438)$

修改于:05-07
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法