Trader C
06-03
hi
黄仁勋ComputeX 2024大会重磅演讲2万字全文:揭开新工业革命序幕!
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
分享至
微信
复制链接
精彩评论
我们需要你的真知灼见来填补这片空白
打开APP,发表看法
APP内打开
发表看法
{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":312727918743648,"tweetId":"312727918743648","gmtCreate":1717383798952,"gmtModify":1717383800447,"author":{"id":4093530568899570,"idStr":"4093530568899570","authorId":4093530568899570,"authorIdStr":"4093530568899570","name":"Trader C","avatar":"https://static.tigerbbs.com/c375e71c492040a93701a588d8f2bc08","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":7,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body><p>hi</p></body></html>","htmlText":"<html><head></head><body><p>hi</p></body></html>","text":"hi","highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/312727918743648","repostId":1171147611,"repostType":2,"repost":{"id":"1171147611","pubTimestamp":1717382755,"share":"https://www.laohu8.com/m/news/1171147611?lang=&edition=full","pubTime":"2024-06-03 10:45","market":"us","language":"zh","title":"黄仁勋ComputeX 2024大会重磅演讲2万字全文:揭开新工业革命序幕!","url":"https://stock-news.laohu8.com/highlight/detail?id=1171147611","media":"王铮Silvia","summary":"6月2日晚,$英伟达$CEO黄仁勋在台北ComputeX 2024大会上发表重磅演讲《揭开新工业革命序幕》。生成式AI及其影响英伟达的蓝图和接下来会发生什么我很高兴能回来。首先,正在发生的事情以及我们共同工作的意义。全球数据中心的电力使用量正在显著增长。数据将继续以指数级增长,而CPU性能的提升永远不会回来。实际上,性能非常出色,现在很明显,随着CPU的扩展放缓并最终大幅停止,我们应该加速一切。如今,这种情况正在全世界发生。","content":"<html><head></head><body><p>6月2日晚,<a href=\"https://laohu8.com/S/NVDA\">英伟达</a>CEO黄仁勋在台北ComputeX 2024大会上发表重磅演讲《揭开新工业革命序幕》。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/cee3213ec4485da8d2a8b01e47f4aedf\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"596\"/></p><p><strong>生成式AI及其影响</strong></p><p><strong>英伟达的蓝图和接下来会发生什么</strong></p><p style=\"text-align: justify;\">我很高兴能回来。</p><p style=\"text-align: justify;\">感谢南大(NTU),让我们使用你们的体育场。上次我来这里,我从南大(NTU)获得了学位,并且我做了一场“不要走,要跑”的演讲。今天我们有很多要说的内容;所以我不能走,我必须跑!我们有很多要覆盖的内容,我有很多事要告诉你们。</p><p style=\"text-align: justify;\">我很高兴能在这里——台湾。台湾是我们珍视的合作伙伴的家园;实际上,这就是所有英伟达做的事情的起点,我们的伙伴和我们一起将它带到世界;台湾和我们的合作伙伴创造了这个世界的AI 基础设施。</p><p style=\"text-align: justify;\">今天,我想和你们谈谈几件事情。首先,正在发生的事情以及我们共同工作的意义。</p><p style=\"text-align: justify;\">什么是生成式AI?它对我们的行业以及每一个行业有什么影响?一个蓝图,告诉我们将如何前进并抓住这个难以置信的机会,以及接下来会发生什么——生成式人工<a href=\"https://laohu8.com/S/5RE.SI\">智能</a>AI及其影响,我们的蓝图以及接下来会发生什么。</p><p><strong>计算的构造性转变将再次发生</strong></p><p><strong>特定算法的计算边际成本已降低100万倍</strong></p><p><strong>60年里见证了两三次计算的构造性转变</strong></p><p><strong>我们即将再次看到这种情况发生</strong></p><p>这些真是令人兴奋的时代。计算机产业的正在重启,一个你们锻造的产业,一个你们创造的产业,现在你们已经准备好了迈向下一个重大旅程。</p><p style=\"text-align: justify;\">英伟达位于计算机图形学、仿真和人工智能的交汇处。这是我们的灵魂。今天我要向你们展示的所有东西都是仿真。它是艺术,它是科学,它是计算机科学,它是令人惊叹的计算机架构。没有一样是动画,全部都是自制的。这就是英伟达的灵魂,我们把所有这些都投入到我们称之为Omniverse的虚拟世界中。请欣赏。</p><p style=\"text-align: justify;\">你们所看到的一切的基础是两种基础技术:加速计算和在Omniverse内部运行的AI。这两种技术,这两种计算的基本力量将会重塑计算机产业。</p><p style=\"text-align: justify;\">计算机产业现在大约有60年的历史。在很多方面,我们今天所做的一切都在1964年发明,也就是我出生的第二年。<a href=\"https://laohu8.com/S/IBM\">IBM</a> System 360引入了中央处理单元、通用计算、通过操作系统实现硬件和软件的分离、多任务处理、I/O子系统、DMA以及我们今天使用的所有种类的技术。架构兼容性、向后兼容性、家族兼容性,我们今天所知道的关于计算的所有事情在1964年基本上就已经描述了。</p><p style=\"text-align: justify;\">当然,个人电脑革命使计算民主化,并将其置于每个人的手中和家中。然后在2007年,iPhone引入了移动计算,并把计算机放在了我们的口袋里。从那时起,一切都通过移动云连接起来并且一直在运行。</p><p style=\"text-align: justify;\">过去60年里,我们见证了几次,只是几次,实际上并不多——两三次主要的技术转变,两三次计算领域的构造性转变,一切都变了。我们即将再次看到这种情况发生。</p><p><strong>加速计算的降本经济学</strong></p><p>这里正在发生两件基本的事情。</p><p style=\"text-align: justify;\">第一,处理器,计算机产业运行的引擎——中央处理单元,性能增长已经大幅放缓。然而我们要做计算的数量仍在迅速翻倍,如果处理需求,如果我们需要处理的数据继续以指数级增长,但性能没有,我们将经历计算通胀。</p><p style=\"text-align: justify;\">实际上,我们现在说话的时候正在看到这一点。全球数据中心的电力使用量正在显著增长。计算的成本在增长,我们正在看到计算通胀。</p><p style=\"text-align: justify;\">当然,这种情况不能继续下去。数据将继续以指数级增长,而CPU性能的提升永远不会回来。</p><p style=\"text-align: justify;\">有更好的方法——近二十年来,我们一直在研究加速计算。CUDA增强了CPU,卸载并加速了特定处理器可以做得更好的工作。实际上,性能非常出色,现在很明显,随着CPU的扩展放缓并最终大幅停止,我们应该加速一切。</p><p style=\"text-align: justify;\">我预测,每一个处理密集型的应用都将被加速,而且毫无疑问,每一个数据中心在不久的将来都将被加速。</p><p style=\"text-align: justify;\">现在,加速计算是非常合理的。这是非常常识性的。如果你看看一个应用,假设有100个单位的时间。它可能是100秒,可能是100小时。在许多情况下,正如你所知,我们现在正在处理运行1000天的AI应用。嗯,加速效果是令人难以置信的。它几乎听起来不可信,但今天,我将为你展示许多例子。好处是非常非凡的。</p><p style=\"text-align: justify;\">100倍的加速,但你只增加了大约三倍的功率,并且你只增加了大约50%的成本。</p><p style=\"text-align: justify;\">我们在PC行业一直在这样做。我们在价值1000美元的PC上加上一个500美元的GPU,GeForce GPU,性能就大幅提升。</p><p style=\"text-align: justify;\">我们在数据中心这样做,一个价值十亿美元的数据中心,我们加上价值5亿美元的GPU,突然之间它就变成了一个AI工厂。</p><p style=\"text-align: justify;\">如今,这种情况正在全世界发生。</p><p style=\"text-align: justify;\">嗯,节省是非常显著的。你每花费一美元就能获得60倍的性能,100倍的加速。你只需要增加3倍的功率来获得100倍的加速,你只需要增加1.5倍的成本。节省是惊人的。节省是以美元来衡量的。</p><p style=\"text-align: justify;\">很明显,许多公司在云端处理数据时花费了数亿美元。如果采用加速计算,那么节省数亿美元并不意外。</p><p style=\"text-align: justify;\">那么,为什么会这样呢?原因非常清楚。我们在通用计算中已经经历了长时间的通货膨胀。现在我们终于决定加速。我们可以重新获得大量的被捕捉的损失,大量被保留的浪费,我们现在可以从系统中释放出来。这将转化为金钱的节省,节省能源。</p><p style=\"text-align: justify;\">这就是为什么你听到我说,你买的越多,你节省的就越多。</p><p style=\"text-align: justify;\">现在我向你们展示了数学计算。它不是精确的,但它是正确的。对吧?这就是所谓的CEO数学。不是精确的,但它是正确的。你买的越多,你节省的越多。</p><p><strong>计算软件必须重写</strong></p><p><strong>我们已有350个库供使用</strong></p><p>加速计算确实能带来非凡的结果,但这并不容易。</p><p style=\"text-align: justify;\">为什么它能节省这么多钱,但人们却迟迟没有去做呢?原因是这非常困难。没有这样的软件,你通过C编译器,突然之间那个应用程序运行速度就快了100倍。如果真有可能做到这一点,他们就会直接更换CPU。</p><p style=\"text-align: justify;\">要做到这一点,实际上你必须重写软件。这是困难的部分,软件必须完全重写,以便你能够重新分解、重新表达在CPU上编写的算法,以便它可以被加速、卸载,并并行运行。这个计算机科学练习是极其困难的。</p><p style=\"text-align: justify;\">嗯,在过去的20年里,我们让世界变得容易了。当然,非常著名的cuDNN,这个深度学习库处理神经网络。我们有一个AI物理库,你可以用它来进行流体动力学以及许多其他应用,其中神经网络必须遵守物理定律。</p><p style=\"text-align: justify;\">我们有一个叫做Ariel的新库,它是Akuda加速的5G无线电,这样我们就可以像定义世界网络互联网一样,软件定义和加速电信网络。</p><p style=\"text-align: justify;\">因此,我们加速的能力使我们能够将所有电信基本上转变为同一类型的平台,一个计算平台,就像我们在云中拥有的那样。</p><p style=\"text-align: justify;\">cuLitho是一个计算光刻平台,它允许我们处理芯片制造中计算密集度最高的部分。</p><p style=\"text-align: justify;\"><a href=\"https://laohu8.com/S/TSM\">台积电</a>(TSMC)正在使用cuLitho进行生产,节省了巨大的能源和更多的资金。但台积电的目标是加速他们的技术栈,以便为更进一步的进步做好准备,一个算法和更多的计算,用于更深入、更狭窄的晶体管。</p><p style=\"text-align: justify;\">Pair of Breaks是我们的基因测序库。它是世界上吞吐量最高的基因测序库。cuOpt是一个令人难以置信的库,用于组合优化、路线规划优化、旅行商问题,这些问题非常复杂。</p><p style=\"text-align: justify;\">科学家们基本上得出结论,你需要一台量子计算机来做这件事。</p><p style=\"text-align: justify;\">我们创建了一个算法,它在加速计算上运行,运行得非常快,23项世界纪录。我们今天保持着每一项主要的世界纪录。</p><p style=\"text-align: justify;\">cuQuantum是一个量子计算机的仿真系统。如果你想设计一台量子计算机,你需要一个模拟器来这样做。如果你想设计量子算法,你需要一个量子仿真器来这样做。你将如何做到这一点?如果量子计算机不存在,你将如何设计这些量子计算机,创建这些量子算法?你使用当今世界上存在的最快的计算机,我们当然称它为 Nvidia CUDA。</p><p style=\"text-align: justify;\">在它上面,我们有一个仿真器,模拟量子计算机。它被全世界数十万研究人员使用。它集成到了所有领先的量子计算框架中,并且被全世界的科学超级计算中心使用。</p><p style=\"text-align: justify;\">QDF是一个难以置信的数据处理库。数据处理消耗了当今云支出的绝大部分。所有这些都应该被加速。QD加速了世界上使用的主要库。Spark,你们许多人可能在公司中使用Spark,pandas,一个叫做polar的新库,当然还有 Network X,这是一个图形处理数据库库。所以这些只是一些例子。还有更多。</p><p style=\"text-align: justify;\">每一个都必须被创建,以便我们能够使生态系统利用加速计算的优势。如果我们没有创建cuDNN,CUDA单独就不可能,也不会有可能让全世界的深度学习科学家使用,因为CUDA和在Tensorflow和Pytorch中使用的算法,深度学习算法,它们之间的分离太远了。</p><p style=\"text-align: justify;\">这几乎就像是在没有OPL的情况下尝试进行计算机图形学。这几乎就像是在没有SQL的情况下进行数据处理。这些特定领域的库真的是我们公司的宝藏。</p><p style=\"text-align: justify;\">我们有350个这样的库。正是这些库所需要的,也是使我们能够开拓如此多市场的原因。我今天将向你们展示一些其他的例子。</p><p style=\"text-align: justify;\">就在上周,<a href=\"https://laohu8.com/S/GOOG\">谷歌</a>宣布他们在云端部署了QDF,并加速了pandas,这是世界上最受欢迎的数据科学库。在座的许多人可能已经使用了pandas,它被全球1000万数据科学家使用,每个月下载量达到1.7亿次。它就是数据科学家的电子表格Excel。</p><p style=\"text-align: justify;\">现在只需一键,你就可以在Google的云数据中心平台collab中使用pandas,由QDF加速。加速效果真的令人难以置信。让我们来看一下。那是一个很好的演示,对吧?花的时间并不长。</p><p><strong>CUDA已经达到良性循环</strong></p><p><strong>拥有全球500万开发者,服务于每个行业</strong></p><p>当你如此迅速地加速数据处理时,演示不会花费很长时间。好的,Cuda现在已经达到了人们所说的临界点,但它甚至比那更好。</p><p style=\"text-align: justify;\">CUDA现在已经达到了一个良性循环。这种情况很少见。如果你看看历史以及所有的计算架构、计算平台,在微处理器CPU的情况下,它已经存在了60年。在这个层面上,它在60年里没有被改变过。</p><p style=\"text-align: justify;\">这种计算方式,加速计算,已经存在,创建一个新平台极其困难,因为这是一个先有鸡还是先有蛋的问题。如果没有开发者使用你的平台,那么当然就不会有用户。但如果没有用户,就没有安装基础。如果没有安装基础,开发者就不会对它感兴趣。开发者想要为一个大的安装基础编写软件,但一个大的安装基础需要大量的应用程序,以便用户能够创建那个安装基础。</p><p style=\"text-align: justify;\">这个先有鸡还是先有蛋的问题很少被打破,并且已经花费了我们20年的时间,一个接一个的领域库,一个接一个的加速库。</p><p style=\"text-align: justify;\">现在我们拥有全球500万开发者。我们服务于每一个行业,从医疗保健、金融服务,当然还有计算机行业、汽车行业,几乎世界上每一个主要行业,几乎每一个科学领域。</p><p style=\"text-align: justify;\">因为我们的架构有如此多的客户,OEM(原始设备制造商)和云服务提供商都有兴趣构建我们的系统。系统制造商,像在台湾这里这样令人惊叹的系统制造商,都有兴趣构建我们的系统,这进而为市场提供更多的系统,这当然为我们创造了更大的机会,使我们能够扩大规模,研发规模,这进一步加速了应用的发展。</p><p><strong>过去10年</strong></p><p><strong>特定算法的计算边际成本降低100万倍</strong></p><p>每次我们加速应用,计算成本就会下降。这就是我之前向你们展示的那张幻灯片。100倍的加速可以转化为97.96%、98%的节省。所以当我们从100倍加速到200倍加速再到1000倍加速时,节省的成本,计算的边际成本继续下降。</p><p style=\"text-align: justify;\">当然,我们相信通过极大地降低计算成本,市场、开发者、科学家、发明家将继续发现新的算法,这些算法会消耗越来越多的计算资源,以至于有一天会发生某种变化,一种根本性的变化,计算的边际成本如此之低,以至于计算机的新使用方式出现了。</p><p style=\"text-align: justify;\">实际上,这就是我们现在所看到的。多年来,在过去10年中,我们已经将一种特定算法的计算边际成本降低了一百万倍。</p><p style=\"text-align: justify;\">因此,现在用互联网上的所有数据来训练大型语言模型是非常合乎逻辑和常识的。没有人会对此再三考虑。你可以创造一台能够处理如此多数据并自行编写软件的计算机的想法。</p><p style=\"text-align: justify;\">AI的出现之所以成为可能,是因为我们完全相信,如果我们使计算成本越来越低,就会有人找到一个很好的用途。</p><p style=\"text-align: justify;\">今天,CUDA已经达到了一个良性循环——安装基础在增长,计算成本在下降,这促使更多的开发者提出更多的创意,这又推动了更多的需求。</p><p style=\"text-align: justify;\">现在我们正处于一个非常重要事物的开始阶段。但在我向你们展示那个之前,我将向你们展示如果没有我们创造的CUDA,如果没有我们创造的现代版的生成式AI,现代AI的大爆炸,我即将展示给你们的东西是不可能的。</p><p><strong>正在发生的变化</strong></p><p><strong>计算机将执行任务而不是生产软件</strong></p><p><strong>将Nims微服务连接成大型应用</strong></p><p><strong>超级计算机已演变为数据中心</strong></p><p><strong>生产token,成为AI工厂</strong></p><p>这是地球2号。我们创建一个地球的数字孪生兄弟的想法。我们将去模拟地球,以便我们能够预测我们星球的未来,更好地避免灾难或更好地理解气候变化的影响,以便我们能够更好地适应,以便我们能够改变我们的习惯。</p><p style=\"text-align: justify;\">现在,这个地球的数字孪生兄弟,它可能是世界上曾经承担过的最雄心勃勃的项目之一,我们每年都在迈出大步。我将每年向你们展示结果。但今年,我们取得了一些重大突破。让我们来看看。</p><p style=\"text-align: justify;\">在不久的将来的某一天,我们将能够对地球上每一平方公里进行连续天气预报。你将始终知道气候将会如何。你将始终知道。这将因为训练了人工智能而持续运行,而人工智能所需的能量非常少。</p><p style=\"text-align: justify;\">所以这是一项令人难以置信的成就。我希望你们喜欢它。非常重要的是,事实上,那是一个Jensen AI说的。那不是我。我写了它,但是一个AI。Jensen AI不得不说出来。</p><p style=\"text-align: justify;\">这确实是一个奇迹。然而,在2012年,发生了一些非常重要的事情。因为我们致力于推进CUDA,因为我们致力于不断提高性能并降低成本。研究人员发现了,人工智能研究人员在2012年发现了CUDA。那是英伟达与AI的第一次接触。</p><p style=\"text-align: justify;\">这是一个非常重要的日子。我们有明智的决策与科学家合作,使深度学习成为可能。当然,AlexNet实现了巨大的计算机视觉突破。但伟大的智慧在于退后一步,理解背景是什么,深度学习的基础是什么,长期影响是什么,它的潜力是什么?我们意识到这项技术有很大的潜力去扩展一个几十年前发明和发现的算法。</p><p style=\"text-align: justify;\">突然之间,由于更多的数据、更大的网络,以及非常重要的,更多的计算能力,深度学习能够实现人类算法无法做到的事情。</p><p style=\"text-align: justify;\">现在想象一下,如果我们进一步扩大架构,更大的网络、更多的数据和更强的计算能力。那将可能实现什么?于是我们致力于重新发明一切。</p><p style=\"text-align: justify;\">2012年之后,我们改变了我们的GPU架构,当然还有Tensor。我们在10年前发明了NV Link。现在,Coodie和TensorRT,Nickel,我们收购了Melanocks,TensorRT,Triton推理服务器,所有这些都汇聚在一台全新的计算机上。没有人理解它。实际上,我确信没有人想要购买它。于是我们在GTC上宣布了它,OpenAI,旧金山的一个小公司,他们让我给他们送一台。我在2016年向OpenAI交付了第一台DGX,世界上第一台AI超级计算机。</p><p style=\"text-align: justify;\">在那之后,我们继续从一台AI超级计算机,一个AI设备扩展;我们将其扩展到大型超级计算机,甚至更大。</p><p style=\"text-align: justify;\">到2017年,世界发现了变换器Transformers,这样我们就可以训练大量的数据,并识别和学习在长时间跨度上是序列性的模式。</p><p style=\"text-align: justify;\">现在对我们来说,训练这些大型语言模型以理解并在自然语言理解上取得突破已成为可能。我们在那之后继续前进。我们建造了更大的(计算机)。</p><p style=\"text-align: justify;\">然后在2022年11月,在数千个、数万个Nvidia GPU和一台非常大的AI超级计算机上训练。OpenAI宣布ChatGPT在5天后拥有一百万用户,在5天后达到一百万,在2个月内达到一亿,是历史上增长最快的应用。而其原因非常简单——它非常容易使用,而且使用起来非常神奇,能够与计算机交互;就像它是人类一样,而不是清楚地知道你想要什么,就像是计算机理解了你的意思。它理解了你的意图。</p><p style=\"text-align: justify;\">无论如何,ChatGPT出现了,这张幻灯片上有件非常重要的事情。让我给你们看点东西。</p><p style=\"text-align: justify;\">在ChatGPT向世界展示之前,人工智能都是关于感知、自然语言理解、计算机视觉、语音识别。都是关于感知和检测。</p><p style=\"text-align: justify;\">这是世界上第一次解决生成式AI的问题,它一次产生一个token,这些token是单词。</p><p style=\"text-align: justify;\">当然,其中一些token现在可以是图像、图表、表格、歌曲、文字、语音、视频。这些token可以是任何你可以学习其含义的东西。它可以是化学物质的token、蛋白质的token、基因,就像你们之前在地球2号中看到的,我们正在生成天气的token。我们可以学习物理,如果你能学习物理,你就能教一个AI模型物理。AI模型可以学习物理的含义,并且它可以生成物理。</p><p style=\"text-align: justify;\">我们正在将精度降低到1公里,不是通过过滤,而是通过生成。因此,我们可以使用这种方法为几乎所有有价值的东西生成token。我们可以为汽车生成方向盘控制。我们可以为机械臂生成关节运动。我们能学到的一切,现在都可以生成。</p><p style=\"text-align: justify;\">我们现在所到达的不是一个AI时代,而是生成式AI时代。但真正重要的是,这台最初作为超级计算机的计算机现在已经演变成一个数据中心,它产生一样东西,它产生tokens,它是一个AI工厂。</p><p style=\"text-align: justify;\">这个AI工厂正在生成、创造、生产具有巨大价值的东西,一种新的商品。在19世纪90年代末,尼古拉·<a href=\"https://laohu8.com/S/TSLA\">特斯拉</a>发明了交流发电机。我们发明了一个AI发电机。交流发电机产生了电子。Nvidia的AI发电机产生token。这两样东西都拥有巨大的市场机会。它几乎在每个行业中都完全可替代,这就是为什么它是一次新的工业革命。</p><p style=\"text-align: justify;\">我们现在拥有一个新的工厂,为每个行业生产新的商品。这是非常宝贵的价值。而做这件事的方法论是非常可扩展、可复制的。</p><p style=\"text-align: justify;\">请注意,许多不同的AI模型,生成式AI模型正在被以日新月异的速度发明出来。每一个行业现在都在纷纷加入。这是第一次。</p><p style=\"text-align: justify;\">IT行业,这是一个价值3万亿美元的IT行业,即将创造出能够直接服务于100万亿美元产业的东西,不再仅仅是信息存储或数据处理的工具,而是为每个行业生成智能的工厂。</p><p style=\"text-align: justify;\">这将是一个制造业,不是计算机制造业,而是在制造业中使用计算机。这是前所未有的。非常了不起的事情。</p><p style=\"text-align: justify;\">从加速计算开始,到AI,到生成式AI,现在是一场工业革命。现在对我们行业的影响也是相当重大的。</p><p style=\"text-align: justify;\">当然,我们可以为许多行业创造一种新的商品,一种我们称之为token的新产品,但对我们的影响也是相当深远的。</p><p><strong>计算机将执行任务而不是生产软件</strong></p><p><strong>将Nims微服务连接成大型应用程序</strong></p><p>正如我之前所说的,60年来,计算的每一层都发生了变化,从CPU的通用计算到加速GPU计算,计算机需要指令。现在计算机处理LLMs,大型语言模型,AI模型。</p><p style=\"text-align: justify;\">而过去的计算模型几乎每次你触摸手机时都是基于检索的——一些预录的文本或预录的图像或预录的视频被检索出来,并根据推荐系统重新组合,根据你的习惯呈现给你。</p><p style=\"text-align: justify;\">但在将来,你的计算机将尽可能多地生成,只检索必要的内容。原因是生成数据需要较少的能量去获取信息。生成数据也更具上下文相关性。它将编码知识。它将理解你。不再说给我那个信息或给我那个文件,你可以问我要答案。</p><p style=\"text-align: justify;\">计算机不再是我们使用的工具,计算机现在将生成技能,它执行任务。不再是一个生产软件的行业,这是90年代初的一个革命性的想法。</p><p style=\"text-align: justify;\">还记得<a href=\"https://laohu8.com/S/MSFT\">微软</a>为打包软件创造的想法彻底改变了PC行业吗?没有打包的软件,我们会用PC做什么?它推动了这个行业。</p><p style=\"text-align: justify;\">现在我们有一个新的工厂,一台新的计算机,我们将在这个上面运行的是一种新型的软件,我们称之为Nims,Nvidia推理微服务。</p><p style=\"text-align: justify;\">现在发生的情况是Nim在这个工厂内部运行。这个Nim是一个预先训练好的模型。它是一个AI。</p><p style=\"text-align: justify;\">当然,这个AI本身相当复杂,但是运行AI的计算栈是极其复杂的。当你使用ChatGPT时,在他们的栈下面是一大堆软件。在那个提示下面是大量的软件。它非常复杂,因为模型很大,有数十亿到数万亿的参数。它不仅仅在一台计算机上运行,而是在多台计算机上运行。</p><p style=\"text-align: justify;\">它必须在多个GPU上分配工作负载,张量并行性,流水线并行性,数据并行,各种并行性,专家并行性,各种并行性。尽可能快地跨多个GPU分配工作负载,进行处理。</p><p style=\"text-align: justify;\">因为如果你在工厂,如果你经营一个工厂,你的吞吐量直接关联到你的收入,你的吞吐量直接关联到服务质量,以及可以利用你的服务的人数。</p><p style=\"text-align: justify;\">我们现在所处的世界,数据中心的吞吐量利用变得极其重要。每一个参数都被测量,开始时间、正常运行时间、利用率、吞吐量、空闲时间,等等,因为它是一个工厂。当某事物成为一个工厂时,其运营直接关联到公司的财务表现。所以我们意识到这对大多数公司来说是非常复杂的。所以我们做的是创建了这个AI盒子和容器,容器里有一个难以置信的软件集合是CUDA、cuDNN、TensorRT、Triton用于推理服务。</p><p style=\"text-align: justify;\">它是云原生的,所以你可以在Kubernetes环境中自动扩展。它有管理服务和钩子,以便你可以监控你的AI。它有通用API、标准API,所以你真的可以与这个盒子对话。</p><p style=\"text-align: justify;\">你下载这个名称,只要在你的电脑上有CUDA,你就可以和它交谈,CUDA现在已经无处不在。它在每个云中,每个计算机制造商都有提供。它在数亿台个人电脑中都有提供。</p><p style=\"text-align: justify;\">当你下载这个,你就拥有了一个AI,你可以像使用ChatGPT一样与它交谈。现在所有的软件都已集成,400个依赖项全部集成到一个中。我们在云端对我们所有的安装基础测试了这个Nim,这些预训练模型针对所有种类,包括Pascal和Ampere以及Hopper的所有不同版本。我甚至忘记了一些名字。难以置信的发明。这是我最喜欢的之一。</p><p style=\"text-align: justify;\">当然,如你所知,我们现在有能力创建大型语言模型和各种预训练模型。我们有所有这些不同版本,无论是基于语言的还是基于视觉的或基于成像的,或者我们有适用于医疗保健、数字生物学的版本,我们有数字人类的版本。但我将在ai.dot/video.com上和你谈论你如何使用它。</p><p style=\"text-align: justify;\">今天,我们在huggingface上刚刚发布了完全优化的Lama 3 Nim。你可以在那里试用,甚至可以带走。它是免费提供给你的。所以你可以在云端运行它,在任何云端运行。你可以下载,放入你自己的数据中心,你可以托管它,为你的客户使其可用。正如我提到的,我们有各种不同的领域,物理,其中一些用于语义检索称为RAGs,视觉语言,各种不同的语言。</p><p style=\"text-align: justify;\">你使用它的方式是将这些微服务连接成大型应用程序。</p><p><strong>过去指令编写的应用</strong></p><p><strong>变成了组建AI团队的应用</strong></p><p>在即将到来的未来中,最重要的应用之一当然是客户服务。几乎每一个行业都需要Agents。它代表了全球数万亿美元的客户服务。</p><p style=\"text-align: justify;\">护士,我们的客户服务Agent,在某些方面,其中一些非处方或非诊断基础的护士本质上是零售、快餐、金融服务、保险的客户服务。现在,数千万的客户服务都可以通过语言模型和AI得到增强。所以这些你看到的盒子基本上是NIMs(推理微服务)。</p><p style=\"text-align: justify;\">有些名字是推理Agent,给出一个任务,弄清楚任务是什么,将其分解为一个计划。有些NIMs检索信息。有些NIMs可能会去执行搜索。有些NIMs可能使用像我之前谈到的Kuop这样的工具。它可能需要学习一种叫做ABAP的特定语言。也许有些名字需要进行SQL查询。所以所有这些名字都是现在作为一个团队组装起来的专家。</p><p style=\"text-align: justify;\">那么发生了什么?应用层已经发生了变化。过去用指令编写的应用,现在变成了组建AI团队的应用。</p><p style=\"text-align: justify;\">很少有人知道如何编写程序。几乎所有人都知道如何分解问题并组建团队。我相信,在未来,每个公司都会有大量的NIMs。</p><p style=\"text-align: justify;\">你可以根据需要调用专家,将它们连接成一个团队,甚至不必弄清楚如何精确地连接它们。你只需将任务交给一个Agent,一个NIM,让它弄清楚如何分解任务以及分配给谁。然后,应用的中心,团队的领导者,如果愿意,团队的领导者将分解任务并分配给各个团队成员。团队成员将执行他们的任务,将其带回给团队领导者。团队领导者将对信息进行推理,并向您呈现信息。</p><p style=\"text-align: justify;\">这种变化意味着软件开发和问题解决的方式正在向更加模块化和智能化的方向发展。通过利用预训练的AI模型(即NIMs),公司可以创建灵活、可扩展的解决方案,以适应各种业务需求。这种方法降低了技术门槛,使非技术背景的人员也能参与到应用的构建和问题解决中来。</p><p style=\"text-align: justify;\">就像人类一样。这在我们的不远的将来。这就是应用程序将会呈现的方式。当然,我们可以与这些大型AI服务通过文本提示和语音提示进行交互。</p><p><strong>不止Agent,还有数字人类</strong></p><p>然而,在许多应用中,我们希望能够与一个人形的交互对象进行互动。我们称它们为数字人类(Digital Humans)。</p><p style=\"text-align: justify;\">视频技术在数字人类技术上已经研究了一段时间。让我展示给你们看。数字人类有潜力成为一个与你互动的极好的Agent,它们可以更具吸引力,可以更具同情心。</p><p style=\"text-align: justify;\">当然,我们必须跨越这个令人难以置信的现实主义鸿沟,使得数字人类看起来更自然。这当然是我们的愿景。这是我们乐于追求的方向。但让我展示一下我们现在的进展。</p><p><strong>PC将成为非常重要的AI平台</strong></p><p>非常了不起。这些ACE在云端运行,但它也运行在个人电脑上。</p><p style=\"text-align: justify;\">我们有先见之明,在所有RTX中都包含了张量核心GPU。所以一段时间以来,我们一直在出货AI GPU,为这一天做准备。</p><p style=\"text-align: justify;\">原因非常简单。我们总是知道,为了创建一个新的计算平台,你首先需要一个安装基础。最终,应用程序将会到来。如果你不创建安装基础,应用程序怎么会来呢?所以如果你建造它,他们可能不会来。但如果你不建造它,他们就不能来。所以我们在每一个RTX GPU中都安装了张量核心处理单元。现在世界上有1亿台G Force RTX AIPC,我们正在出货200万台。</p><p style=\"text-align: justify;\">在这次Computex上,我们展示了四款全新的令人惊叹的笔记本电脑。它们全都能够运行AI。</p><p style=\"text-align: justify;\">你未来的笔记本电脑,你未来的PC将成为一个AI。它将不断地帮助你,在后台辅助你。PC也将运行由AI增强的应用程序。当然,你所有的图片编辑、写作和你使用的所有工具,所有这些东西都将通过AI得到增强。你的PC还将托管具有AI的数字人类的应用程序。</p><p style=\"text-align: justify;\">因此,AI将以不同的方式表现自己,并在PC中得到使用。但PC将成为非常重要的AI平台。</p><p><strong>为下一阶段AI而生</strong></p><p><strong>从Blackwell到Ruben</strong></p><p><strong>为每种类型的<a href=\"https://laohu8.com/S/300024\">机器人</a>系统创建平台</strong></p><p><strong>下一阶段AI将理解物理世界</strong></p><p><strong>Blackwell为此而生</strong></p><p>那么我们从这里走向何方呢?我之前谈到了我们数据中心的扩展,每次我们扩展时,我们都会发现新的变革。</p><p style=\"text-align: justify;\">当我们从DGX扩展到大型AI超级计算机时,我们使Transformers能够在极其庞大的数据集上进行训练。</p><p style=\"text-align: justify;\">事情的开始是这样的,数据是人工监督的。它需要人工标注来训练AI。不幸的是,人工标注的能力是有限的。Transformers使得无监督学习成为可能。现在,Transformers只需查看大量的数据,或查看大量的视频,或查看大量的图像,它就可以通过学习大量的数据,自己发现模式和关系。</p><p style=\"text-align: justify;\">那么,下一代AI需要基于物理。如今大多数AI并不理解物理定律。为了让AI能够生成图像、视频、3D图形以及许多物理现象,我们需要基于物理的AI,它们理解物理定律。</p><p style=\"text-align: justify;\">当然,实现这一点的方法之一是通过视频学习。另一种方式是合成数据、模拟数据,以及使用计算机彼此学习。这与使用AlphaGo并无不同,让AlphaGo自己和自己对弈,自我对弈,两种相同能力相互对弈很长一段时间,它们会变得更聪明。因此,你将开始看到这种类型的AI出现。</p><p style=\"text-align: justify;\">嗯,如果AI数据是合成生成的并使用强化学习,那么数据生成的速率将继续提高是合理的。每次数据生成增长时,我们必须提供的计算量也需要随之增长。</p><p style=\"text-align: justify;\">我们即将进入一个阶段,AI可以学习物理定律并理解并基于物理世界数据。因此,我们预计模型将继续增长,我们需要更大的GPU。</p><p style=\"text-align: justify;\">虽然Blackwell是为这一代设计的,这就是Blackwell,它具有几个非常重要的技术。当然,其中之一就是芯片的尺寸。</p><p style=\"text-align: justify;\">我们在TSMC制造了两个最大的芯片,并且用每秒10TB的链路将它们两个连接在一起,这是世界上技术最先进的Ceres,将这两个连接在一起。</p><p style=\"text-align: justify;\">然后我们将两个这样的芯片放在一个计算节点上,用Grace CPU连接。Grace CPU在训练情况下可以用于几件事情。它可以用于在推理和生成的情况下快速检查点和重启。它可以用于存储上下文内存,以便AI具有内存并理解你想要的对话的上下文。</p><p style=\"text-align: justify;\">这是我们的第二代Transformer引擎,允许我们根据计算层所需的精度和范围动态适应较低的精度。</p><p style=\"text-align: justify;\">这是我们的第二代GPU,具有安全AI功能,所以你可以让服务提供商保护你的AI不被盗窃或篡改。</p><p style=\"text-align: justify;\">这是我们的第五代MV Link,允许我们将多个GPU连接在一起,我马上会展示更多相关内容。这还是我们第一代具有可靠性和可用性引擎的产品。这个系统允许我们测试每一个晶体管、触发器、片上存储器、片外存储器,以便我们在现场确定某个特定芯片是否正在MTBF(平均故障间隔时间)上失败。</p><p style=\"text-align: justify;\">拥有1万个GPU的超级计算机的MTBF以小时计算。拥有10万个GPU的超级计算机的MTBF以分钟计算。因此,如果我们不发明技术来增强其可靠性,超级计算机长时间运行并训练可能持续数月的模型实际上是不可能实现的。可靠性当然会增强正常运行时间,这直接影响成本。</p><p style=\"text-align: justify;\">最后,解压缩引擎数据处理是我们必须要做的最重要的事情之一。我们增加了数据压缩引擎、解压缩引擎,这样我们就可以比现在可能的速度从存储中提取数据快20倍。</p><p style=\"text-align: justify;\">所有这些都代表了Blackwell。我想我们这里有一个已经投入生产的。在GTC期间,我向你们展示了Blackwell的原型状态。</p><p style=\"text-align: justify;\">女士们、先生们,这就是Blackwell。</p><p style=\"text-align: justify;\">Blackwell正在生产中。难以置信的技术含量。这是我们的生产线板。这是世界上最复杂、性能最高的计算机。这是Grace CPU。这些是Blackwell芯片,你可以看到每一个Blackwell芯片,两个连接在一起。你可以看到它是世界上最大的芯片。然后我们用每秒10TB的链路将两个连接在一起。这就构成了Blackwell计算机。它的性能令人难以置信。</p><p style=\"text-align: justify;\">所以你看到我们的计算能力,每一代的AI运算速度在八年内增长了1000倍。摩尔定律在八年内也许40、60倍。在过去的八年里,摩尔定律的增长远远低于这个数字。所以即使把摩尔定律在其最佳时期与Blackwell能做的事情相比较,计算量是惊人的。</p><p><strong>Blackwell将能耗降至3/1000</strong></p><p>而每当我们将计算能力提高时,发生的事情就是成本下降。</p><p style=\"text-align: justify;\">我将向你们展示,我们已经通过提高计算能力,用于训练一个GPT-4 2万亿参数、8万亿标记的能耗已经下降了350倍。帕斯卡(Pascal)架构的GPU如果来做这件事,将需要1000千兆瓦时电能。</p><p style=\"text-align: justify;\">1000千兆瓦时意味着,如果有一个千兆瓦的数据中心——世界上没有千兆瓦的数据中心,但如果你有一个千兆瓦数据中心,它将需要一个月的时间。如果你有一个百兆瓦数据中心,它将需要大约一年的时间。</p><p style=\"text-align: justify;\">当然,没有人会创建这样的东西。这就是为什么这些大型语言模型,ChatGPT在8年前是不可能的,只有通过我们不断提高性能、能效,同时保持和提高能效,才使这一切成为可能。</p><p style=\"text-align: justify;\">现在我们已经用Blackwell将原本需要1000千兆瓦时的能耗降低到了3,一个令人难以置信的进步,仅需要3千兆瓦时。如果是一个10000个GPU的系统,例如,我猜它将只需要几天,大约10天左右。在仅仅八年内的进步是令人难以置信的。</p><p style=\"text-align: justify;\">这是用于推理的。这是用于生成token的。我们的token生成性能使我们能够将能耗降低到每生成一个token只需17,000 焦耳。那是帕斯卡(Pascal)的能耗,17,000 焦耳。这有点像需要两个灯泡运行两天来产生一个GPT-4的token。生成一个词大约需要三个token。因此,帕斯卡生成GPT-4并提供ChatGPT体验所需的能耗实际上是不可能实现的。但现在我们每个token仅使用0.4焦耳,我们可以以惊人的速度生成token,并且能耗非常少。</p><p><strong>DGX系统如何构建</strong></p><p><strong>数百万个GPU的数据中心时代即将到来</strong></p><p>所以Blackwell是一个巨大的飞跃。即便如此,它还不够大。因此,我们必须构建更大的机器。我们构建它的方式称为DGX。所以这是我们的Blackwell芯片,它被安装进DGX系统中。</p><p style=\"text-align: justify;\">这是DGX Blackwell。这个设备是空气冷却的,内部有8个这样的GPU。看看这些GPU上的散热器大小,大约15千瓦,15,000瓦,并且完全通过空气冷却。这个版本支持x86,并且进入我们一直在出货的基础设施。</p><p style=\"text-align: justify;\">然而,如果你想要液体冷却,我们有一个新系统。这个新系统基于这个主板,我们称之为MGX,代表模块化。</p><p style=\"text-align: justify;\">这里是两个Blackwell主板。所以这个节点有四个Blackwell芯片。这四个Blackwell芯片,这是液体冷却的。72个这样的GPU通过一个新的MV Link连接在一起。这是MV Link交换机,第五代;MV Link交换机是技术奇迹,这是世界上最先进的交换机。数据传输速率是疯狂的,这些交换机将每一个Blackwell连接到彼此,以至于我们有一个巨大的72 GPU Blackwell。</p><p style=\"text-align: justify;\">这样做的好处是,在一个GPU域中,现在看起来就像一个GPU。这个GPU有72个处理单元,而上一代是8个。因此,我们把处理单元的数量增加了9倍,带宽增加了18倍,AI运算性能(FLOPs)增加了45倍。然而,功率的增加仅为10倍。这是100千瓦。这是10千瓦。而且是针对一个GPU来说的。</p><p style=\"text-align: justify;\">当然,你总是可以连接更多的这些设备在一起,我马上会展示给你看。但奇迹是这个芯片,这个MV Link芯片。</p><p style=\"text-align: justify;\">人们开始意识到MV Link芯片的重要性,因为它将所有这些不同的GPU连接在一起。由于大型语言模型非常大,它不适合只在一个GPU上,不适合只有一个节点。它将需要整个机架的GPU,就像我刚刚站在旁边那个新的DGX一样,来容纳有数万亿参数的大型语言模型,大型的envy link交换机本身是技术奇迹,有500亿个晶体管,74个端口每个端口400千兆位,4个链接的截面带宽为每秒7.2兆字节。</p><p style=\"text-align: justify;\">但其中一件重要的事情是,它在交换机内部有数学功能,这样我们可以在芯片上直接进行归约,这在深度学习中非常重要。所以现在DGX看起来是这样的。很多人说,对Nvidia所做的事情有些困惑。Nvidia怎么可能通过制造GPU变得如此之大?所以有一种印象,认为这就是GPU的样子。现在这是GPU,这是世界上先进的GPU之一。</p><p style=\"text-align: justify;\">这一个GPU,女士们先生们,DGXgpu。你知道这个GPU的背面是MV link脊柱。这个envy link脊柱有5000根线,2英里长,它就在这里。这是一个envy link脊柱,它连接了很多两个GPU。这是一个电气机械奇迹,收发器使我们可以在整个长度上使用铜。因此,MV length交换机,驱动MV length脊柱使用铜,使我们能够在一个机架上节省20千瓦。现在20千瓦可以用于处理,真是一项令人难以置信的成就。</p><p style=\"text-align: justify;\">即使这个也不够大,对于AI工厂来说,所以我们需要用非常高速的网络将它们全部连接在一起。我们有两种类型的网络。我们有无限带宽(Infiniteband),它已经在全球的超级计算和AI工厂中被使用。它对我们来说增长得非常快。</p><p style=\"text-align: justify;\">然而,并非每个数据中心都能处理无限带宽,因为它们已经在以太网生态系统中投入了太久,而且确实需要一些特殊技能和专业知识来管理无限带宽交换机和无限带宽网络。</p><p style=\"text-align: justify;\">所以我们做了一件非常困难的事情,我们将无限带宽的功能带到了以太网架构中。原因在于以太网被设计用于高平均吞吐量,因为每一个节点,每一台计算机都连接到互联网上的不同人。</p><p style=\"text-align: justify;\">数据中心与互联网另一端的人之间的大部分通信。然而,在深度学习和AI工厂中,GPU并不是在与互联网上的人通信。它们大部分时间在相互通信。它们相互通信是因为它们都在收集部分产品,然后必须进行归约,然后重新分配。部分产品的模块,归约,重新分配。</p><p style=\"text-align: justify;\">这种流量非常突发性。重要的不是平均吞吐量,而是最后到达的时间。因为如果你在归约,从每个人那里收集部分产品,如果我要拿取你们所有人的……所以不是平均吞吐量,而是最后给我答案的人。好的,以太网没有这方面的规定。所以我们不得不创造几件事情。</p><p style=\"text-align: justify;\">我们创建了一个端到端的架构,使得网卡和交换机可以相互通信,我们应用了四种不同的技术来实现这一点。</p><p style=\"text-align: justify;\">第一,Nvidia拥有世界上最先进的RDMA(远程直接内存访问)。所以现在我们有能力为以太网实现网络级别的RDMA,这非常棒。</p><p style=\"text-align: justify;\">第二,我们有拥塞控制。交换机始终以极快的速度进行遥测。每当GPU或Nyx发送太多信息时,我们可以告诉它们退后,以免创建热点。第三,自适应路由。以太网需要按顺序传输和接收。我们发现拥塞或看到当前未被使用的端口,不管顺序如何,我们会将其发送到可用端口,而Bluefield在另一端重新排序,以便它能够按顺序回来。这种自适应路由功能非常强大。</p><p style=\"text-align: justify;\">最后是噪声隔离。在数据中心随时都可能有多个模型正在训练或其他事情在发生,它们的噪声和流量可能会相互干扰,导致抖动。因此,当一个训练模型的噪声导致最后一个到达的延迟过晚,它真的会减慢训练速度。</p><p style=\"text-align: justify;\">请记住,总的来说,你已经建立了一个价值50亿或30亿美元的数据中心,你用它来训练。如果网络利用率低了40%,并且因此,训练时间延长了20%,那么这个价值50亿美元的数据中心实际上就像一个价值60亿美元的数据中心。所以成本是难以置信的。成本影响相当高。</p><p style=\"text-align: justify;\">Spectrum X以太网基本上允许我们如此显著地提高性能,但网络基本上是免费的。所以这真是一个成就。我们非常自豪,我们有一整套以太网产品线。这是Spectrum x800。它的速率是每秒51.2兆比特,256路辐射。</p><p style=\"text-align: justify;\">下一个即将推出的是5,12路辐射,一年后推出,5,12路辐射,那叫做Spectrum X800 Ultra。然后是X16。但重要的想法是,x800是为数万个GPU设计的。X800 Ultra是为数十万个GPU设计的,X16是为数百万个GPU设计的。</p><p style=\"text-align: justify;\">数百万个GPU的数据中心时代即将到来。原因非常简单。我们当然想要训练更大的模型。</p><p style=\"text-align: justify;\">但非常重要的是,在将来,你与互联网或计算机的几乎所有交互都可能在云端某处有一个生成式AI在运行。这个生成式AI正在与你合作,与你交互,生成视频或图像或文本或可能是数字人类。所以你几乎一直在与计算机交互,并且总有一个生成式AI连接到其中。有些是在本地,有些在你的设备上,还有很多可能在云端。</p><p style=\"text-align: justify;\">这些生成式AI也将具备很多推理能力。它们不仅仅是一次性给出答案,它们可能会对答案进行迭代,以便在给出答案之前提高答案的质量。因此,我们将在未来进行的生成量将是非凡的。</p><p style=\"text-align: justify;\">让我们一起来看看所有这些结合在一起的情况。今晚,这是我们的首次夜间主题演讲。我想感谢大家今晚7点出席。所以,我即将向你们展示的内容有一种新的氛围。这是夜间主题演讲的氛围。那么,enjoy this~~</p><p><strong>每年上新的节奏</strong></p><p><strong>明年是Blackwell Ultra</strong></p><p>Blackwell当然是Nvidia平台的第一代,在正确的时刻推出。</p><p style=\"text-align: justify;\">正如世界所知,生成式AI时代已经到来。就像世界意识到AI工厂的重要性,就像这场新的工业革命的开始,我们得到了如此多的支持。几乎所有的OEM,每一个计算机制造商,每一个云服务提供商(CSP),每一个GPU云,主权云,甚至是电信公司,全球各地的企业。</p><p style=\"text-align: justify;\">Blackwell 的成功、采用程度和热情真是高得难以置信。我想感谢大家的支持。</p><p style=\"text-align: justify;\">我们不会就此止步。在这个令人难以置信的增长时期,我们要确保我们继续提高性能,继续降低训练成本、推理成本,并继续扩展AI能力,让每个公司都能拥抱它。</p><p style=\"text-align: justify;\">我们推动的性能越高,成本下降就越大。Hopper平台当然可能是历史上最成功的数据中心处理器,这只是一段令人难以置信的成功故事。</p><p style=\"text-align: justify;\">然而,Blackwell已经到来,正如你将注意到的,每一个平台都有几个要素。你有 CPU,你有GPU,你有MV Link,你有网卡,你还有连接所有GPU的大型高速交换机,尽可能构成一个大型域。</p><p style=\"text-align: justify;\">我们所做的一切,我们用非常大型和高速的交换机连接每一个代的设备。正如你将看到的,不仅仅是一个GPU,而是整个平台。</p><p style=\"text-align: justify;\">我们构建了整个平台。我们将整个平台集成到一个AI工厂超级计算机中。然而,我们将其分解并提供给世界。原因是因为你们可以创造有趣和创新的配置,以及各种不同风格,适应不同的数据中心、不同的客户和不同的地方,有些是用于边缘计算,有些是用于电信。</p><p style=\"text-align: justify;\">如果我们使系统开放并使你们能够创新,那么所有不同的创新都是可能的。因此,我们设计的是集成的,但我们提供给你们的是分解的,以便你们可以创建模块化系统。</p><p style=\"text-align: justify;\">Blackwell平台已经在这里了。</p><p style=\"text-align: justify;\">我们公司遵循一年的节奏,我们的基本理念非常简单: 构建整个数据中心规模的分离式架构,然后按照一年的节奏分部分销售给你们。我们将一切推向技术极限,无论是什么。</p><p style=\"text-align: justify;\">台积电(TSMC)的工艺技术,将其推向绝对极限,无论是封装技术,也将其推向绝对极限,无论是存储技术,也推向极限。CERDE技术、光学技术,一切都被推向极限。然后,在这一切之后,以这样的方式做一切事情,以便我们所有的软件都能在整个安装基础上运行。</p><p style=\"text-align: justify;\">软件惯性是计算机中最重要的事情之一。当计算机向后兼容,并且与已经创建的所有软件在架构上兼容时,你进入市场的能力就会快得多。因此,当我们可以利用已经创建的全部软件安装基础时,速度是令人难以置信的,而Blackwell就在这里。</p><p style=\"text-align: justify;\">明年是Blackwell Ultra,就像我们有H100和H200一样,你们很可能会看到我们为Blackwell Ultra带来的一些非常令人兴奋的新一代产品,再次推向极限。还有我提到的下一代Spectrum交换机。</p><p style=\"text-align: justify;\">这是这个下一代产品首次被提及,我还不确定,我会不会后悔这个决定。</p><p><strong>下一代平台叫Rubin</strong></p><p>往往我们公司的大多数员工甚至都不知道,我们下一代平台叫做Rubin——Rubin平台。我不会在这方面花太多时间。我知道会发生什么。你们会给它拍照,然后你们会去看细则,并且可以随意那样做。</p><p style=\"text-align: justify;\">所以我们有Rubin平台,一年后,我们将有Rubin Ultra平台。我在这儿向你们展示的所有这些芯片都处于全面开发中,100%都是;节奏是每年在技术的极限,全部在架构上100%兼容。这基本上就是Nvidia正在构建的,以及在其之上的所有丰富的软件。</p><p style=\"text-align: justify;\">所以在很多方面,从ImageNet那一刻起的过去12年,我们意识到社区的未来将会发生根本性的变化,直到今天,确实正如我之前所展示的,从2012年前的GeForce到今天的Nvidia,公司已经发生了巨大的转变。我要感谢我们所有的合作伙伴一路上对我们的支持。这是Nvidia Blackwell平台。</p><p><strong>机器人技术时代已经到来</strong></p><p><strong>在Omniverse中机器人学习如何成为机器人</strong></p><p>让我来谈谈下一步。下一代AI是理解物理定律的物理AI,能够在我们中间工作的 AI。因此,它们必须理解世界模型,以便它们知道如何解释世界,如何感知世界。它们当然必须具备出色的认知能力,以便它们能够理解我们,理解我们的要求并执行任务。</p><p style=\"text-align: justify;\">在未来,机器人技术是一个更加普遍的概念。当然,当我说到机器人技术时,通常想到的是人形机器人。但这并不是真的。一切都将变得自动化。</p><p style=\"text-align: justify;\">所有的工厂都将是自动化的。工厂将协调机器人,那些机器人将建造自动化的产品,机器人与机器人互动,建造自动化的产品。为了实现这一点,我们需要取得一些突破。让我给你们看一段视频。</p><p style=\"text-align: justify;\">机器人技术的时代已经到来。有一天,所有会动的东西都将是自治的。</p><p style=\"text-align: justify;\">全世界的研究人员和公司正在开发由物理驱动的机器人。AI 模型能够理解指令并在现实世界中自主执行复杂任务。多模态大型语言模型(LLMs)的突破使机器人能够学习、感知和理解周围的世界,并计划它们的行动。通过人类的演示,机器人现在可以学习与世界互动所需的技能,使用粗略和精细的运动技能。</p><p style=\"text-align: justify;\">推进机器人技术发展的关键技术之一是强化学习。正如大型语言模型(LLMs)需要来自人类反馈的强化学习(RLHF)来学习特定技能一样,生成式物理 AI 也可以通过模拟世界中物理反馈的强化学习来学习技能。</p><p style=\"text-align: justify;\">这些模拟环境是机器人学习如何做决策的地方,通过在遵守物理定律的虚拟世界中执行动作。在这些机器人体育馆中,机器人可以安全快速地学习执行复杂和动态任务,通过数百万次的试错行为来提炼它们的技能。</p><p style=\"text-align: justify;\">我们构建了Nvidia Omniverse作为操作系统,在这里可以创建物理AI。Omniverse 是一个用于虚拟世界模拟的开发平台,结合了实时基于物理的渲染、物理模拟和生成式AI技术。</p><p style=\"text-align: justify;\">在Omniverse中,机器人可以学习如何成为机器人。它们学习如何精确地自主操控物体,例如抓取和操控物体,或者自主导航环境,在避开障碍物和危险的同时寻找最佳路径。在Omniverse中学习可以最小化模拟与现实之间的差距,并最大化学习行为的转移。</p><p style=\"text-align: justify;\">构建具有生成式物理AI的机器人需要三台计算机:Nvidia AI超级计算机用于训练模型、英伟达Jetson Orange和下一代Jetson Thor机器人超级计算机来运行模型。</p><p style=\"text-align: justify;\">Nvidia Omniverse,机器人可以在模拟世界中学习和提炼技能。我们构建了开发者和公司所需的平台、加速库和 AI 模型,并允许他们使用任何所需的技术。</p><p style=\"text-align: justify;\">他们最适合的堆栈。AI 的下一个浪潮已经到来。由物理 AI 驱动的机器人技术将彻底改变各行各业。这并不是未来,这正在发生。</p><p><strong>为每种类型的机器人系统创建平台</strong></p><p>我们将以几种方式服务市场。</p><p style=\"text-align: justify;\">首先,我们将为每种类型的机器人系统创建平台。一个用于机器人工厂和仓库,一个用于操作物体的机器人,一个用于移动的机器人,以及一个用于人形机器人。</p><p style=\"text-align: justify;\">因此,这些机器人平台几乎就像所有其他东西一样。我们提供计算机加速库和预训练模型。计算机加速库、预训练模型,我们测试一切,我们在Omniverse内部训练一切并整合一切,正如视频所说,Omniverse是机器人学习如何成为机器人的地方。</p><p style=\"text-align: justify;\">当然,机器人仓库的生态系统非常复杂。构建一个现代仓库需要许多公司、许多工具、许多技术。仓库正在日益变得自动化。将来某一天将完全自动化。因此,在这些生态系统中,我们有SDK和API,它们连接到软件行业,SDK和API连接到边缘AI行业和公司。</p><p style=\"text-align: justify;\">当然,也有为<a href=\"https://laohu8.com/S/PLC\">PLC</a>(可编程逻辑控制器)和机器人系统设计的系统,用于ODM(原始设计制造商)。然后,这些系统由集成商整合,最终为客户建造仓库。这里我们有一个例子,Kenmac为 Giant Group建造了一个机器人仓库。</p><p><strong>全球制造巨头</strong></p><p><strong>如何用AI建造机器人工厂</strong></p><p>好的,现在让我们谈谈工厂,它有一个完全不同的生态系统。</p><p style=\"text-align: justify;\">富士康正在建造一些世界上最先进的工厂。他们的生态系统同样包括边缘计算机和机器人。用于设计工厂、工作流程的软件,编程机器人,当然还有协调数字工厂和AI工厂的PLC计算机。我们也为这些生态系统中的每一个提供SDK和API。这些都在台湾各地发生。</p><p style=\"text-align: justify;\">富士康已经建造并正在建造他们工厂的数字孪生。台达电子正在建造他们工厂的数字孪生。顺便说一下,一半是真实的,一半是数字的,一半是Omniverse。</p><p style=\"text-align: justify;\">和硕正在建造他们机器人工厂的数字孪生,仁宝也是如此。这真的很厉害。这是富士康新工厂的视频。让我们来看一下。</p><p style=\"text-align: justify;\">随着世界将传统数据中心现代化为生成式AI工厂,对Nvidia加速计算的需求正在激增。全球最大的电子制造商富士康正在通过使用Nvidia Omniverse和AI建造机器人工厂来满足这一需求。</p><p style=\"text-align: justify;\">工厂规划者使用Omniverse集成来自领先行业应用(如西门子 Team Center X 和 Autodesk Revit)的设施和设备数据。在数字孪生中,他们优化楼层布局和生产线配置,并确定最佳的摄像头位置以监控未来的运营。借助Nvidia Metropolis支持的视觉AI,虚拟集成帮助规划者节省了在建设期间进行物理变更命令的巨大成本。</p><p style=\"text-align: justify;\">富士康团队使用数字孪生作为真实情况的来源,以沟通和验证准确的设备布局。Omniverse数字孪生还是机器人体育馆,富士康开发者在这里训练和测试Nvidia Isaac AI应用程序,用于机器人感知和操控,以及Metropolis AI应用程序,用于传感器融合。</p><p style=\"text-align: justify;\">在Omniverse中,富士康在将运行时间部署到装配线上的Jets和计算机之前,先模拟两个机器人AI。他们模拟Isaac机械手库和AI模型,用于自动光学检查的对象识别、缺陷检测和轨迹规划,将HGX系统转移到测试舱。他们模拟由Isaac感知器驱动的FerRobot AMR(自主移动机器人),当它们进行3D映射和重建时,感知并移动其环境。</p><p style=\"text-align: justify;\">通过Omniverse,他们建立了机器人工厂,这些工厂协调运行在Nvidia Isaac上的机器人,制造Nvidia AI超级计算机,这些计算机反过来训练装箱机器人。因此,机器人工厂是使用三台计算机设计的,在Nvidia AI上训练AI。</p><p style=\"text-align: justify;\">你有机器人在PLC系统上运行,用于协调工厂。然后你当然在Omniverse内部模拟一切。机械臂和AMR机器人也是同样的方式,三个计算机系统。不同之处在于两个Omniverse将会汇聚在一起,因此它们将共享一个虚拟空间。当它们共享一个虚拟空间时,那个机械臂将成为机器人工厂内部的一部分。</p><p style=\"text-align: justify;\">再说一次,三个计算机,我们提供计算机加速层和预训练AI模型。我们已经将Nvidia机械手和Nvidia Omniverse与西门子连接起来,西门子是世界领先的工业自动化软件和系统公司。</p><p style=\"text-align: justify;\">这真是一个梦幻般的合作伙伴关系,他们正在全球各地的工厂进行合作。</p><p style=\"text-align: justify;\">Semantic Pick AI现在集成了Isaac机械手,Semantic Pick AI运行,操作ABB、库卡、安川、芬克、通用机器人和技术人。所以西门子是一个极好的集成。我们还有各种其他集成。</p><p style=\"text-align: justify;\">让我们来看看。Arcbest正在将Isaac感知器集成到Vox智能自治机器人中,以增强对象识别和人体运动跟踪。在物料搬运方面,<a href=\"https://laohu8.com/S/00285\">比亚迪电子</a>正在将Isaac机械手和感知器集成到他们的AI机器人中,以提高全球客户的制造效率。Ideal Works正在将Isaac感知器构建到他们的iOS软件中,用于AI机器人。实际上,Factory Logistics Intrinsic公司正在采用Isaac机械手到他们的流动状态平台中,以推进机器人抓取。Gideon正在将Isaac感知器集成到托盘AI驱动的叉车中。为了推进AI启用的物流,Argo Robotics正在采用Isaac感知器到高级视觉基础AMR的感知引擎中。Solomon正在他们的Acupic 3D软件中使用Isaac机械手AI模型。</p><p style=\"text-align: justify;\">对于工业操控,Techman Robot正在将Isaac Sim和机械手集成到TM Flow中。加速自动化光学检查,Teradine Robotics正在将Isaac机械手集成到Polyscope X中用于协作机器人(cobot),并将Isaac感知器集成到Mere AMR中。Vention正在将Isaac机械手集成到机器逻辑中。</p><p style=\"text-align: justify;\">对于AI操控机器人,机器人技术已经到来,物理AI已经到来。这不是科幻小说,它正在台湾各地使用,并且非常令人兴奋。那是工厂,工厂内的机器人。当然,所有产品都将是自动化的。所以有两个非常大量的机器人产品。其中之一,当然是自动驾驶汽车或具有很大自主能力汽车。</p><p style=\"text-align: justify;\">Nvidia再次构建了整个堆栈,明年我们将与Mercedes车队一起投入生产。之后在2026年,是JLR车队。我们向世界提供完整的堆栈。</p><p style=\"text-align: justify;\">然而,你可以随意取用我们堆栈的任何部分,任何层次,就像整个Drive堆栈是开放的一样。下一个由机器人工厂制造且内部装有机器人的高容量机器人产品可能会是人形机器人,近年来在认知能力方面,由于基础模型,以及我们正在开发的世界理解能力,这方面都取得了巨大的进步。</p><p style=\"text-align: justify;\">我对这一领域非常兴奋,因为很明显,最容易适应世界的机器人是人形机器人,因为我们为我们自己建造了这个世界。我们还需要为这些机器人提供比其他类型的机器人更多的训练数据,因为我们有相同的身体结构。所以我们能够通过演示能力和视频能力提供的训练数据量将会非常大。所以我们将在这一领域看到很多进展。</p><p style=\"text-align: justify;\">嗯,我想我们有一些机器人要欢迎。我们开始吧。我们还有一些朋友要加入我们。所以机器人的未来已经在这里。AI的下一个浪潮。</p><p style=\"text-align: justify;\">当然,你知道,台湾用键盘制造计算机。你为口袋制造计算机,你在云端制造数据中心计算机,在未来,你将制造会走路的计算机和会滚动的计算机,你知道,四处走动。所以这些都是计算机。</p><p style=\"text-align: justify;\">事实证明,制造这些计算机的技术与制造你们今天已经制造的所有其他计算机的技术非常相似。所以这将是我们非常不平凡的旅程。</p><p style=\"text-align: justify;\">好的,我想感谢,我想说,我想感谢,我做了,我制作了最后一个视频,如果你们不介意的话,这是我们非常喜欢制作的东西。让我们播放它。谢谢,我爱你们。谢谢,感谢大家的到来。祝你们拥有愉快的ComputeX。谢谢!</p></body></html>","source":"lsy1717382766275","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>黄仁勋ComputeX 2024大会重磅演讲2万字全文:揭开新工业革命序幕!</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n黄仁勋ComputeX 2024大会重磅演讲2万字全文:揭开新工业革命序幕!\n</h2>\n\n<h4 class=\"meta\">\n\n\n2024-06-03 10:45 北京时间 <a href=https://mp.weixin.qq.com/s/1NQ2-PZGpJtKXha601UY_g><strong>王铮Silvia</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>6月2日晚,英伟达CEO黄仁勋在台北ComputeX 2024大会上发表重磅演讲《揭开新工业革命序幕》。生成式AI及其影响英伟达的蓝图和接下来会发生什么我很高兴能回来。感谢南大(NTU),让我们使用你们的体育场。上次我来这里,我从南大(NTU)获得了学位,并且我做了一场“不要走,要跑”的演讲。今天我们有很多要说的内容;所以我不能走,我必须跑!我们有很多要覆盖的内容,我有很多事要告诉你们。我很高兴能...</p>\n\n<a href=\"https://mp.weixin.qq.com/s/1NQ2-PZGpJtKXha601UY_g\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/f51e0887617e5ccdb1f56ab9d6b7e088","relate_stocks":{"NVDA":"英伟达","BK4554":"元宇宙及AR概念","LU0082616367.USD":"摩根大通美国科技A(dist)","LU0353189680.USD":"富国美国全盘成长基金Cl A Acc","LU0061474960.USD":"天利环球焦点基金AU Acc","IE00BJJMRY28.SGD":"Janus Henderson Balanced A Inc SGD","BK4534":"瑞士信贷持仓","BK4567":"ESG概念","BK4585":"ETF&股票定投概念","IE00BMPRXR70.SGD":"Neuberger Berman 5G Connectivity A Acc SGD-H","IE00BMPRXN33.USD":"NEUBERGER BERMAN 5G CONNECTIVITY \"A\" (USD) ACC","LU0494093205.USD":"贝莱德ESG灵活多元资产A2 USD-H","BK4533":"AQR资本管理(全球第二大对冲基金)","BK4587":"ChatGPT概念","LU0353189763.USD":"ALLSPRING US ALL CAP GROWTH FUND \"I\" (USD) ACC","LU0061474705.USD":"THREADNEEDLE (LUX) GLOBAL DYNAMIC REAL RETURN \"AU\" (USD) ACC","LU0097036916.USD":"贝莱德美国增长A2 USD","BK4579":"人工智能","BK4550":"红杉资本持仓","BK4588":"碎股"},"source_url":"https://mp.weixin.qq.com/s/1NQ2-PZGpJtKXha601UY_g","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1171147611","content_text":"6月2日晚,英伟达CEO黄仁勋在台北ComputeX 2024大会上发表重磅演讲《揭开新工业革命序幕》。生成式AI及其影响英伟达的蓝图和接下来会发生什么我很高兴能回来。感谢南大(NTU),让我们使用你们的体育场。上次我来这里,我从南大(NTU)获得了学位,并且我做了一场“不要走,要跑”的演讲。今天我们有很多要说的内容;所以我不能走,我必须跑!我们有很多要覆盖的内容,我有很多事要告诉你们。我很高兴能在这里——台湾。台湾是我们珍视的合作伙伴的家园;实际上,这就是所有英伟达做的事情的起点,我们的伙伴和我们一起将它带到世界;台湾和我们的合作伙伴创造了这个世界的AI 基础设施。今天,我想和你们谈谈几件事情。首先,正在发生的事情以及我们共同工作的意义。什么是生成式AI?它对我们的行业以及每一个行业有什么影响?一个蓝图,告诉我们将如何前进并抓住这个难以置信的机会,以及接下来会发生什么——生成式人工智能AI及其影响,我们的蓝图以及接下来会发生什么。计算的构造性转变将再次发生特定算法的计算边际成本已降低100万倍60年里见证了两三次计算的构造性转变我们即将再次看到这种情况发生这些真是令人兴奋的时代。计算机产业的正在重启,一个你们锻造的产业,一个你们创造的产业,现在你们已经准备好了迈向下一个重大旅程。英伟达位于计算机图形学、仿真和人工智能的交汇处。这是我们的灵魂。今天我要向你们展示的所有东西都是仿真。它是艺术,它是科学,它是计算机科学,它是令人惊叹的计算机架构。没有一样是动画,全部都是自制的。这就是英伟达的灵魂,我们把所有这些都投入到我们称之为Omniverse的虚拟世界中。请欣赏。你们所看到的一切的基础是两种基础技术:加速计算和在Omniverse内部运行的AI。这两种技术,这两种计算的基本力量将会重塑计算机产业。计算机产业现在大约有60年的历史。在很多方面,我们今天所做的一切都在1964年发明,也就是我出生的第二年。IBM System 360引入了中央处理单元、通用计算、通过操作系统实现硬件和软件的分离、多任务处理、I/O子系统、DMA以及我们今天使用的所有种类的技术。架构兼容性、向后兼容性、家族兼容性,我们今天所知道的关于计算的所有事情在1964年基本上就已经描述了。当然,个人电脑革命使计算民主化,并将其置于每个人的手中和家中。然后在2007年,iPhone引入了移动计算,并把计算机放在了我们的口袋里。从那时起,一切都通过移动云连接起来并且一直在运行。过去60年里,我们见证了几次,只是几次,实际上并不多——两三次主要的技术转变,两三次计算领域的构造性转变,一切都变了。我们即将再次看到这种情况发生。加速计算的降本经济学这里正在发生两件基本的事情。第一,处理器,计算机产业运行的引擎——中央处理单元,性能增长已经大幅放缓。然而我们要做计算的数量仍在迅速翻倍,如果处理需求,如果我们需要处理的数据继续以指数级增长,但性能没有,我们将经历计算通胀。实际上,我们现在说话的时候正在看到这一点。全球数据中心的电力使用量正在显著增长。计算的成本在增长,我们正在看到计算通胀。当然,这种情况不能继续下去。数据将继续以指数级增长,而CPU性能的提升永远不会回来。有更好的方法——近二十年来,我们一直在研究加速计算。CUDA增强了CPU,卸载并加速了特定处理器可以做得更好的工作。实际上,性能非常出色,现在很明显,随着CPU的扩展放缓并最终大幅停止,我们应该加速一切。我预测,每一个处理密集型的应用都将被加速,而且毫无疑问,每一个数据中心在不久的将来都将被加速。现在,加速计算是非常合理的。这是非常常识性的。如果你看看一个应用,假设有100个单位的时间。它可能是100秒,可能是100小时。在许多情况下,正如你所知,我们现在正在处理运行1000天的AI应用。嗯,加速效果是令人难以置信的。它几乎听起来不可信,但今天,我将为你展示许多例子。好处是非常非凡的。100倍的加速,但你只增加了大约三倍的功率,并且你只增加了大约50%的成本。我们在PC行业一直在这样做。我们在价值1000美元的PC上加上一个500美元的GPU,GeForce GPU,性能就大幅提升。我们在数据中心这样做,一个价值十亿美元的数据中心,我们加上价值5亿美元的GPU,突然之间它就变成了一个AI工厂。如今,这种情况正在全世界发生。嗯,节省是非常显著的。你每花费一美元就能获得60倍的性能,100倍的加速。你只需要增加3倍的功率来获得100倍的加速,你只需要增加1.5倍的成本。节省是惊人的。节省是以美元来衡量的。很明显,许多公司在云端处理数据时花费了数亿美元。如果采用加速计算,那么节省数亿美元并不意外。那么,为什么会这样呢?原因非常清楚。我们在通用计算中已经经历了长时间的通货膨胀。现在我们终于决定加速。我们可以重新获得大量的被捕捉的损失,大量被保留的浪费,我们现在可以从系统中释放出来。这将转化为金钱的节省,节省能源。这就是为什么你听到我说,你买的越多,你节省的就越多。现在我向你们展示了数学计算。它不是精确的,但它是正确的。对吧?这就是所谓的CEO数学。不是精确的,但它是正确的。你买的越多,你节省的越多。计算软件必须重写我们已有350个库供使用加速计算确实能带来非凡的结果,但这并不容易。为什么它能节省这么多钱,但人们却迟迟没有去做呢?原因是这非常困难。没有这样的软件,你通过C编译器,突然之间那个应用程序运行速度就快了100倍。如果真有可能做到这一点,他们就会直接更换CPU。要做到这一点,实际上你必须重写软件。这是困难的部分,软件必须完全重写,以便你能够重新分解、重新表达在CPU上编写的算法,以便它可以被加速、卸载,并并行运行。这个计算机科学练习是极其困难的。嗯,在过去的20年里,我们让世界变得容易了。当然,非常著名的cuDNN,这个深度学习库处理神经网络。我们有一个AI物理库,你可以用它来进行流体动力学以及许多其他应用,其中神经网络必须遵守物理定律。我们有一个叫做Ariel的新库,它是Akuda加速的5G无线电,这样我们就可以像定义世界网络互联网一样,软件定义和加速电信网络。因此,我们加速的能力使我们能够将所有电信基本上转变为同一类型的平台,一个计算平台,就像我们在云中拥有的那样。cuLitho是一个计算光刻平台,它允许我们处理芯片制造中计算密集度最高的部分。台积电(TSMC)正在使用cuLitho进行生产,节省了巨大的能源和更多的资金。但台积电的目标是加速他们的技术栈,以便为更进一步的进步做好准备,一个算法和更多的计算,用于更深入、更狭窄的晶体管。Pair of Breaks是我们的基因测序库。它是世界上吞吐量最高的基因测序库。cuOpt是一个令人难以置信的库,用于组合优化、路线规划优化、旅行商问题,这些问题非常复杂。科学家们基本上得出结论,你需要一台量子计算机来做这件事。我们创建了一个算法,它在加速计算上运行,运行得非常快,23项世界纪录。我们今天保持着每一项主要的世界纪录。cuQuantum是一个量子计算机的仿真系统。如果你想设计一台量子计算机,你需要一个模拟器来这样做。如果你想设计量子算法,你需要一个量子仿真器来这样做。你将如何做到这一点?如果量子计算机不存在,你将如何设计这些量子计算机,创建这些量子算法?你使用当今世界上存在的最快的计算机,我们当然称它为 Nvidia CUDA。在它上面,我们有一个仿真器,模拟量子计算机。它被全世界数十万研究人员使用。它集成到了所有领先的量子计算框架中,并且被全世界的科学超级计算中心使用。QDF是一个难以置信的数据处理库。数据处理消耗了当今云支出的绝大部分。所有这些都应该被加速。QD加速了世界上使用的主要库。Spark,你们许多人可能在公司中使用Spark,pandas,一个叫做polar的新库,当然还有 Network X,这是一个图形处理数据库库。所以这些只是一些例子。还有更多。每一个都必须被创建,以便我们能够使生态系统利用加速计算的优势。如果我们没有创建cuDNN,CUDA单独就不可能,也不会有可能让全世界的深度学习科学家使用,因为CUDA和在Tensorflow和Pytorch中使用的算法,深度学习算法,它们之间的分离太远了。这几乎就像是在没有OPL的情况下尝试进行计算机图形学。这几乎就像是在没有SQL的情况下进行数据处理。这些特定领域的库真的是我们公司的宝藏。我们有350个这样的库。正是这些库所需要的,也是使我们能够开拓如此多市场的原因。我今天将向你们展示一些其他的例子。就在上周,谷歌宣布他们在云端部署了QDF,并加速了pandas,这是世界上最受欢迎的数据科学库。在座的许多人可能已经使用了pandas,它被全球1000万数据科学家使用,每个月下载量达到1.7亿次。它就是数据科学家的电子表格Excel。现在只需一键,你就可以在Google的云数据中心平台collab中使用pandas,由QDF加速。加速效果真的令人难以置信。让我们来看一下。那是一个很好的演示,对吧?花的时间并不长。CUDA已经达到良性循环拥有全球500万开发者,服务于每个行业当你如此迅速地加速数据处理时,演示不会花费很长时间。好的,Cuda现在已经达到了人们所说的临界点,但它甚至比那更好。CUDA现在已经达到了一个良性循环。这种情况很少见。如果你看看历史以及所有的计算架构、计算平台,在微处理器CPU的情况下,它已经存在了60年。在这个层面上,它在60年里没有被改变过。这种计算方式,加速计算,已经存在,创建一个新平台极其困难,因为这是一个先有鸡还是先有蛋的问题。如果没有开发者使用你的平台,那么当然就不会有用户。但如果没有用户,就没有安装基础。如果没有安装基础,开发者就不会对它感兴趣。开发者想要为一个大的安装基础编写软件,但一个大的安装基础需要大量的应用程序,以便用户能够创建那个安装基础。这个先有鸡还是先有蛋的问题很少被打破,并且已经花费了我们20年的时间,一个接一个的领域库,一个接一个的加速库。现在我们拥有全球500万开发者。我们服务于每一个行业,从医疗保健、金融服务,当然还有计算机行业、汽车行业,几乎世界上每一个主要行业,几乎每一个科学领域。因为我们的架构有如此多的客户,OEM(原始设备制造商)和云服务提供商都有兴趣构建我们的系统。系统制造商,像在台湾这里这样令人惊叹的系统制造商,都有兴趣构建我们的系统,这进而为市场提供更多的系统,这当然为我们创造了更大的机会,使我们能够扩大规模,研发规模,这进一步加速了应用的发展。过去10年特定算法的计算边际成本降低100万倍每次我们加速应用,计算成本就会下降。这就是我之前向你们展示的那张幻灯片。100倍的加速可以转化为97.96%、98%的节省。所以当我们从100倍加速到200倍加速再到1000倍加速时,节省的成本,计算的边际成本继续下降。当然,我们相信通过极大地降低计算成本,市场、开发者、科学家、发明家将继续发现新的算法,这些算法会消耗越来越多的计算资源,以至于有一天会发生某种变化,一种根本性的变化,计算的边际成本如此之低,以至于计算机的新使用方式出现了。实际上,这就是我们现在所看到的。多年来,在过去10年中,我们已经将一种特定算法的计算边际成本降低了一百万倍。因此,现在用互联网上的所有数据来训练大型语言模型是非常合乎逻辑和常识的。没有人会对此再三考虑。你可以创造一台能够处理如此多数据并自行编写软件的计算机的想法。AI的出现之所以成为可能,是因为我们完全相信,如果我们使计算成本越来越低,就会有人找到一个很好的用途。今天,CUDA已经达到了一个良性循环——安装基础在增长,计算成本在下降,这促使更多的开发者提出更多的创意,这又推动了更多的需求。现在我们正处于一个非常重要事物的开始阶段。但在我向你们展示那个之前,我将向你们展示如果没有我们创造的CUDA,如果没有我们创造的现代版的生成式AI,现代AI的大爆炸,我即将展示给你们的东西是不可能的。正在发生的变化计算机将执行任务而不是生产软件将Nims微服务连接成大型应用超级计算机已演变为数据中心生产token,成为AI工厂这是地球2号。我们创建一个地球的数字孪生兄弟的想法。我们将去模拟地球,以便我们能够预测我们星球的未来,更好地避免灾难或更好地理解气候变化的影响,以便我们能够更好地适应,以便我们能够改变我们的习惯。现在,这个地球的数字孪生兄弟,它可能是世界上曾经承担过的最雄心勃勃的项目之一,我们每年都在迈出大步。我将每年向你们展示结果。但今年,我们取得了一些重大突破。让我们来看看。在不久的将来的某一天,我们将能够对地球上每一平方公里进行连续天气预报。你将始终知道气候将会如何。你将始终知道。这将因为训练了人工智能而持续运行,而人工智能所需的能量非常少。所以这是一项令人难以置信的成就。我希望你们喜欢它。非常重要的是,事实上,那是一个Jensen AI说的。那不是我。我写了它,但是一个AI。Jensen AI不得不说出来。这确实是一个奇迹。然而,在2012年,发生了一些非常重要的事情。因为我们致力于推进CUDA,因为我们致力于不断提高性能并降低成本。研究人员发现了,人工智能研究人员在2012年发现了CUDA。那是英伟达与AI的第一次接触。这是一个非常重要的日子。我们有明智的决策与科学家合作,使深度学习成为可能。当然,AlexNet实现了巨大的计算机视觉突破。但伟大的智慧在于退后一步,理解背景是什么,深度学习的基础是什么,长期影响是什么,它的潜力是什么?我们意识到这项技术有很大的潜力去扩展一个几十年前发明和发现的算法。突然之间,由于更多的数据、更大的网络,以及非常重要的,更多的计算能力,深度学习能够实现人类算法无法做到的事情。现在想象一下,如果我们进一步扩大架构,更大的网络、更多的数据和更强的计算能力。那将可能实现什么?于是我们致力于重新发明一切。2012年之后,我们改变了我们的GPU架构,当然还有Tensor。我们在10年前发明了NV Link。现在,Coodie和TensorRT,Nickel,我们收购了Melanocks,TensorRT,Triton推理服务器,所有这些都汇聚在一台全新的计算机上。没有人理解它。实际上,我确信没有人想要购买它。于是我们在GTC上宣布了它,OpenAI,旧金山的一个小公司,他们让我给他们送一台。我在2016年向OpenAI交付了第一台DGX,世界上第一台AI超级计算机。在那之后,我们继续从一台AI超级计算机,一个AI设备扩展;我们将其扩展到大型超级计算机,甚至更大。到2017年,世界发现了变换器Transformers,这样我们就可以训练大量的数据,并识别和学习在长时间跨度上是序列性的模式。现在对我们来说,训练这些大型语言模型以理解并在自然语言理解上取得突破已成为可能。我们在那之后继续前进。我们建造了更大的(计算机)。然后在2022年11月,在数千个、数万个Nvidia GPU和一台非常大的AI超级计算机上训练。OpenAI宣布ChatGPT在5天后拥有一百万用户,在5天后达到一百万,在2个月内达到一亿,是历史上增长最快的应用。而其原因非常简单——它非常容易使用,而且使用起来非常神奇,能够与计算机交互;就像它是人类一样,而不是清楚地知道你想要什么,就像是计算机理解了你的意思。它理解了你的意图。无论如何,ChatGPT出现了,这张幻灯片上有件非常重要的事情。让我给你们看点东西。在ChatGPT向世界展示之前,人工智能都是关于感知、自然语言理解、计算机视觉、语音识别。都是关于感知和检测。这是世界上第一次解决生成式AI的问题,它一次产生一个token,这些token是单词。当然,其中一些token现在可以是图像、图表、表格、歌曲、文字、语音、视频。这些token可以是任何你可以学习其含义的东西。它可以是化学物质的token、蛋白质的token、基因,就像你们之前在地球2号中看到的,我们正在生成天气的token。我们可以学习物理,如果你能学习物理,你就能教一个AI模型物理。AI模型可以学习物理的含义,并且它可以生成物理。我们正在将精度降低到1公里,不是通过过滤,而是通过生成。因此,我们可以使用这种方法为几乎所有有价值的东西生成token。我们可以为汽车生成方向盘控制。我们可以为机械臂生成关节运动。我们能学到的一切,现在都可以生成。我们现在所到达的不是一个AI时代,而是生成式AI时代。但真正重要的是,这台最初作为超级计算机的计算机现在已经演变成一个数据中心,它产生一样东西,它产生tokens,它是一个AI工厂。这个AI工厂正在生成、创造、生产具有巨大价值的东西,一种新的商品。在19世纪90年代末,尼古拉·特斯拉发明了交流发电机。我们发明了一个AI发电机。交流发电机产生了电子。Nvidia的AI发电机产生token。这两样东西都拥有巨大的市场机会。它几乎在每个行业中都完全可替代,这就是为什么它是一次新的工业革命。我们现在拥有一个新的工厂,为每个行业生产新的商品。这是非常宝贵的价值。而做这件事的方法论是非常可扩展、可复制的。请注意,许多不同的AI模型,生成式AI模型正在被以日新月异的速度发明出来。每一个行业现在都在纷纷加入。这是第一次。IT行业,这是一个价值3万亿美元的IT行业,即将创造出能够直接服务于100万亿美元产业的东西,不再仅仅是信息存储或数据处理的工具,而是为每个行业生成智能的工厂。这将是一个制造业,不是计算机制造业,而是在制造业中使用计算机。这是前所未有的。非常了不起的事情。从加速计算开始,到AI,到生成式AI,现在是一场工业革命。现在对我们行业的影响也是相当重大的。当然,我们可以为许多行业创造一种新的商品,一种我们称之为token的新产品,但对我们的影响也是相当深远的。计算机将执行任务而不是生产软件将Nims微服务连接成大型应用程序正如我之前所说的,60年来,计算的每一层都发生了变化,从CPU的通用计算到加速GPU计算,计算机需要指令。现在计算机处理LLMs,大型语言模型,AI模型。而过去的计算模型几乎每次你触摸手机时都是基于检索的——一些预录的文本或预录的图像或预录的视频被检索出来,并根据推荐系统重新组合,根据你的习惯呈现给你。但在将来,你的计算机将尽可能多地生成,只检索必要的内容。原因是生成数据需要较少的能量去获取信息。生成数据也更具上下文相关性。它将编码知识。它将理解你。不再说给我那个信息或给我那个文件,你可以问我要答案。计算机不再是我们使用的工具,计算机现在将生成技能,它执行任务。不再是一个生产软件的行业,这是90年代初的一个革命性的想法。还记得微软为打包软件创造的想法彻底改变了PC行业吗?没有打包的软件,我们会用PC做什么?它推动了这个行业。现在我们有一个新的工厂,一台新的计算机,我们将在这个上面运行的是一种新型的软件,我们称之为Nims,Nvidia推理微服务。现在发生的情况是Nim在这个工厂内部运行。这个Nim是一个预先训练好的模型。它是一个AI。当然,这个AI本身相当复杂,但是运行AI的计算栈是极其复杂的。当你使用ChatGPT时,在他们的栈下面是一大堆软件。在那个提示下面是大量的软件。它非常复杂,因为模型很大,有数十亿到数万亿的参数。它不仅仅在一台计算机上运行,而是在多台计算机上运行。它必须在多个GPU上分配工作负载,张量并行性,流水线并行性,数据并行,各种并行性,专家并行性,各种并行性。尽可能快地跨多个GPU分配工作负载,进行处理。因为如果你在工厂,如果你经营一个工厂,你的吞吐量直接关联到你的收入,你的吞吐量直接关联到服务质量,以及可以利用你的服务的人数。我们现在所处的世界,数据中心的吞吐量利用变得极其重要。每一个参数都被测量,开始时间、正常运行时间、利用率、吞吐量、空闲时间,等等,因为它是一个工厂。当某事物成为一个工厂时,其运营直接关联到公司的财务表现。所以我们意识到这对大多数公司来说是非常复杂的。所以我们做的是创建了这个AI盒子和容器,容器里有一个难以置信的软件集合是CUDA、cuDNN、TensorRT、Triton用于推理服务。它是云原生的,所以你可以在Kubernetes环境中自动扩展。它有管理服务和钩子,以便你可以监控你的AI。它有通用API、标准API,所以你真的可以与这个盒子对话。你下载这个名称,只要在你的电脑上有CUDA,你就可以和它交谈,CUDA现在已经无处不在。它在每个云中,每个计算机制造商都有提供。它在数亿台个人电脑中都有提供。当你下载这个,你就拥有了一个AI,你可以像使用ChatGPT一样与它交谈。现在所有的软件都已集成,400个依赖项全部集成到一个中。我们在云端对我们所有的安装基础测试了这个Nim,这些预训练模型针对所有种类,包括Pascal和Ampere以及Hopper的所有不同版本。我甚至忘记了一些名字。难以置信的发明。这是我最喜欢的之一。当然,如你所知,我们现在有能力创建大型语言模型和各种预训练模型。我们有所有这些不同版本,无论是基于语言的还是基于视觉的或基于成像的,或者我们有适用于医疗保健、数字生物学的版本,我们有数字人类的版本。但我将在ai.dot/video.com上和你谈论你如何使用它。今天,我们在huggingface上刚刚发布了完全优化的Lama 3 Nim。你可以在那里试用,甚至可以带走。它是免费提供给你的。所以你可以在云端运行它,在任何云端运行。你可以下载,放入你自己的数据中心,你可以托管它,为你的客户使其可用。正如我提到的,我们有各种不同的领域,物理,其中一些用于语义检索称为RAGs,视觉语言,各种不同的语言。你使用它的方式是将这些微服务连接成大型应用程序。过去指令编写的应用变成了组建AI团队的应用在即将到来的未来中,最重要的应用之一当然是客户服务。几乎每一个行业都需要Agents。它代表了全球数万亿美元的客户服务。护士,我们的客户服务Agent,在某些方面,其中一些非处方或非诊断基础的护士本质上是零售、快餐、金融服务、保险的客户服务。现在,数千万的客户服务都可以通过语言模型和AI得到增强。所以这些你看到的盒子基本上是NIMs(推理微服务)。有些名字是推理Agent,给出一个任务,弄清楚任务是什么,将其分解为一个计划。有些NIMs检索信息。有些NIMs可能会去执行搜索。有些NIMs可能使用像我之前谈到的Kuop这样的工具。它可能需要学习一种叫做ABAP的特定语言。也许有些名字需要进行SQL查询。所以所有这些名字都是现在作为一个团队组装起来的专家。那么发生了什么?应用层已经发生了变化。过去用指令编写的应用,现在变成了组建AI团队的应用。很少有人知道如何编写程序。几乎所有人都知道如何分解问题并组建团队。我相信,在未来,每个公司都会有大量的NIMs。你可以根据需要调用专家,将它们连接成一个团队,甚至不必弄清楚如何精确地连接它们。你只需将任务交给一个Agent,一个NIM,让它弄清楚如何分解任务以及分配给谁。然后,应用的中心,团队的领导者,如果愿意,团队的领导者将分解任务并分配给各个团队成员。团队成员将执行他们的任务,将其带回给团队领导者。团队领导者将对信息进行推理,并向您呈现信息。这种变化意味着软件开发和问题解决的方式正在向更加模块化和智能化的方向发展。通过利用预训练的AI模型(即NIMs),公司可以创建灵活、可扩展的解决方案,以适应各种业务需求。这种方法降低了技术门槛,使非技术背景的人员也能参与到应用的构建和问题解决中来。就像人类一样。这在我们的不远的将来。这就是应用程序将会呈现的方式。当然,我们可以与这些大型AI服务通过文本提示和语音提示进行交互。不止Agent,还有数字人类然而,在许多应用中,我们希望能够与一个人形的交互对象进行互动。我们称它们为数字人类(Digital Humans)。视频技术在数字人类技术上已经研究了一段时间。让我展示给你们看。数字人类有潜力成为一个与你互动的极好的Agent,它们可以更具吸引力,可以更具同情心。当然,我们必须跨越这个令人难以置信的现实主义鸿沟,使得数字人类看起来更自然。这当然是我们的愿景。这是我们乐于追求的方向。但让我展示一下我们现在的进展。PC将成为非常重要的AI平台非常了不起。这些ACE在云端运行,但它也运行在个人电脑上。我们有先见之明,在所有RTX中都包含了张量核心GPU。所以一段时间以来,我们一直在出货AI GPU,为这一天做准备。原因非常简单。我们总是知道,为了创建一个新的计算平台,你首先需要一个安装基础。最终,应用程序将会到来。如果你不创建安装基础,应用程序怎么会来呢?所以如果你建造它,他们可能不会来。但如果你不建造它,他们就不能来。所以我们在每一个RTX GPU中都安装了张量核心处理单元。现在世界上有1亿台G Force RTX AIPC,我们正在出货200万台。在这次Computex上,我们展示了四款全新的令人惊叹的笔记本电脑。它们全都能够运行AI。你未来的笔记本电脑,你未来的PC将成为一个AI。它将不断地帮助你,在后台辅助你。PC也将运行由AI增强的应用程序。当然,你所有的图片编辑、写作和你使用的所有工具,所有这些东西都将通过AI得到增强。你的PC还将托管具有AI的数字人类的应用程序。因此,AI将以不同的方式表现自己,并在PC中得到使用。但PC将成为非常重要的AI平台。为下一阶段AI而生从Blackwell到Ruben为每种类型的机器人系统创建平台下一阶段AI将理解物理世界Blackwell为此而生那么我们从这里走向何方呢?我之前谈到了我们数据中心的扩展,每次我们扩展时,我们都会发现新的变革。当我们从DGX扩展到大型AI超级计算机时,我们使Transformers能够在极其庞大的数据集上进行训练。事情的开始是这样的,数据是人工监督的。它需要人工标注来训练AI。不幸的是,人工标注的能力是有限的。Transformers使得无监督学习成为可能。现在,Transformers只需查看大量的数据,或查看大量的视频,或查看大量的图像,它就可以通过学习大量的数据,自己发现模式和关系。那么,下一代AI需要基于物理。如今大多数AI并不理解物理定律。为了让AI能够生成图像、视频、3D图形以及许多物理现象,我们需要基于物理的AI,它们理解物理定律。当然,实现这一点的方法之一是通过视频学习。另一种方式是合成数据、模拟数据,以及使用计算机彼此学习。这与使用AlphaGo并无不同,让AlphaGo自己和自己对弈,自我对弈,两种相同能力相互对弈很长一段时间,它们会变得更聪明。因此,你将开始看到这种类型的AI出现。嗯,如果AI数据是合成生成的并使用强化学习,那么数据生成的速率将继续提高是合理的。每次数据生成增长时,我们必须提供的计算量也需要随之增长。我们即将进入一个阶段,AI可以学习物理定律并理解并基于物理世界数据。因此,我们预计模型将继续增长,我们需要更大的GPU。虽然Blackwell是为这一代设计的,这就是Blackwell,它具有几个非常重要的技术。当然,其中之一就是芯片的尺寸。我们在TSMC制造了两个最大的芯片,并且用每秒10TB的链路将它们两个连接在一起,这是世界上技术最先进的Ceres,将这两个连接在一起。然后我们将两个这样的芯片放在一个计算节点上,用Grace CPU连接。Grace CPU在训练情况下可以用于几件事情。它可以用于在推理和生成的情况下快速检查点和重启。它可以用于存储上下文内存,以便AI具有内存并理解你想要的对话的上下文。这是我们的第二代Transformer引擎,允许我们根据计算层所需的精度和范围动态适应较低的精度。这是我们的第二代GPU,具有安全AI功能,所以你可以让服务提供商保护你的AI不被盗窃或篡改。这是我们的第五代MV Link,允许我们将多个GPU连接在一起,我马上会展示更多相关内容。这还是我们第一代具有可靠性和可用性引擎的产品。这个系统允许我们测试每一个晶体管、触发器、片上存储器、片外存储器,以便我们在现场确定某个特定芯片是否正在MTBF(平均故障间隔时间)上失败。拥有1万个GPU的超级计算机的MTBF以小时计算。拥有10万个GPU的超级计算机的MTBF以分钟计算。因此,如果我们不发明技术来增强其可靠性,超级计算机长时间运行并训练可能持续数月的模型实际上是不可能实现的。可靠性当然会增强正常运行时间,这直接影响成本。最后,解压缩引擎数据处理是我们必须要做的最重要的事情之一。我们增加了数据压缩引擎、解压缩引擎,这样我们就可以比现在可能的速度从存储中提取数据快20倍。所有这些都代表了Blackwell。我想我们这里有一个已经投入生产的。在GTC期间,我向你们展示了Blackwell的原型状态。女士们、先生们,这就是Blackwell。Blackwell正在生产中。难以置信的技术含量。这是我们的生产线板。这是世界上最复杂、性能最高的计算机。这是Grace CPU。这些是Blackwell芯片,你可以看到每一个Blackwell芯片,两个连接在一起。你可以看到它是世界上最大的芯片。然后我们用每秒10TB的链路将两个连接在一起。这就构成了Blackwell计算机。它的性能令人难以置信。所以你看到我们的计算能力,每一代的AI运算速度在八年内增长了1000倍。摩尔定律在八年内也许40、60倍。在过去的八年里,摩尔定律的增长远远低于这个数字。所以即使把摩尔定律在其最佳时期与Blackwell能做的事情相比较,计算量是惊人的。Blackwell将能耗降至3/1000而每当我们将计算能力提高时,发生的事情就是成本下降。我将向你们展示,我们已经通过提高计算能力,用于训练一个GPT-4 2万亿参数、8万亿标记的能耗已经下降了350倍。帕斯卡(Pascal)架构的GPU如果来做这件事,将需要1000千兆瓦时电能。1000千兆瓦时意味着,如果有一个千兆瓦的数据中心——世界上没有千兆瓦的数据中心,但如果你有一个千兆瓦数据中心,它将需要一个月的时间。如果你有一个百兆瓦数据中心,它将需要大约一年的时间。当然,没有人会创建这样的东西。这就是为什么这些大型语言模型,ChatGPT在8年前是不可能的,只有通过我们不断提高性能、能效,同时保持和提高能效,才使这一切成为可能。现在我们已经用Blackwell将原本需要1000千兆瓦时的能耗降低到了3,一个令人难以置信的进步,仅需要3千兆瓦时。如果是一个10000个GPU的系统,例如,我猜它将只需要几天,大约10天左右。在仅仅八年内的进步是令人难以置信的。这是用于推理的。这是用于生成token的。我们的token生成性能使我们能够将能耗降低到每生成一个token只需17,000 焦耳。那是帕斯卡(Pascal)的能耗,17,000 焦耳。这有点像需要两个灯泡运行两天来产生一个GPT-4的token。生成一个词大约需要三个token。因此,帕斯卡生成GPT-4并提供ChatGPT体验所需的能耗实际上是不可能实现的。但现在我们每个token仅使用0.4焦耳,我们可以以惊人的速度生成token,并且能耗非常少。DGX系统如何构建数百万个GPU的数据中心时代即将到来所以Blackwell是一个巨大的飞跃。即便如此,它还不够大。因此,我们必须构建更大的机器。我们构建它的方式称为DGX。所以这是我们的Blackwell芯片,它被安装进DGX系统中。这是DGX Blackwell。这个设备是空气冷却的,内部有8个这样的GPU。看看这些GPU上的散热器大小,大约15千瓦,15,000瓦,并且完全通过空气冷却。这个版本支持x86,并且进入我们一直在出货的基础设施。然而,如果你想要液体冷却,我们有一个新系统。这个新系统基于这个主板,我们称之为MGX,代表模块化。这里是两个Blackwell主板。所以这个节点有四个Blackwell芯片。这四个Blackwell芯片,这是液体冷却的。72个这样的GPU通过一个新的MV Link连接在一起。这是MV Link交换机,第五代;MV Link交换机是技术奇迹,这是世界上最先进的交换机。数据传输速率是疯狂的,这些交换机将每一个Blackwell连接到彼此,以至于我们有一个巨大的72 GPU Blackwell。这样做的好处是,在一个GPU域中,现在看起来就像一个GPU。这个GPU有72个处理单元,而上一代是8个。因此,我们把处理单元的数量增加了9倍,带宽增加了18倍,AI运算性能(FLOPs)增加了45倍。然而,功率的增加仅为10倍。这是100千瓦。这是10千瓦。而且是针对一个GPU来说的。当然,你总是可以连接更多的这些设备在一起,我马上会展示给你看。但奇迹是这个芯片,这个MV Link芯片。人们开始意识到MV Link芯片的重要性,因为它将所有这些不同的GPU连接在一起。由于大型语言模型非常大,它不适合只在一个GPU上,不适合只有一个节点。它将需要整个机架的GPU,就像我刚刚站在旁边那个新的DGX一样,来容纳有数万亿参数的大型语言模型,大型的envy link交换机本身是技术奇迹,有500亿个晶体管,74个端口每个端口400千兆位,4个链接的截面带宽为每秒7.2兆字节。但其中一件重要的事情是,它在交换机内部有数学功能,这样我们可以在芯片上直接进行归约,这在深度学习中非常重要。所以现在DGX看起来是这样的。很多人说,对Nvidia所做的事情有些困惑。Nvidia怎么可能通过制造GPU变得如此之大?所以有一种印象,认为这就是GPU的样子。现在这是GPU,这是世界上先进的GPU之一。这一个GPU,女士们先生们,DGXgpu。你知道这个GPU的背面是MV link脊柱。这个envy link脊柱有5000根线,2英里长,它就在这里。这是一个envy link脊柱,它连接了很多两个GPU。这是一个电气机械奇迹,收发器使我们可以在整个长度上使用铜。因此,MV length交换机,驱动MV length脊柱使用铜,使我们能够在一个机架上节省20千瓦。现在20千瓦可以用于处理,真是一项令人难以置信的成就。即使这个也不够大,对于AI工厂来说,所以我们需要用非常高速的网络将它们全部连接在一起。我们有两种类型的网络。我们有无限带宽(Infiniteband),它已经在全球的超级计算和AI工厂中被使用。它对我们来说增长得非常快。然而,并非每个数据中心都能处理无限带宽,因为它们已经在以太网生态系统中投入了太久,而且确实需要一些特殊技能和专业知识来管理无限带宽交换机和无限带宽网络。所以我们做了一件非常困难的事情,我们将无限带宽的功能带到了以太网架构中。原因在于以太网被设计用于高平均吞吐量,因为每一个节点,每一台计算机都连接到互联网上的不同人。数据中心与互联网另一端的人之间的大部分通信。然而,在深度学习和AI工厂中,GPU并不是在与互联网上的人通信。它们大部分时间在相互通信。它们相互通信是因为它们都在收集部分产品,然后必须进行归约,然后重新分配。部分产品的模块,归约,重新分配。这种流量非常突发性。重要的不是平均吞吐量,而是最后到达的时间。因为如果你在归约,从每个人那里收集部分产品,如果我要拿取你们所有人的……所以不是平均吞吐量,而是最后给我答案的人。好的,以太网没有这方面的规定。所以我们不得不创造几件事情。我们创建了一个端到端的架构,使得网卡和交换机可以相互通信,我们应用了四种不同的技术来实现这一点。第一,Nvidia拥有世界上最先进的RDMA(远程直接内存访问)。所以现在我们有能力为以太网实现网络级别的RDMA,这非常棒。第二,我们有拥塞控制。交换机始终以极快的速度进行遥测。每当GPU或Nyx发送太多信息时,我们可以告诉它们退后,以免创建热点。第三,自适应路由。以太网需要按顺序传输和接收。我们发现拥塞或看到当前未被使用的端口,不管顺序如何,我们会将其发送到可用端口,而Bluefield在另一端重新排序,以便它能够按顺序回来。这种自适应路由功能非常强大。最后是噪声隔离。在数据中心随时都可能有多个模型正在训练或其他事情在发生,它们的噪声和流量可能会相互干扰,导致抖动。因此,当一个训练模型的噪声导致最后一个到达的延迟过晚,它真的会减慢训练速度。请记住,总的来说,你已经建立了一个价值50亿或30亿美元的数据中心,你用它来训练。如果网络利用率低了40%,并且因此,训练时间延长了20%,那么这个价值50亿美元的数据中心实际上就像一个价值60亿美元的数据中心。所以成本是难以置信的。成本影响相当高。Spectrum X以太网基本上允许我们如此显著地提高性能,但网络基本上是免费的。所以这真是一个成就。我们非常自豪,我们有一整套以太网产品线。这是Spectrum x800。它的速率是每秒51.2兆比特,256路辐射。下一个即将推出的是5,12路辐射,一年后推出,5,12路辐射,那叫做Spectrum X800 Ultra。然后是X16。但重要的想法是,x800是为数万个GPU设计的。X800 Ultra是为数十万个GPU设计的,X16是为数百万个GPU设计的。数百万个GPU的数据中心时代即将到来。原因非常简单。我们当然想要训练更大的模型。但非常重要的是,在将来,你与互联网或计算机的几乎所有交互都可能在云端某处有一个生成式AI在运行。这个生成式AI正在与你合作,与你交互,生成视频或图像或文本或可能是数字人类。所以你几乎一直在与计算机交互,并且总有一个生成式AI连接到其中。有些是在本地,有些在你的设备上,还有很多可能在云端。这些生成式AI也将具备很多推理能力。它们不仅仅是一次性给出答案,它们可能会对答案进行迭代,以便在给出答案之前提高答案的质量。因此,我们将在未来进行的生成量将是非凡的。让我们一起来看看所有这些结合在一起的情况。今晚,这是我们的首次夜间主题演讲。我想感谢大家今晚7点出席。所以,我即将向你们展示的内容有一种新的氛围。这是夜间主题演讲的氛围。那么,enjoy this~~每年上新的节奏明年是Blackwell UltraBlackwell当然是Nvidia平台的第一代,在正确的时刻推出。正如世界所知,生成式AI时代已经到来。就像世界意识到AI工厂的重要性,就像这场新的工业革命的开始,我们得到了如此多的支持。几乎所有的OEM,每一个计算机制造商,每一个云服务提供商(CSP),每一个GPU云,主权云,甚至是电信公司,全球各地的企业。Blackwell 的成功、采用程度和热情真是高得难以置信。我想感谢大家的支持。我们不会就此止步。在这个令人难以置信的增长时期,我们要确保我们继续提高性能,继续降低训练成本、推理成本,并继续扩展AI能力,让每个公司都能拥抱它。我们推动的性能越高,成本下降就越大。Hopper平台当然可能是历史上最成功的数据中心处理器,这只是一段令人难以置信的成功故事。然而,Blackwell已经到来,正如你将注意到的,每一个平台都有几个要素。你有 CPU,你有GPU,你有MV Link,你有网卡,你还有连接所有GPU的大型高速交换机,尽可能构成一个大型域。我们所做的一切,我们用非常大型和高速的交换机连接每一个代的设备。正如你将看到的,不仅仅是一个GPU,而是整个平台。我们构建了整个平台。我们将整个平台集成到一个AI工厂超级计算机中。然而,我们将其分解并提供给世界。原因是因为你们可以创造有趣和创新的配置,以及各种不同风格,适应不同的数据中心、不同的客户和不同的地方,有些是用于边缘计算,有些是用于电信。如果我们使系统开放并使你们能够创新,那么所有不同的创新都是可能的。因此,我们设计的是集成的,但我们提供给你们的是分解的,以便你们可以创建模块化系统。Blackwell平台已经在这里了。我们公司遵循一年的节奏,我们的基本理念非常简单: 构建整个数据中心规模的分离式架构,然后按照一年的节奏分部分销售给你们。我们将一切推向技术极限,无论是什么。台积电(TSMC)的工艺技术,将其推向绝对极限,无论是封装技术,也将其推向绝对极限,无论是存储技术,也推向极限。CERDE技术、光学技术,一切都被推向极限。然后,在这一切之后,以这样的方式做一切事情,以便我们所有的软件都能在整个安装基础上运行。软件惯性是计算机中最重要的事情之一。当计算机向后兼容,并且与已经创建的所有软件在架构上兼容时,你进入市场的能力就会快得多。因此,当我们可以利用已经创建的全部软件安装基础时,速度是令人难以置信的,而Blackwell就在这里。明年是Blackwell Ultra,就像我们有H100和H200一样,你们很可能会看到我们为Blackwell Ultra带来的一些非常令人兴奋的新一代产品,再次推向极限。还有我提到的下一代Spectrum交换机。这是这个下一代产品首次被提及,我还不确定,我会不会后悔这个决定。下一代平台叫Rubin往往我们公司的大多数员工甚至都不知道,我们下一代平台叫做Rubin——Rubin平台。我不会在这方面花太多时间。我知道会发生什么。你们会给它拍照,然后你们会去看细则,并且可以随意那样做。所以我们有Rubin平台,一年后,我们将有Rubin Ultra平台。我在这儿向你们展示的所有这些芯片都处于全面开发中,100%都是;节奏是每年在技术的极限,全部在架构上100%兼容。这基本上就是Nvidia正在构建的,以及在其之上的所有丰富的软件。所以在很多方面,从ImageNet那一刻起的过去12年,我们意识到社区的未来将会发生根本性的变化,直到今天,确实正如我之前所展示的,从2012年前的GeForce到今天的Nvidia,公司已经发生了巨大的转变。我要感谢我们所有的合作伙伴一路上对我们的支持。这是Nvidia Blackwell平台。机器人技术时代已经到来在Omniverse中机器人学习如何成为机器人让我来谈谈下一步。下一代AI是理解物理定律的物理AI,能够在我们中间工作的 AI。因此,它们必须理解世界模型,以便它们知道如何解释世界,如何感知世界。它们当然必须具备出色的认知能力,以便它们能够理解我们,理解我们的要求并执行任务。在未来,机器人技术是一个更加普遍的概念。当然,当我说到机器人技术时,通常想到的是人形机器人。但这并不是真的。一切都将变得自动化。所有的工厂都将是自动化的。工厂将协调机器人,那些机器人将建造自动化的产品,机器人与机器人互动,建造自动化的产品。为了实现这一点,我们需要取得一些突破。让我给你们看一段视频。机器人技术的时代已经到来。有一天,所有会动的东西都将是自治的。全世界的研究人员和公司正在开发由物理驱动的机器人。AI 模型能够理解指令并在现实世界中自主执行复杂任务。多模态大型语言模型(LLMs)的突破使机器人能够学习、感知和理解周围的世界,并计划它们的行动。通过人类的演示,机器人现在可以学习与世界互动所需的技能,使用粗略和精细的运动技能。推进机器人技术发展的关键技术之一是强化学习。正如大型语言模型(LLMs)需要来自人类反馈的强化学习(RLHF)来学习特定技能一样,生成式物理 AI 也可以通过模拟世界中物理反馈的强化学习来学习技能。这些模拟环境是机器人学习如何做决策的地方,通过在遵守物理定律的虚拟世界中执行动作。在这些机器人体育馆中,机器人可以安全快速地学习执行复杂和动态任务,通过数百万次的试错行为来提炼它们的技能。我们构建了Nvidia Omniverse作为操作系统,在这里可以创建物理AI。Omniverse 是一个用于虚拟世界模拟的开发平台,结合了实时基于物理的渲染、物理模拟和生成式AI技术。在Omniverse中,机器人可以学习如何成为机器人。它们学习如何精确地自主操控物体,例如抓取和操控物体,或者自主导航环境,在避开障碍物和危险的同时寻找最佳路径。在Omniverse中学习可以最小化模拟与现实之间的差距,并最大化学习行为的转移。构建具有生成式物理AI的机器人需要三台计算机:Nvidia AI超级计算机用于训练模型、英伟达Jetson Orange和下一代Jetson Thor机器人超级计算机来运行模型。Nvidia Omniverse,机器人可以在模拟世界中学习和提炼技能。我们构建了开发者和公司所需的平台、加速库和 AI 模型,并允许他们使用任何所需的技术。他们最适合的堆栈。AI 的下一个浪潮已经到来。由物理 AI 驱动的机器人技术将彻底改变各行各业。这并不是未来,这正在发生。为每种类型的机器人系统创建平台我们将以几种方式服务市场。首先,我们将为每种类型的机器人系统创建平台。一个用于机器人工厂和仓库,一个用于操作物体的机器人,一个用于移动的机器人,以及一个用于人形机器人。因此,这些机器人平台几乎就像所有其他东西一样。我们提供计算机加速库和预训练模型。计算机加速库、预训练模型,我们测试一切,我们在Omniverse内部训练一切并整合一切,正如视频所说,Omniverse是机器人学习如何成为机器人的地方。当然,机器人仓库的生态系统非常复杂。构建一个现代仓库需要许多公司、许多工具、许多技术。仓库正在日益变得自动化。将来某一天将完全自动化。因此,在这些生态系统中,我们有SDK和API,它们连接到软件行业,SDK和API连接到边缘AI行业和公司。当然,也有为PLC(可编程逻辑控制器)和机器人系统设计的系统,用于ODM(原始设计制造商)。然后,这些系统由集成商整合,最终为客户建造仓库。这里我们有一个例子,Kenmac为 Giant Group建造了一个机器人仓库。全球制造巨头如何用AI建造机器人工厂好的,现在让我们谈谈工厂,它有一个完全不同的生态系统。富士康正在建造一些世界上最先进的工厂。他们的生态系统同样包括边缘计算机和机器人。用于设计工厂、工作流程的软件,编程机器人,当然还有协调数字工厂和AI工厂的PLC计算机。我们也为这些生态系统中的每一个提供SDK和API。这些都在台湾各地发生。富士康已经建造并正在建造他们工厂的数字孪生。台达电子正在建造他们工厂的数字孪生。顺便说一下,一半是真实的,一半是数字的,一半是Omniverse。和硕正在建造他们机器人工厂的数字孪生,仁宝也是如此。这真的很厉害。这是富士康新工厂的视频。让我们来看一下。随着世界将传统数据中心现代化为生成式AI工厂,对Nvidia加速计算的需求正在激增。全球最大的电子制造商富士康正在通过使用Nvidia Omniverse和AI建造机器人工厂来满足这一需求。工厂规划者使用Omniverse集成来自领先行业应用(如西门子 Team Center X 和 Autodesk Revit)的设施和设备数据。在数字孪生中,他们优化楼层布局和生产线配置,并确定最佳的摄像头位置以监控未来的运营。借助Nvidia Metropolis支持的视觉AI,虚拟集成帮助规划者节省了在建设期间进行物理变更命令的巨大成本。富士康团队使用数字孪生作为真实情况的来源,以沟通和验证准确的设备布局。Omniverse数字孪生还是机器人体育馆,富士康开发者在这里训练和测试Nvidia Isaac AI应用程序,用于机器人感知和操控,以及Metropolis AI应用程序,用于传感器融合。在Omniverse中,富士康在将运行时间部署到装配线上的Jets和计算机之前,先模拟两个机器人AI。他们模拟Isaac机械手库和AI模型,用于自动光学检查的对象识别、缺陷检测和轨迹规划,将HGX系统转移到测试舱。他们模拟由Isaac感知器驱动的FerRobot AMR(自主移动机器人),当它们进行3D映射和重建时,感知并移动其环境。通过Omniverse,他们建立了机器人工厂,这些工厂协调运行在Nvidia Isaac上的机器人,制造Nvidia AI超级计算机,这些计算机反过来训练装箱机器人。因此,机器人工厂是使用三台计算机设计的,在Nvidia AI上训练AI。你有机器人在PLC系统上运行,用于协调工厂。然后你当然在Omniverse内部模拟一切。机械臂和AMR机器人也是同样的方式,三个计算机系统。不同之处在于两个Omniverse将会汇聚在一起,因此它们将共享一个虚拟空间。当它们共享一个虚拟空间时,那个机械臂将成为机器人工厂内部的一部分。再说一次,三个计算机,我们提供计算机加速层和预训练AI模型。我们已经将Nvidia机械手和Nvidia Omniverse与西门子连接起来,西门子是世界领先的工业自动化软件和系统公司。这真是一个梦幻般的合作伙伴关系,他们正在全球各地的工厂进行合作。Semantic Pick AI现在集成了Isaac机械手,Semantic Pick AI运行,操作ABB、库卡、安川、芬克、通用机器人和技术人。所以西门子是一个极好的集成。我们还有各种其他集成。让我们来看看。Arcbest正在将Isaac感知器集成到Vox智能自治机器人中,以增强对象识别和人体运动跟踪。在物料搬运方面,比亚迪电子正在将Isaac机械手和感知器集成到他们的AI机器人中,以提高全球客户的制造效率。Ideal Works正在将Isaac感知器构建到他们的iOS软件中,用于AI机器人。实际上,Factory Logistics Intrinsic公司正在采用Isaac机械手到他们的流动状态平台中,以推进机器人抓取。Gideon正在将Isaac感知器集成到托盘AI驱动的叉车中。为了推进AI启用的物流,Argo Robotics正在采用Isaac感知器到高级视觉基础AMR的感知引擎中。Solomon正在他们的Acupic 3D软件中使用Isaac机械手AI模型。对于工业操控,Techman Robot正在将Isaac Sim和机械手集成到TM Flow中。加速自动化光学检查,Teradine Robotics正在将Isaac机械手集成到Polyscope X中用于协作机器人(cobot),并将Isaac感知器集成到Mere AMR中。Vention正在将Isaac机械手集成到机器逻辑中。对于AI操控机器人,机器人技术已经到来,物理AI已经到来。这不是科幻小说,它正在台湾各地使用,并且非常令人兴奋。那是工厂,工厂内的机器人。当然,所有产品都将是自动化的。所以有两个非常大量的机器人产品。其中之一,当然是自动驾驶汽车或具有很大自主能力汽车。Nvidia再次构建了整个堆栈,明年我们将与Mercedes车队一起投入生产。之后在2026年,是JLR车队。我们向世界提供完整的堆栈。然而,你可以随意取用我们堆栈的任何部分,任何层次,就像整个Drive堆栈是开放的一样。下一个由机器人工厂制造且内部装有机器人的高容量机器人产品可能会是人形机器人,近年来在认知能力方面,由于基础模型,以及我们正在开发的世界理解能力,这方面都取得了巨大的进步。我对这一领域非常兴奋,因为很明显,最容易适应世界的机器人是人形机器人,因为我们为我们自己建造了这个世界。我们还需要为这些机器人提供比其他类型的机器人更多的训练数据,因为我们有相同的身体结构。所以我们能够通过演示能力和视频能力提供的训练数据量将会非常大。所以我们将在这一领域看到很多进展。嗯,我想我们有一些机器人要欢迎。我们开始吧。我们还有一些朋友要加入我们。所以机器人的未来已经在这里。AI的下一个浪潮。当然,你知道,台湾用键盘制造计算机。你为口袋制造计算机,你在云端制造数据中心计算机,在未来,你将制造会走路的计算机和会滚动的计算机,你知道,四处走动。所以这些都是计算机。事实证明,制造这些计算机的技术与制造你们今天已经制造的所有其他计算机的技术非常相似。所以这将是我们非常不平凡的旅程。好的,我想感谢,我想说,我想感谢,我做了,我制作了最后一个视频,如果你们不介意的话,这是我们非常喜欢制作的东西。让我们播放它。谢谢,我爱你们。谢谢,感谢大家的到来。祝你们拥有愉快的ComputeX。谢谢!","news_type":1},"isVote":1,"tweetType":1,"viewCount":134,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"EN","currentLanguage":"EN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":2,"xxTargetLangEnum":"ORIG"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/312727918743648"}
精彩评论