lpxg
2023-09-04
好文
英伟达最大的风险:全新架构出现,算力需求将骤降?
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
分享至
微信
复制链接
精彩评论
我们需要你的真知灼见来填补这片空白
打开APP,发表看法
APP内打开
发表看法
{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":216404138823744,"tweetId":"216404138823744","gmtCreate":1693841376056,"gmtModify":1693841377361,"author":{"id":3547076717533738,"idStr":"3547076717533738","authorId":3547076717533738,"authorIdStr":"3547076717533738","name":"lpxg","avatar":"https://static.tigerbbs.com/807918b26c91ff22c8a80e4215f96650","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":2,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body><p>好文</p></body></html>","htmlText":"<html><head></head><body><p>好文</p></body></html>","text":"好文","highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/216404138823744","repostId":1171559997,"repostType":2,"repost":{"id":"1171559997","kind":"news","pubTimestamp":1693835898,"share":"https://www.laohu8.com/m/news/1171559997?lang=&edition=full","pubTime":"2023-09-04 21:58","market":"us","language":"zh","title":"英伟达最大的风险:全新架构出现,算力需求将骤降?","url":"https://stock-news.laohu8.com/highlight/detail?id=1171559997","media":"华尔街见闻","summary":"Hyena可达到与GPT-4同等的准确性,但使用的算力比后者减少了100倍。","content":"<html><head></head><body><p>作者:葛佳明</p><p>今年的英伟达确实“猛”,不遗余力拼算力似乎已经成了科技巨头们的共识,部分原因在于,不少大模型都以对算力需求较高的Transformer为架构,而如果在不断迭代的过程中,<strong>Transformer逐步被对算力需求少的架构取代,这是否也将成为英伟达的“潜在风险”</strong>?</p><p style=\"text-align: justify;\">投资了OpenAI劲敌Cohere的著名风险投资家、Radical Ventures合伙人Rob Toews,在9月3日发布的专栏文章指出,Transformer在训练时支持并行化,与GPU的“爆火”时间点吻合。GPU拥有更多流处理器,适合对密集数据进行并行处理和并发计算,非常适合且支持基于Transformer的计算工作流负载。</p><p style=\"text-align: justify;\">毫无疑问,Transformer的架构非常强大,彻底改变了AI界,但缺点也明显,当文章长度变长,计算复杂度就变得非常高,同时,随着模型规模不断扩大,所需计算量呈指数级增加,<strong>这两点都让Transformer的算力需求激增</strong>。</p><p style=\"text-align: justify;\">Toews指出,为了弥补Transformer存在的问题,包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法来降低运算复杂度,减少算力需求。</p><p style=\"text-align: justify;\">Toews直言,尽管这些架构距离挑战Transformer的“王座”仍有较大差距,但不可否认的是,AI发展过程中新鲜的事物接连出现,不断更新换代的过程中,或许没有什么是永远屹立不倒的。</p><p style=\"text-align: justify;\">当算力需求激增之时,从某种程度上说,谁手握英伟达GPU,谁就掌握了AI时代最硬的“硬通货”。而如果在未来Transformer被对算力需求不高的架构取代,那对最大“卖铲人”英伟达来说将构成一定威胁。</p><h2 id=\"id_1412607848\">Transformer的庞大计算成本</h2><p>2017年6月12日,《Attention is All You Need》论文横空出世,让大模型领域变天的Transformer架构出现了。截至9月4日,Transformer诞生超过6周年,而这篇论文被引用高达87345次。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/71241e3c7fa434d467b734323aea558d\" tg-width=\"640\" tg-height=\"193\"/></p><p>分析指出,基于Transformer不断扩展的大模型们,都是以处理性能和功耗方面的高昂成本为代价。因此,虽然人工智能的潜力可能是无限的,但物理和成本却是有限的。</p><p style=\"text-align: justify;\">为什么Transformer对算力的要求如此之高?</p><p style=\"text-align: justify;\">Toews解释称,主要有以下两个原因:1.注意力(attention)机制的计算复杂度,2.越发庞大的模型规模:</p><blockquote><p style=\"text-align: justify;\">Transformer的基本原理是使用自注意力机制来捕获序列数据中的依赖关系,无论它们的距离有多远。</p><p style=\"text-align: justify;\">注意力机制需要将序列中每个词与其他所有词进行配对比较,这导致运算量随序列长度的平方增长,即计算复杂度为O(n^2)。这种平方级复杂度使得随着文本长度增加,所需计算成本急剧上升。</p><p style=\"text-align: justify;\">与此同时,Transformer架构可以更好地扩展大模型,所以研究者不断基于Transformer训练更大规模的模型。目前主流的语言模型参数量达到了数百亿级甚至万亿级,需要大量算力支持。随着模型规模的扩大,所需算力呈指数级上涨。</p></blockquote><p style=\"text-align: justify;\">谷歌母公司Alphabet首席财务官Ruth Porat在财报电话会上表示,<strong>由于需要投资AI基础设施,资本支出将比去年的创纪录水平“略高”</strong>。</p><p style=\"text-align: justify;\">微软最新报告显示,该公司季度资本支出超出预期,首席财务官Amy Hood称原因为加大AI基础设施建设。</p><p style=\"text-align: justify;\">微软在今年年初又向OpenAI砸了100亿美元,为了支撑起大语言模型训练所需的庞大计算资源费用。成立仅18个月的初创公司Inflection也融资超过10亿美元用于构建GPU集群,以训练其大语言模型。</p><p style=\"text-align: justify;\">英伟达GPU在市场的“哄抢”中陷入产能瓶颈。最新的H100芯片早已全部卖空,现在下单要等2024年第一季度甚至第二季度才能排上队。</p><p style=\"text-align: justify;\">Toews指出,上述种种都不难看出,<strong>基于Transformer的模型对计算资源的需求之大,以至于当前的人工智能热潮引发了全球GPU供应短缺,硬件制造商无法跟上激增的需求。</strong></p><h2 id=\"id_248356418\">Transformer面临的难题</h2><p style=\"text-align: justify;\">同时,Toews指出,Transformer处理的句子长度受限,已有的方法大多使用截断的方式,这会导致信息损失,因此<strong>如何实现长文本的预训练是目前的一大难题</strong>。</p><p style=\"text-align: justify;\">而这场AI军备竞赛注定还将持续下去,如果 OpenAI、Anthropic或任何其他公司继续使用Transformer架构,那么它们模型的文本序列长度会受限。</p><p style=\"text-align: justify;\">Toews指出,人们已经进行了各种尝试来更新Transformer架构,仍然使用注意力机制,但能够更好地处理长序列。然而,这些改进后的Transformer架构(如Longformer、Reformer、Performer、Linformer和Big Bird)通常会牺牲部分性能,因此未能获得采用。</p><p style=\"text-align: justify;\">Toews强调,没有一样事物会是完美的,历史的发展也不会停下脚步,尽管Transformer在现在占据绝对的优势地位,但它也并非没有缺点,而这些缺点为新的架构打开了大门。</p><h2 id=\"id_1652538388\" style=\"text-align: start;\">“王位”挑战者出现了?</h2><p style=\"text-align: justify;\">Toews认为,现在寻找可以替代"Transformer"的架构成了最有潜力的领域,而其中的一个研究方向是用一种新的函数替代注意力机制。包括Hyena、Monarch Mixer、BiGS、MEGA等提出了<strong>用Subquadratic方法来降低运算复杂度,减少算力需求</strong>。</p><p style=\"text-align: justify;\">Toews强调,<strong>斯坦福和Mila的研究人员提出了一种名为Hyena的新架构</strong>,具有代替Transformer的潜力,它是一种无注意力、卷积架构,可以匹配注意力模型的质量,同时可以降低计算成本。在次二次多项式NLP任务上表现出色:</p><blockquote><p style=\"text-align: justify;\">据称,Hyena可达到与GPT-4同等的准确性,但使用的算力比后者减少了100倍。这是第一个能够在总FLOPS减少20%的情况下与GPT质量相匹配的无注意力架构,具有成为图像分类的通用深度学习运算符的潜力。</p></blockquote><p style=\"text-align: justify;\">Toews表示,需要注意的是,最初的"Hyena"研究是在相对小的规模下进行的。最大的"Hyena"模型具有13亿个参数,而GPT-3有1750亿个参数,而GPT-4据说达到1.8万亿个参数。因此针对"Hyena"架构的一个关键测试将是,在将其扩展到当前"Transformer"模型规模的情况下,它是否能继续表现出强大的性能和效率提升。</p><p style=\"text-align: justify;\">Toews认为,而液态神经网络是另一个具有取代“Transformer”潜力的架构。麻省理工学院的两名研究人员<strong>从微小的秀丽隐杆线虫(Caenorhabditis elegans)中汲取灵感,创造了所谓的 “液态神经网络” (liquid neural networks)。</strong></p><p style=\"text-align: justify;\">据称,液态神经网络不仅速度更快,而且异常稳定,这意味着系统可以处理大量的输入而不至于失控。</p><p style=\"text-align: justify;\">Toews认为这种较小的架构意味着液态神经网络比"Transformer"更加透明且更易于人类理解:</p><blockquote><p style=\"text-align: justify;\">毕竟,对于人类来说,更容易解释具有253个连接的网络发生了什么,而不是拥有1750亿个连接的网络。</p></blockquote><p style=\"text-align: justify;\">当架构不断改进,逐渐减少了对算力的依赖,是否也意味着会对未来英伟达的营收产生影响?</p></body></html>","source":"live_wallstreetcn","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>英伟达最大的风险:全新架构出现,算力需求将骤降?</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n英伟达最大的风险:全新架构出现,算力需求将骤降?\n</h2>\n\n<h4 class=\"meta\">\n\n\n2023-09-04 21:58 北京时间 <a href=https://wallstreetcn.com/articles/3697092><strong>华尔街见闻</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>作者:葛佳明今年的英伟达确实“猛”,不遗余力拼算力似乎已经成了科技巨头们的共识,部分原因在于,不少大模型都以对算力需求较高的Transformer为架构,而如果在不断迭代的过程中,Transformer逐步被对算力需求少的架构取代,这是否也将成为英伟达的“潜在风险”?投资了OpenAI劲敌Cohere的著名风险投资家、Radical Ventures合伙人Rob Toews,在9月3日发布的专栏...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3697092\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/7d047358e0af1920417573b07259e5f2","relate_stocks":{"NVDA":"英伟达"},"source_url":"https://wallstreetcn.com/articles/3697092","is_english":false,"share_image_url":"https://static.laohu8.com/cc96873d3d23ee6ac10685520df9c100","article_id":"1171559997","content_text":"作者:葛佳明今年的英伟达确实“猛”,不遗余力拼算力似乎已经成了科技巨头们的共识,部分原因在于,不少大模型都以对算力需求较高的Transformer为架构,而如果在不断迭代的过程中,Transformer逐步被对算力需求少的架构取代,这是否也将成为英伟达的“潜在风险”?投资了OpenAI劲敌Cohere的著名风险投资家、Radical Ventures合伙人Rob Toews,在9月3日发布的专栏文章指出,Transformer在训练时支持并行化,与GPU的“爆火”时间点吻合。GPU拥有更多流处理器,适合对密集数据进行并行处理和并发计算,非常适合且支持基于Transformer的计算工作流负载。毫无疑问,Transformer的架构非常强大,彻底改变了AI界,但缺点也明显,当文章长度变长,计算复杂度就变得非常高,同时,随着模型规模不断扩大,所需计算量呈指数级增加,这两点都让Transformer的算力需求激增。Toews指出,为了弥补Transformer存在的问题,包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法来降低运算复杂度,减少算力需求。Toews直言,尽管这些架构距离挑战Transformer的“王座”仍有较大差距,但不可否认的是,AI发展过程中新鲜的事物接连出现,不断更新换代的过程中,或许没有什么是永远屹立不倒的。当算力需求激增之时,从某种程度上说,谁手握英伟达GPU,谁就掌握了AI时代最硬的“硬通货”。而如果在未来Transformer被对算力需求不高的架构取代,那对最大“卖铲人”英伟达来说将构成一定威胁。Transformer的庞大计算成本2017年6月12日,《Attention is All You Need》论文横空出世,让大模型领域变天的Transformer架构出现了。截至9月4日,Transformer诞生超过6周年,而这篇论文被引用高达87345次。分析指出,基于Transformer不断扩展的大模型们,都是以处理性能和功耗方面的高昂成本为代价。因此,虽然人工智能的潜力可能是无限的,但物理和成本却是有限的。为什么Transformer对算力的要求如此之高?Toews解释称,主要有以下两个原因:1.注意力(attention)机制的计算复杂度,2.越发庞大的模型规模:Transformer的基本原理是使用自注意力机制来捕获序列数据中的依赖关系,无论它们的距离有多远。注意力机制需要将序列中每个词与其他所有词进行配对比较,这导致运算量随序列长度的平方增长,即计算复杂度为O(n^2)。这种平方级复杂度使得随着文本长度增加,所需计算成本急剧上升。与此同时,Transformer架构可以更好地扩展大模型,所以研究者不断基于Transformer训练更大规模的模型。目前主流的语言模型参数量达到了数百亿级甚至万亿级,需要大量算力支持。随着模型规模的扩大,所需算力呈指数级上涨。谷歌母公司Alphabet首席财务官Ruth Porat在财报电话会上表示,由于需要投资AI基础设施,资本支出将比去年的创纪录水平“略高”。微软最新报告显示,该公司季度资本支出超出预期,首席财务官Amy Hood称原因为加大AI基础设施建设。微软在今年年初又向OpenAI砸了100亿美元,为了支撑起大语言模型训练所需的庞大计算资源费用。成立仅18个月的初创公司Inflection也融资超过10亿美元用于构建GPU集群,以训练其大语言模型。英伟达GPU在市场的“哄抢”中陷入产能瓶颈。最新的H100芯片早已全部卖空,现在下单要等2024年第一季度甚至第二季度才能排上队。Toews指出,上述种种都不难看出,基于Transformer的模型对计算资源的需求之大,以至于当前的人工智能热潮引发了全球GPU供应短缺,硬件制造商无法跟上激增的需求。Transformer面临的难题同时,Toews指出,Transformer处理的句子长度受限,已有的方法大多使用截断的方式,这会导致信息损失,因此如何实现长文本的预训练是目前的一大难题。而这场AI军备竞赛注定还将持续下去,如果 OpenAI、Anthropic或任何其他公司继续使用Transformer架构,那么它们模型的文本序列长度会受限。Toews指出,人们已经进行了各种尝试来更新Transformer架构,仍然使用注意力机制,但能够更好地处理长序列。然而,这些改进后的Transformer架构(如Longformer、Reformer、Performer、Linformer和Big Bird)通常会牺牲部分性能,因此未能获得采用。Toews强调,没有一样事物会是完美的,历史的发展也不会停下脚步,尽管Transformer在现在占据绝对的优势地位,但它也并非没有缺点,而这些缺点为新的架构打开了大门。“王位”挑战者出现了?Toews认为,现在寻找可以替代\"Transformer\"的架构成了最有潜力的领域,而其中的一个研究方向是用一种新的函数替代注意力机制。包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法来降低运算复杂度,减少算力需求。Toews强调,斯坦福和Mila的研究人员提出了一种名为Hyena的新架构,具有代替Transformer的潜力,它是一种无注意力、卷积架构,可以匹配注意力模型的质量,同时可以降低计算成本。在次二次多项式NLP任务上表现出色:据称,Hyena可达到与GPT-4同等的准确性,但使用的算力比后者减少了100倍。这是第一个能够在总FLOPS减少20%的情况下与GPT质量相匹配的无注意力架构,具有成为图像分类的通用深度学习运算符的潜力。Toews表示,需要注意的是,最初的\"Hyena\"研究是在相对小的规模下进行的。最大的\"Hyena\"模型具有13亿个参数,而GPT-3有1750亿个参数,而GPT-4据说达到1.8万亿个参数。因此针对\"Hyena\"架构的一个关键测试将是,在将其扩展到当前\"Transformer\"模型规模的情况下,它是否能继续表现出强大的性能和效率提升。Toews认为,而液态神经网络是另一个具有取代“Transformer”潜力的架构。麻省理工学院的两名研究人员从微小的秀丽隐杆线虫(Caenorhabditis elegans)中汲取灵感,创造了所谓的 “液态神经网络” (liquid neural networks)。据称,液态神经网络不仅速度更快,而且异常稳定,这意味着系统可以处理大量的输入而不至于失控。Toews认为这种较小的架构意味着液态神经网络比\"Transformer\"更加透明且更易于人类理解:毕竟,对于人类来说,更容易解释具有253个连接的网络发生了什么,而不是拥有1750亿个连接的网络。当架构不断改进,逐渐减少了对算力的依赖,是否也意味着会对未来英伟达的营收产生影响?","news_type":1},"isVote":1,"tweetType":1,"viewCount":970,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":4,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/216404138823744"}
精彩评论