好文_老虎社区_美港股上老虎

2023-09-04

好文

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":216404138823744,"tweetId":"216404138823744","gmtCreate":1693841376056,"gmtModify":1693841377361,"author":{"id":3547076717533738,"idStr":"3547076717533738","authorId":3547076717533738,"authorIdStr":"3547076717533738","name":"lpxg","avatar":"https://static.tigerbbs.com/807918b26c91ff22c8a80e4215f96650","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":2,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body><p>好文</p></body></html>","htmlText":"<html><head></head><body><p>好文</p></body></html>","text":"好文","highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/216404138823744","repostId":1171559997,"repostType":2,"repost":{"id":"1171559997","kind":"news","pubTimestamp":1693835898,"share":"https://www.laohu8.com/m/news/1171559997?lang=&edition=full","pubTime":"2023-09-04 21:58","market":"us","language":"zh","title":"英伟达最大的风险：全新架构出现，算力需求将骤降？","url":"https://stock-news.laohu8.com/highlight/detail?id=1171559997","media":"华尔街见闻","summary":"Hyena可达到与GPT-4同等的准确性，但使用的算力比后者减少了100倍。","content":"<html><head></head><body><p>作者：葛佳明</p><p>今年的英伟达确实“猛”，不遗余力拼算力似乎已经成了科技巨头们的共识，部分原因在于，不少大模型都以对算力需求较高的Transformer为架构，而如果在不断迭代的过程中，<strong>Transformer逐步被对算力需求少的架构取代，这是否也将成为英伟达的“潜在风险”</strong>？</p><p style=\"text-align: justify;\">投资了OpenAI劲敌Cohere的著名风险投资家、Radical Ventures合伙人Rob Toews，在9月3日发布的专栏文章指出，Transformer在训练时支持并行化，与GPU的“爆火”时间点吻合。GPU拥有更多流处理器，适合对密集数据进行并行处理和并发计算，非常适合且支持基于Transformer的计算工作流负载。</p><p style=\"text-align: justify;\">毫无疑问，Transformer的架构非常强大，彻底改变了AI界，但缺点也明显，当文章长度变长，计算复杂度就变得非常高，同时，随着模型规模不断扩大，所需计算量呈指数级增加，<strong>这两点都让Transformer的算力需求激增</strong>。</p><p style=\"text-align: justify;\">Toews指出，为了弥补Transformer存在的问题，包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法来降低运算复杂度，减少算力需求。</p><p style=\"text-align: justify;\">Toews直言，尽管这些架构距离挑战Transformer的“王座”仍有较大差距，但不可否认的是，AI发展过程中新鲜的事物接连出现，不断更新换代的过程中，或许没有什么是永远屹立不倒的。</p><p style=\"text-align: justify;\">当算力需求激增之时，从某种程度上说，谁手握英伟达GPU，谁就掌握了AI时代最硬的“硬通货”。而如果在未来Transformer被对算力需求不高的架构取代，那对最大“卖铲人”英伟达来说将构成一定威胁。</p><h2 id=\"id_1412607848\">Transformer的庞大计算成本</h2><p>2017年6月12日，《Attention is All You Need》论文横空出世，让大模型领域变天的Transformer架构出现了。截至9月4日，Transformer诞生超过6周年，而这篇论文被引用高达87345次。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/71241e3c7fa434d467b734323aea558d\" tg-width=\"640\" tg-height=\"193\"/></p><p>分析指出，基于Transformer不断扩展的大模型们，都是以处理性能和功耗方面的高昂成本为代价。因此，虽然人工智能的潜力可能是无限的，但物理和成本却是有限的。</p><p style=\"text-align: justify;\">为什么Transformer对算力的要求如此之高？</p><p style=\"text-align: justify;\">Toews解释称，主要有以下两个原因:1.注意力（attention）机制的计算复杂度，2.越发庞大的模型规模：</p><blockquote><p style=\"text-align: justify;\">Transformer的基本原理是使用自注意力机制来捕获序列数据中的依赖关系，无论它们的距离有多远。</p><p style=\"text-align: justify;\">注意力机制需要将序列中每个词与其他所有词进行配对比较，这导致运算量随序列长度的平方增长，即计算复杂度为O(n^2)。这种平方级复杂度使得随着文本长度增加，所需计算成本急剧上升。</p><p style=\"text-align: justify;\">与此同时，Transformer架构可以更好地扩展大模型，所以研究者不断基于Transformer训练更大规模的模型。目前主流的语言模型参数量达到了数百亿级甚至万亿级，需要大量算力支持。随着模型规模的扩大，所需算力呈指数级上涨。</p></blockquote><p style=\"text-align: justify;\">谷歌母公司Alphabet首席财务官Ruth Porat在财报电话会上表示，<strong>由于需要投资AI基础设施，资本支出将比去年的创纪录水平“略高”</strong>。</p><p style=\"text-align: justify;\">微软最新报告显示，该公司季度资本支出超出预期，首席财务官Amy Hood称原因为加大AI基础设施建设。</p><p style=\"text-align: justify;\">微软在今年年初又向OpenAI砸了100亿美元，为了支撑起大语言模型训练所需的庞大计算资源费用。成立仅18个月的初创公司Inflection也融资超过10亿美元用于构建GPU集群，以训练其大语言模型。</p><p style=\"text-align: justify;\">英伟达GPU在市场的“哄抢”中陷入产能瓶颈。最新的H100芯片早已全部卖空，现在下单要等2024年第一季度甚至第二季度才能排上队。</p><p style=\"text-align: justify;\">Toews指出，上述种种都不难看出，<strong>基于Transformer的模型对计算资源的需求之大，以至于当前的人工智能热潮引发了全球GPU供应短缺，硬件制造商无法跟上激增的需求。</strong></p><h2 id=\"id_248356418\">Transformer面临的难题</h2><p style=\"text-align: justify;\">同时，Toews指出，Transformer处理的句子长度受限，已有的方法大多使用截断的方式，这会导致信息损失，因此<strong>如何实现长文本的预训练是目前的一大难题</strong>。</p><p style=\"text-align: justify;\">而这场AI军备竞赛注定还将持续下去，如果 OpenAI、Anthropic或任何其他公司继续使用Transformer架构，那么它们模型的文本序列长度会受限。</p><p style=\"text-align: justify;\">Toews指出，人们已经进行了各种尝试来更新Transformer架构，仍然使用注意力机制，但能够更好地处理长序列。然而，这些改进后的Transformer架构（如Longformer、Reformer、Performer、Linformer和Big Bird）通常会牺牲部分性能，因此未能获得采用。</p><p style=\"text-align: justify;\">Toews强调，没有一样事物会是完美的，历史的发展也不会停下脚步，尽管Transformer在现在占据绝对的优势地位，但它也并非没有缺点，而这些缺点为新的架构打开了大门。</p><h2 id=\"id_1652538388\" style=\"text-align: start;\">“王位”挑战者出现了？</h2><p style=\"text-align: justify;\">Toews认为，现在寻找可以替代&#34;Transformer&#34;的架构成了最有潜力的领域，而其中的一个研究方向是用一种新的函数替代注意力机制。包括Hyena、Monarch Mixer、BiGS、MEGA等提出了<strong>用Subquadratic方法来降低运算复杂度，减少算力需求</strong>。</p><p style=\"text-align: justify;\">Toews强调，<strong>斯坦福和Mila的研究人员提出了一种名为Hyena的新架构</strong>，具有代替Transformer的潜力，它是一种无注意力、卷积架构，可以匹配注意力模型的质量，同时可以降低计算成本。在次二次多项式NLP任务上表现出色：</p><blockquote><p style=\"text-align: justify;\">据称，Hyena可达到与GPT-4同等的准确性，但使用的算力比后者减少了100倍。这是第一个能够在总FLOPS减少20%的情况下与GPT质量相匹配的无注意力架构，具有成为图像分类的通用深度学习运算符的潜力。</p></blockquote><p style=\"text-align: justify;\">Toews表示，需要注意的是，最初的&#34;Hyena&#34;研究是在相对小的规模下进行的。最大的&#34;Hyena&#34;模型具有13亿个参数，而GPT-3有1750亿个参数，而GPT-4据说达到1.8万亿个参数。因此针对&#34;Hyena&#34;架构的一个关键测试将是，在将其扩展到当前&#34;Transformer&#34;模型规模的情况下，它是否能继续表现出强大的性能和效率提升。</p><p style=\"text-align: justify;\">Toews认为，而液态神经网络是另一个具有取代“Transformer”潜力的架构。麻省理工学院的两名研究人员<strong>从微小的秀丽隐杆线虫（Caenorhabditis elegans）中汲取灵感，创造了所谓的 “液态神经网络” （liquid neural networks）。</strong></p><p style=\"text-align: justify;\">据称，液态神经网络不仅速度更快，而且异常稳定，这意味着系统可以处理大量的输入而不至于失控。</p><p style=\"text-align: justify;\">Toews认为这种较小的架构意味着液态神经网络比&#34;Transformer&#34;更加透明且更易于人类理解:</p><blockquote><p style=\"text-align: justify;\">毕竟，对于人类来说，更容易解释具有253个连接的网络发生了什么，而不是拥有1750亿个连接的网络。</p></blockquote><p style=\"text-align: justify;\">当架构不断改进，逐渐减少了对算力的依赖，是否也意味着会对未来英伟达的营收产生影响？</p></body></html>","source":"live_wallstreetcn","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>英伟达最大的风险：全新架构出现，算力需求将骤降？</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n英伟达最大的风险：全新架构出现，算力需求将骤降？\n</h2>\n\n<h4 class=\"meta\">\n\n\n2023-09-04 21:58 北京时间&nbsp;&nbsp;&nbsp;<a href=https://wallstreetcn.com/articles/3697092><strong>华尔街见闻</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>作者：葛佳明今年的英伟达确实“猛”，不遗余力拼算力似乎已经成了科技巨头们的共识，部分原因在于，不少大模型都以对算力需求较高的Transformer为架构，而如果在不断迭代的过程中，Transformer逐步被对算力需求少的架构取代，这是否也将成为英伟达的“潜在风险”？投资了OpenAI劲敌Cohere的著名风险投资家、Radical Ventures合伙人Rob Toews，在9月3日发布的专栏...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3697092\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/7d047358e0af1920417573b07259e5f2","relate_stocks":{"NVDA":"英伟达"},"source_url":"https://wallstreetcn.com/articles/3697092","is_english":false,"share_image_url":"https://static.laohu8.com/cc96873d3d23ee6ac10685520df9c100","article_id":"1171559997","content_text":"作者：葛佳明今年的英伟达确实“猛”，不遗余力拼算力似乎已经成了科技巨头们的共识，部分原因在于，不少大模型都以对算力需求较高的Transformer为架构，而如果在不断迭代的过程中，Transformer逐步被对算力需求少的架构取代，这是否也将成为英伟达的“潜在风险”？投资了OpenAI劲敌Cohere的著名风险投资家、Radical Ventures合伙人Rob Toews，在9月3日发布的专栏文章指出，Transformer在训练时支持并行化，与GPU的“爆火”时间点吻合。GPU拥有更多流处理器，适合对密集数据进行并行处理和并发计算，非常适合且支持基于Transformer的计算工作流负载。毫无疑问，Transformer的架构非常强大，彻底改变了AI界，但缺点也明显，当文章长度变长，计算复杂度就变得非常高，同时，随着模型规模不断扩大，所需计算量呈指数级增加，这两点都让Transformer的算力需求激增。Toews指出，为了弥补Transformer存在的问题，包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法来降低运算复杂度，减少算力需求。Toews直言，尽管这些架构距离挑战Transformer的“王座”仍有较大差距，但不可否认的是，AI发展过程中新鲜的事物接连出现，不断更新换代的过程中，或许没有什么是永远屹立不倒的。当算力需求激增之时，从某种程度上说，谁手握英伟达GPU，谁就掌握了AI时代最硬的“硬通货”。而如果在未来Transformer被对算力需求不高的架构取代，那对最大“卖铲人”英伟达来说将构成一定威胁。Transformer的庞大计算成本2017年6月12日，《Attention is All You Need》论文横空出世，让大模型领域变天的Transformer架构出现了。截至9月4日，Transformer诞生超过6周年，而这篇论文被引用高达87345次。分析指出，基于Transformer不断扩展的大模型们，都是以处理性能和功耗方面的高昂成本为代价。因此，虽然人工智能的潜力可能是无限的，但物理和成本却是有限的。为什么Transformer对算力的要求如此之高？Toews解释称，主要有以下两个原因:1.注意力（attention）机制的计算复杂度，2.越发庞大的模型规模：Transformer的基本原理是使用自注意力机制来捕获序列数据中的依赖关系，无论它们的距离有多远。注意力机制需要将序列中每个词与其他所有词进行配对比较，这导致运算量随序列长度的平方增长，即计算复杂度为O(n^2)。这种平方级复杂度使得随着文本长度增加，所需计算成本急剧上升。与此同时，Transformer架构可以更好地扩展大模型，所以研究者不断基于Transformer训练更大规模的模型。目前主流的语言模型参数量达到了数百亿级甚至万亿级，需要大量算力支持。随着模型规模的扩大，所需算力呈指数级上涨。谷歌母公司Alphabet首席财务官Ruth Porat在财报电话会上表示，由于需要投资AI基础设施，资本支出将比去年的创纪录水平“略高”。微软最新报告显示，该公司季度资本支出超出预期，首席财务官Amy Hood称原因为加大AI基础设施建设。微软在今年年初又向OpenAI砸了100亿美元，为了支撑起大语言模型训练所需的庞大计算资源费用。成立仅18个月的初创公司Inflection也融资超过10亿美元用于构建GPU集群，以训练其大语言模型。英伟达GPU在市场的“哄抢”中陷入产能瓶颈。最新的H100芯片早已全部卖空，现在下单要等2024年第一季度甚至第二季度才能排上队。Toews指出，上述种种都不难看出，基于Transformer的模型对计算资源的需求之大，以至于当前的人工智能热潮引发了全球GPU供应短缺，硬件制造商无法跟上激增的需求。Transformer面临的难题同时，Toews指出，Transformer处理的句子长度受限，已有的方法大多使用截断的方式，这会导致信息损失，因此如何实现长文本的预训练是目前的一大难题。而这场AI军备竞赛注定还将持续下去，如果 OpenAI、Anthropic或任何其他公司继续使用Transformer架构，那么它们模型的文本序列长度会受限。Toews指出，人们已经进行了各种尝试来更新Transformer架构，仍然使用注意力机制，但能够更好地处理长序列。然而，这些改进后的Transformer架构（如Longformer、Reformer、Performer、Linformer和Big Bird）通常会牺牲部分性能，因此未能获得采用。Toews强调，没有一样事物会是完美的，历史的发展也不会停下脚步，尽管Transformer在现在占据绝对的优势地位，但它也并非没有缺点，而这些缺点为新的架构打开了大门。“王位”挑战者出现了？Toews认为，现在寻找可以替代\"Transformer\"的架构成了最有潜力的领域，而其中的一个研究方向是用一种新的函数替代注意力机制。包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法来降低运算复杂度，减少算力需求。Toews强调，斯坦福和Mila的研究人员提出了一种名为Hyena的新架构，具有代替Transformer的潜力，它是一种无注意力、卷积架构，可以匹配注意力模型的质量，同时可以降低计算成本。在次二次多项式NLP任务上表现出色：据称，Hyena可达到与GPT-4同等的准确性，但使用的算力比后者减少了100倍。这是第一个能够在总FLOPS减少20%的情况下与GPT质量相匹配的无注意力架构，具有成为图像分类的通用深度学习运算符的潜力。Toews表示，需要注意的是，最初的\"Hyena\"研究是在相对小的规模下进行的。最大的\"Hyena\"模型具有13亿个参数，而GPT-3有1750亿个参数，而GPT-4据说达到1.8万亿个参数。因此针对\"Hyena\"架构的一个关键测试将是，在将其扩展到当前\"Transformer\"模型规模的情况下，它是否能继续表现出强大的性能和效率提升。Toews认为，而液态神经网络是另一个具有取代“Transformer”潜力的架构。麻省理工学院的两名研究人员从微小的秀丽隐杆线虫（Caenorhabditis elegans）中汲取灵感，创造了所谓的 “液态神经网络” （liquid neural networks）。据称，液态神经网络不仅速度更快，而且异常稳定，这意味着系统可以处理大量的输入而不至于失控。Toews认为这种较小的架构意味着液态神经网络比\"Transformer\"更加透明且更易于人类理解:毕竟，对于人类来说，更容易解释具有253个连接的网络发生了什么，而不是拥有1750亿个连接的网络。当架构不断改进，逐渐减少了对算力的依赖，是否也意味着会对未来英伟达的营收产生影响？","news_type":1},"isVote":1,"tweetType":1,"viewCount":970,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":4,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/216404138823744"}