神刀
02-20
天下武功唯快不破
史上最快大模型炸场!Groq一夜爆红,自研LPU速度碾压英伟达GPU
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
分享至
微信
复制链接
精彩评论
我们需要你的真知灼见来填补这片空白
打开APP,发表看法
APP内打开
发表看法
1
{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":276105157939312,"tweetId":"276105157939312","gmtCreate":1708438611223,"gmtModify":1708438612712,"author":{"id":3472642382762181,"idStr":"3472642382762181","authorId":3472642382762181,"authorIdStr":"3472642382762181","name":"神刀","avatar":"https://static.laohu8.com/default-avatar.jpg","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":2,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body><p>天下武功唯快不破</p></body></html>","htmlText":"<html><head></head><body><p>天下武功唯快不破</p></body></html>","text":"天下武功唯快不破","highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/276105157939312","repostId":2412738401,"repostType":2,"repost":{"id":"2412738401","pubTimestamp":1708430285,"share":"https://www.laohu8.com/m/news/2412738401?lang=&edition=full","pubTime":"2024-02-20 19:58","market":"hk","language":"zh","title":"史上最快大模型炸场!Groq一夜爆红,自研LPU速度碾压英伟达GPU","url":"https://stock-news.laohu8.com/highlight/detail?id=2412738401","media":"华尔街见闻","summary":"英伟达的挑战者Groq登场!抛弃GPU,自研LPU!文本生成速度比眨眼还快!推理场景速度比英伟达GPU快10倍,但价格和耗电量都仅为后者十分之一。","content":"<html><head></head><body><blockquote><p><strong>英伟达的挑战者Groq登场!抛弃GPU,自研LPU!文本生成速度比眨眼还快!推理场景速度比英伟达GPU快10倍,但价格和耗电量都仅为后者十分之一。</strong></p></blockquote><p>一觉醒来,AI圈又变天了。</p><p>还没消化完Sora带来的震撼,又一家硅谷初创企业带着史上最快的大模型和自研芯片LPU霸占了热搜。</p><p>就在昨天,AI芯片创企Groq(不是马斯克的Gork)开放了自家产品的免费试用。相比其他AI聊天<a href=\"https://laohu8.com/S/300024\">机器人</a>,Groq闪电般的响应速度迅速引爆互联网讨论。经过网友测试,Groq每秒生成速度接近500 tok/s,碾压GPT-4的40 tok/s。</p><p>有网友震惊地说:</p><blockquote><p>它回复的速度比我眨眼还快。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/71872eee5a431569aa69be61050106bf\" tg-width=\"1024\" tg-height=\"351\"/></p></blockquote><p>不过,需要强调的是,<strong>Groq并没有研发新模型,它只是一个模型启动器</strong>,主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。</p><p><strong>冠绝大模型圈子的响应速度,来自驱动模型的硬件——Groq并未使用<a href=\"https://laohu8.com/S/NVDA\">英伟达</a>的GPU,而是自研了新型AI芯片——LPU(Language Processing Units)。</strong></p><h2 id=\"id_882585354\">每秒500 tokens,写论文比你眨眼还快</h2><p>LPU最突出的特点就是快。</p><p>根据2024年一月的测试结果,由Groq LPU驱动Meta Llama 2模型,推理性能遥遥领先,是顶级云计算供应商的18倍。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/bd43fc6c6347857b51f9b4e4a7becd4e\" tg-width=\"1024\" tg-height=\"610\"/></p><p>图片来源:GIT HUB</p><p>华尔街见闻此前文章提及,<strong>Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚《哈姆雷特》相同数量的单词,比普通人的打字速度快75倍。</strong></p><p>如下图所示,有推特网友问了一个和营销有关的专业问题,Groq在四秒钟之内就输出了上千词的长篇大论。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/6f0631c67875b8ec9434e62894c5a7ca\" tg-width=\"528\" tg-height=\"360\"/></p><p>还有网友测试同时用Gemini、GPT-4和Groq完成一个代码调试问题。</p><p><strong>结果,Groq的输出速度比Gemini快10倍,比GPT-4快18倍。</strong></p><p>Groq在速度上对其他AI模型的降维打击,让网友直呼,“AI推理界的美国队长来了”。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/c92587a48ccf22722da0f0bf0cf0bc20\" tg-width=\"1024\" tg-height=\"429\"/></p><h2 id=\"id_2373292048\">LPU,英伟达GPU的挑战者?</h2><p><strong>再强调一遍,Groq没有开发新的模型,它只是用了不一样的芯片。</strong></p><p>根据Groq官网的介绍,LPU是一种专为AI推理所设计的芯片。驱动包括GPT等主流大模型的GPU,是一种为图形渲染而设计的并行处理器,有数百个内核,而LPU架构则与GPU使用的SIMD(单指令,多数据)不同,这种设计可以让芯片更有效地利用每个时钟周期,确保一致的延迟和吞吐量,也降低了复杂调度硬件的需求:</p><blockquote><p>Groq的LPU推理引擎不是普通的处理单元;它是一个端到端系统,专为需要大量计算和连续处理的应用(如LLM)提供最快的推理而设计。通过消除外部内存瓶颈,LPU推理引擎的性能比传统GPU高出几个数量级。</p></blockquote><p>简单来说,对用户而言,最直观的体验就是“快”。</p><p>使用过GPT的读者一定知道,痛苦地等待大模型一个一个地吐出字符是一种怎样痛苦的体验,而LPU驱动下的大模型,基本可以做到实时响应。</p><p>比如下图,华尔街见闻向Groq询问LPU和GPU的区别,Groq生成这个回答用时不到3秒,完全不会像GPT、Gemini那样出现显著的延迟。如果以英文提问,生成速度还会更快。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/c2b90bfa3603ee533a675ce9bfec5ff7\" tg-width=\"1024\" tg-height=\"725\"/></p><p>Groq官方的介绍还显示,创新的芯片架构可以把多个张量流处理器(Tensor Streaming Processor,简称TSP)连接在一起,而不会出现GPU集群中的传统瓶颈,因此具有极高的可扩展性,简化了大规模AI模型的硬件要求。</p><p>能效也是LPU的另一个亮点。通过减少管理多个线程的开销和避免内核的利用率不足,LPU每瓦特可以提供更多的算力。</p><p>Groq创始人兼首席执行官Jonathan Ross在采访中,时时不忘给英伟达上眼药。</p><p>他此前对媒体表示,在大模型推理场景,<strong>Groq LPU芯片的速度比英伟达GPU快10倍,但价格和耗电量都仅为后者的十分之一。</strong></p><p>实时推理是通过经过训练的AI模型运行数据的计算过程,以提供AI应用的即时结果,从而实现流畅的最终用户体验。随着AI大模型的发展,实时推理的需求激增。</p><p>Ross认为,对于在产品中使用人工智能的公司来说,推理成本正在成为一个问题,因为随着使用这些产品的客户数量增加,运行模型的成本也在迅速增加。与英伟达GPU相比,Groq LPU集群将为大模型推理提供更高的吞吐量、更低的延迟和更低的成本。</p><p>他还强调,Groq的芯片,由于技术路径不同,在供应方面比英伟达更充足,不会被<a href=\"https://laohu8.com/S/TSM\">台积电</a>或者SK海力士等供应商卡脖子:</p><blockquote><p><strong>GroqChip LPU的独特之处在于,它不依赖于<a href=\"https://laohu8.com/S/SMSN.UK\">三星</a>或SK海力士的HBM,也不依赖于台积电将外部HBM焊接到芯片上的CoWoS封装技术。</strong></p></blockquote><p>不过,另有一些AI专家在社交媒体上表示,Groq芯片的实际成本并不低。</p><p>如人工智能专家贾扬清分析称,<strong>Groq综合成本相当于英伟达GPU的30多倍。</strong></p><p>考虑到每张Groq芯片的内存容量为230MB,实际运行模型需要572张芯片,总成本高达1144万美元。</p><p>相比之下,8张H100的系统在性能上与Groq系统相当,但硬件成本仅为30万美元,年度电费约2.4万美元。三年总运营成本对比显示,Groq系统的运营成本远高于H100系统,</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/f1873cf74496ae96ee6ad6d760c90541\" tg-width=\"783\" tg-height=\"411\"/></p><p>而且,更关键的是,LPU目前仅用于推理,要训练大模型,仍然需要购买英伟达GPU。</p><h2 id=\"id_3983102120\">创始人为<a href=\"https://laohu8.com/S/GOOG\">谷歌</a>TPU设计者之一 相信未来2年能卖出100万个LPU</h2><p>在今天互联网上一炮而红之前,Groq已经低调埋头研发7年多的时间。</p><p>公开资料显示,Groq成立于2016年,总部位于美国加州圣塔克拉拉山景城。<strong>公司创始人Jonathan Ross是前谷歌高级工程师,是谷歌自研AI芯片TPU的设计者之一。</strong>产品主管John Barrus曾在谷歌及亚马逊担任产品高管。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/2d0f2fecee1d89dd19bd221ba08b4a97\" tg-width=\"1024\" tg-height=\"579\"/></p><p>高管内唯一一位华裔面孔、副总裁Estelle Hong,在公司任职已有四年,此前曾供职于美国军队及<a href=\"https://laohu8.com/S/INTC\">英特尔</a>。</p><p>就在去年8月,Groq也宣布了和三星的合作计划,表示其下一代芯片将在美国德克萨斯州三星芯片工厂采用4纳米工艺生产,预计量产时间为24年下半年。</p><p>展望下一代LPU,Ross相信GroqChip的能效将提高15到20倍,可以在相同的功率范围内为设备增加更多的矩阵计算和SRAM存储器。</p><p>在去年底的采访中,Ross表示,<strong>考虑到GPU的短缺和高昂的成本,他相信Groq未来的发展潜力</strong>:</p><blockquote><p>在12个月内,我们可以部署10万个LPU,在24个月内,我们可以部署100万个LPU。</p></blockquote></body></html>","source":"wallstreetcn_hot_news","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>史上最快大模型炸场!Groq一夜爆红,自研LPU速度碾压英伟达GPU</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n史上最快大模型炸场!Groq一夜爆红,自研LPU速度碾压英伟达GPU\n</h2>\n\n<h4 class=\"meta\">\n\n\n2024-02-20 19:58 北京时间 <a href=https://wallstreetcn.com/articles/3708651><strong>华尔街见闻</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>英伟达的挑战者Groq登场!抛弃GPU,自研LPU!文本生成速度比眨眼还快!推理场景速度比英伟达GPU快10倍,但价格和耗电量都仅为后者十分之一。一觉醒来,AI圈又变天了。还没消化完Sora带来的震撼,又一家硅谷初创企业带着史上最快的大模型和自研芯片LPU霸占了热搜。就在昨天,AI芯片创企Groq(不是马斯克的Gork)开放了自家产品的免费试用。相比其他AI聊天机器人,Groq闪电般的响应速度迅速...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3708651\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/35fc458972611c2f98e1cc9b3e7c3b5c","relate_stocks":{},"source_url":"https://wallstreetcn.com/articles/3708651","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"2412738401","content_text":"英伟达的挑战者Groq登场!抛弃GPU,自研LPU!文本生成速度比眨眼还快!推理场景速度比英伟达GPU快10倍,但价格和耗电量都仅为后者十分之一。一觉醒来,AI圈又变天了。还没消化完Sora带来的震撼,又一家硅谷初创企业带着史上最快的大模型和自研芯片LPU霸占了热搜。就在昨天,AI芯片创企Groq(不是马斯克的Gork)开放了自家产品的免费试用。相比其他AI聊天机器人,Groq闪电般的响应速度迅速引爆互联网讨论。经过网友测试,Groq每秒生成速度接近500 tok/s,碾压GPT-4的40 tok/s。有网友震惊地说:它回复的速度比我眨眼还快。不过,需要强调的是,Groq并没有研发新模型,它只是一个模型启动器,主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。冠绝大模型圈子的响应速度,来自驱动模型的硬件——Groq并未使用英伟达的GPU,而是自研了新型AI芯片——LPU(Language Processing Units)。每秒500 tokens,写论文比你眨眼还快LPU最突出的特点就是快。根据2024年一月的测试结果,由Groq LPU驱动Meta Llama 2模型,推理性能遥遥领先,是顶级云计算供应商的18倍。图片来源:GIT HUB华尔街见闻此前文章提及,Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚《哈姆雷特》相同数量的单词,比普通人的打字速度快75倍。如下图所示,有推特网友问了一个和营销有关的专业问题,Groq在四秒钟之内就输出了上千词的长篇大论。还有网友测试同时用Gemini、GPT-4和Groq完成一个代码调试问题。结果,Groq的输出速度比Gemini快10倍,比GPT-4快18倍。Groq在速度上对其他AI模型的降维打击,让网友直呼,“AI推理界的美国队长来了”。LPU,英伟达GPU的挑战者?再强调一遍,Groq没有开发新的模型,它只是用了不一样的芯片。根据Groq官网的介绍,LPU是一种专为AI推理所设计的芯片。驱动包括GPT等主流大模型的GPU,是一种为图形渲染而设计的并行处理器,有数百个内核,而LPU架构则与GPU使用的SIMD(单指令,多数据)不同,这种设计可以让芯片更有效地利用每个时钟周期,确保一致的延迟和吞吐量,也降低了复杂调度硬件的需求:Groq的LPU推理引擎不是普通的处理单元;它是一个端到端系统,专为需要大量计算和连续处理的应用(如LLM)提供最快的推理而设计。通过消除外部内存瓶颈,LPU推理引擎的性能比传统GPU高出几个数量级。简单来说,对用户而言,最直观的体验就是“快”。使用过GPT的读者一定知道,痛苦地等待大模型一个一个地吐出字符是一种怎样痛苦的体验,而LPU驱动下的大模型,基本可以做到实时响应。比如下图,华尔街见闻向Groq询问LPU和GPU的区别,Groq生成这个回答用时不到3秒,完全不会像GPT、Gemini那样出现显著的延迟。如果以英文提问,生成速度还会更快。Groq官方的介绍还显示,创新的芯片架构可以把多个张量流处理器(Tensor Streaming Processor,简称TSP)连接在一起,而不会出现GPU集群中的传统瓶颈,因此具有极高的可扩展性,简化了大规模AI模型的硬件要求。能效也是LPU的另一个亮点。通过减少管理多个线程的开销和避免内核的利用率不足,LPU每瓦特可以提供更多的算力。Groq创始人兼首席执行官Jonathan Ross在采访中,时时不忘给英伟达上眼药。他此前对媒体表示,在大模型推理场景,Groq LPU芯片的速度比英伟达GPU快10倍,但价格和耗电量都仅为后者的十分之一。实时推理是通过经过训练的AI模型运行数据的计算过程,以提供AI应用的即时结果,从而实现流畅的最终用户体验。随着AI大模型的发展,实时推理的需求激增。Ross认为,对于在产品中使用人工智能的公司来说,推理成本正在成为一个问题,因为随着使用这些产品的客户数量增加,运行模型的成本也在迅速增加。与英伟达GPU相比,Groq LPU集群将为大模型推理提供更高的吞吐量、更低的延迟和更低的成本。他还强调,Groq的芯片,由于技术路径不同,在供应方面比英伟达更充足,不会被台积电或者SK海力士等供应商卡脖子:GroqChip LPU的独特之处在于,它不依赖于三星或SK海力士的HBM,也不依赖于台积电将外部HBM焊接到芯片上的CoWoS封装技术。不过,另有一些AI专家在社交媒体上表示,Groq芯片的实际成本并不低。如人工智能专家贾扬清分析称,Groq综合成本相当于英伟达GPU的30多倍。考虑到每张Groq芯片的内存容量为230MB,实际运行模型需要572张芯片,总成本高达1144万美元。相比之下,8张H100的系统在性能上与Groq系统相当,但硬件成本仅为30万美元,年度电费约2.4万美元。三年总运营成本对比显示,Groq系统的运营成本远高于H100系统,而且,更关键的是,LPU目前仅用于推理,要训练大模型,仍然需要购买英伟达GPU。创始人为谷歌TPU设计者之一 相信未来2年能卖出100万个LPU在今天互联网上一炮而红之前,Groq已经低调埋头研发7年多的时间。公开资料显示,Groq成立于2016年,总部位于美国加州圣塔克拉拉山景城。公司创始人Jonathan Ross是前谷歌高级工程师,是谷歌自研AI芯片TPU的设计者之一。产品主管John Barrus曾在谷歌及亚马逊担任产品高管。高管内唯一一位华裔面孔、副总裁Estelle Hong,在公司任职已有四年,此前曾供职于美国军队及英特尔。就在去年8月,Groq也宣布了和三星的合作计划,表示其下一代芯片将在美国德克萨斯州三星芯片工厂采用4纳米工艺生产,预计量产时间为24年下半年。展望下一代LPU,Ross相信GroqChip的能效将提高15到20倍,可以在相同的功率范围内为设备增加更多的矩阵计算和SRAM存储器。在去年底的采访中,Ross表示,考虑到GPU的短缺和高昂的成本,他相信Groq未来的发展潜力:在12个月内,我们可以部署10万个LPU,在24个月内,我们可以部署100万个LPU。","news_type":1},"isVote":1,"tweetType":1,"viewCount":754,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":16,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/276105157939312"}
精彩评论