DeepSeek又又开源了，这次拉爆GPU通信

智东西2025-02-25

作者｜程茜编辑｜心缘智东西2月25日报道，刚刚，DeepSeek开源周第二弹发布，第一个用于MoE模型训练和推理的开源EP通信库，发布不到一小时，GitHub Star数已上千。DeepEP是为混合专家（MoE）和专家并行（EP）量身定制的通信库，其提供高吞吐量且低延迟的全对全GPU内核，这些内核也被称为MoE调度与合并。高性能：支持用于节点内和节点间通信的NVLink和RDMA，以及用于非对称域...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/2514039228?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2025-02-25 11:50","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2514039228","market":"sh","top_or_hot":-1,"title":"DeepSeek又又开源了，这次拉爆GPU通信","media":"智东西","content":"<div>\n<p>作者｜程茜编辑｜心缘智东西2月25日报道，刚刚，DeepSeek开源周第二弹发布，第一个用于MoE模型训练和推理的开源EP通信库，发布不到一小时，GitHub Star数已上千。DeepEP是为混合专家（MoE）和专家并行（EP）量身定制的通信库，其提供高吞吐量且低延迟的全对全GPU内核，这些内核也被称为MoE调度与合并。高性能：支持用于节点内和节点间通信的NVLink和RDMA，以及用于非对称域...</p>\n\n<a href=\"https://tech.ifeng.com/c/8hG4gCqz6sr\">网页链接</a>\n\n</div>\n","source":"fenghuang_stock","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>DeepSeek又又开源了，这次拉爆GPU通信</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nDeepSeek又又开源了，这次拉爆GPU通信\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-02-25 11:50 北京时间&nbsp;&nbsp;&nbsp;<a href=https://tech.ifeng.com/c/8hG4gCqz6sr><strong>智东西</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>作者｜程茜编辑｜心缘智东西2月25日报道，刚刚，DeepSeek开源周第二弹发布，第一个用于MoE模型训练和推理的开源EP通信库，发布不到一小时，GitHub Star数已上千。DeepEP是为混合专家（MoE）和专家并行（EP）量身定制的通信库，其提供高吞吐量且低延迟的全对全GPU内核，这些内核也被称为MoE调度与合并。高性能：支持用于节点内和节点间通信的NVLink和RDMA，以及用于非对称域...</p>\n\n<a href=\"https://tech.ifeng.com/c/8hG4gCqz6sr\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"EP","symbol_name":"Empire Petroleum Corp","start_time":0,"source_url":"https://tech.ifeng.com/c/8hG4gCqz6sr","article_id":"2514039228","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2514039228","pubTimestamp":1740455433,"columns":[],"sourceInfo":{"source_id":"fenghuang_stock","name":"凤凰网"},"weMediaInfo":null,"summary":"作者｜程茜编辑｜心缘智东西2月25日报道，刚刚，DeepSeek开源周第二弹发布，第一个用于MoE模型训练和推理的开源EP通信库，发布不到一小时，GitHub Star数已上千。DeepSeek指出，DeepEP的实现可能与DeepSeek-V3论文中略有不同。本周后续，DeepSeek还将开源三个代码库，或许会与AI算法优化、模型轻量化、应用场景拓展等相关，涵盖多个关键领域。","collect":0,"end_time":0,"defaultTopTitle":"ifeng.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"EP":"Empire Petroleum Corp","SM":"SM Energy","BK4213":"石油与天然气的勘探与生产"},"translate_title":"DeepSeek is open source again, this time exploding GPU communication","themeId":"5b5272e23712c51cb4f26c94e2220007","isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"SM":1,"EP":1},"content_text":"作者｜程茜编辑｜心缘智东西2月25日报道，刚刚，DeepSeek开源周第二弹发布，第一个用于MoE模型训练和推理的开源EP通信库，发布不到一小时，GitHub Star数已上千。DeepEP是为混合专家（MoE）和专家并行（EP）量身定制的通信库，其提供高吞吐量且低延迟的全对全GPU内核，这些内核也被称为MoE调度与合并。高性能：支持用于节点内和节点间通信的NVLink和RDMA，以及用于非对称域带宽转发的优化内核；低精度运算：FP8支持；延迟敏感推理：提供使用纯RDMA的低延迟内核，以最大限度地减少推理解码的延迟；通信-计算重叠：引入基于钩子的方法，不会占用任何流式多处理器（SM）资源；自适应路由和流量隔离：支持低延迟内核自适应路由，支持虚拟通道流量隔离。其中，为了与DeepSeek-V3论文中提出的组限制门控算法（group-limited gating algorithm）保持一致，DeepEP提供了一组针对非对称域带宽转发进行优化的内核，例如将数据从NVLink域转发到RDMA域。这些内核能够实现高吞吐量，使其既适用于训练任务，也适用于推理预填充任务。此外，它们还支持流式多处理器（SM）数量控制。对于对延迟敏感的推理解码任务，DeepEP包含了一组采用RDMA技术的低延迟内核，以最大程度地减少延迟。该库还引入了一种基于钩子的通信与计算重叠方法，这种方法不会占用任何流式多处理器（SM）资源。DeepSeek指出，DeepEP的实现可能与DeepSeek-V3论文中略有不同。GitHub地址：https://github.com/deepseek-ai/DeepEP具体性能方面：在H800（NVLink的最大带宽约为160 GB/s）上测试常规内核，每台设备都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡（最大带宽约为50 GB/s），并且遵循DeepSeek-V3/R1预训练设置（每批次4096个Tokens，7168个隐藏层单元，前4个组，前8个专家（模型），使用FP8格式进行调度，使用BF16格式进行合并）。在H800上测试低延迟内核，每台H800都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡（最大带宽约为50 GB/s），遵循DeepSeek-V3/R1的典型生产环境设置（每批次128个Tokens，7168个隐藏层单元，前8个专家（模型），采用FP8格式进行调度，采用BF16格式进行合并）。快速启动要求：下载并安装NVSHMEM依赖项：开发：安装：网络配置：接口和示例:DeepSeek发布的推文一小时浏览量高达12万，评论区下方开发者们直接进入夸夸夸模式：“DeepSeek在MoE模型方面所实现的优化程度颇高，而MoE模型因其规模和复杂性而向来极具挑战性。DeepEP能够借助像NVLink和RDMA这类尖端硬件，如此精准地处理相关任务，并且还支持FP8格式，这着实令人惊叹。”“对NVLink和RDMA的支持，为大规模的MoE模型带来了变革性的影响。看来DeepSeek又一次突破了AI基础设施的极限。”还有人直接做了表情包：“跟着鲸鱼找到鱼。”结语：深度探索开源宇宙DeepSeek还有三弹重磅发布从带飞GPU推理速度的FlashMLA到开源EP通信库，DeepSeek开源周第二大重磅发布再次点燃AI圈的热情。本周后续，DeepSeek还将开源三个代码库，或许会与AI算法优化、模型轻量化、应用场景拓展等相关，涵盖多个关键领域。期待接下来的三场技术盛宴，向开源者们致敬。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"symbols":[],"gpt_button":1,"need_auth":false,"code":"91000000","status":"200"},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"tenantId":"TBCN","deviceId":"web-server-community-laohu8-v3","version":"4.36.0","shortVersion":"4.36.0","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2514039228","isCrawlerRequest":true}