新智元报道 编辑:桃子 好困 【新智元导读】DeepSeek开源第四天,连更三个项目。DualPipe、EPLB、以及计算与通信重叠机制的优化并行策略,让大模型训练更快,成本更低,还能保持顶尖性能。 开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。 值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。 ...
网页链接新智元报道 编辑:桃子 好困 【新智元导读】DeepSeek开源第四天,连更三个项目。DualPipe、EPLB、以及计算与通信重叠机制的优化并行策略,让大模型训练更快,成本更低,还能保持顶尖性能。 开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。 值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。 ...
网页链接
精彩评论