大模型持续迭代 算力需求不升反降
近期,深度求索(DeepSeek)发布第二代开源模型。其创新的模型结构,引发了市场对于算力需求究竞将如何演进的广泛讨论。公司在模型架构侧的创新表观上实现了推理时大幅降低KV Cache 访存开销且不增加额外计算量,看似对硬件有“降规"指引,但是,更低的推理成本会在中长期维度激发更多需求,反哺算力硬件市场增长。同时,大模型厂商推理环节的盈利能力正逐步改善,算力硬件需求持续性较高。
MLA 创新架构使推理任务中占用的KV Cache 大幅降低
提高硬件利用效率。在主流Transformer 网络结构中,多头注意力机制Muli-HeadAttenion(MHA)是重要的织成部分。为了大幅简化无效重复计算,一般采用缓存MHA 中Key 和Value 的方法(KV Cache)米优化推理任务效率。但随着输入上下文窗口长度的增加,传统MHA 中的KV Cache 数据量会大幅增长,给推理任务访存制造了瓶颈。DeepSeek-V2 模型通过引入Multi-Head Lalent Altenion(MLA)将KV 矩阵乐缩到潜在空间米大幅降低所需缓存的数据量,且并不引入额外计算开销,巧妙的降低了推理成本,但在训练端,MLA结构会引入额外计算。针对优化训练成本和效率的问题,DeepSeek-V2 则是在前馈网络中引入并改进了MoE 架构。
大模型厂商推理环节的盈利能力正向改善,驱动生成式A商业闭环落地
针对推理环节,虽然大模型厂商AP!的收费标准有所下降,但算力硬件表现提升(TCO 的下降)叠加算法工程优化正同步发生,根据我们测算,大模型厂商在推理侧的盈利能力整体显现正向改善的趋势。展望未来,考虑到前期训练硬件基础设施相对海量的前置成本,大模型厂商AP!收费标准下调空间有限,伴随着硬件侧算力的提升以及HBM 的持续迭代,以及工程优化手段不断涌现,大模型厂商盈利能力有望逐步转正,进一步推动生成式A| 产业实现商业闭环,反哺算力硬件需求。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。