(转)为什么 DeepSeek 对 Apple 来说很棒?

user
Seven8
01-28

$苹果(AAPL)$ 目前市面上可以运行DeepSeek V3和R1的芯片分布如下:

NVIDIA H100:80GB @ 3TB/s,25,000 美元,每 GB 312.50 美元

AMD MI300X:192GB @ 5.3TB/s,20,000 美元,每 GB 104.17 美元

Apple M2 Ultra:192GB @ 800GB/s,5,000 美元,每 GB 26.04 美元(!!)

苹果的 M2 Ultra(2023 年 6 月发布)每单位内存的成本效率比 AMD MI300X 高 4 倍,比 NVIDIA H100 高 12 倍!

这和 DeepSeek 有何关系?

DeepSeek V3/R1 是 MoE 模型,总共有 671B 个参数,但每次生成 token 时只有 37B 处于活动状态。我们不知道生成 token 时具体会激活哪 37B,因此它们都需要在高速 GPU 内存中准备好。

我们不能使用普通的系统 RAM,因为它加载 37B 活动参数的速度太慢(我们会得到 <1 tok/sec)。另一方面,GPU 具有快速内存,但 GPU 内存价格昂贵。然而,Apple Silicon 使用统一内存和 UltraFusion 来融合芯片 - 这种权衡有利于以更低的成本获得大量中速内存。

统一内存在 CPU 和 GPU 之间共享单个内存池,而不是分别为它们分配内存。无需在 CPU 和 GPU 之间分配单独的内存并复制数据。

UltraFusion 是 Apple 专有的互连技术,用于以超高速、低延迟连接(2.5TB/s)连接两个芯片。Apple 的 M2 Ultra 实际上是两个 Apple M2 Max 芯片通过 UltraFusion 融合在一起。这让 Apple 能够实现如此高的内存容量(192GB)和内存带宽(800GB/s)。

据传,Apple M4 Ultra 将使用相同的 UltraFusion 技术将两个 M4 Max 芯片融合在一起。这将为 M4 Ultra 提供 256GB (!!)的统一内存,速度为 1146GB/s。其中两个可以以 57 tok/秒的速度运行 DeepSeek V3/R1 (4 位)。

所有这些,以及 Apple 已成功将其打包成小尺寸的产品,供消费者使用,并具有出色的能效和出色的开源(不符合 Apple 的特色!)软件。MLX (h/t @awnihannun ) 使得利用 Apple Silicon 处理 ML 工作负载成为可能,而@exolabs使得将多个 Apple Silicon 设备聚集在一起以运行大型模型成为可能,展示了在 7 M4 Mac Mini 上运行的 DeepSeek R1 (671B)。

目前尚不清楚谁将构建最好的人工智能模型,但人工智能很可能在美国硬件 Apple Silicon 上运行。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

  • 约翰算法
    01-28
    约翰算法
    这篇文章不错,转发给大家看看
发表看法
1
4