“芯片围城”下国产AI要放缓?答案或截然相反
12月2日,美国宣布了新一轮对华出口限制措施,将140余家中国企业加入贸易限制清单,涉及半导体制造设备、电子设计自动化工具等多个种类。
12月3日,中国互联网协会、中国半导体行业协会、中国汽车行业协会、中国通信企业协会等陆续发布声明,呼吁国内企业审慎选择采购美国芯片。
翻看多家被列入“限制清单”企业的回复,均表示不会对公司业务产生实质性影响,这些企业的股价也没有出现大幅波动。 $半导体产品(BK4141)$
但在知乎等平台上,讨论的焦点没有局限在半导体产业,而是将话题指向了AI。根据CNNIC发布的《生成式人工智能应用发展报告》,2024年上半年国内生成式人工智能产品的用户规模已经超过2.3亿人次,等于是每六个中国人中,就有一人正在使用生成式AI产品。
一旦AI领域所需的芯片供应被“切断”,是否预示着国产AI的进度速度将放缓,进而影响到千行万业的数智化进程,影响每一个用户的智能体验?
01 算力的另一种“解法”
之所以会出现上述猜想,原因在于大模型对算力的依赖。
大模型通常有数十亿到数万亿的参数,需要处理海量的训练数据,对算力提出了极高的要求。比如训练过程中需要进行大规模的矩阵运算,对GPU、TPU等加速硬件依赖很大,算力不足的话,可能导致训练时间指数级增长。
以至于大模型概念刚走红时,出现了哄抢GPU的一幕,价格被炒高数倍,甚至手里有多少枚GPU,都成了创业公司融资的筹码。但在台积电断供、新一轮对华出口限制的现实背景下,依靠国外芯片补充算力的模式已经“岌岌可危”。
特别是在四家协会集体呼吁“保障芯片稳定供应”的背景下,生成式AI的算力难题是否存在新的解法?
时间回到2023年9月,华为云正式上线了升腾AI云服务。
有别于行业内普遍采用英伟达架构和软硬件方案的部署方式,升腾AI云服务给出了全栈自主的新方案:整合了大规模算力集群、计算引擎CANN、AI框架MindSpore、ModelArts AI开发生产线、ModelArts Studio大模型即服务平台等等,为千行百业提供了更多元、高效、长稳的算力服务选择。
聚焦到算力资源的分布上,华为云在贵州贵安、内蒙古乌兰察布、安徽芜湖、香港部署了四大AI算力中心,同时在华北、华东、华南等热点区域部署了30多个数据中心节点,并通过华为云云边缘枢纽,为客户提供最低时延的AI训推服务。简单来说,华为云提供的是云、网、边、端协同的AI Native的算力平台,既可以使用万卡进行大模型训练,也可以满足极低时延的推理需求。
其中的内在逻辑,可以追溯到华为副董事长、轮值董事长徐直军在华为全联接大会2024主题演讲中的观点:
1、美国在AI芯片领域对中国的制裁长期不会取消,而中国半导体制造工艺由于也受美国制裁,将在相当长时间处于落后状态,这就意味着我们所能制造的芯片的先进性将受到制约,也是打造算力解决方案必需面对的挑战。
2、人工智能正在成为主导性算力需求,促使计算系统正在发生结构性变化,需要的是系统算力,而不仅仅是单处理器的算力。这些结构性变化,为我们通过架构性创新,开创出一条自主可持续的计算产业发展道路提供了机遇。
3、我们的战略核心就是,充分抓住人工智能变革机遇,基于实际可获得的芯片制造工艺,计算、存储和网络技术协同创新,开创计算架构,打造“超节点+集群”系统算力解决方案,长期持续满足算力需求。
由此可以得到的结论是:中国AI的路并未被“堵死”,因为华为云早就开辟了一条独立自主的路。
02 “云化算力”的必然性
其实在十几年前,云计算的理念就已经成为行业共识,通过弹性的算力供给,企业不再需要花巨额资金采购服务器,不再需要进行复杂的运维,创新的门槛被不断降低,最终加速了移动互联网的繁荣。
当智能算力成为创新的最大制约因素,升腾AI云服务的“云化”是最优解吗?想要回答这个问题,需要从三个维度进行拆解。
第一个是稳定和可靠。
和AI的每一次对话,都涉及到复杂的计算,没有稳定可靠的算力供给,再美好的设想都将是泡沫。就像前面所提到的,升腾AI云服务的特点是全栈自主创新,从硬件、基础设施、算力集群、架构到软件应用,都掌握在华为云自己手中。
可靠和稳定的另一种体现,在于华为云对升腾AI云服务进行的持续优化,比如业界万亿参数模型训练的平均无中断时长约2.8天,升腾AI云服务可实现40天无中断;业界平均集群故障恢复时间约60分钟,升腾AI云服务可以缩短到10分钟;针对大模型训练的数据安全,华为云采用了数据传输与存储加密、数据安全清除、数据访问控制、数据水印防泄露等多重技术,确保大模型训练数据的全生命周期安全......
第二个是算力的多元化。
大模型训练和推理仅仅是算力需求的一个侧面,在实际的运行中往往需要CPU、NPU、DPU等多种算力。以往想要满足不同类型的算力,需要构建多个数据中心,然后进行复杂的调度和分配。
这里就涉及到华为云的AI原生云基础设施CloudMatrix,可以将CPU、NPU、DPU、存储和内存等资源全部互联和池化,从单体算力向矩阵算力演进,构建了一切可池化、一切皆对等、一切可组合的AI原生云基础设施,继而实现了云上资源的多元算力统一建模、灵活调度组合和按需提供给。据悉,基于CloudMatrix全新架构的升腾AI云服务还将于明年正式上线,届时将进一步提升AI算力集群性能,提速企业大模型训练。
第三个是成本和效率。
大模型的开发、训练及部署是个复杂的系统工程,任何一个环节的短板,都可能影响到创新的进度。即使不考虑自建数据中心的长周期、高能耗,单单是大模型的落地部署,就需要端到端的全流程支持。
以大模型迁移为例,涉及到算力适配、框架兼容、软件环境、数据传输等多个流程,可能需要几个月的时间。而升腾AI云服务提供了大模型开发、通用AI开发及算力调优在内的全流程工具链,可以快速、无损实现模型和应用的迁移适配,典型场景迁移至生产环境只需要不到2周的时间。
做一个总结的话:相较于自建数据中心,升腾AI云服务在很大程度上保障了算力供给的稳定和安全,再加上云计算即开即用、按需使用、灵活部署的优势,注定会成为大模型训练、推理部署的必要基础设施。
也就是说,即使不考虑限制芯片进口的现实因素,云化算力仍是不可逆的技术趋势。全栈自主的升腾AI云服务,刚好是当下最可靠的选择。
03 生产力已经被验证
衡量AI云服务的价值标杆,关键是能否将算力变成生产力。
正如我们此前在文章中所提到的观点:AI对云计算的“颠覆”才露出冰山一角,过去的云服务是以功能为中心的,譬如CRM、客服系统、OA等等;未来将是以场景为中心,基于大模型的能力,打破功能上的边界,深入场景解决问题。
面对国内半导体产业的现状,升腾AI云服务既给出了可持续的AI算力解决方案,也在解决行业难题,释放出实实在在的生产力。
比如基于升腾算力打造自主创新通用大模型底座的 $科大讯飞(002230)$ 。
在同行们抢时间发布大模型的2023年初,科大讯飞在同步思考一个长远问题:为了避免被卡脖子,怎么将大模型的能力架构在一个自主创新的体系上?
半年后的讯飞开发者节上,答案被揭晓——科大讯飞联合华为推出了国内首个万卡规模大模型算力平台“飞星一号”,然后训练出了全面对标GPT-4 Turbo的星火V4.0。
身为“局内人”的科大讯飞董事长刘庆峰,后来在一次主题分享中感慨道:“在我们自己建算力集群之后,我们发现在华为云上做训练推理建设比自己做更轻松、效率更高,更能满足短时瞬间的规模化算力应用之后,释放波峰波谷(减少能耗闲置,算力削峰填谷),对整个行业都是效率最高的。”
再比如顺丰科技在升腾AI云服务的支持下打造的“丰语”大模型。
3个月前的深圳国际人工智能展上, $顺丰控股(06936)$ 科技发布了物流行业的垂直大模型丰语,对物流行业各个岗位进行高效赋能。
其中基于大模型的摘要准确率已超过95%,让客服人员与客户对话后的处理平均时长减少了30%;对快递小哥问题的定位准确率超过98%,平均每次会话可以节省小哥3分钟。
按照顺丰科技AIoT领域副总裁宋翔在公开演讲中提到的信息,升腾AI云服务为丰语大语言模型构筑坚实底座,提供澎湃算力支持,并通过高效的数据、开发、训练及推理平台,实现了AI应用的高效开发与资源利用。
可以找到的案例还有很多。
诸如奇瑞、比亚迪、小红书、网易伏羲、腾讯音乐、知乎、美图等都曾公开分享过在升腾AI云服务上训练大模型的经历,目前已经有100+开源大模型基于升腾AI云服务适配并优化。
这些真实的落地案例,不仅验证了升腾AI云服务在大模型训练、推理、部署等方面的优势,还在无形中回答了文初留下的问题:把中国企业列入“限制清单”的行为,不会卡主中国企业的脖子,反而提升了中国AI生态的凝聚力。
还是科大讯飞的例子。
在基于升腾软硬件训练大模型的过程中,双方联合开发和优化了50多个大模型算子,让大模型的训练性能提升了3倍以上;为了避免开发者重复造轮子,讯飞星火在升思社区等平台上开源了多个大模型,并向开发者提供基础模型、精调模型、微调工具、人格定制工具、高质量多语种语料等等,让他们把精力聚焦在想要解决的问题上,而非不必要的事务中。
04 写在最后
风物长宜放眼量。
在人工智能的赛道里,从来都没有无法攻克的“壁垒”和“瓶颈”。所谓的“芯片禁令”,不过是进一步放大了云化算力的优势,作为一种高效、灵活、可扩展的解决方案,将是中国企业打破算力瓶颈的更优选择。
有理由相信,只要沿着已经被验证的路径走下去,围绕大模型的研发和应用不断合作创新,以系统性能力战胜单体性能,中国AI产业还将释放出百倍、千倍的势能。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。