中信证券:LLaMA3开源发布 喂入海量训练数据效果远超预期

智通财经04-23

智通财经APP获悉,中信证券发布研报称,Meta于北京时间2024年4月18日开源了最新的大语言模型LLaMA-3,提供了8B、70B和400B+三个版本的Dense模型。其中70B版本的性能已达GPT-3.5+水平,逼近GPT-4,而400B+版本有望进一步缩小与GPT-4的差距。LLaMA-3打破了业界对Chinchilla定律的认知,证实了通过持续喂入海量优质数据,即使是8B和70B的小模型也能获得超出预期的能力提升。这为通过小模型+大数据的模式在性能和效率间取得更好平衡提供了新思路。

LLaMA-3创新性地使用LLaMA-2模型对训练数据进行质量把控,但代价在于更加高昂的成本。在明确增加训练数据量是提升性能的最好方法的前提下,合成数据或将成为高质量数据获取的主要途径,其发展情况将直接影响开源与闭源模型的差距。商业化方面,Meta已将LLaMA-3应用于全新AI助手,并将通过Facebook、Instagram等平台和AR眼镜推出服务。国内厂商可通过中文化微调迅速获得接近GPT-4水准的基础模型。

综上,看好LLaMA-3引领的从应用层到算力层的认知智能变革,建议未来两个季度内年重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的。

中信证券主要观点如下:

技术迭代:架构小幅更新,性能显著提升

LLaMA-3在总体架构上延续了前代的Transformer结构,主要改进包括:1)Token词典从32K扩展到128K,增强编码效率2)支持长达8K tokens的上下文输入,但仍不及竞品3)引入Grouped Query Attention (GQA),提高推理效率。根据在MMLU、GPQA、HumanEval等数据集上的评测,LLaMA-3-70B的分数分别达到了82.0分、39.5分、81.7分表现已经超越了Claude-Sonnet、Mistral-Medium等同级别模型,基本达到GPT-3.5+的水平,逼近GPT-4。随后的LLaMA-3-400B+版本有望进一步缩小与GPT-4的差距,对标Gemini Ultra以及Claude3等模型。

重要突破:打破Chinchilla定律,小模型高效利用海量数据

LLaMA-3颠覆了业界对Chinchilla定律的认知。其8B、70B版本的训练数据规模分别高达15T和50T tokens,远超Chinchilla定律预测的8B规模最优数据量160B和70B规模最优数据量(1.4T)。这意味着,即使是固定规模的小模型,只要持续喂入优质数据也能获得类似对数线性的能力提升。这为性价比优化和开源生态发展开辟了新的思路,即通过小模型+海量数据的模式,也有望实现性能和效率的兼顾。在有足够优质数据喂养的前提下,中小模型未来的上限可能远超预期。

数据处理:创新性使用前代模型做质量把关,但成本高昂

LLaMA-3的训练数据来自Meta内部和外部,并经过了极其缜密的筛选、清洗流程,尤其创新性地使用了LLaMA-2模型本身作为数据质量分类器进行再次清洗。以LLaMA-2-70B的推理成本$1/1M tokens估算,光是对15T规模的数据进行质量把控,就需要耗资1500万美元。

可以预见,随着后续参数的急剧增长,传统的人工数据采集和清洗方式将难以为继,在高昂成本的推动下利用模型合成与清洗新数据是最有效的手段。LLaMA-3已经向我们表明对于当前的参数规模,不断扩大训练集大小仍然是最有效的Scaling手段,因此后续合成数据技术的发展情况直接决定了开源模型与闭源模型的差距。如果合成数据技术快速成熟,闭源模型公司能够通过资源与资本的优势不断扩充自己的数据集,在高质量合成数据方面与普通的开源模型拉开差距。

商业化落地:结合LLaMA-3发布新一代AI助手Meta AI

Meta已经将LLaMA-3应用到了其最新的AI助手产品Meta AI中。用户可以通过Facebook、Instagram等平台,以及即将推出的AR眼镜Ray-Ban,体验由LLaMA-3驱动的智能对话与任务协助服务。参考LLaMA3 8B模型对于同业其他小模型的显著优势,我们认为对于Meta在边缘端的布局可以投入更高的期待。对于国内厂商而言,LLaMA-3的开源无疑将是重大利好。通过对模型进行中文化微调改造,有望在较短时间内获得一个接近GPT-4水准的基础模型,用于支撑面向企业和个人用户的大模型应用。

投资策略:

LLaMA-3的发布打破了业界对Chinchilla定律的认知,证实了固定规模小模型也能通过增大优质数据量实现显著性能提升。这意味着高质量训练数据的获取成为后续大模型发展的关键。建议关注在合成数据、自动化数据优化等前沿技术领域有突破潜力的企业。

随着大模型体量增长,多模态能力和推理效率成为业界竞争新焦点。Dense架构在处理图像、视频等非结构化数据时效率较低,预计未来1-2年MoE等新型架构将成为主流。看好在这一方向有先发优势的厂商。此外,大模型推理成本和工程效率也是掣肘,建议关注算力芯片、加速卡、大算力平台等领域的科技公司。

商业化方面,Meta已将LLaMA-3应用于最新AI助手产品,成熟小模型与垂直场景结合有望催生新增长点。综上,看好LLaMA-3引领的大模型技术变革,从应用层到模型层再到算力层,认知智能提升将带来新一轮行业增长机会。未来3-5年,建议重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的。

风险因素:

AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。

免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法