卷疯了!最强开源大模型Llama 3发布,性能直逼GPT4,扎克伯格:大模型比元宇宙香多了

ZResearch
04-22

引言

4月18日,AI领域迎来重大消息,全球科技、社交巨头Meta在官网正式发布了开源大模型——Llama-3。这次,Meta共开源了Llama 3 8B和Llama 3 70B两款模型,分别有预训练和指令微调两个版本,8K上下文,在两个24K GPU定制集群上使用15万亿tokens数据训练而成,Meta称它们分别是80亿和700亿参数上最好的模型。同时,Llama 3 400B也在训练中,有望成为首个开源GPT-4级别的模型。

一、Llama 3简介

Llama 3在各项测试中表现惊艳

Meta表示,新一代Llama3在Llama 2的基础上有了重大飞跃,确立了 LLM的新标准。在预训练和后训练过程上的改进大大降低了错误拒绝率,提高了一致性,并增加了模型响应的多样性。在推理、代码生成和指令遵循等方面都得到了极大改善,使得 Llama 3 更加可控。

对照表中数据,Llama3 8B在大规模多任务语言理解、生成式预训练问题回答、编码和数学等LLM核心基准测试上都显著优于Gemma 7B和Mistral 7B,Llama3 70B同样战胜了Gemini Pro 1.5和Claude 3 Sonnet。

资料来源:Meta 官网

预训练版本的Llama3 8B和70B也在通用智能评估、困难任务、ARC挑战赛、DROP数据集上战胜了Mitral 7B、Gemma 7B、Gemini Pro 1.0和新出的Mixtral 8x22B。

资料来源:Meta 官网

除了关注LLM标准基准测试项目, Meta试图针对真实场景的性能进行优化。为此,他们开发了一套新的高质量人工评估集,包含 1,800个提示,涵盖了寻求建议、头脑风暴、分类、封闭式问题回答、编码、创意写作、提取、模拟角色/人物、开放式问题回答、推理、重写和总结这12个关键用例。为了防止发生意外过拟合,即使是Meta自己的建模团队也无法访问它。

在这套评估集上, Llama3 70B与Claude Sonnet、Mistral Medium、GPT-3.5 和上一代Llama2对战后显著胜出。

资料来源:Meta 官网

模型架构

Llama 3选择了相对标准的纯解码器Transformer架构。与Llama2相比,Llama 3做了几个关键的改进,包括:

  • Llama 3使用具有128K token词汇表的tokenizer,可以更有效地对语言进行编码,从而显著提高模型性能;

  • 为了提高 Llama 3模型的推理效率,研究团队在8B和70B大小的模型上采用了分组查询注意力 (GQA);

  • 在8192个token的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。

训练数据

Meta认为训练出最佳LLM的关键是要整理一个大型高质量训练数据集,为此他们投入了大量资源:

  • Llama 3在超过15万亿个公开可用来源的token上进行了预训练,比训练Llama 2时的数据集足足大7倍,代码量是 Llama 2的4倍。其中超过5%来自高质量非英语数据,总共涵盖了30多种语言,以为即将到来的多语言使用场景做准备。

  • 为了确保 Llama 3接受最高质量数据的训练,研究团队开发了一系列数据过滤管道,包括使用启发式过滤器、NSFW过滤器、语义重复数据删除方法和文本分类器来预测数据质量。

  • Llama3研究团队还进行了大量实验,来评估在最终预训练数据集中混合不同来源数据的最佳方式,确保 Llama 3在日常问题、STEM、编码、历史知识等各种使用场景中表现良好。

扩展预训练

为了更有效利用预训练数据,Meta针对下游基准评估开发了一系列详细的扩展法则,在实际训练模型之前就能预测最大模型在关键任务上的性能,来确保最终模型在各种使用场景和能力上都有出色的表现。

在Llama 3的开发过程中,团队也对扩展行为有了一些新的观察。例如,尽管一个8B参数模型对应的最佳训练计算量是200B个tokens,但他们的8B和70B参数模型在接受高达15 万亿个token训练后,性能仍然呈对数线性提高。

Meta结合了三种并行化方式:数据并行、模型并行和管道并行,来训练最大的Llama3模型,最高效地实现在同时使用16K个GPU训练时,每个GPU的计算利用率超过400 TFLOPS。他们还开发了一个先进的新训练堆栈,可以自动进行错误检测、处理和维护,并进行了一系列硬件和可扩展存储系统的改进。最终使总体有效训练时间超过95%,与Llama 2相比训练效率提升了约3倍。

指令微调方法创新

为了在聊天场景中充分释放预训练模型的潜力,Meta也在指令微调方法上进行了创新。后训练方法采用监督微调(SFT)、拒绝采样、邻近策略优化(PPO)和直接策略优化(DPO)的组合。在模型质量上的最大改进来自于仔细整理的训练数据,并对人工标注人员提供的标注进行多轮质量保证。

通过PPO 和DPO从偏好排序中学习,也大大提高了Llama 3在推理和编码任务上的性能。团队发现,当你问模型一个它难以回答的推理问题时,模型会产生正确的推理轨迹:知道如何得出正确答案,但不知道如何选择它。通过在偏好排序上进行训练,模型就能学会如何去选择正确答案。

大规模部署Llama 3

根据官方介绍,Llama 3很快将在所有主要平台上推出,包括云服务商、API 提供商等。从AWS、Google Cloud、Databricks、Snowflake 、NVIDIA NIM到Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure——Llama 3 将无处不在。它还得到了 AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 提供的硬件平台支持。[ii]

二、首个开源GPT-4级模型即将面世

Meta表示Llama 3 8B和70B只是Llama 3系列的开始,目前Llama 3 400B+的最大模型正在训练中,未来几个月,Meta将发布多个新功能,包括多模态、多语言对话能力、更长的上下文窗口以及更强大的整体能力。一旦完成所有Llama 3的训练,他们也会发表一篇详细的研究论文供社区参考。[i]

根据Meta公布的数据,预训练版本和指令微调版的Llama 3 400B在多项测试中都取得了非常亮眼的成绩。

资料来源:Meta 官网

英伟达高级科学家Jim Fan根据Meta公布的数据做了一个对比图,将Llama 3 400B与Claude 3 Opus、GPT-4-2024-04-09和Gemini在同基准数据中的结果进行对比。可以看出,Llama 3 400B在多语言推理任务、代码能力上已经可以与GPT-4、Claude 3相匹敌,并在所有能力上,均打败了Gemini Ultra 1.0。

资料来源:Twitter

Jim Fan、Karpathy(特斯拉人工智能负责人)、Will Depue(OpenAI研究科学家)等AI领域专家纷纷看好Llama 3 400B,预测它将成为首个开源GPT-4级别的模型。

三、开源模型有望赶超闭源模型

业内,开源模型支持者与闭源模型支持者各执一词。

闭源模型的优势在于其高质量和专业支持,由于这些模型是由大型科技公司开发和维护的,它们通常在性能、稳定性和安全性方面更为出色。[iii]百度董事长李彦宏、月之暗面创始人杨植麟都支持闭源,认为有商业模式的闭源模型才能聚集人才和资本,中国和美国最强的基础模型都是闭源的,而最好的小模型都是大模型降维做出来的,闭源在成本、效率上有优势,同等能力闭源模型推理成本更低,响应速度更快。人工智能科学家沈向洋在一个行业论坛上谈及大模型开源闭源路径之争。他认为,业内第一名一定是闭源,第二名他仍然踌躇不定,第三名才会是开源。[iv]

开源模型的主要优势在于其灵活性和低成本。开源模型通常可以免费获取,且用户可以根据自己的需要进行定制和优化。[iii]上海人工智能实验室领军科学家林达华教授表示,闭源可能会在产品打磨上做得更强,所以产品成熟度各方面会更好,开源模型在产品成熟度上虽比不过闭源模型,但它能够支撑更广泛的从业者使用并进行二次开发,最后开源模型的真实市场占比可能会非常高。大模型开发者高晓安(化名)认为,开源模型在数据安全性方面优于闭源模型,相比使用将公司资料“喂”给闭源模型可能造成的数据泄露问题,收集独有的业务数据以训练开源模型则少了这方面忧虑,经过训练的模型亦可媲美甚至超越ChatGPT等闭源模型。[iv]

在Llama 3发布前,开源大模型的表现明显落后于闭源模型,整体来讲表现最好的两个大模型,OpenAI的GPT-4和Google的Gemini都并未开源。而Llama 3 400B将为开源社区带来GPT-4 级大模型,或将成为开源模型赶超闭源模型的分水岭。

事实上,开源和闭源模型都有各自的优势和价值,二者的应用场景也有所不同。开源模型更倾向于面向企业,它有更大的开放性去做二次开发,并且能够更好地保护数据隐私,成本也更低;闭源更倾向于面向个人用户,它能够构成商业闭环,能够有大量的用户反馈,在固定的渠道里形成壁垒,并进行商业化变现。因此,面向不同的需求,会匹配不同的模型,开源和闭源能够产生互补效应,形成一种开放、协作和创新的发展模式,共同推动大模型领域的发展。[iv]

@小虎征文 @爱发红包的虎妞 @Seven8 @小虎活动 @话题虎

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法