无限上下文、2万亿token,它能干翻Transformer?

新智元04-17

继Mamba之后,又一敢于挑战Transformer的架构诞生了!来自Meta、南加州大学(USC)、CMU和UCSD的研究人员提出了全新的神经网络架构——Megalodon(巨齿鲨)。这是专为有效处理“无限上下文”长度的LLM预训练,以及推理而设计的架构。论文地址:https://arxiv.org/abs/2404.08801我们都知道,Transformer架构在处理长上下文时,会受到二次...

网页链接
免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法