LeCun 的 IWM 能否成为实现 AGI 的关键世界模型?

机器之能03-09

机器之心PRO · 会员通讯 Week 10

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. LeCun 的 IWM 能否成为实现 AGI 的关键世界模型?

Google、Meta 、OpenAI 三家巨头对于实现 AGI 的技术路径存在分歧?Yann LeCun 提出的世界模型新范式 IWM 是什么?IWM 与 I-JEPA 是什么关系?IWM 与传统的自监督学习方法有哪些不同?...

2. Scaling Law 又一次性感了吗?

Scaling Law 是什么?Scaling Law 都有哪些争议?都有谁相信 Scaling Law?为什么 OpenAI 能用好 Scaling Law?...

3. 53页“OpenAI 2027 AGI 规划”要点解读

53 页 PDF 讲了 OpenAI 什么计划?有 Q* 的消息吗?来源可靠吗?OpenAI 打算如何在2027年实现 AGI?...

...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 6 项,国外方面 14 项...

本期通讯总计 24172 字,可免费试读至 9 % 

 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读 ① LeCun 的 IWM 能否成为实现 AGI 的关键世界模型?

日期:3 月 5 日

事件:今年 2 月,三大科技巨头 Google、Meta 和 OpenAI 分别推出了其最近的技术成果 Gemini Pro 1.5、V-JEPA 以及 Sora。关于 AGI 实现的技术路径,三家巨头各有不同。DeepMind CEO Demis Hassabis 近期在接受采访时表示,结合大型语言模型(LLM)和树搜索技术是实现 AGI 的有效路径。与此同时,Meta FAIR 团队近期也发表论文,提出了图像世界模型(Image World Models,IWM)的新范式,将世界模型作为预测器(predictor)进行训练,探索世界模型在视觉任务中的学习和利用。关于三家巨头对于实现 AGI 的技术路径之争引起广泛关注。[1]

Yann LeCun 提出的世界模型新范式 IWM 到底是何方神圣?[7]

1、据论文《Learning and Leveraging World Models in Visual Representation Learning》,图像世界模型(IWM)是一种全新的视觉表征学习范式,通过学习预测视觉变换对数据的影响来建模世界知识。与传统的对比学习和掩码建模方法不同,IWM 不仅能够学习高质量的视觉表征,还能获得一个可复用的“世界模型”。

2、图像世界模型(IWM)的架构基于此前 Yann LeCun 提出的联合嵌入预测架构(Joint Embedding Predictive Architecture, JEPA)框架。在这个框架中,预测器是世界模型的实例化,IWM 的核心思想是使世界模型能够在潜在空间中应用变换,从而学习到等变(equivariant)表示。

3、简单来说,IWM 的工作流程包括:

① 首先,从原始图像产生一对“源视图”和“目标视图”,两者通过数据增强(如裁剪、颜色变换等)获得。

② 然后,将源视图和目标视图分别输入到编码器网络,得到两个视觉特征表示。

③ 再次,预测器网络以源视图的特征表示和变换参数为输入,目标是重建或预测目标视图的特征表示。

④ 最后,通过最小化预测值和目标值之间的差异来训练整个模型。

⑤ 如果预测器能够很好地重建或预测目标视图的表示,即意味着学习到了一个强大的“世界模型”,能够捕捉输入数据在遭受变换时的本质特征;相反,如果预测器无法准确预测,其所学习到的“世界模型”就较为简陋。

4、IWM 架构的关键组成部分包括:

① 编码器(Encoder):编码器 fθ负责将输入图像转换为潜在空间的表示,表示捕捉了图像的关键特征,同时忽略了不必要的信息。

② 指数移动平均(Exponential Moving Average, EMA):EMA 网络 fEMAθ是编码器的一个变体,通过计算参数的指数移动平均来提供更稳定的表示。有助于避免解决方案崩溃,即在模型参数变得非常小的情况下,导致模型无法学习。

③ 掩蔽标记(Mask Tokens):在 IWM 中,掩蔽标记 ma 用于表示源图像和目标图像之间的几何关系。这些标记是通过对图像进行掩蔽操作得到的,指示了在潜在空间中需要进行的变换。

④ 预测器(Predictor):预测器 pϕ是世界模型的核心,它接收编码器输出的潜在表示、转换参数 ax→y 和掩蔽标记 ma 作为输入,并尝试预测目标表示 zy。预测器的目标是匹配 pϕ(zx, ax→y, ma) = zˆy 到 zy。

⑤ 损失函数(Loss Function):使用的损失函数是预测值 zˆy 和它们的目标 zy 之间的平方 L2 距离。

⑥ 潜在空间(Latent Space):潜在空间是模型内部的一个抽象表示空间,其中图像被转换为低维的向量。在这个空间中,模型可以更容易地学习和应用变换。

⑦ 源视图(Source View) 和 目标视图(Target View):源视图 x 和目标视图 y 是从同一图像 I 生成的不同视图。源视图通常经过一系列增强操作,而目标视图则保持尽可能多的信息,以便预测器可以从中学习。

⑧ 转换参数(Transformation Parameters):转换参数 ax→y 描述了从源视图 x 到目标视图 y 的转换过程。这些参数包含了颜色抖动的差异以及是否应用了破坏性增强的信息。

IWM 与前一阵小有热度的 I-JEPA 有什么关系?

1、去年 6 月,Meta AI 研究团队发表论文,提出了首个基于 Yann LeCun 世界模型概念的图像联合嵌入预测架构 I-JEPA(Image Joint Embedding Predictive Architecture ),可通过创建外部世界的内部模型来学习、比较图像的抽象表示。[2]

① I-JEPA 的核心思路是以更类似于人类理解的抽象表征来预测缺失信息。与在像素 /token 空间中进行预测的生成方法相比,I-JEPA 使用抽象的预测目标,潜在地消除了不必要的像素级细节,从而使模型学习更多语义特征。

2、与 I-JEPA 相同的是,IWM 也是基于 JEPA(Joint Embedding Predictive Architecture ) 架构,同样基于 Vision Transformer 的自监督学习方法,使用预测任务来学习图像的表示,且都强调了表示空间的重要性。

3、IWMI-JEPA 虽然同属于 Yann LeCun 的“世界模型”系列,但两者同样存在着差异与不同:

1)对世界模型的学习和应用:I-JEPA 主要关注于从单个上下文块预测目标块的表示,而 IWM 则进一步学习了一个可以应用于多种任务的世界模型。

① I-JEPA:专注于通过预测任务学习图像的表示,而不直接构建或利用世界模型。它通过预测图像块的表示来学习语义信息,但这些预测是在图像的潜在空间中进行的,而不是直接在像素空间或输入空间。

免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法