谷歌 DeepMind 推新框架 InfAlign:提升语言模型推理对齐能力
品玩1月2日讯,据 AI Base 报道,谷歌 DeepMind 和谷歌研究团队近日发布新框架 InfAlign,这是一个旨在与推理策略相结合的机器学习框架。
InfAlign 将推理时的方法纳入对齐过程,力求弥补训练与应用之间的鸿沟。它通过一种校准的强化学习方法来调整基于特定推理策略的奖励函数。InfAlign 对 Best-of-N 采样(生成多个响应并选择最佳者)和 Worst-of-N(常用于安全评估)等技术特别有效,确保对齐的模型在控制环境和现实场景中都能表现良好。
InfAlign 的核心是校准与变换强化学习(CTRL)算法,该算法遵循三个步骤:校准奖励分数、根据推理策略变换这些分数、解决一个 KL 正则化的优化问题。通过将奖励变换定制化到特定场景,InfAlign 将训练目标与推理需求对齐。这种方法不仅提升了推理时的胜率,还保持了计算效率。此外,InfAlign 增强了模型的鲁棒性,使其能够有效应对各种解码策略,并产生一致的高质量输出。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
点赞
举报
登录后可参与评论
暂无评论