谷歌 DeepMind 推新框架 InfAlign：提升语言模型推理对齐能力_老虎社区_美港股上老虎 - 老虎社区

点赞
评论
收藏

谷歌 DeepMind 推新框架 InfAlign：提升语言模型推理对齐能力

品玩
01-02 17:26

品玩1月2日讯，据 AI Base 报道，谷歌 DeepMind 和谷歌研究团队近日发布新框架 InfAlign，这是一个旨在与推理策略相结合的机器学习框架。

InfAlign 将推理时的方法纳入对齐过程，力求弥补训练与应用之间的鸿沟。它通过一种校准的强化学习方法来调整基于特定推理策略的奖励函数。InfAlign 对 Best-of-N 采样（生成多个响应并选择最佳者）和 Worst-of-N(常用于安全评估)等技术特别有效，确保对齐的模型在控制环境和现实场景中都能表现良好。

InfAlign 的核心是校准与变换强化学习（CTRL）算法，该算法遵循三个步骤:校准奖励分数、根据推理策略变换这些分数、解决一个 KL 正则化的优化问题。通过将奖励变换定制化到特定场景，InfAlign 将训练目标与推理需求对齐。这种方法不仅提升了推理时的胜率，还保持了计算效率。此外，InfAlign 增强了模型的鲁棒性，使其能够有效应对各种解码策略，并产生一致的高质量输出。

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

点赞

举报

评论

推荐
最新

empty

暂无评论

热议股票

关于我们·老虎社区守则·老虎社区账号管理规范·老虎社区服务协议·老虎社区隐私政策

公司名称：北京至简风宜信息技术有限公司

违法和不良信息投诉：010-5681-3562（工作时间9:30-18:30）

邮箱：service@laohu8.com

老虎社区侵权投诉指引

中国互联网举报中心·北京互联网举报中心

网络谣言曝光台·扫黄打非举报中心

网络110报警服务

© 2018-2025 老虎社区版权所有

营业执照：91110105MA01A4U55R

ICP备：京ICP备18016422号

网安备：京公网安备11010502036490

qrcode

关注我们

{"i18n":{"language":"zh_CN"},"data":{"magic":2,"id":388226082021416,"tweetId":"388226082021416","gmtCreate":1735809964000,"gmtModify":1735810845005,"author":{"id":3585895914412071,"idStr":"3585895914412071","authorId":3585895914412071,"authorIdStr":"3585895914412071","name":"品玩","avatar":"https://static.tigerbbs.com/b172a08e9f14d6bb2f35c135c87f473e","vip":6,"userType":6,"introduction":"有品好玩的科技，一切与你有关","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":467,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"title":"谷歌 DeepMind 推新框架 InfAlign：提升语言模型推理对齐能力","html":"<html><head></head><body><p><span>品玩1月2日讯，据 AI Base 报道，谷歌 DeepMind 和谷歌研究团队近日发布新框架 InfAlign，这是一个旨在与推理策略相结合的机器学习框架。</span></p>\n<p><span>InfAlign 将推理时的方法纳入对齐过程，力求弥补训练与应用之间的鸿沟。它通过一种校准的强化学习方法来调整基于特定推理策略的奖励函数。InfAlign 对 Best-of-N 采样（生成多个响应并选择最佳者）和 Worst-of-N(常用于安全评估)等技术特别有效，确保对齐的模型在控制环境和现实场景中都能表现良好。</span></p>\n<p><span>InfAlign 的核心是校准与变换强化学习（CTRL）算法，该算法遵循三个步骤:校准奖励分数、根据推理策略变换这些分数、解决一个 KL 正则化的优化问题。通过将奖励变换定制化到特定场景，InfAlign 将训练目标与推理需求对齐。这种方法不仅提升了推理时的胜率，还保持了计算效率。此外，InfAlign 增强了模型的鲁棒性，使其能够有效应对各种解码策略，并产生一致的高质量输出。</span></p></body></html>","htmlText":"<html><head></head><body><p><span>品玩1月2日讯，据 AI Base 报道，谷歌 DeepMind 和谷歌研究团队近日发布新框架 InfAlign，这是一个旨在与推理策略相结合的机器学习框架。</span></p>\n<p><span>InfAlign 将推理时的方法纳入对齐过程，力求弥补训练与应用之间的鸿沟。它通过一种校准的强化学习方法来调整基于特定推理策略的奖励函数。InfAlign 对 Best-of-N 采样（生成多个响应并选择最佳者）和 Worst-of-N(常用于安全评估)等技术特别有效，确保对齐的模型在控制环境和现实场景中都能表现良好。</span></p>\n<p><span>InfAlign 的核心是校准与变换强化学习（CTRL）算法，该算法遵循三个步骤:校准奖励分数、根据推理策略变换这些分数、解决一个 KL 正则化的优化问题。通过将奖励变换定制化到特定场景，InfAlign 将训练目标与推理需求对齐。这种方法不仅提升了推理时的胜率，还保持了计算效率。此外，InfAlign 增强了模型的鲁棒性，使其能够有效应对各种解码策略，并产生一致的高质量输出。</span></p></body></html>","text":"品玩1月2日讯，据 AI Base 报道，谷歌 DeepMind 和谷歌研究团队近日发布新框架 InfAlign，这是一个旨在与推理策略相结合的机器学习框架。 InfAlign 将推理时的方法纳入对齐过程，力求弥补训练与应用之间的鸿沟。它通过一种校准的强化学习方法来调整基于特定推理策略的奖励函数。InfAlign 对 Best-of-N 采样（生成多个响应并选择最佳者）和 Worst-of-N(常用于安全评估)等技术特别有效，确保对齐的模型在控制环境和现实场景中都能表现良好。 InfAlign 的核心是校准与变换强化学习（CTRL）算法，该算法遵循三个步骤:校准奖励分数、根据推理策略变换这些分数、解决一个 KL 正则化的优化问题。通过将奖励变换定制化到特定场景，InfAlign 将训练目标与推理需求对齐。这种方法不仅提升了推理时的胜率，还保持了计算效率。此外，InfAlign 增强了模型的鲁棒性，使其能够有效应对各种解码策略，并产生一致的高质量输出。","highlighted":1,"essential":1,"paper":2,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/388226082021416","repostId":0,"isVote":1,"tweetType":1,"viewCount":209,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":["LU1069347547.HKD","IE00BFXG0V08.USD","LU1267930490.SGD","LU2362540622.SGD","LU0203201768.USD","LU2237438978.USD","LU1244550494.USD","LU1551013425.SGD","LU1852331112.SGD","USJW.SI","LU2065169927.USD","LU2491050154.USD","LU1868836757.USD","LU2054465674.USD","LU0130518102.USD","LU1691799644.USD","LU0251132253.USD","GOOGL","LU0158827781.USD","LU2756315664.SGD","LU1116320737.USD","LU0648000940.SGD","IE0004445239.USD","LU0823434583.USD","LU0267386448.USD","LU2077746001.SGD","LU1988902786.USD","LU0965509010.AUD","IE00BSNM7G36.USD","IE0004086264.USD","IE00BFSS8Q28.SGD","LU1435385759.SGD","LU0353189763.USD","LU2552382215.SGD","LU1066051498.USD","LU0433182093.SGD","LU1221951129.SGD","LU2462157665.USD","LU1923623000.USD","LU0494093205.USD","SG9999014906.USD","LU2023250843.SGD","LU0985320562.USD","LU0345768153.USD","GOOG","LU0256863811.USD"],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":709,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"hasMoreComment":false,"orderType":2}