阿里通义团队开源R1-Omni：多模态模型+RLVR，让各模态作用清晰可见

IT之家03-11

IT之家 3月11日消息，随着DeepSeek R1的推出，强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward（RLVR）方法的出现，为多模态任务提供了全新的优化思路，无论是几何推理、视觉计数，还是经典图像分类和物体检测任务，RLVR都展现出了显著优于传统监督微调（SFT）的效果。然而，现有研究多聚焦于Image-...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohunote.com/m/news/2518710693?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2025-03-11 19:25","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2518710693","market":"sh","top_or_hot":-1,"title":"阿里通义团队开源R1-Omni：多模态模型+RLVR，让各模态作用清晰可见","media":"IT之家","content":"<div>\n<p>IT之家 3月11日消息，随着DeepSeek R1的推出，强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward（RLVR）方法的出现，为多模态任务提供了全新的优化思路，无论是几何推理、视觉计数，还是经典图像分类和物体检测任务，RLVR都展现出了显著优于传统监督微调（SFT）的效果。然而，现有研究多聚焦于Image-...</p>\n\n<a href=\"https://tech.ifeng.com/c/8hdpUWP9Uwy\">网页链接</a>\n\n</div>\n","source":"fenghuang_stock","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>阿里通义团队开源R1-Omni：多模态模型+RLVR，让各模态作用清晰可见</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n阿里通义团队开源R1-Omni：多模态模型+RLVR，让各模态作用清晰可见\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-03-11 19:25 北京时间&nbsp;&nbsp;&nbsp;<a href=https://tech.ifeng.com/c/8hdpUWP9Uwy><strong>IT之家</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>IT之家 3月11日消息，随着DeepSeek R1的推出，强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward（RLVR）方法的出现，为多模态任务提供了全新的优化思路，无论是几何推理、视觉计数，还是经典图像分类和物体检测任务，RLVR都展现出了显著优于传统监督微调（SFT）的效果。然而，现有研究多聚焦于Image-...</p>\n\n<a href=\"https://tech.ifeng.com/c/8hdpUWP9Uwy\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"LU1046422090.SGD","symbol_name":"Fidelity Pacific A-SGD","start_time":0,"source_url":"https://tech.ifeng.com/c/8hdpUWP9Uwy","article_id":"2518710693","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2518710693","pubTimestamp":1741692324,"columns":[],"sourceInfo":{"source_id":"fenghuang_stock","name":"凤凰网"},"weMediaInfo":null,"summary":"基于此，通义实验室团队探索了RLVR与视频全模态模型的结合，于今日宣布开源R1-Omni模型。R1-Omni的一大亮点在于其透明性。通过RLVR方法，音频信息和视频信息在模型中的作用变得更加清晰可见。比如，在情绪识别任务中，R1-Omni能够明确展示哪些模态信息对特定情绪的判断起到了关键作用。为了验证 R1-Omni 的性能，通义实验室团队将其与原始的 HumanOmni-0.5B 模型、冷启动阶段的模型以及在 MAFW 和 DFEW 数据集上有监督微调的模型进行了对比。","collect":0,"end_time":0,"defaultTopTitle":"ifeng.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"LU1046422090.SGD":"Fidelity Pacific A-SGD","LU0251143458.SGD":"Fidelity Emerging Markets A-SGD","BK4531":"中概回港概念","LU0880133367.SGD":"UBS (LUX) EQUITY FUND CHINA OPPORTUNITY USD \"P\" (SGD) ACC","BK4614":"Manus概念股","IE00B0JY6N72.USD":"PINEBRIDGE GLOBAL EMERGING MARKETS FOCUS EQUITY \"A\" (USD) ACC","BK4585":"ETF&股票定投概念","BK4534":"瑞士信贷持仓","LU1242518857.USD":"FULLERTON LUX FUNDS - ASIA ABSOLUTE ALPHA \"I\" (USD) ACC","LU2226246903.HKD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"AT4\" (HKD) ACC","BK4575":"芯片概念","LU1267930227.SGD":"TEMPLETON GLOBAL BALANCED \"AS\" (SGD) ACC A","09988":"阿里巴巴-W","BABA":"阿里巴巴","BK4587":"ChatGPT概念","BK4558":"双十一","LU0072913022.USD":"UBS (LUX) EQUITY FUND -  GREATER CHINA \"P\" (USD) ACC","LU1823568750.SGD":"Fidelity Global Technology A-ACC SGD","BK4524":"宅经济概念","BK4220":"综合零售","BK4543":"AI","BK4527":"明星科技股","LU0067412154.USD":"UBS (LUX) EQUITY FUND -  CHINA OPPORTUNITY \"P\" (USD) ACC","LU1105468828.SGD":"Allianz Total Return Asian Equity AM DIS H2-SGD","BK4579":"人工智能","LU0310800965.SGD":"FTIF - Templeton Global Balanced A Acc SGD","LU1242518931.SGD":"Fullerton Lux Funds - Asia Absolute Alpha A Acc SGD","BK4526":"热门中概股","LU0348814723.USD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"A\" (USD) INC  NC","LU0918141705.HKD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"AM\" (HKD) INC","BK4503":"景林资产持仓","LU1152091754.HKD":"UBS (LUX) EQUITY FUND - CHINA OPPORTUNITY (USD) \"PM\" (HKD) INC","LU0979878070.USD":"FULLERTON LUX FUNDS - ASIA ABSOLUTE ALPHA \"A\" (USD) ACC","BK4122":"互联网与直销零售","LU1048596156.SGD":"Blackrock Asian Growth Leaders A2 SGD-H","BK4607":"DeepSeek概念股","LU1282648689.USD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"AMG\" (USD) INC","LU0821914370.USD":"贝莱德亚洲成长领袖A2","LU1688375341.USD":"贝莱德中国灵活股票基金","BK4505":"高瓴资本持仓","LU1152091168.USD":"UBS (LUX) EQUITY FUND - CHINA OPPORTUNITY (USD) \"PM\" INC","BK4581":"高盛持仓","LU0797268264.HKD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"AT\" (HKD) ACC","LU1046421795.USD":"富达环球科技A-ACC","LU0918141887.USD":"安联亚洲实际收益股票基金","LU0651946864.USD":"贝莱德新兴市场股票收益A2","LU1235294995.USD":"FIDELITY GLOBAL TECHNOLOGY \"A\" (USDHDG) ACC","BK4565":"NFT概念","LU1880383366.USD":"东方汇理中国股票基金 A2 (C)","IE00BFMHRM44.USD":"NEUBERGER BERMAN GLOBAL EQUITY MEGATRENDS \"A\" (USD) ACC"},"translate_title":"Alibaba Tongyi team open source R1-Omni: multi-modal model + RLVR, making the role of each modal clearly visible","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"09988":0.6,"BABA":0.6},"content_text":"IT之家 3月11日消息，随着DeepSeek R1的推出，强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward（RLVR）方法的出现，为多模态任务提供了全新的优化思路，无论是几何推理、视觉计数，还是经典图像分类和物体检测任务，RLVR都展现出了显著优于传统监督微调（SFT）的效果。然而，现有研究多聚焦于Image-Text多模态任务，尚未涉足更复杂的全模态场景。基于此，通义实验室团队探索了RLVR与视频全模态模型的结合，于今日宣布开源R1-Omni模型。R1-Omni的一大亮点在于其透明性（推理能力）。通过RLVR方法，音频信息和视频信息在模型中的作用变得更加清晰可见。比如，在情绪识别任务中，R1-Omni能够明确展示哪些模态信息对特定情绪的判断起到了关键作用。为了验证 R1-Omni 的性能，通义实验室团队将其与原始的 HumanOmni-0.5B 模型、冷启动阶段的模型以及在 MAFW 和 DFEW 数据集上有监督微调的模型进行了对比。实验结果显示，在同分布测试集（DFEW 和 MAFW）上，R1-Omni相较于原始基线模型平均提升超过35%，相较于SFT模型在UAR上的提升高达10%以上。在不同分布测试集（RAVDESS）上，R1-Omni同样展现了卓越的泛化能力，WAR和UAR均提升超过13%。这些结果充分证明了RLVR在提升推理能力和泛化性能上的显著优势。IT之家附R1-Omni开源地址：论文：https://arxiv.org/abs/2503.05379Github：https://github.com/HumanMLLM/R1-Omni模型：https://www.modelscope.cn/models/iic/R1-Omni-0.5B","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"symbols":[],"gpt_button":1},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"deviceId":"web-server-community-laohu8-v3","version":"4.32.1","shortVersion":"4.32.1","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2518710693"}