微软发布 VALL-E2 模型，配音效果可达到人类水平_老虎社区_美港股上老虎

微软发布 VALL-E2 模型，配音效果可达到人类水平

品玩7月24日讯，据 Arxiv 页面显示，微软近期发布文本到语音模型 VALLE-2，首次实现了与人类同等的水平。

据悉，VALLE-2采用零样本学习技术，仅需一段简短的陌生语音样本，就能模仿相同的声音说出任意文本内容，展现了惊人的即时模仿能力。不过研究者表示，虽然 VALL-E 2 有很强的零样本学习能力可以像配音员一样模仿声音，但相似度和自然度取决于语音 prompt 的长度和质量、背景噪音等因素。

在主观评分（SMOS和CMOS）和客观指标(SIM、WER和DNSMOS)上，VALLE-2不仅超越了前代模型VALLE，在某些方面甚至优于人类真实语音。

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

推荐
最新

暂无评论

热议股票

关于我们·老虎社区守则·老虎社区账号管理规范·老虎社区服务协议·老虎社区隐私政策

公司名称：北京至简风宜信息技术有限公司

违法和不良信息投诉：010-5681-3562（工作时间9:30-18:30）

邮箱：service@laohu8.com

营业执照：91110105MA01A4U55R

ICP备：京ICP备18016422号

网安备：京公网安备11010502036490

关注我们

{"i18n":{"language":"zh_CN"},"data":{"magic":2,"id":330884799791272,"tweetId":"330884799791272","gmtCreate":1721806271000,"gmtModify":1721808280841,"author":{"id":3585895914412071,"authorId":3585895914412071,"authorIdStr":"3585895914412071","name":"品玩","avatar":"https://static.tigerbbs.com/b172a08e9f14d6bb2f35c135c87f473e","vip":6,"userType":6,"introduction":"有品好玩的科技，一切与你有关","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":440,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"title":"微软发布 VALL-E2 模型，配音效果可达到人类水平","html":"<html><head></head><body>品玩7月24日讯，据 Arxiv 页面显示，微软近期发布文本到语音模型 VALLE-2，首次实现了与人类同等的水平。\n\n据悉，VALLE-2采用零样本学习技术，仅需一段简短的陌生语音样本，就能模仿相同的声音说出任意文本内容，展现了惊人的即时模仿能力。不过研究者表示，虽然 VALL-E 2 有很强的零样本学习能力可以像配音员一样模仿声音，但相似度和自然度取决于语音 prompt 的长度和质量、背景噪音等因素。\n在主观评分（SMOS和CMOS）和客观指标(SIM、WER和DNSMOS)上，VALLE-2不仅超越了前代模型VALLE，在某些方面甚至优于人类真实语音。</body></html>","htmlText":"<html><head></head><body>品玩7月24日讯，据 Arxiv 页面显示，微软近期发布文本到语音模型 VALLE-2，首次实现了与人类同等的水平。\n\n据悉，VALLE-2采用零样本学习技术，仅需一段简短的陌生语音样本，就能模仿相同的声音说出任意文本内容，展现了惊人的即时模仿能力。不过研究者表示，虽然 VALL-E 2 有很强的零样本学习能力可以像配音员一样模仿声音，但相似度和自然度取决于语音 prompt 的长度和质量、背景噪音等因素。\n在主观评分（SMOS和CMOS）和客观指标(SIM、WER和DNSMOS)上，VALLE-2不仅超越了前代模型VALLE，在某些方面甚至优于人类真实语音。</body></html>","text":"品玩7月24日讯，据 Arxiv 页面显示，微软近期发布文本到语音模型 VALLE-2，首次实现了与人类同等的水平。 据悉，VALLE-2采用零样本学习技术，仅需一段简短的陌生语音样本，就能模仿相同的声音说出任意文本内容，展现了惊人的即时模仿能力。不过研究者表示，虽然 VALL-E 2 有很强的零样本学习能力可以像配音员一样模仿声音，但相似度和自然度取决于语音 prompt 的长度和质量、背景噪音等因素。 在主观评分（SMOS和CMOS）和客观指标(SIM、WER和DNSMOS)上，VALLE-2不仅超越了前代模型VALLE，在某些方面甚至优于人类真实语音。","highlighted":1,"essential":1,"paper":2,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/330884799791272","repostId":0,"isVote":1,"tweetType":1,"viewCount":437,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":["IE00BLSP4239.USD","IE00BFXG0V08.USD","IE0009356076.USD","IE00BKVL7J92.USD","GB00B4LPDJ14.GBP","IE00BLSP4452.SGD","IE00BHPRN162.USD","IE00B19Z9505.USD","IE0005OL40V9.USD","IE00B4YYXB79.USD","IE0034235295.USD","IE0004091025.USD","IE00B3S45H60.SGD","IE00B5949003.HKD","IE00BBT3K403.USD","IE00BJLML261.HKD","IE00BDRTCR15.USD","IE00B7KXQ091.USD","IE00B19Z8W00.USD","IE00BMPRXN33.USD","IE0004086264.USD","IE00BFSS8Q28.SGD","IE00BJJMRY28.SGD","IE00B19Z8X17.USD","IE000W1ABFV2.USD","IE00B1XK9C88.USD","IE00B3SWFQ91.USD","IE0003U64NQ7.SGD","IE00BK4W5M84.HKD","IE00BK4W5L77.USD","IE00B5TLWC47.USD","IE00BKPKM429.USD"],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"upFlag":false,"length":456,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"hasMoreComment":false,"orderType":2}