微软发布 VALL-E2 模型,配音效果可达到人类水平

品玩7月24日讯,据 Arxiv 页面显示,微软近期发布文本到语音模型 VALLE-2,首次实现了与人类同等的水平。

据悉,VALLE-2采用零样本学习技术,仅需一段简短的陌生语音样本,就能模仿相同的声音说出任意文本内容,展现了惊人的即时模仿能力。不过研究者表示,虽然 VALL-E 2 有很强的零样本学习能力可以像配音员一样模仿声音,但相似度和自然度取决于语音 prompt 的长度和质量、背景噪音等因素。

在主观评分(SMOS和CMOS)和客观指标(SIM、WER和DNSMOS)上,VALLE-2不仅超越了前代模型VALLE,在某些方面甚至优于人类真实语音。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论