仅听3秒,AI零样本克隆人声达到人类水平,情绪语调随意改

量子位04-13

零样本、仅听3秒提示音频,即可1:1复刻人声。这就是微软与中国科技大学、香港中文大学(深圳)和浙江大学等机构合作,推出的NaturalSpeech 3系统。该系统采用了创新的属性分解扩散模型和属性分解语音神经编解码器FACodec,从“表示”和“建模”两个维度对语音数据进行深入研究。通过数据/模型的规模化方法,在多说话人数据集LibriSpeech上首次实现了零样本的人类水平语音合成。指定特征实现...

网页链接
免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法