零样本、仅听3秒提示音频,即可1:1复刻人声。这就是微软与中国科技大学、香港中文大学(深圳)和浙江大学等机构合作,推出的NaturalSpeech 3系统。该系统采用了创新的属性分解扩散模型和属性分解语音神经编解码器FACodec,从“表示”和“建模”两个维度对语音数据进行深入研究。通过数据/模型的规模化方法,在多说话人数据集LibriSpeech上首次实现了零样本的人类水平语音合成。指定特征实现...
网页链接零样本、仅听3秒提示音频,即可1:1复刻人声。这就是微软与中国科技大学、香港中文大学(深圳)和浙江大学等机构合作,推出的NaturalSpeech 3系统。该系统采用了创新的属性分解扩散模型和属性分解语音神经编解码器FACodec,从“表示”和“建模”两个维度对语音数据进行深入研究。通过数据/模型的规模化方法,在多说话人数据集LibriSpeech上首次实现了零样本的人类水平语音合成。指定特征实现...
网页链接
精彩评论