今天凌晨,微软研究院开源了创新音频模型VibeVoice-1.5B。VibeVoice-1.5B开创了语音界多个重大技术突破:一次性可连续合成90分钟超长逼真语音,之前多数模型只能合成60分钟以内语音,并且30分钟后会出现音色漂移、语义断裂等难题;最多支持4名发言人,而之前开源的SesameAILabs-CSM、HiggsAudio-V2等知名模型最多支持2人;可对24kHz原始音频实现3200倍...
网页链接AIGC开放社区2025-08-26
今天凌晨,微软研究院开源了创新音频模型VibeVoice-1.5B。VibeVoice-1.5B开创了语音界多个重大技术突破:一次性可连续合成90分钟超长逼真语音,之前多数模型只能合成60分钟以内语音,并且30分钟后会出现音色漂移、语义断裂等难题;最多支持4名发言人,而之前开源的SesameAILabs-CSM、HiggsAudio-V2等知名模型最多支持2人;可对24kHz原始音频实现3200倍...
网页链接免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。
