• 点赞
  • 评论
  • 收藏

微软刚开源新模型!一次生成90分钟语音、3200倍压缩率

AIGC开放社区2025-08-26

今天凌晨,微软研究院开源了创新音频模型VibeVoice-1.5B。VibeVoice-1.5B开创了语音界多个重大技术突破:一次性可连续合成90分钟超长逼真语音,之前多数模型只能合成60分钟以内语音,并且30分钟后会出现音色漂移、语义断裂等难题;最多支持4名发言人,而之前开源的SesameAILabs-CSM、HiggsAudio-V2等知名模型最多支持2人;可对24kHz原始音频实现3200倍...

网页链接

免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

举报

评论

empty
暂无评论
 
 
 
 

热议股票

 
 
 
 
 

7x24