图片 GPT-4o 自发布以来,支持端到端实时多模态成为国内外大模型厂商纷纷跟进的新方向,先是AI初创公司 Character.AI 表示其已经推出了一项通话功能,允许用户与其人工智能角色进行语音对话,并支持多种语言。微软 AI CEO Mustafa Suleyman 近日也表示,今年年底,微软的 AI 将拥有实时的语音界面,允许完全动态的交互。人与 AI 的实时音视频互动正在走进现实。 GPT-4o 支持实时语音对话,一方面得益于自身大模型能力的进化,端到端实时多模态模型能够直接处理语音,这与传统的三步骤处理方法(语音识别、语音转文字、文字转语音)相比,响应更加及时。另一方面,通过应用 RTC 技术,实现了语音的实时传输,进一步降低了语音交互的延时,RTC 也成为人与 AI 交互的重要一环。 图:电影《Her》里的剧情正在走进现实 实时语音互动:多模态大模型交互的终极形态 多模态大模型的出现,推动了人与AI交互方式的变革,而语音多模态将是其中的必经之路。现实中人与人的沟通就是以语音为主,视觉其次,视觉的重要性在于信息的丰富度,但是信息浓度和沟通效率还得靠语音。声网在实践中发现,传统的AI语音对话(STT-LLM-TTS)在应用 RTC 后,响应延时可从4-5秒降低到1-2秒,而在具备端到端实时多模态处理能力后,通过 RTC 技术,大模型实时语音对话的延时可降到几百毫秒内。 从体验上看,RTC 技术的应用让对话式大模型的交互更智能,更具真实感。一方面,低延时的快速响应让人与 AI 的互动更接近人与人之间的实时对话,更自然。另一方面,语音还能识别说话人的情绪、语调,视频能识别人的表情与所处的环境,最终输出更精准、更智能的回答。 可以预见的是,未来基于 AI 的人机界面从键盘、鼠标、触屏到实时对话的变革,语音将是必须走过的进化,实时语音互动也将成为未来对话式多模态大模型交互的