实时语音交互：对话式多模态大模型的必经之路_老虎社区_美港股上老虎

实时语音交互：对话式多模态大模型的必经之路

图片

GPT-4o 自发布以来，支持端到端实时多模态成为国内外大模型厂商纷纷跟进的新方向，先是AI初创公司 Character.AI 表示其已经推出了一项通话功能，允许用户与其人工智能角色进行语音对话，并支持多种语言。微软 AI CEO Mustafa Suleyman 近日也表示，今年年底，微软的 AI 将拥有实时的语音界面，允许完全动态的交互。人与 AI 的实时音视频互动正在走进现实。

GPT-4o 支持实时语音对话，一方面得益于自身大模型能力的进化，端到端实时多模态模型能够直接处理语音，这与传统的三步骤处理方法（语音识别、语音转文字、文字转语音）相比，响应更加及时。另一方面，通过应用 RTC 技术，实现了语音的实时传输，进一步降低了语音交互的延时，RTC 也成为人与 AI 交互的重要一环。

图：电影《Her》里的剧情正在走进现实

实时语音互动：多模态大模型交互的终极形态

多模态大模型的出现，推动了人与AI交互方式的变革，而语音多模态将是其中的必经之路。现实中人与人的沟通就是以语音为主，视觉其次，视觉的重要性在于信息的丰富度，但是信息浓度和沟通效率还得靠语音。声网在实践中发现，传统的AI语音对话（STT-LLM-TTS）在应用 RTC 后，响应延时可从4-5秒降低到1-2秒，而在具备端到端实时多模态处理能力后，通过 RTC 技术，大模型实时语音对话的延时可降到几百毫秒内。

从体验上看，RTC 技术的应用让对话式大模型的交互更智能，更具真实感。一方面，低延时的快速响应让人与 AI 的互动更接近人与人之间的实时对话，更自然。另一方面，语音还能识别说话人的情绪、语调，视频能识别人的表情与所处的环境，最终输出更精准、更智能的回答。

可以预见的是，未来基于 AI 的人机界面从键盘、鼠标、触屏到实时对话的变革，语音将是必须走过的进化，实时语音互动也将成为未来对话式多模态大模型交互的终极形态。

大模型实时语音落地端到端实时处理能力与 RTC 是关键

多模态大模型实时语音对话想要落地，背后面临着一系列的技术难点。首先，对于大模型厂商而言，具备端到端实时语音处理的能力很关键，端到端模型的训练成本极高，尤其是处理语音与视频数据，面临大量计算资源，而计算过程往往会造成延迟，这对实时交互的需求造成了挑战，需要边接收语音边处理和解析，对于很多大模型厂商而言，这意味着需要研发更高效、更快的模型或者优化现有模型的运行效率。

其次，多模态大模型在接入 RTC 后如何保障低延时、流畅的语音交互体验也尤为关键。在GPT-4o 的发布会有一个细节，演示 GPT-4o 的手机插着一根网线，工程师 Mark 解释此举是为了保持网络的一致性，这也反应了一个事实，GPT-4o 的演示是在固定设备、固定网络和固定物理环境下进行，以确保低延时。而在实际应用场景中，用户的设备通常无法一直插着网线，这就对大模型实时语音对话中的低延时传输、网络优化等提出了考验。

图：GPT-4o的工程师 Mark 解释手机为啥要插网线

多模态大模型中实时语音交互的核心路径大致如下：

1、首先，语音输入经过 RTC 传输到服务器，服务器端的多模态大模型接收到语音后开始预处理，这里的预处理主要包含了音频的3A，例如语音的降噪、增益控制、回声消除等操作，使得后续的语音识别更加准确，让大模型更能听懂用户说的话；

2、随后，预处理的语音数据送入模型进行语音识别和理解，系统再通过模型生成回应，这其中还需要通过语音合成技术转换为语音信号；

3、最后，语音数据通过 RTC 传输到用户端，完成一次完整的语音交互。

图：大模型中实时语音交互的流程示例

整个语音交互过程中为了达到最低的延迟，很多环节需要进行优化。例如：

低延时传输：大模型输入、输出的音视频数据，需要做到低延时传输，以便大模型快速收到语音，生成回复后立即传递给用户，这其中可能还涉及跨国链路的传输，更考验延时；

网络优化：网络出现波动后会导致抖动、丢包等问题，实时语音对话就会产生卡顿、延迟高等现象，需要 RTC厂商采用有效的网络优化策略，抗弱网传输等；

多设备兼容性：现实场景中由于用户硬件设备的差异，不同的设备可能对于语音处理效果产生影响，性能相对差一些的设备可能会产生更高的延时，需要 RTC SDK 做到海量设备的兼容性，提供统一的低延时传输。

声网构建低延时、流畅的大模型实时音视频互动体验

声网一直在探索 RTC 与 AI 的结合，针对 STT-LLM-TTS 传统三步骤的大模型，声网的 AIGC+RTC方案可以将大模型的语音对话延时降低在2s 以内，并通过AI VAD、AGC、AINS 等实现语义完整性判断，支持随时打断，提高对话体验。

在端到端实时语音多模态的趋势下，声网也推出了实时多模态解决方案，帮助大模型构建实时音视频互动的能力，并实现几百毫秒的超低延时对话体验。

图：声网实时多模态解决方案

术业有专攻，声网基于在 RTC 领域日积月累的深耕细作以及自建的实时传输网络 SD-RTN™，可以做到全球端到端的网络优质传输，有效的解决大模型实时音视频互动中存在的技术难点。

全球端到端延时平均200ms：声网自研的 SD-RTN™ 实时传输网络覆盖了全球200多个国家与地区，音视频的全球端到端延迟平均达到200ms。同时，声网还通过优化网络传输协议和算法，进一步降低音视频传输的延迟，提供超低延时的大模型实时音视频互动体验。

智能路由与抗弱网传输：在大模型实时语音交互中，网络的波动会让交互体验大打折扣。声网 RTC SDK 采用的智能路由技术，能够根据用户的网络状况自动选择最优的网络路径，确保通话的稳定性和流畅性。声网还拥有一套抗弱网传输与抗丢包算法，结合网络探测（如延时估计、带宽估计等）、抗丢包技术、自适应jitter buffer、网络拥塞控制策略等，为用户在各种网络环境下提供流畅的互动体验。

30000+终端机型适配：由于不同的设备可能对于语音处理效果产生影响，声网的 RTC SDK 支持 30000+终端机型适配，中低端机型覆盖广，帮助大模型厂商解决了多设备兼容性的后顾之忧。

此外，围绕大模型的实时互动体验声网还有很多其他优势，例如前文中提到大模型在接收到语音后开始预处理，包含背景声降噪、回声消除等。声网拥有行业领先的音频3A能力，AI降噪强力抑制100+突发噪声，兼顾语音无损伤与混响抑制。AI 回声消除强力抑制非线性回声，还原本来音质，让大模型更能听懂人的对话。

对话式多模态大模型推动 AI 应用场景爆发

随着多模态大模型能力的进化，AIGC 应用场景将迎来爆发，RTC 技术的接入将推动当下较常见的 AI口语老师、AI客服、AI社交陪聊等场景的 AI 交互体验进一步升级，学生的学习效率更高，社交陪聊场景的娱乐性与沉浸感也进一步增强。

图片

同时，在游戏社交、AI分身、实时语音翻译等场景，对话式多模态大模型也大有可为。例如，在狼人杀、谁是卧底等场景，AI NPC 角色虽然已经在应用，但是 AI 的痕迹还是较为明显。在大模型具备实时语音交互能力后，谁是卧底中的 AI 角色可以做到快速的推理并发言，再搭配语音仿真技术，有望做到 AI 角色的以假乱真。

实时语音翻译：GPT-4o 的发布会演示了实时语音翻译的功能，在英语和意大利语之间无缝转换，据介绍ChatGPT 目前已能够处理50种不同的语言。业内很多人士认为，未来随着大模型实时语音翻译功能的落地，未来可能会取代 Google 翻译与同声传译：

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

推荐
最新

暂无评论