OpenAI周一发布了名为GPT-4o的新AI模型,该模型能够进行逼真的语音对话。OpenAI研究人员在一场直播活动中现场展示了该语音功能,用户能够与ChatGPT对话并获得实时响应,同时可以在ChatGPT说话时打断它,并且可以让ChatGPT当场改变表达情感。
下面视频是GPT-4o 即兴改变其讲故事时的情感语言的演示。注意到模型在被实时打断时是如何停止并调整其响应,几乎没有延迟。
这次发布的GPT-4o多模态模型和此前的GTP-4的多模态有很大不同。
GPT-4的语音聊天分为三步:
- 用Whisper模型将用户的语音输入转换成文字;
- 用GPT-4模型将文字输入转换成文字输出;
- 用TTS模型将输出的模型再转化成语音;
而GPT-4o则是一个原生语音模型。把上面三个步骤整合成了一步,从而实现了实时逼真的对话。
以下是他们在今天的直播公告中展示的令人印象深刻的实时翻译演示,展示了他们的首席技术官Mira Murati说意大利语并由GPT-4o实时翻译成英语。
OpenAI首席执行官Sam Altman在一篇博客文章中写道:“这感觉就像电影中的AI……与计算机对话对我来说从未感觉如此自然。”
精彩评论