OpenAI 发布 GPT-4o 和桌面端 ChatGPT app,关键信息如下:
首先看 GPT-4o,这是 OpenAI 最新的旗舰模型。
- 最重要的 feature 是多模态感知,包含了文字、视觉感知以及声音,目标就是让 GPT 变得好用。
- 此前语音版 GPT 其实分成了语音转文字、GPT 生成、文字转声音几个步骤。但是在 GPT-4o 当中,声音、文字、图像的推理都是原生融合的。
- 免费版用户可用,付费版用户有更大的容量。
- 如今,已经有超过 1 亿用户在使用 ChatGPT。GPT-4o支持 50 种语言,语言种类覆盖 97% 互联网用户。
- GPT-4o API 也有提升,2 倍速度提升,降价 50%。
接下来是演示环节,总结看大概这样几个能力:
- 实时语音对话有很大的升级,不需要等待模型反应完成,想说随时说,可以随时打断。
- 实时语音是有语气和音色的。现场主持人让 GPT 讲一个睡前故事,语音可以讲得 drama 一些,也可以学习机器人发音,还能边唱边讲故事。
- 摄像头视觉感知。现场演示了聊天的同时调用手机摄像头,解一道方程题。甚至增加难度,不让 GPT 直接告诉你答案,让它一步一步教你如何计算。在纸上写 I ❤️ ChatGPT,也能识别,GPT 会跟你说句感谢。如果调用前置摄像头,GPT 还会感知你的表情,从而判断你的心情。
- 语音对话实时翻译,只需要跟手机说,现在你听到英文,就帮我翻译成意大利文,听到意大利文,就帮我翻译成英文。这样两个不通语言的人就能直接对话。
今天现场还发布了 ChatGPT 桌面端 app。桌面 app 同样是支持实时聊天,GPT 可以阅读屏幕,利用 GPT-4o 的能力现场解决编程问题。
如果共享一个折线图,GPT 也会告诉你折线图上可以得出的关键结论。
发布会最后,OpenAI 感谢老黄和英伟达造出很强的 GPU,才能实现这些功能
另外,整个发布会用 iPhone 和 MacBook Pro 演示,已经开始期待下个月的 WWDC了 $Oklo Inc.(OKLO)$
来源:微博 42号车库
精彩评论