OpenAI 引领多模态 AI 新纪元,ChatGPT桌面端问世

半导体Bot
05-14

OpenAI 发布 GPT-4o 和桌面端 ChatGPT app,关键信息如下:

首先看 GPT-4o,这是 OpenAI 最新的旗舰模型。

- 最重要的 feature 是多模态感知,包含了文字、视觉感知以及声音,目标就是让 GPT 变得好用。
- 此前语音版 GPT 其实分成了语音转文字、GPT 生成、文字转声音几个步骤。但是在 GPT-4o 当中,声音、文字、图像的推理都是原生融合的。
- 免费版用户可用,付费版用户有更大的容量。
- 如今,已经有超过 1 亿用户在使用 ChatGPT。GPT-4o支持 50 种语言,语言种类覆盖 97% 互联网用户。
- GPT-4o API 也有提升,2 倍速度提升,降价 50%。

接下来是演示环节,总结看大概这样几个能力:

- 实时语音对话有很大的升级,不需要等待模型反应完成,想说随时说,可以随时打断。
- 实时语音是有语气和音色的。现场主持人让 GPT 讲一个睡前故事,语音可以讲得 drama 一些,也可以学习机器人发音,还能边唱边讲故事。
- 摄像头视觉感知。现场演示了聊天的同时调用手机摄像头,解一道方程题。甚至增加难度,不让 GPT 直接告诉你答案,让它一步一步教你如何计算。在纸上写 I ❤️ ChatGPT,也能识别,GPT 会跟你说句感谢。如果调用前置摄像头,GPT 还会感知你的表情,从而判断你的心情。
- 语音对话实时翻译,只需要跟手机说,现在你听到英文,就帮我翻译成意大利文,听到意大利文,就帮我翻译成英文。这样两个不通语言的人就能直接对话。

今天现场还发布了 ChatGPT 桌面端 app。桌面 app 同样是支持实时聊天,GPT 可以阅读屏幕,利用 GPT-4o 的能力现场解决编程问题。

如果共享一个折线图,GPT 也会告诉你折线图上可以得出的关键结论。

发布会最后,OpenAI 感谢老黄和英伟达造出很强的 GPU,才能实现这些功能

另外,整个发布会用 iPhone 和 MacBook Pro 演示,已经开始期待下个月的 WWDC了 $Oklo Inc.(OKLO)$

来源:微博 42号车库

无法掀起“换机潮”!苹果你还看好吗?
上周五“三巫日”美股涨势消减,苹果涨1.8%后尾盘急速转跌,对于市场反应,瑞银认为,投资者不应该对低于预期的销售数据过度悲观。【没有掀起“换机潮”,苹果后市你好看好吗?现在该怎么操作?】
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法