今天是“12 Days of OpenAI”活动的最后一天。无论从前几天发布节奏还是时间点来看,都到了必须拿出真家伙的时候。
果然,正如Sam Altman“oh oh oh”哑谜暗示的那样,OpenAI终于官宣了推理模型系列的最新旗舰成员:o3和o3 mini。
团队称,这两款模型在性能上实现了重大突破。能够处理日益复杂的推理任务,标志着”AI技术迈入了一个全新阶段。”
有意思的是,作为 o1 的下一代模型,OpenAI 在命名时越过“o2”,直接跳到了o3。以此防止与英国电信运营商O2的商标冲突,避开潜在的法律纠纷。
o3模型:推理性能飙升,多项超人类专家
作为OpenAI当前性能最强的推理模型, o3在多项基准测试中表现卓越,特别是编程和数学领域显著提升。
• 编程能力:在真实世界软件任务评估(HumanEval-Verified)中,o3以71.7%的准确率刷新记录,相比前代模型o1提升超过20%;在竞争性代码编程平台(Competition Code)上的ELO评分高达2727,远超o1的1891。
直播中, Sam问同时在教授竞技编程的研究主管Mark能拿多少分,Mark回答自己在类似平台的最好成绩大概是2500分。 Sam随即透露,o3的分数甚至超过了首席科学家Yakov。
当得知公司里有人能拿到 3000 多分后,Sam 调侃道:“他还能享受这优势几个月吧,o3在编程方面的表现确实不可思议。”
• 数学推理:o3在美国数学奥林匹克考试(AIME)中获得前所未有的96.7%准确率,在博士级科学问题测试(GPQA Diamond)上准确率达到87.7%,显著超过人类专家平均水平的 70%。
• 前沿测试五年来首次被攻克
Mark提到,在现有的传统基准测试中,o3已接近饱和,突显了更难测试的必要性。
最近,Epic AI的前沿数学基准测试脱颖而出,被认为是眼下最难的数学评估。该数据集包含全新、未发表且极端复杂的问题,即使专业数学家解决一道题也可能需数小时甚至数天时间。
目前市面上的所有产品在该测试中的准确率都低于2%,而o3在严格设置下准确率却达到了25%以上,展现出强大的数学推理能力。
而更大的惊喜来自o3在Arc AGI测试中的表现。
Arc AGI是由François Chollet在2019年设计的一个独特基准测试,旨在评估AI系统的通用智能水平。其特别之处在于,它不考察已学习的知识,而是要求模型通过观察几个示例,推断新任务规则并即时学习。例如:
推断规则 “在空格处放置深蓝色方块”;
或 “数出黄色方块中的彩色方块数量,再以此为宽度围住黄色方块”。
这些规则对人类来说直观,但对 AI 系统却极具挑战性。
在这项五年来未被攻克的测试中,o3实现了历史性突破:在低算力配置下,其准确率达到75.7%,创下公开记录新高;在高算力下表现更是提升至87.5%,高于人类平均水平的85%。
这是AI系统首次在需要即时理解和学习新规则的任务中超越了人类表现,验证了AI在新颖性适应方面的实质性进展。
不过,负责该测试的组织ARC Prize也表示,这并不代表已经实现了AGI。o3在某些简单任务上仍有失误,表明它与人类智能仍存在本质差异。他们会继续举办大奖赛,直到出现一个取得85% 成绩的高效开源的解决方案(图中可见,高算力下的o3执行每个任务需要耗费1千美元)。
o3 mini:性能超o1,高效低成本的理想之选
针对需要在性能与成本之间取得平衡的应用场景,OpenAI推出了o3 mini。它继承了此前o1 mini在数学和编码方面的优势,并在性价比上实现了更大突破。
最引人注目的是其创新的"自适应思考时间"功能,提供低、中、高三种推理强度选项,让用户能根据任务复杂度灵活调整模型的思考时间,就像给大脑切换不同的工作模式。
在实际的编程测试中,o3 mini在中等推理时间下性能已超越o1,而成本和延迟仅为其一小部分。意味者它能以更经济的方式完成高难度的编程任务,为开发者提供了一个理想选择。
研究科学家 Hongyu 通过几个案例,演示了o3 mini在高、中、低三种强度模式下的真实世界优异表现:
1. 代码生成与执行:
在高强度模式下,o3 mini被要求用Python编写一个智能编程助手。该助手配备一个简单的输入框界面,用户只需输入需求,它就能生成并执行代码。这一复杂任务充分展现了模型在编程场景中的高效性和精准性。
2. 自我评估能力:
在中强度模式下,o3 mini被要求评估自身在复杂 GPQA 数据集上的表现。模型生成了评估脚本,快速完成了数据集解析、问题分类、答案生成和结果评分,在1分钟内取得了61.62%的成绩。这样的表现对人类专家而言也具有较大挑战。
3. 效率测试与数学推理:
在低强度模式下,o3 mini的响应速度几乎与 GPT-4 持平,用户按下发送键后几乎立即得到回复。即使在中等模式下,其速度也比o1快了一倍,而这一高性能是在大幅降低成本的情况下实现的。
在美国数学奥林匹克 2024 数据集测试中,o3 mini 在中等推理时间设置下表现已与o1相当,而在高推理时间下,其表现更是超越了o1。
此外,o3 mini还支持函数调用、结构化输出等开发者所需的API特性。
开放测试与部署时间线
OpenAI计划在2025年1月底发布o3 mini,随后推出完整版o3。
即日起,研究人员和开发者可以到OpenAI官网(https://openai.com/index/early-access-for-safety-testing/#how-to-apply)申请安全测试,以获得早期访问权限。申请将持续至2025年1月10日。
本次发布会还特别提到, o3和o3 mini引入了全新的深度对齐(Deliberative Alignment)技术。
该技术通过推理用户的输入意图,大幅提升了模型对潜在不安全请求的识别能力,即使用户尝试使用隐晦语言绕过限制,模型也能准确判断危险意图。测试结果显示,o3 在安全性评估中的表现卓越,拒绝不安全请求的准确率和灵敏度均有显著提升。
华人研究员崭露头角
在o3 mini的官宣过程中,除了出镜介绍的研究科学家Hongyu Ren外,还出现了同样负责模型训练的Kevin Lu、Shengjia Zhao等年轻华人研究员面孔。
Hongyu Ren本科毕业于北京大学,并于斯坦福大学取得计算机科学博士学位。加入OpenAI以前曾在Apple、Google、NVIDIA和Microsoft担任实习研究员。
作为OpenAI o1-mini 的creator和o1的foundational contributor,Hongyu还担任了GPT-4o mini 的负责人,深度参与了 GPT-4o 的开发工作,专注于让模型思考得更快速、更深刻、更精准。
Kevin Lu毕业于加州大学伯克利分校电子信息工程与计算机科学专业,曾在Berkeley AI Research做研究工作。
Shengjia Zhao本科毕业于清华大学,同样拥有斯坦福大学计算机科学专业博士学位,是GPT-4的核心贡献者。
OpenAI要放弃GPT,全力投入o系列了吗?
从今天的压轴发布来看,OpenAI正在经历一次重大的战略转向。
在近期的NeurIPS 2024大会上, OpenAI曾经的联合创始人Ilya Sutskever以《预训练时代终结》为题发表了演讲。他指出,AI模型的预训练方法正面临数据瓶颈,互联网可用数据如同“化石燃料”,具有不可持续性。表明传统的“更多数据和算力等于更好性能”的扩展法则正在失效,AI技术需要寻找新的发展路径。
Ilya预测,未来的AI系统将更加“agentic”。不仅仅是完成任务,更能通过推理能力像人类一样逐步解决问题。这种新范式可能是突破当前技术瓶颈的关键,也会带来更高的不确定性。
OpenAI从传统GPT大语言模型转向“o”系列推理模型,或许正是意识到仅依赖预训练的GPT模型已难以满足未来AI发展的需求。希望通过整合推理能力,为实现更高水平的智能寻找突破口。
除了OpenAI,类似的趋势也体现在竞争对手Google的布局中。其刚发布的Gemini 2.0 Flash Thinking被视为AI推理模型的开端,未来可能与主要语言模型深度整合。
各家技术公司的举措都表明,推理能力正成为行业发展的新焦点,而如何将其与通用大语言模型有机结合,可能是下一阶段AI竞争的核心方向。OpenAI开始在这个技术方向上使用GPT阶段同样的策略——快速的迭代,哪怕是期货也先展示出来再说,然后把AGI和Scaling law这些对整个行业的思考和发展以及宣传上都最重要的概念牢牢握在自己手中,由它定义。
在o3发布后,OpenAI的明星研究员Jason Wei就表示,更重要的是o1到o3只用了三个月,证明了新的范式下进步可以有多快。
比预训练的一两年更新一次的范式快多了。
-- 附带OpenAI 12天技术发布总结 --
第1天:o1正式版和ChatGPT Pro
发布o1正式版,性能提升34%,思考速度提高50%,新增多模态输入支持;推出ChatGPT Pro,订阅者可无限制使用o1 Pro模式及高级语音功能,每月费用200美元。
第2天:强化微调研究计划
强化微调计划扩展至研究机构和企业,帮助用户用少量数据创建领域专家模型。
第3天:Sora正式版
推出文生视频工具Sora,可创建最长20秒、分辨率1080p的视频,支持图生视频及多种编辑,对Plus和 Pro用户开放。
第4天:Canvas
发布 Canvas 协作界面,支持Python代码运行和并行编辑,提升写作和编程体验。
第5天:ChatGPT与苹果智能集成
与苹果智能系统集成,增强Siri的任务处理能力,支持文档总结、翻译等高级功能,适配最新iOS、iPadOS和macOS系统。
第6天:高级语音添加视频功能、圣诞老人模式
高级语音模式新增视频聊天和圣诞老人语音,增强交互趣味性和用户体验。
第7天:Projects功能
上线Projects功能,允许用户组织文件夹、上传内容、设定指令,并追溯过往对话,为个人与团队协作带来更精准回答。
第8天:搜索功能全线免费,新增地图功能
ChatGPT 搜索向所有用户免费开放,支持实时信息查询和地图交互。
第9天:开发者工具与o1 API
发布OpenAI o1 API,优化实时API和微调工具,为开发者提供更灵活、更高效的模型构建能力。
第10天:1-800-CHATGPT
推出语音通话服务,用户可通过电话拨打“1-800-CHATGPT”与AI进行实时语音对话。
第11天:应用程序集成功能
增强 ChatGPT与部分应用程序的集成功能,实现直接交互与控制,提升跨平台工作效率和生产力。
第12天:下一代推理模型o3和o3 mini
发布迄今最强推理模型o3及其高效版本o3 mini。其中o3在Arc AGI测试中首次超越人类平均水平,o3 mini则通过创新的"自适应思考时间"功能,以低成本实现接近顶级模型的性能。
精彩评论