智通财经APP获悉,OpenAI离AGI(artificial general intelligence,通用人工智能)似乎又更近了一步。上周五,在“OpenAI 12天活动”的第12天,OpenAI首席执行官萨姆·奥特曼宣布了其最新的人工智能“推理”模型o3和o3-mini,这两款模型是在今年早些时候推出的o1模型的基础上开发的。OpenAI声称,至少在某些条件下,o3模型可以接近实现AGI。
OpenAI在9月份推出了o1系列大模型,他们上周五推出o3系列,在命名上就越过了o2,没有遵循数字一样的连续命名方式。对于越过o2,有报道称可能是为了避免和英国电信运营商O2在命名上产生纷争。而在当天的直播中,萨姆·奥尔特曼承认了他们在命名上的不足,他表示基于OpenAI不太擅长命名的传统,新的大模型被命名为o3。
同9月份推出的o1系列大模型一样,OpenAI新宣布的o3系列大模型也有o3和o3 mini两款,不过尚未正式发布,o3 mini是预计会在明年年初发布。
从OpenAI方面公布的消息来看,o3大模型在测试中的表现明显强于他们之前推出的大模型,在部分测试中的表现已经达到了人类的水平。
在ARC-AGI测试中,o3在低推理能力设置下的得分达到了75.7%,是o1的3倍,在高推理能力设置下则是高达87.5%,超过了85%的人类门槛。
在数学推理及解决问题的能力方面,o3也表现不俗,在2024年AIME测试中,o3的准确率达到了96.7%。
在编码和软件工程方面,o3的能力较o1也有大幅提升,在SWE-Bench认证中,o3的得分为71.7%,较o1提升了22.8个百分点。
值得注意的是,有报道提到,在Codeforces的测试中,o3的得分为2727,比OpenAI首席科学家的得分还高。Codeforces是一家为计算机编程爱好者提供在线评测的网站,是一个面向程序员的在线竞赛平台。
除了OpenAI,各家AI公司近期也纷纷发布推理模型。
11月16日,月之暗面(Moonshot AI)Kimi推出新一代数学推理模型k0-math;11月20日,DeepSeek发布了首个推理模型DeepSeek-R1-Lite预览版;11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview。
在当地时间12月19日,谷歌也发布首个推理模型Gemini 2.0 Flash Thinking。它使用了类似o1模型的慢思维思考方式,可以深度可视化展示整个思维链过程,尤其是在执行数学、编程等复杂问题方面。相比o1,Gemini 2.0 Flash Thinking的最大差别是,让用户能看到一步一步推理的过程,更清晰、更透明地了解模型如何得出结论。它刚亮相就登上了Chatbot Arena大模型评估的榜首。不过,谷歌的这一新模型还处于实验性阶段,只是一个早期版本。
国金证券认为,从中美资本市场AI产业链的表现看,此前持续表现强劲的是上游,近期表现强势的是AI应用。从落地方向上看,综合考虑成本与付费能力,可能先行的是To B方向降本增效,生产力工具可能先行,然后是To C的大用户量工具、图文级别的社交娱乐类产品、海量的多媒体娱乐产品。展望未来,随着大模型使用成本持续下降、中文语言模型能力继续提升背景下,落地应用有望加速,中国企业有文化基础、数据积累、场景理解、工程应用、客情关系等优势,有机会形成自己的产业龙头。
申万宏源称,北京时间2024年12月21日,OpenAI在连续12发布会收官之日宣布了o3系列模型, 包括o3和o3 mini,较o1 模型再一次突破AI 极限。近阶段大模型启示:1)大模型进展从预训练端转变为推理端;2)大模型进入Agent爆发时代;3)利好推理端算力需求;4)应用方面围绕解决复杂任务能力的出现,利好科学研究、编程软件开发、办公软件、医疗健康、金融等领域。
港股相关概念股:
创新奇智(02121):公司“AI+制造业”的持续驱动力充足。公司从2023年开始,实施AI1.0和AI2.0双塔发展,AI2.0逐步推出ChatX系列垂类大模型的应用落地和预研,并在今年3月底发布了AnnoGC-75B工业大模型(750亿参数),在15B大模型的基础上增加了多模态。目前ChatX已包括ChatBI,ChatDoc,Chatvision,ChatCAD和Chatrobot等5大主要落地产品。公司9大细分领域覆盖公司的工业软件,数智软件,工业物流,智能装备和工业可持续五大场景,ChatBI已在食品饮料智造领域的工业软件和数智软件场景规模落地,ChatDoC和Chatvision在工业可持续场景规模落地。ChatCAD在CAD工业设计领域想象空间更大,通过大模型可以改写传统CAD设计模式,通过文字,语言直接进行CAD设计,大幅提升CAD设计效率,预计今年公司开始ChatCAD的落地实践工作。ChatRobot是大模型驱动工业机器人自动任务编排,驱动和实施工作部署,公司在大模型发布会上已做了现场演示,虽然还在预研验证阶段,但已初步具备工业应用的落地前景,潜力大。
百度集团-SW(09888):百度文心大模型截至2024年11月的日均tokens(token是大模型文本处理的最小单位)调用量超过1.5亿次,比一年前的5000万次实现了约30倍的增长,文心一言用户量达到7000万。
阿里巴巴-SW(09988):阿里云在5月初发布的通义千问2.5,得分就追平GPT-4 Turbo。目前,阿里已经投资了Minimax、月之暗面、零一万物、智谱AI、百川智能等国内主流大模型创业公司。
商汤-W(00020):公司在2024年的上交会上展示了其最新的医疗健康大模型——“大医”,这一模型代表了商汤在医疗AI领域的最新成果。在专业医学任务评测中,“大医”在检验检查问答、电子病历生成、线上问诊、导诊、随访、辅助诊断决策等多项医疗任务上的表现已超越GPT-4。
中兴通讯(00763):公司重视在人工智能领域布局与投入,凭借领先的软硬件数智基座能力,提供端到端的智算解决方案,包括智算基础设施、AI软件平台、大模型及应用,满足不同场景需求,助力企业数智化转型。
精彩评论