AIX财经
AIX财经认证媒体
老虎认证: 北京艾莉亚信息科技有限公司官方账号
IP属地:未知
0关注
3427粉丝
0主题
0勋章
avatarAIX财经
06-26 20:27

大模型榜单,能不能信?

图片 榜单分数高,却看不出谁更好用。 AIX财经(AIXcaijing)原创 作者 | 雷晶 编辑 | 金玙璠 大模型行业有一条潜规则:发布会可以迟到,但榜单战报绝不能缺席。一张漂亮的成绩单,已经成了新模型的标配。但这张成绩单,到底有多少含金量? 去年4月,Meta发布Llama 4 Maverick模型,在LMArena(原Chatbot Arena)盲测榜单上以1417分的ELO冲到第二名,仅次于Gemini 2.5 Pro。但很快,学术圈一篇题为The Leaderboard Illusion的论文揭开了内幕:Meta在发布前私下测试了至少27个模型变体,只公布了表现最好的那个。真正交到开发者手里的开源版本,排名从第2跌到了第32。更讽刺的是,Meta提交的“Llama-4-Maverick-03-26-Experimental”本身就是一个为对话风格专门优化的实验版本,回答冗长、堆砌表情符号,当LMArena开启“风格控制”过滤后,它直接从第2名跌到了第5名。 这并非孤例。类似的“登顶”“屠榜”消息,几乎每隔几周就刷一轮。今年5月,阿里通义千问Qwen 3.7-Max冲上全球编程盲测榜单Code Arena第二,在国产模型中排名最靠前;6月,阶跃星辰Step 3.7 Flash模型登上Artificial Analysis榜单输出速度第一,达到409 tokens/s,其他速度相关指标也排在前列。模型发布必配榜单战报,已经是固定动作。 榜单本应是用户挑选模型最直接的参考,但问题是,榜单排名的可信度正在受到质疑。 一个模型的推出,往往伴随着“榜单前几”“能力接近海外头部模型水平”这类话术来背书,用户的实际感受却是:各家模型的分数越来越高,“谁更好用”这个问题反而越来越模糊。 模型榜单还有参考价值吗?一个模型好不好用,到底该怎么判断? 01.一张榜单是如何诞生的? 我们
大模型榜单,能不能信?

Momenta闯关港股:拿下65%份额,年亏34亿

文章配图-1 智驾行业的故事进入下半场。 AIX财经(AIXcaijing)原创 作者|王汉星 编辑|魏佳 智能驾驶的港股IPO接力棒,这一次递到了Momenta手里。 6月23日,MOMENTA GLOBAL LIMITED(下称Momenta)通过港交所主板上市聆讯。这家成立10年,占据全球独立城市NOA解决方案65%市场份额的智驾龙头即将登陆港交所。 从财务数据看,2023年至2025年Momenta的营收从7.43亿元增长至24.13亿元,三年翻了三倍;毛利率从17.5%一路飙升至71.6%,这个数字甚至超过了不少科技互联网公司。 但另一组数据同样醒目,招股书报告期内公司的经调整净亏损收窄至3亿,累计研发投入46.6亿元、2025年研发支出占总收入的近8成。高额的研发投入,是智驾行业的普遍处境,Momenta也不例外。 过去一年,智驾行业经历了一轮洗牌,一些公司停摆,明星企业上市即破发,资金开始往头部集中,资本对中尾部失去耐心。Momenta创始人曹旭东曾给出过一个判断,汽车辅助驾驶竞争将在2026年结束,国内最终只会有三家参与者胜出。 站在2026年6月这个节点上,智驾行业的生存窗口正在缓缓关闭,Momenta抢滩港股储备弹药只是第一步,真正的挑战在上市之后。 01.份额增加,经调整亏损收窄 曹旭东毕业于清华大学,在2016年创办Momenta之前,曾就职于微软亚洲研究院,担任计算机视觉组研究员,随后又加入商汤科技一路做到研发总监。 2018年,Momenta曾被誉为“中国首个自动驾驶独角兽”。 公司主要作为独立第三方为量产车提供智驾解决方案,早期收入来自为客户定制开发智驾方案的技术服务费,后期随着更多车型进入量产阶段,基于销量的许可费收入占比逐步提升。 Momenta此次IPO的联席保荐人为中金公司、德银,在目前的港股市场上暂时还没有主业与规模和Momenta相
Momenta闯关港股:拿下65%份额,年亏34亿

AI支付:微信、支付宝忙铺路,Agent还在学走路

图片 谁先把规则焊死,谁就收过路费。 AIX财经(AIXcaijing)原创 作者 | 王璐 编辑 | 魏佳 近期,“AI支付”突然从概念变成巨头的正面竞争。 先是京东在6月11日发布国内首个面向智能体的自主支付协议——A2P2协议,把“Agent怎么被授权、链路怎么审计”等内容写成规则;紧接着支付宝在6月16日做出“史上最大改版”,AI版支付宝启动邀请码内测,挂号、医保码、点单、比价都能通过和阿宝对话驱动;间隔不到一天,微信支付推出“AI专属卡”,用户可以在Agent对话中提出消费需求,由智能体完成推荐、下单和支付流程,该功能已支持在腾讯的桌面智能体产品WorkBuddy中使用。 三家巨头在同一时间点押注“AI支付”,但先别激动,综合「AIX财经」的实测和从业者的分析,AI支付仍然卡在辅助决策与代执行的夹层里,离真正的Agent自主付费尚有距离。支付宝跑通了流程,却仍须用户手动按下确认;微信实现了闭环,却是以限制主账户权限、将资金锁死在“额度”中为代价。 那么问题来了,国内外押注AI支付的不同路线,分别走到哪儿了?AI支付还远未成熟,支付宝和微信为什么急着现在就下场? 01.国内外AI支付的四种形态 “让AI代理触发交易”的想法最早出现在海外,2024年11月,支付巨头Stripe发布Stripe Agent Toolkit,一个Agent工作流里的支付插件,证明了AI支付闭环的可行性。但真正把这一流程打到C端场景里的,是国内的支付宝,2025年外滩大会上,其正式推出“AI付”,并率先落地在瑞幸咖啡AI点单助手Lucky AI上,实现了智能体从下单至支付的全链路打通。 近两年,国内泛“AI支付”类产品大批量出现,可大致拆为四种形态。 第一类:AI掌握整个付款链路。 这是目前业内认为唯一称得上“AI支付”的形态,代表产品是支付宝×瑞幸的Lucky AI、微信支付侧的AI专属
AI支付:微信、支付宝忙铺路,Agent还在学走路

曹操出行的RoboX战略,让AI进入物理世界

曹操出行在2026香港车博会上宣布正式启动全面AI转型,并发布全新RoboX战略,打造全球领先的物理AI移动科技平台,构建覆盖Robotaxi、Robovan等多元场景的智能运力体系。
曹操出行的RoboX战略,让AI进入物理世界

AI“接管”世界杯:看球、判球、猜球,哪个更靠谱?

文章配图-1 带你看懂AI含量最高的一届世界杯。 AIX财经(AIXcaijing)原创 作者 | 雷晶 编辑 | 金玙璠 四年一度的世界杯,又来了。这一届还加了一个前缀——首届AI世界杯。 回看过去几届世界杯,每一届都有技术迭代。2014年巴西世界杯,首次引入门线技术,解决了困扰足坛半个世纪的“幽灵进球”争议;2018年俄罗斯世界杯,首次启用VAR(视频助理裁判),裁判第一次可以走到场边看回放;2022年卡塔尔世界杯在VAR基础上加入SAOT(半自动越位技术),算法开始替代人眼画越位线。 而2026年的美加墨世界杯,科技元素更是“拉满”。SAOT升级并接入3D数字人可视化、官方用球内置500Hz芯片、裁判佩戴的RefCam经AI防抖增强后首次接入全球直播、Football AI Pro生成式战术平台向全部48支球队开放。 AI直接融入了看球、判球、猜球等多个环节。它改变了球迷看球的方式,改变了裁判判球的方式,也改变了人们猜球的逻辑。 但球赛的重点还是要好看,让观众爱看。官方把这界世界杯包装成科技盛宴,可AI的介入,真的会让足球变得更好看吗? 01.转播平台押注AI:拉新容易,留存难 球场很大,球迷很多。过去那么多年,技术突破的方向一直是,让屏幕前的人离球场更“近”一些,让画面更大,色彩更准,细节更多。 1970年墨西哥世界杯,卫星信号加彩色画面让全球球迷都能看见绿茵场的颜色;2010年南非世界杯,上线了3D直播;2022年卡塔尔世界杯,4K超高清成为标配。到了2026年,主裁判佩戴的AI实时防抖摄像头首次接入全球转播信号,观众可以切换到裁判的第一视角。 与此同时,本届世界杯,AI开始解决另一个问题:让人看懂。 三大转播平台给出了不同的AI玩法。 咪咕的AI-Zone依托计算机视觉实时识别场上球员,可追踪跑动数据、一键锁定球星专属跟拍机位,用热力图、轨迹线直观呈现赛场数据。
AI“接管”世界杯:看球、判球、猜球,哪个更靠谱?

AI音乐混战,谁能成为“中国版Suno”?

文章配图-1 三类玩家,各有活法。 AIX财经(AIXcaijing)原创 作者 | 李梦冉 编辑 | 魏佳 2026年6月初,AI音乐赛道又传出一则重磅消息:Suno宣布完成4亿美元D轮融资。 距离上一轮融资仅七个月,Suno的投后估值就翻了一倍多,达到54亿美元,稳坐全球AI音乐第一独角兽的位置。 这是一个耐人寻味的时间节点。自2024年,Suno就深陷版权诉讼,环球音乐、索尼、德国音乐版权协会指控其未经授权使用受版权保护的录音作品训练AI模型,诉讼涉及的曲目数量从最初的560首,一路增加到2026年5月时的超过6.1万首。虽然华纳已经率先和解,但截至2026年6月,Suno与环球音乐、索尼音乐的诉讼官司尚未结案。 资本市场却有着自己的判断,Suno估值飙升,说明AI音乐这一赛道,已经被认定为不可忽视的未来。这个判断有着数据支撑,CISAC(国际作者和作曲者协会联合会)曾在2024年底就预计,未来五年,人工智能生成的音乐和视听内容全球市场将增长20倍,收入规模2028年将达640亿欧元。 国内AI音乐的战场同样热闹。字节跳动、腾讯音乐、网易云音乐纷纷入场,昆仑万维推出Mureka,DeepMusic、自由量级等垂直创业公司则在更细分的场景里找站位。关于谁是“中国版Suno”的讨论,也从来没有停过。 热闹之下,AI歌曲数量正以惊人速度膨胀。流媒体平台Deezer数据显示,2026年4月每天新增的AI歌曲接近75000首,占其每日新增投稿的44%,从1月的日均1万首飙升至7.5万首,但这些AI歌曲的播放占比仅为1%到3%。 数字一边狂飙,播放一边遇冷,AI音乐是不是“虚假繁荣”?国产玩家中,谁最有可能成为下一个Suno? 01.国内AI音乐:三类玩家,三种活法 过去一年,腾讯音乐、网易云音乐、字节跳动、昆仑万维、MiniMax等集体入场。 入局者各有各的目的,有人把AI音乐
AI音乐混战,谁能成为“中国版Suno”?

过来人口述:快被AI取代的专业,还值得报吗?

文章配图-1 理想与现实,被AI重新衡量。 AIX财经(AIXcaijing)原创 作者 | 金玙璠 陈丹 王璐 李梦冉 王汉星 编辑 | 李梦冉 2026年高考已经结束,关于报志愿的疑问开始刷屏。 “什么专业毕业就能躺赢?”“学计算机还能不能进大厂?”“金融是不是真的不行了?”“普通家庭的孩子可以去学艺术吗?”......类似的问题,每年都会出现。但今年有点不一样,AI不是新闻里的概念了,它真的在改写各行各业的运行规则。 「AIX财经」和五位身处不同行业的过来人聊了聊。他们中有从清华中文系跨界到AI创业的CEO,有北京房山区状元、做到过腾讯影业副总裁的制片人,有在金融科技领域干了十几年的老兵、在大厂一线写代码的软件工程师,以及既要审上市公司合同、又要应对AI冲击的律师。 他们的答案不太一样,各有侧重。有人劝你学算法、往技术深处走,有人推荐哲学、历史,能锤炼思维;有人说能上顶尖名校,专业就没那么重要,有人强调未来拼的是“技术+业务”的复合能力;还有人对自己干了多年的行业直言,“除非真热爱,否则慎报”。 但有一点他们说得一致:别再把专业当成护身符了。 时代变了,AI来了。那些曾被视作“金饭碗”的行业,都不约而同被AI重构。过去那些靠重复执行、靠信息差吃饭的技能正在快速贬值,真正能陪你适应这场变化的,是你的思维方式、行动力和重新理解世界的能力。 五位过来人,五条不同的路。五个关于“现在还能不能报”的现身说法。 以下是他们的故事。 01.“哪个专业就业率高就报哪个”,这叫刻舟求剑 Neil|北京 45岁 某AI创业公司CEO 1999年高考,中文专业 我当年高考,报的是清华大学的中文专业,纯粹是因为喜欢。 后来在科技行业干了二十多年,从外企到国内大厂,做过硬件、电商、云计算,最后负责大模型业务的市场。去年出来创业,做AI应用。有一天我突然意识到:当年在中文专业学的那些知识,全都闭
过来人口述:快被AI取代的专业,还值得报吗?

Anthropic“狼来了”:喊停的人,跑得最快

图片 递表、喊停、上新,十天之内完成。 AIX财经(AIXcaijing)原创 作者 | 陈丹 编辑 | 魏佳 向SEC秘密递交了IPO文件三天后,Anthropic突然抛出一篇万字长文,呼吁全世界为前沿AI开发准备一个“刹车”。又过了五天,它上线迄今最强的模型Claude Fable5,同时发布不设限版本Mythos5。 递表、喊停、上新,都发生在十天内。 这篇6月初发表的文章名为《When AI Builds Itself(当AI开始构建自身)》,由Anthropic研究负责人Marina Favaro与政策负责人、联合创始人Jack Clark共同执笔。其核心概念是“递归自我改进”,即AI几乎无需人类介入,就能自行设计、训练并升级出下一代自己。 过去几年,AI流行的风险被视为“AI替代人”。Anthropic这一次把问题往前推了一层,当AI开始替代AI研究者,技术进步就不再只是线性加速,而可能进入自我加速。 另一家AI巨头OpenAI,也加入了这场刹车讨论。 6月8日,OpenAI发布由首席执行官Sam Altman与首席研究官Jakub Pachocki联署的战略愿景文件,提出应建立一个国际组织,协调全球领先AI开发,并在必要时“放缓前沿开发”,让社会韧性、安全和对齐研究跟上技术进步。 一边是估值逼近万亿美元、冲在公开市场最前面的赛车手;一边是提醒全世界“我们手里只有油门,没有刹车”的吹哨人。两种身份,集于一身。 于是问题来了:这究竟是发自良知的警告,还是领先者在为下一程竞争,提前划赛道规则? 01.Anthropic到底在怕什么? Anthropic这篇长文最令人不安的地方,是它把风险的发生地,从外部世界拉回到了AI公司内部。 在Anthropic内部,一个人资历越深,接到的任务就越开放。打个比方,新人的任务如果是“导出按钮坏了,修一下”;那么资深员工则要查清“为
Anthropic“狼来了”:喊停的人,跑得最快

Anthropic发了“最强模型”,但大多数人用不上

图片 最强模型也最贵。 AIX财经(AIXcaijing)原创 作者 | 雷晶 编辑 | 金玙璠 4月,Anthropic推出Mythos模型预览版。这个模型没有面向公众开放,因为在测试中它展现出极强的网络安全与漏洞挖掘能力,能自主发现数千个高危零日漏洞,一旦流出,容易被用于恶意攻击。 为了把这种能力锁定在防御场景内,Anthropic推出了玻璃翼计划(Project Glasswing),仅向苹果、谷歌、微软等12家核心安全伙伴及40余家关键基础设施提供商开放访问权限,并全程受控使用。 先锁起来再发布,这套操作本身就制造了话题。 两个月后,北京时间6月10日凌晨,Anthropic正式推出Fable 5和Mythos 5。 从跑分来看,它们几乎在所有基准测试中拿到了最高分,尤其在软件工程和长任务执行上,与其他模型拉开了明显差距。 但围绕这个模型的讨论,很快就不止于它有多强。 Fable 5和Mythos 5实际上共享同一个底层模型。区别在于,Fable 5面向普通用户,Mythos 5则继续锁在受信任的安全合作伙伴手中。同一个模型,两套规则,面向两个群体,这在Anthropic的产品线里是第一次。 而且,普通用户拿到的也并非完整版本。Anthropic在Fable 5外层加了一道安全分类器,一旦请求触及网络安全、生物化学、模型蒸馏等敏感方向,系统会自动切换到能力更弱的上代模型Opus 4.8响应。 定价同样值得注意,输入10美元、输出50美元/百万Token,官方称约为Opus 4.8的两倍。6月23日起,Fable 5还将从Pro、Max等订阅计划中移出,用户想继续使用,需要额外消耗credits。 这套组合拳拆开来看很合理。能力太强所以做安全限制,成本更高所以提价,风险敏感所以分级发布。但放到一起,释放的信号就变得微妙了。这和过去几年大模型公司拼速度、拼开放的竞争逻辑
Anthropic发了“最强模型”,但大多数人用不上

Siri AI来了:苹果的身体,谷歌的大脑

文章配图-1 用谷歌的大脑,保苹果的江山。 AIX财经(AIXcaijing)原创 作者 | 王璐 编辑 | 魏佳 北京时间6月9日凌晨1点,苹果WWDC26全球开发者大会(以下简称苹果开发者大会)准时开场。 这场大会之所以受关注,除了内容,还有时机。库克即将于9月1日正式卸任苹果CEO,由硬件工程高级副总裁约翰·特努斯接任。这是自2011年库克接替乔布斯以来,苹果首次CEO换届,也意味着这很可能是库克以CEO身份最后一次站上开发者大会主题演讲舞台。他要交出的,是苹果拖延了整整两年、被反复质疑的AI答卷。 这份答卷的核心,是Siri。全新的Siri有了独立APP,能读取用户手机屏幕上的内容,还能完成跨应用操作,是一个具有系统级权限的Agent。 但在本次开发者大会上,一个关键事实也被正式确认。驱动Siri AI完成复杂推理的“大脑”,非苹果自研,而是向谷歌定制的Gemini。 这意味着,苹果把推理层“外包”,用“入口与调度权”换“足够聪明的模型”,先保住生态上的不断裂。但质疑也随之而来,耗时两年的Siri AI为何没有与竞争对手拉开差距;隐私安全性为何从“数据留在设备上”变成需要被证明的远程承诺;国行版Siri AI何时推出…… 面对产品的种种不完善,本次亮相的Siri AI,像极了苹果在Agent时代开启前的一次豪赌。它押上的,是苹果的AI信用,以及库克交接前的最后一份成绩单。 01.Siri AI来了,大脑来自谷歌 本次的苹果开发者大会持续一个半小时,内容主要落在两条线上。一条是全平台底座的常规迭代,包含Liquid Glass视觉层、动效与响应优化、启动提速,以及儿童账户/家长侧控制这类跨设备安全框架;另一条,也是唯一配得上“主打”二字的,是作为iOS 27升级重点的Siri AI。 文章配图-1 苹果对Siri进行了从里到外的重构,变化体现在两方面。 交互层面,从“
Siri AI来了:苹果的身体,谷歌的大脑

腾讯、阿里、字节,混战Skill商店

图片 大厂争夺下一个App Store。 AIX财经(AIXcaijing)原创 作者 | 雷晶 编辑 | 金玙璠 Skill正在成为AI领域最热门的关键词之一。 Skill,可以理解为给AI Agent的“操作手册”。它是一份结构化的指令文件,里面写清楚了该调用什么工具、遇到什么情况如何判断、最终按什么标准输出结果。Agent读取这份文件,就能按照预设的路径执行任务。 打个比方,一个资深产品经理可以把自己写产品需求文档的全套流程封装成一个Skill,任何人的Agent装上它,就能按同样的框架输出一份规范的需求文档。 随着Skill数量增加,分发平台随之出现。最早承担这个角色的是GitHub、ClawHub等开发者社区,Skill的上传、搜索和下载都在技术社区内完成。 大厂也在快速跟进。今年3月,腾讯、阿里、字节先后在自家Agent平台上线了Skill商店。此后两个月,智谱、美团、小红书接连入场。互联网大厂、大模型公司、本地生活巨头,甚至内容平台,都在争夺这个入口。 Skill商店争夺战的本质,是AI时代流量入口的卡位,谁掌握分发权,谁就掌握用户。 但除了字节扣子试水了Skill付费,其余平台上挂的都是免费版。不赚钱的“商店”,各家为什么还要抢? 01.三类玩家,各怀心思 谁在下场?Skill商店为什么值得抢? 回答这个问题之前,先看一个已经跑通的模型。 在移动互联网时代,苹果的App Store不只是靠30%的下载抽成赚钱,更核心的价值在于:开发者为了进入iOS生态而开发应用,用户为了使用这些应用而留在iOS生态,进而持续在生态内消费:购买iCloud、订阅Apple Music、在应用内付费。分发权是入口,生态消费才是收入来源。 Skill商店争的是同一个逻辑。用户习惯在哪里获取Skill,就留在对应的生态里消费服务。区别在于,移动互联网时代这个逻辑已经验证,而Skil
腾讯、阿里、字节,混战Skill商店

身价13亿美元的OpenRouter,国内学不了?

AI中转站,技术门槛不高,但想合规很难。 AIX财经(AIXcaijing)原创 作者 | 王璐 编辑 | 魏佳 你日常用Cursor写代码,用ChatGPT建界面,但你可能不知道,这些调用背后,有一类平台正在悄悄抽佣。它们什么模型都不做,只负责把各家大模型的接口打包在一起,让开发者通过一个入口自由调用全球的大模型。这就是AI中转站,也叫API聚合平台。 2026年5月以来,这门生意快速升温。 海外最大的API中转站OpenRouter,近日宣布完成1.13亿美元B轮融资,由谷歌母公司Alphabet旗下成长基金CapitalG领投,英伟达NVentures等知名风投机构跟投,原有股东a16z和Menlo Ventures也继续加码支持。完成融资后,OpenRouter估值飙升至13亿美元,相比一年前的5.47亿美元翻了一倍多。业务发展方面,OpenRouter目前每周处理的tokens数量达到25万亿个,折合每月约100万亿tokens,相比半年前暴涨了5倍,其全球用户数量也已超过800万。 国内也有人开始盯上这门生意,猎豹移动CEO傅盛宣布上线EasyRouter,网易有道正式发布了大模型聚合平台ThinkFlow。 但想在国内复制OpenRouter的生意并不容易,不仅要搭建稳定的接口服务、兼容各种大模型格式,还不得不直面一个现实:很多海外主流模型,从注册、付费到调用,都对国内用户设置了门槛。 更为复杂的是,由于AI中转站缺乏明确的监管体系,哪些可做、哪些踩线,往往没有清晰界限,参与者鱼龙混杂,产生了一系列乱象。 国内的OpenRouter们,还在寻找答案。 01.AI中转站,是怎么赚钱的? AI中转站商业模式的核心在于抽佣,而收入的增长速度十分惊人。以行业头部平台OpenRouter为例,其年化收入从去年10月的约1000万美元,猛增至2026年4月的超5000万美
身价13亿美元的OpenRouter,国内学不了?

Anthropic估值万亿,但Claude 4.8没那么惊艳

图片 小版本迭代,试验属性强。 AIX财经(AIXcaijing)原创 作者 | 王璐 编辑 | 魏佳 Claude再次成为焦点。 5月29日凌晨,AI行业又上演了一场“深夜突袭”。美国大模型公司Anthropic正式发布Claude最新旗舰模型Opus 4.8,并同步宣布完成H轮650亿美元融资,投后估值高达9650亿美元。在不到三个月的时间里,Anthropic的估值增长约154%,正式超过竞争对手OpenAI。 本次模型更新,覆盖编码、智能体任务、推理与知识工作等核心能力,其中重点提升了模型的“诚实度”,并新增了支持大规模复杂任务并行处理的“动态工作流”功能。 然而,若仅从功能列表来看,很容易高估此次发布的意义。实际上,Opus 4.8并没有带来架构层面的颠覆性突破,从业者一致认为其属于“渐进式进步”。 但本次发布也传递出一个明确信号:大模型的竞争重心,正从技术突破,转向谁更可靠、更好用、性价比更高。 这种转向,也体现在Claude的迭代节奏上,Opus 4.8距离上一版本Opus 4.7的发布仅43天。快速的更新速度,既是大模型竞争白热化的缩影,也反映了Anthropic当前的处境。它必须以更快的节奏,同时向开发者、企业客户与资本市场证明,Claude值得信赖。 01.进步有限,“诚实”是最大亮点 先看官方发布的Opus 4.8成绩单。 在编程、多学科推理、金融分析等主流基准测试中,Opus 4.8的得分全面超越前代Opus 4.7,也压过了竞争对手GPT-5.5。但有一个细节值得关注:在最贴近开发者真实工作流的“终端编码”测试(Terminal-Bench 2.1)中,Opus 4.8以74.6%拿下本次所有单项测试中最大的提升幅度,但仍落后于GPT-5.5的78.2%。 图片 不过,这个差距在实际使用中的影响,可能比数字看起来要小。 资深开发者张钰枢告诉「AIX
Anthropic估值万亿,但Claude 4.8没那么惊艳

6个电子牛马替我上班,腾讯马维斯好用吗?

文章配图-1 人设拉满,能力待定。 AIX财经(AIXcaijing)原创 作者| 雷晶 编辑| 金玙璠 每个打工人都想过,能不能找个替身,不偷懒、不顶嘴、还能帮自己把活干了? 5月20日,腾讯上线了AI助手马维斯(Marvis),Windows、Mac、安卓三端同步开放下载。它由六个AI Agent组成,一个主管Agent负责理解需求、拆解任务,五个专项Agent分别负责文件管理、系统设置、应用操控、网页交互和信息搜索。 造型上,六位“员工”都是顶着牛角、围着企鹅围脖的黑色小马。应用内还配了间虚拟办公室。没活的时候,它们会在工位打盹、去健身、端着咖啡闲逛,把“牛马”人设拉满。 人设是立住了,但电子牛马到底能不能替打工人分担工作呢? 我们决定当一回赛博老板,模拟打工人会遇到的六类场景,把任务丢给马维斯,看看它的表现。 接下来,请看电子牛马的一天。 01.定时任务:简单推送没问题,发文件掉链子 打工人的一天,先从刷新闻开始。 与其自己挨个网站翻,不如直接让电子牛马上岗。我们让它每天上午9点推送当天的科技新闻热点。设置的过程很简单,告诉它你的需求和时间间隔就能搞定。 定时任务设置页面 推送的视觉呈现比较朴素,但该有的都有,基本涵盖了当天的热点,每条附上了信息来源,还做了简单的总结。作为一个帮你几分钟了解今天发生了啥的工具,够用。 推送情况动图 尝到甜头之后,我们开始加码。除了推新闻,能不能帮我干点正事? 定时任务很适合用来发周报,这可是打工人的刚需,谁不想到了周五下午,周报就自己“飞”出去了呢? 于是我们让它每周五下午6点半帮发工作周报。马维斯发送邮件前需要层层授权确认,这点让人比较安心。 到点了,周报确实准时发出去了。但问题也跟着来了,它不仅没有发送电脑桌面上的周报文件,而且实际发出去的文件也根本打不开。 发送的周报文件错误 看来,简单的定时推送没问题,但涉及到文件操作的任务
6个电子牛马替我上班,腾讯马维斯好用吗?

SpaceX值2万亿美元,中国同行该哭还是该笑?

图片 资本市场买的,是马斯克的下一次奇迹。 AIX财经(AIXcaijing)原创 作者 | 陈丹 编辑 | 魏佳 2026年5月20日,太空探索技术公司(以下简称SpaceX)的招股书正式在SEC公开。这家成立24年、长期停留在私募市场、靠火箭直播和马斯克宏大叙事维持热度的公司,财务数据终于第一次完整摆在了公众面前。 这不是一家普通科技公司的IPO。 SpaceX计划通过此次上市募资700亿美元至800亿美元,目标估值达1.75万亿至2万亿美元,预计于6月12日在纳斯达克挂牌。如果顺利完成,它将成为美股史上首家上市估值突破万亿美元的公司,也可能创造人类历史上最大规模IPO。 被推上台前的,是一家2025年全年营收186.7亿美元、净亏损49.4亿美元的公司。它拥有约9600颗在轨卫星和1030万星链订阅用户,2026年第一季度单季资本开支已突破100亿美元。 值得注意的除了数字本身,还有SpaceX正在向资本市场讲述一个什么样的故事。 从招股书来看,SpaceX已经不再把自己定义为一家火箭发射公司。它被归类于“计算机编程与数据处理服务”,业务边界也从火箭发射、卫星互联网,延伸至AI、X平台、Grok、轨道数据中心,甚至火星城市与多星球文明。矛盾也在这里,SpaceX已经把火箭回收、卫星互联网、载人航天都做成现实的公司,这些成就已经被反复验证过,但它这一次要向市场出售的,仍然是一个还没有落地的未来。 这份招股书,对中国正在排队冲刺资本市场的商业航天公司而言,同样是一道难题:当全球最大的参照物把“火箭+卫星+AI+社交数据”打包成一个2万亿美元的故事,中国的“学徒们”该用怎样的故事为自己定价? 01.星链负责挣钱,AI负责烧钱 外界对SpaceX最熟悉的印象,是火箭。猎鹰9号的回收、星舰试飞、发射台上的爆炸与成功,是这家公司过去二十多年最具传播力的画面。 但翻开招股书,会发现
SpaceX值2万亿美元,中国同行该哭还是该笑?

“打折”卖机器人冲进前四,乐聚智能要上市了

图片 亏损逐年扩大,盈利至少等到2028年。 AIX财经(AIXcaijing)原创 作者 | 王汉星 编辑 | 魏佳 两天之内,连续两家头部具身智能公司公开招股书,在上市热潮的背后,行业最真实的一面也被越来越清晰地呈现在所有人面前。 5月19日,深交所受理乐聚智能(深圳)股份有限公司(下称乐聚智能)创业板IPO申请,这也是首家选择使用创业板第四套标准申请上市的企业。 乐聚智能成立于2016年,成立之初以基础编程教育为市场切入点,推出首款小型人形机器人产品,随后在2018年开始涉足全尺寸人形机器人。 这家公司招股书中最显眼的一组数据是,2025年公司全尺寸人形机器人Kuavo(夸父)系列卖出577台,相比2024年的32台,销量涨了17倍。 销量上升让乐聚智能在这一年迈入了具身智能行业的第一梯队。Omdia和Counterpoint Research的2025年销量报告中,均把乐聚智能排在了全球第四,前面是宇树、智元、优必选。 但硬币的另一面是,夸父系列产品的平均售价在2025年同比下降了25.56%。 乐聚智能在招股书里给出的解释是,公司为巩固并提升产品的市场竞争力,实施积极的市场化定价策略,主动下调了Kuavo系列产品的售价。 2025年被认为是具身智能的商业化元年,而这恰恰是一份典型的具身智能商业化元年“应试”成绩单,销量爆发、收入翻倍、市场份额冲进全球前列,但毛利率连续两年下滑,亏损反而扩大。 现在留给投资者最大的问题是,这是规模化前夜必要的代价,还是一场以价换量的赌局? 01.七五折卖机器人,销量暴涨17倍 创业板第四套标准要求,上市公司预计市值不低于30亿元,最近一年营业收入不低于2亿元,并且最近三年营业收入复合增长率不低于30%。 乐聚智能正好完美符合这一要求。 招股书显示,乐聚智能最近一次融资的投后估值为43.27亿元,综合考虑同行业可比上市公司估值情况,公
“打折”卖机器人冲进前四,乐聚智能要上市了

谷歌最新发布会:没发最强模型,开卷Agent全家桶

图片 不拼参数了,想要AI帮你干活。 AIX财经(AIXcaijing)原创 作者 | 雷晶 编辑 | 金玙璠 北京时间5月20日凌晨,2026 Google I/O开幕。从2008年首次举办至今,这场大会已成为谷歌每年“秀肌肉”的主要舞台。 而它之所以值得行业关注,在于它作为科技巨头的技术秀场,能一定程度上反映行业未来的走向。 回到本届大会,近两个小时走完全部议程,发布节奏极密,几乎不留间隙。 谷歌CEO桑达尔·皮查伊在开场抛出一个数字:3200万亿Token。这是谷歌全平台每月的AI处理量,两年前这个数字是9.7万亿,去年是480万亿,一年翻了近七倍。这个数字说明,谷歌的AI产品在被大规模使用。 先来拉一张清单,看看这场发布会到底讲了什么: 模型:Gemini 3.5输出速度为同类产品的四倍、成本不到一半,成为Gemini App和搜索的默认引擎;Gemini Omni支持图文音视频混合输入,生成可编辑视频,支持指定镜头和拍摄角度,通过Gemini App和Google Flow使用。Gemini 3.5 Pro预计6月发布,目前处于内测阶段。 搜索与购物:搜索框迎来25年来最大改版,支持多模态输入,可输入文本、图片、视频、文件;Universal Cart打通搜索、YouTube、Gmail的AI购物车,Nike、Walmart等首批接入。 智能体:Gemini Spark作为24小时个人Agent,云端运行;Antigravity 2.0升级为多Agent编排平台,全面摆脱coding场景局限,和Claude Code以及Codex直接竞争。 硬件:Android XR音频眼镜今秋上市,由三星制造,兼容iOS,联合眼镜品牌Gentle Monster和Warby Parker共同设计;纯音频版本今年秋季率先推出,带显示屏的版本将于明年推出。 订阅:新增100美元/月
谷歌最新发布会:没发最强模型,开卷Agent全家桶

跟宇树一比,云深处太贵了?

图片 营收仅宇树五分之一,估值倍数贵了约60%。 AIX财经(AIXcaijing)原创 作者|王汉星 编辑|魏佳 宇树科技最大的竞争对手之一要上市了。 5月18日,上交所官网将杭州云深处科技股份有限公司(下称云深处)的IPO状态更新为“已受理”,这是“杭州六小龙”中继群核科技、宇树科技之后,第三家冲刺IPO的公司,同时也是第二家计划在科创板上市的具身智能本体公司。 云深处的创始人朱秋国是浙江大学控制科学与工程学院的教授和博士生导师。2016年,美国机器人公司波士顿动力的机器狗取得了技术突破,第一次让机器人走出实验室,这让不少业内人士看到了发展机遇。 身在浙大的朱秋国也看到了这个机会。2017年,他创立云深处,比宇树晚了一年,但做的是同一类产品:四足机器人。 招股书显示,从2023年到2025年,云深处的收入从5011万增长至3.37亿,翻了近7倍;2025年,公司95%以上的收入来源于机器人本体销售;净利润在2025年首次实现扭亏。 按照云深处此次拟发行新股占发行后总股本18%、募资25.03亿元推算,其发行估值约为139亿元。结合公司2025年3.37亿元的营业收入,市销率约为41倍。 以不久前递交招股书的宇树科技作为对比,2025年营收17.08亿元,以同样方式推算的发行估值约为420亿元,市销率约25倍。 一家营收只有宇树五分之一、净利润只有宇树十分之一的公司,估值倍数却贵了约60%,为什么? 01.营收三级跳,刚刚摸到盈亏线 云深处早期投资人之一的英诺天使基金执行董事王建明曾在一次播客节目中透露,当初由于错过了宇树,所以选择投了宇树的竞品——云深处。 在具身智能一级市场上,这两家公司在很长一段时间内都被视为彼此在国内最大的竞争对手,主要产品都是电机驱动的四足机器人。 与宇树不同的是,云深处并没有着急切入人形机器人赛道,直到招股书的报告期末仍然以四足和轮足机器人为主
跟宇树一比,云深处太贵了?

实测淘宝、京东AI购:能用,但代替不了我

AIX财经(AIXcaijing)原创 作者| 雷晶 编辑| 金玙璠   大模型落地这两年,“AI+电商”被认为是最有想象力的应用场景之一。购物本质上是一种信息筛选,需要整合、对比各种商品信息,这恰恰是大模型最擅长的。但在过去两年,各家电商平台的AI功能大多停留在智能客服、猜你喜欢这类协助功能上,消费者真正感知到的变化并不多。 直到这半年,两家巨头先后出手。5月11日,阿里官宣千问与淘宝全面打通,在淘宝内上线千问AI购物助手。在去年12月底,京东上线独立APP京东AI购,底座是自研的言犀大模型,主打对话式购物。 阿里把AI能力嵌入现有的电商生态,京东选择另起炉灶做一个AI原生入口,两者路径不同,方向都直指AI购物助手。我们对两款产品进行了深度实测,看看AI购物助手,到底好不好用? 01.AI试穿:换装快、能穿搭,但都不贴合身材 在网上买衣服,很容易“翻车”。模特图好看、买家秀也好看,但是衣服穿在身上总会发现有不合适的地方。退货很麻烦,不退穿不了,这个痛点的原因在于,消费者看不到衣服穿在自己身上的效果。而AI试穿想解决的正是这个问题。 第一轮测试,我们先从AI试穿开始,看看AI生成的试穿效果到底能不能帮你做判断。 先看淘宝。上传一张全身照后就能开始“试穿”,生成速度较快,切换不同衣服也比较丝滑。我们上传的是一张梨形身材的全身照,但试穿效果不能看出人的真实体型,AI是把衣服套在标准身材的模板上。 在搭配上,淘宝比较灵活,支持跨店搭配上装、下装和连衣裙,能从购物车、收藏夹、浏览足迹里直接选衣服,不用在不同商品页之间来回跳转,用起来比较方便。但在AI试衣间内不能直接进行搜索,需要提前将想“试穿”的衣服加入购物车。 图源 / 淘宝AI试穿页面 不过,它也有明显的槽点。一是不够稳定,切换性别和形象之后,推荐列表里依然会推女装。二是比较死板,它的逻辑是把衣服“贴”在上传照片上,
实测淘宝、京东AI购:能用,但代替不了我

京东找到了AI时代的乘数

图片 不做流量表层玩法,京东AI走出产业厚度。 AIX财经(AIXcaijing)原创 作者 | 王汉星 编辑 | 阮梅 时隔22年,刘强东又一次下注了。 2004年初,在中国零售行业线下连锁模式盛行的年代,刘强东做了一个让所有员工都感到意外的决定。他关掉苦心经营的十几家线下门店,把全部身家压在一个名叫“京东多媒体网”的网站上。他坚定地认为,互联网技术正在重塑零售业的体验、成本与效率结构,而京东必须站到这场变革的源头。 他的想法最初没有得到太大支持,后来发生的事,证明了他的判断。 22年后的今天,当大多数人沉浸于和AI聊天,当大多数公司还在执着于抢夺AI流量入口之时,刘强东意识到,AI的价值在于物理世界。 只不过这一次,他看到的不再只是一个新的零售渠道,而是一种可以服务全社会的全新生产力。AI正在以一种更深层的方式,重塑着千行百业的底层逻辑。 5月12日,京东集团发布2026年Q1财报,报告期内实现营收3157亿元,同比增长4.9%;截至季度末期,年度活跃用户数超7.4亿,从2023年Q4以来已实现连续10个季度的双位数增长。 在经营数字之外,一幅“AI画像”正在展开:从开源大模型到能“吃播”的数字人,从覆盖物流全链路的“狼族”机器人到全球最大的具身智能数据采集中心,AI已经融入京东的每一条业务线。 当整个AI行业开始从卷算力、卷模型参数进化到卷生态、卷自我闭环的时候,京东围绕AI也建立了从模型算力、产业应用、用户体验的商业模型:人工智能的价值=模型×体验×产业厚度的平方。这个看似朴素的公式背后,是京东22年深耕供应链积累下的全部底气。 01.研发增速连续两个季度超50%,AI融入每一条业务线 不同于其他公司在财报中大谈AI愿景,京东的Q1财报更多是在展示AI为各条业务线带来的具体变化。 支撑这些变化的,首先是持续加码的研发投入。 今年Q1,京东研发开支同比增长48.6%,
京东找到了AI时代的乘数

去老虎APP查看更多动态