图片 代码能跑,复杂逻辑会翻车。 AIX财经(AIXcaijing)原创 作者| 雷晶 编辑| 金玙璠 AI圈近期动作频频,腾讯混元Hy3 preview也正式亮相。 4月23日,腾讯混元正式发布并开源了新一代语言模型Hy3 preview。据官网介绍,该模型采用快慢思考融合的混合专家架构,总参数295B、激活参数21B,最大支持256K上下文长度。这是被官方称为混元迄今最智能的模型。 三个月前,姚顺雨带着ReAct框架和OpenAI的实战经验加入腾讯,主导完成了预训练和强化学习基础设施的重构。Hy3 preview是重建后的首份答卷。官方表示,该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体等能力均实现大幅提升。 从官方披露的数据和评测结果来看,Hy3 preview在多项基础测试中展现出亮眼的实力,虽然未必在所有维度都达到行业顶尖水准,但足以满足多数场景下的实用需求。 在实际运行效率和稳定性方面,Hy3 preview也有所突破。官方数据显示,这款模型的首Token延迟降低54%,端到端时长降低47%,大幅提升了响应速度。同时,任务成功率也有所提升,已能稳定驱动复杂的Agent工作流,覆盖文档处理、数据分析等多种业务场景。 此外,它的推理成本也有所下降。在腾讯云API输入低至1.2元/百万Tokens,个人套餐最低28元/月,在同尺寸模型中属于最低价梯队。目前,Hy3 preview已在腾讯云、元宝、WorkBuddy等腾讯核心产品中上线。 接下来,我们将根据官方提到的四个方向,实测混元大模型在实际应用中的表现。 01. 推理能力:复杂逻辑能拆解,陷阱识别仍需加强 我们首先测试了模型的推理能力。逻辑推理题是网友最喜欢拿来测模型“智商”的类型之一。在这一环节中,我们先用经典的“洗车问题”在元宝内进行测试。 图片 在这个经典陷阱题中,Hy3 preview起初并未答