ChatGPT 引发大语言模型爆发之后,自动驾驶界打响了大模型之战。
首当其冲,有特斯拉提出的端到端方案、毫末智行首发自动驾驶生成式大模型,华为盘古大模型 3.0 聚焦自动驾驶场景提升数据闭环、商汤也提出自动驾驶通用大模型 UniAD。
另一面,各家车企也争相追逐大模型:长城、奇瑞、吉利、长安、广汽、蔚来、小鹏、小鹏等陆续公布了大模型的相关进展。
自动驾驶大模型热潮,要从自动驾驶公司毫末智行在国内率先带节奏说起。
今年 4 月份,毫末智行在第八届 HAOMO AI DAY 上,发布了行业首个自动驾驶生成式大模型 DriveGPT,解决自动驾驶研发过程中困扰已久的认知决策问题,并通过能力迭代,最终试图实现端到端自动驾驶。
而毫末的更新迭代是以「天」为单位计算。
10 月 11 日,毫末在 200 天后举办第九届 AI DAY,宣布 DriveGPT 新进展——通用感知实现万物识别,通用认知融入世界知识。
同时在产品端,毫末智行还发布了第二代三款千元级重磅 HPilot 产品。
毫末用技术和产品回答了大模型有多大才算大、智驾产品有多卷才算卷。
01 更新后的毫末大模型,有什么看头?
地基已经建成。
DriveGPT 作为自动驾驶场景生成式大模型,输入的是感知融合后的文本序列,输出是自动驾驶场景文本序列,是通向端到端自动驾驶的大杀器。
但在自动驾驶大模型热中,摆在眼前的痛点问题是:数据量大小,以及落地问题。
本次 DriveGPT 的更新,不仅是自动驾驶开发模式的范式变革,也同时解决了数据量、落地的痛点问题。
大模型多大才算大?
毫末智行数据智能科学家贺翔解答了汽车之心的疑问:「里程数 1 亿只是开始。」
截止目前,DriveGPT 学习时长达到 103 万小时,用户使用辅助驾驶里程 8700 万公里,正加速朝 1 亿公里数据规模狂奔。
数据量膨胀、又如何在海量数据中挑出对大模型训练更有价值的数据?
让 DriveGPT 拥有世界知识,成了毫末智行大模型训练的解题思路。
贺翔举了这样一个例子:
以前智驾系统在泊车时如果感知到一堆杂草,可能会直接判别其为障碍物,继而停止倒车。DriveGPT 更新后,不仅能识别出是杂草,还能挖出物体隐含信息。比如系统会深入学习草的特性——最终系统可以直接碾过杂草,继续倒车。
要做到这一步并不容易,DriveGPT 能够做到像人一样决策、判断,主要依靠两个重大更新:
第一,在感知大模型新增加图文多模态大模型;
第二,在认知大模型中增加大语言模型 LLM。
在自动驾驶开发 2.0 模式到 3.0 模式的过渡期,感知、认知、执行三大模块分别对应车端感知模型、车端及云端认知模型、车端控制模型,并最终走向端到端自动驾驶。
首先,在毫末视觉大模型架构中,通过图像编码器,在训练过程采用自监督预训练学习的方式,从而能高效地处理高达百亿的图片,而这种自监督方式是通过图像掩码恢复建模来提高预训练模型的图像表征能力,对优化下游任务效果起到关键作用。
接着,DriveGPT 在感知大模型中引入 NeRF 技术,将 Clips 序列的前 K 帧的部分输入模型,用 NeRF(神经辐射场)渲染出后续 H 帧,在这个过程中要经过 4D 编码器、多模态教师、NeRF 渲染器的加工,将物体视觉特征对齐文本语音特征,做到识别万物的能力。
这一步相当于系统不仅可以识别一捧杂草、柱子等障碍物,甚至也能识别非洲大陆上的羚羊与大象。
第二步要让系统知道「草可以碾过」这样的物理特性。
毫末在认知大模型中增加了一个压缩了人类社会全部知识的大语言模型 LLM,相当于在云端为汽车植入了最强大脑,要让大模型看懂、理解驾驶行为。
车端的一颗芯片,自然无法装得下如此规模参数的大模型。
云端的进展变成车端优秀的驾驶表现,考验的不只是云端的底子,还有将云端大模型能力蒸馏至车端的能力。
蒸馏,原本指的是将混合物分离、纯化。
在自动驾驶领域,蒸馏指的是将云端积累的能力精炼到车端的能力。
毫末智行落地云端大模型的方法有两种:
一种是车端模型与云端同步输出伪标签,车端模型在逐渐拟合云端大模型的过程中得到进化,相当于云端刷题,给车端传输方法论。
另一种是直接让车端小模型对齐云端 Feature Map,更加迅速提升车端小模型的能力,相当于车端直接抄云端答案。
目前毫末智行通过蒸馏使得车端模型感知指标提升 5%。
这种提升效果在一些实际测试中明显体现出来,在毫末内部有一计划被命名为小动物保护,目的是为了考察车端 NOH 系统对于小目标的感知检测能力。
在毫末 AI DAY 公开的测试视频中,毫末城市 NOH 在时速最高 70 公里的 50 米距离外,就能检测到高度 35cm 的小目标障碍物。也就是说开启 NOH 后,即便城市道路上突然出现动物出现,也不用担心刹停问题。
此外,云端大模型还能形成闭环,反哺数据量。
目前,毫末利用 DriveGPT 落地了场景理解、场景标注、场景生成、场景迁移、行为解释、环境预测、模型开发等七大应用实践。
譬如,场景生成可以通过简单几笔直线生成近乎真实的驾驶场景。场景迁移则利用单张图片就可以改变黑夜、白天、雨雪天气等环境特征。这些应用不仅能够节约数据训练成本,还提升了数据训练精度。
从发布 DriveGPT,再到为其融入世界知识,毫末正在补齐自动驾驶大数据、大模型、大算力的金字塔结构。
02 猛打智驾性价比,3000 元实现智驾体验
毫末 DriveGPT 的外化是产品,这一次 AI DAY 毫末放出量产杀器,一口气发布了三款 HPilot 产品。
HP170:针对高速场景,3000 元级的高速无图 NOH,可以实现行泊一体。算力 5TOPS,传感器方案标配 1 个前视相机、4 个鱼眼相机、2 个后角雷达、12 个超声波雷达。目前,毫末 HP170 是业内唯一一个将高速无图 NOH 系统压缩到一颗 MCU 上的智驾产品。
HP370:针对城市场景,5000 元级的 HP370 可以完成城市记忆行车与记忆泊车,是毫末城市 NOH 的最小集。算力 32TOPS,传感器方案比 HP170 的相机摄像头数量翻 2 倍,同时增加了侧视相机、后视相机、前雷达及后角雷达,可以实现学习用户通勤、日常路线,做到像用户开车一样老司机。
HP570:针对城市场景,8000 元级城市全场景无图 NOH,算力可选 72TOPS 和 100TOPS 两款芯片,传感器还支持选配 1 颗激光雷达,可以做到城区道路内通行,全程无图 NOH、全场景智能绕障等功能一应俱全。
毫末智行董事长张凯现场表示,HP570 比起上一代平台成本下降三分之二,将会是行业内最具性价比的全场景无图 NOA 产品。
三款产品最大的特性就是定位都在千元级,全部是行泊一体,包含高速无图 NOH 到城市全场景无图 NOH,主打一个极致性价比。
汽车之心观察到的情况是,智能汽车相关企业最近发布产品时有了直接以价格定性能、定区间的趋势。
成本和产品力即将形成交叉时,自动驾驶棋局就开始互相兑子——各方权衡利弊下,以高价值兑换低价值。
将毫末智行三款产品可实现的功能级别对应到智能驾驶市场中,就会发现目前市场智驾产品的性价比还有进一步提升的空间。
行泊一体功能上车车型主要有小鹏 P5、荣威 RX5、宝骏 KIWI 等,这些车型售价集中在 10-20 万。若要拥有记忆行车、记忆泊车类似功能,那么小鹏 G6、宝骏云朵灵犀版是代表,其售价集中在 15-25 万。
类似的,全场景城市 NOA 对系统软硬件要求高,目前理想 L9 Max、小鹏 G6/G9 Max 版本、阿维塔 11/问界 M5/M7 智驾版均可以实现城市 NOA,而这一列平均价格至少在 25 万元以上。
毫末三款 HPilot 产品以更高的性价比,实现了三档不同水平智驾能力的下放,对于实现智驾技术平权、提升了用户智驾体验大有裨益。
据汽车之心了解,目前使用毫末 HPilot 智能辅助驾驶产品的用户月度活跃率达到 88%。
在 AI DAY 上,毫末智行 CEO 顾维灏提到的一个用户案例尤为有趣:
在搭载 HPilot 产品的车辆中,一位摩卡用户单辆最长累计智驾里程是 82073 公里,智驾功能使用率 76.2%,相当于使用辅助辅助驾驶绕着地球跑了快两圈了。
更加平价的智驾系统,扭转了自动驾驶命运的齿轮。
乘用车联合会数据显示,2023 年乘用车智能驾驶渗透率与价格呈反向增长,乘用车市场 L2 及以上智能驾驶渗透率达 42.4%,预计 2025 年将达 70%,并普及到 10-20 万的主流车型上。
目前,有不少车型的高阶智驾系统选购率突破了历史值:
用户选购小鹏 G6/G9 Max 版本的占比分别到达了 60% 和 80%;
国庆假期订单爆发的问界,新款问界 M7 超 5 万订单里,智驾版超过 3.3 万台,占比近 66%;
宝骏推出的云朵灵犀版,用户选购智驾版本的占比达到了 80%。
智驾能够在用户端迅速铺开的一大原因就是「价格香,体验好」。
而以毫末为代表的玩家,将满足高、中、低价位车型的量产需求,进一步催化智能驾驶平权,将智能驾驶的使用门槛再降一档。
03 自动驾驶还要打赢四场战役
自动驾驶是人工智能最大的问题,在外界看来自动驾驶突破节点,像是呼啸而过、一夜爆发的「技术奇点」。
实则不然,自动驾驶爆发背后必然包含了技术升维、商业落地、场景开拓、数据膨胀等艰难、恒久的历程。
毫末将这些历程称为四场战役:智能驾驶装机量之战、MANA 大模型之战、城市 NOH 百城大战、末端物流自动配送车商业之战。
量产之战、大模型之战不再赘述,考验的是性价比与技术的平衡。
而城市 NOH 百城大战与末端物流自动配送则是毫末坚持以技术撬动场景,两条腿走路的战略体现。
开城之战已经打响,从小鹏、华为、长城宣布开拓百城,再到蔚来提出以路开城,快节奏、多元化开城使得城市 NOA 走向价值兑付。
在 AI DAY 上,毫末首次释放了城市 NOH 路测表现。
顾维灏与张凯两人搭档测试了魏牌蓝山的 NOH,从保定哈弗中心出发在保定闹市区行驶 12 公里,仅手动接管 3 次。
在视频中,NOH 流畅完成了多车道汇入单一车道、无保护右转等动作,即便在复杂的电动自行车无规则穿行路况下,依旧能够及时响应,完成避让。
在夜间场景下依旧表现出色,夜间识别横穿行人、及时避让行人,面对拥堵道路、红绿灯交替以及机非混行等复杂场景稳如老司机。
据汽车之心了解,具备城市 NOH 导航辅助驾驶功能的毫末 HP550,将搭载魏牌蓝山在 2024 年第一季度正式量产上市。
进一步地,毫末百城 NOH 目标将会先后在北京、保定、上海等城市全面铺开。
另一个撬动量产的杠杆是毫末在末端物流的进展。
乘用车的智驾渗透率、商业落地是缓慢进行的,但在自动驾驶垂直场景,大规模盈利拐点将会更快到来。
此次,毫末第三代末端物流自动配送车小魔驼 3.0 实车亮相 AI DAY,这是个能够满足商超、物流、零售多场景多需求的自动驾驶「大块头」,也是全球首款 9 万元内中型末端物流自动配送车。
目前,小魔驼已完成 22 万个无人配送订单,在北京顺义、亦庄等地区已经能看到小魔驼实车。
随着毫末智行在第四季度与达达物流进行合作加速落地更多地区,毫末也将在第四季度商超履约配送场景率先实现盈利。
梳理自动驾驶行业现状就会发现,2025 年到来之前,智驾铺开的速度与规模,成为自动驾驶企业留在牌桌上的决赛项目。
背靠长城的毫末已经有了极为充沛的量产实践。
中国工程院院士、清华大学教授张亚勤指出,毫末智行是推动智能驾驶量产的重要角色。
他认为自动驾驶开发模式可以分三个时代,而毫末是 2.0 时代过渡到 3.0 时代的代表企业:
1.0 时代:硬件驱动,在这个阶段算力仅为数 T,数据规模停留在 100 万公里,感知和认知主要依靠激光雷达和人工规则,智驾水平并不流畅。
2.0 时代:软件驱动,硬件、软件、数据三者支撑,数据规模达到 1 亿公里,传感器可以单独输出结果,但认知仍为人工规则。
3.0 时代:数据驱动,数据量超过 1 亿公里,感知依靠多传感器融合输出,认知层可以输出可解释的、场景化驾驶常识,大数据、大模型、大算力成为发展三要素。
永远追逐先进技术,保证智驾安全性是自动驾驶不变的命题。
就连张亚勤也直言:
「技术要始终往前推进,不能保证未来 5 年一定是 Transformer 路线。即便是 Transformer 大模型,其运行效率要比人脑也要低 1000 倍。」
自动驾驶技术路漫漫,但在 AI DAY 最后的沙龙环节,不少自动驾驶行业从业者用黎明、实用性、风起云涌来形容行业进展。
曙光的本质是——智能驾驶正逐渐被用户需要。在这样的趋势下,一个具备技术竞争力、高价值的毫末将会更加被需要。
精彩评论