2023年OpenAI携chatGPT/GPT-4席卷全球,掀起了一场大模型竞备赛,并将AI的革命之火烧到各行各业。
这一年,微软率先完成AI改造,将GPT-4接入Bing/Office/Azure等全线产品,创造了AI时代全新的工作范式。但要论AI革命的彻底性,却是特斯拉,它用大模型重构了其自动驾驶系统FSD,推出了端到端的V12版本。
何谓端到端?简而言之,过去的自动驾驶基于专家规则,红灯停绿灯行,变道超车泊车,都是靠工程师编程来实现,需要几十万行代码。端到端则去掉了规则主导的架构,完全交给神经网络主导,神经网络通过观察大量的数据来自我学习如何做出像人一样的驾驶决策。
今年8月26日马斯克亲自试驾和直播FSD V12,11月25日特斯拉开始将V12推送给内部员工,还传出消息说FSD 即将进入中国市场。无论技术还是商业化,FSD V12都在全球遥遥领先。
如今在中国做自动驾驶的都把“端到端”奉为战略目标,而且言必称自己采用了“BEV+Transformer”架构,这是特斯拉FSD V12中感知部分采用的技术路线。
自动驾驶系统分为感知、预测、规划和控制四大模块,其中感知靠摄像头、激光雷达搜集信息。传统摄像头收集的数据是 2D 图像,但现实世界是 3D 的,因此需要将 2D 图像数据通过模型分析融合后升维至 3D。业界早期采用 CNN/RNN+IPM 技术实现 3D 视角绘制,但经常导致转换出来的 3D 场景失真。
2021年,特斯拉发布了“BEV+Transformer”的感知算法架构。BEV 即鸟瞰图,它通过多个摄像头获得全方位视角图像,再通过共享 2D 特征提取器对不同摄像头获取的画面进行重建、拼接,最终形成 3D 全局视角。
Transformer 是一种基于自注意力的深度学习模型,它不像 CNN+RNN 通过串行顺序处理数据,而是通过自注意力集中机制捕捉序列中不同元素的相关性,更适应BEV 下的数据融合与处理。
“BEV +Transformer ”大大提升了FSD感知的准确度,并从此摆脱了对高精地图的依赖。值得注意的是,“BEV+Transformer”发布于2021年,那时openAI和大模型还鲜为人知。
“BEV +Transformer ”之于自动驾驶的意义有多重要?最近在深圳举办的全球自动驾驶峰会上,一众从业者在讨论如何用大模型重构自动驾驶时,其中一位嘉宾、升启科技创始人孙琪指出,“BEV +Transformer”就是自动驾驶的iPhone时刻。它颠覆了自动驾驶界过去十几年积累的技术,包括特斯拉自己的。也只有特斯拉,才有勇气革自己的命。
在推出BEV +Transformer之后, 2021 年特斯拉又加入 Video Netural Net,引入时序数据来增加神经网络的记忆。2022年又引入占用网络Occupancy,神经网络不必去识别障碍物是什么物体,只需识别被占用空间的位置和形状,大幅提升了FSD感知算法的泛化能力,尤其在处理Corner case 时更加得心应手。
不过这些仅仅针对FSD的感知部分,至于预测、规划和控制模块是如何用大模型进行改造,最终实现端到端,特斯拉还未公布技术路线,这也是整个自动驾驶界尤其中国厂商正翘首以待的。
2023年,我们看到阿里、腾讯、百度等众多互联网公司被openAI和微软、谷歌牵着鼻子走,跟得好生辛苦。殊不知,在电动车领域,为了跟上特斯拉FSD的节奏,无论主机厂商还是智驾公司,已经苦哈哈地追了两年。
办法只有一个,那就是抄特斯拉的作业。
跟得最紧的是小鹏。2022年的1024科技日上,小鹏发布了基于Transformer和BEV 的 XNet 1.0,XNet 1.0可以根据周围环境实时构建出类“高精度地图”。一年后的2023年科技日,小鹏发布了XBrain,XBrain=XNet 2.0+ XPlanner +more,XNet 2.0被称为“三网合一”,即动态BEV+静态BEV+占据网络,跟特斯拉FSD感知部分惊人的相似。
华为则是投入最大的自动驾驶厂商,其智能汽车BU研发团队多达7000人。2023 年 4 月 16 日,华为发布高阶智能辅助驾驶系统 ADS 2.0,基于BEV +Transformer架构,加入了GOD (通用障碍物检测网络)和RCR (道路拓朴推理网络)两大算法,其中GOD就是对标特斯拉的Occupancy,提高对障碍物识别的精准度。
蔚来、理想也宣称自己的NOA(领航辅助驾驶)重感知、轻地图,这是BEV +Transformer的重要特征;就连过去堆叠雷达的百度,发布和吉利打造的第一款车极越01,也宣称是纯视觉方案。
在自动驾驶的感知部分,大家貌似已经跟上了特斯拉。至于后面的预测、规划、控制,就等特斯拉公布路线图了。据说,中国做自动驾驶的企业已经形成一个潜规则,特斯拉公布的技术路线,只要在两年内能复刻出来,就不算落后,团队就不用担责。
不过问题在于,不是谁都有能力跟得上特斯拉。跟随特斯拉就意味着要自己打造一个自动驾驶的大模型,接踵而来的就是算法、算力、数据三道门槛。
孙琪认为,最容易实现的是算力,有钱采购就行。算法和数据的门槛高度则由企业性质决定,主机厂有数据但算法能力弱,创业和科技公司算法能力强但缺少数据。
通观造车新势力,无一不处处承压。算法就算抄特斯拉的技术路线,也需要大量AI人才。据说AI人才平均年薪已涨到100-150万/人,大厂都是几百上千的团队规模,一年光薪资成本就要烧掉几亿甚至几十亿。
数据上,更是难以望特斯拉之项背。特斯拉已经卖出了400多万辆车,截至2023年Q1,FSD V11已经有40万订阅用户。截至2023年Q3,FSD的行驶里程达到5.25亿英里。特斯拉还有影子模式,即使车主不打开系统,FSD也可以模仿车主的驾驶经验。
而中国造车新势力厂商相形见绌。截至2023年11月,蔚来汽车累计销售43万辆,小鹏累计销售37万辆,理想汽车累计突破60万辆。
华为造车不是很顺利,但靠着和赛力斯、北汽、长安的合作,算是卖了一些车。我没查到具体的总销量,根据媒体报道,2022年华为共交付7.5万辆车,今年截至11月份,问界5累计交付了12万辆,由此估算其交付量大概二三十万辆。
上述厂商还没跑通影子模式,不过也可以拿到用户的图像数据。但今年10月27日刚造出第一部车的百度,就只能完全依靠路测数据。
就算有数据,恐怕也没有足够的算力来支持。BEV+Transformer相当于把摄像头感知到的画面直接扔进AI算法里,生成一个鸟瞰视角的3D空间,并在这个空间内输出感知结果,对算力提出了更高要求。
特斯拉从2016年开始自研芯片,2021年发布超级计算机Dojo。2023年7月Dojo开始量产,预计2024年底突破100EFlops(每秒百亿亿次浮点运算)。即便如此,特斯拉仍然要购买大量的英伟达GPU来训练其神经网络。根据一个机构披露的英伟达2023年Q3 GPU采购名单前12,特斯拉还是买了1.5万块英伟达H100。
这份名单显示,百度买了3万块H100,百度要训练文心大模型,这3万块肯定不是全用于自动驾驶。至于蔚小理,都不在这份名单上。
小鹏在2022年8月宣布和阿里打造一个智算中心,算力为600 PFLOPs(每秒千万亿次浮点运算)。
而蔚来、理想一直以来更关注车端的算力。今年这两家在推NOA时都玩了个花样,理想搞了个通勤NOA,蔚来玩了个用户心愿单。在我看来,若非技术不成熟,那一定是算力不够,只能从局部入手,先开通用户需要的路线。
华为在算力上最占优势,它是国内惟一在车端和云端都有自研芯片的自驾厂商。
财大气粗的主机商尚且如此,那些自动驾驶创业公司就更难了。他们既养不起庞大的研发团队,也买不起算力,更缺乏数据。对于他们来说,最好的结局恐怕就是自降身价、委身大厂。
特斯拉用大模型颠覆了自动驾驶技术,引发了中国自驾产业的变盘。未来在自动驾驶领域还有创业机会吗?孙琪认为,只能往产业纵深走,做Tier2、Tier3。升启成立于2022年8月,定位于做自动驾驶的工具软件。目前特斯拉用大模型解决了感知部分的输入和输出,而升启希望能用大模型把感知的输出结果变成预测、规划、控制的输入,实现后者的端到端模型自主训练,与BEV +Transformer实现大模型的级联。
其实主机厂们的未来,也仍然存在变数。比如蔚小理在这条路上是否有足够的资金一直卷下去?华为智驾有没有可能在传统主机市场形成垄断地位?特斯拉未来是否会把FSD开放给第三方?
大模型下的自动驾驶才刚刚开局。
BUSD消亡史 币安终将走上招安之路
放弃游戏业务 字节跳动想抢滩AI社交?
2024年,哪些大模型可能破产?
特斯拉股价狂飙 具身AI将成为下一波浪潮
精彩评论