自动驾驶十年:从AI革命,到特斯拉的ChatGPT时刻(上)

42号车库
2023-07-01

2016 年 1 月的一天,黄仁勋拎了一个箱子,率领团队如约来到特斯拉位于加州的办公室,见到了马斯克。

这个箱子里,装的是 $英伟达(NVDA)$ 英伟达的初代自动驾驶计算平台 DRIVE PX;把它带过来,是因为英伟达和 $特斯拉(TSLA)$ 特斯拉都希望验证一下它的实际能力。于是,马斯克用它跑了几遍当时 Autopilot 团队训练出来的一个神经网络模型,能跑起来,效果还挺满意。

然而,据一位曾参与上述会面的中国籍前英伟达工程师回忆,当时特斯拉的那个神经网络模型真的很烂,甚至比不上 Mobileye 基于纯规则做出来的效果。

以上就是自动驾驶在过去十年的发展过程中跨出的步履蹒跚的一个早期步伐,它一点都不惊世骇俗,也并不引人瞩目。

但如今,自动驾驶已经发生历史性巨变——它完全脱离了概念的范畴,开始在产品和商业维度上逐步走向大众群体,包括美国特斯拉和中国造车新势力在内的一系列车企,正在纷纷推进城市导航辅助驾驶功能的量产和商业落地。

事情的发展如此之快,以至于很容易让人恍惚:这一波自动驾驶,到底是如何一步步走到今天的。

两次注定要分手的牵手

忙碌的 Andrej Karpathy

2012 年 9 月,25 岁的斯坦福大学博士生 Andrej Karpathy 格外地忙,忙得不可开交。

原因是,他的导师、著名的计算机科学家李飞飞教授正在组织本年度的 ImageNet 大规模视觉识别挑战(简称 ImageNet 竞赛)——作为计算机视觉领域最受关注的赛事之一,ImageNet 竞赛吸引了全球各国的顶级人工智能团队参与,因此每年竞赛期间,李飞飞和她的团队都是全员出动,全力投入。

作为李飞飞团队的一员,Andrej Karpathy 自然也要参与其中——于是,2012 年 10 月 5 日,Andrej Karpathy 早上六点半就在推特上公布了本次 ImageNet 竞赛的成绩。

成绩显示,2012 年度 ImageNet 竞赛的冠军是一个名为「SuperVision」的三人团队,他们在 ImageNet 的第一项「图像分类」任务中实现了低至 15.3% 的错误率,比第二名的 26.1% 低了 10.8%——可以说是「遥遥领先」。

有意思的是,这个获得冠军的 SuperVision 团队,与 Andrej Karpathy 颇有些渊源。

原来,SuperVision 团队的三位成员分别是著名的计算机科学家、被称为「深度学习之父」的 Geoffrey Hinton 教授和他的两个学生 Alex Krizhevsky、Ilya Sutskever(OpenAI 首席科学家,GPT 背后的核心人物),他们三人都来自于加拿大的多伦多大学。

非常巧合的是,Andrej Karpathy 本科期间就读的学校就是多伦多大学,而且他还曾经在 Geoffrey Hinton 教授的课堂听讲过深度学习——所以,Andrej Karpathy 对他们并不陌生,也非常自然地对他们在本次竞赛中发表的论文保持密切关注。

从内容来看,这篇标题为《ImageNet Classification with Deep Convolutional Neural Networks》的论文,主要介绍了 SuperVision 团队在参与 ImageNet 竞赛的过程中所采用的一个大型深度卷积神经网络(Deep Convolutional Neural Network)——其中还专门提到了训练该网络的一个重要硬件基础:2 块英伟达 GTX 580 3GB GPU。

这个大型深度卷积神经网络,后来拥有了一个更加为广为人知的名字:AlexNet。

那时候,Andrej Karpathy 已经开始感受到 AlexNet 的强大——他在推特上对竞赛结果的评价是:大型深度网络 + Dropout 算法 + GPU,展示出令人印象深刻的性能。

当然,他还没能像我们今天这样意识到 AlexNet 的重大意义,那就是:AlexNet 的问世和这篇论文的发布,掀起了计算机科学和 AI 领域的一场重大革命,也让卷积神经网络(CNN)成为计算机视觉领域在很长一段时间里的核心模型——而深度学习也因此迎来了一场真正的大爆发,并且由此催生了包括自动驾驶在内的众多领域的发展。

值得一提的是,当时,身处于 AI 发展前沿、曾经在 2010 年获得 ImageNet 竞赛冠军的余凯,已经意识到这篇论文和 AlexNet 的重大价值。

所以,以当事人的身份,余凯代表百度参与了发生在 2012 年冬天的针对 AlexNet 三人组的一场激烈「竞标」——这次竞标在 Google、百度、微软和 DeepMind 四家公司展开,但 Google 成为最终的获胜者。当然,那时候的余凯,还没有意识到,他的长远未来会建立在自动驾驶这条赛道上。

回到 Andrej Karpathy。

那年秋天,当他因为参与 ImageNet 竞赛事务而忙得不可开交的时候,他同时也正醉心于特斯拉量产不久的 Model S,甚至在竞赛结果揭晓的前几天还发布关于 Model S 的推文——当时,他也在推特上表达了对马斯克的赞赏。

那时候的他,一定完全想不到:他会在 5 年之后成为特斯拉 AI 团队的负责人,并且直接向马斯克本人汇报。

马斯克的无奈妥协

2013 年,当马斯克决定带领特斯拉进入到自动驾驶赛道的时候,他发现自己找不到一条称心如意的法子,只能做出无奈妥协。

马斯克之所以想做自动驾驶,在很大程度上是受到了 Google 的影响。

2013 年 5 月,马斯克首次在采访中谈到,特斯拉考虑采用自动驾驶技术。当时,Google 的自动驾驶汽车项目(Google Self-Driving Car Project)已经启动了三四年时间——对于这个项目,马斯克并不陌生。

毕竟,这个项目是由 Google X 实验室发起,Google X 实验室的主导者是 Google 联合创始人 Sergey Brin;而 Sergey Brin 不仅仅是马斯克的老熟人,也是特斯拉的早期投资人。

基于这样的渊源,马斯克非常了解 Google 所采用的技术方案,并且曾经就自动驾驶技术与 Google 团队进行过多次探讨。

当时,在 Google 自动驾驶汽车项目所采用的方案中,算法+计算芯片+传感器是一个基本的范式。其中,算法本身是 Google 自研;在计算芯片层面,Google 采用的是来自英特尔的 Xeon 处理器和一颗来自 Altera 的 Arria FPGA(用于机器视觉)。而在传感器层面,Google 则采用了成本非常昂贵的激光雷达。

Google 的目标,就是要实现 L4 级别的完全自动驾驶功能。

对于实现完全自动驾驶这件事,马斯克是认同的,他也觉得自动驾驶是特斯拉在主动安全方面的自然延伸,必须得做。但是,与 Google 所采用的「self-driving」一词相比,马斯克更喜欢「Autopilot」这个词汇。

而对于 Google 采用的激光雷达方案,马斯克更是完全看不上,他表示:

Google 目前感知方案的问题是,它太贵了。最好是采用一个光学方案,比如说带软件的相机,只需用摄像头看一下就能知道发生了什么……我认为特斯拉会自主打造自己的 Autopilot 系统,但它是基于摄像头而非激光雷达。

2013 年 9 月,马斯克公开宣布特斯拉正式加入到自动驾驶赛道中,而特斯拉也开始招聘自动驾驶领域的工程师——马斯克强调,特斯拉将自行内部开发这一技术,而不是采用外部任何其他公司的技术。

但当时的情况是,在做自动驾驶或辅助驾驶相关的领域里,只有两条路径可以走:

  • 一条是 Google 的方案,也就是通过在车端部署昂贵的激光雷达传感器和芯片,然后通过自研算法,直接奔向 L4 的目标——这个方案非常激进,属于典型的互联网公司打法,缺点是这个路径非常昂贵。

  • 另一条是来自以色列的 Mobileye 公司,采用成本更加便宜的摄像头方案,同时将视觉算法集成在芯片中,打包出售给车企——这个方案其实经历了十几年的验证,属于稳扎稳打的渐进式路径,并且当时已经获取了大量的车企客户,但缺点是 Mobileye 的控制欲比较强,限制车企自研算法。

对于当时的马斯克来说,这两种方案都不如意。一方面,他极其在乎特斯拉的量产成本,完全不能接受激光雷达的昂贵价格;另一方面,他又希望通过自研算法尽快实现自动驾驶的目标,而不是受制于 Mobileye 的慢节奏。

综合考虑之下,对成本高度敏感的马斯克,只能做出妥协,无奈地选择与当时地位十分强势的 Mobileye 合作。

2014 年 10 月,在宣布进军自动驾驶一年后,马斯克宣布,自 9 月份发售的 Model S 已经搭载了能够支持 Autopilot 的硬件,在传感器层面包括一颗前向远程雷达、一颗前视摄像头和 12 颗 360 度的超声波雷达;从功能上来说,它能够实现车道保持等功能。

当时,马斯克并没有宣布供应商的身份,后来 Mobileye 主动披露为特斯拉供货的消息,外界才恍然大悟——但其实,双方合作的隐忧已经埋下。

黄仁勋急了

对于马斯克牵手 Mobileye 一事,黄仁勋是看在眼里,急在心里。

这里其实有一个前提,英伟达早已是特斯拉的供应商。 实际上,2012 年量产发布的特斯拉 Model S,其 12.3 英寸液晶仪表盘和可触控的 17 英寸中控信息娱乐屏幕,就是运行在两颗不同的英伟达 Tegra 芯片之上。

而黄仁勋之所以有点着急,是因为他也希望英伟达进军自动驾驶,并且成为特斯拉在自动驾驶领域的供应商。

原来,AlexNet 赢得 ImageNet 竞赛冠军之后,在 2012 年到 2013 年之间,有一些团队找到英伟达,表示要通过 GPU 做基于深度学习的计算机视觉。 这让黄仁勋意识到,深度学习可能会迎来爆发,而英伟达的 GPU 技术也会因为对深度学习和计算机视觉算法的支持而开辟出一个广阔的市场。

据一位曾经在英伟达工作的工程师告诉我们,黄仁勋一开始并没有看上自动驾驶市场,因为他觉得这块市场的利润率不高,毕竟服务器领域的利润率高达 60% 到 70%。但是,当英伟达在智能手机业务(比如说与小米合作)上折戟沉沙之后,对于端侧部署的执念,让黄仁勋开始寻求不同方向的落地机会,包括安防、机器人、汽车等领域。

结果,在看了一圈之后,考虑到英伟达芯片的高功率问题,黄仁勋还是认定:基于电动汽车的自动驾驶是英伟达在端侧最好的方向。

2013 年 11 月,正值财报电话会议,黄仁勋在谈到汽车业务的发展时表示:

其实考虑汽车的方式,应该是自动化。如今的汽车是联网汽车,因此数字计算比以往任何时候都更加重要。我们的数字集群将为汽车产业提供现代化驾驶体验的机会,而并非是使用传统的机械仪表。同时,因为 GPGPU 的存在,我们处理器中的可编程 GPU 将会使各种新的驾驶员辅助功能成为可能。基于计算机视觉、驾驶辅助、人工智能等方面的能力,我们将会让汽车变得更加安全,我们让汽车驾驶变得有趣。因此,从数字集群到信息娱乐系统,再到未来的驾驶辅助系统,汽车内将不仅仅会只搭载一个 GPU。

黄仁勋还表示,特斯拉的电动汽车已经取得成功,未来还会有越来越多的汽车公司会效仿它,并且会积极地在汽车中添加移动计算能力——他还强调,这是英伟达多年来已经投入大量精力的领域,因此会看到持续的成功。

最后,黄仁勋还意味深长地说:The design wins。

于是,在一年多的准备后,英伟达在 2015 年 1 月打响了面向自动驾驶产业的第一枪:发布 DRIVE 品牌和它旗下的两款汽车计算平台,其中 DRIVE PX 基于 Terga X1 芯片和 Maxwell GPU,拥有超过 1 TOPS 的算力,而且可以支持计算机视觉和机器学习技术。

有意思的是,仿佛是为了呼应特斯拉,英伟达在介绍 DRIVE PX 时,也专门用到了「Auto-Pilot」这样的词汇。

不仅如此,在 3 月份的 GTC 2015 上,黄仁勋还专门把马斯克请上台,二人大谈 AI 和自动驾驶的发展。在台上,马斯克表示,AI 有可能比核武器更加危险,但是人们不用太担心自动驾驶,因为这是一种更加狭义的人工智能。

值得一提的是,在 GTC 2015 的舞台上,除了马斯克之外,黄仁勋还邀请了正在读博士学位的 Andrej Karpathy 来作为嘉宾发言——那时候,马斯克和 Andrej Karpathy 还没有来得及认识彼此,但也快了。

马斯克「脚踩三只船」

如果用一句话形容 2015 年马斯克和特斯拉在自动驾驶领域的做法,那就是:「脚踩三只船」。

第一条船,是与 Mobileye 之间的貌合神离的合作。

与 Mobileye 的其他车企客户不同,特斯拉更急于推进自动驾驶技术的发展,它并非是被动采用 Moblileye 的方案,而是基于 Mobileye 的方案在数据积累和软件算法层面做了很多独到的增强型创新,让 Autopilot 具备自学习(self-learning)的能力。

举例来说,特斯拉在车内增加了 Fleet Learning 功能,其本质就是在 Autopilot 的动作与人类的实际决策不一致时,能够通过软件记录并学习人类操作;这个功能,已经有点类似于特斯拉后来推出的「影子模式」。

为此,2015 年 4 月,马斯克还专门从微软挖来了一个名为 David Nister 的计算机视觉技术大牛,成立了 Tesla Vision 团队。

然而,马斯克的做法遭到了 Mobileye 的强烈反对。因为 Mobileye 一直采用的是封闭模式,它希望把芯片和算法都控制在自己手中,不希望车企具备自研算法的能力——为此,Mobileye 和特斯拉在 2015 年闹了不少矛盾,强势的 Mobileye 要求特斯拉暂停 Tesla Vision,否则就断供技术支持。

当时,在自动驾驶领域羽翼未丰的特斯拉,不得不暂时屈服于 Mobileye 的打压。

第二条船,就是特斯拉与英伟达的「暗度陈仓」。

据一位前英伟达工程师告诉我们,其实在 2015 年,当与 Mobileye 合作出现冲突之后,马斯克也在希望找到一颗能够提供足够算力、但同时也能够允许特斯拉自研视觉算法的芯片,于是就找到了黄仁勋,看看英伟达能不能搞出来。

对于马斯克的需求,黄仁勋一听之后也非常来劲,他很快就安排工程师在 Tegra 芯片的基础上加上一颗独立 GPU,并且给特斯拉试一试——双方接触了很多次,不断探讨合作的可能。

于是就有了本文开头在 2016 年 1 月份的一幕。

第三条船,就是自研芯片。

毕竟,在与 Mobileye 合作期间,马斯克也是尝到了核心技术受制于人的滋味。

出于技术全栈自研、算力需求增加和垂直整合商业模式的考量,以及未来即将出现的大规模量产出货需求,马斯克决定自研芯片——当然,自研芯片并非容易之事,也需要几年的时间,所以特斯拉也明白,它也需要「第二条船」来满足「第三条船」到来之前的过渡需求。

这意味着,虽然对于与英伟达之间的合作推进,特斯拉当时确实是比较积极,但从长远来看,它与英伟达的「分手」是注定的。

2016 年 1 月,就在马斯克和黄仁勋在特斯拉加州办公室会面的同一个月,有着「硅仙人」之称的芯片大神 Jim Keller 正式入职特斯拉。

踢开 Mobileye,牵手英伟达

2016 年下半年,英伟达终于等来了机会,成为特斯拉的自动驾驶芯片供应商——对于英伟达来说,这是其自动驾驶业务的重大突破。

但其实,很少有人意识到,对于整个自动驾驶行业的发展来说,英伟达和特斯拉达成合作的意义是非常重大的,因为这意味着:一家在自动驾驶领域有进取心的车企,终于能够在市面上找到一颗可编程、可满足其自研算法需求的算力芯片。可以说,整个自动驾驶行业在车企层面的量产落地,从此拥有了算力基础。

为了这个机会,英伟达已经做了大量的软硬件准备。

比如说,2016 年年初,英伟达发布了一系列基于自动驾驶平台的软硬件产品,其中包括 DRIVE PX 2——黄仁勋称之为「世界上第一个面向自动驾驶汽车的超级计算机」。

同时,基于 Drive PX 2 ,英伟达还搭建了一套完整的自动驾驶技术架构 DriveWorks,包括一些在云端和车端训练或推理的硬件框架,以及一系列软件参考方案等。

总之,英伟达不仅仅在硬件上大力提升性能,还在软件和工具等层面做了大量的布局,准备好为包括特斯拉在内的车企进军自动驾驶领域提供保姆式的服务。

这时候,一个意料之外的事故发生了。

2016 年 5 月,一起与 Autopilot 密切相关的 Model S 事故发生,加快了特斯拉与 Mobileye 之间的分道扬镳——两个月后,Mobileye 宣布终止了与特斯拉之间的合作。

对于双方合作破裂,马斯克显得云淡风轻,他表示,Mobileye 的技术发展能力受到了负面影响,因为它必须支持传统汽车公司的数百款车型,导致其工程阻力系数非常高,特斯拉专注于在一个集成平台上实现完全的自动驾驶能力。

其实,这背后还有一个原因是:当特斯拉在 2016 年下半年发布软件 8.0 版本的时候,实际上,软件的需求已经基本上到达了硬件的极限。

当然,马斯克之所以完全不慌,还是因为特斯拉已经跟英伟达暗中沟通了很久。

在提前见证过英伟达自动驾驶计算平台的效果之后,恰逢与 Mobileye 的合作破裂,他并不需要太多犹豫,就选择了英伟达作为新的合作伙伴——考虑到特斯拉已经自研芯片,所以很明显,它与英伟达两年半后的分道扬镳,也是从一开始就注定的。

2016 年 10 月,特斯拉宣布:包括 Model 3 在内的所有量产车型将会搭载能够实现完全自动驾驶(Full Self-Driving)能力的硬件(也就是 HW2.0),其中传感器包括 8 颗环视摄像头、12 颗超声波雷达和一颗前向雷达。

与此同时,HW2.0 还内置一个算力比前代产品增加了四十多倍的计算设备(即英伟达 DRIVE PX 2),它能够运行特斯拉最新开发的面向 Autopilot 进行视觉、超声波和雷达融合处理的神经网络。

需要说明的是,虽然也叫 DRIVE PX 2,但特斯拉所用的这个版本是它与英伟达联合定制的。

同时,由于去除了对 Mobileye 在软硬件层面的所有依赖,搭载英伟达计算平台的特斯拉新车型,甚至暂时不具备搭载旧款硬件车型所拥有的一些基本功能,比如说自动紧急刹车等——也就是说,硬件基础有了,特斯拉还需要补上软件和 AI 方面的能力。

这时候,马斯克需要一个得力的助手,来帮助他搭建 AI 算法。

新能源汽车俱乐部
一起聊聊你的新能源车和新能源股票~
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

发表看法
4
8