理想AGI之路:从自动驾驶到“理想同学”
今天看了很多理想为什么要做AGI,用「理想同学」挑战豆包、kimi的各种分析,还挺有意思的,我写写自己的观点: $理想汽车(LI)$ $理想汽车-W(02015)$
昨天直播里:李想提到了要先做基座模型(Foundation Model),在他看来「VLA」就是理想的基座模型。我们最早听到理想讲VLA,是2024三季度财报会上,提到下一代的自动驾驶路线,将采用Vision-Language-Action,也就是VLA模型。
那自动驾驶的VLA和李想说的基座模型VLA是一回事吗?在我看来,是一件事,只是做了不同的表述。
自动驾驶路线的VLA,大家可以理解为实现路径和方法论,通过视觉感知、自然语言处理和行动决策进行融合,把车载摄像头、雷达传感器获取的信息进行处理,结合自然语言指令或描述,让自动驾驶系统做出合理的决策和规划,是实现自动驾驶的方法论。
而李想本人提到的基座模型VLA,则是对物理世界的理解和还原,这个模型本身具备一定的通识性,懂得物理世界的运行规律。更像是一个:视觉+LLM的世界模型。这里面有大量人类世界、物理世界的通用知识,是用图像和自然语言这两种形式进行记录和表达的,也是人类最重要的两种信息传递方式。
所以,基座模型的VLA “V”+“L”会更重一些;而A、Action行动则主要体现在应用场景上,自动驾驶的Action对应的就是开车,在“理想同学”对应的就是解答你的问题。
我之前的微博里提到过:能做好具身智能的公司,一定有自动驾驶公司,并且会占据很大比例。原因是智能汽车+自动驾驶才能获得物理世界最真实、最海量的数据,并且能做到数据闭环,这样才能训练出更好的AI模型。
但驾驶场景,还是垂直场景,你能在马路上见到不同形态的车、行人、动植物、各种通用障碍物,能学习人类交通的运行规则。但他也只是真实物理世界的一部分,如果想让自动驾驶真像人类一样,具备强大的灵活性,对不确定性的应对,就需要让AI掌握更多的物理世界通识。
只依赖车这一个途径,数据源也是单一的,需要扩展,所以「理想同学」也就顺理成章成为理想AI获取数据的另一个途径,而只在座舱、只依靠语音交流的方式,强度和频次是显然不够的,这也是为什么理想要做手机App的原因。
当然做AGI这条路很难,需要投入大量的人员、卡、需要烧很多钱,理想汽车真的能跟阿里、字节这样的巨头竞争吗?其实他们想的很清楚,同样要走从0-1、再从1-10、最后从10-100的过程。
端到端+VLM系统上车,理想不断的卖车,其实已经走完了0-1的过程;接下来就是要让自己的百万车主,都能安装「理想同学」App,让他成为车主最爱用的AI产品,这才是从1-10的过程。只有这个阶段走完,才会到与巨头的竞争。
从理论上来说,因为有了理想汽车和车里的语音助手,百万理想车主与「理想同学」的关联度,是要远高于:文心一言、同义千问、豆包、kimi的,至少对于大量的普通用户来说,或许都没用过、安装过这些巨头的App,这也就是「理想同学」的机会。
其实大家都在做车的移动端扩展和生态防守,只是理想选择了更务实的方式,相比推出自有品牌手机,让用户下载一个App,似乎也会更容易些。
而理想VLA基座模型,最早的收益还是会体现在车端,也就是自动驾驶和智能语音,驾舱一体,不应该只有硬件一体,软件更应该统一。所以最终帮你开车的,也会是理想同学。
来源:微博 电动知士大雨
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。