马斯克“掀桌子”，AI大模型+自动驾驶会诞生什么？

马斯克“掀桌子”，AI大模型+自动驾驶会诞生什么？

能用最简单的方法，做最复杂的事，才是真正的技术壁垒。

特斯拉的全自动驾驶 FSDV12 新版本，很好诠释了这一点。仅需 8 个摄像头，无需用上激光雷达、毫米波雷达、超声波摄像头等等其他零部件，就实现了老司机一般的驾驶能力。

对于什么是老司机的驾驶能力，我们想先通过一个短视频来体现：在纽约交通最乱的第五大道拍摄，FSD 可以根据地理位置意识到自己在哪里，从而切换驾驶风格，在西部就佛系跟车，在纽约就一步不让，这是端到端训练时自动学会的。

您目前设备暂不支持播放

视频来源：YouTube：Jackson 在美国

马斯克甚至颠覆了自己，V12 新版本比 V11 有极大变化，很多 V11 中采取的技术也被一并抛弃。一个对 V12 最简单的理解是：V11 之前都需要告诉 FSD 遇到红灯需要停，但 V12 不再需要，而是依靠 V12 自己学习，自己 " 悟 " 出来。

于是，原本由人工编写的 30 万行代码，如今骤减到 3000 行，取而代之的是类似大语言模型的训练芯片矩阵，全靠 AI 神经网络训练解决。可以说 V11 还是手工作坊式的生产方式，V12 已经开启了 " 工业革命 "。

今天这篇文章，我们就来分析一下FSD V12 版本背后有哪些颠覆性变化？以及与其他技术路线相比，FSD V12 这种纯视觉方案，有哪些优劣势？Enjoy：

一、V12 新版本背后，最重要的颠覆性变化是什么？

V12 最大的变化，在于部署了 " 端到端 " 的 AI 大模型。这里面有两大关键点，一个是端到端，一个是 AI 大模型。

" 端到端 " 是指，一端指输入端，一端指输出端，输入数据的包括摄像头的感知数据、车身的数据等等，中间通过 Transformer 架构的 AI 大模型推演之后，最终直接输出到电门、刹车、方向盘。

而通过 Transformer 架构的 AI 大模型，是在 2022 年底，特斯拉 Autopilot 部门的一位工程师向马斯克提出的建议，要借鉴 ChatGPT，让神经网络通过学习人类驾驶员的训练素材，来实现路径规划。

马斯克听后大喜，拍板就这么干。由此开始，FSD 的规划部分，就直接放弃了原来普遍采用的 Rule-base方案，全面转向神经网络。

在这里我们简短解释一下什么是 Rule-base 方案：Rule-base 就是人为规定的规则式驱动。原来自动驾驶分为几个步骤，分别是感知、规划、控制，先有摄像头、激光雷达、毫米波雷达等等传感器获取信息，然后基于感知结果和人为设定的规则，由自动驾驶软件代码来实现决策。

所以这里面很重要的是，一是怎么获取到足够多维和准确的信息，所以大家都往车上装各种摄像头、雷达；二是决策中，由人为设定的规则需要覆盖所有情况。这些代码的逻辑基本是，如果遇到某种特定情况，算法就会查询代码中预先编写好的应对方案，比如遇到红灯需要停车、直行车道不能转弯等等。

但是日常出现的驾驶情况太多了，并且还会有不常见的边角情况出现，它们往往非常危险，因为在算法库里，可能没有编好这种情况下的应对方案。此外，在 100 种不同的驾驶场景中，你可能需要 100 种不同的踩刹车和加速的方法，才能达到平滑的驾驶效果，否则就很容易晕车。显然，要想让系统在所有情况下都像人类驾驶那样流畅，这是人类工程师哪怕日以继夜地编写代码，也难以实现的。

特斯拉在以往的方法下，已经是市场领先。特斯拉在感知层面，采用了一个叫做九头蛇的系统来进行物体识别。HydraNet 首先通过八个摄像头的图像输入，进入到后端的一个基干网络，每一个任务都由一个专门的头来负责，比如进行物体检测、红绿灯识别、车道预测等等，特斯拉一共设计了 50 个 Head，对各种任务的分类很细。

而在规划部分，特斯拉采用的是类似谷歌 AlphaGo 下围棋的方法，快速穷尽所有可能性，并计算出其中胜率最高的一条路径。围棋要遵守棋规，FSD 要遵守交通规则，这其中就是大量人为定义的规则。简单来说，就是根据预设规则，在所有可能的驾驶轨迹中，计算出一个不会和任何物体碰撞并且不违反交规的最优解。

V12 出来掀了桌子，把之前很多技术都丢进了垃圾桶。V12 不再需要通过代码写好 " 遇到红灯需要停下 "，而是通过让 AI 观看大量人类驾驶员的驾驶视频，让 AI 自己找出成千上万条规律，遇到红绿灯、减速、刹车这是 AI 自己学会的，是自己 " 悟 " 出来的。正是因为这样的一个转变，原来负责这一块的 30 万行 C++ 代码，如今变成了 3000 行。这也是为什么 V12 版本中，FSD 的驾驶表现非常拟人化。

从更底层的角度来说，V12" 看 " 的是像素点。V12 不需要先识别画面中的东西是什么、再到决策部门根据这个感知结果做判断，而看的是画面中的最小单位像素点，V12 把画面上像素点的位置、组成的形状以及运行的规律，直接输入到神经网络中，通过数以亿计的真实视频来学习经验，把现在输入的像素点，与之前学习时遇到的像素位置进行对比，而这些学习的视频，就是真实人类司机的驾驶反应。然后直接输出一个结果，就是执行所需要的刹车、电门、方向盘。

以往视觉方案中的劣势，比如异形障碍物识别失败的问题，现在几乎不存在了，只要能拍到这个物体，让它出现在画面里，它就会成为画面中的一堆像素点，V12 只需要这些像素点就够了，所以 V12 所代表的 AI 方案被称为 " 纯视觉的最终解决方案 "。

当然，那如果训练所用的视频数据本身是鲁莽驾驶，那是不是训练出来的 AI 驾驶员就会非常危险？答案确实是，特斯拉的解决办法是开辟汽车保险业务。

比如在美国，特斯拉通过北美的保险业务，延伸出了一套驾驶员行为评分系统，它会对人类驾驶员的驾驶行为严格打分。特斯拉用于训练 FSD 的数据，全部来自于 90 分以上的驾驶员，可以说是对数据的要求极为苛刻。

当然，V12 跟 ChatGPT 这样的大模型很像，都是一个 "黑盒模型"，它们需要通过足够多的数据训练，才能涌现出一些惊人的能力，并且设计它的工程师也不知道，为什么会涌现出这些能力。

这也是为何 FSD 需要超过 60 亿英里的验证里程，只有推理得够多，才能知道如何对模型进行微调和优化，在自动驾驶领域重现大语言模型中 Scaling law 的情况，实现指数级的能力增长。如马斯克所言：当你有 100 万个视频片段，勉强够用；200 万个，稍好一些；300 万个，就会感觉哇塞；1000 万个，将变得难以置信。

那么，特斯拉的追赶者能追上吗？这背后需要的是极其庞大的算力。" 现在来看，自动驾驶超越人类驾驶就只是时间上的问题。" 马斯克说。在今年一季度，特斯拉把总算力又提高了，等同于 3.5 万块英伟达 H100 的算力，到年底还要翻倍达到 8.5 万块算力规模，这令特斯拉成为美国拥有第一流算力规模的科技公司，与微软、Meta 相当。

二、纯视觉方案，有哪些优劣势？

目前自动驾驶领域，主要分为纯视觉和激光雷达两个方案。如今纯视觉通过结合 AI，实现了端到端，有了突飞猛进的变化。在激光雷达方案里，还是依靠 Rule-base 的方法，通过激光雷达、毫米波雷达、超声波摄像头这些复杂的组合方案，现阶段其实也有不错的表现。那么纯视觉 +AI 和 Rule-base+ 激光雷达相比，有何优劣？

一言以蔽之，纯视觉的劣势是起步慢，但成长性更强。原来的 Rule-base 在初期能力增长快，但后期空间严重不足，两者存在一个交点。

Rule-base 也可以通过不断修改来进行迭代。一旦发现问题之后，就可以找到对应的代码，一般都是 if-else 语句，if 在什么情况下发生，否则 else 怎么样，这是规则式的核心逻辑。这时候只要修改某个 if-else 语句的参数量，或者解出错误的行数，把问题修复就解决了。这里面不需要喂大量的数据，直接把修复代码放在车上重新部署即可。

在到达两者的交点之前，意味着 Rule-base 算法优于大模型。这是大模型的特点导致的，当数据量不够的时候，相比于规则式算法稳定性不够。这也是 Rule-base 的核心优势，它的解释性比较强，规则非常明确，当把代码部署到车上之后，会具备最基本的能力表现，能让车实现基本的 ACC、LCC 辅助驾驶功能。但大模型不行，在没有经过足够的数据训练之前，产品是非常弱的。

但在两者的交点之后，纯视觉的端到端模式，则更像是面向未来的终极方案。由于 AI 大模型具有通识能力，它能够理解以前没有看到过的东西。

比如说，某一次从前面的车上掉下来了一个塑料袋，另一次则掉出来了一个啤酒箱，但是在我们的训练数据集里，从来没有出现过这两种情况。作为人类司机，我们知道塑料袋是软的，不需要规避，但啤酒箱是硬的，需要规避。如果没有大模型，自动驾驶系统就相当于一直生活在车上，它只能解决曾经在这个车上看到的场景。但是真正的人类驾驶员肯定不只生活在车上，他还生活在整个世界里，而大模型有通识能力，它能识别出塑料袋和啤酒箱的区别，它更接近人类，能应对各种场景，更何况它还有 8 颗摄像头。

此外，从硬件角度来说，纯视觉的端到端模式完胜，因为只需要 8 颗摄像头，未来最多是不断升级像素，这能极大降低整车成本。而且基本无需担心硬件迭代，所带来的技术断层问题。

如果展望未来，从用户体验角度来说，大模型更能和座舱联动。未来的自动驾驶 AI，可能就会和真正有一位司机在开车一样，你可以跟它聊天：比如 " 刚刚路过的湖叫什么？"，或者给它下达命令，比如 " 现在靠边停车 " 或者 " 我们不太舒服你开稳一点 " 等等，这是迈向 L4 级自动驾驶的重要一步，也是提升自动驾驶体验很关键的一点。

当然，虽然说 V12 的端到端确实是颠覆性的进步，但我们离真正的完全自动驾驶还有一条明确红线，就是——责任在人类驾驶员还是在汽车系统身上，无论从技术、安全还是产品责任的角度来看，这都是一条最重要的分界线。目前，虽然有这么多进步，但我们还处于 L2 以下，我们可能需要足够多的安全数据，来证明自动驾驶的事故率小于人类，才有可能真正跨越这条红线。