股票杠杆申请理想VLM有不少惊喜，但还不是端到端的终局

王朝的更替难免会爆发大规模的战争，即使是武艺超群的将领也不一定会有一个好的结局，在残酷的战争影响下，许多著名将领尚未实现自己的报复就死于非命，隋唐之中就有六位典型的猛将惨死股票杠杆申请，李元霸死在亲人手里，罗成则是最命不该绝的一个史书把吐迷度之死归因于乌纥蒸其叔母所引发的回纥王族内部纠纷，外加乙注车鼻可汗的挑唆。后世研究皆沿用此说，未有异议。但是，乌纥、俱罗勃二人在事后的反应却颇为吊诡，以至于让我们有理由怀疑这段史料记载的真实性。 “理想的端到端架构不乏先进性，首次将VLM部署到Orin-X

王朝的更替难免会爆发大规模的战争，即使是武艺超群的将领也不一定会有一个好的结局，在残酷的战争影响下，许多著名将领尚未实现自己的报复就死于非命，隋唐之中就有六位典型的猛将惨死股票杠杆申请，李元霸死在亲人手里，罗成则是最命不该绝的一个

史书把吐迷度之死归因于乌纥蒸其叔母所引发的回纥王族内部纠纷，外加乙注车鼻可汗的挑唆。后世研究皆沿用此说，未有异议。但是，乌纥、俱罗勃二人在事后的反应却颇为吊诡，以至于让我们有理由怀疑这段史料记载的真实性。

“理想的端到端架构不乏先进性，首次将VLM部署到Orin-X芯片，那么VLM是加速端到端上车的妙招吗？”

作者 | 郭瑞婵

编辑 | 李雨晨

7月15日，理想汽车正式向AD Max用户全量推送无图NOA，成为继华为系之后第二家完成全量推送的车企。这次推送将覆盖理想的5个车型、超过24万用户。

无图NOA有了着落，给理想以及理想的用户乃至投资者吃下了一颗定心丸。

在此前的智能驾驶发布会上，理想发布了正在研发中的端到端+VLM（视觉语言模型）+世界模型的第三代技术架构。

相比现有的端到端技术路线，理想的亮点在于提出了“双系统”的理念，首次将VLM部署到Orin-X芯片，并选择了更为激进的目标，即One Model端到端。

去年下半年，理想开始在团队内部孵化并启动预研端到端+VLM技术架构。理想智能驾驶副总裁朗咸朋表示，目前该技术架构已经完成模型的原型验证和实车部署，“实际上车效果超过了我们的预期。”

不久前，CEO李想在重庆论坛上透露，理想的端到端+VLM技术架构最早会在今年年底，最晚明年年初推出。这是个颇为激进的提法。

发布会之后，雷峰网《新智驾》与一些智驾圈的从业者进行了交流，从他们的角度对理想的端到端+VLM技术架构进行评价。

One Model有可能明年初就上车？

自动驾驶端到端的热潮由特斯拉掀起，FSD V12所表现的超高能力上限，让国内的自动驾驶玩家看到了确定性，形成了新一轮的竞争中心。

在智驾自研上布局较晚的理想，也大力投入端到端。在无图NOA的基础上，理想正在部署第三代架构——基于One Model端到端模型、VLM和世界模型的全新自动驾驶技术架构。

理想的第三代架构参考了丹尼尔·卡尼曼的《思考，快与慢》，也分成了系统1和系统2来模拟人类的驾驶行为，两个一快一慢的系统各占用一块英伟达Orin-X芯片。

系统1，即快系统，由One Model端到端大模型构成——感知与规划共同整合成一个大模型，输入传感器的信息后，直接就输出行驶轨迹，完全由数据驱动，能够应付95%的驾驶场景。

从目前业内披露的信息来看，理想系统1的One Model端到端架构相当激进。

以华为与小鹏为例，这两家的端到端架构还主要划分为两大块，分别是感知大模型与规控大模型，还不是理想宣称的“一步到位”。

由于各家对于“端到端”的理解与定义不尽相同，不同玩家展出的“端到端”模型都有所区别。

根据辰韬资本发布的《端到端自动驾驶行业研究报告》，端到端的核心定义是感知信息无损耗传递，可以实现自动驾驶系统的全局优化。

从传统自动驾驶模型向端到端演进，将经历四个阶段：感知“端到端”、决策规划模型化、模块化端到端、以及One Model端到端。

目前，业内大多数玩家通过“BEV+transformer”架构已经完成了感知“端到端”，正在努力实现决策规划模型化。

在决策规划模型化阶段，基于感知“端到端”，从预测到决策到规划的功能模块被集成到同一个神经网络当中，用深度学习取代了Rule-based，能够提升决策规划应对复杂场景的上限。

但在这个阶段，从感知到决策规划的接口信息还需要人为定义，感知信息仍有损耗，且两大模型是独立训练而成，还不是真正意义上的“端到端”。

直到进入第三个阶段，即模块化端到端，才能称作“端到端”。在这个阶段，虽然还分为感知与规控两大部分，但感知与规控之间的接口已经不再基于人为定义，保证了信息的完整性。

此外，两个模块之间通过梯度传导的方式进行整体的训练，能实现全局优化的效果。

《报告》认为，目前已经或者接近量产的方案还停留在决策规划模型化阶段，距离模块化端到端或One Model端到端自动驾驶量产落地还有距离，预计模块化端到端将于2025年开始上车。

尽管各家的口号都喊得响亮，但实际上要走向第二个阶段都不容易。

某智驾公司创始人何扬告诉《雷峰网》新智驾，规控纯“端到端”（即决策规划模型化）不现实，如果发生了错误，难以确保要采多少数据才能把这个错误给修正回来，研发迭代和OTA量产都没有保证，因此必须要用规则来为规控“端到端”兜底。

蔚来智能驾驶研发副总裁任少卿也曾在《深网》的采访中表态，到今天来说，业内已经完成规控模型化的玩家都寥寥无几。

任少卿认为，做端到端大模型的前提是智驾各功能模块都已经完成模型化，并且具有足够性能与效率的工程体系支撑，没办法模型化，是因为工程体系还支撑不了这件事，比如需要有快速训练一个模型并快速验证的能力。

“你得有一些基本的能力之后，（端到端大模型）这玩意才有用，否则它是个毒药。”

因此，蔚来采取的是渐进式端到端路线，逐一完成模块的“端到端”。7月11日，蔚来发布了“端到端”AEB，宣称“端到端”的应用使得AEB的场景覆盖率提升5倍，同时误报率几乎没有增加。

据理想官方介绍，理想现在的无图NOA已经把感知和规划各自整合成一个模型，也就是说，理想现阶段已经完成了决策规划的模型化。

而理想最晚要在明年年初实现最后的One Model端到端，这个目标已经超越了业内的整体进度。

算法、算力与数据，是自动驾驶的三大基础。而自动驾驶端到端的数据驱动特质，对算力、数据等基建提出了更高的要求。与特斯拉为“端到端”在算力、数据方面投入的资源相比，国内目前仍有较大差距。

算力层面，根据“汽车之心”统计，特斯拉的DOJO智算中心，预计到2024年10月，总算力将达到10万PFLOPS，相当于约30万块英伟达A100的算力总和。目前，理想的算力储备为2400PFLOPS，这个数值在国内已属于头部。

数据层面的差距也十分凸显。何扬向雷峰网《新智驾》提到，特斯拉每天在线跑的车的数量有200万辆，国内难以望其项背。

某智驾公司高管也曾向雷峰网《新智驾》表示，特斯拉从早年做L2的功能，到高速领航，开始推出Learning-based的规控，并以之为基础做端到端，正好是在它的保有量大概达到百万辆的时候。

“只有当你有这么大规模的数据量以后，才能用相应的方法，当你没那么多量的时候，方法根本用不起来。”

位居新势力榜单榜首的理想，在这方面与国内同行相比具有不小优势。

截至今年6月，理想的车辆保有量已经超过80万台。在可观的保有量里，理想筛选出了只占3%的达到专车司机标准的用户，把这些用户的数据输入到模型中，目前端到端模型已经学习了超过100万公里的数据，到年底可能超过500万公里。

算力与数据均无法媲美特斯拉，国内的端到端玩家选择开辟与特斯拉不完全相同的路线。

VLM是加速端到端上车的妙招吗？

理想的技术路线，是在One Model端到端之外，再加一个基于VLM的系统2提供辅助，配合系统1处理余下的5%的特殊场景。

VLM是LLM（即大语言模型）的进阶版，除了处理文本，VLM还能处理视觉输入，认识所在的场景，此前在具身智能领域已有较多探索。

理想是国内第一家公开将VLM这个概念引入自动驾驶的车企。但实际上，VLM在自动驾驶领域的应用可以追溯得更早。

今年5月获得10.5亿美元融资的英国科技公司Wayve，在23年9月年就发布了基于VLAM的LINGO系列的第一个模型，将自然语言引入了自动驾驶，让自动驾驶系统解释自己的决策逻辑，提高了模型的可解释性。

“大语言模型收集语料，通过预训练拥有了隐性的知识，包含了常识性的东西，具备一定的思考和退避能力。”

某车企智驾模块负责人徐智告诉雷峰网《新智驾》，VLM所具有的这些显性优势，理论上能帮助解决长尾问题，这也是为什么业内要尝试把大语言模型引入自动驾驶，甚至提出要用大语言模型替代传统的规控算法。

今年5月，小鹏声称已经量产的端到端大模型实际上也运用了大语言模型。小鹏的端到端由感知神经网络XNet、规控大模型XPlanner、AI大语言模型XBrain三部分组成。其中，大语言模型XBrain能够提供系统处理复杂甚至未知场景的泛化处理能力。

理想方面表示，基于VLM的系统2能够提供复杂环境的理解能力、读懂导航地图的能力以及交通规则的理解能力。

比如当系统2识别到坑洼不平的路面，或者光线较差的道路环境，会对驾驶员和系统一发出提醒，并适当减速。

系统2还能理解潮汐车道、公交车道等交通运行规则，知道在什么时间开哪条车道，对系统一作指导和建议。通过读取导航信息，系统二还能判定系统一是否有走错路，并实时规划新的路径。

朗咸朋表示，“系统2的角色相当于我们的副驾永远坐了一个驾校的教练，这个教练也会时时刻刻监督你的行为，当你开错道或者需要帮助的时候，它会主动提供一些建议，让你更好地开这个车。”

不过，从“纸上谈兵”迈入量产，现实非常“骨感”。车端算力有限，VLM这类动辄10亿参数量以上的大模型难以在端侧部署，是落地最显性的难题。

理想是第一家将VLM部署到Orin-X芯片的企业。理想的VLM参数量达到22亿，为了把这样一个大模型部署在车端芯片，理想做了许多尝试并与英伟达共同合作，最终将推理性能从4秒降到了0.3秒。

不止一位自动驾驶业者认为，理想对于VLM模型在车端芯片上运行的时延问题，优化得比想象中要更好。

“学术界一直有对VLM进行探索，在工程化上，理想能够把时延从4秒压缩到0.3秒挺令人震惊，这意味着VLM已经开始具备实用性了。”徐智表示。

但0.3秒的时延，也表示理想的VLM只能扮演一个非实时的监督者，提供辅助。如要承担系统1这样的主线任务，时延要达到30～50毫秒级别才算合格。

视觉算法工程师梅乐表示，理想的系统2由于时延的问题实际上无法处理突然发生的Corner Case，VLM的作用主要还是在规划层面。

“实时的感知和规划会丢掉更多的历史信息，但是VLM跑得比较慢，可以把更长的历史信息积累下来，可以给出更多关于场景的信息，帮助规划收敛到一条更合适的路线。”

据介绍，理想的VLM采用流式视觉编码器，相比于大部分的单帧VLM来说，可以缓存更长的视觉时序。同时，理想还设计了一个记忆模块，用来缓存多帧历史信息，更好地来执行超长时序的推理问题，解决超长时序的推理时延。

理想基于VLM的系统2，相当于给系统1上了一个“外挂”。

梅乐认为，“端到端大模型上车，还有很长的路要走，如果优化的效果没有达到一定程度，车企是不敢贸然上车的，这时候有个外挂系统，起码让车企的信心更足一点，能加速端到端更快上车，是挺好的尝试。”

理想的双系统技术架构，是否会在业内掀起一波跟风潮？

梅乐认为，“VLM能起到作用是无疑的，但是业界真正关注的是，VLM花掉的算力和所实现的功能之间的投入收益比，这也是各家要不要跟进的一个决定性因素。”

另一方面是，“特斯拉的路径已经证明了，好的司机是不需要教练的。”

VLM的赋能，最终能为理想的端到端提供多大的帮助，在未正式量产前还难以判定。

徐智最近在研究VLM模型在机器人领域的应用。他表示，用VLM来控制机械臂，从目前的研究来看，即便是针对专门的简单场景，如执行把物品放在桌子上的指令，若经过VLA、模仿学习的优化后，机械臂执行任务的成功率是80%，若没有经过优化，成功率只有30%不到。

“这个概率对于自动驾驶来说是无法接受的，现阶段就把VLM用起来其实难度挺大的。”

目前来看，端到端的技术路线尚未收敛，理想的双系统架构是其中一项不乏创新性的探索。

过去，在蔚小理三家中，理想对自动驾驶的投入相对保守。去年理想开始大力扩招并追赶进度，今年一季度研发投入达30亿元，同比增长64.6%，理想正在以更积极的姿态加入这场竞争中。

年轻人会为小鹏的MONA买单吗？

争议十多年的「双目视觉」路线股票杠杆申请，为什么一直没有存在感？

徐智模型化模型端到端雷峰网发布于：广东省声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。

上一篇：配资排名从1618年到1622年，明朝在辽东集结了多少军队？下一篇：正规在线配资公司商务部副部长王受文会见沃尔玛国际总裁兼首席执行官凯瑟琳·麦克莱

股票杠杆申请理想VLM有不少惊喜，但还不是端到端的终局

发布日期：2024-08-11 22:50 点击次数：199

栏目分类

热点资讯

相关资讯

股票杠杆申请 理想VLM有不少惊喜，但还不是端到端的终局

发布日期：2024-08-11 22:50 点击次数：199

栏目分类

热点资讯

相关资讯

股票杠杆申请理想VLM有不少惊喜，但还不是端到端的终局