May 14, 2024 1 min to read

大模型与自动驾驶结合范式

利用大型语言模型的推理能力赋能自动驾驶的技术方案

整体架构遵循编码器和解码器的逻辑架构，“编码器”实际上是由多个编码器构成，用于处理不同的模态的输入；

输入包含：

这些输入经过各自编码器转码成向量，输入到解码器中；

解码器的输出是决策状态及对决策的解释；

决策状态包含速度决策和路径决策：
速度决策包含：匀速、加速、减速、刹停；
路径决策包含：跟随、左换道、右换道等；

这里的输入增加了导航描述，输出直接是规划的轨迹点以及中间的一些辅助信息，如：预测某些指令动作是否完成、

基于视觉语言模型（VLM）开发的自动驾驶系统，核心概念是图视觉问答（GVQA）；相比于VQA，纯视觉问答，GVQA中的QA与QA之间，具有一定的逻辑依赖关系，这种逻辑依赖关系可以是类似感知、预测、规划任务的关系，针对每一个任务设计问答，更符合人的逻辑思维；

实际操作中，QA被划分为了以下类别：

模型结构以BILP-2为基础的VLM，也可以选择其他的VLM；

沙中世界 v3.1.2