大模型与自动驾驶结合范式

利用大型语言模型的推理能力赋能自动驾驶的技术方案

Featured image

相关论文

DriveMLM: Aligning Multi-Modal Large Language Models withBehavioral Planning States for Autonomous Driving 语言模型×自动驾驶逻辑架构

整体架构遵循编码器和解码器的逻辑架构,“编码器”实际上是由多个编码器构成,用于处理不同的模态的输入;

输入包含:

这些输入经过各自编码器转码成向量,输入到解码器中;

解码器的输出是决策状态及对决策的解释;

决策状态包含速度决策和路径决策:
速度决策包含:匀速、加速、减速、刹停;
路径决策包含:跟随、左换道、右换道等;

LMDrive: Closed-Loop End-to-End Driving with Large Language Models

论文解读参考

这里的输入增加了导航描述,输出直接是规划的轨迹点以及中间的一些辅助信息,如:预测某些指令动作是否完成、

DriveLM:Drive on Language

基于视觉语言模型(VLM)开发的自动驾驶系统,核心概念是图视觉问答(GVQA);相比于VQA,纯视觉问答,GVQA中的QA与QA之间,具有一定的逻辑依赖关系,这种逻辑依赖关系可以是类似感知、预测、规划任务的关系,针对每一个任务设计问答,更符合人的逻辑思维;

实际操作中,QA被划分为了以下类别:

  1. 感知:在当前场景中,识别、描述、定位关键物体;
  2. 预测:根据感知结果,估计关键物体可能的行动
  3. 规划:自动驾驶车辆的所有可能的行驶方式
  4. 决策:对驾驶行为进行决策
  5. 运动:自动驾驶未来的轨迹航点

模型结构以BILP-2为基础的VLM,也可以选择其他的VLM;