0


从安全角度看用大语言模型实现的自动驾驶

23年12月来自美国西北大学、耶鲁大学和英国利物浦大学的论文“Empowering Autonomous Driving with Large Language Models: A Safety Perspective“。

自动驾驶AD在商业落地方面面临着关键的障碍,尤其是由于不可预见的长尾驾驶场景,公众信任和安全问题减弱。这种困境是由于AD软件中深度神经网络的局限性造成的,深度神经网络难以解释,在分布外数据OOD和不确定的场景中表现出较差的泛化能力。为此,本文主张将大语言模型(LLM)集成到AD系统中,利用其强大的常识知识、推理能力和人机交互能力。其提出的方法将LLM部署为规划中的智能决策者,结合安全验证器进行上下文安全学习,提高AD的整体性能和安全性。实验给出两个案例结果,去验证方法的有效性。进一步讨论了LLM在其他AD软件组件(包括感知、预测和模拟)中的集成潜力。

如图是概览提出的用于AV软件流水线的LLM集成。最直接的是,LLM可以通过文本描述来理解场景,从而做出行为层面的决策,如车道保持和变道,这直接影响了具有不同优化公式和安全约束的低级轨迹规划,得以提高安全性。安全验证器检查决策中提出的控制输入安全性,如果动作验证为不安全,则进行上下文学习,如绿色箭头所示。不安全反馈可以追溯到如图的行为制定者、预测者和感知模块。此外,LLM可以帮助感知模块更好地了解决策场景,例如行人横穿带有停车标志的道路,自车应该完全刹停。LLM还可以通过获取周围环境交通参与者的最新历史来更好地猜测其驾驶习惯(攻击性)和意图(例如,是否变道),从而帮助进行意图预测,从而做出更安全的决策。

添加图片注释,不超过 140 字(可选)

LLM有能力通过提示工程思考和推断自动驾驶的行为级决策。如图所示,该框架展示了如何利用LLM作为行为规划器,为低级MPC轨迹规划器提供安全约束。LLM驾驶器以高级意图预测、场景描述、行为状态机和自身记忆数据为输入,并基于对驾驶场景的理解做出行为决策。不同的LLM决策将为基于低级MPC的轨迹规划制定不同的安全约束。MPC问题的可行性将被发送回LLM,(重新)评估其上下文安全学习的决策。

添加图片注释,不超过 140 字(可选)

文章用开源的HighwayEnv【Leurent2018】开发了一个高速公路驾驶环境。如图所示,考虑单向三车道驾驶场景。假设车辆动力学是已知的,并且可用于MPC,其可以表示为st+1=f(st,ut),其中s=(x,y,vx,vy),其中x,y、vx、vy分别表示纵向位置、横向位置、纵向速度和横向速度。自车的连续控制输入ut包括加速度和转向信号。f: S×U → S表示自行车模型动力学[Jiao2023]。

图中自车是蓝色的,其他智体是黄色的。蓝点是自车的规划轨迹。红点是来自基于间隔预测的其他智体采样路点。灰色框是自车和其他智体最近的轨迹历史。LLM在模拟中表现出四种情况,即(a)安全的车道保持、(b)乐观的变道、(c)谨慎的变道放弃和(d)保守的故障保护。

添加图片注释,不超过 140 字(可选)

调用OpenAI GPT-4 API作为LLM驱动程序智体。在特定感知范围内输入周围环境的文本描述,包括它们的相对位置(例如“车辆 i 是在右侧车道上自车之前驾驶”或“车辆 i 在中间车道上自车后驾驶”)、它们的相对速度(例如“车辆 i 比自车行驶得更快/更慢”)、,以及其他车辆的意图预测。LLM决策器的输出被约束为通过思考为较低级MPC选择目标车道(如“中间车道、左车道、右车道”)。

AV上的预测模块在时间步长t预测周围汽车j的未来状态sjt。为了现实起见,假设预测的位置结果是特定时间步长上的区间。假设位置区间包含未来环境的真值。由于MPC的时域减弱特性,需要调用预测模块来获得MPC安全约束中的预测结果。

一个基于MPC的规划器定义如下优化目标:

添加图片注释,不超过 140 字(可选)

其中Lane(y) ∈ 0, 1, 2根据横向距离y决定车辆驾驶的车道,记作 “左”, “中”, 和"右"。

为了降低复杂性,利用LLM的推理能力和常识知识,向LLM提供场景文本描述并要求做出放松MPC约束的决定,再决定为MPC规划器去行驶哪条车道。具体来说,在时间步长t,LLM的条件MPC试图解决以下优化问题:

添加图片注释,不超过 140 字(可选)

因此,问题(1)是一个混合整数非线性规划问题。在实践中,正如实验所观察的,这个问题往往是办不到的。在LLM的帮助下,删除了问题(2)中的整数决策变量,因此更容易解决。这个方法与[Huang,2016]中介绍的分层MPC有着相似的理念,在该理念中,将硬轨迹规划分解为更容易解决的两阶段问题。

出于安全目的,自车的控制输入必须通过验证模块(验证器)进行安全验证或确认,并将验证结果提供给LLM,重新评估行为决策。验证器可以是可达性分析[Wang,2023d]、障碍理论[Wang et al.,2023c]和/或是问题(2)中具有安全约束低级MPC的可行性。本文研究中,由于假设周围环境的基于间隔位置预测和MPC的安全约束,如果MPC问题(2)是可行的,那么将“验证者对所提出的车道(LLM)感到满意”反馈给LLM。否则,不可行的MPC会导致潜在的不安全规划路径点,将其反馈给LLM,要重新评估场景并重新生成另一种行为。LLM的上下文安全学习如图所示:LLM利用来自低级MPC反馈的提示工程用于轨迹规划。

添加图片注释,不超过 140 字(可选)

对于低级MPC,再生行为或所有行为可能仍然不可行,无法确保安全性。在这种情况下,将AV系统切换到故障保护模式;在这种模式下,行为是保持当前车道,并制动与前车保持最小距离。把安全放在首位,因此自车可以使用保守的硬刹车来降低车道保持中的速度。

观察到的问题,即使两条车道都是畅通和安全的,LLM也会出现不必要的车道变化。这些决定背后的理由可以是“中间车道为机动提供了更多的操作空间”,也可以是“目标车道在效率和安全性之间提供了更好的平衡”。虽然GPT-4表现出了值得称赞的性能,但GPT-3.5-turbo纠结于区分“较长”和“较短”的碰撞时间(TTC),导致次优和不正确的决策,特别是在以后的迭代中如此表现。尽管最初在早期操作中准确地估计TTC,但GPT-3.5-turbo后来出现自相矛盾。总之,观察结果表明,GPT-4在自动驾驶的行为决策方面始终优于GPT-3.5-turbo。

与大多数现有的自动驾驶LLM工作一样,前面的案例研究侧重于这种一步规划或单帧决策。然而,可以通过明确考虑自车的高级行为模式(由LLM控制)以及在多个连续步骤中与周围智体的预测和交互,进一步提高LLM在驾驶任务中的性能和安全性。下面的案例研究有以下亮点。

在实际驾驶情况下,执行变道或无保护左转等操作需要几个步骤。车辆必须遵守既定规则或模式,才能与附近的交通参与者进行有效交互并完成这些任务。这就要求LLM符合特定的行为约束。建议通过上下文学习或少样本微调将状态机集成到LLM中。这种方法旨在确保遵守这些基本规章和既定模式,同时保持决策的足够灵活性。

状态机为条件的LLM可以在几个方面提高决策过程的安全性和可解释性。首先,状态机可以约束决策空间,简化时间序列决策之间的依赖关系。如果LLM确保状态之间的过渡是安全的,人类可以信任决策流水线。其次,在状态机设计中添加了一些中间/交互状态,帮助LLM更好地理解其他车辆的行为。在这些状态下,LLM可以主动与周围车辆(例如,变道时目标车道上的跟随车辆)交互,但仍能确保安全。

如图所示,展示用LLM作为决策器的交互式换道流程。该框架以状态机为中心,定义了LLM的基本行为模式。该存储器存储有关周围车辆的重要历史信息,帮助LLM预测其意图。反思模块用于监测LLM,确保状态到状态的转换有效,并在LLM违反转换约束时向LLM提供反馈,进行上下文学习。LLM基于预定义的规则和推理信息来确定最终的状态转换。

添加图片注释,不超过 140 字(可选)

转换的检验包括:

状态检查:根据预定义的状态机图,所选状态必须有效。
安全检查:如果LLM在过渡到下一个状态时采取某些动作,会评估碰撞的可能性。在这个交互式换道的特定示例中,应用TTC来确保所提出的状态不会导致碰撞。LLM将TTC与设置的阈值进行比较。
预测检查:LLM基于记忆模块中附近车辆的多帧历史行为来预测其意图。如果LLM认为周围的车辆过于激进或不合作,则进行机动是不安全的。给定周围车辆不同的预测行为模式,LLM可以以不同的方式与周围车辆交互。
反思模块:状态和安全检查是决策过程中的严格要求。为了确保符合这些要求,反思模块监视状态转换。该模块纠正LLM并向其提供反馈,促进上下文学习,尤其当决策违反这些严格约束。对于行为预测,反思模块对意图估计没有任何约束——LLM独立灵活地评估周围车辆的意图,将其归类为攻击性或合作性。
意图预测模块:与MPC预测不同,意图预测是估计周围车辆的高级行为模式,不需要非常详细,但对交互很重要。将周围智体的潜在意图定义为合作和侵略。用周围车辆的TTC来测量攻击性水平。在每一个规划步骤中,LLM决策器都会提取前面3个步骤中周围车辆的TTC,并预测其相应的意图。在建立LLM时,提供几个人工标注演示数据。

如图是作者提出的用于变道安全交互式决策流水线示例。通过状态机设计和行为级预测,LLM驱动的智体可以在复杂场景中连续、交互地做出可解释和安全的决策。在每个周期中,LLM将通过三个行为级检验(状态、预测和安全)来推理其决策。如果LLM犯了严重和明显的错误,反思模块将为备份规划和上下文学习提供反馈。MPC模块将负责低级控制的可行性和安全性。

添加图片注释,不超过 140 字(可选)


本文转载自: https://blog.csdn.net/yorkhunter/article/details/139627097
版权归原作者 硅谷秋水 所有, 如有侵权,请联系我们删除。

“从安全角度看用大语言模型实现的自动驾驶”的评论:

还没有评论