分销赏收藏举报申诉 / 10

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于效用理论的运动规划奖励函数设计方法.pdf

基于效用理论的运动规划奖励函数设计方法.pdf

上传人：自信****多点

文档编号：640834

上传时间：2024-01-22

格式：PDF

页数：10

大小：10.24MB

《基于效用理论的运动规划奖励函数设计方法.pdf》由会员分享，可在线阅读，更多相关《基于效用理论的运动规划奖励函数设计方法.pdf（10页珍藏版）》请在咨信网上搜索。

1、2023 年（第 45 卷）第 8 期汽车工程Automotive Engineering2023（Vol.45 ）No.8基于效用理论的运动规划奖励函数设计方法冉巍1，陈慧1，杨佳鑫1，西村要介2，国朝鵬2，尹又雨3（1.同济大学汽车学院，上海 201804；2.株式会社捷太格特，日本6348555；3.捷太格特科技研发中心（无锡）有限公司，无锡 214161）摘要实现个性化且符合驾驶员偏好的运动规划对提高驾驶员对自动驾驶系统接受度具有重要意义。本文提出了一种考虑驾驶员偏好的运动规划奖励函数设计方法。首先，基于效用理论提出了一个量化驾驶员轨迹偏好的双层结构模型，上层效用评估模型量化驾驶员在

2、安全、舒适性和效率之间的权衡过程；下层的驾驶员感知模型量化了驾驶员对安全、舒适性和效率方面的主观感受与轨迹特征指标之间的关系。接着，分别基于评分和配对比较两种评价方法提出了轨迹偏好模型的估计方法。最后，通过驾驶员模拟器评价试验对模型估计方法进行验证，每个试验者分别采用评分和配对比较的方式对多条轨迹进行了主观评价。基于获取的两种评价结果及计算得到的轨迹特征，分别用两种方法对驾驶员轨迹偏好模型进行了估计。结果表明，提出的模型能够较为准确地描述驾驶员的偏好评价过程，而基于配对比较的模型估计结果则更准确。关键词：效用理论；运动规划；奖励函数；驾驶员偏好；个性化Design Method of Moti

3、on Planning Reward Function Based on Utility TheoryRan Wei1，Chen Hui1，Yang Jiaxin1，Nishimura Yosuke2，Guo Chaopeng2&Yin Youyu31.School of Automotive Studies，Tongji University，Shanghai 201804；2.JTEKT CORPORATION，Japan6348555；3.JTEKT Research and Development Center（WUXI）Co.，Ltd.，Wuxi 214161Abstract Per

4、sonalized and driver-preferred motion planning is of great importance in enhancing the acceptance of autonomous driving systems by drivers.This paper proposes a method for designing a motion planning reward function that considers driver preferences.Firstly，a two-layer structure model for quantifyin

5、g driver trajectory preferences is proposed based on utility theory.The upper-layer utility evaluation model quantifies the drivers trade-off process between safety，comfort，and efficiency，while the lower-layer driver perception model quantifies the relationship between the drivers subjective feeling

6、s about safety，comfort，and efficiency and trajectory feature indicators.Then，two estimation methods for the trajectory preference model are proposed based on rating and pairwise comparison methods，respectively.Finally，the model estimation method is verified through a driver simulator evaluation test

7、.Each participant in the experiment subjectively evaluates multiple trajectories using both rating and pairwise comparison approaches.Based on the evaluation results from the two evaluation methods and the computed trajectory features，the driver trajectory preference model is estimated using the two

8、 approaches.The results show that the proposed model can accurately describe the drivers preference evaluation process，with the estimation results based on comparison more accurate.Keywords：utility theory；motion planning；reward function；driver preference；personalization doi：10.19562/j.chinasae.qcgc.

9、2023.08.008原稿收到日期为 2023 年 04 月 11 日，修改稿收到日期为 2023 年 05 月 22 日。通信作者：陈慧，教授，博士，E-mail：hui-。汽车工程2023 年（第 45 卷）第 8 期前言随着汽车智能化不断提高，自动驾驶或高级驾驶辅助系统（adavanced driver assistance system，ADAS）渗透率越来越高。如何使这些智能汽车按照驾驶员喜好的方式驾驶，提高驾驶员的接受度，已经成为一个亟待解决的问题。决策规划是影响智能汽车驾驶方式最主要的部分，其通常分为行为决策和运动规划两个部分。决策规划系统根据环境信息作出下一步行为指令，

10、例如是保持当前车道还是换道行驶，向左换道还是向右换道等。运动规划指系统根据行为决策的指令，规划出一条可供车辆行驶的运动轨迹，比如换道轨迹。运动规划的轨迹除了要求车辆能够安全且准确地跟踪之外，还需要考虑车内乘员的舒适性。由于不同驾驶员的喜好驾驶方式存在差异，因此有必要对行为决策和运动规划方法进行个性化改进1-2。决策规划通常被看做一个多目标决策问题，一个很重要的方法是首先对决策规划结果进行采样，然后设计一个对多个特征常包含安全、舒适、效率等方面，进行加权的成本或奖励函数，最后根据所有样本的奖励函数值大小来选择最优结果3-5。目前，强化学习（reinforcement learning，RL）在解

11、决最优序列决策规划时展示出很大的潜力6，越来越多研究通过经验设计奖励函数，利用RL方法来实现自动驾驶决策规划7-8。Xie等9通过RL方法，设计了包括安全性、跟踪准确性、操作负荷和类人一致性在内的奖励函数实现了类人的纵向跟车行为学习。由于这个成本或奖励函数描述了设计者对决策规划结果的期望，因此对决策规划结果有非常重要的影响。要为决策规划设计一个准确的奖励函数，特别是当需要考虑不同驾驶员的偏好差异时，是一件非常困难的事情10。为此，通过逆强化学习（inverse reinforcement learning，IRL）从驾驶员演示中学习奖励函数，再根据学习到的奖励函数实现类人驾驶已经成为当前的主要

12、方法11-14。IRL估计奖励函数权重的方法是通过匹配奖励函数下的最佳轨迹特征与驾驶员演示轨迹特征15。宋东鉴等16从动机驱动和可行性评估两个方面根据经验选取了轨迹规划特征，设计了能够表征驾驶人认知特性的奖励函数，通过逆强化学习方法对每个驾驶员的奖励函数系数进行学习。结果表明，相比更简单的奖励函数，根据认知特性设计的奖励函数能够更准确地进行类人决策规划学习。Xu等3从安全、舒适、效率以及换道激励等多个方面计算了轨迹特征并设计了奖励函数，采用IRL方法学习了奖励函数各部分权重，实现了对于高速公路换道决策和换道轨迹规划的类人驾驶学习。这些奖励函数包含的特征通常是基于经验手动选择的，如何合理选择特征

13、对提高学习效果也很重要。另外，虽然这些方法在类人驾驶方面取得了较好的效果，但当驾驶员作为“乘客”使用自动驾驶功能时，其喜好的驾驶方式与手动驾驶的驾驶方式并不完全一致17。已有研究发现，即使是激进的驾驶员也更喜欢比自身驾驶方式更保守的自动驾驶方式18-19。一个可能的原因在于当作为“乘客”时，驾驶员没有对车辆进行控制，其感受到的风险比正在手动驾驶车辆的驾驶员要更高20。综上所述，选择合适的奖励函数特征并设计符合驾驶员偏好的奖励函数对于实现驾驶员个性化的决策规划至关重要。之前的研究结果表明，不同驾驶员在弯道上的轨迹偏好存在显著差异21。因此参考该文研究场景，本文以驾驶员在弯道内无其他交通参与者的简

14、单场景下的过弯偏好轨迹作为研究对象，以设计个性化的运动规划奖励函数为目标，提出了一种量化驾驶员轨迹偏好的模型及模型估计方法。所估计出的模型可用作符合驾驶员偏好的个性化运动规划奖励函数。本文的主要贡献包括：（1）基于效用理论提出了一个双层模型来量化驾驶员轨迹偏好与轨迹特征之间的关系；（2）分别基于评分和配对比较两种评价方式，设计了偏好模型估计方法；（3）基于模拟器试验进行了评价试验，验证了提出的模型估计方法的有效性，并对两种评价方法下的估计结果进行了比较。1轨迹偏好模型构建效用理论已经被广泛用于进行多属性或多目标决策建模22。基于效用理论的离散选择模型也被用于对人们日常出行方式的选择进行建模，通

15、过对多个因素如时间、成本、舒适度等带来的不同效用进行权衡，选择效用最大的出行方式23。根据效用理论，可认为驾驶员偏好效用更高的轨迹。本文提出了一个双层结构的轨迹偏好模型，对驾驶员的轨迹效用评估过程进行了建模，如图1所示。13742023（Vol.45）No.8冉巍，等：基于效用理论的运动规划奖励函数设计方法在上层的效用评估模型（utility evaluation model，UEM）中，轨迹的效用U通常可由3部分效用线性加权而得，包括安全效用US、舒适效用UC和效率效用UE，考虑到存在部分未建模部分，所以再加上一部分随机效用，可得UEM表达式：U=SUS+CUC+EUE+=

16、TX+（1）式中：S、C、E分别表示安全、舒适和效率效用权重，=S，C，ET为效用权重向量，不同效用权重代表了驾驶员对不同效用项的偏好程度；X=US，UC，UET为 UEM的轨迹效用向量。效用项US、UC、UE不能直接获取，本文假设各个效用项是驾驶员通过对应的轨迹特征（例如横向偏移量、加速度以及速度等）感知到的。因此，在模型下层，通过驾驶员感知模型（driver perception model，DPM）对各个效用项进行建模。DPM包括3个部分，分别是安全感知模型（safety perception model，SPM）、舒适感知模型（comfort perception model，CPM）

17、和效率感知模型（efficiency perception model，EPM）。每个感知模型都能通过类似的线性效用函数和对应的轨迹特征进行计算。以SPM为例，其计算方式为US=S_1XS_1+S_2XS_2+S=TSXS+S（2）式中：S=S_1，S_2，.T为 SPM 的轨迹特征权重向量；XS=XS_1，XS_2，.T为SPM的轨迹特征向量；S为SPM的随机效用。类似地，可得到CPM和EPM的计算公式。在得到感知模型计算公式之后，便可通过感知模型和轨迹特征计算每条轨迹对应的安全、舒适和效率效用。进一步可根据UEM计算每一条轨迹的总效用，即对不同轨迹的偏好。上述各效用模型中的各个权重向量和轨

18、迹特征向量决定了该效用模型对不同轨迹的主观感知和偏好，也即代表了驾驶员的偏好。因此，驾驶员轨迹偏好模型的学习就变成了轨迹特征的选择和各模型权重向量的估计。2模型估计效用或偏好是驾驶员的一种主观感受，为了估计效用模型，需要获取驾驶员对不同轨迹的主观评价。最常见的主观评价方式是评分，这广泛应用于主客观评价相关性研究中24。除评分外，基于比较的方法也用于主客观评价相关性分析25或用户效用函数学习26。鉴于此，本文采用评分和比较两种评价方式对模型参数进行估计。对所提出的双层结构模型，模型估计分两步进行。第1步，根据安全、舒适和效率评价及轨迹特征估计3个DPM。第2步，根据安全、舒适和效率效用与偏好评价

19、建立UEM。为此，本节介绍建立感知模型所需轨迹特征和各个模型在两种评价方式下的估计方法。2.1轨迹特征为尽可能完整描述轨迹，本文参考驾驶员风格识别综述文献27、个性化驾驶辅助系统综述文献2中总结的轨迹特征以及本研究小组之前的研究28，计算了如表1所示的轨迹特征。表中，STLC（straight time to line crossing）指直线跨道时间，CTLC（curved time to lane crossing）指曲线跨道时间，TAD（time to anticipate distance）指预期跨道时间，表示驾驶员不同的风险感知类型，详见文献 28 。WARMS（weighted a

20、cceleration root mean square）指加权加速度均方根值，常作为描述乘坐舒适性的指标，计算方式参照文献 29。图1基于效用理论的轨迹偏好模型表1计算轨迹特征总结类别安全舒适效率变量横向偏移量跨道时间（STLC&CTLC，2种）TAD横向加速度，纵向加、减速度加加速度横摆角速度横摆角加速度WARMS速度特征个数：特征6：左/右偏移最大/平均值，左右偏移范围大小，最大偏移量8：左侧/右侧车道线跨道时间最小值/均值及其倒数2：最小值，平均值2：最大值，平均值2：最大值，平均值2：最大值，平均值2：最大值，平均值13：最大值，最小值，平均值 1375汽车工程2023 年（第 45

21、卷）第 8 期2.2基于评分的估计评分通常是根据一个离散的，如5点或7点李克特量表对评价对象进行打分。这种评分将效用直接映射到几个离散点。基于回归分析的相关性方法是常用的研究评分和评价对象特征定量关系的方法23。通常，评分是一种序数类型的数据，对评分进行回归需要采用序数回归的方法。但由于序数回归方法相对复杂，并且评分通常是一个间隔均匀且有明确含义的数据类型，因此，线性回归方法也被广泛用于建立主观评分和客观指标的相关性模型30-32。为了避免通过经验选择轨迹特征的问题，本文采用逐步线性回归方法用于同时选择模型轨迹特征和估计对应参数，然后再用线性回归方法对UEM进行参数估计。2.3基于比较的估计

22、对两个配对对象进行比较评价，能够挖掘用户的偏好，从而估计用户的效用函数25。对于一组配对轨迹（A，B），其效用分别为(UA，UB)。假设一个驾驶员，其模型 UEM的效用权重向量为，由于 UEM包含随机效用项，因此驾驶员的偏好具有随机性。用Pr(A|XA，XB，)表示UEM效用权重向量为的驾驶员对于效用向量分别为(UA，UB)的轨迹组（A，B）进行比较时，其偏好轨迹为A的概率，即UA高于UB的概率，代入式（1），可得Pr(A|XA，XB，)=Pr(UA UB)=Pr(B-A T(XA-XB)(3)随机效用(A，B)可认为是独立同分布的，但其具体分布未知。根据中心极限定理，一个最常见的假设是

23、正态分布。基于正态分布假设，可知Pr(A|XA，XB，)也为正态分布，其只能通过查找正态分布累计概率函数表进行求解而不能方便得到解析解。因此，一个更好的假设是标准Gumbel极值分布（即I型极值分布），基于该分布能得到易于计算的解析解23，如式（4）所示。Pr(A|XA，XB，)=11+e-T(XA-XB)（4）上述解的形式即为logistic函数，常用于二分类问题，可通过逻辑回归方法进行参数估计。同样地，为避免经验选择轨迹特征的问题，本文用逐步逻辑回归方法对感知模型进行估计，然后用逻辑回归方法估计UEM。2.4方法对比为了比较两种评价方法下模型估计结果的准确性，本节提出

24、了模型估计结果准确性评价指标。考虑到使用的参数估计方法分别为线性回归和逻辑回归，本文基于以下2个指标对估计准确性进行评价。（1）拟合优度GOF对于回归方法，拟合优度（goodness-of-fit，GOF）是一个常用的用于衡量回归模型对数据结果拟合程度大小的指标。其取值范围为 0，1，值越接近1，表明模型拟合效果越好。拟合优度可通过各种回归分析软件直接得到。（2）拟合准确度FA考虑到本文的因变量数据分别为分类数据（比较）和定序数据（评分），因此模型的拟合准确度可用模型对数据的预测结果与实际结果的一致程度进行衡量。对于比较评价数据，模型预测结果为偏好概率。本文借鉴逻辑回归结果将概

25、率转化为二分类结果：预测结果=A，Pr(A|XA，XB，)0.5B，其他（5）对于评分评价数据，线性回归模型的预测结果为连续值，将该连续预测值映射到最近的离散评分值。拟合准确度（fit accuracy，FA）则是上述预测结果准确的评价次数（Num_true）与总评价次数（Num_total）的比值：FA=Num_trueNum_total 100%（6）3试验本章基于驾驶模拟器设计了评价试验，对提出的轨迹偏好模型以及模型参数估计方法的结果进行验证。3.1模拟器及试验场景（1）模拟器本试验在固定基座驾驶模拟器上进行，其构成共4个部分，如图2所示。轨迹规划、跟踪以及转向系

26、统和踏板的控制通过 Matlab/Simulink（2019b）进行代码生成并在实时机（Speedgoat实时目标机性能版，因特尔i7 4.2 GHz，4核）里进行实时运算，实时机输出目标转向力矩到EPS控制器和加载电机以便提供反馈力矩给驾驶员。同时，实时机将计算得到的车辆状态信息发送给电脑端（因特尔 i9-7900 x，3.3 GHz，16核）的场景仿真软件Prescan，其生成的实时场景将显示在一个分辨率为38401080的曲面显示屏上。13762023（Vol.45）No.8冉巍，等：基于效用理论的运动规划奖励函数设计方法（2）场景为了方便驾驶员对不同弯道轨迹进行评价，设计了如图3（a）

27、所示的双向两车道的试验场景。其由4个完全一样的弯道组成了一个封闭的环形试验场地，每个弯道由3部分组成，如图3（b）所示。每个弯道的入弯和出弯段的形状一样，长度为62.83 m，中间圆曲线弯道半径为120 m，弯道长度为125.67 m，整个弯道总长为251.3 m。3.2评价轨迹生成为了获取驾驶员对不同轨迹的评价，需要一种能够生成不同轨迹的规划方法以及能够准确跟踪的轨迹跟踪方法。（1）轨迹规划本文在文献 33 中弯道轨迹规划方法的基础上，实现了多样性轨迹的生成。轨迹规划解耦成路径规划和速度规划两部分。中间弯道内的规划路径通过对文献 33 中的多种模式路径进行加权得到，设置不同权重便可得到各种不

28、同路径。在入弯和出弯路段，用三次样条曲线对弯道内规划的路径和两端的车道中心线进行平滑连接，实现整个弯道内的平滑路径规划。在路径规划基础之上，基于文献 33 中的非跟随模式下的速度规划方法进行了速度规划，并做了以下改进：（1）将目标函数Jerk（加速度导数）最小改成了速度变化量最小；（2）将约束最大允许速度替换成最大允许横向加速度，用于限制弯道内的最大速度。基于该方法，一些规划的路径和速度如图 4所示。图中的路径是在Frenet坐标系下的表示。横坐标纵向距离表示弯道中心线上距离弯道起始点的曲线弧长，纵坐标是归一化的横向偏移量。-1、0、1分别代表弯道内边缘、弯道中心线和弯道外边缘。最终设置30组

29、不同的轨迹参数生成了30条不同的轨迹用于评价试验。（2）轨迹跟踪为了准确跟踪规划的轨迹，本文使用了文献34 中的 Stanley 控制器。结果表明，在不同轨迹下，绝大部分时候的跟踪误差小于5 cm，最大跟踪误差小于10 cm，这个跟踪性能可以确保规划的不同轨迹在跟踪之后的实际轨迹具有足够的差异性，满足试验需求。图2驾驶模拟器构造（上）及实物图（下）图3封闭试验场景（左）及每个弯道形状（右）图4通过设置不同规划参数得到的不同弯道路径（上）和速度曲线（下）1377汽车工程2023 年（第 45 卷）第 8 期3.3试验人员和流程（1）试验人20个驾驶员参与了本次评价试验，其年龄和相关驾驶经验（年平

30、均驾驶里程）如表2所示。（2）试验流程本次评价试验分成两部分，评分试验和比较试验，分别在两周进行，每个驾驶员都同时参加了评分试验和比较试验。在第一次评分试验正式开始前，先向驾驶员介绍了本次试验的场景以及试验流程，向驾驶员解释了各量表内容和评价方法，然后进行了预评价试验，确保驾驶员完全了解试验流程之后再开始正式试验。评分试验正式开始后，驾驶员被要求对30条轨迹中的每一条进行评价，回答如表3所示的5点李克特量表，给出对应分数。在比较评价试验中，驾驶员被要求依次体验两条轨迹，然后回答如表4所示评价问卷。对于差异不明显的轨迹组，允许驾驶员回答“差不多”，即两条轨迹无明显区别。每个驾驶员比较了30组轨迹

31、。4结果分析根据评价试验结果，本节对驾驶员喜欢和不喜欢的轨迹进行了分析，并根据提出的轨迹偏好模型估计方法，使用统计软件SPSS对两种评价方式下的偏好模型进行了估计并对比了其结果。4.1偏好轨迹分析由于比较方法难以确定每个驾驶员具体偏好的轨迹，因此根据驾驶员对每条轨迹的偏好评价分数，确定每个驾驶员的最喜欢和最不喜欢的轨迹，并进一步对所有驾驶员最喜欢和最不喜欢的轨迹进行了统计，如图5所示。需要注意的是，每个驾驶员评分最高或最低的轨迹可能不止1条。可以看到，喜欢人数最多的前两条轨迹分别是8和11，而最不喜欢人数最多的前两条轨迹分别是4和1。这4条轨迹如图6所示。可以看到，驾驶员喜欢人数较多的轨迹是弯

32、道速度较低，同时路径为居中或略微靠内侧的轨迹。驾驶员不喜欢人数较多的轨迹是弯道内速度较高而不减速，同时路径过于靠近内侧或靠外侧的轨迹。表2参与试验驾驶员信息统计项目均值标准差年平均驾驶里程/km19 62022 714年龄32.7510.34表3评分用李克特量表评价项1.感到很安全2.乘坐很舒适3.过弯很快有效率4.喜欢这种驾驶方式打分表1（不符合）-5（非常符合）1（不符合）-5（非常符合）1（不符合）-5（非常符合）1（不符合）-5（非常符合）分数表4比较评价用问卷评价项1.哪一个更安全2.哪一个乘坐更舒适3.哪一个过弯更有效率4.更喜欢哪种驾驶方式备选项第一个第一个第一个第一个第二个第二

33、个第二个第二个差不多差不多差不多差不多图5驾驶员最喜欢和最不喜欢轨迹分布图6驾驶员最喜欢2条轨迹和最不喜欢2条轨迹的路径（上）和速度（下）13782023（Vol.45）No.8冉巍，等：基于效用理论的运动规划奖励函数设计方法4.2基于评分的估计4.2.1驾驶员感知模型采用逐步线性回归方法对3个感知模型（SPM、CPM和EPM）进行了估计。考虑到不同驾驶员的偏好差异，对每个驾驶员的感知模型单独进行了估计。式（7）显示了其中一个驾驶员SPM估计得到的模型结果。US=-0.71 Max-TAD+4.05 Mean-TAD+2.3R2=0.87；FA=87%（7）式中：Max-TAD和Mean-TA

34、D分别指的是跨道时间TAD 的最大值和均值；R2即拟合优度 GOF，其值为0.87，拟合准确度FA为87%，即该模型能准确拟合87%的评分结果。进一步基于所有驾驶员的数据，建立了“平均驾驶员”SPM，其结果如式（8）所示。US_ave=-0.68 MeanRight-LateralOffset-2.3 MaxLeft-ITLC+4.49R2=0.21；FA=37%（8）式中MeanRight-LateralOffset和MaxLeft-ITLC分别指右侧横向偏移量平均值和左车道线TLC倒数的最大值。GOF为0.21，FA为37%，表明该模型的评价数据拟合准确度比较差。一个很可能的原因在于不同驾

35、驶员对安全的感知差异较大，难以通过一个模型预测所有人的偏好。用同样的方法，估计了另外两个感知模型CPM和EPM。不同感知模型的GOF和FA如图7所示。可以看到，3个感知模型准确度存在一定差异。从FA来看，EPM模型的准确度高于其他两个感知模型，而SPM和CPM的FA则相差不大。另外，无论从GOF还是FA来看，3个模型对单个驾驶员独立建模时的准确度均高于所有评价的“平均驾驶员”。这表明，不同驾驶员对安全、舒适、效率的感知均存在较大差异，难以通过一个模型对所有驾驶员进行准确建模。4.2.2效用评估模型基于估计的感知模型，分别对每条轨迹的安全、舒适和效率效用（评分即可视作效用）进行计算，然后对偏好评

36、分与各效用进行线性回归来估计UEM。某驾驶员UEM结果如式（9）所示。U=0.3 US+0.61 UC-0.31 UER2=0.87；FA=70%（9）拟合优度为0.87，FA为70%，表明结合了DPM的UEM能较好地拟合驾驶员的偏好评价。基于单个驾驶员数据的UEM和“平均驾驶员”UEM结果如图8所示。可以看到，和DPM结果一样，无论从GOF还是FA来看，UEM独立建模时的准确度均高于所有驾驶员的“平均”模型的准确度。4.3基于比较的估计逻辑回归方法只能对二分类数据进行拟合，所以本研究对于评价结果为“差不多”的数据进行了剔除。从结果统计来看，平均每个驾驶员在每个评价项中只剔除了0.93条评价数

37、据，因此对结果影响很小。4.3.1驾驶员感知模型对于比较评价，采用逐步逻辑回归对感知模型进行了估计。其中一个驾驶员估计得到的轨迹安全比较模型结果如式（10）所示。Pr(A|XA，XB)=11+e-(-92.2 MeanLeft_LatOff-54.7 MaxLeft_ISTLC)R2=0.94；FA=96%（10）式中的特征表示轨迹A与B轨迹特征的差值，比如图7基于评分DPM的模型结果图8基于评分UEM的模型结果 1379汽车工程2023 年（第 45 卷）第 8 期MeanLeft_LatOff表示轨迹A与B的左侧横向偏移量均值的差值。该式表明轨迹 A 与 B 的MeanL

38、eft_LatOff差值越大，喜欢轨迹A的概率越小。该模型的GOF为0.94，FA为96%，表明该模型能够非常好地预测驾驶员对两条轨迹的安全比较结果。基于该轨迹比较模型，由2.3节可得到该驾驶员SPM如式（11）所示。US=-92.2 MeanLeft_LatOff-54.7 MaxLeft_ISTLC (11)同样的，基于所有驾驶员的数据建立“平均驾驶员”SPM，并用相同的方法进一步建立了另外两个感知模型CPM和EPM。不同感知模型的GOF和FA如图9所示。可以看到，对于3个感知模型，每个驾驶员单独建模时的准确度均高于所有驾驶员的“平均”模型的准确度。这表明不同驾驶员对安全、舒适、效率的感知

39、均存在差异，难以通过一个模型对所有驾驶员进行准确建模。4.3.2效用评估模型与评分估计方法类似，基于估计的感知模型，分别对每条轨迹的安全、舒适和效率效用进行计算，然后对偏好比较与各效用进行逻辑回归。某驾驶员估计的偏好比较模型和 UEM 结果分别如式（12）和（13）所示。Pr(A|XA，XB)=11+e-(0.95 US+0.1 UC+0.03 UE)R2=0.78；FA=91%（12）U=0.95 US+0.1 UC+0.03 UE（13）拟合优度为0.78，FA为91%，表明该UEM能很好地拟合驾驶员的偏好比较结果。基于单个驾驶员数据的UEM和所有驾驶员的“平均”UEM结果如图10所示。可

40、以看到，同样的，基于单个驾驶员数据的UEM准确度均高于所有驾驶员的“平均”模型的准确度，这和基于评分的估计结果一致。4.4结果分析（1）两种评价方式准确度比较两种评价方式下的模型FA对比如图11所示。可以看到，无论是基于单个驾驶员数据估算的模型还是基于所有驾驶员数据的“平均”模型，所有效用模型（UEM和3个DPM）在比较评价下的FA均高于评分评价下的FA。该结果表明，基于比较的模型能够更准确地预测评价结果。其中一个可能的原因在于，评分结果的离散值个数高于比较结果导致拟合性能降低。（2）轨迹特征不同DPM轨迹特征是根据逐步回归方法进行选择的。因此不同驾驶员，不同模型和不同评价方式下选择的轨迹特征

41、可能是不同的。表5显示了不同模型和不同评价方式下，被不同驾驶员的DPM选图9基于比较DPM的模型结果图10基于评分UEM的模型结果图11两种评价方式下模型FA对比 13802023（Vol.45）No.8冉巍，等：基于效用理论的运动规划奖励函数设计方法择最多的3个轨迹特征。表中特征下的数字表示该轨迹特征在所有 20个驾驶员的感知模型中，被选择作为模型特征的感知模型个数。可以看到，对于 SPM和 CPM，两种评价方式下选择的轨迹特征存在较高的重合度，表明了安全和舒适与对应轨迹特征存在较为稳定的相关性。同时，不同模型选择的轨迹特征存在较大差异。另外从特征被选择次数最高为7次来看，不同驾驶员感知模型

42、选择的轨迹特征存在较大差异，这表明不同驾驶员的感知评价过程存在较大差异，证实了对不同驾驶员选择不同轨迹特征的必要性。5结论针对目前决策规划中常用的奖励函数不能很好地考虑驾驶员偏好差异以及奖励函数特征基于经验选择的问题，本文提出了一种基于效用理论的量化驾驶员轨迹偏好的模型。为了充分考虑驾驶员偏好的复杂性，提出了双层结构模型。上层的效用评估模型量化了驾驶员对轨迹安全、舒适和效率的权衡过程；下层的驾驶员感知模型则分别量化了安全、舒适、效用与轨迹特征之间的定量关系。分别基于两种评价方式，评分和配对比较，分别设计了模型估计方法，包括轨迹特征选择和模型参数估计。最后，设计了驾驶员模拟器评价试验，对两种评价

43、方式下的偏好模型结果进行了估计和比较。结果表明，提出的模型估计方法能较为准确地估计偏好模型，估计的模型对驾驶员的评价过程有较为准确的描述，验证了偏好模型和估计方法的有效性。基于比较评价估计的模型结果更准确。同时，模型估计结果也进一步证实了不同驾驶员的偏好差异和对驾驶员模型进行个性化估计的必要性。参考文献 1 HASENJGER M，WERSING H.Personalization in advanced driver assistance systems and autonomous vehicles：a review C.2017 IEEE 20th International Confe

44、rence on Intelligent Transportation Systems（ITSC）.IEEE，2017：1-7.2 YI D，SU J，HU L，et al.Implicit personalization in driving assistance：state-of-the-art and open issuesJ.IEEE Transactions on Intelligent Vehicles，2019，5（3）：397-413.3 XU D，DING Z，HE X，et al.Learning from naturalistic driving data for hum

45、an-like autonomous highway driving J.IEEE Transactions on Intelligent Transportation Systems，2020，22（12）：7341-7354.4 ZIEGLER J，BENDER P，DANG T，et al.Trajectory planning for BerthaA local，continuous method C.2014 IEEE Intelligent Vehicles Symposium Proceedings.IEEE，2014：450-457.5 MALIK S，KHAN M A，EL-

46、SAYED H，et al.How do autonomous vehicles decide？J.Sensors，2022，23（1）：317.6 SUTTON R S，BARTO A G.Reinforcement learning：an introduction M.MIT Press，2018.7 LU C，GONG J，LV C，et al.A personalized behavior learning system for human-like longitudinal speed control of autonomous vehicles J.Sensors，2019，19（

47、17）：3672.8 ZHU M，WANG X，WANG Y.Human-like autonomous car-following model with deep reinforcement learning J.Transportation Research Part C：Emerging Technologies，2018，97：348-368.9 XIE J，XU X，WANG F，et al.Modeling human-like longitudinal driver model for intelligent vehicles based on reinforcement lea

48、rningJ.Proceedings of the Institution of Mechanical Engineers，Part D：Journal of Automobile Engineering，2021，235（8）：2226-2241.10 REDDY S，DRAGAN A，LEVINE S，et al.Learning human objectives by evaluating hypothetical behaviorC.International Conference on Machine Learning.PMLR，2020：8020-8029.11 ABBEEL P，

49、NG A Y.Apprenticeship learning via inverse reinforcement learning C.Proceedings of the Twenty-First International Conference on Machine Learning，2004：1.12 WU Z，QU F，YANG L，et al.Human-like decision making for autonomous vehicles at the intersection using inverse reinforcement learning J.Sensors，2022

50、，22（12）：4500.13 KUDERER M，GULATI S，BURGARD W.Learning driving styles for autonomous vehicles from demonstrationC.2015 IEEE International Conference on Robotics and Automation（ICRA）.IEEE，2015：2641-2646.14 NAGAHAMA A，SAITO T，WADA T，et al.Autonomous driving learning preference of collision avoidance ma

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于效用理论运动规划奖励函数设计方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。