基于效用理论的运动规划奖励函数设计方法.pdf
《基于效用理论的运动规划奖励函数设计方法.pdf》由会员分享,可在线阅读,更多相关《基于效用理论的运动规划奖励函数设计方法.pdf(10页珍藏版)》请在咨信网上搜索。
1、2023 年(第 45 卷)第 8 期汽车工程Automotive Engineering2023(Vol.45 )No.8基于效用理论的运动规划奖励函数设计方法冉巍1,陈慧1,杨佳鑫1,西村要介2,国朝鵬2,尹又雨3(1.同济大学汽车学院,上海 201804;2.株式会社捷太格特,日本6348555;3.捷太格特科技研发中心(无锡)有限公司,无锡 214161)摘要 实现个性化且符合驾驶员偏好的运动规划对提高驾驶员对自动驾驶系统接受度具有重要意义。本文提出了一种考虑驾驶员偏好的运动规划奖励函数设计方法。首先,基于效用理论提出了一个量化驾驶员轨迹偏好的双层结构模型,上层效用评估模型量化驾驶员在
2、安全、舒适性和效率之间的权衡过程;下层的驾驶员感知模型量化了驾驶员对安全、舒适性和效率方面的主观感受与轨迹特征指标之间的关系。接着,分别基于评分和配对比较两种评价方法提出了轨迹偏好模型的估计方法。最后,通过驾驶员模拟器评价试验对模型估计方法进行验证,每个试验者分别采用评分和配对比较的方式对多条轨迹进行了主观评价。基于获取的两种评价结果及计算得到的轨迹特征,分别用两种方法对驾驶员轨迹偏好模型进行了估计。结果表明,提出的模型能够较为准确地描述驾驶员的偏好评价过程,而基于配对比较的模型估计结果则更准确。关键词:效用理论;运动规划;奖励函数;驾驶员偏好;个性化Design Method of Moti
3、on Planning Reward Function Based on Utility TheoryRan Wei1,Chen Hui1,Yang Jiaxin1,Nishimura Yosuke2,Guo Chaopeng2&Yin Youyu31.School of Automotive Studies,Tongji University,Shanghai 201804;2.JTEKT CORPORATION,Japan6348555;3.JTEKT Research and Development Center(WUXI)Co.,Ltd.,Wuxi 214161Abstract Per
4、sonalized and driver-preferred motion planning is of great importance in enhancing the acceptance of autonomous driving systems by drivers.This paper proposes a method for designing a motion planning reward function that considers driver preferences.Firstly,a two-layer structure model for quantifyin
5、g driver trajectory preferences is proposed based on utility theory.The upper-layer utility evaluation model quantifies the drivers trade-off process between safety,comfort,and efficiency,while the lower-layer driver perception model quantifies the relationship between the drivers subjective feeling
6、s about safety,comfort,and efficiency and trajectory feature indicators.Then,two estimation methods for the trajectory preference model are proposed based on rating and pairwise comparison methods,respectively.Finally,the model estimation method is verified through a driver simulator evaluation test
7、.Each participant in the experiment subjectively evaluates multiple trajectories using both rating and pairwise comparison approaches.Based on the evaluation results from the two evaluation methods and the computed trajectory features,the driver trajectory preference model is estimated using the two
8、 approaches.The results show that the proposed model can accurately describe the drivers preference evaluation process,with the estimation results based on comparison more accurate.Keywords:utility theory;motion planning;reward function;driver preference;personalization doi:10.19562/j.chinasae.qcgc.
9、2023.08.008原稿收到日期为 2023 年 04 月 11 日,修改稿收到日期为 2023 年 05 月 22 日。通信作者:陈慧,教授,博士,E-mail:hui-。汽车工程2023 年(第 45 卷)第 8 期前言随着汽车智能化不断提高,自动驾驶或高级驾驶 辅 助 系 统(adavanced driver assistance system,ADAS)渗透率越来越高。如何使这些智能汽车按照驾驶员喜好的方式驾驶,提高驾驶员的接受度,已经成为一个亟待解决的问题。决策规划是影响智能汽车驾驶方式最主要的部分,其通常分为行为决策和运动规划两个部分。决策规划系统根据环境信息作出下一步行为指令,
10、例如是保持当前车道还是换道行驶,向左换道还是向右换道等。运动规划指系统根据行为决策的指令,规划出一条可供车辆行驶的运动轨迹,比如换道轨迹。运动规划的轨迹除了要求车辆能够安全且准确地跟踪之外,还需要考虑车内乘员的舒适性。由于不同驾驶员的喜好驾驶方式存在差异,因此有必要对行为决策和运动规划方法进行个性化改进1-2。决策规划通常被看做一个多目标决策问题,一个很重要的方法是首先对决策规划结果进行采样,然后设计一个对多个特征常包含安全、舒适、效率等方面,进行加权的成本或奖励函数,最后根据所有样本的奖励函数值大小来选择最优结果3-5。目前,强化学习(reinforcement learning,RL)在解
11、决最优序列决策规划时展示出很大的潜力6,越来越多研究通过经验设计奖励函数,利用RL方法来实现自动驾驶决策规划7-8。Xie等9通过RL方法,设计了包括安全性、跟踪准确性、操作负荷和类人一致性在内的奖励函数实现了类人的纵向跟车行为学习。由于这个成本或奖励函数描述了设计者对决策规划结果的期望,因此对决策规划结果有非常重要的影响。要为决策规划设计一个准确的奖励函数,特别是当需要考虑不同驾驶员的偏好差异时,是一件非常困难的事情10。为此,通过逆强化学习(inverse reinforcement learning,IRL)从驾驶员演示中学习奖励函数,再根据学习到的奖励函数实现类人驾驶已经成为当前的主要
12、方法11-14。IRL估计奖励函数权重的方法是通过匹配奖励函数下的最佳轨迹特征与驾驶员演示轨迹特征15。宋东鉴等16从动机驱动和可行性评估两个方面根据经验选取了轨迹规划特征,设计了能够表征驾驶人认知特性的奖励函数,通过逆强化学习方法对每个驾驶员的奖励函数系数进行学习。结果表明,相比更简单的奖励函数,根据认知特性设计的奖励函数能够更准确地进行类人决策规划学习。Xu等3从安全、舒适、效率以及换道激励等多个方面计算了轨迹特征并设计了奖励函数,采用IRL方法学习了奖励函数各部分权重,实现了对于高速公路换道决策和换道轨迹规划的类人驾驶学习。这些奖励函数包含的特征通常是基于经验手动选择的,如何合理选择特征
13、对提高学习效果也很重要。另外,虽然这些方法在类人驾驶方面取得了较好的效果,但当驾驶员作为“乘客”使用自动驾驶功能时,其喜好的驾驶方式与手动驾驶的驾驶方式并不完全一致17。已有研究发现,即使是激进的驾驶员也更喜欢比自身驾驶方式更保守的自动驾驶方式18-19。一个可能的原因在于当作为“乘客”时,驾驶员没有对车辆进行控制,其感受到的风险比正在手动驾驶车辆的驾驶员要更高20。综上所述,选择合适的奖励函数特征并设计符合驾驶员偏好的奖励函数对于实现驾驶员个性化的决策规划至关重要。之前的研究结果表明,不同驾驶员在弯道上的轨迹偏好存在显著差异21。因此参考该文研究场景,本文以驾驶员在弯道内无其他交通参与者的简
14、单场景下的过弯偏好轨迹作为研究对象,以设计个性化的运动规划奖励函数为目标,提出了一种量化驾驶员轨迹偏好的模型及模型估计方法。所估计出的模型可用作符合驾驶员偏好的个性化运动规划奖励函数。本文的主要贡献包括:(1)基于效用理论提出了一个双层模型来量化驾驶员轨迹偏好与轨迹特征之间的关系;(2)分别基于评分和配对比较两种评价方式,设计了偏好模型估计方法;(3)基于模拟器试验进行了评价试验,验证了提出的模型估计方法的有效性,并对两种评价方法下的估计结果进行了比较。1轨迹偏好模型构建效用理论已经被广泛用于进行多属性或多目标决策建模22。基于效用理论的离散选择模型也被用于对人们日常出行方式的选择进行建模,通
15、过对多个因素如时间、成本、舒适度等带来的不同效用进行权衡,选择效用最大的出行方式23。根据效用理论,可认为驾驶员偏好效用更高的轨迹。本文提出了一个双层结构的轨迹偏好模型,对驾驶员的轨迹效用评估过程进行了建模,如图1所示。13742023(Vol.45)No.8冉巍,等:基于效用理论的运动规划奖励函数设计方法在 上 层 的 效 用 评 估 模 型(utility evaluation model,UEM)中,轨迹的效用U通常可由3部分效用线性加权而得,包括安全效用US、舒适效用UC和效率效用UE,考虑到存在部分未建模部分,所以再加上一部分随机效用,可得UEM表达式:U=SUS+CUC+EUE+=
16、TX+(1)式中:S、C、E分别表示安全、舒适和效率效用权重,=S,C,ET为效用权重向量,不同效用权重代表了驾驶员对不同效用项的偏好程度;X=US,UC,UET为 UEM的轨迹效用向量。效用项US、UC、UE不能直接获取,本文假设各个效用项是驾驶员通过对应的轨迹特征(例如横向偏移量、加速度以及速度等)感知到的。因此,在模型下层,通过驾驶员感知模型(driver perception model,DPM)对各个效用项进行建模。DPM包括3个部分,分别是安全感知模型(safety perception model,SPM)、舒适感知模型(comfort perception model,CPM)
17、和效率感知模型(efficiency perception model,EPM)。每个感知模型都能通过类似的线性效用函数和对应的轨迹特征进行计算。以SPM为例,其计算方式为US=S_1XS_1+S_2XS_2+S=TSXS+S(2)式中:S=S_1,S_2,.T为 SPM 的轨迹特征权重向量;XS=XS_1,XS_2,.T为SPM的轨迹特征向量;S为SPM的随机效用。类似地,可得到CPM和EPM的计算公式。在得到感知模型计算公式之后,便可通过感知模型和轨迹特征计算每条轨迹对应的安全、舒适和效率效用。进一步可根据UEM计算每一条轨迹的总效用,即对不同轨迹的偏好。上述各效用模型中的各个权重向量和轨
18、迹特征向量决定了该效用模型对不同轨迹的主观感知和偏好,也即代表了驾驶员的偏好。因此,驾驶员轨迹偏好模型的学习就变成了轨迹特征的选择和各模型权重向量的估计。2模型估计效用或偏好是驾驶员的一种主观感受,为了估计效用模型,需要获取驾驶员对不同轨迹的主观评价。最常见的主观评价方式是评分,这广泛应用于主客观评价相关性研究中24。除评分外,基于比较的方法也用于主客观评价相关性分析25或用户效用函数学习26。鉴于此,本文采用评分和比较两种评价方式对模型参数进行估计。对所提出的双层结构模型,模型估计分两步进行。第1步,根据安全、舒适和效率评价及轨迹特征估计3个DPM。第2步,根据安全、舒适和效率效用与偏好评价
19、建立UEM。为此,本节介绍建立感知模型所需轨迹特征和各个模型在两种评价方式下的估计方法。2.1轨迹特征为尽可能完整描述轨迹,本文参考驾驶员风格识别综述文献27、个性化驾驶辅助系统综述文献2中总结的轨迹特征以及本研究小组之前的研究28,计算了如表1所示的轨迹特征。表中,STLC(straight time to line crossing)指直线跨道时间,CTLC(curved time to lane crossing)指曲线跨道时间,TAD(time to anticipate distance)指预期跨道时间,表示驾驶员不同的风险感知类型,详见文献 28 。WARMS(weighted a
20、cceleration root mean square)指加权加速度均方根值,常作为描述乘坐舒适性的指标,计算方式参照文献 29。图1基于效用理论的轨迹偏好模型表1计算轨迹特征总结类别安全舒适效率变量横向偏移量跨道时间(STLC&CTLC,2种)TAD横向加速度,纵向加、减速度加加速度横摆角速度横摆角加速度WARMS速度特征个数:特征6:左/右偏移最大/平均值,左右偏移范围大小,最大偏移量8:左侧/右侧车道线跨道时间最小值/均值及其倒数2:最小值,平均值2:最大值,平均值2:最大值,平均值2:最大值,平均值2:最大值,平均值13:最大值,最小值,平均值 1375汽车工程2023 年(第 45
21、 卷)第 8 期2.2基于评分的估计评分通常是根据一个离散的,如5点或7点李克特量表对评价对象进行打分。这种评分将效用直接映射到几个离散点。基于回归分析的相关性方法是常用的研究评分和评价对象特征定量关系的方法23。通常,评分是一种序数类型的数据,对评分进行回归需要采用序数回归的方法。但由于序数回归方法相对复杂,并且评分通常是一个间隔均匀且有明确含义的数据类型,因此,线性回归方法也被广泛用于建立主观评分和客观指标的相关性模型30-32。为了避免通过经验选择轨迹特征的问题,本文采用逐步线性回归方法用于同时选择模型轨迹特征和估计对应参数,然后再用线性回归方法对UEM进行参数估计。2.3基于比较的估计
22、对两个配对对象进行比较评价,能够挖掘用户的偏好,从而估计用户的效用函数25。对于一组配对轨迹(A,B),其效用分别为(UA,UB)。假设一个驾驶员,其模型 UEM的效用权重向量为,由于 UEM包含随机效用项,因此驾驶员的偏好具有随机性。用Pr(A|XA,XB,)表示UEM效用权重向量为的驾驶员对于效用向量分别为(UA,UB)的轨迹组(A,B)进行比较时,其偏好轨迹为A的概率,即UA高于UB的概率,代入式(1),可得Pr(A|XA,XB,)=Pr(UA UB)=Pr(B-A T(XA-XB)(3)随机效用(A,B)可认为是独立同分布的,但其具体分布未知。根据中心极限定理,一个最常见的假 设 是
23、正 态 分 布。基 于 正 态 分 布 假 设,可 知Pr(A|XA,XB,)也为正态分布,其只能通过查找正态分布累计概率函数表进行求解而不能方便得到解析解。因此,一个更好的假设是标准Gumbel极值分布(即I型极值分布),基于该分布能得到易于计算的解析解23,如式(4)所示。Pr(A|XA,XB,)=11+e-T(XA-XB)(4)上述解的形式即为logistic函数,常用于二分类问题,可通过逻辑回归方法进行参数估计。同样地,为避免经验选择轨迹特征的问题,本文用逐步逻辑回归方法对感知模型进行估计,然后用逻辑回归方法估计UEM。2.4方法对比为了比较两种评价方法下模型估计结果的准确性,本节提出
24、了模型估计结果准确性评价指标。考虑到使用的参数估计方法分别为线性回归和逻辑回归,本文基于以下2个指标对估计准确性进行评价。(1)拟合优度GOF对 于 回 归 方 法,拟 合 优 度(goodness-of-fit,GOF)是一个常用的用于衡量回归模型对数据结果拟合程度大小的指标。其取值范围为 0,1,值越接近1,表明模型拟合效果越好。拟合优度可通过各种回归分析软件直接得到。(2)拟合准确度FA考虑到本文的因变量数据分别为分类数据(比较)和定序数据(评分),因此模型的拟合准确度可用模型对数据的预测结果与实际结果的一致程度进行衡量。对于比较评价数据,模型预测结果为偏好概率。本文借鉴逻辑回归结果将概
25、率转化为二分类结果:预测结果=A,Pr(A|XA,XB,)0.5B,其他(5)对于评分评价数据,线性回归模型的预测结果为连续值,将该连续预测值映射到最近的离散评分值。拟合准确度(fit accuracy,FA)则是上述预测结果 准 确 的 评 价 次 数(Num_true)与 总 评 价 次 数(Num_total)的比值:FA=Num_trueNum_total 100%(6)3试验本章基于驾驶模拟器设计了评价试验,对提出的轨迹偏好模型以及模型参数估计方法的结果进行验证。3.1模拟器及试验场景(1)模拟器本试验在固定基座驾驶模拟器上进行,其构成共4个部分,如图2所示。轨迹规划、跟踪以及转向系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 效用 理论 运动 规划 奖励 函数 设计 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。