分销赏收藏举报申诉 / 10

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于深度强化学习的国内金融市场投资比较研究.pdf

基于深度强化学习的国内金融市场投资比较研究.pdf

上传人：自信****多点

文档编号：639144

上传时间：2024-01-22

格式：PDF

页数：10

大小：5.36MB

《基于深度强化学习的国内金融市场投资比较研究.pdf》由会员分享，可在线阅读，更多相关《基于深度强化学习的国内金融市场投资比较研究.pdf（10页珍藏版）》请在咨信网上搜索。

1、DOI:10.1322023.02.016CNATURASCIENCEMar.,20232023年3月JOURNALOFNANJINGUNIVERSITYVol.59,No.2第59 卷第2 期南京大学学报（自然科学）基于深度强化学习的国内金融市场投资比较研究操东林1.2，崔超然*，杨汤潇3（1.山东省区块链金融重点实验室，山东财经大学，济南，2 50 0 14；2.山东财经大学计算机科学与技术学院，济南，2 50 0 14；3.山东财经大学管理科学与工程学院，济南，2 50 0 14)摘要：近年来，随着全球经济的迅速发展，参与金融投资的投资者增多，如何在复杂的金融市场中自动选择交易策略使收益

2、最大化成为研究热点.强化学习可以通过与实际环境的交互来寻找最优的交易策略，使投资收益最大化，现有的方法大都是将一到两个强化学习算法应用于金融市场并比较算法在单一交易任务上的表现，此外，这些研究大都针对国外的股票、证券市场或加密货币市场，对国内金融市场的研究甚少.针对上述问题，面向国内金融投资市场，系统性地验证了不同类型的多种深度强化学习代表性算法在单只股票交易、多只股票交易和投资组合分配三个投资任务上的有效性。通过观察在累计收益率、夏普比率、最大回撤等评价指标上的回测结果对算法进行比较，结果显示在不同的投资任务中选取合适的强化学习算法可以有效地提升收益.关键词：强化学习，值函数，策略梯度，投资

3、组合，股票交易中图分类号：TP391文献标志码：AEmpirical comparison of domestic financial market investmentbased on deep reinforcement learningCao Donglinl.2,Cui Chaoran?*,Yang Xiao3(1.Shandong Key Laboratory of Blockchain Finance,Shandong University of Finance and Economics,Jnan,250014,China;2.School of Computer Science

4、 and Technology,Shandong University of Finance and Economics,Jinan,250014,China;3.School of Management Science and Engineering,Shandong University of Finance and Economics,Jinan,250014,China)Abstract:In recent years,with rapid development of the global economy,more and more investors participate in

5、financialinvestment.How to automatically choose trading strategies in complex financial markets to maximize returns has also becomea research hotspot.Reinforcement learning finds the optimal trading strategy through interaction with the actual environment,so as to maximize the return on investment.M

6、ost of the existing methods apply one or two reinforcement learning algorithmsto the financial market,and compare the performance of the algorithms in a single trading task.In addition,most of thesestudies aim at foreign stocks,securities market or cryptocurrency market,and there is little research

7、on domestic financialmarket.Aiming at the above problems,this paper systematically verifies the effectiveness of different types of deepreinforcement learning representative algorithms in three investment tasks:single stock trading,multiple stock trading andportfolio allocation.The algorithm is comp

8、ared by observing the back test results on the evaluation indicators such ascumulative yield,sharp ratio and maximum retracement.The results show that the appropriate reinforcement learningalgorithm in different investment tasks effectively improve the income.Key words:reinforcement learning,value f

9、unction,strategy gradient,portfolio,stock trading基金项目：国家自然科学基金（6 2 0 7 7 0 33，6 17 0 12 8 1），山东省“泰山学者”工程（tsqn202211199）收稿日期：2 0 2 2 一1114*通讯联系人,E-mail:334第59 卷南京大学学报（自然科学）随着金融市场的不断发展，金融投资成为现代企业和个人从事金融活动的主要类型，为企业和个人带来可观的经济效益.越来越多的投资者开始投人金融市场，希望通过合理的投资最大化收益.在复杂多变的股票市场中，股票交易数据量庞大并且价格难以预测，个体交易者仅仅凭借自身的投资

10、经验和数据分析很难在当前金融市场环境中作出最优的决策.随着人工智能的迅速发展，利用人工智能算法建立金融交易策略使实现投资决策优化成为可能，其中比较典型的方法有强化学习方法 1强化学习方法以最大化投资收益为优化目标，通过智能体与金融市场不断地交互学习策略，在市场的反馈中积累经验，可以在抑制风险的同时最大化累积回报，在投资组合分配、股票自动交易 2】、债权定价 3 和套期保值等领域有广泛应用 4.传统的强化学习局限于处理低维数据，而现实生活中的数据往往是高维度的，传统的强化学习很难处理.深度强化学习将深度学习的感知能力与强化学习的决策能力结合起来 5 来处理高维状态空间任务，近年来在各领域有许多研

11、究成果.例如，在游戏领域，Ohetal6使用深度强化学习为实时搏斗游戏创造专业水平的AI智能体，并通过多样化对手池来改善自我对战算法.Zha etal7提出用于纸牌游戏的强化学习工具包，旨在架起强化学习和不完善信息博奔的桥梁，在控制领域,He etal8开发了一种基于Actor-Critic结构的强化学习控制策略来实现振动抑制，同时保持轨迹跟踪.在金融领域，Chakraborty9使用深度强化学习算法在一般金融市场中自动生成持续盈利、稳健、不相关的交易信号.在推荐算法领域，Guo et al10提出一个基于强化学习的共享帐户跨域顺序建议方案，它由一个基本的跨域推荐器和一个基于强化学习的域过滤器

12、组成.然而，强化学习在金融领域的现有研究存在两方面问题：一方面,大部分研究仅将已有的一种强化学习算法应用于金融投资任务，缺少多种强化学习算法在金融投资任务中的优势对比；另一方面，研究集中于将强化学习算法应用于一种金融交易任务，无法在一项研究中直观地体现强化学习算法在多种金融投资任务中的适用性.鉴于此，本文同时在三种金融交易任务中对几种代表性强化学习算法进行比较分析，对算法在各种任务上的表现进行清晰直观地展示.特别地，不同于已有的基于强化学习的工作主要聚焦于国外金融市场，本文使用了国内A股市场中的50 只股票的交易数据本文主要研究三种股票交易任务：单只股票交易任务、多只股票交易任务1-12 、投

13、资组合分配任务 13.其中，单只股票交易和多只股票交易是选择合适的时机将股票买入或卖出的决策过程，旨在减小损失且最大化利益，交易过程中使用股票收盘价和金融指标构成单只股票交易任务和多只股票交易任务的市场状态.投资组合分配是不断将资金按不同的比例重新分配到不同金融资产中的方法，在抑制风险的同时最大化利益，在交易过程中用收盘价的价格变化率协方差和金融指标构成投资组合分配任务的市场状态，并将市场状态输入给强化学习代理.在三种金融任务中，通过代理与金融市场的交互得到每天的股票交易决策，通过交易决策实现资产的配置和分析.在单只和多只股票交易任务中，每天的交易决策是买入、卖出的股票份额，而投资组合分配任务

14、中，每天的交易决策是每只股票投资金额的比例.在执行买卖决策后，交易代理为决策提出奖励并通过自动交易将资金不断调整到最优，使收益最大化并能及时地规避风险。本文使用两类强化学习算法学习策略：基于值函数和基于策略梯度的强化学习算法.值函数算法利用神经网络拟合不同状态-动作组合的价值函数，深度神经网络强大的特征提取和泛化能力让智能体在面对未知的状态和动作时仍然可以较准确地进行价值函数预测.在离散型动作空间中，策略梯度算法利用神经网络拟合一个离散型分布，这个离散型分布是执行每种动作的概率。在连续动作空间中，策略梯度算法利用神经网络拟合概率密度函数的参数，并通过优化参数直接对策略进行更新迭代，使累积期望回

15、报最大.本研究选择两类强化学习算法中的多个代表性算法,其中,深度Q网络(DeepQ-Learning,DQN)是典型的基于值函数的强化学习算法。基于策略梯度的强化学习算法包括优势动作评论算法335第2 期操东林等：基于深度强化学习的国内金融市场投资比较研究（A d v a n t a g e A c t o r C r i t i c，A 2 C）、深度确定性策略梯度算法（Deep Deterministic Policy Gradient,DDPG)、近端策略优化算法（ProximalPolicyOpti-mization，PPO）、确定性策略强化学习算法(Twin Delayed Deep

16、 Deterministic Policy Gra-dientAlgorithm，T D 3）和连续动作空间软行动者-评论家算法（SoftActor-Critic，SA C).在结果分析时使用累计收益率、夏普比率、最大回撤三种指标衡量每种算法在投资风险和收益上的表现，并进行比较和择优分析.结果显示，SAC算法在投资组合分配任务中的表现较好，TD3算法在单只股票交易和多只股票交易中的表现较好本文的创新：（1）当现有的强化学习研究通常集中于一种股票交易任务时，本文同时开展了面向三种交易任务的研究，即单只股票交易、多只股票交易和投资组合分配任务：(2)现有的金融投资研究通常集中于分析和提高单个强化学

17、习算法在股票交易中的收益，本文在三个任务中综合对比了基于值函数和基于策略梯度函数的多个代表性强化学习算法的性能.（3)已有的研究主要聚焦于国外金融市场，而本文首次将多个强化学习算法应用于国内A股市场的多种交易任务中。1相关工作传统的金融交易方法通常先预测股票在未来的价格变化趋势，进而根据预先设定好的交易策略进行交易，方法的有效性严重依赖于价格预测的准确性。相比之下，深度强化学习基于强化学习定义问题，将最大化累积回报作为优化目标，并利用深度学习求解策略函数或者价值函数，结合了强化学习的决策优势和深度学习的表示学习能力，可以实现从股票状态空间到交易动作空间的直接映射，为金融投资市场提供了一种更具优

18、势的新方法，已被广泛应用在股票自动化交易、资产组合配置、债权的定价与套期保值等领域.在股票和证券市场中，为了验证强化学习算法在股票中的适用性，Meral14在美国股票市场上对近端策略优化算法和确定性策略强化学习算法两种深度强化学习算法的表现进行比较.Lietal15使用三种基于值函数的强化学习算法在美国股票市场中对深度强化学习在股票市场投资的可行性进行了验证.在验证了强化学习在股票投资中的适用性后，学者们转向另一种投资方式一期货.Hirsaetal16使用DQN来设计期货合约的多空交易策略，离散状态空间由波动率标准化的每日回报组成，买人或卖出是强化学习行为，总奖励定义为行为的累积利润，并分析如

19、何结合人工数据和实际价格序列进行训练才能在真实市场中成功部署.Zhang et al17采用深度强化学习算法来设计连续期货合约的交易策略，在离散和连续的操作空间中使用波动性缩放，根据市场波动性扩展交易头寸来改善奖励函数.立足于强化学习算法对期货和股票市场的适用性验证，探索提高投资者收益的方法成为学者们研究的热点：Liang etal18将两种基于策略梯度函数的强化学习算法应用在中国和美国股票市场中做投资组合管理，并提出一种对抗训练方法，在提高训练效率的同时显著提高回测中的平均每日回报和夏普比率.Liuetal19训练一个基于DDPG的深度强化学习代理，获得了一个自适应的交易策略，评估代理绩效，

20、将其与道琼斯工业平均指数和传统的最小方差投资组合分配策略进行比较，结果显示提出的深度强化学习方法在夏普比率和累积回报方面都优于两个基线.Fathan andDelage201首次使用双深度Q学习（DoubleDQN,DDQN）、隐式分位数网络（ImplicitQuantileNetworks，IQ N）和分类分布（Categorical Distributional RL,CDRL）三种最先进的深度强化学习算法学习两个金融工程应用中的最优止损策略一一期权定价和最优期权行为，并对最优停止策略的质量进行全面的实证评估.强化学习算法不仅适用于股票和证券市场，其在加密货币市场的适用性也获得了实证.Sa

21、di-ghian21提出专门应用于加密货币做市的新强化学习代理，可以在没有先验知识的情况下有效地学习端到端做市的过程，Betancourt and Chen2考虑币安市场上的所有资产并在引人新资产时自动适应，使方法通用，采样效率更高.在此基础上，学者们对扩大加密货币投资收益进行了研究，JiangandLiang23提出一个无模型卷积神经网络，336第59 卷南京大学学报（自然科学）以一组金融资产的历史价格作为输入，输出该集合的投资组合权重.该网络使用来自加密货币交易所的0.7 年价格数据进行训练，训练以强化学习的方法进行，最大化累积回报。总体来看，现有的方法基本都是将一到两种强化学习算法应用于

22、金融市场并比较算法在单一交易任务上的表现.此外，这些研究大都针对国外的股票、证券市场或加密货币市场，对国内金融市场的研究甚少，本文面向国内金融市场，将几种代表性的基于值函数和策略梯度的深度强化学习算法同时应用于单只股票交易、多只股票交易和投资组合分配三种任务中，并通过累计收益率、夏普比率、最大回撤指标反映算法在三种任务中的表现.2交易任务设定2.1数据收集与预处理本研究使用的数据集来源于tushare网站的股票实时数据，选取A股市场的上证50 指数中包含的50 只股票的交易数据，具体股票名称和股票代码如表1所示.选择2 0 16 年11月1日到2 0 19年12 月31日的交易数据，并将2 0

23、 16 年11月1日到2 0 19年1月1日的交易数据划分为训练集，2 0 19 年1月1日到2019年12 月31日的数据划分为测试集.对于每一只股票，分别计算它每天的七种金融指标：异同移动平均线、布林线、相对强弱指标、超买超卖指标、平均趋向指数、30 天移动平均价和6 0 天移动平均价.其中，异同移动平均线表示市场趋势的变化，布林线衡量市场的波动幅度，相对强弱指标显示资产是否进人超买或超卖状态，超买超卖指标测量股价是否已超出常态分布范围，平均趋向指数判断行情趋势，移动平均线判断未来价格的涨跌趋势。由于股票市场的波动性，常有停盘事件发生，并且停盘的发生时间和持续时间不定.停盘会导致某一天或某

24、几天的交易数据缺失，引发数据不完整的问题.因此，本研究在单只和多只股票交易任务中对缺失值采取补0 处理，即在停盘时期的缺失交易值全视为0.由于在投资组合分配问题的市场状态中将收盘价的协方差作为状态的一部分，采取补0 措施会出现协方差无法计算的问题，所以在投资组合分配任务中使用停盘前一天的交易值对停盘期的缺失交易值进行补全，表1股票名称和股票代码Table 1Stock nameand stock code股票名称股票代码股票名称股票代码股票名称股票代码股票名称股票代码浦发银行600000山东黄金600547三安光电600703中国中免601888保利发展600048中国重工601989洛阳钼业

25、603993中国联通600050万华化学600309工商银行601398恒瑞医药600276绿地控股600606复星医药600196上汽集团600104国泰君安601211光大银行601818中国交建601800中信证券600030招商银行600036三六零601360兴业银行601166贵州茅台600519华泰证券601688南方航空600029伊利股份600887海螺水泥600585中国建筑601668中国银行601988闻泰科技600745建设银行601393中国神华601088中国中铁601390大秦铁路601006华夏幸福600340中国铁建601186北京银行601169农业银行6

26、01328交通银行601328新华保险601336中国石化600028宝钢股份600019海尔智家600690中国石油601857汇顶科技603160紫金矿业601899中国太保601601中国人寿601628民生银行600016中国中车601766中国平安6013182.2投资任务本文研究了面向国内股票市场的三个投资任务，分别是使用深度强化学习进行单只股票交易、多只股票交易和投资组合分配。将收集到的股票交易数据作为特征向量：(1)其中，i,j，欢，分别是第j天第i只股票的开盘价、收盘价、最高价、最低价：337第2 期操东林等：基于深度强化学习的国内金融市场投资比较研究在强化学习中，状态、动作

27、、策略和奖励被称为四要素，并贯穿在三种任务的交易过程中.用前文提到的七种技术指标构建市场状态：H一macd,boll,close30/60sma,RSI,CCI,ADX(2)其中，macd,boll,RSI,CCI,ADX分别表示这只股票的异同移动平均线、布林线、相对强弱指标、超买超卖指标和平均趋向指数，close_30_sma和close_60_sma是50 只股票的30 天移动平均价和60天移动平均价.强化学习的奖励函数表示为：R=Vi+1-V,(3)其中，Vi+1是第i十1天的投资组合价值，V,是第j天的投资组合价值.表2 归纳展示了三种任务在构建市场状态的细节和投资过程中的差异。表2三

28、种交易任务的差异Table2Differences inthreetradingtasks单只股票交易多只股票交易投资组合分配由余额、收盘价、股由余额、收盘价、股由价格变化率协方状态份、金融指标构成份、金融指标构成差、金融指标构成卖出和买人的股卖出和买人的股每只股票投人资金动作份份占总资产的比重每天结束时资产每天结束时资产每天投资组合价奖励的变化的变化值每天重新平衡权交易中资金每天可以选择使用每天可以选择使用重并使用所有可使用情况部分资金进行交易部分资金进行交易用资金参与交易的1只50只50只股票数量2.2.1使用深度强化学习进行单只股票交易股票交易又称股票买卖，使用深度强化学习进行股票交易的

29、目的是让训练的代理在每天做出最合理的买卖操作，使收益最大化.由于金融市场的复杂多样和跌岩起伏，合理设定状态尤为重要，所以在进行单只股票交易的时候，将状态表示为：S=(ej,aj.,Uj.,H)(4)其中，e,是第j天投资者的余额，cj.，U j i.是第i只股票在天的收盘价和持有份额.将状态S输人训练的代理，代理会根据状态输出动作：A=Q(5)其中，表示第j天时股票i的买卖动作，取值范围一1,1，动作值大于0 表示买人操作，动作值小于0 表示卖出操作，等于0 不进行买卖操作.此时投资者拥有的现金及金融资产的价值为：V,=e,+Uj.?aj.i(6)其中，?表示逐元素相乘.根据动作进行股票的买

30、人或卖出后，投资者的现金资产会产生变化：Eje=e,-u.iaj.+uj.?rj(7)其中，”表示购买的第i只股票份额，j.,是第i只股票出售的份额.通过代理的动作指导在交易日行动，根据j十1交易日的收盘价，得到现金及金融资产的价值为：Vj+1=ej+1+aj+1.,?Uj+1.t(8)其中，ej+1是第j十1天的余额.因此,在时间j到j十1执行操作的奖励如式（3)所示.重复此过程，直到终止：2.2.2使用深度强化学习进行多只股票交易和单只股票交易相比，多只股票交易是针对50 只股票的买卖，操作对象改变，状态也发生改变：S=(ej,zj.0 50,j 050,H)(9)其中，j.050是50

31、只股票的收盘价，0 j.050是50 只股票的份额将状态S输人训练的代理，代理会根据状态输出一个动作列表：A=(,a1,.,qj.50)(10)其中，小表示第j天第i只股票买卖动作，取值范围一1,1,并且，代理会根据投资者的余额自适应地调节购买的股票份额，即当代理预测决定买人m份但投资者的余额只能买入n(nm）份的股票i时，模型仅购买n份的股票i.执行买卖操作后投资者拥有的现金及金融资产的价值为：V,=ej+Uj.050?zj.050(11)其中，表示逐元素相乘.根据动作进行股票的买人或卖出后，投资者的现金资产会产生变化：Ej=e-0.0s0 xj.0s0o+j.050o rfj 50(12

32、)其中，表示购买的股票份额，表示卖出的股票份额.在i十1交易日得到当天的收盘价，此时，现金及金融资产的价值为：V,+1=ej+1+j+1.050 Uj+1.0 50(13)338第59 卷南京大学学报（自然科学）其中，i+1是第j十1天的余额.因此，在时间j到j十1执行操作的奖励如式（3)所示，重复此过程，直到终止。2.2.3使用深度强化学习进行投资组合分配使用深度强化学习进行投资组合分配指投资者将资金投人一组资产后，通过不断更新各个资产的权重以获得最大的投资回报，获得交易数据后，由于投资组合分配是一次性地将资金全部投入所有资产中，且每次发生变化的都是投资比重，所以调整状态S为：S=(cour

33、,macd,boll,H)(14)其中，coU是收盘价的价格变化率构成的协方差.将状态S输人训练的代理，交易者将输出一个动作列表：A=(,j,.50)(15)其中，i是第j天第i只股票的投资权重，权重是每只股票分配的投资金额占总金额的比重，取值范围是 0,1.因此，每天更新一次权重后的奖励为：R=pold(1+Q?W)(16)其中,Pold是前一天的投资组合值，Q是收盘价的价格变化率，W是权重，R是新的投资组合值，并将其作为该任务的奖励。3强化学习算法使用目前最常用的六种强化学习算法DQN，A2C,PPO,DDPG,SAC,TD3.其中,DQN是基于值函数的深度强化学习算法，其余五种算法是基于

34、策略梯度的深度强化学习算法，下面简单介绍这六种算法.3.1基于值函数的深度强化学习算法在基于值函数的深度强化学习算法中，最具代表性的就是DQN算法 2 4.DQN由两个网络构成：Q网络和目标Q网络，算法使用状态-动作值函数间接学习最优动作，在给定当前状态下最大化未来的预期奖励.将智能体与环境交互之后得到的数据放入经验池并在一段时间后随机取出一部分数据，当前Q网络用取出的数据计算当前Q值，目标Q网络用取出的数据计算目标Q值.DQN的算法流程如图1所示：误差函数梯度2(4,0:0)环境当前Q网络目标Q网络奖励状态S(s.a)状态S(a.a,.5)经验池图1DQN算法的流程图Fig.1Theflow

35、 chart of DQNalgorithm当前Q网络用Q(s,a；)表示，目标Q网络用Q(s,；,)表示，其中，s,a分别表示当前阶段的状态值、动作值，,和，表示第j次迭代的网络参数，s,分别表示下一阶段的状态值、动作值，DQN的损失函数为：L(,）=E+max Q(s,a:0,)-Q(s,a 0.)(17)其中，r表示当前的奖励值，表示折扣因子.根据损失函数更新当前Q网络的参数，若干次后将当前Q网络的参数复制给目标Q网络，完成学习，3.2基于策略梯度的深度强化学习算法3.2.1A2C算法A2C算法 2 5 是一种典型的Actor-Critic算法以往的蒙特卡洛策略梯度算法计算的策略梯度方差

36、大，而A2C算法同时结合了策略和价值函数，并通过引人评价机制更新价值函数来解决高方差的问题.Actor负责生成动作并和环境交互，Critic负责评估Actor的表现并打分，通过分数的高低指导Actor的动作.A2C的基本结构如图2 所示，A2C使用优势函数代替价值函数衡量动作，如式（18）所示：A(s,a)=Q(s,a)-V(s)(18)其中，s,a分别表示当前阶段的状态值、动作值，Q(s,a)是价值函数，V(s)是状态值函数.动作值函数相比于当前状态值函数的优势用优势函数表示，优势函数大于零说明该动作比平均动作好。动作优势函数奖励演员评价者环境状态图2A2C算法结构Fig.2A2C algo

37、rithm structure339第2 期操东林等：基于深度强化学的宝金融市场投资比较研究3.2.2PPO算法PPO算法 2 6 使用重要性采样来解决在线策略中数据不能重复使用的问题，它在目标函数上添加KL散度来衡量两个概率分布之间的差异大小算法由Actor网络和Critic网络构成，算法的目标函数如下：J=J(0)-KL(0,0)(19)其中,是KL惩罚系数,用来约束KL散度算法；0代表需要优化的参数；参数0 用于示范采样数据，采样出状态s和动作a;J是算法的目标函数.根据目标函数更新参数，使收益期望值达到最大.3.2.3DDPG算法DDPG27-28的全称是确定性策略梯度,因为算法在某一

38、个状态下采取的动作是唯一的，即采取的是概率最大的动作.DDPG算法有四个网络：Actor网络、Critic网络、目标Actor网络、目标Critic网络.Actor网络通过当前输人的状态s得到动作a、奖励r和下一个状态s,目标Actor网络根据s得到下一个动作a,Critic网络计算当前Q值并更新网络参数Q，目标Critic网络计算目标Q值的Q（s,a ,w),并定期将Q参数复制为当前参数.目标Q值的计算如下：y,=r+yQ(s,a,w)(20)其中，是衰减因子，W是价值网络参数.DDPG的流程图如图3所示，Actor网络Critic网络值最小化TDeror目标Critic网络值+目标Acto

39、r网络图3DDPG算法流程图Fig.3The flow chart of DDPG algorithm3.2.4TD3算法TD3算法 2 9-30 是一种离线策略，有六个网络结构，分别是一个Actor网络、一个目标Actor网络、两个Critic网络和两个目标Critic网络，是DDPG算法的改进，和DDPG相比，TD3算法消除了DDPG中的偏差问题.算法使用两个值函数进行学习，在更新参数时选择两者中较小的值函数，旨在避免过高估计.算法的Actor网络比Critic网络的更新更慢，而且在目标Actor中增加了噪声，旨在增强算法的稳定性.3.2.5SAC算法SAC算法 31 在目标函数中加人，使

40、策略最大程度保持随机性，代理也可以更大程度地探索状态空间.算法通过最大化目标函数达到同时最大化奖励和熵的目的，最大化熵之后的目标函数：元MaxEnt=argmax元(21)其中，为熵温度系数，决定了对最大化的重视程度;H(元(s.)表示策略在当前状态下的熵；元为状态转移分布;r(st，a,)为t时刻在状态s,执行动作，后能获得奖励的期望.4实验结果与分析基于前文介绍的A股市场数据集进行了一系列实验，详细对比六种算法，即DQN，A 2 C，DDPG，SA C,PPO，T D 3在单只股票交易、多只股票交易和投资组合交易这三种金融投资任务中的表现。基于深度学习框架Pytorch对不同算法进行训练和

41、测试.训练时采用Adam优化器，设批处理大小为12 8，网络层的初始学习率为10-5.4.1评价指标采用累计收益率、最大回撤和夏普比率作为评价指标来评估模型效果累计收益率指自购买股票开始至今产生的总收益率，衡量累计收益情况：mR,=100%(22)n其中，m是收益，n是本金.最大回撤是在一个指定时间段内，局部高点相较于下一个最低点的下跌最大幅度，用来描述投资可能出现的最大损失，是一个重要的风险指标.假设P,是第天的产品净值,P,是P,后面某一天的净值，最大回撤的计算如下：maxP,-P,)Mar_drawdown=(23)Pi夏普比率是单位风险获得的超额回报，该比率越高，策略承担单位风险得到的

42、超额回报越高，所以夏普比率越高越好.夏普比率的计算如下：R,-RSharpe_ratio=(24)340第59 卷南京大学学报（自然科学）4.2实验结果与分析六种算法在单只股票交易任务中的性能对比如表3所示.由表可见，TD3获得9.932 7%的累计收益率，高于其他五种算法，以SAC和DDPG作为代理得到的累计收益率相差不大.在单只股票交易中，SAC的夏普比率最高，其次是TD3和DDPG，说明在单只股票任务中，SAC,DDPG和TD3比其余三种模型更具稳定性，收益更高.在最大回撤指标上，PPO对抗下跌能力最强，DQN仅次于PPO，达到0.0 2 36.TD3算法的优势在于使用延迟更新和加人噪声

43、两种方法来优化Critic网络的学习.综合来看，TD3算法更能适应复杂的金融市场中的单只股票交易任务，也能取得较好的收益。表3不同算法在单只股票交易任务上的结果对比Table 3Evaluating indicators of different algorithmson single stocktrading tasks方法收益率夏普比率最大回撤A2C4.28%0.24810.0250SAC9.86%0.37350.0306PPO1.68%0.05490.0069DQN4.40%0.13460.0236DDPG9.93%0.36620.0628TD39.93%0.36610.0628由于值函

44、数算法架构设计的原因，对于高维动作空间或连续动作空间任务的学习效果不理想，因此，在多股票交易任务和投资组合任务中使用五种基于策略梯度的强化学习算法进行对比分析.表4给出了不同算法在多只股票交易任务中的结果,并与传统的买入持有投资策略(Buy andHold）32 做对比.在累计收益率指标上，TD3和DDPG的收益率分别是8 1.7 5%和7 2.13%，比其余四种方法更具优势。表4大不同算法在多只股票交易任务上的结果对比Table 4Evaluating indicators of different algorithmsonmultiplestocktradingtasks方法收益率夏普比率

45、最大回撒A2C55.87%2.11980.1122SAC58.77%2.07080.1168PPO52.55%1.92210.1242DDPG72.13%2.34230.1124TD381.75%2.52080.1440买人持有25.21%0.94020.2795图4展示了不同算法在多只股票交易任务的累计收益率.由图可见，4月后TD3的累计收益率不仅保持领先，与其余五种方法的差距也逐渐拉大.其余四种算法相比,DDPG和TD3能在股票的某些下跌时间和上涨时间大幅增加收益，在夏普比率指标上，TD3的优势明显，而PPO,A2C和DDPG差距不大，说明TD3在测试时单位风险能带来高收益.在最大回撤指标

46、上，表现较好的是DDPG和A2C，说明DDPG和A2C具有比其余三种算法更强的对抗下跌能力。PPO0.8SACTD30.70.60.50.40.30.20.102/2D3VO03/1O4/80710O1O2D1102/1807/11/102/207/1O7r日期图4不同算法在多只股票交易任务上的累计收益率走势Fig.4Trend chart of cumulative yield of differentalgorithms on multiple stock trading tasks综合来看，和DDPG相比，TD3的优势在于不仅能够在连续动作上更有效地学习，还解决了Critic网络对动作Q

47、值过估计的问题，增加了算法的稳定性，因此使用TD3训练得到的结果更佳.表5列出了不同算法在投资组合分配任务中的结果并与买入持有方法进行比较由表可见，和买入后一直持有的方法相比，强化学习算法在投资组合任务中取得了较好的结果.其中，SAC在累计收益率和夏普比率上的表现最好，大幅超过买人后一直持有的模型.PPO和DDPG的最大回撤偏高，说明PPO和DDPG在投资组合分配任务中应对风险的能力较低.图5展示了投资组合的累计收益率走势.由图可见，自2 0 19年5月，买人并持有模型的累计收益率远低于其余五种方法，SAC的累计收益率均高于其余五种算法.说明SAC能在股票价格341第2 期操东林等：基于深度强

48、化学习的国内金融市场投资比较研究表5不同算法在投资组合任务上的结果对比Table 5Evaluating indicators of different algorithmson portfolio tasks方法收益率夏普比率最大回撤A2C30.65%1.60410.1235SAC34.60%1.75400.1262PPO27.78%1.46750.1291DDPG26.45%1.43180.1302TD325.75%1.39290.1279买入持有25.21%0.94020.2795buy and holdA2CPPO0.35SACDDPGTD30.30.250.20.150.10.050

49、1/0201/1001/1801/2802/1202/2002/2803/0803/1803/2604/0304/1204/220710307/198889/O910/2110/2911/1411/221.2126日期图5不同算法在投资组合任务上的累计收益率走势图Fig.5Trend chart of cumulative yield of differentalgorithms onportfoliotasks发生波动时合理平衡资金的分配比例，保持较高收益.SAC的结构和TD3十分类似，拥有一个动作网络和两个评价网络，而且，它结合了随机策略方法和DDPG.在本文的投资组合分配任务中，SAC的

50、优势在于引人最大熵，在最大化奖赏的同时鼓励探索，避免反复选择同一个动作而陷人次优.综合来看，在投资组合分配任务中使用SAC训练得到的结果更佳。5结论本文首次面向国内金融市场，验证了包含DDPG,SAC,A2C,DQN,PPO,TD3在内的六种深度强化学习算法在单只股票交易、多只股票交易和投资组合分配三个投资任务上的有效性.对比了不同算法的累计收益率、夏普比率和最大回撤的回测表现，并进行了深入的分析.结果表明，在单只股票交易和多只股票交易任务中，TD3更具优势；在投资组合分配任务中，SAC更具优势.未来将进一步寻找更适合金融投资任务的算法奖励函数，使深度强化学习算法能取得更好的效果，并在更大规模

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于深度强化学习国内金融市场投资比较研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。