基于深度强化学习的国内金融市场投资比较研究.pdf
《基于深度强化学习的国内金融市场投资比较研究.pdf》由会员分享,可在线阅读,更多相关《基于深度强化学习的国内金融市场投资比较研究.pdf(10页珍藏版)》请在咨信网上搜索。
1、DOI:10.1322023.02.016CNATURASCIENCEMar.,20232023年3月JOURNALOFNANJINGUNIVERSITYVol.59,No.2第59 卷第2 期南京大学学报(自然科学)基于深度强化学习的国内金融市场投资比较研究操东林1.2,崔超然*,杨汤潇3(1.山东省区块链金融重点实验室,山东财经大学,济南,2 50 0 14;2.山东财经大学计算机科学与技术学院,济南,2 50 0 14;3.山东财经大学管理科学与工程学院,济南,2 50 0 14)摘要:近年来,随着全球经济的迅速发展,参与金融投资的投资者增多,如何在复杂的金融市场中自动选择交易策略使收益
2、最大化成为研究热点.强化学习可以通过与实际环境的交互来寻找最优的交易策略,使投资收益最大化,现有的方法大都是将一到两个强化学习算法应用于金融市场并比较算法在单一交易任务上的表现,此外,这些研究大都针对国外的股票、证券市场或加密货币市场,对国内金融市场的研究甚少.针对上述问题,面向国内金融投资市场,系统性地验证了不同类型的多种深度强化学习代表性算法在单只股票交易、多只股票交易和投资组合分配三个投资任务上的有效性。通过观察在累计收益率、夏普比率、最大回撤等评价指标上的回测结果对算法进行比较,结果显示在不同的投资任务中选取合适的强化学习算法可以有效地提升收益.关键词:强化学习,值函数,策略梯度,投资
3、组合,股票交易中图分类号:TP391文献标志码:AEmpirical comparison of domestic financial market investmentbased on deep reinforcement learningCao Donglinl.2,Cui Chaoran?*,Yang Xiao3(1.Shandong Key Laboratory of Blockchain Finance,Shandong University of Finance and Economics,Jnan,250014,China;2.School of Computer Science
4、 and Technology,Shandong University of Finance and Economics,Jinan,250014,China;3.School of Management Science and Engineering,Shandong University of Finance and Economics,Jinan,250014,China)Abstract:In recent years,with rapid development of the global economy,more and more investors participate in
5、financialinvestment.How to automatically choose trading strategies in complex financial markets to maximize returns has also becomea research hotspot.Reinforcement learning finds the optimal trading strategy through interaction with the actual environment,so as to maximize the return on investment.M
6、ost of the existing methods apply one or two reinforcement learning algorithmsto the financial market,and compare the performance of the algorithms in a single trading task.In addition,most of thesestudies aim at foreign stocks,securities market or cryptocurrency market,and there is little research
7、on domestic financialmarket.Aiming at the above problems,this paper systematically verifies the effectiveness of different types of deepreinforcement learning representative algorithms in three investment tasks:single stock trading,multiple stock trading andportfolio allocation.The algorithm is comp
8、ared by observing the back test results on the evaluation indicators such ascumulative yield,sharp ratio and maximum retracement.The results show that the appropriate reinforcement learningalgorithm in different investment tasks effectively improve the income.Key words:reinforcement learning,value f
9、unction,strategy gradient,portfolio,stock trading基金项目:国家自然科学基金(6 2 0 7 7 0 33,6 17 0 12 8 1),山东省“泰山学者”工程(tsqn202211199)收稿日期:2 0 2 2 一1114*通讯联系人,E-mail:334第59 卷南京大学学报(自然科学)随着金融市场的不断发展,金融投资成为现代企业和个人从事金融活动的主要类型,为企业和个人带来可观的经济效益.越来越多的投资者开始投人金融市场,希望通过合理的投资最大化收益.在复杂多变的股票市场中,股票交易数据量庞大并且价格难以预测,个体交易者仅仅凭借自身的投资
10、经验和数据分析很难在当前金融市场环境中作出最优的决策.随着人工智能的迅速发展,利用人工智能算法建立金融交易策略使实现投资决策优化成为可能,其中比较典型的方法有强化学习方法 1强化学习方法以最大化投资收益为优化目标,通过智能体与金融市场不断地交互学习策略,在市场的反馈中积累经验,可以在抑制风险的同时最大化累积回报,在投资组合分配、股票自动交易 2】、债权定价 3 和套期保值等领域有广泛应用 4.传统的强化学习局限于处理低维数据,而现实生活中的数据往往是高维度的,传统的强化学习很难处理.深度强化学习将深度学习的感知能力与强化学习的决策能力结合起来 5 来处理高维状态空间任务,近年来在各领域有许多研
11、究成果.例如,在游戏领域,Ohetal6使用深度强化学习为实时搏斗游戏创造专业水平的AI智能体,并通过多样化对手池来改善自我对战算法.Zha etal7提出用于纸牌游戏的强化学习工具包,旨在架起强化学习和不完善信息博奔的桥梁,在控制领域,He etal8开发了一种基于Actor-Critic结构的强化学习控制策略来实现振动抑制,同时保持轨迹跟踪.在金融领域,Chakraborty9使用深度强化学习算法在一般金融市场中自动生成持续盈利、稳健、不相关的交易信号.在推荐算法领域,Guo et al10提出一个基于强化学习的共享帐户跨域顺序建议方案,它由一个基本的跨域推荐器和一个基于强化学习的域过滤器
12、组成.然而,强化学习在金融领域的现有研究存在两方面问题:一方面,大部分研究仅将已有的一种强化学习算法应用于金融投资任务,缺少多种强化学习算法在金融投资任务中的优势对比;另一方面,研究集中于将强化学习算法应用于一种金融交易任务,无法在一项研究中直观地体现强化学习算法在多种金融投资任务中的适用性.鉴于此,本文同时在三种金融交易任务中对几种代表性强化学习算法进行比较分析,对算法在各种任务上的表现进行清晰直观地展示.特别地,不同于已有的基于强化学习的工作主要聚焦于国外金融市场,本文使用了国内A股市场中的50 只股票的交易数据本文主要研究三种股票交易任务:单只股票交易任务、多只股票交易任务1-12 、投
13、资组合分配任务 13.其中,单只股票交易和多只股票交易是选择合适的时机将股票买入或卖出的决策过程,旨在减小损失且最大化利益,交易过程中使用股票收盘价和金融指标构成单只股票交易任务和多只股票交易任务的市场状态.投资组合分配是不断将资金按不同的比例重新分配到不同金融资产中的方法,在抑制风险的同时最大化利益,在交易过程中用收盘价的价格变化率协方差和金融指标构成投资组合分配任务的市场状态,并将市场状态输入给强化学习代理.在三种金融任务中,通过代理与金融市场的交互得到每天的股票交易决策,通过交易决策实现资产的配置和分析.在单只和多只股票交易任务中,每天的交易决策是买入、卖出的股票份额,而投资组合分配任务
14、中,每天的交易决策是每只股票投资金额的比例.在执行买卖决策后,交易代理为决策提出奖励并通过自动交易将资金不断调整到最优,使收益最大化并能及时地规避风险。本文使用两类强化学习算法学习策略:基于值函数和基于策略梯度的强化学习算法.值函数算法利用神经网络拟合不同状态-动作组合的价值函数,深度神经网络强大的特征提取和泛化能力让智能体在面对未知的状态和动作时仍然可以较准确地进行价值函数预测.在离散型动作空间中,策略梯度算法利用神经网络拟合一个离散型分布,这个离散型分布是执行每种动作的概率。在连续动作空间中,策略梯度算法利用神经网络拟合概率密度函数的参数,并通过优化参数直接对策略进行更新迭代,使累积期望回
15、报最大.本研究选择两类强化学习算法中的多个代表性算法,其中,深度Q网络(DeepQ-Learning,DQN)是典型的基于值函数的强化学习算法。基于策略梯度的强化学习算法包括优势动作评论算法335第2 期操东林等:基于深度强化学习的国内金融市场投资比较研究(A d v a n t a g e A c t o r C r i t i c,A 2 C)、深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)、近端策略优化算法(ProximalPolicyOpti-mization,PPO)、确定性策略强化学习算法(Twin Delayed Deep
16、 Deterministic Policy Gra-dientAlgorithm,T D 3)和连续动作空间软行动者-评论家算法(SoftActor-Critic,SA C).在结果分析时使用累计收益率、夏普比率、最大回撤三种指标衡量每种算法在投资风险和收益上的表现,并进行比较和择优分析.结果显示,SAC算法在投资组合分配任务中的表现较好,TD3算法在单只股票交易和多只股票交易中的表现较好本文的创新:(1)当现有的强化学习研究通常集中于一种股票交易任务时,本文同时开展了面向三种交易任务的研究,即单只股票交易、多只股票交易和投资组合分配任务:(2)现有的金融投资研究通常集中于分析和提高单个强化学
17、习算法在股票交易中的收益,本文在三个任务中综合对比了基于值函数和基于策略梯度函数的多个代表性强化学习算法的性能.(3)已有的研究主要聚焦于国外金融市场,而本文首次将多个强化学习算法应用于国内A股市场的多种交易任务中。1相关工作传统的金融交易方法通常先预测股票在未来的价格变化趋势,进而根据预先设定好的交易策略进行交易,方法的有效性严重依赖于价格预测的准确性。相比之下,深度强化学习基于强化学习定义问题,将最大化累积回报作为优化目标,并利用深度学习求解策略函数或者价值函数,结合了强化学习的决策优势和深度学习的表示学习能力,可以实现从股票状态空间到交易动作空间的直接映射,为金融投资市场提供了一种更具优
18、势的新方法,已被广泛应用在股票自动化交易、资产组合配置、债权的定价与套期保值等领域.在股票和证券市场中,为了验证强化学习算法在股票中的适用性,Meral14在美国股票市场上对近端策略优化算法和确定性策略强化学习算法两种深度强化学习算法的表现进行比较.Lietal15使用三种基于值函数的强化学习算法在美国股票市场中对深度强化学习在股票市场投资的可行性进行了验证.在验证了强化学习在股票投资中的适用性后,学者们转向另一种投资方式一期货.Hirsaetal16使用DQN来设计期货合约的多空交易策略,离散状态空间由波动率标准化的每日回报组成,买人或卖出是强化学习行为,总奖励定义为行为的累积利润,并分析如
19、何结合人工数据和实际价格序列进行训练才能在真实市场中成功部署.Zhang et al17采用深度强化学习算法来设计连续期货合约的交易策略,在离散和连续的操作空间中使用波动性缩放,根据市场波动性扩展交易头寸来改善奖励函数.立足于强化学习算法对期货和股票市场的适用性验证,探索提高投资者收益的方法成为学者们研究的热点:Liang etal18将两种基于策略梯度函数的强化学习算法应用在中国和美国股票市场中做投资组合管理,并提出一种对抗训练方法,在提高训练效率的同时显著提高回测中的平均每日回报和夏普比率.Liuetal19训练一个基于DDPG的深度强化学习代理,获得了一个自适应的交易策略,评估代理绩效,
20、将其与道琼斯工业平均指数和传统的最小方差投资组合分配策略进行比较,结果显示提出的深度强化学习方法在夏普比率和累积回报方面都优于两个基线.Fathan andDelage201首次使用双深度Q学习(DoubleDQN,DDQN)、隐式分位数网络(ImplicitQuantileNetworks,IQ N)和分类分布(Categorical Distributional RL,CDRL)三种最先进的深度强化学习算法学习两个金融工程应用中的最优止损策略一一期权定价和最优期权行为,并对最优停止策略的质量进行全面的实证评估.强化学习算法不仅适用于股票和证券市场,其在加密货币市场的适用性也获得了实证.Sa
21、di-ghian21提出专门应用于加密货币做市的新强化学习代理,可以在没有先验知识的情况下有效地学习端到端做市的过程,Betancourt and Chen2考虑币安市场上的所有资产并在引人新资产时自动适应,使方法通用,采样效率更高.在此基础上,学者们对扩大加密货币投资收益进行了研究,JiangandLiang23提出一个无模型卷积神经网络,336第59 卷南京大学学报(自然科学)以一组金融资产的历史价格作为输入,输出该集合的投资组合权重.该网络使用来自加密货币交易所的0.7 年价格数据进行训练,训练以强化学习的方法进行,最大化累积回报。总体来看,现有的方法基本都是将一到两种强化学习算法应用于
22、金融市场并比较算法在单一交易任务上的表现.此外,这些研究大都针对国外的股票、证券市场或加密货币市场,对国内金融市场的研究甚少,本文面向国内金融市场,将几种代表性的基于值函数和策略梯度的深度强化学习算法同时应用于单只股票交易、多只股票交易和投资组合分配三种任务中,并通过累计收益率、夏普比率、最大回撤指标反映算法在三种任务中的表现.2交易任务设定2.1数据收集与预处理本研究使用的数据集来源于tushare网站的股票实时数据,选取A股市场的上证50 指数中包含的50 只股票的交易数据,具体股票名称和股票代码如表1所示.选择2 0 16 年11月1日到2 0 19年12 月31日的交易数据,并将2 0
23、 16 年11月1日到2 0 19年1月1日的交易数据划分为训练集,2 0 19 年1月1日到2019年12 月31日的数据划分为测试集.对于每一只股票,分别计算它每天的七种金融指标:异同移动平均线、布林线、相对强弱指标、超买超卖指标、平均趋向指数、30 天移动平均价和6 0 天移动平均价.其中,异同移动平均线表示市场趋势的变化,布林线衡量市场的波动幅度,相对强弱指标显示资产是否进人超买或超卖状态,超买超卖指标测量股价是否已超出常态分布范围,平均趋向指数判断行情趋势,移动平均线判断未来价格的涨跌趋势。由于股票市场的波动性,常有停盘事件发生,并且停盘的发生时间和持续时间不定.停盘会导致某一天或某
24、几天的交易数据缺失,引发数据不完整的问题.因此,本研究在单只和多只股票交易任务中对缺失值采取补0 处理,即在停盘时期的缺失交易值全视为0.由于在投资组合分配问题的市场状态中将收盘价的协方差作为状态的一部分,采取补0 措施会出现协方差无法计算的问题,所以在投资组合分配任务中使用停盘前一天的交易值对停盘期的缺失交易值进行补全,表1股票名称和股票代码Table 1Stock nameand stock code股票名称股票代码股票名称股票代码股票名称股票代码股票名称股票代码浦发银行600000山东黄金600547三安光电600703中国中免601888保利发展600048中国重工601989洛阳钼业
25、603993中国联通600050万华化学600309工商银行601398恒瑞医药600276绿地控股600606复星医药600196上汽集团600104国泰君安601211光大银行601818中国交建601800中信证券600030招商银行600036三六零601360兴业银行601166贵州茅台600519华泰证券601688南方航空600029伊利股份600887海螺水泥600585中国建筑601668中国银行601988闻泰科技600745建设银行601393中国神华601088中国中铁601390大秦铁路601006华夏幸福600340中国铁建601186北京银行601169农业银行6
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 强化 学习 国内 金融市场 投资 比较 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。