一种基于SVM决策的强化学习股票投资组合构建方法与流程

文档序号:37113252发布日期:2024-02-22 21:12阅读:25来源:国知局
一种基于SVM决策的强化学习股票投资组合构建方法与流程

本发明涉及金融量化分析,特别涉及一种基于svm决策的强化学习股票投资组合构建方法。


背景技术:

1、股票交易数据具有高噪声、非线性和动态性等特性,预测股票市场趋势极具挑战性。传统的统计模型具有解释性,但预测股票市场性能有限。机器学习和深度学习模型具有出色的特征提取和拟合能力,但缺乏可解释性。

2、近年来,利用强化学习训练端到端的基于代理的股票交易模型受到广泛关注。与直接预测市场趋势的模型不同,强化学习通过捕捉市场环境的动态来构建投资策略,为学习和行动提供更多空间,最终实现回报增长。然而,强化学习也存在挑战。代理行为旨在最大限度地提高预期回报,这会强化某些行为,导致行为偏见,不利于快速适应新的市场情况。例如,近端策略优化(ppo)和深度确定性策略梯度(ddpg)往往在跌幅最大的股票中持有较少的头寸,在涨幅最高的股票中也持有较小的头寸。这表明ppo和ddpg表现出保守的持有策略,在控制亏损率的同时,可能会错过高回报的机会。相反,优势演员-评论家(a2c)模型,为了追求更大的回报,风险更高,往往表现出相反的行为。

3、经检索,专利申请号202110408642.5,专利名称为:一种融合生成对抗网络与二维注意力机制的股票预测方法;该申请案获取驱动因子的历史序列数据作为股票序列输入;对历史序列数据进行数据预处理;将预处理后的历史序列数据划分为训练集和测试集,进行标准化处理,生成二维数据序列输入;对二维数据序列输入进行空间注意力加权;对经过空间注意力加权后的二维数据序列输入进行时间注意力加权;构建基于二维时间空间注意力机制的股票预测初步模型,作为生成器;修改生成器的输出部分结构,得到新生成器;基于新生成器和生成对抗网络判别器建立股票预测模型;构建股票预测模型的优化目标,得到最优的股票预测模型。该申请案虽然也用到了注意力机制来进行股票预测,但该申请案的重点在于构建一个基于空间、时间二维注意力机制与生成对抗网络的股票预测模型,与本专利思路完全不同。


技术实现思路

1、1.发明要解决的技术问题

2、为克服上述现有股票预测方法的局限性,本发明提供了一种基于svm决策的强化学习股票投资组合构建方法,本发明能够平衡两个不同持有策略模型的特征,实现积极型持有策略和保守型持有策略之间的平衡,能够产生比任何一个单独模型都高的投资回报率。

3、2.技术方案

4、为达到上述目的,本发明提供的技术方案为:

5、本发明的一种基于svm决策的强化学习股票投资组合构建方法,使用svm来区分代表积极和保守两种不同风格的历史投资组合模式,并获得偏好中性的分类边界,通过计算投资组合向量和分类边界之间的距离来衡量每个代理对各自策略的态度;根据代理当天的投资组合偏好,选择态度更明确的策略,实施买卖决策。

6、更进一步地,所述的代理为参与金融市场交易决策的算法或模型,包括但不限于ppo、a2c和ddpg。

7、本发明的一种基于svm决策的强化学习股票投资组合构建方法,具体包括如下步骤:

8、步骤1:分析不同强化学习代理的行为,以确定代理的风险偏好类型;

9、步骤2:训练积极型代理和保守型代理,通过记录代理在历史交易日生成的持仓向量,收集积极型代理和保守型代理的每日持仓向量,并分别标记代理编号;

10、步骤3:创建并训练svm二元分类模型,输入特征为代理的持仓向量,标签是代理编号,获得最佳的分类边界;

11、步骤4:独立运行预先训练好的两个代理,依据两个代理的持仓向量到svm分类边界的距离,来选择每日投资组合策略;

12、步骤5:根据每天选定的投资组合策略来确定与股票市场环境互动的买入和卖出行动。

13、更进一步地,步骤1通过比较代理在训练前后的真正正收益率,正收益率为代理购买的股票中,下一天价格上涨的top k只股票占持仓百分比的平均值;以及代理出售的股票中,下一天价格下降的top k只股票占持仓百分比的平均值;当上涨持仓百分比和下降持仓百分比的平均值均较高时,确定该代理为积极型代理;当上涨持仓百分比和下降持仓百分比的平均值均较低时,确定该代理为保守型代理。

14、更进一步地,步骤1中对所有强化学习代理模型分别求出top k只上涨和下跌股票的持仓占比的平均值,然后根据平均值从高到低进行排序,选择前30%-40%的作为积极型代理,之后的作为保守型代理。

15、更进一步地,步骤2让两个代理生成持仓策略作为行动,归一化后得到股票持仓比例,多支股票组成向量的形式,形成持仓向量;通过该持仓向量结合总资产,生成对不同股票的持仓金额,该金额表示当天对第二天的持仓策略st,在第二天通过持仓策略st减去前一天的持仓策略st-1,即为需要对每只股票的调整金额,当金额为正即为买入,当金额为负即为卖出,通过执行买入和卖出行动,实现与股票市场环境的交互。

16、更进一步地,步骤4中选择距svm分类边界距离最大的代理的持仓向量,作为当天的投资组合策略。

17、更进一步地,步骤5通过将当天的持仓策略st与前一天的持仓策略st-1相减来决定买入和卖出行动。

18、3.有益效果

19、采用本发明提供的技术方案,与已有的公知技术相比,具有如下显著效果:

20、(1)本发明的一种基于svm决策的强化学习股票投资组合构建方法,提出了评估强化学习主体的风险偏好类型的分析方法,并提出了一种基于svm分类器的代理持有策略分类方案,该分类器针对不同的风险偏好类型进行定制,有效地确定了各种持有风格的边界;且通过综合两种不同风险偏好类型的代理策略,能够在投资组合中获得更高的回报。

21、(2)本发明的一种基于svm决策的强化学习股票投资组合构建方法,通过选择最明确的投资组合策略,能够更好地适应市场变化,减少不必要的风险,有助于在不同市场情况下降低潜在损失;通过平衡积极和保守的策略,有助于实现长期期望回报,同时在短期市场波动中降低风险;灵活的投资策略,使得能够根据市场情况每天选择最适合的投资组合策略,而不受限于固定策略。



技术特征:

1.一种基于svm决策的强化学习股票投资组合构建方法,其特征在于:使用svm来区分代表积极和保守两种不同风格的历史投资组合模式,并获得偏好中性的分类边界,通过计算投资组合向量和分类边界之间的距离来衡量每个代理对各自策略的态度;根据代理当天的投资组合偏好,选择态度更明确的策略,实施买卖决策。

2.根据权利要求1所述的一种基于svm决策的强化学习股票投资组合构建方法,其特征在于:所述的代理为参与金融市场交易决策的算法或模型,包括但不限于ppo、a2c和ddpg。

3.根据权利要求2所述的一种基于svm决策的强化学习股票投资组合构建方法,其特征在于,具体包括如下步骤:

4.根据权利要求3所述的一种基于svm决策的强化学习股票投资组合构建方法,其特征在于:步骤1通过比较代理在训练前后的真正正收益率,正收益率为代理购买的股票中,下一天价格上涨的top k只股票占持仓百分比的平均值;以及代理出售的股票中,下一天价格下降的top k只股票占持仓百分比的平均值;当上涨持仓百分比和下降持仓百分比的平均值均较高时,确定该代理为积极型代理;当上涨持仓百分比和下降持仓百分比的平均值均较低时,确定该代理为保守型代理。

5.根据权利要求4所述的一种基于svm决策的强化学习股票投资组合构建方法,其特征在于:步骤1中对所有强化学习代理模型分别求出top k只上涨和下跌股票的持仓占比的平均值,然后根据平均值从高到低进行排序,选择前30%-40%的作为积极型代理,之后的作为保守型代理。

6.根据权利要求5所述的一种基于svm决策的强化学习股票投资组合构建方法,其特征在于:步骤2让两个代理生成持仓策略作为行动,归一化后得到股票持仓比例,多支股票组成向量的形式,形成持仓向量;通过该持仓向量结合总资产,生成对不同股票的持仓金额,该金额表示当天对第二天的持仓策略st,在第二天通过持仓策略st减去前一天的持仓策略st-1,即为需要对每只股票的调整金额,当金额为正即为买入,当金额为负即为卖出,通过执行买入和卖出行动,实现与股票市场环境的交互。

7.根据权利要求6所述的一种基于svm决策的强化学习股票投资组合构建方法,其特征在于:步骤4中选择距svm分类边界距离最大的代理的持仓向量,作为当天的投资组合策略。

8.根据权利要求7所述的一种基于svm决策的强化学习股票投资组合构建方法,其特征在于:步骤5通过将当天的持仓策略st与前一天的持仓策略st-1相减来决定买入和卖出行动。


技术总结
本发明公开了一种基于SVM决策的强化学习股票投资组合构建方法,属于金融量化分析技术领域。本发明使用SVM来区分代表积极和保守两种不同风格的历史投资组合模式,并获得偏好中性的分类边界,通过计算投资组合向量和分类边界之间的距离来衡量每个代理对各自策略的态度。本发明根据代理当天的投资组合偏好,选择态度更明确的策略,特别是有利于距离边界最大距离的策略。通过将不同风险偏好类型的代理策略结合在一起,本发明在股票市场交易中能够取得更好的结果,同时降低风险,提高长期期望回报,可以为投资者提供更多的选择和决策支持。

技术研发人员:陈钢,孔海春,熊哲立,宋卫卫
受保护的技术使用者:长三角信息智能创新研究院
技术研发日:
技术公布日:2024/2/21
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1