生命周期投资管理效用模型及生命周期投资管理规划方法

文档序号:37361975发布日期:2024-03-22 10:15阅读:8来源:国知局
生命周期投资管理效用模型及生命周期投资管理规划方法

本发明涉及生命周期投资管理规划方法,尤其是生命周期投资管理效用模型及生命周期投资管理规划方法。


背景技术:

1、生命周期投资管理规划主要通过合理配置投资和消费,以最大化家庭投资人在一段时期或者整个生命周期内的效用。现有的生命周期投资管理规划方法主要基于国外社保体系和家庭收入体系进行建模,并采用传统的统计学习方法或者老旧的机器学习方法求取最优策略,但是由于建模时并未考虑中国特有的社保体系和公积金体系,导致得出的策略无法适应国内的实际需求。最近一些研究采用hppo(hybrid proximal policyoptimization,混合空间的近端优化)模型进行生命周期投资管理规划,hppo模型包括智能体和环境,智能体包括两个actor(演员)网络和一个critic(评论家)网络,hppo模型利用高斯分布生成连续空间策略,但是高斯分布的无界性使hppo模型在有限策略空间中,引入了概率截断问题,此问题引起的误差导致使用hppo模型得到的结果难以接近最优策略,大幅降低了hppo模型的最优性。


技术实现思路

1、本发明所要解决的技术问题是提供一种适合中国国情的生命周期投资管理效用模型及生命周期投资管理规划方法,不但可以在有限策略空间下接近最优策略,而且提高了适用性和有效性。

2、本发明解决上述技术问题所采用的技术方案为:一种生命周期投资管理效用模型,包括

3、收入模块:用于根据从公开的chfs(中国家庭金融调查)中采集的数据预测得到家庭投资人的劳动收入和就业状态;

4、养老金模块:用于根据从公开的省历年平均工资、公开的养老金缴纳基数和收入的比值、公开的中国预期寿命、公开的养老金个人账户的利率、预设的缴纳养老金个人账户比例以及收入模块预测的家庭投资人的劳动收入和就业状态,预测得到家庭投资人需要缴纳的养老金基数以及家庭投资人退休后可获得的养老金;

5、投资模块:用于根据从公开的上证300中采集的数据、公开的历年房价波动率、公开的历年的长期贷款利率预测在家庭投资人的年龄为t时的长期债券利率、股权利率、房价波动率和长期贷款利率,并通过预测的长期债券利率和股权利率预测得到家庭投资人流动性账户的余额和非流动性账户的余额;

6、公积金模块:用于根据从国内的公积金制度中采集的数据以及投资模块预测的长期贷款利率,预测得到家庭投资人的公积金账户余额、公积金贷款余额和商业贷款余额;

7、买卖租赁房屋模块:用于根据从公开的一线房价、公开的房屋租售比、公开的交易税率、投资模块预测的房价波动率以及公积金模块预测的家庭投资人的公积金贷款余额和商业贷款余额,预测得到家庭投资人的租房花费和每期还款值;

8、医疗模块:用于根据从公开的charls(中国健康与养老追踪调查)中采集的身体情况数据,预测得到家庭投资人的健康状态、医疗花费和医保保费;

9、预算模块:用于根据公开的最低免税基数、收入模块预测的家庭投资人的劳动收入、养老金模块预测的家庭投资人需要缴纳的养老金基数和家庭投资人退休后可获得的养老金、投资模块预测的家庭投资人的流动性账户的余额和非流动性账户的余额、公积金模块预测的家庭投资人的公积金账户余额、买卖租赁房屋模块预测的家庭投资人的租房花费和每期还款值以及医疗模块预测的家庭投资人的医疗花费和医保保费,预测得到家庭投资人的其他支出;

10、效用模块:用于根据医疗模块预测的家庭投资人的健康状态以及预算模块预测的家庭投资人的其他支出,预测得到家庭投资人消费带来的效用。

11、与现有技术相比,本发明的优点在于本发明构建了一个包括收入模块、养老金模块、投资模块、公积金模块、买卖租赁房屋模块、医疗模块、预算模块和效用模块的生命周期投资管理效用模型,通过采集中国公开可靠大数据集、运用向量自回归等方法、全面考虑中国国情以及模拟公积金和医保机制等方式,针对中国特有的社保体系和公积金体系进行建模,能够生成更符合国情的轨迹策略,使得使用该生命周期投资管理效用模型的生命周期投资管理规划方法得出的规划结果更科学合理,为家庭投资人提供决策支持,从而大幅提高了生命周期投资管理效用模型的适用性和有效性。

12、进一步的,所述的公开的chfs中采集的数据包括家庭收入、就业时间、失业时间和人口统计特征;

13、所述的人口统计特征包括年龄、性别、就业单位性质、户籍种类、就业行业种类、教育背景和就业状态;

14、所述的公开的上证300中采集的数据包括股票每天波动率、10年期国债利率;

15、所述的国内的公积金制度中采集的数据包括公积金缴纳比例、公积金贷款最大比率、公积金贷款上限以及公积金贷款利率;

16、所述的公开的charls中采集的身体情况数据包括年龄、慢性病类型、残疾状态、每年医疗花费、性别、健康状态和存活状态。

17、进一步的,在所述的收入模块中,

18、将家庭投资人的年龄为t时的劳动收入记为yt,其中,t表示家庭投资人的年龄,表示家庭投资人的年龄为t时的就业状态,表示家庭投资人的年龄为t时的就业状态为失业,表示家庭投资人的年龄为t时的就业状态为就业,fy(·)表示决定劳动收入的主要部分的函数,xt表示家庭投资人的年龄为t时的人口统计特征,表示家庭投资人的年龄为t时影响劳动收入的持续性因素,表示折扣变量,ηt表示遵循高斯混合模型,n(·)表示高斯分布,表示组成影响劳动收入持续性因素的第一个高斯分布均值,表示组成影响劳动收入持续性因素的第一个高斯分布方差,with prob.表示概率,pη表示落在第一个高斯分布的概率,表示组成影响劳动收入持续性因素的第二个高斯分布均值,表示组成影响劳动收入持续性因素的第二个高斯分布方差,1-pη表示落在第二个高斯分布的概率,表示家庭投资人的年龄为t时影响劳动收入的暂时性因素,表示影响劳动收入的暂时性因素的方差;

19、家庭投资人的年龄为t时的就业状态由家庭投资人的年龄为t时的就业概率决定,将家庭投资人的年龄为t时的就业概率记为其中,fu(·)表示决定就业概率的函数,e表示自然常数;

20、对从公开的chfs中采集的数据依次进行最小二乘法、多项式回归和矩回归操作,得到fy(·)、fu(·)、pη、δp和

21、在所述的养老金模块中,

22、将家庭投资人的年龄为t时需要缴纳的养老金基数记为其中,t表示家庭投资人的年龄,ξb表示养老金缴纳基数和收入比值,yt-1表示家庭投资人的年龄为t-1时的劳动收入,表示家庭投资人的年龄为t-1时的就业状态,yt表示家庭投资人的年龄为t时的劳动收入,表示家庭投资人的年龄为t时的省平均收入,由向量自回归方法拟合省历年平均工资后得到,表示家庭投资人的年龄为t时的就业状态;

23、将家庭投资人的年龄为t时退休后可获得的养老金记为bt,其中,表示家庭投资人的年龄为t时退休后从基本养老金里获取的养老金,其中t0≤τ≤tret-1,t0表示家庭投资人第一次参加工作的年龄,tret表示国家规定的退休年龄,表示家庭投资人的年龄为τ时需要缴纳的养老金基数,表示家庭投资人的年龄为τ时的省平均收入,表示家庭投资人的年龄为τ时的就业状态,表示家庭投资人的年龄为t时退休后从养老金个人账户获取的养老金,表示家庭投资人的年龄为tret时的养老金个人账户余额,ib表示养老金个人账户的利率,texp表示中国的期望寿命,ξm表示家庭投资人缴纳养老金个人账户比例;

24、在所述的投资模块中,

25、将家庭投资人的年龄为t时利率组成的向量记为其中,表示影响利率的基数,表示利率折扣参数,rt-1表示家庭投资人的年龄为t-1时的利率,∈t表示家庭投资人的年龄为t时影响利率的随机因素,表示家庭投资人的年龄为t时的长期债券利率,表示家庭投资人的年龄为t时的股权利率,表示家庭投资人的年龄为t时的房价波动率,表示家庭投资人的年龄为t时的长期贷款利率;

26、将家庭投资人的年龄为t+1时流动性账户的余额记为其中,j表示家庭投资人的流动性账户的账户类型,l表示流动性账户中的长期债券账户,e表示流动性账户中的股权账户,rl,t+1表示家庭投资人的年龄为t+1时的长期债券利率,re,t+1表示家庭投资人的年龄为t+1时的股权利率,表示家庭投资人的年龄为t时的长期债券账户余额,表示家庭投资人的年龄为t时的股权账户余额,表示家庭投资人的年龄为t+1时的长期债券账户中流动的资金,表示家庭投资人的年龄为t+1时的股权账户中流动的资金;其中设置表示家庭投资人的年龄为t+1时从流动性账户取出的资金,且

27、将家庭投资人的年龄为t+1时非流动性账户的余额记为其中,j′表示家庭投资人的非流动性账户的账户类型,l′表示个人养老金账户中的长期债券账户,e′表示个人养老金账户中的股权账户,rl′,t表示家庭投资人的年龄为t时个人养老金账户中的长期债券利率,re′,t表示家庭投资人的年龄为t时个人养老金账户中的股权利率,表示表示家庭投资人的年龄为t时个人养老金账户中的长期债券账户余额,表示家庭投资人的年龄为t时个人养老金账户中的股权账户余额,表示家庭投资人的年龄为t+1时个人养老金账户中长期债券账户中流动的资金,表示家庭投资人的年龄为t+1时个人养老金账户中股权账户中流动的资金,其中设置表示家庭投资人的年龄为t+1时从非流动性账户取出的资金,且

28、在所述的公积金模块中,

29、将家庭投资人的年龄为t时的公积金账户余额记为其中,if表示无风险利率,if=2%,表示家庭投资人的年龄为t-1时的公积金账户余额,ξh表示公积金缴纳比例,表示家庭投资人的年龄为t时需要缴纳的养老金基数,表示根据国内的公积金制度家庭投资人的年龄为t时能从公积金账户取出的资金;

30、将家庭投资人的年龄为t时的公积金贷款余额记为其中,φh表示公积金贷款最大比率,表示家庭投资人的年龄为t-1时的公积金账户余额,表示公积金贷款上限,dt表示家庭投资人的年龄为t时背负的总房贷,ot表示家庭投资人的年龄为t时的房屋状态,ot-1=0表示家庭投资人的年龄为t-1时的房屋状态为无房,ot=1表示家庭投资人的年龄为t时的房屋状态为有房,ot-1=1表示家庭投资人的年龄为t-1时的房屋状态为有房,rm,t-1表示家庭投资人的年龄为t-1时投资模块预测的长期贷款利率,id表示公积金贷款利率和投资模块预测的长期贷款利率的利差,表示家庭投资人的年龄为t-1时的公积金贷款余额,表示家庭投资人的年龄为t时的公积金贷款还款数额;

31、将家庭投资人的年龄为t时的商业贷款余额记为dt′,其中,dt表示家庭投资人的年龄为t时背负的总房贷,表示公积金贷款上限;

32、在所述的买卖租赁房屋模块中,

33、将家庭投资人的年龄为t时的租房花费记为kt,若ot-1=0,ot=0,则kt=φrpvtht;若ot-1=0,ot=1,则kt≤(1+φbuy)vtht;若ot-1=0,ot=1,则kt≥(1-φlv+φbuy)vtht;若ot-1=1,ot=0,则kt=-vtht,其中,φrp表示房屋租售比,vt表示家庭投资人的年龄为t时单平米房屋售价,且其中vt-1表示家庭投资人的年龄为t-1时单平米房屋售价,表示家庭投资人的年龄为t时的房价波动率,ht表示家庭投资人的年龄为t时所居住的房屋面积,φbuy表示交易税率,φlv表示贷款比例;

34、将家庭投资人的年龄为t时背负的总房贷记为dt,其中,rm,t-1表示家庭投资人的年龄为t-1时的长期贷款利率,id表示公积金贷款利率和长期贷款利率的利差,表示家庭投资人的年龄为t-1时的公积金贷款余额,d′t-1表示家庭投资人的年龄为t-1时的商业贷款余额;

35、通过公式计算得到家庭投资人的年龄为t时每年商业贷款需要还款的最低比率和家庭投资人的年龄为t时每年公积金贷款需要还款的最低比率其中k表示贷款类型,cl表示商业贷款,hfl表示公积金贷款,表示家庭投资人的年龄为t时商业贷款的剩余到期时间,其中,m{cl}表示商业贷款还款期限,ot-1=0表示家庭投资人的年龄为t-1时的房屋状态为无房,ot=1表示家庭投资人的年龄为t时的房屋状态为有房,表示家庭投资人的年龄为t-1时商业贷款的剩余到期时间,dt-1表示家庭投资人的年龄为t-1时背负的总房贷,表示家庭投资人的年龄为t-1时的公积金贷款余额,表示家庭投资人的年龄为t时公积金贷款的剩余到期时间,其中,m{hfl}表示公积金贷款还款期限,ot-1=0表示家庭投资人的年龄为t-1时的房屋状态为无房,ot=1表示家庭投资人的年龄为t时的房屋状态为有房,tret表示国家规定的退休年龄,t表示家庭投资人的年龄,表示家庭投资人的年龄为t-1时公积金贷款的剩余到期时间,表示家庭投资人的年龄为t-1时的公积金贷款余额,icl,t表示家庭投资人的年龄为t时的商业贷款利率即家庭投资人的年龄为t时的长期贷款利率,ihfl,t表示家庭投资人的年龄为t时的公积金贷款利率;

36、将家庭投资人的年龄为t时每期还款值记为若ot-1=1,ot=1,dt-1>0,则若ot-1=1,ot=1,dt-1>0,则若ot-1=1,ot=1,dt-1=0,则

37、在所述的医疗模块中,

38、将家庭投资人的年龄为t时的健康状态记为et,ψt+1|et=1-p{0|et},ψt+1表示家庭投资人的年龄为t+1时的存活概率,|是常用的条件概率表示,若et=0则表示家庭投资人的年龄为t时的健康状态为死亡,若et=1则表示家庭投资人的年龄为t时的健康状态为健康,若et=0.74则表示家庭投资人的年龄为t时的健康状态为生病,其中,t表示家庭投资人的年龄,p{0|et}表示家庭投资人的年龄为t时的死亡概率;

39、将家庭投资人的年龄为t时的医疗花费记为mt,其中,fm(·)表示决定医疗花费的主要部分的函数,t表示家庭投资人的年龄,表示家庭投资人的年龄为t时的身体情况数据,表示家庭投资人的年龄为t时影响医疗花费的持续性因素,表示折扣参数,ωt~n(0,σω),n(·)表示高斯分布,σω表示影响的方差,表示家庭投资人的年龄为t时影响医疗花费的暂时性因素,σζ表示影响的方差;

40、将家庭投资人的年龄为t时的医保保费记为it,其中,tret≤τ≤t,tret表示国家规定的退休年龄,t表示家庭投资人的预计死亡年龄,表示家庭投资人的年龄为τ时的健康状态为生病的概率,e表示数学期望,δmτ表示家庭投资人的年龄为τ时预测的生病医疗花费和预测的不生病医疗花费的差值,fm(·)表示决定医疗花费的主要部分的函数,表示家庭投资人的年龄为τ时的身体情况数据,e表示家庭投资人的健康状态为不健康,t表示家庭投资人的年龄,yτ表示家庭投资人的年龄为τ时的劳动收入,1表示家庭投资人的健康状态为健康,表示家庭投资人的年龄为τ时影响医疗花费的持续性因素,表示家庭投资人的年龄为τ时影响医疗花费的暂时性因素,if表示无风险利率;

41、对从公开的charls中采集的数据依次进行最小二乘法、多项式回归和矩回归操作,得到fm(·)、σω、σζ和δζ;

42、在所述的预算模块中,

43、将家庭投资人的年龄为t时的缴税基数记为其中,yt表示家庭投资人的年龄为t时的劳动收入,ξc表示养老金个人账户缴纳比例,表示家庭投资人的年龄为t时需要缴纳的养老金基数,γ表示税费减免基数,nt表示家庭投资人的年龄为t时拥有的孩子数量,ot=0表示家庭投资人的年龄为t时的房屋状态为无房,ot=1表示家庭投资人的年龄为t时的房屋状态为有房,dt表示家庭投资人的年龄为t时背负的总房贷,表示家庭投资人的年龄为t时个人养老金账户中流动的资金,y表示最低免税基数;

44、将家庭投资人的年龄为t时需要纳税的数额记为其中,和分别表示拟合参数;

45、将家庭投资人的年龄为t时的总财富记为wt,dt,其中,表示家庭投资人的年龄为t时的养老金个人账户余额,表示家庭投资人的年龄为t时非流动性账户的余额,表示家庭投资人的年龄为t时流动性账户的余额,表示家庭投资人的年龄为t时的公积金账户余额,ot表示家庭投资人的年龄为t时的房屋状态,若ot=0则表示家庭投资人的年龄为t时的房屋状态为无房,若ot=1则表示家庭投资人的年龄为t时的房屋状态为有房,vt表示家庭投资人的年龄为t时单平米房屋售价,ht表示家庭投资人的年龄为t时所居住的房屋面积,dt表示家庭投资人的年龄为t时背负的总房贷;

46、将家庭投资人的年龄为t时退休前的其他支出记为ct′,其中,t<tret,yt表示家庭投资人的年龄为t时的劳动收入,ξc表示养老金个人账户缴纳比例,表示家庭投资人的年龄为t时需要缴纳的养老金基数,nt表示家庭投资人的年龄为t时拥有的孩子数量,ft表示家庭投资人的年龄为t时为每个孩子进行的金钱代际转移数量,表示家庭投资人的年龄为t时的每期还款值,kt表示家庭投资人的年龄为t时的租房花费,表示根据国内的公积金制度家庭投资人的年龄为t时从公积金账户取出的资金,表示家庭投资人的年龄为t时从流动性账户取出的资金,表示家庭投资人的年龄为t时从非流动性账户取出的资金,gt表示家庭投资人的年龄为t时的医保缴纳比例,it表示家庭投资人的年龄为t时的医保保费,tret表示国家规定的退休年龄;

47、将家庭投资人的年龄为t时退休后的其他支出记为c″t,其中,t≥tret,bt表示家庭投资人的年龄为t时获得的养老金,表示家庭投资人的年龄为tret-1时的公积金账户余额,ξp表示取出个人养老金时缴税比率,表示家庭投资人的年龄为t时从非流动性账户取出的资金,表示家庭投资人的年龄为t时从流动性账户取出的资金,nt表示家庭投资人的年龄为t时拥有的孩子数量,ft表示家庭投资人的年龄为t时为每个孩子进行的金钱代际转移数量,kt表示家庭投资人的年龄为t时的租房花费,mt表示家庭投资人的年龄为t时的医疗花费;

48、将家庭投资人的年龄为t时的其他支出记为ct,ct=c′t+c″t;

49、在所述的效用模块中,

50、将家庭投资人的年龄为t时消费带来的效用记为ut,其中,ψ(et)=1-κ1·et,et表示家庭投资人的年龄为t时的健康状态,κ1,κ2,κ3分别表示第一、第二和第三比重系数,ct表示家庭投资人的年龄为t时的其他支出,ρ表示为其他支出的最优比率,ht表示家庭投资人的年龄为t时所居住的房屋面积,γ表示风险厌恶系数,nt表示家庭投资人在年龄为t时拥有的孩子数量,α表示孩子数量对效用的影响比率,ft表示家庭投资人的年龄为t时为每个孩子进行的金钱代际转移数量,ψt表示家庭投资人的年龄为t时的存活概率,wt表示家庭投资人的年龄为t时拥有的财富数量。

51、使用上述一种生命周期投资管理效用模型的生命周期投资管理规划方法,包括以下步骤:

52、①将原有的hppo模型中智能体中的高斯分布改为beta分布得到改进后的hppo模型;

53、②获取家庭投资人输入的参数,并根据家庭投资人输入的参数初始化生命周期投资管理效用模型,得到初始化后的生命周期投资管理效用模型;

54、③根据初始化后的生命周期投资管理效用模型初始化改进后的hppo模型中的智能体,得到初始化后的hppo模型;

55、④对初始化后的hppo模型进行训练,得到训练后的hppo模型;

56、⑤根据预设的运行次数运行训练后的hppo模型并输出所有轨迹策略;

57、⑥如果家庭投资人判断轨迹策略符合投资人行为且可用于下游数据分析,则家庭投资人接收当前输出的所有轨迹策略,完成生命周期投资管理规划;如果家庭投资人不满意当前输出的所有轨迹策略,则家庭投资人修改家庭投资人输入的参数,并根据家庭投资人修改的输入的参数初始化生命周期投资管理效用模型,得到新的初始化后的生命周期投资管理效用模型,再执行步骤③。通过beta分布的有界性产生更优的决策,实现在有限策略空间下接近最优策略,大幅提升了改进后的hppo模型的最优性。

58、进一步的,所述的步骤②中,所述的家庭投资人输入的参数包括家庭投资人第一次参加工作的年龄t0、家庭投资人的年龄为t时的人口统计特征xt、家庭投资人的年龄为t时的身体情况数据和风险厌恶系数γ;

59、初始化生命周期投资管理效用模型的具体操作为:将生命周期投资管理效用模型的参数设置为家庭投资人输入的参数;

60、所述的步骤⑤中,所述的预设的运行次数为10000次。

61、进一步的,所述的步骤③中,初始化改进后的hppo模型中的智能体的具体过程如下:

62、③-1采用高斯采样方法随机初始化两个actor网络和critic网络中的多层感知机;

63、③-2定义初始化后的生命周期投资管理效用模型中的家庭投资人的年龄t、家庭投资人的年龄为t时的健康状态et、家庭投资人的年龄为t时的医疗花费mt、家庭投资人的年龄为t时的存活概率ψt、家庭投资人的年龄为t时拥有的孩子数量nt、家庭投资人的年龄为t时的劳动收入yt、家庭投资人的年龄为t时需要缴纳的养老金基数家庭投资人的年龄为t时的房屋状态ot、家庭投资人的年龄为t时的公积金账户余额家庭投资人的年龄为t时的长期债券账户余额家庭投资人的年龄为t时的股权账户余额家庭投资人的年龄为t时个人养老金账户中的长期债券账户余额家庭投资人的年龄为t时个人养老金账户中的股权账户余额家庭投资人的年龄为t时的商业贷款余额dt′、家庭投资人的年龄为t时的公积金贷款余额以及家庭投资人的年龄为t时单平米房屋售价vt为状态空间,定义初始化后的生命周期投资管理效用模型中的家庭投资人的年龄为t时为每个孩子进行的金钱代际转移数量ft、家庭投资人的年龄为t时所居住的房屋面积ht、贷款比例φlv、家庭投资人的年龄为t时根据国内的公积金制度从公积金账户取出的资金家庭投资人的年龄为t时的公积金贷款还款数额家庭投资人的年龄为t时的每期还款值家庭投资人的年龄为t+1时个人养老金账户中长期债券账户中流动的资金家庭投资人的年龄为t+1时个人养老金账户中股权账户中流动的资金家庭投资人的年龄为t+1时的长期债券账户中流动的资金以及家庭投资人的年龄为t时的股权账户中流动的资金为连续动作空间,定义初始化后的生命周期投资管理效用模型中的家庭投资人的年龄为t+1时的房屋状态ot+1为离散动作空间,将状态空间、连续动作空间以及离散动作空间输入至两个actor网络和critic网络的多层感知机中初始化每个多层感知机的输入维度和输出维度,并以高斯初始化方法初始化两个actor网络和critic网络的每一层的参数。

64、进一步的,所述的步骤④中,对初始化后的hppo模型进行训练,得到训练后的hppo模型具体操作过程包括:将初始化后的hppo模型中的智能体和初始化后的生命周期投资管理效用模型进行交互,将状态空间作为两个actor网络的输入,每个actor网络对状态空间进行处理,输出符合环境的动作空间,其中采用beta分布生成连续动作空间,采用softmax函数生成离散动作空间;环境接收每个actor网络输出的动作空间,输出对应的奖励,将奖励作为critic网络的输入,通过奖励对critic网络进行训练,critic网络输出此时状态空间对应的状态值,通过状态值对每个actor网络进行训练,最终获得训练后的hppo模型。

65、进一步的,所述的获得训练后的hppo模型的具体操作过程如下:

66、s1:环境构建当前状态集state并开始训练,

67、s2:将当前状态集state输入到一个actor网络中,经过多层感知机,得到在当前状态下的连续动作集ac;

68、s3:将当前状态集state输入到另一个actor网络中,经过多层感知机获得离散动作权重集,再通过softmax(归一化指数函数)对离散动作权重集进行计算得到在当前状态下家庭投资人的房屋状态为有房的概率和在当前状态下家庭投资人的房屋状态为无房的概率,并采用均匀分布采样方法对这两个概率进行采样得到当前的离散动作集ad;

69、s4:将连续动作集ac和离散动作集ad输入至初始化后的生命周期投资管理效用模型中,得到效用ut和下一状态集state_;

70、s5:将连续动作集ac和离散动作集ad记为动作a,并将动作a、当前状态集state、效用ut和下一状态集state_存储至记忆库中;

71、s6:重复执行步骤1~5,直至记忆库中存储有至少100万条的数据;

72、s7:从记忆库中随机选取并构建记忆组m,m={state,a,ut,state_};

73、s8:将记忆组m中当前状态集state、下一状态集state_输入至critic网络中,经过多层感知机,获取每个状态集对应的状态值并构建状态值集v;

74、s9:根据状态值集v通过gae(generalized advantage estimation,广义优势估计)算法计算得到gae值;

75、s10:根据记忆组m中动作a和当前状态集s计算得到策略熵hp;

76、s11:将记忆组m中当前状态集state输入到两个actor网络中,得到新动作anew;

77、s12:根据新动作anew和记忆组m中的动作a通过clip(gradient clip,梯度裁剪)算法计算得到策略概率比值lclip(θb);

78、s13:根据策略概率比值lclip(θb)、策略熵hp和gae值计算得到连续动作网络的损失函数值loss1和离散动作网络的损失函数值loss2,通过连续动作网络的损失函数值loss1更新一个actor网络的参数,通过离散动作网络的损失函数值loss2更新另一个actor网络的参数;

79、s14:根据gae值和状态值集v,通过公式计算得到均方误差mse,并通过均方误差mse更新critic网络的参数,其中,yi=gae+v,xi=vnew,gae表示gae值,vnew表示critic网络新生成的状态值集,n表示从记忆库中选取的记忆组m的总数,1≤i≤n;

80、s15:重复执行步骤1~14至少1000次,直到所有轨迹策略获得的效用回报的平均波动小于10%并且每条轨迹策略获得的效用回报均高于预设的家庭投资人预期效用回报,结束训练并输出训练后的hppo模型。

81、进一步的,所述的轨迹策略由家庭投资人的年龄从t0到t内所有动作a组成,所述的效用回报为家庭投资人的年龄从t0到t内所有效用ut的总和,所述的所有轨迹策略获得的效用回报的平均波动为所有轨迹策略获得的效用回报的总和与轨迹策略的总数的比值,所述的轨迹策略的总数为重复执行步骤1~14的总次数与家庭投资人的生命周期长度的比值,其中,t0表示家庭投资人第一次参加工作的年龄,t表示家庭投资人的预计死亡年龄,所述的生命周期长度为家庭投资人的年龄从t0到t的时间。

82、进一步的,所述的步骤⑤和⑥之间还包括:根据输出的所有轨迹策略,统计每条轨迹策略获得的效用回报,并输出平均每条轨迹策略能获得的效用回报;

83、家庭投资人对当前输出的平均每条轨迹策略能获得的效用回报进行评估,并做出是否接收当前输出的所有轨迹策略的选择。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1