带动作集合的强化学习干扰波形生成、评价方法及装置

文档序号:32313102发布日期:2022-11-23 13:37阅读:来源:国知局

技术特征:
1.一种带动作集合的强化学习干扰波形生成方法,其特征在于包括如下步骤:步骤s1、建立干扰波形库,初始化干扰波形的参数;步骤s2、构建干扰波形决策网络,包括策略网络和价值网络,策略网络获取通信状态,输出干扰动作,干扰动作包括一组干扰波形的参数,价值网络获取通信状态和干扰动作,输出两者匹配的评价值;步骤s3、探索阶段使用跟踪算法进行干扰,填充经验池,经验池包括当前通信状态、干扰动作、通信反馈信息和下一时刻通信状态;步骤s4、从经验池中随机选取一组数据,用于训练干扰波形决策网络;步骤s5、根据通信方当前状态输出干扰动作,通过策略网络,根据通信方当前通信状态和干扰方针当前时刻的干扰动作,预测下一时刻针对通信方通信状态的干扰动作;步骤s6、将策略网络输出的干扰动作经离散化后得到近似干扰动作,通过策略网络输出的干扰动作,从干扰波形库中选取一组相近的干扰动作,将策略网络输出的干扰动作、离散化后得到近似干扰动作和干扰波形库中选取的干扰动作相结合,通过对应的通信状态和价值网络,选取价值最高的干扰动作作为实际的干扰动作。2.根据权利要求1所述的一种带动作集合的强化学习干扰波形生成方法,其特征在于:所述步骤s2中,策略网络包括一组全连接层构成的多层感知机,输入为通信状态,输出为干扰动作,干扰动作为n维,策略π使用n维的高斯分布连乘来近似,最后根据策略π采样得到干扰动作。3.根据权利要求1所述的一种带动作集合的强化学习干扰波形生成方法,其特征在于:所述步骤s2中,价值网络包括一组全连接层构成的多层感知机,输入通信状态s和干扰动作a,输出为q值,基于最大熵的随机策略强化学习的sac算法:其中,π
*
表示sac算法的目标函数,表示干扰的效能,将其作为某段时间内累计奖励,h表示通信状态s
t
下策略分布的熵,α表示熵系数,ρ
π
表示策略π形成的状态-动作轨迹分布,s
t
表示第t时刻的状态,a
t
表示第t时刻的干扰动作,e表示数学期望运算。4.根据权利要求3所述的一种带动作集合的强化学习干扰波形生成方法,其特征在于:所述熵系数α具体为:α(t)=1-0.5
×
log10(eps)其中,eps表示训练的轮数,log10表示以10为底的对数,熵系数的选取大小随训练轮数的增加而减小。5.根据权利要求1所述的一种带动作集合的强化学习干扰波形生成方法,其特征在于:所述步骤s3中,探索阶段采用的是一定比例的跟踪算法,即以第一概率随机输出干扰参数范围内的波形参数,以第二概率侦察通信方的通信状态,干扰方给出调制模式相同、信道相同、功率随机的干扰波形参数。6.根据权利要求1所述的一种带动作集合的强化学习干扰波形生成方法,其特征在于:所述步骤s4中,干扰方进行多轮、每轮多次干扰,统计干扰效果,通信方的抗干扰策略为:如
果接收方误码率超过了设定的阈值,则首先增大功率进行抗干扰,若到达最大功率误码率依旧超过设定阈值,则按照预设的信道转换的方式抗干扰,若依旧受到了干扰,则通过降低调制阶数和改变调制模式来抗干扰。7.根据权利要求1所述的一种带动作集合的强化学习干扰波形生成方法,其特征在于:所述步骤s6中,对策略网络输出的干扰动作进行离散化,根据公式:m'=int(m
t
)其中m’为离散化后的干扰方调制模式,m
t
为策略网络输出的干扰方调制模式,int为向下取整符号。c'=round(c
t
)其中c’为离散化后的干扰方干扰频点,c
t
为策略网络输出的干扰方干扰频点,round为四舍五入符号。p'=round(p
t
)其中p’为离散化后的干扰方干扰频点,p
t
为策略网络输出的干扰方干扰频点,round为四舍五入符号。8.根据权利要求1所述的一种带动作集合的强化学习干扰波形生成方法,其特征在于:所述步骤s6中,策略网络输出的干扰动作,使用knn算法,从干扰波形库中,选取一组相近的干扰动作,构成干扰动作集|a|,根据公式:其中,d为干扰波形库中的干扰动作和策略网络输出的干扰动作的距离,p
t
、c
t
、m
t
分别为策略网络输出的干扰功率、干扰信道、干扰调制模式,p、c、m分别为干扰库中的干扰干扰功率、干扰信道、干扰调制模式;将干扰波形库中的信道结合策略网络输出的干扰功率、干扰调制模式组成干扰波形加入到干扰集合|a|中。9.一种带动作集合的强化学习干扰波形生成装置,其特征在于:包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8中任一项所述的一种带动作集合的强化学习干扰波形生成方法。10.一种带动作集合的强化学习干扰波形生成评价方法,其特征在于:根据权利要求1-8中任一项所述的一种带动作集合的强化学习干扰波形生成方法,生成的干扰波形,进行干扰效果的评价,用于判断干扰波形的准确度,干扰效果评价公式如下:其中,r表示干扰的实际效果,e1表示信道预测正确标志,当信道预测正确时为1,否则为0,err表示通信方误符号率。

技术总结
本发明公开了带动作集合的强化学习干扰波形生成、评价方法及装置,建立干扰波形库;构建干扰波形决策网络,包括策略网络和价值网络;探索阶段使用跟踪算法进行干扰,填充经验池;从经验池中随机选取一组数据;根据当前通信状态的干扰动作,通过策略网络预测下一时刻相应干扰动作;根据策略网络输出的干扰动作,生成离散化干扰动作,从干扰波形库中选取干扰动作,并结合策略网络输出的干扰动作,共同输入价值网络,得到价值最高的干扰动作作为实际的干扰动作;再进行干扰效果评价。针对干扰动作和干扰参数庞大的情况,对通信方的抗干扰行为进行学习,解决了现有干扰波形算法收敛速度慢、准确率不高的问题,实现了精准干扰。实现了精准干扰。实现了精准干扰。


技术研发人员:许雨婷 岳克强 李文钧 吕宝媛 赵金铎 梁嘉铠 甘智高 何旗凯
受保护的技术使用者:杭州电子科技大学
技术研发日:2022.07.25
技术公布日:2022/11/22
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1