带动作集合的强化学习干扰波形生成、评价方法及装置

文档序号：32313102发布日期：2022-11-23 13:37阅读：来源：国知局

技术特征：
1.一种带动作集合的强化学习干扰波形生成方法，其特征在于包括如下步骤：步骤s1、建立干扰波形库，初始化干扰波形的参数；步骤s2、构建干扰波形决策网络，包括策略网络和价值网络，策略网络获取通信状态，输出干扰动作，干扰动作包括一组干扰波形的参数，价值网络获取通信状态和干扰动作，输出两者匹配的评价值；步骤s3、探索阶段使用跟踪算法进行干扰，填充经验池，经验池包括当前通信状态、干扰动作、通信反馈信息和下一时刻通信状态；步骤s4、从经验池中随机选取一组数据，用于训练干扰波形决策网络；步骤s5、根据通信方当前状态输出干扰动作，通过策略网络，根据通信方当前通信状态和干扰方针当前时刻的干扰动作，预测下一时刻针对通信方通信状态的干扰动作；步骤s6、将策略网络输出的干扰动作经离散化后得到近似干扰动作，通过策略网络输出的干扰动作，从干扰波形库中选取一组相近的干扰动作，将策略网络输出的干扰动作、离散化后得到近似干扰动作和干扰波形库中选取的干扰动作相结合，通过对应的通信状态和价值网络，选取价值最高的干扰动作作为实际的干扰动作。2.根据权利要求1所述的一种带动作集合的强化学习干扰波形生成方法，其特征在于：所述步骤s2中，策略网络包括一组全连接层构成的多层感知机，输入为通信状态，输出为干扰动作，干扰动作为n维，策略π使用n维的高斯分布连乘来近似，最后根据策略π采样得到干扰动作。3.根据权利要求1所述的一种带动作集合的强化学习干扰波形生成方法，其特征在于：所述步骤s2中，价值网络包括一组全连接层构成的多层感知机，输入通信状态s和干扰动作a，输出为q值，基于最大熵的随机策略强化学习的sac算法：其中，π
*
表示sac算法的目标函数，表示干扰的效能，将其作为某段时间内累计奖励，h表示通信状态s
t
下策略分布的熵，α表示熵系数，ρ
π
表示策略π形成的状态-动作轨迹分布，s
t
表示第t时刻的状态，a
t
表示第t时刻的干扰动作，e表示数学期望运算。4.根据权利要求3所述的一种带动作集合的强化学习干扰波形生成方法，其特征在于：所述熵系数α具体为：α(t)＝1-0.5
×
log10(eps)其中，eps表示训练的轮数，log10表示以10为底的对数，熵系数的选取大小随训练轮数的增加而减小。5.根据权利要求1所述的一种带动作集合的强化学习干扰波形生成方法，其特征在于：所述步骤s3中，探索阶段采用的是一定比例的跟踪算法，即以第一概率随机输出干扰参数范围内的波形参数，以第二概率侦察通信方的通信状态，干扰方给出调制模式相同、信道相同、功率随机的干扰波形参数。6.根据权利要求1所述的一种带动作集合的强化学习干扰波形生成方法，其特征在于：所述步骤s4中，干扰方进行多轮、每轮多次干扰，统计干扰效果，通信方的抗干扰策略为：如
果接收方误码率超过了设定的阈值，则首先增大功率进行抗干扰，若到达最大功率误码率依旧超过设定阈值，则按照预设的信道转换的方式抗干扰，若依旧受到了干扰，则通过降低调制阶数和改变调制模式来抗干扰。7.根据权利要求1所述的一种带动作集合的强化学习干扰波形生成方法，其特征在于：所述步骤s6中，对策略网络输出的干扰动作进行离散化，根据公式：m'＝int(m
t
)其中m’为离散化后的干扰方调制模式，m
t
为策略网络输出的干扰方调制模式，int为向下取整符号。c'＝round(c
t
)其中c’为离散化后的干扰方干扰频点，c
t
为策略网络输出的干扰方干扰频点，round为四舍五入符号。p'＝round(p
t
)其中p’为离散化后的干扰方干扰频点，p
t
为策略网络输出的干扰方干扰频点，round为四舍五入符号。8.根据权利要求1所述的一种带动作集合的强化学习干扰波形生成方法，其特征在于：所述步骤s6中，策略网络输出的干扰动作，使用knn算法，从干扰波形库中，选取一组相近的干扰动作，构成干扰动作集|a|，根据公式：其中，d为干扰波形库中的干扰动作和策略网络输出的干扰动作的距离，p
t
、c
t
、m
t
分别为策略网络输出的干扰功率、干扰信道、干扰调制模式，p、c、m分别为干扰库中的干扰干扰功率、干扰信道、干扰调制模式；将干扰波形库中的信道结合策略网络输出的干扰功率、干扰调制模式组成干扰波形加入到干扰集合|a|中。9.一种带动作集合的强化学习干扰波形生成装置，其特征在于：包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8中任一项所述的一种带动作集合的强化学习干扰波形生成方法。10.一种带动作集合的强化学习干扰波形生成评价方法，其特征在于：根据权利要求1-8中任一项所述的一种带动作集合的强化学习干扰波形生成方法，生成的干扰波形，进行干扰效果的评价，用于判断干扰波形的准确度，干扰效果评价公式如下：其中，r表示干扰的实际效果，e1表示信道预测正确标志，当信道预测正确时为1，否则为0，err表示通信方误符号率。

技术总结
本发明公开了带动作集合的强化学习干扰波形生成、评价方法及装置，建立干扰波形库；构建干扰波形决策网络，包括策略网络和价值网络；探索阶段使用跟踪算法进行干扰，填充经验池；从经验池中随机选取一组数据；根据当前通信状态的干扰动作，通过策略网络预测下一时刻相应干扰动作；根据策略网络输出的干扰动作，生成离散化干扰动作，从干扰波形库中选取干扰动作，并结合策略网络输出的干扰动作，共同输入价值网络，得到价值最高的干扰动作作为实际的干扰动作；再进行干扰效果评价。针对干扰动作和干扰参数庞大的情况，对通信方的抗干扰行为进行学习，解决了现有干扰波形算法收敛速度慢、准确率不高的问题，实现了精准干扰。实现了精准干扰。实现了精准干扰。

技术研发人员：许雨婷岳克强李文钧吕宝媛赵金铎梁嘉铠甘智高何旗凯
受保护的技术使用者：杭州电子科技大学
技术研发日：2022.07.25
技术公布日：2022/11/22

完整全部详细技术资料下载

当前第2页1 2