基于强化学习机制的认知网络协作频谱感知节点选择方法与流程

文档序号：20999139发布日期：2020-06-05 22:29阅读：354来源：国知局

本发明涉及认知网络频谱感知技术领域，特别地，涉及一种基于强化学习机制的认知网络协作频谱感知节点选择方法。

背景技术：

在认知无线电网络中，高效利用空闲频段的同时不对主用户造成干扰，需要感知节点快速并准确的执行频谱感知。但由于路径损耗、阴影衰落和隐藏终端的影响，单个感知节点难以准确检测主用户的状态，误检易对主用户造成干扰。协作感知融合多个不同地理位置的节点检测信息可有效克服路径损耗、阴影衰落和隐藏终端的影响。但节点增多，消耗的能量增加，需要通过节点选择在感知开销与性能增益之间取得折衷。因而合理的选取协作节点是减少能量消耗、提高感知效率的有效方法。

协作节点的选择是决定感知性能及能量效率的重要因素，选择不同的协作节点将带来不同的感知开销及协作增益。协作感知会存在多种形式的威胁和系统错误，如节点拒绝服务或谎报数据，认知网络要具有抵抗这类异常节点的能力，提升感知性能的稳定性。文献[x.huang,d.zhang,s.tang,q.chenandj.zhang,"fairness-baseddistributedresourceallocationintwo-tierheterogeneousnetworks,"inieeeaccess,vol.7,pp.40000-40012,2019.]中论述了认知系统中由于存在恶意的感知节点或被操纵的节点，融合中心的协作增益会受到严重影响。文献[s.zhang,s.li,y.liu,m.xingandj.chen,"anovelazimuthdopplersignalreconstructionapproachforthegeo-leobi-staticmulti-channelhrwssarsystem,"inieeeaccess,vol.7,pp.39539-39546,2019.]中提出了一种简单的外部感知方法来预滤波感知数据中的极端数据，计算接收感知信号的平均值作为衡量认知用户可用性的信任因子，上报结果与融合结果接近的节点赋予较高的信任因子以使感知结果更可靠。文献[a.n.uwaechiaandn.m.mahyuddin,"spectrum-efficientdistributedcompressedsensingbasedchannelestimationforofdmsystemsoverdoublyselectivechannels,"inieeeaccess,vol.7,pp.35072-35088,2019.]中提出了基于共识的协作感知机制来应对认知网络中的数据伪造问题，在选择协作邻居节点的时候，每个可靠的节点通过与本地均值进行比较来检查接收到的感知数据，感知数据与本地均值具有最大偏差的邻居节点将被拒绝作为协作节点，通过孤立恶意邻居节点来提高协作感知的可靠性。文献[h.lee,k.noda,y.mizunoandk.nakamura,"distributedtemperaturesensingbasedonslope-assistedbrillouinopticalcorrelation-domainreflectometrywithover10kmmeasurementrange,"inelectronicsletters,vol.55,no.5,pp.276-278,732019.]中指出一些节点的虚假信息为也会被学习，因而已学习的信息不应该是永久不变的，需要在一定周期后更新学习的置信度。文献[a.liandg.han,"full-duplex-basedcontrolchannelestablishmentforcognitiveinternetofthings,"inieeecommunicationsmagazine,vol.57,no.3,pp.70-75,march2019.]中提出基于强化学习的节点选择方法，通过对多次选择不同节点获得的感知性能进行强化学习。文献[m.salah,o.a.omerandu.s.mohammed,"spectralefficiencyenhancementbasedonsparselyindexedmodulationforgreenradiocommunication,"inieeeaccess,vol.7,pp.31913-31925,2019.]中提出一种基于bp学习的节点选择方法，通过bp训练对节点选择行为进行分类，并观察其奖赏值，采用奖赏值最高的选择行为。

上述多种节点选择方法主要是研究如何提高认知网络的感知性能，而感知性能只是认知网络中的一个指标，认知网络性能还包括抗攻击能力、工作寿命和能量消耗等众多指标。同时，上述方法均未考虑在能量消耗和感知性能双重约束条件下如何选择可靠度高的节点，也未建立有效机制来及时排除有恶意攻击行为的节点。

技术实现要素：

本发明的目的在于提供一种基于强化学习机制的认知网络协作频谱感知节点选择方法，以解决背景技术中提出的问题。

为实现上述目的，本发明提供了一种基于强化学习机制的认知网络协作频谱感知节点选择方法，所述认知网络包括一个主用户和多个认知用户，多个所述认知用户设置在所述主用户的周围，形成多个协作频谱感知节点，所述协作频谱感知节点选择方法包括：

在一个感知周期内，感知节点将自身的感知结果发送给融合中心，融合中心利用强化学习机制对每个感知节点的可靠度进行评估，并根据评估结果建立节点可靠度数值列表；融合中心做出全局判决并将全局判决结果与各节点上报的结果进行比较，计算出对应节点的性能回报值r、能耗回报值g和综合回报值υ；融合中心获得综合回报值以后，如综合回报值满足预定要求，则在节点可靠度数值列表中选择可靠度排名靠前的m个节点进行下一个周期的协作感知。

优选的，在融合中心对协作频谱感知节点的可靠度进行评估的过程中，第j个协作频谱感知节点的可靠度记为qj，qj的计算式为：

式(1)中，k表示最大感知次数，|rj,i|表示第j个感知节点在第i次感知时的感知结果，rj,i的取值如式(13)中所述；rj,i表示第j个感知节点在第i次感知时获取的奖赏值，当融合中心在i时刻判决主用户在工作，即判决值为“1”，而同时第j个节点在时刻i的权值也为1，则节点j获得的奖赏值为rj,i＝1，否则为rj,i＝0；同理，当融合中心判决主用户不在工作时，即判决值为“0”，而同时第j个节点的权值为-1，则该节点获得的奖赏值为rj,i＝1，否则rj,i＝0；

通过式(1)计算出每一个节点的可靠度数值，并将可靠度数值按由高到低排序保存在可靠度列表中。

优选的，所述性能回报值r的计算式如式为：

式(2)中，xi代表第i个感知周期融合中心的判决结果，如判决主用户在工作则取值为1，否则取值为0；k代表一个工作时段内总的感知周期中的判决次数，cg为正确判决的加权因子，反映奖赏力度，cb为错误判决的加权因子，反映惩罚力度；其中，αi和βi的取值为：

融合中心与外界环境交互信息，外界环境变化对感知性能和能量消耗会产生较大影响，影响外界环境变化的因素包括：无线电干扰，信噪比的变化，节点位置的移动，节点数量的变化和节点突然断电等。环境变化会引起感知性能和能量消耗的变化，这些变化通过外界环境和融合中心的信息交互反馈给融合中心。融合中心依据(2)式和(3)式计算性能回报值，通过正确判决加权因子反映奖赏力度和错误判决加权因子反映惩罚力度，性能回报值是认知网络感知性能的反馈结果，便于融合中心及时掌握判决准确概率。

优选的，所述能耗回报值g的计算式为：

式(4)中，dg代表能量消耗小于阈值的加权因子，db代表能量消耗大于阈值的惩罚因子；yi的取值为：

式(5)中，λ是预设能耗阈值，表示一个感知时隙内所有协作频谱感知节点允许消耗的最大能量。

融合中心依据(4)式和(5)式计算能耗回报值，设定能量消耗小于阈值作为奖赏加权因子和能量消耗大于阈值作为惩罚加权因子，能耗回报值是认知网络消耗能量的反馈结果，便于融合中心实时掌握网络的能耗状况。

优选的，所述综合回报值υ的计算式为：

融合中心依据(6)式计算综合回报值，综合回报值是由性能回报值和能耗回报值等权重求和获得，即感知性能和能量消耗同等重要，给予同等奖赏。

优选的，融合中心获得综合回报值以后，即在综合感知性能和能量消耗以后，如综合回报值不满足预定要求，则需对认知网络的感知性能和能量消耗做出必要的修正，计算出对应节点的性能修正系数ρ、能耗修正系数ξ和综合修正系数v；融合中心在获得综合回报值和综合修正系数后，对所有协作频谱感知节点重新评估，并更新学习参数pj；融合中心在获得综合回报值和综合修正系数后，对所有协作频谱感知节点重新评估，并更新学习参数pj；在获得新的学习参数pj之后，融合中心重新计算各协作频谱感知节点的可靠度，并依据可靠度大小更新节点可靠度数值列表；融合中心在更新后的节点可靠度数值列表中选择可靠度排名靠前的m个节点进行下一个周期的协作感知。

优选的，所述性能修正系数用于惩罚当融合中心判决主用户不存在或存在时，某单个节点上报结果为主用户存在或不存在，即一个工作周期内该节点平均错误上报次数；其计算式为：

式(7)中，xi(j)表示第j个节点的上报结果，xi为第i个感知周期融合中心的判决结果。

优选的，所述能耗修正系数ξ用于惩罚能量消耗超过平均值的节点，即每个工作周期该节点能耗超越平均值的平均次数，可及时发现并排除能耗过大的节点；所述能耗修正系数ξ的计算式为：

式(8)中，ei(j)表示第j个节点消耗的能量，表示每个节点消耗的平均能量。

优选的，所述综合修正系数v由性能修正系数和能耗修正系数等权重求和获得，即认为判决错误和消耗更多能量会受到同等惩罚；所述综合修正系数的计算式为：

优选的，根据强化学习中瞬时差分(td)算法的迭代公式可得出每个应用周期中学习参数的更新方法为：

式(10)中，为当前工作周期的学习参数；υ代表每个工作周期的综合回报值；代表综合惩罚；代表节点j在当前工作周期的可靠度；β1和β2是正常数；β1的取值代表当前加强学习决策对未来强化决策的影响，β1越大，影响越大。β2决定了对单节点偏差惩罚的力度，同样β2越大代表惩罚力度越强。为避免对综合回报值υ影响太大，β2取值很小。υ′代表全局回报累积，υ′的更新迭代公式为：

υ′＝γ·υ+(1-γ)·υ′,0＜γ≤1(11)；

式(11)中，γ是常数，等式右边的υ′是当前累积回报值，等式左边的υ′是下一时刻(迭代后)的累积回报值；融合中心在获得综合回报值和综合修正系数以后，需要对所有节点重新评估，并依据式(10)和式(11)更新学习参数，为后续计算节点的可靠度打下基础。

一个工作周期结束，融合中心的节点可靠度数值列表更新pj，根据pj计算πj的计算式为：

在获得新的学习参数之后，融合中心依据式(12)重新计算各节点的可靠度πj，并根据可靠度大小更新节点可靠度列表；融合中心在更新后的列表中选择可靠度πj值排名靠前的m个节点进行下一个周期的协作感知，实现认知网络提升感知性能的同时降低能量消耗。

相比于现有技术，本发明具有以下有益效果：

本发明基于强化学习机制的认知网络协作频谱感知节点选择方法，通过性能反馈和能耗反馈使融合中心与外界环境实现信息交互，及时监控节点的可靠度，消除可靠性下降的节点，并动态选择可靠度高的节点参与协作感知。实验结果表明，本文中的方法提升了频谱感知的性能，在虚警概率极低的情形下，能有极高的检测概率，与传统的所有节点参与协作感知相比，在明显减少了能量消耗的基础上提升感知性能。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明中认知网络协作频谱感知节点的分布示意图；

图2是本发明中基于强化学习的动态节点选择过程示意图；

图3是本发明中依据可靠度原则与空间位置原则选择的节点差异对比图；其中，图(a)是依据可靠度要求的节点选择结果；图(b)是依据可靠度要求的节点选择结果；

图4是本发明中不同节点选择方法的感知性能比较图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以根据权利要求限定和覆盖的多种不同方式实施。

图1是认知网络协作频谱感知的节点分布图，图1中设置了多个感知节点均匀分布在主用户的周围，各节点独自收集主用户的信号能量，通过能量检测方法判断主用户是否在工作。从图1中的布局可看出各节点与主用户的距离并不完全相同，正方形区域左边节点与主用户距离较近，而右边节点与主用户的距离相对较远，根据无线电信号的路径损耗理论可知各节点在同等条件下所接收的主用户信号能量有差别。由能量检测理论可知，接收能量少的节点容易产生错误判决。节点将感知结果发送给融合中心，融合中心依据多数融合规则判断主用户信号是否存在，多数融合规则为：

式(13)中，t表示融合中心的计算结果，并与0进行比较，当t＞0时，判决主用户在工作，用l1表示；当t＜0时，判决主用户没有工作，用l0表示；当t＝0时，不做判决，用lno表示，这时需要增加额外的感知时间后再做判决。m表示总的节点数量，j表示感知节点序号，rj表示第j个节点的感知结果，rj的取值为1或者-1，当rj＝1时，表示节点判决主用户在工作，当rj＝-1时，表示节点判决主用户未工作。

由式(13)的融合规则可知，当有节点判决错误并将该错误的结果发送到融合中心后，会对融合中心的全局判决产生负面影响，尤其是当判决错误的节点数超过判断正确的节点数时，融合中心根据式(13)的融合规则会做出完全相反的错误判断，会严重干扰主用户的工作，或者丢失良好的接入机会。因此，在协作频谱感知中，收集主用户信号能量少的节点对全局感知结果不但没有帮助，反而会增加额外的能量消耗。为提升感知效率并减少能量消耗，需对节点的可靠度进行评估，在协作感知过程中，选择可靠度高的节点参与协作感知可有效提升感知性能，排除可靠度低的节点参与协作可明显降低能量消耗。

在协作感知中，由于各节点接收信号能量的不同，在协作感知中所起的作用不一样，收集能量少的节点会干扰全局判决，即对全局判决具有破坏性，因而在选择协作节点时需要对节点进行评估。又因为在实际的感知过程中，无线电环境和自身性能在时刻变化，同一节点在不同时刻所收集的信号能量不一样，对协作感知所起的贡献也不一样，即前一个时刻是贡献极大的节点，有可能在下一个时刻而变成具有破坏性的节点；同样，前一个时刻是不可信赖的节点，但因自身原因或环境变化，下一个时刻有可能就变成具有贡献的节点。因此，为提高协作感知的稳定性，需要建立可靠的评估机制，对节点进行实时评估，及时排除可信度下降的节点，同时增补可信度提升的节点参与协作。

为此，本发明建立了基于强化学习的在线节点评估机制，以提升认知网络的智能性，增强融合中心与环境的交互能力。该机制对每个节点的可靠度进行评估，融合中心根据评估结果建立可靠度数值列表，并依据列表选择可靠度高的节点参与协作。图2展示了融合中心基于强化学习机制实时选择可信赖节点的动态过程。

实施例

为评估本发明中节点可靠度评估机制的性能，本实施例设计了三组实验，其中第一组实验是显示依据可靠度要求选择了参与协作感知的节点，并与依据空间位置原则选择的节点之间的差异对比。第二组实验是三种节点选择方案之间的感知性能比较，三种方法分别是：依据可靠度原则的节点选择方法的感知性能；所有节点等增益结合方案的感知性能；基于空间位置的节点选择方法的感知性能。第三组是三种节点选择方案之间的综合比较，包括节点数量，感知性能和能量消耗。所有实验均是在考虑了路径损耗、衰落和加性高斯白噪声的情形下进行的蒙特卡罗仿真。

在仿真实验中，边长为10000米的正方形区域内均匀分布有36个节点，主用户处于该区域的中心，主用户信号是bpsk(二进制相移键控)信号，主用户工作概率为β＝0.5，仿真模型中的节点分布如图1所示。感知节点的采样频率是1mhz，感知周期是0.1秒；主用户与第i个节点之间的路径损耗根据式(14)计算：

式(14)中，pr,i是第i个节点接收的信号功率，pt＝0.1w是主用户的发射信号功率，k＝0.027是信道衰减系数，r＝4是路径损耗指数，do＝1m是基准距离，di是主用户与第i个节点之间的距离。

结合图3所示，显示依据可靠度原则与空间位置原则选择的节点差异对比。其中：图3a中显示了依据可靠度要求选择的6个节点，如图中实心圆圈所示；从图3a中可看出，依照可靠度要求选择的节点并不全是离主用户最近的节点，这是因为仿真模型考虑了衰落的影响，在实际环境中，各节点与主用户之间因地理位置的不同，可能存在不同障碍物导致可靠度的差异。而图3b则是依据空间位置最近原则选择的节点，如图中实心圆圈所示；从图3b中可看出，依据空间位置最近原则选择的6个节点是离主用户最近的6个，与图3a相比较，二者有4个不同的节点，这是因为依据空间位置原则不考虑实际环境，只考虑理想环境下的距离损耗，因而选择了离主用户最近的节点。

图4是三种节点选择方案之间的感知性能比较图。图4中基于节点可靠度的选择方案与基于空间位置的选择方案均是选择了6个节点参与协作感知，选中的节点如图3中红色圆圈所示，所有节点等增益结合方案中是36个节点均参与了协作感知。感知性能是以融合中心的检测概率(detectionprobability，pd)和虚警概率(falsealarmprobability，pf)作为衡量指标。检测概率是指主用户在工作，而融合中心也判决主用户在工作，即判决正确；虚警概率是指主用户并未工作，因为噪声等因素的影响融合中心却判决主用户在工作，即虚警。由检测概率和虚警概率的含义可知：检测概率高而虚警概率低即为性能优越。

从图4中可看出，基于可靠度的节点选择方法在虚警概率为0.1时的检测概率为0.99，而在同等虚警概率条件下，所有节点等增益结合方法和基于空间位置的节点选择方法的检测概率分别为0.75和0.68，均远低于基于可靠度的节点选择方法的检测概率，则说明基于可靠度的节点选择方法的感知性能远优于其它两种方法。这是因为基于节点可靠度的方法是选择了可靠度最高的6个节点参与协作感知，其中每个节点出错的概率都很低，融合中心结合了6个高度可靠的感知结果，出错的概率更低，结果反映在实验结果中。而所有节点等增益结合的方案有少数节点的感知结果会对全局决策产生负面影响，所以其感知性能不如基于可靠度的方法。但会优于基于空间位置的方法，这是因为基于空间位置的方法若有节点因障碍物阻挡产生错误判决，从而导致融合中心的判决准确率下降，而所有节点等增益结合的方案因节点数量众多，融合中心出现错误判决的概率会低于基于空间位置的方法。

对三种节点选择方案之间的综合比较，该综合比较中能耗比较是在前述实验的条件下进行的，设定一个节点在一个感知周期内执行感知操作所消耗的能量为1个能耗单位，且每个节点在一个感知周期内执行感知操作时所消耗的能量相等，具体的比较数据如表1所示：

表1三种节点选择方案之间的综合比较

由表1可知，基于可靠度的方法与基于空间位置的方法在能耗指标上相等，但感知性能上基于可靠度的方法远优于基于空间位置的方法；而与所有节点等增益结合方法相比，不管是能耗还是感知性能都有突出优势。因而本发明中的基于节点可靠度的评估机制对选择高可靠的节点参与协作感知具有明显效果。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄堂森;罗恩韬;曹庆皎
技术所有人：湖南科技学院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。