一种基于Stackelberg博弈的多任务协作频谱感知方法与流程

文档序号:18470979发布日期:2019-08-20 20:17阅读:203来源:国知局
一种基于Stackelberg博弈的多任务协作频谱感知方法与流程

本发明属于通信技术领域,具体涉及一种多任务协作的频谱感知方法。



背景技术:

随着用户对高速数据传输需求的不断增加,频谱资源稀缺的问题日益严重,由于传统的固定频谱分配方法频谱效率非常低,动态频谱接入技术和认知无线电(cognitiveradio,简称cr)应运而生,旨在解决频谱效率低下的问题。在认知无线电中,次用户被允许在主用户空闲的时候使用主用户的无线电资源,因此,有必要对主用户的频谱进行频谱感知。次用户对主用户的授权频段进行感知,得到频谱的占用情况,但是在信噪比很低的情况下,单用户检测性能比较差,因此需要多用户进行协作频谱感知。

群智感知(crowdsensing)是通过分布的个体收集样本的一种感知范式,基于智能手机等智能设备中的传感器,参与者可以收集数据并上传到服务器,服务器再对参与者的数据进行处理。合理的群智感知激励机制可以提高用户参与积极性。群智感知激励机制可以激励用户参与,与频谱感知的场景结合,可以得到更准确的频谱信息。现有技术中也有将群智感知和频谱感知结合的,但是大部分只考虑了一个主用户的频段,有的虽然考虑了多个主用户的频谱,但是也是从单个频谱的角度分析,次用户可以感知所有的频谱。这与实际场景并不相符,因为在实际情况中,次用户在一个时间段里只能感知一个频段。由此可知,现有方法对于融合中心的检测效率以及次用户与融合中心的效用保证尚存在提高的空间,因此需要一种新的多频谱场景中的频谱感知方法。



技术实现要素:

发明目的:针对现有技术的不足,本发明提出一种基于stackelberg博弈的多任务协作频谱感知方法,能够提高融合中心的检测概率,并保证次用户和融合中心的效用。

技术方案:一种基于stackelberg博弈的多任务协作频谱感知方法,包括以下步骤:

s1、构建基于stackelberg博弈的多任务协作频谱感知系统模型,stackelberg博弈模型分为两层,融合中心是领导者,对于要感知的频段向次用户发布任务,次用户是从属者,每个次用户能感知所有频段,但同时只能感知一个频段;

s2、确定参与各频段感知任务的次用户集合taskj;

s3、对于频段集中的任一任务j以及频段参与的次用户集合taskj,融合中心发布初始报酬,初始化平台的最大效用u0max为0;

s4、taskj中的所有次用户根据报酬以及其他次用户的感知时间计算自己在不同感知时间下的效用,选择使效用最大的感知时间作为感知时间;

s5、不断重复步骤s4直到两次迭代的次用户效用差值不变,达到均衡,得到当前报酬下的感知时间,次用户根据该感知时间计算出对应的检测概率,并将检测概率传送至融合中心;

s6、融合中心计算在当前报酬下的效用,如果该效用高于u0max,则将该报酬赋给u0max,在最大报酬值rmax的限制下以步长μ增加报酬值,发布该新的报酬并重复步骤s4、s5和s6,直到融合中心的效用值不变;

s7、将步骤s6中得到的融合中心效用最高的报酬作为最终的报酬,次用户根据该报酬决定最终的感知时间并将感知后的数据上传给融合中心。

进一步地,在频谱感知中次用户采用能量检测的方法感知主用户的频谱,次用户i对主用户j的频段的检测概率为其中,pf为次用户i虚警概率,γij为次用户i感知主用户j频段的信噪比,tij为次用户i对主用户j频段的感知时间,fs为采样频率,q函数为

进一步地,所述步骤s2包括:计算次用户i对于频段j的并从中选出数值最大的vj,参与该数值对应的频段感知,其中er为次用户的剩余能量,et为次用户将感知数据传输给融合平台所用的能量,bt为次用户单位感知时间内所消耗的能量,ε、η为常数。

进一步地,所述步骤s4中次用户效用计算公式为:

其中pij为次用户i对频段j的检测概率,rj为融合中心用于感知任务j付出的报酬,es为次用户感知的能量消耗,et为次用户传输数据的能量消耗,wi为能量消耗系数。

进一步地,所述次用户感知的能量消耗es与感知时间tij成正比关系,es=bt×tij,bt为单位感知时间消耗的能量。

进一步地,所述次用户传输数据的能量消耗et与距离四次方的对数成正比,et=k×log(d4+2),k为衰减系数,d为次用户与融合中心之间的距离。

进一步地,所述能量消耗系数的计算公式为:其中er为次用户的剩余能量,α、β为常数。

进一步地,所述步骤s6中融合中心的效用值计算公式为:u0j=a×log(1+pj)-rj,其中a为加权系数,pj为融合中心采用表决融合方式对于主用户j频段的检测概率为次用户i的检测概率,rj为融合中心用于感知任务j付出的报酬。

有益效果:

1、本发明将融合中心与次用户分别建模为stackelberg博弈领导者和从属者,通过融合中心和次用户的双层博弈,得到融合中心和次用户的各自的最佳策略。对平台而言,平台的报酬太低会没有次用户参与感知的任务,报酬太高则成本太高;而对于次用户而言,感知时间太短则检测概率太低,感知时间太长则成本太高。本发明通过stackelberg博弈模型可以充分地保证融合中心和次用户的效用,该方法在领导者博弈中,融合中心给次用户发布最优的报酬值;在从属者博弈中,着重考虑剩余能量对次用户的影响,次用户在所给报酬下改变感知时间以获得最优的效用。

2、本发明将群智感知运用于频谱感知,多频谱场景中一个次用户一次只能感知一个频段,单用户将感知结果发给融合中心,融合中心可以融合多个次用户的结果,得到更为准确的感知结果。采用多频段多次用户的场景,次用户可以选择感知的频段,用户具有更强的选择权。

附图说明

图1为基于stackelberg博弈的多任务协作频谱感知方法流程图;

图2为根据本发明构建的基于stackelberg博弈的多任务协作频谱感知系统模型图;

图3为在频段1的任务中次用户的平均效用和次用户数量的关系图;

图4为在频段2的任务中次用户的平均效用和次用户数量的关系图;

图5为在频段3的任务中次用户的平均效用和次用户数量的关系图;

图6为不同次用户数量下融合中心的效用关系。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。应当了解,以下提供的实施例仅是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的技术构思,本发明还可以用许多不同的形式来实施,并且不局限于此处描述的实施例。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。

如图1所示,一种基于stackelberg博弈的多任务协作频谱感知方法,包括以下步骤:

步骤1,构建基于stackelberg博弈的多任务协作频谱感知系统模型。

参照图2,可以把融合中心理解为基站,次用户感知主用户的频谱,将感知结果发给融合中心,构建基于stackelberg博弈的多任务协作频谱感知系统模型,在半径为r的圆内均匀分布着m个主用户,不同主用户占用不同的频段,n个次用户(i=1,2,…,n)可以感知任意一个主用户的频段,但是在同一时间次用户只能感知一个主用户的频段,融合中心针对m个主用户所使用的频段发布m(j=1,2,…,m)个授权频段的感知任务,次用户根据感知成本决定参与的任务和感知的时间,然后将感知结果发送给融合中心,融合中心对次用户的感知信息进行融合以获得最终的感知结果。将融合中心与次用户分别作为stackelberg博弈的领导者和从属者。

步骤2,确定参与各频段感知任务的次用户集合。

在本发明的场景中存在多个主用户和多个次用户,次用户可以感知任意频段,但是同一时刻只能感知一个频段,采用贪心算法确定次用户的感知频段。

次用户根据融合中心发布的感知任务的信息,结合自己的剩余能量、单位成本,根据下式计算能量消耗率v,并选择其中最大的值,参与该最大值对应的任务。

其中er为次用户的剩余能量,er∈(0,1),et为次用户将感知数据传送给融合中心所需的传输能量,bt为次用户i感知频段j的单位成本,即单位感知时间内消耗的能量,不同的次用户感知不同的频段有不同的et和bt,ε、η为常数。

上述过程确定了每个任务j参与的次用户集合taskj。

步骤3,对于所有频段感知任务中的任一任务,以及频段参与的次用户集合taskj,融合中心发布一个初始报酬,初始化平台的最大效用u0max为0。

步骤4,taskj中的所有次用户根据报酬以及其他用户的感知时间计算自己在不同感知时间下的效用,选择使效用最大的感知时间作为感知时间。

次用户感知频谱会从融合中心获得报酬,但是感知和信息的发送需要消耗能量,并且次用户从融合中心得到的报酬和它的检测概率有关,因此次用户的效用函数为:

其中pij为次用户i对频段j的检测概率,rj为融合中心为感知频段j支付次用户的报酬。costi为次用户感知过程中的能量消耗。

在频谱感知中次用户采用能量检测的方法感知主用户的频谱,次用户i对主用户j的频段的检测概率为:

pf为次用户i虚警概率,γij为次用户i感知主用户j频段的信噪比,tij为次用户i对主用户j频段的感知时间,fs为采样频率,q函数为:

当q函数中的x大于0的时候,检测概率pij<0.5,此时次用户的检测概率不具有参考价值,因此要求pij>0.5,同时

次用户感知频谱和发送感知信息都会消耗能量,其计算形式为:

costi=wi×(es+et)(6)

es为次用户感知的能量消耗,与感知时间tij成正比关系,es=bt×tij,bt为单位感知时间消耗的能量,et为次用户传输数据的能量消耗,与距离四次方的对数成正比,et=k×log(d4+2),k为衰减系数,距离d指的是次用户与融合中心之间的距离,wi为能量消耗系数。

剩余能量会影响次用户参与感知的积极性,次用户的剩余能量多,参与的感知任务的意愿会非常高;反之,则不愿意消耗所剩不多的能量去完成感知任务,因此能量消耗系数wi采用log函数表示,定义为:

其中er为次用户的剩余能量,er∈(0,1),α、β为常数。

将公式(6)代入公式(2)可得:

次用户效用uij存在最大值的一个必要条件是对tij的一阶偏导数单调递减且存在负值,所以需要证明二阶偏导数小于或等于0。次用户效用的一阶偏导为

其中

明显s'为正值,则uij对tij二次偏导数为:

由于感知时间、检测概率都为正值,所以公式(11)中的第一部分和第三部分均为正值,由式(5)得到s<0,所以第二部分为负值。

综上所述,因此存在一个最优感知时间使得次用户的效用最大。

次用户最终选择使效用最大的感知时间作为感知时间。

步骤5,不断重复步骤4)直到两次迭代的用户效用差值不变,达到均衡,得到最终感知时间。次用户在最终确定的感知时间内进行频段感知,并将感知数据传送至融合中心。

步骤6,融合中心计算在当前报酬下的效用,如果该效用高于u0max,则将该报酬赋给u0max,在最大报酬值rmax的限制下以步长μ增加报酬值,发布该新的报酬并重复步骤4)、5)和6),直到融合中心的效用值不变。

融合中心的效用取决于频谱的检测概率和付出的报酬,对于感知任务j融合中心得到的效用为:

u0j=a×log(1+pj)-rj(12)

其中a为加权系数,pj为融合中心对于主用户频段j的检测概率,本发明采用表决准则对多个次用户上报的感知信息进行融合,表决融合准则是在多个感知用户中,设置一个表决门限z,当有z个以上的感知用户支持一个假设时,此假设被判定成立。表决融合系统的检测概率pj为:

pij表示次用户i对频段j的检测概率,ui的取值为0和1,为1代表次用户正确感知,为0代表错误感知。

m个任务的总效用为:

假设融合中心给次用户的报酬的最大值为rmax,那么在rj∈(0,rmax]的范围内一定存在一个最优的报酬rj使得融合中心的效用函数值最大。

图3~5给出了在频段1~3的任务中次用户的平均效用和次用户数量的关系图,同时在每张图中给出了不同α、β值情况下的次用户效用。对比三张图可以看出,信噪比高频段的任务的次用户平均效用也越高,这是因为信噪比越高,次用户可以用更少的感知时间来达到同样的检测概率,减少了成本。单独分析每张图可以看出,α、β值越大,次用户的平均效用也越高,这是由于α、β值越大,次用户成本越高,优胜劣汰,只有感知性能更好的次用户才能留下。同时也可以看出随着次用户数增加,次用户的平均效用会下降,这是因为用户增多,竞争程度更加激烈,总报酬一定的情况下,每个次用户分得的报酬变小。图6描述了不同次用户数量下融合中心的效用关系,可以看出随着次用户的增加,融合中心的效用也会增加,这是由于随着次用户的数量的增加,融合中心对于频段的检测概率也会增加,融合中心得到收益就会随之变大。同时α、β值越大,融合中心的效用会越低,这是由于α、β值增大,次用户的成本增加,次用户参与的积极性减少,融合中心需要提高报酬激励次用户参与。

本发明将融合中心与次用户分别建模为stackelberg博弈领导者和从属者,在领导者博弈中,融合中心向次用户发布最优的报酬值;在从属者博弈中,着重考虑剩余能量对次用户的影响,次用户在融合中心所给报酬下改变感知时间以获得最优的效用。通过融合中心和次用户的双层博弈,得到融合中心和次用户的各自的最佳策略。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1