一种基于机器学习的认知无线电网络中频谱接入方法与流程

文档序号：15261809发布日期：2018-08-24 21:51阅读：148来源：国知局

本发明涉及一种基于机器学习的认知无线电网络中频谱接入方法，属于无线电网络技术领域。

背景技术：

随着无线电设备及应用的迅速增多，无线电网络对频谱资源的需求量极具增长。然而，在固定的频谱分配政策下，频谱资源的利用效率非常低。其中，分配给广播，卫星放送等的授权频谱没有被充分的利用。与此同时，无线wifi及蓝牙设备等使用的非授权频谱非常拥挤。因此，为了解决频谱资源需求量增大及其利用效率低的问题，认知无线电技术应运而生。在认知无线电网络中，认知无线电用户可以在不干扰授权用户正常通信的情况下，动态地使用授权频谱。到目前为止，已有部分分配给电视广播的授权频段开放给认知无线电用户使用。认知无线电网络结构可以分为基于基础设施的认知无线电网络以及无基础设施的认知无线电网络。由于基于基础设施的认知无线电网络中基础设施的部署及维修花费较大，而且面临着单点通信失败及扩展性差等问题。因此，本发明主要涉及无基础设施的认知无线电网络。在无基础设施认知无线电网络中，认知无线电用户无法依靠基础设施进行频谱感知及频谱管理。认知无线电用户需要自己进行频谱感知，频谱分析及频谱接入。认知无线电用户通过频谱感知过程来获得授权频段的状态。然后根据感知到的频谱状态进行频谱分析，选择合适的频道接入。因此，频谱感知在认知无线电网络中起着至关重要的作用。

为了选择最佳的通信信道，研究者们已经提出了一些针对认知无线电网络的频谱感知方法来感知信道的状态。这些频谱感知方法主要可以分为三大类：能量检测方法，基于波形的感知方法，基于循环平稳检测方法以及合作感知方法。能量检测感知方法是最常见的感知方法。因为其具有低计算复杂度及实施复杂度。此外，因为使用能量感知方法，接收器不需要任何授权用户的信号的信息。因此，能量检测方法更加通用。在能量检测方法中，信号通过能量检测器的输出和一个阈值的对比来检测。通常的能量检测方法面临的挑战包括：授权用户检测阈值的选择，没有能力区分来自授权用户的干扰以及在低信噪比的情况下性能较差。因此，为了有效的避免对授权用户的干扰，研究者在频谱感知方面扔需要进一步的研究。此外，认知无线电用户可能面临恶意的干扰。恶意干扰可以分为三大类：静态干扰，随机干扰以及适应干扰。静态干扰即干扰者总是干扰相同的信道。随机干扰即干扰者随机地选择信道来发送干扰信号。适应干扰即干扰者可以根据感知到的外界环境来选择干扰信道。装有认知无线电设备的干扰者可以智能地感知授权用户及认知无线电用户的通信并且根据其观察推断将要干扰的信道。因此，为了避免恶意干扰者干扰认知无线电用户的正常通信，在频谱感知过程中也要对恶意干扰进行准确的感知。在认知无线电网络中，认知无线电用户需要选择最佳的频谱接入方法以获取最佳的通信性能。此外，由于硬件限制，认知无线电用户在同一时间可接入的频段的数量通常小于其在同一时间可感知的频段的数量。同时，由于无线通信网络的异构型，不同的认知无线电用户可接入的频道可能也是不同的。因此，如何选择部分频段进行接入也是需要探究的问题。

目前针对认认知无线电网络中频谱接入方法的相关研究文献如下：

1.vishnuraj等人在2018年的《ieeejournalofselectedtopicsinsignalprocessing》上发表的文章“spectrumaccessincognitiveradiousingatwo-stagereinforcementlearningapproach”中提出了一种结合数据传输信道选择方法。此方法利用强化学习中的多臂赌博机方法来进行信道选择。这一方法减少了认知无线电用户花费在频谱感知上的能量，并且提升了通信的吞吐量。

2.ismailk.ahmed等人在2017年的《ieeetransactionsoncognitivecommunicationsandnetworking》上发表的文章“stackelbergequilibriaofananti-jamminggameincooperativecognitiveradionetworks”中提出了基于欺骗的防御机制来帮助认知无线电用户抵抗恶意的干扰。此文考虑三种恶意干扰：模拟授权用户干扰，掩蔽干扰以及连续的高斯白噪声干扰。模拟授权用户干扰是指授权用户用户不存在的情况下，恶意干扰模拟授权用户信号。若认知无线电用户将恶意干扰者模拟的授权用户当作真正的授权用户信号，将会产生不必要的频谱切换。掩蔽干扰是指在授权用户存在的情况下，恶意干扰者将掩蔽授权用户信号的存在。因此，掩蔽干扰会导致认知无线电用户的通信对授权用户产生干扰。连续的高斯白噪声干扰是指在认知无线电用户接收频谱感知报告及频谱接入决定时，恶意干扰者在此信道中传输噪声信号。针对模拟授权用户干扰，认知基站首先在感知信道中发送模拟授权用户信号来欺骗恶意干扰者。此外，认知无线电用户将传输多个频谱感知报告及频谱接入决策来抵御恶意干扰者的干扰。此文使用斯塔克尔伯格博弈来解决抵御恶意攻击问题。

3.panzhou等人在2017年的《ieeetransactionsoninformationforensicsandsecurity》上发表的文章“near-optimalandpracticaljamming-resistantenergy-efficientcognitiveradiocommunications”中提出了一种抵御恶意干扰的频谱聚合和接入方法。此方法利用基于多臂赌博机在线学习方法来选择接入信道以及各个接入信道所使用的功率。此方法能够自主的检测认知无线电用户的周围环境并且针对各种恶意干扰者找出对应的近优化解决方法。

4.ismailk.ahmed等人在2017年的《ieeetransactionsonwirelesscommunications》上发表的文章“surveillancestrategiesagainstprimaryuseremulationattackincognitiveradionetworks”中提出了一种信道监督机制来监测自私攻击者的存在。自私攻击者即自私的最大化利用信道资源的攻击者。此外，为了避免恶意攻击者，即旨在毁坏认知用户网络的攻击者，此文提出了一个额外的感知过程。在接入信道前，进行频谱感知以观察是否可以接入此信道。

5.fereidoun.h.panahi等人在2014年的《ieicetransactiononcommunications》上发表的文章“optimalchannel-sensingschemeforcognitiveradiosystemsbasedonfuzzyq-learning”中提出了一种基于模糊q学习方法的频谱感知方式。此方法加强了频谱感知的准确性，能够在不知道授权用户的状态下，仅利用带有噪声的感知结果准确的推断出信道的真实状态。

在总结这些研究的基础上，可以看出当前认知无线电网络体系结构的设计中存在以下主要问题：

1.很多文章在考虑频谱接入方法时只是单独考虑了授权用户或者单独考虑了恶意攻击者。然而，在真实的认知无线电网络中，认知无线电用户应该同时考虑授权用户和恶意攻击者。在授权频谱接入时，要避免其通信对授权用户的干扰并且避免恶意攻击对其自身的干扰。

2.大部分文章都假设认知用户在同一时间只可以接入一个频道或者认为所有认知无线电用户可接入相同的频道。然而由于无线电技术的发展，认知无线电用户通常可以在同一时间接入多个频段。此外，由于无线通信网络中，用户的异构性及硬件限制，不同的认知无线电用户可接入的频道通常是不同的。

3.大部分文章没有考虑如何正确的感知授权频段状态问题。由于频谱感知结果通常是带有噪声的。因此，为了获得正确的频谱感知结果，认知无线电用户通常需要联合多个感知结果。传统的频谱感知方法需要花费一定的时间来处理感知到的数据。

4.大部分文章都由认知无线电网络中的基础设施来决定频谱接入方法.然而基础设施的部署及维护需要巨大的花费。在无基础设施认知无线电网络中，认知无线电用户需要自己决定其频谱接入方法。

技术实现要素：

技术问题：本发明设计出一种基于机器学习方法的频谱接入方法。该方法在充分的考虑了授权用户及恶意干扰者对认知无线电用户的干扰。此外，该方法不依赖于任何基础设施。认知无线电用户可以通过学习学习到不同状态下的最佳频谱接入方法。在此方法中，认知无线电用户在同一时间可以接入多个授权频段。而且由于无线通信网络的异构性，本发明假设不同认知无线电用户可接入的授权频段是不同的。因此，此方法适用于真实的认知无线电网络。此方法可以在认知无线电用户对授权用户及恶意干扰者状态未知的状态下，可通过不断的学习过程对信道的状态进行准确判断，从而选择最佳的频谱接入方法以获得最佳的通信性能。

本发明的技术方案如下：

本发明涉及一种基于机器学习的认知无线电网络中频谱接入方法。此频谱接入方法是基于模糊q学习方法的。认知无线电用户通过对认知无线电网络中各个信道的不断学习，最终可以推断出信道的真实状态并根据信道的状态选择最佳的频谱接入方法。其中，信道的状态由信道可用概率来决定。只有当信道不被授权用户占领并且不受恶意攻击者攻击时，此信道为可用信道。模糊q学习方法中的基本要素分别为：状态：信道的可用概率及不可用概率；动作：选择的接入信道集；奖赏：根据是否与授权用户冲突及是否被恶意攻击者决定。在本发明中的认知无线电网络中存在授权用户以及恶意攻击者。只有在信道没有被授权用户使用并且没有恶意攻击者攻击时，信道才为可用信道。

上述一种认知无线电网络频谱接入方法，包括如下步骤：

(1)、初始化模糊q学习方法中的参数

初始化模糊q学习方法中的参数，参数为模糊q学习中各个规则与各个信道相对应的q值，初始化时，将模糊q学习中各个规制与各个信道相对应的q值设置为0；

(2)、动作决策过程

认知无线电用户根据各个信道可用概率决定其是否接入信道，认知无线电用户使用能量检测方法感知信道状态，然后根据感知到的信号能量及其感知结果的概率密度函数获得各个感知信道的可用概率，将信道可用概率作为模糊推理系统的输入，经过处理获得最终的动作，即认知无线电用户的接入信道集；

(3)、更新q值

根据信道所选动作及其获得的收益计算并更新q值，认知无线电用户根据其所选的动作及获得的收益更新各个规则中的各个信道所对应的q值；规则i中信道k对应的q值按照如下的方法进行计算更新：其中k为学习速率；aⁱ为对应于第i个规则选择的动作；δq为新状态与旧状态对应的q函数值的差，其计算方法为：δq＝r+γv-q'；其中，r为执行最终动作所获得的奖赏，根据所选择动作信道集中真实可用的信道集的数量的和；γ为折扣因子；v为最佳的频谱接入方法对应的整体q值；q'为认知无线电用户在决策过程中所选择的频谱接入方法对应的整体q值；

其中，q'的获得方法包括如下步骤：

(a)q值平均值计算

计算各个规则对应的所选接入信道集中信道的q值平均值，其计算方法为：

其中，为为规则i对应的所选接入信道集ai中第k个信道的q值；

(b)计算q'

通过计算各个规则对应的q值的加权平均值获得q'，其计算方法为：

(4)、重复上述(1)～(3)直到频谱接入决策过程结束。

认认知无线电用户在给定时间能够同时感知ns个信道，在给定时间能够同时接入na个信道，na＜ns。

上述步骤(2)中的模糊推理系统使用常用的高斯成员函数，存在三种规则，认知无线电用户每次动作决策的最终推理过程包括如下步骤：

(3a)各个规则下的动作决策

认知无线电用户的在各个规则下的动作决策由各个规则及各个动作对应的q值决定，其决策方法为：以ε概率依次选择各个规则中q值最高的na个信道作为接入信道集，在每个接入信道选择过程中，以1-ε概率随机选择接入信道集，ai为规则i对应的接入信道集，其中，为规则i对应的接入信道集中的第k个信道；

(3b)真实度计算

根据各个规则的成员函数及其动作中各个信道的平均可用概率计算各个规则的真实度，其计算方法为：其中，μi(·)为规则i的成员函数；为规则i对应的接入信道集中na个信道的平均可用概率，其计算方法为：

其中为规则i对应的接入信道集ai中第k个信道的可用概率；

(3c)最终动作决策

认知无线电用户根据其各个规则的真实度及各个规则下的动作进行加权平均，最终获得此频谱接入方法决策中的最终动作，其决策方法为：

上述步骤(3)中的v的获得方法包括如下步骤：

(4a)获得最佳接入信道集

在各个规则下选择q值最大的na个信道构成最佳接入信道集其中，为最佳接入信道集中第k个信道；

(4b)可用概率及q值平均值计算

计算最佳接入信道集中信道的可用概率平均值及q值平均值，其可用概率平均值计算方法为：

其中为规则i对应的最佳接入信道集中第k个信道的可用概率；其q值平均值计算方法为：其中，为为规则i对应的最佳接入信道集中第k个信道的q值；

(4c)获得各个规则对应的真实值

根据各个规则最佳接入信道集中信道的可用概率及成员函数计算各个规则的真实值，其计算方法为：

(4d)计算v

通过计算各个规则对应的q值的加权平均值获得v，其计算方法为：

本发明所达到的有益效果：

(1)本发明考虑了认知无线电网络中同时存在授权用户及恶意干扰用户的情况下频谱的接入方法，更加适用于真实的认知无线电网络；

(2)本发明考虑了认知无线电网络中认知用户的硬件限制问题。本发明所设计的认知无线电网络中频谱接入方法适用于真实的异构认知无线电网络；

(3)本发明通过模糊q学习方法不断的对认知无线电网络的真实环境进行学习，最终可以获得最佳的频谱接入信道集，从而获得最佳的通信性能；

(4)本发明所涉及的认知无线电网络中频谱接入方法是完全分布式的频谱接入方法，不需要任何基础设施的控制，因此，此方法可以大大的减少部署及维护基础设施所带来的大量花费。

附图说明

图1为本发明的模糊q学习过程框图；

图2为频谱接入方法的算法流程图；

图3为在硬件限制条件下认知用户可接入频谱示意图；

图4为模糊推理系统算法流程图

图5为最佳的频谱接入方法对应的整体q值计算流程图；

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，本发明涉及一种基于机器学习的认知无线电网络中频谱接入方法。此频谱接入方法是基于模糊q学习方法的。认知无线电用户通过对认知无线电网络中各个信道的不断学习，最终可以推断出信道的真实状态并根据信道的状态选择最佳的频谱接入方法。其中，信道的状态由信道可用概率来决定。只有当信道不被授权用户占领并且不受恶意攻击者攻击时，此信道为可用信道。模糊q学习方法中的基本要素分别为：状态：信道的可用概率及不可用概率；动作：选择的接入信道集；奖赏：根据是否与授权用户冲突及是否被恶意攻击者决定。

如图2所示，本发明涉及一种基于机器学习的认知无线电网络中频谱接入方法，包括如下步骤：