卫星物联网中智能随机接入方法与流程

文档序号:16132014发布日期:2018-12-01 00:25阅读:256来源:国知局

本发明属于通信技术领域,更进一步涉及一种智能随机接入方法,可用于具有物联网业务的卫星网络中,使地面的物联网终端与卫星网络形成连接。

背景技术

随着卫星通信的迅速发展,卫星物联网通信技术已成为近几年的研究热点。在具有物联网业务的卫星网络中,节点数目是海量的,一般在10k以上,并且卫星网络具有大的传输时延,不能够及时地反馈信息,这使得卫星网络与物联网业务的匹配无线随机接入系统研究极具挑战。

高吞吐量的媒体接入控制(mac)层随机接入协议是提升系统容量的有效途径。上个世纪70年代提出的时隙aloha(sa)协议的峰值吞吐量只有0.36左右,不能满足大容量接入的需求。为了进一步提升峰值吞吐量,casinie等人在论文“contentionresolutiondiversityslottedaloha(crdsa):anenhancedrandomaccessschemeforsatelliteaccesspacketnetworks”(ieeetrans.onwirelesscommunications2007;6(4):1408–1419)提出了能够解决碰撞的多包分集传输(crdsa)协议,每个分组随机选择两个时隙发送副本,通过迭代干扰消除sic来解决冲突,将峰值吞吐量提升到了0.55左右。针对crdsa吞吐量受限的问题,livag在论文“graph-basedanalysisandoptimizationofcontentionresolutiondiversityslottedaloha”(communications,ieeetransactionson,vol.59,no.2,pp.477-487,feb.2011)提出了一种改进的非规则重复多包分集传输(irsa)协议,每个数据包发送不规则数目的副本,可以将吞吐量提升到0.8左右。

这些协议中用户发送数据包选择时隙的原则都是相同的,即随机选择时隙。用户选择时隙的随机性会带来一些问题:有的时隙会叠加多个数据包,有的时隙则不存在数据包,使数据包冲突的概率增大;时隙内数据包数量的不平衡,使得时隙资源不能被充分利用,进而造成资源的浪费。

q学习算法可以解决用户选择时隙随机性的问题,用户根据实际环境进行自主学习,不断修改其接入策略,最终用户收敛到最佳的时隙选择方案,实现吞吐量的提升。yichu等人的论文“alohaandq-learningbasedmediumaccesscontrolforwirelesssensornetworks”(wirelesscommunicationsystem(iswcs),2012internationalsymposiumon,pp.511-515,28-31,aug2012)在sa的基础上引入了q学习算法,通过q评估函数确定每个数据包传输的最佳时隙,并在传输阶段不断地更新,在最终的稳态下,所有节点都能找到“专属”的时隙,从而不会引发冲突。yanyan等人的论文“distributedframesizeselectionforaqlearningbasedslottedalohaprotocol”(iswcs2013;thetenthinternationalsymposiumonwirelesscommunicationsystems)对比了不同帧长对qsa吞吐量的影响,提出了一种新算法来确定每个节点的帧长度,使系统性能达到最优。

目前提出的采用q学习的方法虽说在一定程度上可以提升系统的吞吐量,但由于这些方法多与sa协议结合,场景主要应用于地面网络中,若应用到卫星物联网则存在着一些不足之处:首先,基于q学习的随机接入方法十分依赖反馈信息,而卫星网络中的大时延不能保证反馈信息接收的实时性,必须考虑新的方法适配大时延以便及时获取反馈信息。此外,目前的方法中系统在过载情况下吞吐量较低,不能满足大容量接入的需求。



技术实现要素:

本发明的目的在于提出一种卫星物联网中的智能随机接入方法,以解决现有技术不能适配卫星网络的大时延问题,进一步提升系统吞吐量。

本发明方法结合crdsa协议,其技术思路是:通过q学习进行时隙位置的选择,消除用户选择时隙随机性带来的问题,有效降低数据包冲突,提高时隙利用率;通过q学习进行两个副本功率分配的选择,使捕获概率最大化以解码出尽可能多的数据包;通过奇偶帧接入方案保证反馈信息接收的实时性,以适配卫星网络的大时延问题;通过q学习动态调整接入因子进行接入控制,解决过载情况下系统吞吐量迅速下降的问题。其实现步骤包括如下:

(1)对数据帧进行奇偶分帧,用户选择时隙发送自身的两个副本:

(1a)将数据帧按照序号分为奇数帧和偶数帧,卫星端向每个用户广播数据帧的序号信息;

(1b)用户根据收到的广播信息先选择接入奇数帧或偶数帧,再在已选择的帧内随机选择两个时隙以大小不同的功率发送用户自身的两个副本,这些副本将通过上行链路传输到卫星端;

(2)卫星将副本数据转发给网关,网关采用迭代干扰消除算法对副本数据进行解调,随后将解调后的结果通过卫星广播给用户端;

(3)用户根据反馈的解调结果更新各个时隙的q评估值:

(3a)设qm(i)为用户m在时隙i上的q评估值,q评估值的大小体现出用户对时隙位置选择的偏好性,同时记录了每个用户两个副本的功率分布,初始时刻用户随机选择时隙,所有时隙的q评估值相等,qm(i)均初始化为0;

(3b)用户收到反馈信息后,根据传输结果按照下式更新各个时隙的q评估值:

其中,指更新之前各个时隙的q评估值,α表示学习速率,r表示奖惩因子,当用户的数据包解码成功时,r取值为1,当用户的数据包不能被正确解码时,r取值为-1;

(3c)与此同时,用户收到反馈信息后,根据传输结果按照下式更新两个副本功率分配方案的q评估值:

其中,指更新之前两个副本功率分配的q评估值,α表示学习速率,r表示奖惩因子,当用户的数据包解码成功时,r取值为1,当用户的数据包不能被正确解码时,r取值为-1;

(4)所有用户选择q评估值大的时隙传输副本:

用户更新过q评估值后,在下次传输中选择q评估值最大的两个时隙传输副本,如果存在多个时隙评估值最大,则用户从中随机选取两个时隙传输;同时,用户两个副本的功率分配选择对应q评估值大的分配方案进行;

(5)负载估计:

利用负载估计算法估计出当前系统负载设收敛状态的极限负载为将估计出来的负载与极限负载g*进行比较:

则执行(7);若则执行(6);

(6)调整接入概率进行接入控制:

(6a)为每个用户定义接入概率pm,其初始化值为1;卫星向用户广播一个门限ψ,其初始化值为0;

(6b)设置pm和ψ的更新公式:

pm=pm+β(r-pm)

ψ=ψ+γ(θ-ψ)

其中,β表示接入概率更新的学习步长,r表示接入概率更新的奖惩因子,如果该用户传输成功,r取值为1,如果传输失败,r取值为0;γ表示广播门限更新的学习步长,i指更新的次数,ti-1指上次传输系统的吞吐量;θ表示广播门限更新的奖惩因子,其值由(6)中的负载估计确定,若θ取值为1,若θ取值为0;

(6c)初始时刻由于所有pm>ψ,所有用户被允许接入,在后续的传输过程中,当pm≥ψ时,允许该用户接入,当pm<ψ时,用户则无法接入,进而实现接入控制;

(7)迭代(2)到(4),直到所有用户做出最佳决策,即收敛后每个用户会选择两个专属的时隙传输数据包副本。

本发明与现有技术相比具有以下优点:

第一,由于本发明采用q学习选择时隙位置,消除了用户传输数据选择时隙的随机性,用户根据实际环境进行自主学习,不断修改其接入策略,最终找到自己专属的时隙传输副本,降低了数据包冲突的概率,大幅提升了系统吞吐量,同时提高了时隙资源的利用率。

第二,由于本发明采用q学习选择用户传输副本的功率分配,用户根据之前的传输结果,选择最优的副本功率分布方案。当收端接收到两个副本,且两个副本的功率差异达到捕获效应的门限时,认为这两个副本对应的数据包均可被解码成功。进行功率学习后,收端在解码时会遇到更多可被捕获效应检测到的数据包,使系统吞吐量进一步提升。

第三,由于本发明充分考虑到卫星网络中大时延的影响,采用奇偶帧接入方案,奇数帧和偶数帧内的时隙评估值是独立的,用户选择奇数帧或偶数帧接入,奇数帧的反馈会在一帧的持续时间内反馈回来用于下一个奇数帧q值的更新,偶数帧亦然,。这相当于在奇数帧和偶数帧同时开展两个独立的q学习过程,可以很好的适配卫星网络固有的大时延,保证反馈信息接收的实时性。

第四,由于本发明在系统过载的情况下采用接入控制,利用q学习动态调整接入因子的值,通过在卫星端设置门限间接智能调整接入概率,解决了传统方法负载估计不准确造成的性能下降问题,使系统即使在高负载下也可达到收敛,实现较高的吞吐量性能。

附图说明

图1是本发明的实现总流程图;

图2是本发明中的卫星网络时延示意图;

图3是本发明中的q评估值更新示意图;

图4是本发明中接入控制的子流程示意图;

图5是本发明中学习时隙位置的智能随机接入方法qcrdsa与现有crdsa接入方法的吞吐量性能曲线对比图;

图6是本发明中学习时隙位置的qcrdsa,及学习时隙位置和功率分配的qcrdsa与现有crdsa接入方法的吞吐量性能曲线对比图;

图7是本发明中学习时隙位置的qcrdsa与现有crdsa接入方法的时延性能曲线对比图;

图8是本发明中带有接入控制的qcrdsa与不带接入控制的qcrdsa的吞吐量性能曲线对比图;

图9是本发明中学习时隙位置的qcrdsa学习过程中的吞吐量与现有crdsa接入方法的吞吐量性能曲线对比图。

具体实施方式

下面结合附图1对本发明做进一步描述。

参照图1,本发明的实现步骤如下:

步骤1,对数据帧进行奇偶分帧,用户选择时隙发送自身的两个副本:

(1a)将数据帧按照序号分为奇数帧和偶数帧,卫星端向每个用户广播数据帧的序号信息;

由图2给出的卫星网络的时延示意图可以看出,假设每帧传输时延为tf,卫星收到信号后将信号转发给网关,网关对信号进行处理并将接收情形反馈回卫星,随后卫星通过广播信道将传输结果广播给接入的用户。假设基站至卫星,网关至卫星的上行链路传播时延为tf,卫星至网关,卫星至基站的下行链路传播时延为tb,信号在卫星的转发时间和在网关的处理时间tp远小于传播时延,可忽略不计,则从发出信号到接收反馈信号的时间与帧长tf,在一般情况下满足2(tf+tb)<tf,若采用奇偶帧接入方案,即用户选择接入奇数帧或偶数帧,反馈信息一定会在下一个奇数帧或偶数帧前到达,用户只要持续接入奇数帧或偶数帧,就可以保证反馈信息有效的更新q值进行后续的学习,从而适配大时延。

(1b)用户根据收到的广播信息先选择接入奇数帧或偶数帧,再在已选择的帧内随机选择两个时隙以大小不同的功率发送用户自身的两个副本,这些副本将通过上行链路传输到卫星端;

步骤2,卫星转发信号,反馈给用户网关处理后的解调结果:

(2a)卫星将副本数据转发给网关,网关采用迭代干扰消除算法对副本数据进行解调:

所述网关对副本数据解调的算法,包括迭代干扰消除,消息传递算法等,本实例采用但不限于迭代干扰消除算法,其实现如下:

(2a1)检测一帧中只有一个数据包副本的时隙,解调出副本对应的用户;

(2a2)通过副本携带的信息得到该用户另一个副本的位置,并消除另一个副本对时隙内其他数据包的干扰;

(2a3)消除干扰后再返回(2a1),通过迭代干扰消除,解调出尽可能多的数据包,本实例设迭代次数为16,解调效果最佳;

(2b)将解调后的结果通过卫星广播给用户端。

步骤3,用户根据反馈的解调结果更新用于调整策略的q评估值:

(3a)设qm(i)为用户m在时隙i上的q评估值,q评估值的大小体现出用户对时隙位置选择的偏好性,同时记录了每个用户两个副本的功率分布,初始时刻用户随机选择时隙,所有时隙的q评估值相等,qm(i)均初始化为0;

(3b)用户收到反馈信息后,根据传输结果按照下式更新各个时隙位置的q评估值:

其中,指更新之前各个时隙的q评估值,α表示学习速率,r表示奖惩因子,当用户的数据包解码成功时,r取值为1,当用户的数据包不能被正确解码时,r取值为-1;

其中q评估值采用根据用户与环境交互获得的经验自主调整策略的智能算法,包括q学习,博弈论相关理论,遗传算法等。本实例采用但不限于q学习算法,其实现如下:

(3b1)为用户可能做出的所有策略设置q评估值,体现出用户对各个策略的偏好;

(3b2)当用户做出某一策略后,根据收到的反馈信息更新该策略对应的q评估值:

若用户收到正反馈,则增大策略对应的q评估值;

若用户收到负反馈,则减小策略对应的q评估值;

(3b3)用户选择q评估值大的策略,再根据(3b2)更新q评估值,多次调整之后,用户收敛到最佳策略;

(3c)与此同时,用户收到反馈信息后,根据传输结果按照下式更新两个副本功率分配方案的q评估值:

其中,指更新之前两个副本功率分配的q评估值,α表示学习速率,r表示奖惩因子,当用户的数据包解码成功时,r取值为1,当用户的数据包不能被正确解码时,r取值为-1;

需要说明的是,若用户选择接入奇数帧或偶数帧,收到的反馈信息是来自用户接入的上个奇数帧或偶数帧的传输结果。

步骤4,所有用户选择q评估值大的时隙传输副本:

用户更新过q评估值后,在下次传输中选择q评估值最大的两个时隙传输副本,如果存在多个时隙评估值最大,则用户从中随机选取两个时隙传输;同时,用户两个副本的功率分配选择对应q评估值大的分配方案进行;

图3给出了学习时隙位置的q评估值更新过程的一个例子。从图3的例子中可看出,第一次传输时用户1选择在时隙1和时隙3传输副本,用户2和用户3均选择在时隙2和时隙4传输副本,用户1的数据成功传输,所以用户1增大时隙1和时隙3的q评估值,而用户2和用户3的数据由于发生碰撞传输失败,所以用户2和用户3减小时隙2和时隙4的q评估值,下次传输时用户2和用户3将重新选择两个q评估值更大的时隙传输副本,经过一段时间学习后,所有用户选择自己的专属时隙传输副本,大幅度降低用户数据包冲突的概率。

步骤5,采用负载估计算法估计出当前系统负载

(5a)统计帧内空闲时隙,干净时隙,碰撞时隙的数目,得到概率分布公式如下:

其中,m表示一帧内包含的时隙数,n表示用户数,n1指空闲时隙数目,即没有数据包的时隙;n2指干净时隙数目,即只有一个数据包的时隙;n3指碰撞时隙数目,即存在两个或两个以上数据包的时隙;j和l作为统计变量,遍历所有时隙数目分布的状态;

(5b)调整用户数n,得到使概率分布pn最大的用户数

(5c)利用最大的用户数进行负载估计,得到估计后的负载

设收敛状态的极限负载为将估计出来的负载与极限负载g*进行比较:

则执行步骤7;

则执行步骤6。

步骤6,调整接入概率进行接入控制:

(6a)为每个用户定义接入概率pm,其初始化值为1;卫星向用户广播一个门限ψ,其初始化值为0;

(6b)设置pm和ψ的更新公式,利用反馈信息进行更新:

pm=pm+β(r-pm),

ψ=ψ+γ(θ-ψ)。

其中,β表示接入概率更新的学习步长,r表示接入概率更新的奖惩因子,如果该用户传输成功,r取值为1,如果传输失败,r取值为0;γ表示广播门限更新的学习步长,i指更新的次数,ti-1指上次传输系统的吞吐量;θ表示广播门限更新的奖惩因子,其值由步骤5中的负载估计确定,若θ取值为1,若θ取值为0;

其中接入概率pm和广播门限ψ这两个参数采用根据用户与环境交互获得的经验自主调整策略的智能算法,包括q学习,博弈论相关理论,遗传算法等。本实例采用但不限于q学习算法,其实现如下:

(6b1)为用户可能做出的所有策略设置q评估值,体现出用户对各个策略的偏好;

(6b2)当用户做出某一策略后,根据收到的反馈信息更新该策略对应的q评估值:

若用户收到正反馈,则增大策略对应的q评估值;

若用户收到负反馈,则减小策略对应的q评估值;

(6b3)用户选择q评估值大的策略,再根据(6b2)更新q评估值,多次调整之后,用户收敛到最佳策略;

(6c)初始时刻由于所有pm>ψ,所有用户被允许接入,在后续的传输过程中,当pm≥ψ时,允许该用户接入,当pm<ψ时,用户则无法接入,进而实现接入控制;

整个接入控制的动态调整过程如附图4所示。从图4可以看出,初始时刻pm=1,ψ=0,然后比较接入概率pm与广播门限ψ的大小,若pm≥ψ,允许该用户接入,并传输数据包,根据传输结果更新pm值,接着进行负载估计,根据与g*的大小关系更新ψ的大小,更新后返回比较接入概率pm与广播门限ψ的大小;若pm<ψ,用户无法接入,不发送数据包。

步骤7,迭代步骤2到步骤4,学习一定长度的帧数直到系统收敛,所有用户做出最佳决策,每个用户会选择两个专属的时隙传输数据包副本。

下面通过本发明的仿真实验对本发明的效果做进一步说明。

1.仿真条件:

本发明的仿真实验使用matlabr2014a仿真软件,每帧包含200个时隙,学习帧数定为200帧,学习速率α=0.001,帧长tf=20ms,上行传输时延tf=4ms,下行传输时延tb=4ms,每个时隙长度为ts=0.1ms。

2.仿真内容及其结果分析:

仿真1,仿真对比本发明学习时隙位置的智能随机接入方法qcrdsa和现有的能够解决碰撞的多包分集传输随机接入方法crdsa的吞吐量,结果如图5。其中图5的横轴表示系统归一化负载,单位是数据包/时隙,纵轴表示归一化吞吐量。由图5可见,本发明的方法在负载小于收敛极限的情况下,吞吐量始终与负载保持着线性增长的关系。在现有crdsa中,吞吐量与负载的线性区只持续到负载为0.4左右,而本发明的qcrdsa大大延长了线性区,将峰值吞吐量提升至接近1,相比现有crdsa提升了80%。

仿真2,仿真对比本发明学习时隙位置的qcrdsa,及本发明学习时隙位置和功率分配的qcrdsa与现有crdsa的吞吐量,结果如图6。其中图6的横轴表示系统归一化负载,单位是数据包/时隙,纵轴表示归一化吞吐量。由图6可见,本发明学习时隙位置的qcrdsa可以将吞吐量提升至接近1,但是在负载大于1时,吞吐量将急剧下降。而本发明中的学习时隙位置和功率分配的qcrdsa,在负载大于1时,吞吐量也与负载保持线性关系,在负载为1.6时吞吐量达到峰值,随后开始下降,说明本发明同时学习时隙位置和功率分配的qcrdsa,将吞吐量性能将进一步得到提升。

仿真3,仿真对比本发明学习时隙位置的qcrdsa与现有crdsa的时延,结果如图7。其中图7的横轴表示系统归一化负载,单位是数据包/时隙,纵轴表示平均分组时延,以时隙数为单位。分组时延指从数据包开始传输到接收到其传输成功的反馈之间的时延。由图7可见,在负载高于0.5时,本发明的qcrdsa方法相对现有crdsa平均分组时延更低,在负载刚超过收敛极限点时,本发明qcrdsa仍具有更低的平均分组时延。这说明本发明的qcrdsa相对现有crdsa具有更好的时延性能。

仿真4,仿真对比本发明带有接入控制的qcrdsa与不带接入控制的qcrdsa的吞吐量,结果如图8。其中图8的横轴表示系统归一化负载,单位是数据包/时隙,纵轴表示归一化吞吐量。由图8可见,不采用接入控制的qcrdsa在过载情况下由于系统无法达到收敛,吞吐量将急剧下降。而本发明中引入接入控制后的qcrdsa,在负载超过收敛极限时,系统吞吐量维持在0.9到1之间,说明系统在过载情况下仍保持较高的吞吐量。

仿真5,仿真对比本发明学习时隙位置的qcrdsa的学习过程与现有crdsa的吞吐量,结果如图9。其中图9的横轴表示系统归一化负载,单位是数据包/时隙,纵轴表示归一化吞吐量。由图9可见,在低负载时,本发明的qcrdsa学习过程中的吞吐量与现有crdsa差异不大,但在负载达到0.65时,现有crdsa达到峰值0.55,随后开始逐渐下降,然而,本发明带有学习机制的qcrdsa的吞吐量在达到峰值0.62后,仍然能够维持较高的值。这说明即使在系统未达到收敛处于学习过程时,本发明的qcrdsa吞吐量性能仍优于现有的crdsa接入方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1