基于强化学习的可见光异构网络通信资源分配方法及系统

文档序号:36195003发布日期:2023-11-30 00:55阅读:28来源:国知局
基于强化学习的可见光异构网络通信资源分配方法及系统

本发明通信网络,具体涉及基于强化学习的可见光异构网络通信资源分配方法,还涉及基于强化学习的可见光异构网络通信资源分配系统。


背景技术:

1、无线数据传输需求的快速增长导致无线频谱资源日益紧张。尽管已经采取了多种措施来提高无线频谱资源的利用率,但现有资源仍然不足,限制了通信的发展。因此,可以通过在寻求更优越的技术同时,寻找更高的且不受限制的带宽资源来突破这一瓶颈。可见光通信技术使用丰富的可见光波段频谱资源,解决了传统无线射频频谱资源短缺的问题。与无线射频通信相比,无需申请频谱的使用,具有更高的带宽;同时兼顾照明与通信,成本低,安装方便;拥有更高的安全性,不受电磁干扰的影响,适用的场景更广泛。

2、虽然可见光通信技术有许多传统通信技术不具备的优点,但其作为单一通信系统也存在缺点,如覆盖范围小、无绕射能力等。为了解决这些问题,研究者提出了将可见光通信技术与其他通信方式组成异构网络的方案,以构建一个容量大、传输快、时延低、安全性高、可靠性强的通信系统。研究者已证明,将vlc与wifi组成的异构网络,相比单一网络能显著提高系统的吞吐量。

3、wifi通信技术的通信范围虽然广,但是由于使用的无线频段是有限的,因此当多个设备同时接入时,会出现信道容量不足的问题,导致通信速率下降。

4、而现有的对vlc异构网络进行资源分配技术还存在某些缺点如:

5、传统资源分配优化算法:传统资源分配算法需要对大量方案进行计算和优化,计算复杂度高,需要较高的计算能力和时间。其不能很好地适应可见光通信中复杂的信道环境和用户需求,易受到干扰和衰减等影响,从而影响数据传输的可靠性和性能。传统算法可能无法有效地协调和处理多个用户之间的资源竞争,导致数据传输的效率和性能下降。

6、dsatur算法:算法的优化能力相对较低,不能对系统的性能和效率进行全面的优化和调整。dsatur算法的过程涉及到图的建立、分析和优化等多个方面,需要一定的算法和数学基础,实现过程比较复杂。

7、基于接收信号强度(received signal strength,rss)的资源分配算法:rss算法需要使用较为精确的接收器和传感器等硬件设备,从而对硬件的要求较高,可能会增加系统的成本和复杂度。利用贪婪的思想只能针对单个用户找到最优的分配,但是对于整个系统而言必定不是最优的方案,需要进行权衡,最终得到的分配方案容易陷入局部最优的情况。无法很好地协调和处理多个用户之间的资源竞争,从而影响数据传输的效率和性能。

8、穷举搜索:当问题规模较大时,穷举法需要枚举的数量会呈指数级增长,从而导致计算复杂度过高,难以在实际应用中使用。


技术实现思路

1、本发明的目的是提供基于强化学习的可见光异构网络通信资源分配方法,能够在可见光通信的多用户场景下考虑全局最优分配,更好地协调和处理多个用户之间的资源竞争,实现网络吞吐量的最大化。

2、本发明的另一目的是提供基于强化学习的可见光异构网络通信资源分配系统。

3、本发明所采用的第一个技术方案是,基于强化学习的可见光异构网络通信资源分配方法,具体按照以下步骤实施:

4、步骤1、在资源块之间构建切换开销模型;

5、步骤2、采用智能体确定每个静态周期下的资源块分配策略,并构建考虑切换开销模型的奖励函数,求解对未来奖励的期望和;

6、步骤3、寻找不同分配策略下奖励函数的最优解,根据最优解分配可见光异构网络通信资源。

7、本发明的特点还在于:

8、步骤1中资源块之间构建切换开销模型包括在同一通信系统内部的资源块之间切换产生的水平开销ηhho和在不同通信系统之间发生切换产生的垂直开销ηvho。

9、步骤1具体过程为:

10、步骤1.1、将通信系统的接入点表示为:ap={wifi,vlc(1),vlc(2),…,vlc(l)},所有可接入资源块表示为

11、步骤1.2、将κt-1和κt表示为用户μ上一时刻和现在分别连接的资源块,对于vlc异构网络中的每个资源块κ,切换开销模型表示为:

12、

13、cμ,κ∈{0,1}表示用户μ是否连接上资源块κ,并且需要满足约束条件。

14、约束条件为:

15、每个接入点的接入能力有限,因此该接入点的接入不能超过其能力的上限,对每一个接入点有:

16、

17、在资源紧张的条件下,每个用户所获得的资源块不能超过本身的需求量,因此对每一个用户μ有,

18、

19、在考虑切换开销后,当前时刻下用户μ所占用的资源块总数为:

20、

21、步骤2具体过程为:

22、步骤2.1、定义状态空间s,t时刻状态st={ξ1,ξ2,...,ξκ}∈s详细地记录当前状态下,在迭代过程中不同的用户、接入点、资源块的连接状态,其中ξκ∈{0,μ}表示资源块κ没有接入任何用户或是服务于用户μ,由于连接的情况非常多,所以起初状态空间是空集;

23、步骤2.2、定义行为空间a,每一次迭代前都会初始化行为空间的维度为t时刻静态周期下的分配策略为行为at∈a表示用户连接接入点l,用户被分配个资源块,具体被分配资源块的个数为:

24、

25、其中reqμ和resl分别为用户的需求量和所连接接入点l的剩余资源块数量;

26、步骤2.3、考虑到切换开销后的系统总分配出的资源块个数,构建奖励函数为:

27、

28、步骤2.4、在状态st下,使用策略π的期望回报为乘上折扣后对未来奖励的期望和为:

29、

30、保存t时刻对未来奖励的期望和;

31、步骤2.5、取t=t+1,更新插入新的状态st,从行为空间选择一个行为,返回步骤2.2,直到达到收敛,输出保存对未来奖励的期望和。

32、步骤2.4中对未来奖励的期望和采用q学习算法,利用bellman方程递归的方式得到未来奖励的期望和表达式:

33、q(st,at)←q(st,at)+α(r(st,at)+γmaxa∈aq(st+1,a)-q(st,at)) (8)

34、其中α是学习率,γ是折扣因子。

35、步骤3具体过程为:

36、寻找不同分配策略下奖励函数的最优解的公式为:

37、π*=argmaxaq(st,at) (9)

38、根据最优解对应的资源块分配策略即为可见光异构网络通信资源分配结果。

39、本发明所采用的第二个技术方案是,基于强化学习的可见光异构网络通信资源分配系统,包括:

40、模型建立模块,用于在资源块之间构建切换开销模型;

41、资源块分配模块,用于确定每个静态周期下的资源块分配策略,并构建考虑切换开销模型的奖励函数,求解对未来奖励的期望和;

42、寻优模块,用于根据未来奖励的期望和寻找不同分配策略下奖励函数的最优解,根据最优解分配可见光异构网络通信资源。

43、本发明有益效果是:

44、1)本发明能够在可见光通信的多用户场景下考虑全局最优分配,同时更好地协调和处理多个用户之间的资源竞争,以确保每个用户的服务质量和性能。

45、2)通过优化算法模型(奖励函数)和参数,本发明可以提高资源分配的性能和效率,具有更大的算法优化空间。通过修改算法的奖励函数,可以轻松地实现不同的目地,并且如果对奖励函数使用多个性能指标进行控制,可以从各个方面提升系统性能。

46、3)本发明具有更强的适应性和灵活性,可以适应不同的传输场景和信道状态。无需建立复杂的模型,只需要通过不断训练迭代就能找到最优解。本发明能够适应不同需求量的多用户随机移动场景,更符合实际情况。

47、4)通过智能体在环境中不断学习经验,找到更优的行为选择,本发明无需穷举所有的分配方案就能达到较好的分配结果,大大提高了搜索效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1