双向收发强化学习的定向天线邻居发现方法、设备及介质

文档序号:37417372发布日期:2024-03-25 19:05阅读:15来源:国知局
双向收发强化学习的定向天线邻居发现方法、设备及介质

本发明涉及通信,尤其涉及一种双向收发强化学习的定向天线邻居发现方法、设备及介质。


背景技术:

1、随着无线通信技术的进步,无线自组织网络在无线通信中变得越来越重要,因为它们具有广泛的应用和相对容易部署的特点。邻居发现是初始化无线自组织网络并让设备知道一跳邻居信息的基本过程。在传统方式中,网络中的节点通过配置的全向天线进行通信,这造成了巨大的能量浪费,并干扰了其他节点之间的通信。与全向天线相比,在无线自组织网络中使用定向天线可以为节点提供更长的传输距离和更好的抗干扰能力。

2、然而,在无线自组织网络中使用定向天线进行邻居发现将遇到各种挑战,主要问题是有限波束宽度限制引起的通信对准问题。为了使两个节点成功发现彼此,它们的定向天线在各自的发送和接收模式下必须朝向彼此。此外,在大多数使用定向天线进行邻居发现的现有解决方案中,网络中的节点通过发送和接收数据包来实现邻居发现。在文章[zhang,zhensheng,b.li,neighbor discovery in mobile ad hoc self-configuringnetworks with directional antennas:algorithms and comparisons,ieeetransactions on wireless communications 7(2008).]中,提出了一种随机算法(ran),节点扫描周围的定向波束,在特定时间间隔内发送邻居数据包,并监听其他节点的响应以确定邻居关系。这些解决方案利用了定向波束的优点,允许节点进行长距离通信并减少干扰的影响,从而建立稳定的通信链路和高效的网络拓扑结构,提供更好的可靠性和易于实现性。在文章[w.bai,wei,yuhua xu,jinlong wang,renhui xu,alagan anpalagan,chaohui chen,yitao xu,ximing wang,cognitive neighbor discovery withdirectional antennas in self-organizing iot networks,ieee internet of thingsjournal 8(2021)6865-6877.]中,提出了一种同步节点邻居发现算法,该算法根据邻居数量动态调整接收概率,并使用动态规划迭代计算最优接收概率。在实践中,当无法获得邻居数量时,使用最大似然估计法在调整概率之前估计邻居数量。与固定概率算法相比,概率调整算法显著降低了平均发现延迟。天线扫描可以同时为所有节点启动。在异步情况下,文章[b.zheng,bowen,songlin sun,guoyuan shao,cooperative antenna selection methodfor directional antenna ad hoc networks based on aloha,wirel.commun.mob.comput.2021(2021)5583653:1-5583653:15.]提出了一种用于非同步节点的协作天线选择方法,该方法利用具有相同特征的节点之间的相对几何位置关系来确定每个定向节点的最优传输概率函数。与同步算法相比,异步算法不需要额外的时间同步开销,使节点更容易部署并促进网络扩展。在上述解决方案中,网络中的节点随机或按预定顺序切换方向,往往忽略每个扇区历史探索的结果和多个节点同时通信造成的信标碰撞,导致高发现延迟和长尾问题,需要很长时间才能找到所有邻居。

3、近年来,由于机器学习技术的日益成熟及其独特的技术优势,机器学习方法开始应用于定向天线邻居发现。通过学习过去的发现尝试结果,可以积累经验以提高当前邻居发现的效率。在文章[el khamlichi,btissam,duy h.n.nguyen,jamal el abbadi,nathaniel w.rowe,sunil kumar,learning automaton-based neighbor discovery forwireless networks using directional antennas,ieee wireless communicationsletters 8(2019)69-72.]中,提出了一种基于学习自动机的定向邻居发现算法(la)。节点考虑每个扇区历史探索的结果,并考虑冲突和先前发现的邻居来选择下一个扇区。然而,由于无法提供足够的先验信息,这种方法不适用于稀疏部署的网络。在文章[khamlichi,btissam el,jamal el abbadi,nathaniel w.rowe,sunil kumar,adaptive directionalneighbor discovery schemes in wireless networks,2020international conferenceon computing,networking and communications(icnc),2020,pp.332-337.]中,使用q-learni ng算法优化节点的扇区选择策略,随机选择发送或接收。每个节点独立调整其邻居发现策略以最小化发现延迟,显著提高了邻居发现的速率,具有低开销和低计算复杂度。在[14-15]中,使用强化学习方法优化邻居发现过程。在文章[tiwari,pooja,dilip kumarmeena,laxminarayana s.pillutla,adaptive learning based directional macprotocol for millimeter wave(mmwave)wireless networks,2017ieee 28th annualinternational symposium on personal,indoor,and mobile radio communications(pimrc),2017,pp.1-5.]中,提出了一种基于强化学习的mmwave定向网络mac协议,其中每个节点执行基于扫描的邻居发现算法,并将强化学习应用于mac协议以提高吞吐量。在文章[y.wang,yuhua,laixian peng,renhui xu,yaoqi yang,lin ge,a fast neighbordiscovery algorithm based on q-learning in wireless ad hoc networks withdirectional antennas,2020ieee 6th international conference on computer andcommunications(iccc),2020,pp.467-472.]中,研究了一种基于强化学习的定向邻居发现方法。由于其自学习能力,强化学习算法可以在整个邻居发现过程中提高邻居发现率。然而,虽然现有的机器学习方案可以根据环境反馈调整动作选择概率,但这些方案中的学习机制没有充分利用节点通信期间获得的知识,导致遗漏了一些节点状态信息,并且对一些节点动作缺乏奖励和惩罚。

4、综上,为了加快实际应用场景中无线自组织网络的邻居发现,加强邻居发现协议的实用性,需要一种能够解决无线自组织网络中定向天线邻居发现问题的方法。由于现有工作中节点仅在传输模式下学习而忽略了节点在接收模式下观察到的知识,如何进行一种无需额外节点信息,能够考虑节点传输模式和接收模式下所观察到的知识同时又能保证邻居发现的方法,这正是本发明致力于解决的问题和实现的目标。


技术实现思路

1、本发明所要解决的技术问题在于,提供一种双向收发强化学习的定向天线邻居发现方法、设备及介质,可提高节点的邻居发现效率。

2、为了解决上述技术问题,本发明提供了一种基于双向收发强化学习的定向天线邻居发现方法,包括:s1,构建无线自组织网络模型;s2,初始化所述无线自组织网络模型中各节点的节点状态、扇区选择概率集合及邻居列表;s3,启动学习循环,随机选择当前时隙的实时状态,再根据扇区选择概率集合选择当前时隙的实时动作,其中,所述实时状态包括发送状态及接收状态,所述实时动作表示当前天线波束所指向的扇区;s4,根据所述实时状态、实时动作及当前时隙中各子时隙的监听结果生成强化信号;s5,根据所述强化信号,更新所述扇区选择概率集合;s6,根据当前学习循环所发现的邻居节点,更新各节点的邻居列表;s7,返回步骤s3进入下一学习循环,直至邻居节点发现完成。

3、作为上述方案的改进,根据所述实时状态、实时动作及当前时隙中各子时隙的监听结果生成强化信号的步骤包括:若节点当前处于发送状态,在当前时隙的第一个子时隙内发送rts消息,在当前时隙的第二个子时隙内,发送机监听在当前天线波束所指向的扇区方向上的消息,并根据发送机的监听结果生成强化信号;若节点当前处于接收状态,在当前时隙的第一个子时隙内,接收机监听在当前天线波束所指向的扇区方向上的消息,并根据接收机的监听结果生成强化信号。

4、作为上述方案的改进,所述根据发送机的监听结果生成强化信号的步骤包括:若多个cts消息在当前扇区方向上发生碰撞,则邻居节点发现失败,强化信号为“1”;若成功监听到cts消息,则邻居节点发现成功,强化信号为“0”;若没有监听到cts消息,则邻居节点发现失败,强化信号为“0”。

5、作为上述方案的改进,所述根据接收机的监听结果生成强化信号的步骤包括:若多个rts消息在当前扇区方向上发生碰撞,则邻居节点发现失败,强化信号为“1”;若成功监听到rts消息,则邻居节点发现成功,强化信号为“0”;若没有监听到rts消息,则邻居节点发现失败,强化信号“0”。

6、作为上述方案的改进,所述节点定义为单独的智能体{a,p,r,t};a表示智能体动作空间,其中,ai{a1,a2,……,ak},ai表示节点i的智能体动作空间,ak表示节点当前定向天线指向第k个扇区,k表示扇区数量;p表示智能体行动概率分布,其中,且pi(t)表示的节点i在时隙t内的扇区选择概率集合,表示节点i在时隙t内所选的第k个扇区的行动概率分布;r表示强化信号,ri(t)表示节点i在时隙t中接收到的强化信号;t表示更新扇区选择概率集合的算法,其中,pi(t+1)=t(pi(t),ai,ri(t))。

7、作为上述方案的改进,根据所述强化信号,更新扇区选择概率集合的步骤包括:若所述强化信号为“1”,则奖励当前选择的扇区,以使,

8、

9、其中,a表示奖励学习率,j表示当前选择的扇区,k表示扇区数量,表示节点i在时隙t内所选的第k个扇区的行动概率分布。

10、作为上述方案的改进,根据所述强化信号,更新扇区选择概率集合的步骤包括:若所述强化信号为“0”,则惩罚当前选择的扇区,以使,

11、

12、其中,b表示惩罚学习率,j表示当前选择的扇区,k表示扇区数量,表示节点i在时隙t内所选的第k个扇区的行动概率分布。

13、作为上述方案的改进,当所述时隙的值为0时,各扇区选择概率相等。

14、相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现上述基于双向收发强化学习的定向天线邻居发现方法的步骤。

15、相应地,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述基于双向收发强化学习的定向天线邻居发现方法的步骤。

16、实施本发明,具有如下有益效果:

17、本发明基于双向收发强化学习的定向天线邻居发现方法,利用强化学习机制,通过节点不断与环境进行交互,积累节点间两个子时隙所做的观察的经验,能够更好的学习利用全局的经验(即奖励或惩罚)来优化节点往后的行为,达到提高邻居发现效率的目的,可以推广到任何网络场景下的节点间的邻居发现。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1