D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法

文档序号:25993345发布日期:2021-07-23 21:06阅读:143来源:国知局
D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法

本发明属于无线通信领域中的无线自组网技术领域,尤其是一种基于定向天线的邻居节点发现方法。



背景技术:

与基于基础设施的无线网络相比,d2d网络由于其更快的网络部署、更低的成本和更大的灵活性,近年来得到了蓬勃发展。邻居发现是初始化d2d网络并让d2d设备知道单跳邻居的基本过程信息。

目前所提出的邻居节点发现算法中,主要分为随机性邻居发现算法和确定性邻居发现算法两大类。在随机性邻居发现算法中,网络中的节点随机选择节点的收发模式以及定向天线所指向的方向。在确定性邻居发现算法中,节点按照事先规定好的收发序列和扫描序列进行邻居发现。在这些方案中,节点随机地或以预定的顺序切换方向,而不考虑每个扇区中历史发现的结果。因而近年来,强化学习方法被应用于邻居发现,根据环境的最近一次反馈改变动作的选择概率分布。但在邻居发现的过程中,存在较大的随机性,单纯地只根据最近一次的反馈就改变行动的选择概率受随机性影响较大。



技术实现要素:

针对现有基于学习自动机的邻居发现方法只根据最近一次反馈改变动作选择概率,导致邻居发现性能受随机性影响的问题,本发明提出了一种d2d网络中基于确定性估计器学习自动机的定向天线邻居发现方法,估计器根据以往的反馈情况对行动的奖赏概率作近似估计,并强化具有最高奖赏概率估计值的行动,提高邻居发现性能。

为了解决上述技术问题,本发明提供如下的技术方案:

一种d2d网络中基于确定性估计器学习自动机的定向天线邻居发现方法,假设网络中随机部署n个节点,所有节点都是时钟同步的,每个节点都配备了一个半双工的收发信机和一个可控制的定向天线;在每个时隙中,节点只能在k个非重叠扇区中的一个扇区进行发送或接收,只有两节点收发模式相反,天线方向相对时才能发现对方;发现机制为两次握手,如果节点接收到了邻节点的信息,则回复一个应答信息,所述d2d网络中基于确定性估计器学习自动机的定向天线邻居发现算法包括以下步骤:

1)将邻居发现过程建模为确定性估计器学习自动机,网络中的每个节点都被视为一个独立的代理,在每个时隙中,代理选择一个动作执行,环境将立即给出反馈,描述所选动作是否有益,代理根据此反馈更新其估计器,进而根据pursuit算法更新动作选择概率,以优化其未来行为;

2)初始化每个节点各扇区的概率向量

3)节点根据概率向量选择一个扇区进行发送或者接收,然后根据环境给出的反馈,更新估计器;

4)根据pursuit算法,更新扇区的概率,循环至步骤3),直到邻居节点发现完成;

进一步,所述步骤1)中,确定性估计器将学习代理定义为一个四元组{αi(t),βi(t),qi(t),ti},i∈{1,2,…,n},其中αi(t)表示一组可选动作:

αi(t)={a1,a2,...,ak,...,ak}(1)

其中,动作ak表示节点选择第k个扇区来发送或接收信息;

βi(t)表示环境的反馈:

qi(t)表示自动机的状态:

qi(t)={pi(t),di(t)}(3)

其中pi(t)和di(t)分别表示节点选择一个扇区的动作概率分布和代理的确定性估计器,表示为:

pi(t)={p1(t),p2(t),…,pk(t),...,pk(t)}(4)

其中,pk(t)表示节点在t时刻选择扇区k的概率,表示节点在t时刻第k个扇区的奖励估计值,在每个时隙中,节点选择具有最高奖励估计值的扇区进行奖励;

ti表示概率更新策略,该策略决定执行动作后节点如何根据环境的反馈更新概率分布,下一时隙自动机的状态qi(t+1)表示为:

qi(t+1)=ti(qi(t),αi(t),βi(t))(6)。

再进一步,设网络中随机部署n个节点,每个节点都配备了一个半双工的收发信机和一个可控制的定向天线,在每个时隙中,节点只能在k个非重叠扇区中的一个扇区进行发送或接收,只有两节点收发模式相反,天线方向相对时才能发现对方,初始化每个节点各扇区的概率向量;

所述步骤3)中,节点选择在该扇区中执行的发送或接收操作的概率为然后节点根据环境给出的反馈,更新代理的确定性估计器di(t),下一时隙的估计器di(t+1)根据以下公式得到:

其中,rk(t+1)和gk(t+1)分别根据下式得到:

rk(t+1)=rk(t)+βk(t)(9)

gk(t+1)=gk(t)+1(10)

其中,gk(t)表示节点的第k个扇区被选择的次数,rk(t)表示节点的第k个扇区收到的总反馈。

再进一步,所述步骤4)中,d2d网络中基于pursuit算法的定向天线邻居发现算法通过以下方式更新概率向量:

假设是di(t)中的最大值,则增加第j个扇区的概率,减少其他扇区的概率,即下一时隙扇区k的概率pk(t+1)按照以下公式更新:

其中,0<λ<1表示学习速率参数。

本发明的技术构思为:现有的基于学习自动机的邻居发现算法只根据最近一次的结果来进行学习,没有考虑之前执行相同动作时获得的反馈,受随机性影响较大。本专利方法中,邻居发现过程被建模为确定性估计器学习自动机,采用pursuit算法来提升邻居发现的效率。

本发明的有益效果主要表现在:邻居发现过程被建模为确定性估计器学习自动机,通过与环境的交互学习历史经验,采用pursuit算法来提升邻居发现的效率。

附图说明

图1是本发明方法的基于确定性估计器学习自动机的定向天线邻居发现算法系统模型示意图;

图2是本发明所提的算法与现有的基于学习自动机的算法在节点静止时找到90%邻居所需的时隙数随发现次数的变化仿真图;

图3是本发明所提的算法与现有的基于学习自动机的算法在节点移动时找到90%邻居所需的时隙数随发现次数的变化仿真图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1~图3,一种d2d网络中基于确定性估计器学习自动机的定向天线邻居发现方法,所述邻居发现过程被建模为确定性估计器学习自动机,采用pursuit来提升邻居发现的效率,采用以下过程实现:

本实施方式的方法中,邻居发现过程被建模为确定性估计器学习自动机,网络中的每个节点都被视为一个独立的代理,确定性估计器将学习代理定义为一个四元组{αi(t),βi(t),qi(t),ti},其中i∈{1,2,…,n};αi(t)表示一组可选动作:

αi(t)={a1,a2,...,ak,...,ak}(1)

其中,动作ak表示节点选择第k个扇区来发送或接收信息;

βi(t)表示环境的反馈:

qi(t)表示自动机的状态:

qi(t)={pi(t),di(t)}(3)

其中pi(t)和di(t)分别表示节点选择一个扇区的动作概率分布和代理的确定性估计器,表示为:

pi(t)={p1(t),p2(t),…,pk(t),...,pk(t)}(4)

其中,pk(t)对应于节点在t时刻选择扇区k的概率,表示节点在t时刻第k个扇区的奖励估计值,在每个时隙中,节点选择具有最高奖励估计值的扇区进行奖励;

ti表示概率更新策略,该策略决定执行动作后节点如何根据环境的反馈更新概率分布,下一时隙自动机的状态qi(t+1)表示为:

qi(t+1)=ti(qi(t),αi(t),βi(t))(6)。

假设网络中随机部署n个节点,每个节点都配备了一个半双工的收发信机和一个可控制的定向天线,在每个时隙中,节点只能在k个非重叠扇区中的一个扇区进行发送或接收,只有两节点收发模式相反,天线方向相对时才能发现对方,初始化每个节点各扇区的概率向量;

节点根据概率向量选择一个扇区,选择在该扇区中执行的发送或接收操作的概率为选择扇区后,节点根据环境给出的反馈,更新代理的确定性估计器di(t),即下一时隙的估计器di(t+1)根据以下公式得到:

其中,rk(t+1)和gk(t+1)分别根据下式得到:

rk(t+1)=rk(t)+βk(t)(9)

gk(t+1)=gk(t)+1(10)

其中,gk(t)表示节点的第k个扇区被选择的次数,每被选择一次,就往上加1,rk(t)表示节点的第k个扇区收到的总反馈,每被选择一次后,会收到一个0或1的反馈。

根据pursuit算法更新概率向量:假设是di(t)中的最大值,则增加第j个扇区的概率,减少其他扇区的概率,即下一时隙扇区k的概率pk(t+1)按照以下公式更新:

其中,0<λ<1表示学习速率参数。

在本实施方式中,使用opnet对本发明提出的算法进行仿真。d2d节点随机分布在1000m×1000m的区域中,每个节点都配备有可调定向天线。移动模型模拟节点追击一个目标,移动速度设置为3-6m/s。图2和图3显示了节点在静止和移动情况下,本发明所提出的邻居节点发现算法,发现90%的邻居节点所需的时隙数都少于对比方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1