一种基于深度强化学习的水下无线传感器网络拓扑控制方法

文档序号：28420495发布日期：2022-01-11 21:49阅读：来源：国知局

技术特征：
1.一种基于深度强化学习的水下无线传感器网络拓扑控制方法，包括如下步骤：s1.离线训练阶段步骤101：拓扑控制中心获取已经完成部署的水面汇聚节点和水下传感器节点的坐标信息，并根据这些坐标信息生成拓扑控制预定顺序；步骤102：拓扑控制中心为初始网络拓扑中的每条链路随机生成传输成功概率，同时为每个水下传感器节点随机生成剩余能量值；步骤103：拓扑控制中心根据强化学习框架按照拓扑控制预定顺序依次为水下传感器节点选择它的数据传输的下一跳节点，并将该选择作为当前状态的卷积神经网络的训练数据；步骤104：卷积神经网络的训练数据集合存储到训练元组；步骤105：在下一次的拓扑控制过程中，拓扑控制中心利用更新完卷积神经网络的基于深度学习的蒙特卡洛树搜索方法去计算动作收益；步骤106：判断拓扑控制中心是否达到预先设定的自学习次数，满足条件进入在线控制阶段；否则返回步骤102；s2、在线控制阶段步骤201：水下传感器节点将当前网络信道和传输状态的信息包发送到拓扑控制中心；步骤202：当拓扑控制中心接收到所有水下传感器节点的信息包后，拓扑控制中心使用与离线训练部分相同的强化学习框架生成网络拓扑；步骤203：当拓扑控制中心生成网络拓扑后，它以能够覆盖所有水下传感器节点的发射功率发送网络拓扑信息包；水下传感器节点收到网络拓扑信息包后，根据网络拓扑信息包，重新选择邻居节点进行连接，达到根据水下通信环境去进行网络拓扑控制的目的。2.根据权利要求1所述的一种基于深度强化学习的水下无线传感器网络拓扑控制方法，其特征在于；所述步骤103中拓扑控制中心为水下传感器节点传输的下一跳节点过程；步骤301：按照拓扑控制预定顺序，某水下传感器节点n
i
为当前状态s
t
对应的水下传感器节点，拓扑控制中心利用基于深度学习的蒙特卡洛树搜索方法去计算当前状态s
t
的每个动作a
t
的收益步骤302：拓扑控制中心选择当前状态s
t
的所有动作中具有最大收益的动作去作为当前状态下采取的最佳动作(即最优策略)；步骤303：当前状态s
t
转移到下一个状态s
t+1
，直到所有状态被遍历。3.根据权利要求2所述的一种基于深度强化学习的水下无线传感器网络拓扑控制方法，其特征在于；所述步骤301中基于深度学习的蒙特卡洛树搜索方法包含四个步骤：选择、扩展、模拟和方向传播：1)选择过程：以水下传感器节点n
i
对应当前状态s
t
作为搜索树的根节点，当前状态s
t
的最优动作由公式1计算所得；当前状态s
t
执行最优动作后，转移到由最优动作决定的下一个状态s
t+1
，这个状态s
t+1
将执行动作选择；重复上述步骤直到到达一个之前没有出现过的状态，它被称为叶子状态。其中公式1表示如下：
式中a
t
是当前状态s
t
的一个动作；a
t
是当前状态s
t
的动作集；c是一个预先设定的调节系数，且c＞0；m(s
t
)是相同最优动作下状态s
t
对应的水下传感器节点被到达的次数；m(s
t
,a
t
)是当前状态s
t
选择动作a
t
的次数；q
π
(s
t
,a
t
)是当前状态s
t
选择动作a
t
期望收益，它由公式2计算获得；p(s
t
,a
t
)是当前状态s
t
选择动作a
t
的估计概率，它通过向卷积神经网络输入当前状态s
t
和动作a
t
获得；其中公式2表示如下：式中m(s
t
,a
t
)是当前状态s
t
选择动作a
t
的次数；q
π'
(s
t
,a
t
)是第m(s
t
,a
t
)-1次时的当前状态s
t
选择动作a
t
的期望收益；v
t+1
(a
t
)表示执行动作a
t
到达状态s
t+1
后状态s
t+1
获得的期望收益，它通过向卷积神经网络输入当前状态s
t
和动作a
t
获得；2)扩展过程：当达到一个叶子状态时，扩展该叶子状态，直到mcts搜索次数达到设定的阈值；3)模拟过程：使用公式1来计算在扩展阶段被扩展的叶子状态的最优动作；当到达最终状态s
hn
所对应的水下传感器节点时，状态s
hn
的期望收益为v
hn
由公式3获得；当s
hn
执行完动作后，网络拓扑完成生成；其中:最终状态s
hn
是因为水下传感器节点个数为n以及网络连通性需求的连通度是h，即拓扑控制中心需要按照拓扑控制预定顺序遍历h次网络中n个水下传感器节点:其中公式3表示如下：式中式中a
hn
是当前状态s
hn
的一个动作；a
hn
是当前状态s
hn
的动作集；t
π
表示通过将已生成的网络拓扑以及对应的网络信道和传输信息输入到已有的网络模拟器中去计算获得的该网络拓扑对应的网络生命周期；4)反向传播过程：将公式3的模拟奖励回传给根节点，并更新所经过的所有状态上的信息。

技术总结
本发明公开了一种基于深度强化学习的水下无线传感器网络拓扑控制方法；它分为离线训练和在线控制两个阶段，在离线训练阶段，根据已有的网络信道和传输信息，在强化学习的框架下按照预定的拓扑控制顺序去训练网络拓扑控制方法；在此过程中本发明设计了一种基于强化学习的拓扑控制方法，它能够获得能耗均衡且连通的网络拓扑结构；同时本发明提出了一个基于深度学习的蒙特卡洛树搜索方法去评估拓扑控制过程中每个动作选择的收益；在线控制阶段，拓扑控制中心定期接收来自水下传感器节点的信息包，获取有关网络信道和传输状态的有用参数值；根据这些参数值，拓扑控制中心使用与离线训练部分相同的强化学习框架生成网络拓扑，以适应当前动态的水下环境；本发明可以根据水下通信环境为水下无线传感器网络重新生成网络拓扑，在满足网络连通性要求的同时有效延长网络生命周期。网络生命周期。网络生命周期。

技术研发人员：刘春凤赵昭曲雯毓余涛王子恒
受保护的技术使用者：天津大学
技术研发日：2021.09.24
技术公布日：2022/1/10

完整全部详细技术资料下载

当前第2页1 2