快递分拣场景中WRSN网络机器人传感器能量补充方法

文档序号:37272362发布日期:2024-03-12 21:02阅读:50来源:国知局
快递分拣场景中WRSN网络机器人传感器能量补充方法

本发明涉及无线传感网络,具体涉及一种快递分拣场景中wrsn网络机器人传感器能量补充方法。


背景技术:

1、移动无线传感器网络(mobile wireless sensor network)由随机部署的移动传感器节点、基站和移动充电装置组成。传感器节点具有自组织性好,成本低等特点。但能量问题是制约无线传感器网络发展的主要因素,但随着移动充电技术的不断发展,目前通过移动充电装置对传感器进行能量补充,有效的延长了移动无线传感器网络的生存时间。在移动无线传感器网络中,传感器用来感知环境、收集数据与执行任务等等,每个传感器配备可充电电池,能够通过无线充电技术进行能量补充。

2、考虑在实际场景,在快递分拣系统中,机器人传感器在起点处取得物件,根据物件所需的紧急性调整其移动速度,将其派送至分发处,使用移动充电装置可以在不干扰其正常运行的情况下为其达到能量补充的目的,延长网络的生存时间。移动充电装置配备有更大的电池,能够独立的完成充电任务,且其具有更高的计算和通信能力,能够及时的响应并执行任务。通过调度移动充电装置对传感器进行能量补充,可实现移动无线传感器网络长久的运行。

3、现有工作大都专注于对静态传感器网络进行能量补充和对固定轨迹移动传感器网络进行能量补充,缺乏与环境之间的交互性,使移动充电器无法做出合理决策,从而大大减少了移动无线传感器网络的生存时间。关于静态传感器网络能量补充策略已经有了较为完备的研究,但在某些特殊场景中,如快递分拣、动物追踪监测等场景,需要考虑传感器的移动性,传统的静态传感器模型无法很好的满足其要求,故需要引入移动传感器模型来适应其移动场景任务。目前的大多数移动传感器网络能量补充模式,基于传感器节点进行任务工作时的能量消耗相对于恒定的情况下,且大多采用为离线能量补充方案,这种方案可以提前设定移动充电装置的充电轨迹与充电队列,故其缺乏了与环境之间的交互,难以适应传感器在正常运行下所产生的意外事件所造成的能量消耗。


技术实现思路

1、为此,本发明提供一种快递分拣场景中wrsn网络机器人传感器能量补充方法,以解决现有移动传感器网络能量补充模式大多采用为离线能量补充方案,难以适应传感器在正常运行状态下的能量补充,移动无线传感器网络的生存时间受限的问题。

2、为了实现上述目的,本发明提供如下技术方案:

3、根据本发明实施例的第一方面,提出一种快递分拣场景中wrsn网络机器人传感器能量补充方法,所述方法包括:

4、wrsn网络中的每个机器人传感器周期性获取自身当前能量,当传感器的当前能量低于预设电量阈值时由机器人传感器向基站发送充电请求;

5、根据所述充电请求将需要充电的传感器节点加入待充电候选集合中;

6、以最小化因饥饿死亡的传感器节点数量和移动充电装置的移动距离为优化目标,利用基于ddqn算法的深度强化学习网络模型从所述待充电候选集合中选择充电候选节点;

7、判断移动充电装置的剩余能量是否能够支持充电候选节点的充电,若支持,则对充电候选节点和移动充电装置的相遇位置进行预测以便在所述相遇位置进行充电,得到预测的充电点位置;

8、控制移动充电装置移动至所述充电点位置后,控制移动充电装置与充电候选节点保持相同的运行速度并以伴随方式对所述充电候选节点进行充电;

9、当前传感器节点完成充电后,继续从待充电候选集合中获取下一个充电候选节点并进行充电,若移动充电装置的剩余能量不足以支持下一个充电候选节点的充电,则控制移动充电装置返回基站进行能量补充。

10、进一步地,wrsn网络中的每个机器人传感器周期性获取自身当前能量,当传感器的当前能量低于预设电量阈值时由机器人传感器向基站发送充电请求,具体包括:

11、所述充电请求中包括传感器节点编号id、传感器的当前位置、传感器当前t时刻能量re(t)i、当前t时刻能量消耗率r(t)i。

12、进一步地,根据所述充电请求将需要充电的传感器节点加入待充电候选集合中,具体包括:

13、检查当前需要充电的传感器节点是否在待充电候选集合中,若未在待充电候选集合中查询到,则在集合中添加节点的信息,否则仅对待充电候选集合中原有的节点信息进行更新。

14、进一步地,以最小化因饥饿死亡的传感器节点数量和移动充电装置的移动距离为优化目标,利用基于ddqn算法的深度强化学习网络模型从所述待充电候选集合中选择充电候选节点,具体包括:

15、模型目标及约束包括:

16、

17、s.t.c1:

18、c2:

19、c3:

20、c4:p(t)size_min<p(t)m<p(t)size_max

21、c5:vmin<vm<vmax

22、c6:0≤re(t)i≤ei

23、c7:0≤re(t)m≤em

24、其中ndead代表死亡节点,sm代表移动充电装置的移动距离,即使用深度强化学习的目标为最小化死亡节点和移动充电装置的移动距离;c1表示传感器的活动状态,tag(t)i表示传感器i在t时刻所处的状态,其包含朝目标位置运动即0状态与返回初始位置运动即1状态;c2确保最初传感器的数量,即传感器ni的数量总和为n,且总量不随着网络时间而变化;c3和c4约束传感器与移动充电装置的移动范围,p(t)i表示传感器i在t时刻的位置,p(t)start和p(t)end分别代表传感器的初始位置与目标位置,即传感器应处于其初始位置与目标位置之间往返运动;同样,p(t)i表示移动充电装置在t时刻的位置,p(t)size_min和p(t)size_max分别代表移动充电装置的最小移动位置与最大移动位置,即移动充电装置不能运动超过其网络范围;c5代表移动充电装置的速度约束,vm代表移动充电装置的实时速度,vmin和vmax分别为其最大速度和最小速度;c6和c7保证其能量约束,re(t)i代表传感器i在t时刻的当前能量,其能量范围要求在最小能量0与最大能量ei之间,同理,移动充电装置的当前能量re(t)m也需要在其最小能量0与最大能量em之间,即传感器与移动充电装置不得超出其能量范围。

25、进一步地,利用基于ddqn算法的深度强化学习网络模型从所述待充电候选集合中选择充电候选节点,具体包括:

26、将二维平面上的移动状态下的传感器能量补充问题抽象为马尔可夫决策过程,将其构成一个元组{st,at,rt,st+1},其中st代表t时刻的环境状态空间,at代表智能体在t时刻的动作空间,rt代表智能体在进行动作后所获得的奖励,st+1智能体在执行动作后使得环境状态空间发生的改变;在移动无线传感器网络中,状态空间抽象为所有传感器的当前能量水平与当前位置和移动充电装置所构成的多元组,动作空间抽象为移动充电装置计算的充电点所构成的集合,则求解充电路径问题转化为获得最大奖励的问题。

27、进一步地,利用基于ddqn算法的深度强化学习网络模型从所述待充电候选集合中选择充电候选节点,具体包括:

28、ddqn算法借鉴了q-learning算法的损失函数更新规则,其q-learning算法更新规则如下:

29、

30、式中q(s,a)代表动作值函数估计值,即表示在状态s下执行动作a所得到的价值,是深度强度学习的主要优化目标。α表示对价值更新的步长,可以将其设定为一个常数,也就是固定步长更新,亦可根据一定规则自适应变化其数值,其设置在较大程度上会影响其更新跨度,会对模型产生较大影响。r表示奖励函数,即当前步骤获得的奖励值,γ代表折扣因子;其中本式采用时序差分的学习目标来更新q(s,a),并且将其与目标靠近,则构造为均方误差的形式作为dqn的损失函数,其损失函数如下:

31、

32、其损失函数主要采用了均方误差的形式,其目的是使神经网络其估计的动作值函数估计值qω(si,ai)尽量逼近其奖励从而保证模型不会出现过大误差,并利用求得的参数ω来更新神经网络的参数值。

33、dqn采用经验回放的形式,具体做法为维护一个经验缓冲池,将每次从环境中采样得到的四元组{st,at,rt,st+1}存储至缓冲池中,在训练网络时再从经验缓冲池中随机采样若干数据进行训练;

34、ddqn使用两套q函数的神经网络,即目标网络与训练网络,并更新其优化目标:

35、

36、r表示奖励函数,即当前步骤获得的奖励值,γ代表折扣因子,代表利用训练神经网络预估的最大动作价值函数所对应的动作,之后利用目标神经求得的动作价值函数,此式为ddqn所求得的综合奖励,亦是其优化目标。

37、根据训练的深度强化学习网络模型,从待充电候选集合中选取节点作为下一个充电候选节点。

38、进一步地,对充电候选节点和移动充电装置的相遇位置进行预测以便在所述相遇位置进行充电,得到预测的充电点位置,具体包括:

39、在快递分拣场景,假设机器人传感器在无障碍物的二维平面上进行运动,且每个传感器拥有统一的运动起点和不同的目的地,且传感器在起点和目的地间做往返运动,传感器根据移动任务的紧迫性,调整其移动速度,以便更好地完成数据采集或运输任务;

40、假设在t时刻,传感器i处于p(t)i位置,移动充电装置处于p(t)m位置,则根据移动方向可得:

41、当传感器i朝着目标位置移动时,即:

42、

43、当传感器i朝着初始位置移动时,即:

44、

45、其中cosα,cosβ表示移动充电装置与传感器路径间的夹角的余弦值,dmn表示移动充电装置到传感器当前位置的距离,dns表示传感器当前位置到起始位置的距离,dne表示传感器当前位置到目标位置的距离,dms表示移动充电装置到传感器的起始位置的距离,dme示移动充电装置到传感器的目标位置的距离;

46、移动充电装置在选择节点i后,计算自身位置与传感器i当前位置的余弦值,获取传感器i此轮任务的移动速度,移动充电装置调整其运动方向,并根据此时传感器i的运动方向与计算得到的余弦值,即能够计算两者的相遇时间:

47、当传感器i朝着目标位置移动时,即:

48、

49、当传感器i朝着初始位置移动时,即:

50、

51、其中,tε,tθ代表所需多长时间传感器i和移动充电装置相遇,vm(m/s)表示移动充电装置的移动速度,vi(m/s)表示i号传感器的移动速度,且vm(m/s)>>vi(m/s);

52、在得到两者相遇时间后即能预测两者相遇位置,同样,根据传感器的运动方向,相遇位置如下:

53、当传感器i朝着目标位置移动时,即:

54、

55、当传感器i朝着目标位置移动时,即:

56、

57、其中cosε、cosθ和sinε、sinθ表示传感器的移动在垂直方向和水平方向上的分量,移动充电装置在抵达充电位置后,若传感器i没有因在路程中因能量耗尽而死亡,则开始进行充电任务。

58、进一步地,控制移动充电装置移动至所述充电点位置后,控制移动充电装置与充电候选节点保持相同的运行速度并以伴随方式对所述充电候选节点进行充电,具体包括:

59、考虑是移动状态下的传感器场景,则需要考虑进行伴随充电,即移动充电装置自发降低自身的移动速度,调整自身与传感器i保持同等速度,并伴随传感器i一起运动,其公式化表达为:

60、

61、移动充电装置保持相应速度和位置约束,直至给传感器i的充电任务结束,移动充电装置便开始寻找下一个传感器进行充电。

62、进一步地,控制移动充电装置与充电候选节点保持相同的运行速度并以伴随方式对所述充电候选节点进行充电,具体还包括:

63、传感器节点在t时刻的能耗模型为:

64、

65、其中代表传感器节点i从其它节点接收到的数据流的总和,ρ代表传感器接收1kb/s所消耗的能量,ψ代表发送数据流给传感器i的传感器节点集合,代表传感器节点i发送数据流的总和,σ代表传感器发送1kb/s所消耗的能量,ω代表传感器i发送数据流给其它传感器节点所构成的集合,si(t)代表传感器在时隙t所移动的距离,λ代表传感器与距离相关的能耗因子,η代表由传感器硬件产生的多余能耗;

66、在t时刻传感器的剩余能量为:

67、re(t)i=re(t-1)i-r(t)i

68、传感器i在t时刻的能量需求为:

69、ne(t)i=ξei-re(t)i

70、其中ne(t)i表示传感器i所需的能量,ξ代表充电水平系数,且ξ∈[0,1];

71、移动充电装置在t时刻的能耗模型为:

72、r(t)m=φfm,i(t)+βsm(t)+θ

73、其中fm,i(t)表示移动充电装置向传感器补充的电量的总和,φ代表移动充电装置向传感器进行能量补充的比例因子且α∈{0,1},sm(t)代表移动充电装置在时隙t所移动的距离,β代表移动充电装置与距离相关的能耗因子,θ为移动充电装置硬件所产生的多余能耗;

74、在t时刻移动充电装置的剩余能量为:

75、re(t)m=re(t-1)m-r(t)m

76、若传感器i在t时刻被选择为充电节点,则整个充电过程描述为传感器接收到来自移动充电装置所传输的能量,则在t时刻其能量变化的公式为:

77、re(t)i=re(t-1)i-r(t)i+τfm,i(t)

78、其中τ表示能量传输的比例系数,即移动充电装置给传感器进行能量补充时,必定会产生多余的能量消耗,从而导致传感器接收到的能量有所减少。

79、根据本发明实施例的第二方面,提出一种快递分拣场景中wrsn网络机器人传感器能量补充系统,所述系统包括:

80、充电请求模块,用于wrsn网络中的每个机器人传感器周期性获取自身当前能量,当传感器的当前能量低于预设电量阈值时由机器人传感器向基站发送充电请求;

81、充电节点获取模块,用于根据所述充电请求将需要充电的传感器节点加入待充电候选集合中;

82、以最小化因饥饿死亡的传感器节点数量和移动充电装置的移动距离为优化目标,利用基于ddqn算法的深度强化学习网络模型从所述待充电候选集合中选择充电候选节点;

83、充电模块,用于判断移动充电装置的剩余能量是否能够支持充电候选节点的充电,若支持,则对充电候选节点和移动充电装置的相遇位置进行预测以便在所述相遇位置进行充电,得到预测的充电点位置;

84、控制移动充电装置移动至所述充电点位置后,控制移动充电装置与充电候选节点保持相同的运行速度并以伴随方式对所述充电候选节点进行充电;

85、当前传感器节点完成充电后,继续从待充电候选集合中获取下一个充电候选节点并进行充电,若移动充电装置的剩余能量不足以支持下一个充电候选节点的充电,则控制移动充电装置返回基站进行能量补充。

86、本发明提出一种快递分拣场景中wrsn网络机器人传感器能量补充方法,wrsn网络中的每个机器人传感器周期性获取自身当前能量,当传感器的当前能量低于预设电量阈值时由机器人传感器向基站发送充电请求;根据所述充电请求将需要充电的传感器节点加入待充电候选集合中;以最小化因饥饿死亡的传感器节点数量和移动充电装置的移动距离为优化目标,利用基于ddqn算法的深度强化学习网络模型从所述待充电候选集合中选择充电候选节点;判断移动充电装置的剩余能量是否能够支持充电候选节点的充电,若支持,则对充电候选节点和移动充电装置的相遇位置进行预测以便在所述相遇位置进行充电,得到预测的充电点位置;控制移动充电装置移动至所述充电点位置后,控制移动充电装置与充电候选节点保持相同的运行速度并以伴随方式对所述充电候选节点进行充电;当前传感器节点完成充电后,继续从待充电候选集合中获取下一个充电候选节点并进行充电,若移动充电装置的剩余能量不足以支持下一个充电候选节点的充电,则控制移动充电装置返回基站进行能量补充。在快递分拣等环境中,利用深度强化学习算法,在考虑传感器快递分拣的移动场景下,并且在不影响传感器的正常运作的约束下并对其进行能量补充,且较好的适应了环境的变化所导致的传感器能耗变化,有效的延长了移动无线传感器网络的生存周期。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1