基于深度强化学习的物联网下区块链性能优化方法及装置

文档序号:35409364发布日期:2023-09-09 21:18阅读:88来源:国知局
基于深度强化学习的物联网下区块链性能优化方法及装置

本发明涉及物联网,尤其涉及一种基于深度强化学习的物联网下区块链性能优化方法及装置。


背景技术:

1、物联网是在传统互联网基础上延伸和扩展的网络,它是由各种信息传感设备与互联网结合起来而形成的一个巨大网络。无论是在传统行业中的物流运输和工业生产,还是在新兴产业中的智能家居和智慧医疗等领域,物联网都得到了广泛的应用。传统物联网多由分布式的设备和中心化的数据处理节点构成。然而,在以5g为代表的移动通信技术迅猛发展的背景下,物联网场景下计算任务量的激增导致数据面临安全风险,并产生了较高的网络延迟和运营成本。

2、区块链技术的兴起为解决传统物联网的上述问题提供了有效的方案。区块链的第一个应用是比特币,通过启用匿名和可信的交易消除中介干预,保证了数据的安全和效率。然而,它的影响远远超出了加密货币领域。区块链本质上是一个分布式的存储系统,由多个带有时间戳的区块组成,以p2p(peer to peer,点对点)账本的形式存在。因此,它具有去中心化、匿名性、安全性和不可篡改性等特点。在物联网场景中,通过区块链技术安全可靠地存储数据,确保了整个系统的数据安全和处理效率,可以实现更高效的数据存储、数据交换和数据管理。高效的共识算法是区块链技术应用于物联网的关键。pow(proof of work,工作量证明)共识算法是最早和最安全的公有链共识算法,具有去中心化和高安全性的特点,可以满足物联网高安全的需求。然而,pow共识算法存在显著的缺陷,由于网络中的每个节点都需要计算区块头的哈希值,这导致了大量的资源浪费。为了解决这个问题,podl(proofof deep learning,深度学习证明)共识算法被提出,它采用深度学习的计算任务代替传统的哈希碰撞,从而有效地避免了无意义的资源浪费。然而,如何提供满足物联网高交易吞吐量要求所必需的可扩展性仍然是一项挑战。

3、目前,提升区块链系统可扩展性的方法可分为链上和链下两种方式。第一种链上方式是分片技术,它将区块链节点划分为不同的分片,每个分片可以并行处理事务。另一种链上方式是参数调整,通过调整区块大小和区块间隔等参数,提高系统的性能。链下方法主要采用多链技术,通过将主链的琐碎事务迁移到其他子链,减少主链的负载和冗余。然而,链下方法由不完全分布式的本地离线系统支持,系统中的恶意节点容易相互勾结,将错误的区块链接到系统,从而降低区块链的安全级别和性能。

4、区块链系统中有一个众所周知的三元悖论,即在去中心化、安全性和可扩展性三个性质中,区块链系统同时只能具备两个。基于pow共识算法的比特币系统优先追求去中心化和安全性,从而牺牲了可扩展性这一特性。然而,物联网场景下的大多数区块链平台仅通过牺牲安全性、时延等性能指标来提升系统的可扩展性。

5、物联网场景下的区块链应用具有动态和高维的特性,drl(deep reinforcementlearning,深度强化学习)算法在解决物联网应用的复杂优化决策问题上具备天然优势。深度强化学习将深度学习的感知能力与强化学习的决策能力相结合,通过学习高维感知输入直接控制智能体的行为。目前,常见的优化策略大多数采用dqn(deep q network,深度q网络)算法。但是,dqn算法存在过度估计的问题,即估计值大于真实值。因此,在不牺牲其他性能指标的前提下,使用合适的drl算法找到区块链系统的最优可扩展性配置具有重要的意义。


技术实现思路

1、本发明针对如何在不牺牲其他性能指标的前提下,使用合适的drl算法找到区块链系统的最优可扩展性配置的问题,提出了本发明。

2、为解决上述技术问题,本发明提供如下技术方案:

3、一方面,本发明提供了一种基于深度强化学习的物联网下区块链性能优化方法,该方法由电子设备实现,该方法包括:

4、s1、初始化物联网场景下的区块链仿真系统。

5、s2、根据区块链仿真系统,构建区块链仿真系统的性能优化模型;其中,性能优化模型被建立为马尔可夫决策过程模型。

6、s3、采用深度强化学习算法对性能优化模型进行求解,得到物联网场景下的区块链仿真系统的最优可扩展性配置。

7、可选地,s1中的初始化物联网场景下的区块链仿真系统,包括:

8、设定物联网场景下的区块链仿真系统的节点总数n、恶意节点数f以及平均交易大小x。

9、其中,n个节点都具备计算资源,且n个节点中的各节点之间均存在数据通路。

10、n个节点被划分为k个分片,k个分片中的每个分片都含有一个全节点以生成区块。

11、可选地,s2中的马尔可夫决策过程为一个五元组(s,a,p,r,γ)。

12、其中,s为状态的集合,决策时刻t的状态为st=[x,c,d]t,x表示平均交易大小,c={ci}表示节点i的计算资源,d={di,j}表示节点i与节点j之间的数据传输速率。

13、a为动作的集合,决策时刻t的动作为at=[k,sb,tb]t,k表示分片数量,sb表示区块大小,tb表示区块间隔。

14、p为状态转移矩阵,r为奖励函数,γ为衰减系数,γ∈[0,1]。

15、可选地,s2中的区块链仿真系统的性能优化模型的目标函数,如下式(1)所示:

16、

17、其中,e为期望函数,γt为决策时刻t的衰减系数,rt为在状态st下选择动作at所产生的奖励,st为决策时刻t的状态,at为决策时刻t的动作。

18、可选地,s3中的采用深度强化学习算法对性能优化模型进行求解,包括:

19、s31、初始化经验回放池b、当前网络和目标网络。

20、s32、初始化深度强化学习算法的参数;其中,参数包括探索概率ε,最大回合数t。

21、s33、循环体开始,初始化状态st。

22、s34、将状态st作为当前网络的输入,并采用e-greedy策略选择动作at。

23、s35、在状态st下执行动作at,获得新的状态st+1和奖励rt。

24、s36、将四元组(st,at,rt,st+1)存储到经验回放池b。

25、s37、从经验回放池b中随机抽取一定批次的经验信息(si,ai,ri,si+1)进行学习,计算目标值yi,并使用梯度反向传播的方式更新当前网络的参数ω。

26、s38、设置固定的时间间隔c,每完成c次迭代后复制当前网络的参数ω到目标网络以更新目标网络的参数ω-。

27、s39、重复执行步骤s33至s38,直至达到最大回合数t,循环体结束。

28、可选地,s31中的当前网络和目标网络的网络结构相同。

29、当前网络和目标网络的参数分别为ω和ω-。

30、可选地,s35中的在状态st下执行动作at,获得新的状态st+1和奖励rt,还包括:

31、采用s-podl(separate proof of deep learning,分片深度学习证明)共识算法完成共识验证。

32、可选地,s36中的将四元组(st,at,rt,st+1)存储到经验回放池b,还包括:

33、当经验回放池b存储的经验信息达到最大存储量,且新的经验信息到达时,将最先进入经验回放池的经验信息弹出并删除以记录新的经验信息。

34、可选地,s37中的计算目标值yi,如下式(2)所示:

35、yi=ri+γq(si+1,argmgxa q(si+1,ai;ω);ω-)   (2)

36、其中,ri为在状态si下选择动作ai所产生的奖励,γ为衰减系数,si+1为决策时刻i+1的状态,ai为决策时刻i的动作。

37、另一方面,本发明提供了一种基于深度强化学习的物联网下区块链性能优化装置,该装置应用于实现基于深度强化学习的物联网下区块链性能优化方法,该装置包括:

38、初始化模块,用于初始化物联网场景下的区块链仿真系统。

39、构建模块,用于根据区块链仿真系统,构建区块链仿真系统的性能优化模型;其中,性能优化模型被建立为马尔可夫决策过程模型。

40、输出模块,用于采用深度强化学习算法对性能优化模型进行求解,得到物联网场景下的区块链仿真系统的最优可扩展性配置。

41、可选地,初始化模块,进一步用于:

42、设定物联网场景下的区块链仿真系统的节点总数n、恶意节点数f以及平均交易大小x。

43、其中,n个节点都具备计算资源,且n个节点中的各节点之间均存在数据通路。

44、n个节点被划分为k个分片,k个分片中的每个分片都含有一个全节点以生成区块。

45、可选地,马尔可夫决策过程为一个五元组(s,a,p,r,γ)。

46、其中,s为状态的集合,决策时刻t的状态为st=[x,c,d]t,x表示平均交易大小,c={ci}表示节点i的计算资源,d={di,j}表示节点i与节点j之间的数据传输速率。

47、a为动作的集合,决策时刻t的动作为at=[k,sb,tb]t,k表示分片数量,sb表示区块大小,tb表示区块间隔。

48、p为状态转移矩阵,r为奖励函数,γ为衰减系数,γ∈[0,1]。

49、可选地,区块链仿真系统的性能优化模型的目标函数,如下式(1)所示:

50、

51、其中,e为期望函数,γt为决策时刻t的衰减系数,rt为在状态st下选择动作at所产生的奖励,st为决策时刻t的状态,at为决策时刻t的动作。

52、可选地,输出模块,进一步用于:

53、s31、初始化经验回放池b、当前网络和目标网络。

54、s32、初始化深度强化学习算法的参数;其中,参数包括探索概率ε,最大回合数t。

55、s33、循环体开始,初始化状态st。

56、s34、将状态st作为当前网络的输入,并采用ε-greedy策略选择动作at。

57、s35、在状态st下执行动作at,获得新的状态st+1和奖励rt。

58、s36、将四元组(st,at,rt,st+1)存储到经验回放池b。

59、s37、从经验回放池b中随机抽取一定批次的经验信息(si,ai,ri,si+1)进行学习,计算目标值yi,并使用梯度反向传播的方式更新当前网络的参数ω。

60、s38、设置固定的时间间隔c,每完成c次迭代后复制当前网络的参数ω到目标网络以更新目标网络的参数ω-。

61、s39、重复执行步骤s33至s38,直至达到最大回合数t,循环体结束。

62、可选地,当前网络和目标网络的网络结构相同。

63、当前网络和目标网络的参数分别为ω和ω-。

64、可选地,输出模块,进一步用于:

65、采用s-podl共识算法完成共识验证。

66、可选地,输出模块,进一步用于:

67、当经验回放池b存储的经验信息达到最大存储量,且新的经验信息到达时,将最先进入经验回放池的经验信息弹出并删除以记录新的经验信息。

68、可选地,计算目标值yi,如下式(2)所示:

69、yi=ri+γq(si+1,argmaxa q(si+1,ai;ω);ω-)   (2)

70、其中,ri为在状态si下选择动作ai所产生的奖励,γ为衰减系数,si+1为决策时刻i+1的状态,ai为决策时刻i的动作。

71、一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于深度强化学习的物联网下区块链性能优化方法。

72、一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于深度强化学习的物联网下区块链性能优化方法。

73、上述技术方案,与现有技术相比至少具有如下有益效果:

74、上述方案,提出了物联网场景下一种基于深度强化学习的区块链系统性能优化方法。具体来说,本发明从可扩展性、安全性和时延三个方面量化了物联网场景下区块链系统的性能,获得了更全面的优化方案。然后,采用了分片机制和参数调整技术提高区块链系统的性能,满足了物联网系统的高可扩展性需求。为了在不牺牲其他必要性能指标的前提下获得最优的可扩展性配置,本发明采用ddqn(double deep q network,双深度q网络)算法动态优化系统的性能,该算法使用不同的网络计算目标值,将动作的选择和评估解耦,解决了dqn固有的过度估计的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1