基于深度Q网络的网络性能优化系统和方法与流程

文档序号：37428501发布日期：2024-03-25 19:18阅读：6来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及网络性能优化，更具体的说，特别涉及一种基于深度q网络的网络性能优化系统和方法。

背景技术：

1、随着互联网的发展，网络数据传输量激增，给云端数据中心运算处理带来极大负担，网络性能优化成为了一个重要的问题。

2、为了满足边缘计算的需求，人们进行了大量研究，但是，传统的优化方法往往依赖人工经验和规则，不能很好地应对网络环境的变化和复杂性，尤其是对于延迟和吞吐量等指标的优化。

3、因此，现有技术存在的问题，有待于进一步改进和发展。

技术实现思路

1、(一)发明目的：为解决上述现有技术中存在的问题，本发明的目的是提供一种可以自动学习网络环境的变化，实现网络性能动态优化的基于深度q网络的网络性能优化系统和方法。

2、(二)技术方案：为了解决上述技术问题，本技术方案提供基于深度q网络的网络性能优化方法，用于网络性能的自动优化，包括以下步骤，

3、步骤a、构建深度q网络模型，得到dqn模型；

4、步骤b、训练所述dqn模型，得到优化dqn模型；

5、步骤c、使用优化dqn模型预测指定网络状态下所有可能执行动作的预期收益q值；

6、步骤d、选择预期收益q值最大的执行动作作为优化操作，并进行网络性能的优化。

7、所述基于深度q网络的网络性能优化方法，其中，所述步骤a具体包括以下步骤，

8、步骤a1、定义深度q网络模型中参数表达式；

9、步骤a2、确定深度q网络模型架构，得到dqn模型结构；

10、步骤a3、编译dqn模型结构,得到dqn模型。

11、所述基于深度q网络的网络性能优化方法，其中，所述步骤a1，包括以下步骤，

12、定义网络状态s和执行动作a的表达式；

13、定义收益函数r的表达式。

14、所述基于深度q网络的网络性能优化方法，其中，所述步骤a2具体包括：定义输入层；构建隐藏层；定义输出层。

15、所述基于深度q网络的网络性能优化方法，其中，所述步骤a3具体包括：选择激活函数；确定损失函数；配置优化器。

16、所述基于深度q网络的网络性能优化方法，其中，所述步骤b具体包括以下步骤，

17、步骤b1、创建目标dqn模型；

18、步骤b2、训练dqn模型，更新深度q网络权重；

19、步骤b3、将dqn模型更新的深度q网络权重复制至目标dqn模型。

20、所述基于深度q网络的网络性能优化方法，其中，所述步骤b1创建的目标dqn模型与步骤a得到的dqn模型相同，是由dqn模型复制得到，目标dqn模型用于稳定训练过程；

21、所述步骤b3中，当深度q网络权重更新次数为指定次数时，将dqn模型更新的深度q网络权重复制至目标dqn模型。

22、所述基于深度q网络的网络性能优化方法，其中，所述步骤b2中，更新的深度q网络权重包括学习率和折扣因子，在对dqn模型进行训练，更新深度q网络权重的过程是一个多次训练更新的过程；在训练dqn模型前，所述模型训练单元初始化一个经验回放缓存，经验回放缓存用来存储模型训练单元的经验，用于后续的训练；

23、对于每一个训练周期，使用当前的网络状态s和dqn模型，使用ε-greedy策略选择一个执行动作a，并执行该执行动作，观察新的网络状态s’和收益r，然后使用以下公式更新深度q网络权重：

24、q(s,a)<-q(s,a)+α*[r+γ*max_a q(s',a)-q(s,a)]

25、α是学习率，γ是折扣因子，max_a q(s',a)是在新网络状态s'下所有可能执行动作的最大q值；

26、所述步骤b2具体实现方式可以如下，

27、b21，从当前网络状态s开始，使用ε-greedy策略选择一个执行动作a；

28、b22，执行动作a，观察新的网络状态s'和收益r；收益r为满足sla要求的程度；

29、b23，将每个元组(s,a,r,s')存储到经验回放缓存中；

30、b24，从经验回放缓存中随机抽取一批元组，使用dqn模型进行训练更新深度q网络权重，使得预测的q值更接近实际的q值：q(s,a)≈r+γ*max_aq(s',a)；使用深度学习的优化算法更新深度q网络权重具体可以是使用adam优化算法来更新深度q网络权重；

31、b25，将网络状态s更新为新的网络状态s'。

32、所述基于深度q网络的网络性能优化方法，其中，所述步骤b22中，收益r＝-abs(sla_req-current_performance)，用于强化学习中的奖励信号，奖励信号反映当前行为表现与服务水平协议要求之间的差距；sla_req代表了sla定义的性能要求，current_performance代表了网络当前的性能表现，收益r的公式通过计算两者之间的绝对差值并取负值，来生成一个奖励值r。

33、基于深度q网络的网络性能优化系统，用于网络性能的自动优化，包括模型构建单元、模型训练单元和性能优化单元，

34、所述模型构建单元用于构建深度q网络模型，得到dqn模型；

35、所述模型训练单元训练所述dqn模型，得到优化dqn模型；

36、所述性能优化单元使用优化dqn模型预测指定网络状态下所有可能执行动作的预期收益q值，并选择预期收益q值最大的执行动作作为优化操作，进行网络性能的优化。

37、(三)有益效果：本发明提供基于深度q网络的网络性能优化系统和方法可以学习网络状态到优化操作的映射关系，实现网络性能的自动优化，避免了人工设定规则和参数；根据实时的网络状态，动态选择最优的动作，实现网络性能的动态优化，具有很强的泛化能力，可以应对各种网络环境和变化；适用当前网络环境，易于实现。

技术特征：

1.基于深度q网络的网络性能优化方法，用于网络性能的自动优化，其特征在于，包括以下步骤，

2.根据权利要求1所述基于深度q网络的网络性能优化方法，其特征在于，所述步骤a具体包括以下步骤，

3.根据权利要求2所述基于深度q网络的网络性能优化方法，其特征在于，所述步骤a1，包括以下步骤，

4.根据权利要求2所述基于深度q网络的网络性能优化方法，其特征在于，所述步骤a2具体包括：定义输入层；构建隐藏层；定义输出层。

5.根据权利要求2所述基于深度q网络的网络性能优化方法，其特征在于，所述步骤a3具体包括：选择激活函数；确定损失函数；配置优化器。

6.根据权利要求1所述基于深度q网络的网络性能优化方法，其特征在于，所述步骤b具体包括以下步骤，

7.根据权利要求6所述基于深度q网络的网络性能优化系统和方法，其特征在于，所述步骤b1创建的目标dqn模型与步骤a得到的dqn模型相同，是由dqn模型复制得到，目标dqn模型用于稳定训练过程；

8.根据权利要求6所述基于深度q网络的网络性能优化方法，其特征在于，所述步骤b2中，更新的深度q网络权重包括学习率和折扣因子，在对dqn模型进行训练，更新深度q网络权重的过程是一个多次训练更新的过程；在训练dqn模型前，所述模型训练单元初始化一个经验回放缓存，经验回放缓存用来存储模型训练单元的经验，用于后续的训练；

9.根据权利要求8所述基于深度q网络的网络性能优化方法，其特征在于，所述步骤b22中，收益r＝-abs(sla_req-current_performance)，用于强化学习中的奖励信号，奖励信号反映当前行为表现与服务水平协议要求之间的差距；sla_req代表了sla定义的性能要求，current_performance代表了网络当前的性能表现，收益r的公式通过计算两者之间的绝对差值并取负值，来生成一个奖励值r。

10.基于深度q网络的网络性能优化系统，用于网络性能的自动优化，其特征在于，包括模型构建单元、模型训练单元和性能优化单元，

技术总结
基于深度Q网络的网络性能优化系统和方法用于网络性能的自动优化，具体包括：模型构建单元构建深度Q网络模型，得到DQN模型；模型训练单元训练所述DQN模型，得到优化DQN模型；性能优化单元使用优化DQN模型预测指定网络状态下所有可能执行动作的预期收益Q值；性能优化单元选择预期收益Q值最大的执行动作作为优化操作，并进行网络性能的优化。本发明学习网络状态到优化操作的映射关系，实现网络性能的自动优化，避免了人工设定规则和参数；根据实时的网络状态，动态选择最优的动作，实现网络性能的动态优化，具有很强的泛化能力，可以应对各种网络环境和变化；适用当前网络环境，易于实现。

技术研发人员：赵敏,邱志坚,段玉龙,杨硕
受保护的技术使用者：融鼎岳（北京）科技有限公司
技术研发日：
技术公布日：2024/3/24

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵敏,邱志坚,段玉龙,杨硕
技术所有人：融鼎岳（北京）科技有限公司
我是此专利的发明人

上一篇：直播场景下的业务故障修复方法和装置与流程
上一篇：一种压力容器封头旋压装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。