强化学习模型的训练方法、电子设备及存储介质与流程

文档序号：37942660发布日期：2024-05-11 00:22阅读：7来源：国知局

本申请属于无线通信，具体涉及一种强化学习模型的训练方法、电子设备及存储介质。

背景技术：

1、强化学习算法在互联网技术领域被广泛使用，但在移动通信网络中的应用效果却并不理想。在相关技术中为了获取性能优秀的强化学习模型进行策略寻优，需要大量“试错”对模型进行优化，从而应用优化后的强化学习模型在应用场景下决策出预设范围内的最优策略。但在移动通信网络中试错的成本过高，并且优化模型过程所带来的模型性能的波动以及风险难以控制。

技术实现思路

1、本申请实施例提供一种强化学习模型的训练方法、电子设备及存储介质，能够解决移动通信网络实施成本过高的问题，并且减小了优化模型过程中的性能风险。

2、第一方面，提供了一种强化学习模型的训练方法，该方法包括：获取物理通信网络在多个目标时间的画像信息，其中，所述目标时间包括时间点或时间段，所述画像信息包括所述物理通信网络的描述信息；基于各个所述画像信息，分别获取在各个所述目标时间的数字孪生网络，其中，所述数字孪生网络采用数字的方式描述所述物理通信网络；基于预设的至少一个候选策略，通过各个所述数字孪生网络，对目标强化学习模型进行第一训练，其中，所述目标强化学习模型用于输出与输入的网络状态信息对应的目标业务动作；使用所述物理通信网络当前的网络状态，对经过第一训练后的所述目标强化学习模型进行第二训练。

3、第二方面，提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的强化学习模型的训练方法的步骤。

4、第三方面，提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的强化学习模型的训练方法的步骤。

5、第四方面，提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的强化学习模型的训练方法的步骤。

6、在本申请实施例中，首先获取物理通信网络在多个目标时间的画像信息，基于各个所述画像信息，分别获取与上述各个目标时间的画像信息相对应的数字孪生网络，该数字孪生网络采用数字化的方式逐一复刻上述物理通信网络，将预设的至少一个候选策略通过各个数字孪生网络进行目标强化学习模型的第一训练；其次数字孪生网络将上述完成第一训练的目标强化学习模型传输给物理通信网络，物理通信网络对上述目标强化学习模型进行第二训练；通过物理通信网络与数字孪生网络之间的交互映射，将目标强化学习模型经过数字孪生网络的第一训练再经过物理通信网络的第二训练，得到优化后的目标强化学习模型，利用数字孪生技术的低成本试错的特点，通过定量的候选策略以及物理通信网络与数字孪生网络之间的交互进行模型的训练，有效降低了移动通信网络优化模型的成本，并且减小了优化模型过程中的性能风险。

技术特征：

1.一种强化学习模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于预设的至少一个候选策略，通过各个所述数字孪生网络，对目标强化学习模型进行第一训练，包括：

3.根据权利要求2所述的方法，其特征在于，将所述第一业务动作应用于数字孪生网络，根据所述数字孪生网络的变化情况，确定第一收益标签值，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述目标指标包括以下至少之一：小区无线资源控制rrc连接建立的成功率、演进的无线接入承载erab建立的成功率、无线接通率、切换成功率、无线掉线率、erab掉线率。

6.根据权利要求1至4任一项所述的方法，其特征在于，

7.根据权利要求1所述的方法，其特征在于，在使用所述物理通信网络当前的网络状态，对经过第一训练后的所述目标强化学习模型进行第二训练之后，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述目标强化学习模型收敛，包括以下至少之一：

9.根据权利要求7所述的方法，其特征在于，在所述目标强化学习模型收敛之后，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述画像信息包括以下至少之一：所述物理通信网络的配置信息、所述物理通信网络的状态信息、所述物理通信网络的属性信息、所述物理通信网络中的用户终端的属性信息、所述用户终端的业务信息、所述用户终端的移动信道环境信息。

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至10任一项所述的强化学习模型的训练方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至10任一项所述的强化学习模型的训练方法的步骤。

技术总结
本申请公开了一种强化学习模型的训练方法、电子设备及存储介质，属于无线通信技术领域，该方法包括：获取物理通信网络在多个目标时间的画像信息，其中，所述目标时间包括时间点或时间段，所述画像信息包括所述物理通信网络的描述信息；基于各个所述画像信息，分别获取在各个所述目标时间的数字孪生网络，其中，所述数字孪生网络采用数字的方式描述所述物理通信网络；基于预设的至少一个候选策略，通过各个所述数字孪生网络，对目标强化学习模型进行第一训练，其中，所述目标强化学习模型用于输出与输入的网络状态信息对应的目标业务动作；使用所述物理通信网络当前的网络状态，对经过第一训练后的所述目标强化学习模型进行第二训练。

技术研发人员：曾召华,詹勇
受保护的技术使用者：中兴通讯股份有限公司
技术研发日：
技术公布日：2024/5/10

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曾召华,詹勇
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：一种钻录井现场碳同位素实时在线分析装置及工艺方法与流程
上一篇：离心机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。