一种基于强化学习的模型优化方法、装置、设备及介质与流程

文档序号：35839262发布日期：2023-10-25 14:12阅读：20来源：国知局

本申请涉及人工智能，尤其涉及一种基于强化学习的模型优化方法、装置、设备及介质。

背景技术：

1、近年来，随着大数据、云计算等新兴技术的发展，金融机构的建设进程逐步朝着企业级和数字化的方向演变，在这种趋势下，金融行业内需要加工处理的数据量也随之增多。目前，可以采用数据加工模型对这些需要加工的数据进行加工，但是，已有的数据加工模型的准确率并不高，导致数据加工效果不佳。

技术实现思路

1、本申请实施例提供了一种基于强化学习的模型优化方法、装置、设备及介质，以提高数据加工模型的准确率，提升数据加工效果。

2、第一方面，本申请实施例提供了一种基于强化学习的模型优化方法，包括：

3、获取待处理的数据加工模型的加工逻辑数据；

4、基于所述加工逻辑数据构建所述数据加工模型的加工过程对应的知识图谱；

5、基于所述知识图谱和注意力机制构建强化学习模型，并基于所述强化学习模型优化所述数据加工模型。

6、可选地，所述基于所述加工逻辑数据构建所述数据加工模型的加工过程对应的知识图谱，包括：

7、构建用于表征所述数据加工模型的加工过程的三元组结构；

8、抽取所述加工逻辑数据映射到所述三元组结构，得到三元组数据；

9、以所述三元组数据构建所述知识图谱。

10、可选地，所述基于所述知识图谱和注意力机制构建强化学习模型，包括：

11、基于所述注意力机制建立加工质量预测模型；所述加工质量预测模型用于依据所述数据加工模型的模型数据和所述模型数据对应的加工特征，预测所述数据加工模型的加工准确率；

12、基于所述知识图谱和所述加工质量预测模型确定所述强化学习模型的构建参数，并基于所述构建参数搭建所述强化学习模型。

13、可选地，所述构建参数包括状态信息、动作信息和奖励信息；所述基于所述知识图谱和所述加工质量预测模型确定所述强化学习模型的构建参数，包括：

14、从所述知识图谱中获取所述模型数据，并作为所述动作信息；

15、基于所述加工质量预测模型和所述模型数据，确定所述模型数据对应的加工特征，并以所述模型数据和所述加工特征作为所述状态信息；

16、基于所述状态信息和所述动作信息，并通过所述加工质量预测模型确定对应的奖励信息。

17、可选地，所述基于所述强化学习模型优化所述数据加工模型之前，所述方法还包括：

18、确定所述强化学习模型的适应度函数；

19、基于所述适应度函数，通过进化算法训练所述强化学习模型，训练结束得到训练好的强化训练模型。

20、可选地，所述基于所述强化学习模型优化所述数据加工模型，包括：

21、基于所述训练好的强化学习模型优化所述数据加工模型。

22、可选地，所述数据加工模型的模型数据包括所述数据加工模型的数据库数据和功能数据；所述数据加工模型的加工特征包括所述数据加工模型的数据表的类型和所属领域。

23、第二方面，本申请实施例提供了一种基于强化学习的模型优化装置，包括：

24、第一获取模块，用于获取待处理的数据加工模型的加工逻辑数据；

25、第一构建模块，用于基于所述加工逻辑数据构建所述数据加工模型的加工过程对应的知识图谱；

26、优化模块，用于基于所述知识图谱和注意力机制构建强化学习模型，并基于所述强化学习模型优化所述数据加工模型。

27、第三方面，本申请实施例提供了一种电子设备，所述设备包括：处理器、存储器、系统总线；

28、所述处理器以及所述存储器通过所述系统总线相连；

29、所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述基于强化学习的模型优化方法的任一实现方式。

30、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述基于强化学习的模型优化方法的任一实现方式。

31、从以上技术方案可以看出，本申请实施例具有以下优点：

32、在本申请实施例中，获取待处理的数据加工模型的加工逻辑数据之后，额可以基于加工逻辑数据构建数据加工模型的加工过程对应的知识图谱，而后基于知识图谱和注意力机制构建强化学习模型，并基于强化学习模型优化数据加工模型。如此，利用知识图谱技术融合数据加工模型的加工逻辑数据，并结合注意力机制可以构建强化学习模型，该强化模型可以实现自动化、最优化的数据加工模型的优化决策，从而可以有效、稳定地优化数据加工模型，提高数据加工模型的准确率，提升数据加工效果。

技术特征：

1.一种基于强化学习的模型优化方法，其特征在于，包括：

2.根据权利要求1所述的模型优化方法，其特征在于，所述基于所述加工逻辑数据构建所述数据加工模型的加工过程对应的知识图谱，包括：

3.根据权利要求1所述的模型优化方法，其特征在于，所述基于所述知识图谱和注意力机制构建强化学习模型，包括：

4.根据权利要求3所述的模型优化方法，其特征在于，所述构建参数包括状态信息、动作信息和奖励信息；所述基于所述知识图谱和所述加工质量预测模型确定所述强化学习模型的构建参数，包括：

5.根据权利要求1至4任一项所述的模型优化方法，其特征在于，所述基于所述强化学习模型优化所述数据加工模型之前，所述方法还包括：

6.根据权利要求5所述的模型优化方法，其特征在于，所述基于所述强化学习模型优化所述数据加工模型，包括：

7.根据权利要求2至4任一项所述的模型优化方法，其特征在于，所述数据加工模型的模型数据包括所述数据加工模型的数据库数据和功能数据；所述数据加工模型的加工特征包括所述数据加工模型的数据表的类型和所属领域。

8.一种基于强化学习的模型优化装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述设备包括：处理器、存储器、系统总线；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1至7任一项所述的基于强化学习的模型优化方法。

技术总结
本申请公开了一种基于强化学习的模型优化方法、装置、设备及介质，可应用于人工智能领域或金融领域。该方法包括：获取待处理的数据加工模型的加工逻辑数据；基于加工逻辑数据构建数据加工模型的加工过程对应的知识图谱；基于知识图谱和注意力机制构建强化学习模型，并基于强化学习模型优化数据加工模型。如此，利用知识图谱技术融合数据加工模型的加工逻辑数据，并结合注意力机制可以构建强化学习模型，该强化模型可以实现自动化、最优化的数据加工模型的优化决策，从而可以有效、稳定地优化数据加工模型，提高数据加工模型的准确率，提升数据加工效果。

技术研发人员：姚晓磊
受保护的技术使用者：中国银行股份有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姚晓磊
技术所有人：中国银行股份有限公司
我是此专利的发明人

上一篇：牵引式玉米秸秆条带堆腐作业机的制作方法
上一篇：PET膜自动清洗处理装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。