一种决策模型的训练方法、小程序巡检方法及装置与流程

文档序号：37386838发布日期：2024-03-22 10:38阅读：14来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及机器学习，尤其涉及一种决策模型的训练方法、小程序巡检方法及装置。

背景技术：

1、小程序巡检是指从进入小程序开始到找到目标页面的中间过程，通过小程序巡检，可以发现小程序中存在的风险。目前对于小程序的巡检需要根据不同的业务需求，对不同的小程序做定制化巡检脚本，实现起来时间成本非常高。

技术实现思路

1、本说明书一个或多个实施例描述了一种决策模型的训练方法、小程序巡检方法及装置，该方法提供的决策模型能够针对不同的小程序进行自动化决策，以快速生成巡检路径。

2、第一方面，提供了一种决策模型的训练方法，包括：

3、获取用户的意图标签，以及用户基于所述意图标签所描述的意图与网页进行交互的交互动作序列；

4、获取用户在执行所述交互动作序列的过程中所交互的网页图像样本；

5、将所述网页图像样本和所述意图标签输入生成模型，得到决策结果；

6、基于所述决策结果和决策标签确定损失函数，来更新所述生成模型的参数，以得到目标决策模型；所述决策标签是根据所述交互动作序列中的每一个交互动作及该交互动作在所述网页图像样本中的操作对象来确定的。

7、作为第一方面所述方法的一种可选方式，该训练方法还包括：

8、将用户的意图指令和真实小程序的页面图像输入所述决策模型；

9、基于所述决策模型针对所述页面图像的决策结果，执行与所述小程序的交互操作，并获取交互数据；

10、从所述交互数据中选择成功到达所述意图指令所指定的目标页面的路径作为正反馈，将其余路径作为负反馈，基于强化学习的策略，更新所述目标决策模型的参数。

11、作为第一方面所述方法的一种可选方式，所述生成模型包括编码器和生成器；将所述网页图像样本和所述意图标签输入生成模型，得到决策结果，具体包括：

12、将所述网页图像样本输入所述编码器，得到环境表征；

13、将所述环境表征和所述意图标签输入生成器，得到所述决策结果。

14、具体来说，所述编码器为多模态大模型，所述生成器为大语言模型；将所述环境表征和所述意图标签输入生成器，得到所述决策结果，具体包括：

15、将所述环境表征转换为自然语言形式的文本特征；

16、将所述文本特征与所述意图标签输入所述生成器，得到文本形式的决策结果；所述文本形式的决策结果用于表征在所述网页图像样本中的操作对象和对所述操作对象执行的交互动作。

17、第二方面，提供了一种小程序巡检方法，包括：

18、将目标小程序的页面图像和用户设置的意图指令输入决策模型；所述决策模型是采用上述的决策模型的训练方法训练得到的；

19、基于所述决策模型针对所述目标小程序的页面图像的每一个决策结果，执行与所述目标小程序的交互操作，直至到达所述意图指令指定的目标页面。

20、作为第二方面所述方法的一种可选实施方式，基于所述决策模型针对所述目标小程序的页面图像的每一个决策结果，执行与所述目标小程序的交互操作，具体包括：

21、对于所述决策模型输出的每一个决策结果，将该决策结果与预先设置的具有更高优先级的业务逻辑规则进行匹配，当所述决策结果与所述业务逻辑规则冲突时，执行所述业务逻辑规则规定的操作。

22、作为第二方面所述方法的一种可选实施方式，该巡检方法还包括：

23、保存巡检过程中基于所述决策模型输出的决策结果所确定的每一条巡检路径；

24、对于具有相同的起始页面和目标页面的巡检路径，通过剪枝操作去除冗余步骤，以得到至少一个最短巡检路径。

25、具体来说，上述巡检方法还可以包括：

26、根据所述最短巡检路径，生成巡检脚本。

27、第三方面，提供了一种决策模型的训练装置，该训练装置包括：

28、第一数据获取模块，配置为获取用户的意图标签、用户基于所述意图标签所描述的意图与网页进行交互的交互动作序列，以及用户在执行所述交互动作序列的过程中所交互的网页图像样本；

29、处理模块，配置为将所述网页图像样本和所述意图标签输入生成模型，得到决策结果；基于所述决策结果和决策标签确定损失函数，来更新所述生成模型的参数，以得到目标决策模型；所述决策标签是根据所述交互动作序列中的每一个交互动作及该交互动作在所述网页图像样本中的操作对象来确定的。

30、作为第三方面所述装置的一种可选实施方式，该训练装置还可以包括：

31、第二数据获取模块，配置为获取用户的意图指令和真实小程序的页面图像；

32、优化模块，配置为将所述第二数据获取模块获取的所述意图指令和所述页面图像输入所述决策模型；基于所述决策模型针对所述页面图像的决策结果，执行与所述小程序的交互操作，并获取交互数据；从所述交互数据中选择成功到达所述意图指令所指定的目标页面的路径作为正反馈，将其余路径作为负反馈，基于强化学习的策略，更新所述目标决策模型的参数。

33、第四方面，提供了一种小程序巡检装置，该巡检装置包括：

34、第三数据获取模块，配置为获取目标小程序的页面图像和用户设置的意图指令；

35、决策生成模块，配置为将所述目标小程序的页面图像和所述意图指令输入决策模型，得到决策结果；所述决策模型是采用上述的决策模型的训练方法训练得到的；

36、交互模块，配置为基于所述决策模型针对所述目标小程序的页面图像的每一个决策结果，执行与所述目标小程序的交互操作，直至到达所述意图指令指定的目标页面。

37、作为第四方面所述装置的一种可选实施方式，所述交互模块具体还用于对于所述决策模型输出的每一个决策结果，将该决策结果与预先设置的具有更高优先级的业务逻辑规则进行匹配，当所述决策结果与所述业务逻辑规则冲突时，执行所述业务逻辑规则规定的操作。

38、作为第四方面所述装置的一种可选实施方式，该巡检装置还可以包括：

39、巡检路径生成模块，配置为保存巡检过程中基于所述决策模型输出的决策结果所确定的每一条巡检路径；对于具有相同的起始页面和目标页面的巡检路径，通过剪枝操作去除冗余步骤，以得到至少一个最短巡检路径。

40、具体来说，该巡检装置还可以包括：

41、巡检脚本生成模块，配置为根据所述最短巡检路径，生成巡检脚本。

42、第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的决策模型的训练方法，或者，实现上述的小程序巡检方法。

43、第六方面，提供了一种电子设备，包括：

44、一个或多个处理器；以及

45、与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行上述的决策模型的训练方法，或者，执行上述的小程序巡检方法。

46、本说明书的一个或多个实施例所提供的一种决策模型的训练方法，该方法通过收集大量具有意图标签的用户与小程序交互的行为数据，训练了一个生成大模型，并将其作为巡检过程中的决策模型，从而实现自动化巡检。该决策模型能够针对不同的巡检意图和不同的小程序自动化地快速生成巡检决策，能够节省大量时间成本。

47、本说明书的一个或多个实施例所提供的决策模型的训练装置、小程序巡检方法及装置同样具有上述有益效果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王可,孟昌华
技术所有人：支付宝（杭州）信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。