一种数据处理方法和相关装置与流程

文档序号：35868014发布日期：2023-10-27 21:58阅读：49来源：国知局

本申请涉及数据处理，特别是涉及一种数据处理方法和相关装置。

背景技术：

1、随着科学技术的发展，对象可以通过计算机设备在各种网络平台上执行多种交互操作，如玩游戏、浏览网站、购买商品等。但是，恶意对象会通过脚本(即用于控制软件引用程序的编程语言)等方式在网络平台上自动执行一些交互操作，从而对网络平台或该网络平台的其他对象造成一些不良的影响。

2、相关技术中，会采用基于规则模板的方式对恶意对象使用的对象标识的类型进行识别。但是，上述基于规则模板的方式，很难准确表征来自恶意对象的交互操作的特性，导致后续识别操作的覆盖率和准确率较低。

技术实现思路

1、为了解决上述技术问题，本申请提供了一种数据处理方法和相关装置，用于提高来自恶意对象的交互操作的特性表征的准确性，从而提高后续识别操作的覆盖率和准确率。

2、本申请实施例公开了如下技术方案：

3、一方面，本申请实施例提供一种数据处理方法，所述方法包括：

4、获取原始交互操作序列，所述原始交互操作序列用于表征通过对应对象标识执行的按照执行时间顺序排列的多个交互操作；

5、根据所述原始交互操作序列，训练得到用于特征提取的待定编码模型；

6、根据所述原始交互操作序列构建具有标签的样本对，所述标签用于标识所述样本对为正样本对或负样本对，所述正样本对包括所述原始交互操作序列和相似交互操作序列，所述相似交互操作序列和所述原始交互操作序列间的相似度大于或等于预设相似阈值，所述负样本对包括所述原始交互操作序列和非相似交互操作序列，所述非相似交互操作序列和所述原始交互操作序列间的相似度小于所述预设相似阈值；

7、通过所述待定编码模型对所述样本包括的每个交互操作序列对分别进行特征提取，得到第一特征向量和第二特征向量；

8、确定目标相似度，所述目标相似度为所述第一特征向量和所述第二特征向量间的相似度；

9、根据所述样本对的标签和所述目标相似度的差异，调整所述待定编码模型的模型参数，得到目标编码模型，以便根据所述目标编码模型确定待识别对象标识的类型。

10、另一方面，本申请实施例提供一种数据处理装置，其特征在于，所述装置包括：获取单元、第一训练单元、构建单元、特征提取单元、确定单元和第二训练单元；

11、所述获取单元，用于获取原始交互操作序列，所述原始交互操作序列用于表征通过对应对象标识执行的按照执行时间顺序排列的多个交互操作；

12、所述第一训练单元，用于根据所述原始交互操作序列，训练得到用于特征提取的待定编码模型；

13、所述构建单元，用于根据所述原始交互操作序列构建具有标签的样本对，所述标签用于标识所述样本对为正样本对或负样本对，所述正样本对包括所述原始交互操作序列和相似交互操作序列，所述相似交互操作序列和所述原始交互操作序列间的相似度大于或等于预设相似阈值，所述负样本对包括所述原始交互操作序列和非相似交互操作序列，所述非相似交互操作序列和所述原始交互操作序列间的相似度小于所述预设相似阈值；

14、所述特征提取单元，用于通过所述待定编码模型对所述样本对包括的每个交互操作序列分别进行特征提取，得到第一特征向量和第二特征向量；

15、所述确定单元，用于确定目标相似度，所述目标相似度为所述第一特征向量和所述第二特征向量间的相似度；

16、所述第二训练单元，用于根据所述样本对的标签和所述目标相似度的差异，调整所述待定编码模型的模型参数，得到目标编码模型，以便根据所述目标编码模型确定待识别对象标识的类型。

17、另一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

18、所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

19、所述处理器用于根据所述计算机程序中的指令执行上述方面所述的方法。

20、另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

21、另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的方法。

22、由上述技术方案可以看出，获取原始交互操作序列，每个原始交互操作序列用于表征通过与其对应的对象标识执行的多个交互操作，且多个交互操作按照执行时间顺序排列。根据原始交互操作序列训练得到用于特征提取的待定编码模型，以使待定编码模型学习原始交互操作序列包括的多个交互操作之间的属性特征，即原始交互操作序列内部的关联关系。根据原始交互操作序列构建正样本对和负样本对，正样本对包括的原始交互操作序列和相似交互操作序列间的相似度较高，负样本对包括的原始交互操作序列和非相似交互操作序列间的相似度较低。通过待定编码模型对样本对包括的两个交互操作序列分别进行特征提取，得到第一特征向量和第二特征向量，将第一特征向量和第二特征向量间相似度作为目标相似度，根据样本对的标签和目标相似度的差异，调整待定编码模型的模型参数，得到目标编码模型。该目标编码模型通过对样本对包括的两个交互操作序列分别进行特征提取，从而学习原始交互操作序列与相似交互操作序列间的相似特征，以及原始交互操作序列与非相似交互操作序列间的非相似特征，即原始交互操作序列外部的关联关系。

23、由此，目标编码模型是基于待定编码模型微调得到的，不仅能够学习到原始交互操作序列外部的关联关系，还能够学习到原始交互操作序列内部的关联关系。通过目标编码模型进行特征提取，得到的特征向量对输入数据表征的更为准确，基于表征更为准确的特征向量进行后续识别操作的覆盖率和准确率更高。

技术特征：

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，若所述目标类型为异常类型，则所述根据所述目标向量簇包括的多个序列特征向量，从所述多个待识别对象标识中确定所述类型为目标类型的待识别对象标识，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述原始交互操作序列，训练得到用于特征提取的待定编码模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述待定编码模型包括4个神经网络编码块，所述神经网络编码块包括6个多头注意力机制。

6.根据权利要求4所述的方法，其特征在于，所述多种修改方式包括删除所述原始交互操作序列中部分交互操作序列、隐藏所述原始交互操作序列中部分交互操作序列，以及调换所述原始交互操作序列中部分交互操作序列中的多种组合方式。

7.根据权利要求1所述的方法，其特征在于，所述确定目标相似度，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述样本对的标签和所述目标相似度的差异，调整所述待定编码模型的模型参数，得到目标编码模型，包括：

9.根据权利要求8所述的方法，其特征在于，若所述目标相似度是通过余弦相似度方式确定的，所述根据所述目标相似度确定第二损失，包括：

10.根据权利要求1所述的方法，所述方法还包括：

11.根据权利要求1所述的方法，其特征在于，所述获取原始交互操作序列，包括：

12.一种数据处理装置，其特征在于，所述装置包括：获取单元、第一训练单元、构建单元、特征提取单元、确定单元和第二训练单元；

13.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-11中任意一项所述的方法。

15.一种包括计算机程序的计算机程序产品，其特征在于，当其在计算机设备上运行时，使得所述计算机设备执行权利要求1-11中任意一项所述的方法。

技术总结
本申请实施例公开了一种数据处理方法和相关装置，至少应用于人工智能领域中的机器学习。获取原始交互操作序列，每个原始交互操作序列用于表征通过与其对应的对象标识执行的多个交互操作，且多个交互操作按照执行时间顺序排列。基于原始交互操作序列训练得到待定编码模型，以学习原始交互操作序列内部的关联关系。基于原始交互操作序列构建样本对，通过样本对微调待定编码模型，得到目标编码模型，以学习原始交互操作序列外部的关联关系。由此，通过多次训练得到的目标编码模型进行特征提取，得到的特征向量对输入数据表征的更为准确，基于表征更为准确的特征向量进行后续识别操作的覆盖率和准确率更高。

技术研发人员：陈观钦,王摘星,陈健柯,王梦秋
受保护的技术使用者：深圳市腾讯天游科技有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈观钦王摘星陈健柯王梦秋
技术所有人：深圳市腾讯天游科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。