一种数据处理方法及相关装置与流程

文档序号:37557111发布日期:2024-04-09 17:48阅读:14来源:国知局
一种数据处理方法及相关装置与流程

本技术涉及人工智能,尤其涉及一种数据处理方法及相关装置。


背景技术:

1、聚类任务是无监督学习中的一项重要任务,主要根据样本间的相似性和语义差异将其分到不同的簇中,而不使用标签信息,聚类算法在许多领域都有应用。传统的聚类方法,如k-means、谱聚类、高斯混合模型和子空间聚类,在不同的场景中被广泛使用。然而,这些方法在处理复杂数据时存在明显的缺陷,例如利用高维特征的能力有限。为了克服这一不足,研究者们使用基于深度学习的聚类方法,以获得更有效的特征表示和改进的性能。尽管相比传统聚类算法,深度聚类模型取得了更好的性能,但这些方法仍然存在学习到的聚类类别不具有语义对齐的问题。

2、随着深度聚类的不断发展,对比学习已经成为其中的重要技术。然而,现有基于对比学习的聚类方法只从全局角度不断减小不同视角下同一类别的差异,而忽略了数据中样本间的内在关联信息,阻碍了聚类效果的进一步提升。


技术实现思路

1、本技术第一方面提供一种数据处理方法,所述方法包括:获取多个第一数据的特征表示以及类别分布;根据所述多个第一数据的所述类别分布之间的相似度,构建第一图信息,第一图信息包括节点以及节点之间的连接关系,所述第一图信息中的每个节点的信息包括所述第一数据的特征表示以及类别分布,且所述相似度满足预设条件的第一数据对应的节点之间存在连接关系;根据所述第一图信息,通过图神经网络,得到所述第一数据的更新后的类别分布;其中,所述图神经网络用于融合图信息中相邻节点的信息。

2、其中,一个节点可以对应一个第一数据,在一个节点上的第一数据和另一个节点的第一数据之间相似度满足预设条件时,上述两个节点之间存在连接关系。

3、本技术实施例中,用于聚类的数据样本间存在(存在或者是人为定义、挖掘等方式得到的)图状的关联信息,通过图神经网络可以对待聚类的数据样本的特征进行融合,具体的,节点会不断融合其邻居节点的信息。因此,图神经网络可以学习到数据样本间的关联信息,进而减轻噪声的影响,从而提高聚类精度。

4、在一种可能的实现中,所述第一数据为对不同的样本进行相同的数据增强方法的数据增强后得到的。

5、在一种可能的实现中,所述第一图信息包括第一节点,所述第一节点对应的第一数据为对第一样本进行第一数据增强方法的数据增强后得到的;所述方法还包括:获取第二数据的类别标签和第三数据的类别标签;所述第二数据为对所述第一样本进行第二数据增强方法的数据增强后得到的,所述第三数据为对第二样本进行所述第二数据增强方法的数据增强后得到的;构建第一损失,并根据所述第一损失更新所述图神经网络;所述第一损失指示拉近所述第一节点对应的第一数据的类别标签和所述第二数据的类别标签之间的距离、以及拉远所述第一节点对应的第一数据的类别标签和所述第三数据的类别标签之间的距离。

6、其中,可以拉近通过不同图像增强方法得到的图像中相同类别的样本之间的距离,拉远通过不同图像增强方法得到的图像中不同类别的样本之间的距离。

7、在一种可能的实现中,所述第一图信息包括相互连接的第一节点和第二节点,所述第一节点对应的第一数据为对第一样本进行第一数据增强方法的数据增强后得到的,所述第二节点对应的第一数据为对第二样本进行所述第一数据增强方法的数据增强后得到的;所述方法还包括:获取第二数据的类别标签和第三数据的类别标签;所述第二数据为对所述第一样本进行第二数据增强方法的数据增强后得到的,所述第三数据为对所述第二样本进行所述第二数据增强方法的数据增强后得到的;基于所述第二数据的类别标签和所述第三数据的类别标签不同,将所述第一图信息中所述第一节点和所述第二节点的连接关系剔除,得到更新后的第一图信息;所述根据所述第一图信息,通过图神经网络,得到所述第一数据的更新后的类别分布,包括:根据所述更新后的第一图信息,通过图神经网络,得到所述第一数据的更新后的类别分布。

8、在一种可能的实现中,所述第一图信息包括第三节点,所述第三节点对应的第一数据为对第三样本进行第一数据增强方法的数据增强后得到的;所述方法还包括:获取第三数据的特征表示;所述第三数据为对所述第三样本进行第二数据增强方法的数据增强后得到的;将所述第一图信息中所述第一节点包括的数据特征替换为所述第三数据的特征表示,得到更新后的第一图信息;所述根据所述第一图信息,通过图神经网络,得到所述第一数据的更新后的类别分布,包括:根据所述更新后的第一图信息,通过图神经网络,得到所述第一数据的更新后的类别分布。

9、在构图的同时,基于模型对样本的预测类别,可以裁剪掉一些置信度高的“噪声”边,使整个图更为精确,这样更有利于模型的训练。

10、在一种可能的实现中,所述第一图信息包括第一节点,所述第一节点对应的第一数据为对第一样本进行第一数据增强方法的数据增强后得到的;所述方法还包括:获取第二数据的特征表示;所述第二数据为对所述第一样本进行第二数据增强方法的数据增强后得到的;构建第二损失,并根据所述第二损失更新所述图神经网络;所述第二损失指示拉近所述第一节点对应的第一数据的特征表示和所述第二数据的特征表示之间的距离。

11、在一种可能的实现中,所述第一图信息包括第一节点,所述第一节点对应的第一数据为对第一样本进行第一数据增强方法的数据增强后得到的;所述方法还包括:获取第三数据的特征表示;所述第三数据为对第二样本进行第二数据增强方法的数据增强后得到的;构建第二损失,并根据所述第二损失更新所述图神经网络;所述第二损失指示拉远所述第一节点对应的第一数据的特征表示和所述第三数据的特征表示之间的距离。

12、此外,还可以在特征层面进行对比学习,也就是拉近对相同图像通过不同数据增强方法得到的图像的图像表征之间的距离,拉远对不同图像通过不同数据增强方法得到的图像的图像表征之间的距离。

13、在一种可能的实现中,所述第一图信息包括相互连接的第一节点和第二节点,所述第一节点对应的第一数据为对第一样本进行第一数据增强方法的数据增强后得到的,所述第二节点对应的第一数据为对第二样本进行所述第一数据增强方法的数据增强后得到的;所述方法还包括:

14、构建第三损失,并根据所述第三损失更新所述图神经网络;所述第三损失指示拉近所述第一节点对应的第一数据的特征表示和所述第二节点对应的第一数据的特征表示之间的距离。

15、在一种可能的实现中,所述第一图信息包括不存在连接关系的第一节点和第三节点,所述第一节点对应的第一数据为对第一样本进行第一数据增强方法的数据增强后得到的,所述第二节点对应的第一数据为对第四样本进行所述第一数据增强方法的数据增强后得到的;所述方法还包括:

16、构建第四损失,并根据所述第四损失更新所述图神经网络;所述第四损失指示拉远所述第一节点对应的第一数据的特征表示和所述第三节点对应的第一数据的特征表示之间的距离。

17、此外,还可以进行节点的表示层面的对齐,即拉近相似样本的表示,拉远不相似样本的表示。例如,可以拉近图信息中相邻节点之间的特征表示的距离,拉远图信息中不相邻节点之间的特征表示的距离。

18、在一种可能的实现中,所述方法还包括:

19、构建第五损失,并根据所述第四损失更新所述图神经网络;所述第五损失指示降低所述多个第一数据的不同类别的数量之间的差异。

20、通过这种方式,使得模型对样本的类别预测分布越来越趋近于单峰值,从而减少了噪声在对比聚类学习中的负面影响。

21、第二方面,本技术提供了一种数据处理装置,所述装置包括:

22、获取模块,用于获取多个第一数据的特征表示以及类别分布;

23、处理模块,用于根据所述多个第一数据的所述类别分布之间的相似度,构建第一图信息,所述第一图信息中的每个节点的信息包括所述第一数据的特征表示以及类别分布,且所述相似度满足预设条件的第一数据对应的节点之间存在连接关系;

24、根据所述第一图信息,通过图神经网络,得到所述第一数据的更新后的类别分布;其中,所述图神经网络用于融合图信息中相邻节点的信息。

25、在一种可能的实现中,所述第一数据为对不同的样本进行相同的数据增强方法的数据增强后得到的。

26、在一种可能的实现中,所述第一图信息包括第一节点,所述第一节点对应的第一数据为对第一样本进行第一数据增强装置的数据增强后得到的;所述获取模块,还用于:

27、获取第二数据的类别标签和第三数据的类别标签;所述第二数据为对所述第一样本进行第二数据增强装置的数据增强后得到的,所述第三数据为对第二样本进行所述第二数据增强装置的数据增强后得到的;

28、所述处理模块,还用于构建第一损失,并根据所述第一损失更新所述图神经网络;所述第一损失指示拉近所述第一节点对应的第一数据的类别标签和所述第二数据的类别标签之间的距离、以及拉远所述第一节点对应的第一数据的类别标签和所述第三数据的类别标签之间的距离。

29、在一种可能的实现中,所述第一图信息包括相互连接的第一节点和第二节点,所述第一节点对应的第一数据为对第一样本进行第一数据增强装置的数据增强后得到的,所述第二节点对应的第一数据为对第二样本进行所述第一数据增强装置的数据增强后得到的;所述获取模块,还用于:

30、获取第二数据的类别标签和第三数据的类别标签;所述第二数据为对所述第一样本进行第二数据增强装置的数据增强后得到的,所述第三数据为对所述第二样本进行所述第二数据增强装置的数据增强后得到的;

31、所述处理模块,还用于基于所述第二数据的类别标签和所述第三数据的类别标签不同,将所述第一图信息中所述第一节点和所述第二节点的连接关系剔除,得到更新后的第一图信息;

32、所述处理模块,具体用于:

33、根据所述更新后的第一图信息,通过图神经网络,得到所述第一数据的更新后的类别分布。

34、在一种可能的实现中,所述第一图信息包括第三节点,所述第三节点对应的第一数据为对第三样本进行第一数据增强装置的数据增强后得到的;所述获取模块,还用于:

35、获取第三数据的特征表示;所述第三数据为对所述第三样本进行第二数据增强装置的数据增强后得到的;

36、所述处理模块,还用于将所述第一图信息中所述第一节点包括的数据特征替换为所述第三数据的特征表示,得到更新后的第一图信息;

37、所述处理模块,具体用于:

38、根据所述更新后的第一图信息,通过图神经网络,得到所述第一数据的更新后的类别分布。

39、在一种可能的实现中,所述第一图信息包括第一节点,所述第一节点对应的第一数据为对第一样本进行第一数据增强装置的数据增强后得到的;所述获取模块,还用于:

40、获取第二数据的特征表示;所述第二数据为对所述第一样本进行第二数据增强装置的数据增强后得到的;

41、所述处理模块,还用于构建第二损失,并根据所述第二损失更新所述图神经网络;所述第二损失指示拉近所述第一节点对应的第一数据的特征表示和所述第二数据的特征表示之间的距离。

42、在一种可能的实现中,所述第一图信息包括第一节点,所述第一节点对应的第一数据为对第一样本进行第一数据增强装置的数据增强后得到的;所述获取模块,还用于:

43、获取第三数据的特征表示;所述第三数据为对第二样本进行第二数据增强装置的数据增强后得到的;

44、所述处理模块,还用于构建第二损失,并根据所述第二损失更新所述图神经网络;所述第二损失指示拉远所述第一节点对应的第一数据的特征表示和所述第三数据的特征表示之间的距离。

45、在一种可能的实现中,所述第一图信息包括相互连接的第一节点和第二节点,所述第一节点对应的第一数据为对第一样本进行第一数据增强装置的数据增强后得到的,所述第二节点对应的第一数据为对第二样本进行所述第一数据增强装置的数据增强后得到的;

46、所述处理模块,还用于构建第三损失,并根据所述第三损失更新所述图神经网络;所述第三损失指示拉近所述第一节点对应的第一数据的特征表示和所述第二节点对应的第一数据的特征表示之间的距离。

47、在一种可能的实现中,所述第一图信息包括不存在连接关系的第一节点和第三节点,所述第一节点对应的第一数据为对第一样本进行第一数据增强装置的数据增强后得到的,所述第二节点对应的第一数据为对第四样本进行所述第一数据增强装置的数据增强后得到的;

48、所述处理模块,还用于构建第四损失,并根据所述第四损失更新所述图神经网络;所述第四损失指示拉远所述第一节点对应的第一数据的特征表示和所述第三节点对应的第一数据的特征表示之间的距离。

49、在一种可能的实现中,所述处理模块,还用于:

50、构建第五损失,并根据所述第四损失更新所述图神经网络;所述第五损失指示降低所述多个第一数据的不同类别的数量之间的差异。

51、本技术第三方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一实现方式的方法。

52、本技术第四方面提供了一种电路系统,电路系统包括处理电路,处理电路配置为执行上述第一方面或第一方面任一实现方式的方法。

53、本技术第五方面提供了一种计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一实现方式的方法。

54、本技术第六方面提供了一种芯片系统,该芯片系统包括处理器,用于支持服务器或门限值获取装置实现上述第一方面或第一方面任一实现方式中所涉及的功能,例如,发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中,芯片系统还包括存储器,存储器,用于保存服务器或通信设备必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。

55、上述第二方面至第六方面的有益效果可以参考上述第一方面的介绍,在此不再赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1