一种图数据分类方法、系统、装置及介质与流程

文档序号:35956674发布日期:2023-11-08 18:08阅读:43来源:国知局
一种图数据分类方法、系统、装置及介质与流程

本技术涉及神经网络领域,特别涉及一种图数据分类方法、系统、装置及介质。


背景技术:

1、图数据是一种常用的抽象数据结构,用于表征随处可见的复杂网络数据,例如社交网络、物联网、集成电路、生物分子网络、通信网络、学术引用网络、电商网络等都构成了图数据。图数据的基本元素是节点和边,其中每个节点代表一个实体,每个边(关系)代表两个实体之间的关联方式。例如,电商场景中,用户和商品可以看作两种类型的节点,它们之间的浏览、加购、购买等关系可以看作不同类型的边。

2、节点分类任务旨在根据节点的特征及其在图数据中的网络结构对节点进行分类,从而应用于识别关键信息、提升计算性能、故障诊断、分析网络特性等不同方面。目前通常利用图卷积网络模型、图注意力网络模型进行节点分类。此种方式对节点进行分类时通常只利用了神经网络能够学习到的任务特定的图数据特征(例如与图数据的应用场景相关的场景特征),提取到的特征较为单一,导致神经网络模型的泛化性能较差,进而导致对节点进行分类的准确性较低。


技术实现思路

1、本技术的目的是提供一种图数据分类方法、系统、装置及介质,同时考虑节点的场景特征、语义特征和结构特征,通过多源数据的融合和特征提取,得到更加准确的特征信息,从而利用预设图卷积网络模型实现节点分类时,可以有效提高图卷积网络模型的泛化性能,进而提高节点分类的准确性。

2、为解决上述技术问题,本技术提供了一种图数据分类方法,包括:

3、获取待处理图数据,确定所述待处理图数据的应用场景;

4、提取所述待处理图数据中与所述应用场景对应的场景特征;

5、提取所述待处理图数据的预设特征,所述预设特征至少包括节点的语义特征和/或结构特征;

6、将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理。

7、在一种实施例中,获取待处理图数据之后,还包括:

8、提取所述待处理图数据中的节点和所述节点间的关系结构;

9、提取所述待处理图数据中与所述应用场景对应的场景特征,包括:

10、根据所述待处理图数据的所述节点和所述关系结构提取所述待处理图数据中与所述应用场景对应的场景特征;

11、提取所述待处理图数据的预设特征,包括:

12、根据所述待处理图数据的所述节点和所述关系结构提取所述待处理图数据的预设特征。

13、在一种实施例中,提取所述待处理图数据中的节点和所述节点间的关系结构之后,还包括:

14、剔除不满足预设要求的节点和关系结构。

15、在一种实施例中,剔除不满足预设要求的节点和关系结构,包括:

16、对所述待处理图数据中的节点和关系结构进行异常检测处理;

17、剔除检测结果为异常的异常节点和对应的异常关系结构。

18、在一种实施例中,剔除不满足预设要求的节点和关系结构,包括:

19、剔除预设质量节点以及与所述预设质量节点对应的关系结构,所述预设质量节点与除自身之外的其它节点之间的关系结构少于预设数量。

20、在一种实施例中,在所述预设特征包括所述结构特征时,根据所述待处理图数据的所述节点和所述关系结构提取所述待处理图数据的结构特征的过程包括:

21、根据第一公式在所述待处理图数据上进行游走,所述第一公式为:其中,pvx为节点v与节点x之间的未归一化转移概率,ci=x表示在游走过程中第i时刻指针指向节点x,ci-1=v表示在游走过程中第i-1时刻指针指向节点v,c为归一化常数,pvx转移概率根据上一个节点与下一个节点的之间的距离确定,(u,v)表示中心节点u和节点v之间的边,e′为任意两个节点之间边的集合;

22、以中心节点为起点并基于宽度优先搜索策略或者深度优先搜索策略对路径进行采样;

23、基于第一预设优化目标函数对采样得到的路径进行学习,以得到每个所述节点对应的向量表示;所述第一预设优化目标函数为:

24、u为中心节点,f(·)为节点到特征表示的映射函数,v为图上的节点集合,ns(u)为u的邻接节点集合采样得到的节点集合,ni为属于ns(u)的节点;其中,其中,v代表任意节点;

25、对所述待处理图数据的所述关系结构进行学习,以得到所述关系结构的向量表示;

26、根据各所述节点及所述关系结构对应的向量表示计算所述待处理图数据的结构特征。

27、在一种实施例中,在所述预设特征包括所述语义特征时,根据所述待处理图数据的所述节点和所述关系结构提取所述待处理图数据的语义特征的过程包括:

28、对所述待处理图数据的所述节点和所述关系结构表示为随机初始化向量;

29、对所述随机初始化向量进行采样,得到负样本;

30、利用第二预设目标函数和预设损失函数对所述负样本进行学习得到所述待处理图数据的语义特征;

31、所述第二预设目标函数为:h+r≈t,h为所述节点对应的头实体向量,r为所述关系结构对应的向量,t为所述节点对应的尾实体向量;

32、所述预设损失函数为:

33、

34、其中γ是一个间隔参数,[·]+代表只取正数部分,(h,r,t)为三元组,s为(h,r,t)的三元组集合,s′代表包含h′、r、t′的负样本集合,h′代表采样得到的头实体,t′代表采样得到的尾实体。

35、在一种实施例中,将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理,包括:

36、对所述场景特征和所述预设特征进行融合处理,得到融合后的特征;

37、将所述融合后特征输入至所述预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理。

38、在一种实施例中,在所述预设特征包括所述语义特征和所述结构特征时;

39、对所述场景特征和所述预设特征进行融合处理,得到融合后的特征,包括:

40、对所述场景特征、所述语义特征和所述结构特征通过第一关系式进行融合,得到融合后的特征;

41、所述第一关系式为:

42、其中,vi为融合后的特征,xi为第i个节点的场景特征,为第i个节点的结构特征,为第i个节点的语义特征,表示矩阵连接的操作。

43、在一种实施例中,对所述场景特征和所述预设特征进行融合处理,得到融合后的特征,包括:

44、通过多层感知器对所述场景特征和所述预设特征进行融合处理,得到所述融合后的特征。

45、在一种实施例中,所述待处理图数据的特征不包括场景特征时,将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理,包括:

46、根据所述预设特征及预设图卷积网络模型对所述待处理图数据中的节点进行分类处理。

47、在一种实施例中,将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理,包括:

48、根据所述预设图卷积网络模型、所述场景特征及所述预设特征,得到各个节点对应的类别概率;

49、根据所述类别概率对所述待处理图数据中的节点进行分类处理。

50、在一种实施例中,根据所述预设图卷积网络模型、所述场景特征及所述预设特征,得到各个节点对应的类别概率,包括:

51、利用所述预设图卷积网络模型对所述场景特征及所述预设特征进行学习,得到隐状态表示;

52、将所述隐状态表示通过线性层映射为所述类别概率。

53、在一种实施例中,根据所述类别概率对所述待处理图数据中的节点进行分类处理,包括:

54、将所述类别概率最大的类别作为预设图卷积网络模型输出的分类结果。

55、在一种实施例中,对所述预设图卷积网络模型进行训练的过程包括:

56、构建预设图卷积网络模型的结构以及为所述预设图卷积网络模型设置初始参数;

57、根据所述场景特征和所述预设特征对所述预设图卷积网络模型进行训练,得到对节点的预测类别;

58、在所述预测类别与所述期望类别不同时,对所述初始参数进行优化,直至所述预测图卷积网络模型输出的预测类别与所述期望类别相同时停止训练。

59、在一种实施例中,对所述初始参数进行优化的过程中,优化的目标函数的表达式为:

60、

61、其中,θ表示预设图卷积网络模型的模型参数,|v|表示待处理图数据中的节点数量,p(yi|hi;θ)为第i个节点对应的每个类别概率,hi为第i个节点对应的隐状态表示。

62、在一种实施例中,根据所述场景特征和所述预设特征对所述预设图卷积网络模型进行训练,包括:

63、对所述场景特征和所述预设特征分别设置对应的权重;

64、根据设置权重后的场景特征和预设特征对所述预设图卷积网络模型进行训练。

65、在一种实施例中,获取待处理图数据之后,还包括:

66、提取所述待处理图数据中的节点和所述节点间的关系结构;

67、选取第一预设比例的节点和第二预设比例的关系结构;

68、提取所述待处理图数据中与所述应用场景对应的场景特征、提取所述待处理图数据的预设特征,包括:

69、根据选择的所述第一预设比例的节点和所述第二预设比例的关系结构提取所述场景特征和所述预设特征。

70、在一种实施例中,选取第一预设比例的节点和第二预设比例的关系结构,包括:

71、随机选择所述第一预设比例的节点和所述第二预设比例的关系结构。

72、为解决上述技术问题,本技术还提供了一种图数据分类方法,包括:

73、图数据获取单元,用于获取待处理图数据,确定所述待处理图数据的应用场景;

74、第一特征提取单元,用于提取所述待处理图数据中与所述应用场景对应的场景特征;

75、第二特征提取单元,用于提取所述待处理图数据的预设特征,所述预设特征至少包括节点的语义特征和/或结构特征;

76、分类处理单元,用于将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理。

77、为解决上述技术问题,本技术还提供了一种图数据分类装置,包括:

78、存储器,用于存储计算机程序;

79、处理器,用于在存储计算机程序时,实现如上述所述的图数据分类方法的步骤。

80、为解决上述技术问题,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的图数据分类方法的步骤。

81、本技术提供了一种图数据分类方法,涉及神经网络领域,解决图卷积网络模型的泛化性能低的问题。该方案中,获取待处理图数据,确定待处理图数据的应用场景;提取待处理图数据中与应用场景对应的场景特征;提取待处理图数据的预设特征,预设特征至少包括节点的语义特征和/或结构特征;将场景特征和预设特征输入至预设图卷积网络模型中,以对待处理图数据中的节点进行分类处理。可见,本技术中同时考虑节点的场景特征、语义特征和结构特征,通过多源数据的融合和特征提取,得到更加准确的特征信息,从而利用预设图卷积网络模型实现节点分类时,可以有效提高图卷积网络模型的泛化性能,进而提高节点分类的准确性。

82、本技术还提供了一种图数据分类系统、装置及介质,与上述描述的图数据分类方法具有相同的有益效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1