一种基于异构引文网络的作者分类方法

文档序号：34728219发布日期：2023-07-07 22:08阅读：40来源：国知局

本发明涉及一种作者分类方法，具体涉及一种利用基于元结构的异构图表示学习的引文网络中作者的分类方法，属于作者分类领域。

背景技术：

1、目前现有的图神经网络(gnn)是在同构图或者异构图上进行的，但无论是在同构图还是异构图上提取信息都存在一定的局限性。在同构图中，例如基于图卷积技术的工作将边和节点的类型信息当作边和节点的特征，但其忽略了边和节点的类型对结构的影响。在异构图中，引入了元路径的概念解决gnn方法在同构图中存在的问题，例如基于元路径随机游走的工作将元路径序列用于指导寻找邻居节点的过程，即在寻找邻居节点时，是寻找通过元路径相连而不是简单的边相连的“邻居节点”，这种方法在提取邻居节点信息的时候就有了丰富的语义。

2、引文网络是一个典型的异构图，它存在着a(作者)、p(文章)、c(会议)等不同类型的节点，引文网络中的作者在发表论文时往往会查阅或者引用其他作者的工作，而这些作者一般都是属于同一个研究领域的，所以将相同领域的作者进行归类是十分有必要的。然而大型引文网络中存在上亿个甚至几十亿个作者，人工对引文网络中的作者进行分类是不可能的，所以将gnn方法应用在引文网络的作者分类中，利用元路径挖掘更多作者和对应的信息，根据信息对作者进行分类，例如元路径a(作者)-p(文章)-a(作者)可以显示两个作者的合著关系，元路径a(作者)-p(文章)-c(会议)-p(文章)-a(作者)表明了两位作者都在同一个会议上发表过文章。通过这些元路径，作者的信息可以进一步丰富，但此方法还存在一些局限性，一是一般的gnn方法都需要预定义元路径，而手动构建元路径的过程需要很强的先验知识，因为并非所有的元路径对丰富引文网络中的节点信息都是有帮助的，所以需要事先确定引文网络中有用的元路径，这对于非专业人士存在一定的难度，需要花费很大的精力和时间，影响了异构图表示学习的效率；二是在复杂引文网络中存在缺乏处理远处节点之间稀疏连接和缺失连接的能力，导致一些对丰富作者信息有用的元路径没有找到，从而使异构图表示学习的准确率下降；三是由于不同元路径所含有的语义是不同的，且针对不同的任务，同一元路径的重要性也是不同的，然而，现有大多数方法只是对不同的元路径所含有的信息进行简单的聚合，这也会使得异构图表示学习的准确率下降，影响后续的作者分类任务，导致引文网络中作者分类效率和准确率低。

技术实现思路

1、本发明为了解决gnn方法对引文网络中的作者进行分类时，需要花费很大的精力和时间确定异构图上的元路径，影响了异构图表示学习的效率，以及不能找到全部对丰富作者信息有用的元路径，只是对不同的元路径所含有的信息进行简单的聚合，影响了异构图表示学习的准确率，导致引文网络中作者分类效率和准确率低的问题，进而提出了一种基于异构引文网络的作者分类方法。

2、本发明采取的技术方案是：

3、它包括以下步骤：

4、s1、将某个研究领域的引文网络抽象为异构图，分别对异构图、异构图中包含的元路径和元图进行定义；

5、s2、利用图结构学习器对异构图进行采样和重新组合，得到新子图，将新子图以矩阵的方式相乘得到新图结构，利用图结构扩展器对新图结构进行扩展，得到扩展后的新图结构，利用图结构筛选器对扩展后的新图结构进行多样性定义和筛选，得到筛选后的新图结构；

6、s3、根据han模型构建图结构分析器，在图结构分析器内，将筛选后的新图结构作为图卷积网络gcn的输入，输出节点嵌入，利用多层感知机对节点嵌入进行非线性转换，以非线性转换后的节点嵌入与一个语义层次注意力向量的相似性测量每一个特定图结构在特定语义节点嵌入下的权重，将权重与特定语义节点嵌入进行融合，得到最终的节点嵌入，完成引文网络的异构图表示学习，根据异构图表示学习对s1中某个研究领域的引文网络的作者进行分类，得到分类后的作者。

7、进一步地，所述s1具体过程为：

8、s11、对异构图进行定义：

9、将某个研究领域的引文网络抽象为异构图，定义异构图为g＝(v,e)，异构图的关系模式为tg＝(tv,te)，其中，v为异构图中节点的集合，e为异构图中边的集合，tv为异构图中节点类型的集合，节点类型包括某个领域的文章p、作者a和会议c，te为异构图中边类型的集合，边类型包括p-a、a-p、p-c、c-p；

10、根据异构图中任意两个节点得到对应的边类型，将每个边类型用一个邻接矩阵a进行存储，a∈rn×n，其中n＝|v|，则可以用邻接矩阵存储异构图，即异构图包括多个邻接矩阵，那么异构图为张量每个邻接矩阵实际上就是一个子图；

11、s12、将引文网络中节点间的关系抽象为元结构，元结构包含元路径和元图，元路径是在异构图上连接不同类型边的一条路径；

12、s13、基于异构图定义元路径：

13、定义表示元路径，el表示元路径中第l种类型的边，el∈te；s14、基于异构图定义元图：

14、元图m是一个具有单个源节点vs和单个目标节点vt的有向无环图，即vs的入度为0，vt的出度为0，所以用m＝(vm,em,am,rm,vs,vt)表示元图，其中，分别受到的约束，vm表示元图m中节点的集合，em表示元图m中边的集合，am表示元图m中节点类型的集合，rm表示元图m中边类型的集合。

15、进一步地，所述s2具体过程为：

16、s21、定义存在多个图结构生成层，每个图结构生成层由l个图结构学习器组成，利用某个图结构学习器对s11中异构图的张量进行采样，得到多个子图ai，将所有子图重新组合，得到一个新子图q，则针对l个图结构学习器得到l个新子图，将l个新子图以矩阵的形式相乘得到包含长度从1到l元路径类型元结构的新图结构h，即一个图结构生成层得到一个新图结构h，多个图结构生成层得到多个新图结构h，多个新图结构h组成新图结构的张量

17、s22、利用图结构扩展器对新图结构的张量进行扩展，得到扩展后的新图结构的张量，扩展后的新图结构包含元图类型元结构；

18、s23、利用图结构筛选器对扩展后的新图结构的张量进行多样性定义和筛选，得到筛选后的新图结构的张量。

19、进一步地，所述s21具体过程为：

20、s211、定义存在多个图结构生成层，每个图结构生成层由l个图结构学习器组成，图结构生成层的数量表示为通道数c；

21、s212、在每个图结构学习器内，对s11中异构图的张量进行采样，得到多个子图ai，利用两个1×1的卷积层获得所有子图ai的权重，对权重进行加权重组，得到一个新子图q：

22、

23、其中，φ代表卷积层，wφ∈r1×1×k代表φ的参数，ai，αi分别代表异构图和wφ中的子元素；

24、针对每个图结构生成层内的l个图结构学习器得到l个新子图q1、q2、…ql；

25、s213、将l个新子图以矩阵的形式相乘得到包含长度从1到l元路径类型元结构的新图结构h：

26、h＝q1q2…ql (2)

27、其中，是长度为l的元结构在第tl个图结构学习器中的权重，得到长度为l的元结构的新图结构h：

28、

29、则一个图结构生成层得到一个新图结构h，多个图结构生成层得到多个新图结构h，多个新图结构h组成新图结构的张量

30、

31、其中，取决于通道数量c。

32、进一步地，所述s22具体过程为：

33、图结构扩展器为哈达玛积操作，从新图结构的张量中任意选择两个邻接矩阵hi和hj，利用哈达玛积对hi和hj进行扩展，得到包含元图类型元结构新图结构hhp，由于图结构可作为图矩阵，所以对新图结构hhp采用基于矩阵行值的归一化方法，用图矩阵每一行的总值对图矩阵中每个元素进行归一，得到扩展后的新图结构，重复执行上述操作，得到多个新图结构hhp，多个新图结构hhp组成扩展后的新图结构的张量

34、进一步地，所述s23具体过程为：

35、给定一个集成模型hc以及权重αt，得到amb多样性测量方法的定义，如下式所示：

36、

37、利用式(5)对不同图结构的信息进行多样性定义，如下式所示：

38、

39、其中,w是图结构的总数目；

40、基于式(6)计算新图结构的张量和扩展后的新图结构的张量中所有新图结构hi的多样性，并将多样性从大到小进行排序，选取多样性最大的p个新图结构以图结构张量的形式作为图结构筛选器的输出，如下式所示：

41、

42、其中，表示筛选后的新图结构的张量，

43、进一步地，所述s3具体过程为：

44、s31、将s23中新图结构的张量中的p个新图结构作为图卷积网络gcn的输入，输出p个节点嵌入z1,z2,…,zp，其中，za表示在某一个新图结构下的节点嵌入，a∈p，ha表示张量hselected的第a个新图结构对应的邻接矩阵，表示ha的度矩阵，x∈rn×d表示特征矩阵，w∈rd×d表示训练权重矩阵；

45、s32、根据p个节点嵌入获得每个新图结构的权重：

46、(β1，β2，…，βp)＝attsem(z1，z2，…，zp) (8)

47、其中，attsem表示深层神经网络，执行语义层次注意力；

48、s33、使用一层的多层感知机对节点嵌入进行非线性转换，利用非线性转换后的节点嵌入与一个语义层次注意力向量q的相似性测量特定新图结构的特定语义节点嵌入的重要性，对所有特定语义节点嵌入的重要性进行平均，得到每个新图结构的重要性wi：

49、

50、其中，w为训练权重矩阵，b为偏置值，q为语义层次注意向量；

51、通过softmax函数将每个新图结构的重要性归一化，得到对应新图结构的权重，如下式所示：

52、

53、其中，βi为每一个新图结构的权重，βi越高，新图结构就越重要；

54、s34、将新图结构的权重wi与对应新图结构的特定语义节点嵌入进行融合，得到最终的节点嵌入z：

55、

56、至此，完成引文网络的异构图表示学习，根据异构图表示学习对s1中某个研究领域的引文网络的作者进行分类，得到分类后的作者。

57、有益效果

58、本发明将某个研究领域的引文网络抽象为异构图，自定义异构图、异构图中包含的元路径和元图，将异构图分为多个子图进行后续的计算，异构图中节点类型包括某个领域的文章p、作者a和会议c，边类型包括p-a、a-p、p-c、c-p；利用图结构学习器对异构图中的多个子图进行采样和重新组合，得到新图结构，图结构学习器能够自适应地生成对丰富作者节点信息有用的元路径，大大减低了异构图引文网络表示学习的成本。再利用图结构扩展器对新图结构进行扩展，得到扩展后的新图结构，如此能够建立引文网络中距离较远作者节点之间的连接，丰富作者节点信息，找到全部有用的元路径，提高了异构图表示学习的准确率。接下来利用图结构筛选器对扩展后的新图结构进行多样性定义和筛选，得到筛选后的新图结构，找到真正有效的信息。最终利用图结构分析器实现异构图中最终的节点嵌入，完成异构图表示学习，根据异构图表示学习对某个研究领域的引文网络的作者进行分类，得到分类后的作者，在此步骤中赋予不同元路径不同的权重，更加符合实际情况，进一步提高异构图表示学习的准确率和效率，从而提高了作者分类的准确率和效率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李晋孙青宇张锋林森程建华
技术所有人：哈尔滨工程大学
我是此专利的发明人

上一篇：有机化合物、包括其的有机发光二极管和有机发光装置的制作方法
上一篇：一种玻璃原料研磨机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。