一种多尺度图卷积神经网络的文档分类方法、电子设备及存储介质

文档序号：37436387发布日期：2024-03-25 19:34阅读：12来源：国知局

本发明属于文档分类，具体涉及一种多尺度图卷积神经网络的文档分类方法、电子设备及存储介质。

背景技术：

1、现有的，针对节点分类的问题，大多体现在论文和文件类型文档的类别划分上。对文件类别信息的划分大多数都是依赖于人工自主划分类别，这就会造成人力物力的极大消耗，分类速度缓慢，准确率存在不确定性。

2、图神经网络对于非欧几里得数据在深度学习中的应用具有重要的作用，尤其是利用图结构在传统贝叶斯因果网络上可解释的特点，有较高的研究意义。图神经网络实际上是一种利用图数据完成端对端学习的模型，从而实现图数据与深度学习的有效结合。在图神经网络的发展阶段，gori等最早提出了图神经网络的概念，总结并设计出来了一种可以用来处理图结构以及图数据的网络模型。scarselli等对当时所提出的图神经网络模型进行了详细的归纳和阐述，促使图神经网络的应用领域逐渐扩大。bruna受到前人的启发首次将卷积首次引入到图神经网络中，图卷积神经网络就此诞生。

3、现阶段，网络中的个体都是由节点构相成，同个体的各个节点之间紧密相连。现实世界中，网络结构数据的存在具有普遍性。作为对网络结构数据的数学抽象，图的研究有着悠久的历史，从经典的图论与图信号处理到图嵌入与表示学习，图的结构和性质在对网络的研究中具有重要作用。所以提高图结构数据的处理能力是研究者一直追求的目标。

技术实现思路

1、本发明要解决的问题是提高文档分类的效率，提出一种多尺度图卷积神经网络的文档分类方法、电子设备及存储介质。

2、为实现上述目的，本发明通过以下技术方案实现：

3、一种多尺度图卷积神经网络的文档分类方法，包括如下步骤：

4、s1.采集文件类型的文档，进行关键词提取，利用逻辑与运算计算关键词节点之间的强弱关系，建立数据集；

5、s2.对步骤s1建立的数据集进行数据清洗、数据预处理，然后将处理后的数据集划分为训练集、验证集和测试集；

6、s3.构建融合注意力机制的多尺度图卷积神经网络文档分类模型；

7、步骤s3构建的融合注意力机制的多尺度图卷积神经网络文档分类模型包括4个融合注意力机制的多尺度图卷积网络模块、一个池化层、一个全连接层、一个一维的图卷积层，具体实现方法包括如下步骤：

8、s3.1.设置输入端图结构集合表示为g(v，e)，其中，输入端图结构的节点集合为v＝{v1,v2,v3,…,vm}，vm为以文件文档名称表示的第m个输入端图结构的节点，输入端图结构的边关系集合为e＝{e1,e2,e3,…,en}，en表示输入端图结构的节点之间计算得到的第n个边关系；

9、定义邻接矩阵、度矩阵、图拉普拉斯矩阵构建输入端图结构；

10、图拉普拉斯矩阵的计算表达式为：

11、

12、其中，deg(vi)表示顶点上的边对应的条数，di,j为节点vi的度数；

13、l＝d-a #(2)

14、其中，d为度矩阵，a为邻接矩阵，l为拉普拉斯矩阵；

15、s3.2.将步骤s3.1得到的输入端图结构集合输入到融合注意力机制的多尺度图卷积网络模块进行运算，4个分支的多尺度图卷积网络模块运算的表达式为：

16、

17、

18、其中，h(1)表示第一层图神经网络的输出，h(2)表示第二层图神经网络的输出，relu表示激活函数，x表示第一层图神经网络的输入，w(1)表示第一层图神经网络的权重，w(2)表示第二层图神经网络的权重，表示支路的归一化操作；

19、的表达式为：

20、

21、其中，为度矩阵的对角矩阵，表示第i个图结构矩阵加上单位矩阵i，表达式为：

22、

23、对图神经网络引入注意力模块，首先计算原始的注意力系数eij，然后对原始的注意力系数进行归一化操作，得到最终的注意力系数aij，计算表达式为：

24、eij＝a([whi||whj]),j∈ni (7)

25、

26、其中，hi为顶点i的一串嵌入向量，hj为顶点j的嵌入向量，ni为顶点i的邻居节点，a[whi||whj]为拼接后的高维特征映射的实数，leakyrelu为激活函数，k为节点i的邻居节点的索引；

27、s3.3.将步骤s3.2经过融合注意力机制的多尺度图卷积网络模块计算的输出数据输入池化层进行拼接操作，然后通过全连接层,将图卷积运算的结果通过softmax函数进行归一化操作，然后输入到一维的图卷积层中得到模型最终的分类结果；

28、各分支的拼接结果的计算表达式为：

29、

30、其中，z1表示最终拼接的结果，convm(x(h+1))表示第m分支的图卷积网络模块计算结果，wm(x(h+1))表示第m分支融合注意力模块后的计算结果；m表示融合注意力机制的多尺度图卷积网络模块的分支数量，1≤m≤4；

31、将图卷积运算的结果通过softmax函数进行归一化操作，计算表达式为：

32、z2＝softmax(h(l)) #(10)

33、其中，z2表示模型最终的分类结果，softmax表示归一化函数，hl表示图卷积运算的结果；

34、s4.利用步骤s2得到的训练集对步骤s3构建的融合注意力机制的多尺度图卷积神经网络文档分类模型进行训练，得到训练好的融合注意力机制的多尺度图卷积神经网络文档分类模型；

35、s5.利用步骤s2得到的测试集对步骤s4训练好的融合注意力机制的多尺度图卷积神经网络文档分类模型进行测试，建立评价指标，输出测试的文档分类结果。

36、进一步的，步骤s1的具体实现方法包括如下步骤：

37、s1.1.采集文件类型的文档，包括论文、招股说明书、招标文件；

38、s1.2.采用jieba分词技术对步骤s1.1得到的文档进行关键词提取，设置关键词出现次数大于10的关键词标记为1，小于10的关键词标记为0，得到关键词点关系；

39、s1.3.将步骤s1.3得到的关键词点关系通过逻辑与运算r1∧e2计算节点间关系，建立关键词边关系,r1表示节点1对应的关键词数值，r2表示节点2对应的关键词数值；

40、s1.4.利用步骤s1.3得到的关键词边关系构建输入端图结构，利用得到的输入端图结构建立数据集。

41、进一步的，步骤s2的具体实现方法包括如下步骤：

42、s2.1.对数据集中的节点无关的关键词进行数据清洗，所述节点无关的关键词包括数字、字母；

43、s2.2.对步骤s2.1数据清洗后的数据集根据具体数据情况进行划分，划分为训练集、验证集和测试集。与此同时，对数据集中的节点进行多类别划分，并确定每个节点样本对应的最终类别标签；

44、进一步的，步骤s5中建立的评价指标accuracy的表达式为：

45、

46、其中，tp表示实例为正样本、预测样本为正样本，tn表示实例为负样本、预测结果为负样本，fp表示实例为负样本、预测结果为正样本，fn表示实例为正样本、预测结果为负样本。

47、一种电子设备，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现所述的一种多尺度图卷积神经网络的文档分类方法的步骤。

48、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的一种多尺度图卷积神经网络的文档分类方法。

49、本发明的有益效果：

50、本发明所述的一种多尺度图卷积神经网络的文档分类方法，将人工智能技术和深度学习算法融入到分类领域，实现快速的对论文、招股说明书、政府招标文件和任意文件类型的文档进行智能划分和精准分类。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐耀群,张宇航,刘骄阳,王粤茂,阎柳茜,张雨
技术所有人：哈尔滨商业大学
我是此专利的发明人

上一篇：一种碳纤维布面横条检测方法、装置、设备及存储介质与流程
上一篇：促进光敏树脂回填的加压装置及其加压方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。