本技术实施例涉及数据处理,具体而言,涉及一种文献分类方法、装置、设备及存储介质。
背景技术:
1、在对文献进行存储时,需要对文献进行数字化处理之后存储到文献数据库中,在文献数据库中,文献分类是实现精准文献检索、文献推荐和文献计量分析的关键前提和重要基础。相关技术中,通常使用图建模来表现文献之间的关联关系,再基于文献之间的关联关系,使用图神经网络对文献进行分类。
2、相关技术中在使用图神经网络对文献进行分类时,受限于图神经网络的性能,无法有效的消除噪声影响,无法很好地对文献进行准确分类,导致文献分类不够准确。
技术实现思路
1、本技术实施例提供一种文献分类方法、装置、设备及存储介质,旨在对文献进行准确分类。
2、本技术实施例第一方面提供一种文献分类方法,所述方法包括:
3、接收文献关系图、所述文献关系图对应的邻接矩阵、所述文献关系图对应的顶点特征矩阵以及所述文献关系图对应的顶点标签矩阵;
4、使用粗化算法对所述文献关系图进行粗化处理,得到所述文献关系图对应的粗化图链;
5、使用反粗化算法对所述粗化图链进行反粗化处理,得到反粗化图链;
6、根据所述粗化图链以及所述反粗化图链,建立多尺度图haar小波卷积神经网络;
7、通过所述邻接矩阵、所述顶点特征矩阵以及所述顶点标签矩阵对所述多尺度图haar小波卷积神经网络进行训练;
8、在所述多尺度图haar小波卷积神经网络训练完毕的情况下,得到所述文献关系图对应的文献分类结果。
9、可选地,在接收文献关系图、所述文献关系图对应的邻接矩阵、所述文献关系图对应的顶点特征矩阵以及所述文献关系图对应的顶点标签矩阵之前,所述方法还包括:
10、从文献数据库中获取文献数据;
11、以所述文献数据中的每篇文献作为一个顶点,以文献之间的引用关系作为所述顶点之间的边,构建所述文献关系图;
12、根据所述文献关系图中的每个所述顶点的特征,得到所述顶点特征矩阵;
13、根据所述文献关系图中的每个所述顶点之间的连接关系,得到所述邻接矩阵;
14、根据所述文献关系图中的已标注顶点的标签,得到所述顶点标签矩阵。
15、可选地,所述使用粗化算法对所述文献关系图进行粗化处理,得到所述文献关系图对应的粗化图链,包括:
16、对所述文献关系图进行初始化处理,得到第一级粗化图;
17、对所述第一级粗化图进行模块密度迭代优化,得到第二级粗化图;
18、逐级生成多个粗化图,在得到预设级数的所述粗化图后,由得到的所有的所述粗化图构成所述粗化图链,所述粗化图链的每个所述粗化图按照生成顺序进行排列。
19、可选地,所述对所述文献关系图进行初始化处理,得到第一级粗化图,包括:
20、将所述文献关系图中的每个顶点作为一个社团;
21、将每个所述社团的社团状态设置为未标记;
22、将社团状态为未标记的所述社团加入到未标记社团集合中,得到所述第一级粗化图。
23、可选地,对所述第一级粗化图进行模块密度迭代优化,得到第二级粗化图,包括:
24、确定所述第一级粗化图中的每个未标记的社团对应的所有邻居社团;
25、针对每个未标记的所述社团,将所述社团分别与每个所述邻居社团组成一个邻接社团对,得到多个所述邻接社团对;
26、确定每个所述邻接社团对中的所述社团以及所述邻居社团合并后的模块密度增益;
27、确定多个所述邻接社团对中对应的所述模块密度增益最大的所述邻接社团对;
28、在所述邻接社团对对应的所述模块密度增益大于预设的增益阈值的情况下,对所述邻接社团对中的所述社团执行社团合并操作;
29、在所述邻接社团对中的所述邻居社团的社团状态为未标记状态的情况下,将所述邻居社团的社团状态设置为已标记状态;
30、将所述邻居社团从未标记社团集合中删除;
31、迭代进行模块密度优化,在社团划分密度不再增加的情况下,停止迭代;
32、将进行社团合并后的所述第一级粗化图中的每个所述社团作为一个超顶点;
33、根据每个所述超顶点之间对应的连接关系,在每个所述超顶点之间添加连接边,得到所述第二级粗化图。
34、可选地,在将进行社团合并后的所述第一级粗化图中的每个所述社团作为一个超顶点之前,所述方法还包括:
35、在所述未标记社团集合中存在未标记的所述社团的情况下,通过预设的合并规则,对未标记的所述社团执行社团合并操作。
36、可选地,所述方法还包括:
37、构建相邻两级的所述粗化图之间的匹配矩阵;
38、在得到一个新的所述粗化图的情况下,根据所述粗化图中的每个顶点之间的连接关系,构建所述粗化图对应的邻接矩阵。
39、可选地,所述使用反粗化算法对所述粗化图链进行反粗化处理,得到反粗化图链,包括:
40、对所述粗化图链进行初始化处理;
41、使用所述反粗化算法,对初始化处理后的所述粗化图链进行反粗化处理,得到所述反粗化图链。
42、可选地,所述对所述粗化图链进行初始化处理,包括:
43、将所述粗化图链中最高一级的所述粗化图作为所述反粗化图链中的第一级反粗化图;
44、将与所述第一级反粗化图相邻的反粗化图作为第二级反粗化图;
45、将所述第一级反粗化图中的每个顶点作为父顶点;
46、将所述第二级反粗化图中的每个顶点作为子顶点;
47、将每个所述子顶点的状态设置为未标记状态。
48、可选地,所述使用所述反粗化算法,对初始化处理后的所述粗化图链进行反粗化处理,得到所述反粗化图链,包括:
49、从第一级反粗化图开始,确定所述第一级反粗化图中的每个父顶点在第二级反粗化图中对应的子顶点;
50、确定每个所述子顶点从对应的所述父顶点迁移到任意一个所述父顶点的迁移代价,所述子顶点的迁移目的地不包括所述子顶点原来所在的所述父顶点;
51、根据所述迁移代价,确定所述第二级反粗化图中的任意具有不同的所述父顶点的未标记的子顶点对的交换代价;
52、对所述第二级反粗化图中的所有具有不同所述父顶点的所述子顶点对的交换代价进行排序,得到交换代价排序结果;
53、根据所述交换代价排序结果,确定具有最大正收益的所述子顶点对;
54、交换所述子顶点对在所述第一级反粗化图中的所述父顶点;
55、将所述子顶点对中的每个所述子顶点的状态设置为标记状态;
56、在所有的所述子顶点的状态为所述标记状态的情况下,完成对所述第二级反粗化图的反粗化处理;
57、迭代生成反粗化图,在得到预设级数的所述反粗化图后,由得到的所有的所述反粗化图构成所述反粗化图链,所述反粗化图链中的每张所述反粗化图按照生成顺序进行排列。
58、可选地,在所有的所述子顶点的状态为所述标记状态的情况下,完成对所述第二级反粗化图的反粗化处理时,所述方法还包括:
59、根据所述子顶点对的交换记录,生成所述第一级反粗化图与所述第二级反粗化图之间的匹配矩阵。
60、可选地,所述根据所述粗化图链以及所述反粗化图链,建立多尺度图haar小波卷积神经网络,包括:
61、根据预设的图haar小波变换矩阵构建规则,对所述粗化图链与所述反粗化图链进行处理,得到每个粗化图对应的图haar小波变换矩阵以及每个反粗化图对应的图haar小波变换矩阵;
62、根据所述粗化图对应的图haar小波变换矩阵以及所述反粗化图对应的图haar小波变换矩阵,建立所述多尺度图haar小波卷积神经网络。
63、可选地,所述根据所述粗化图对应的图haar小波变换矩阵以及所述反粗化图对应的图haar小波变换矩阵,建立所述多尺度图haar小波卷积神经网络,包括:
64、构建所述多尺度图haar小波卷积神经网络的输入层;
65、根据所述粗化图对应的图haar小波变换矩阵,构建所述粗化图链对应的多个图haar小波卷积层;
66、根据所述反粗化图对应的图haar小波变换矩阵,构建所述反粗化图链对应的多个图haar小波卷积层;
67、构建所述多尺度图haar小波卷积神经网络的输出层。
68、可选地,在根据所述粗化图对应的图haar小波变换矩阵,构建所述粗化图链对应的多个图haar小波卷积层时,所述方法还包括:
69、通过多个所述图haar小波卷积层,对所述粗化图链中的每个粗化图执行图haar小波卷积操作;
70、通过多个所述图haar小波卷积层,对所述粗化图链中的每个所述粗化图执行平均池化操作。
71、可选地,在根据所述反粗化图对应的图haar小波变换矩阵,构建所述反粗化图链对应的多个图haar小波卷积层时,所述方法还包括:
72、通过多个所述图haar小波卷积层,对所述反粗化图链中的每个所述反粗化图执行反池化操作;
73、通过多个所述图haar小波卷积层,对所述反粗化图链中的每个反粗化图执行图haar小波卷积操作。
74、可选地,通过所述邻接矩阵、所述顶点特征矩阵以及所述顶点标签矩阵对所述多尺度图haar小波卷积神经网络进行训练,包括:
75、将所述邻接矩阵、所述顶点特征矩阵以及所述顶点标签矩阵输入所述多尺度图haar小波卷积神经网络中;
76、根据预设的损失函数,对所述多尺度图haar小波卷积神经网络的参数进行调整;
77、在所述多尺度图haar小波卷积神经网络的预测误差满足预设的误差阈值时,停止训练,输出预测的顶点标签矩阵。
78、可选地,在将所述邻接矩阵、所述顶点特征矩阵以及所述顶点标签矩阵输入所述多尺度图haar小波卷积神经网络中之前,所述方法还包括:
79、基于交叉熵设置所述损失函数;
80、对所述多尺度图haar小波卷积神经网络的各层网络参数进行初始化。
81、本技术实施例第二方面提供一种文献分类装置,所述装置包括:
82、数据接收模块,用于接收文献关系图、所述文献关系图对应的邻接矩阵、所述文献关系图对应的顶点特征矩阵以及所述文献关系图对应的顶点标签矩阵;
83、粗化处理模块,用于使用粗化算法对所述文献关系图进行粗化处理,得到所述文献关系图对应的粗化图链;
84、反粗化处理模块,用于使用反粗化算法对所述粗化图链进行反粗化处理,得到反粗化图链;
85、神经网络建立模块,用于根据所述粗化图链以及所述反粗化图链,建立多尺度图haar小波卷积神经网络;
86、神经网络训练模块,用于通过所述邻接矩阵、所述顶点特征矩阵以及所述顶点标签矩阵对所述多尺度图haar小波卷积神经网络进行训练;
87、文献分类结果获取模块,用于在所述多尺度图haar小波卷积神经网络训练完毕的情况下,得到所述文献关系图对应的文献分类结果。
88、可选地,所述装置还包括:
89、文献数据获取模块,用于从文献数据库中获取文献数据;
90、文献关系图构建模块,用于以所述文献数据中的每篇文献作为一个顶点,以文献之间的引用关系作为所述顶点之间的边,构建所述文献关系图;
91、顶点特征矩阵构建模块,用于根据所述文献关系图中的每个所述顶点的特征,得到所述顶点特征矩阵;
92、邻接矩阵构建模块,用于根据所述文献关系图中的每个所述顶点之间的连接关系,得到所述邻接矩阵;
93、顶点标签矩阵构建模块,用于根据所述文献关系图中的已标注顶点的标签,得到所述顶点标签矩阵。
94、可选地,所述粗化处理模块包括:
95、第一初始化处理子模块,用于对所述文献关系图进行初始化处理,得到第一级粗化图;
96、模块密度迭代优化子模块,用于对所述第一级粗化图进行模块密度迭代优化,得到第二级粗化图;
97、粗化图链获取子模块,用于逐级生成多个粗化图,在得到预设级数的所述粗化图后,由得到的所有的所述粗化图构成所述粗化图链,所述粗化图链中的每个所述粗化图按照生成顺序进行排列。
98、可选地,所述第一初始化处理子模块包括:
99、社团确定子模块,用于将所述文献关系图中的每个顶点作为一个社团;
100、第一社团状态设置子模块,用于将每个所述社团的社团状态设置为未标记;
101、社团添加子模块,用于将社团状态为未标记的所述社团加入到未标记社团集合中,得到所述第一级粗化图。
102、可选地,所述模块密度迭代优化子模块包括:
103、邻居社团确定子模块,用于确定所述第一级粗化图中的每个未标记的社团对应的所有邻居社团;
104、邻接社团生成子模块,用于针对每个未标记的所述社团,将所述社团分别与每个所述邻居社团组成一个邻接社团对,得到多个所述邻接社团对;
105、模块密度增益确定子模块,用于确定每个所述邻接社团对中的所述社团以及所述邻居社团合并后的模块密度增益;
106、邻接社团对确定子模块,用于确定多个所述邻接社团对中对应的所述模块密度增益最大的所述邻接社团对;
107、社团合并操作执行子模块,用于在所述邻接社团对对应的所述模块密度增益大于预设的增益阈值的情况下,对所述邻接社团对中的所述社团执行社团合并操作;
108、第二社团状态设置子模块,用于在所述邻接社团对中的所述邻居社团的社团状态为未标记状态的情况下,将所述邻居社团的社团状态设置为已标记状态;
109、社团删除子模块,用于将所述邻居社团从未标记社团集合中删除;
110、迭代优化子模块,用于迭代进行模块密度优化,在社团划分密度不再增加的情况下,停止迭代;
111、超顶点确定子模块,用于将进行社团合并后的所述第一级粗化图中的每个所述社团作为一个超顶点;
112、连接边添加子模块,用于根据每个所述超顶点之间对应的连接关系,在每个所述超顶点之间添加连接边,得到所述第二级粗化图。
113、可选地,所述装置还包括:
114、第二社团合并操作执行子模块,用于在所述未标记社团集合中存在未标记的所述社团的情况下,通过预设的合并规则,对未标记的所述社团执行社团合并操作。
115、可选地,所述装置还包括:
116、匹配矩阵构建子模块,用于构建相邻两级的所述粗化图之间的匹配矩阵;
117、邻接矩阵构建子模块,用于在得到一个新的所述粗化图的情况下,根据所述粗化图中的每个顶点之间的连接关系,构建所述粗化图对应的邻接矩阵。
118、可选地,所述反粗化处理模块包括:
119、第二初始化处理子模块,用于对所述粗化图链进行初始化处理;
120、反粗化图链获取子模块,用于使用所述反粗化算法,对初始化处理后的所述粗化图链进行反粗化处理,得到所述反粗化图链。
121、可选地,所述第二初始化处理子模块包括:
122、第一级反粗化图确定子模块,用于将所述粗化图链中最高一级的所述粗化图作为所述反粗化图链中的第一级反粗化图;
123、第二级反粗化图确定子模块,用于将与所述第一级反粗化图相邻的反粗化图作为第二级反粗化图;
124、父顶点确定子模块,用于将所述第一级反粗化图中的每个顶点作为父顶点;
125、子顶点确定子模块,用于将所述第二级反粗化图中的每个顶点作为子顶点;
126、第一顶点状态设置子模块,用于将每个所述子顶点的状态设置为未标记状态。
127、可选地,所述反粗化图链获取子模块包括:
128、对应顶点确定子模块,用于从第一级反粗化图开始,确定所述第一级反粗化图中的每个父顶点在第二级反粗化图中对应的子顶点;
129、迁移代价确定子模块,用于确定每个所述子顶点从对应的所述父顶点迁移到任意一个所述父顶点的迁移代价,所述子顶点的迁移目的地不包括所述子顶点原来所在的所述父顶点;
130、交换代价确定子模块,用于根据所述迁移代价,确定所述第二级反粗化图中的任意具有不同的所述父顶点的未标记的子顶点对的交换代价;
131、交换代价排序结果确定子模块,用于对所述第二级反粗化图中的所有具有不同所述父顶点的所述子顶点对的交换代价进行排序,得到交换代价排序结果;
132、最大正收益确定子模块,用于根据所述交换代价排序结果,确定具有最大正收益的所述子顶点对;
133、顶点交换子模块,用于交换所述子顶点对在所述第一级反粗化图中的所述父顶点;
134、第二顶点状态设置子模块,用于将所述子顶点对中的每个所述子顶点的状态设置为标记状态;
135、反粗化处理完成子模块,用于在所有的所述子顶点的状态为所述标记状态的情况下,完成对所述第二级反粗化图的反粗化处理;
136、反粗化图链处理完成子模块,用于迭代生成反粗化图,在得到预设级数的所述反粗化图后,由得到的所有的所述反粗化图构成所述反粗化图链,所述反粗化图链中的每张所述反粗化图按照生成顺序进行排列。
137、可选地,所述装置还包括:
138、第二匹配矩阵构建子模块,用于根据所述子顶点对的交换记录,生成所述第一级反粗化图与所述第二级反粗化图之间的匹配矩阵。
139、可选地,所述神经网络建立模块包括:
140、图haar小波变换矩阵构建子模块,用于根据预设的图haar小波变换矩阵构建规则,对所述粗化图链与所述反粗化图链进行处理,得到每个粗化图对应的图haar小波变换矩阵以及每个反粗化图对应的图haar小波变换矩阵;
141、神经网络构建子模块,用于根据所述粗化图对应的图haar小波变换矩阵以及所述反粗化图对应的图haar小波变换矩阵,建立所述多尺度图haar小波卷积神经网络。
142、可选地,所述神经网络构建子模块包括:
143、输入层构建子模块,用于构建所述多尺度图haar小波卷积神经网络的输入层;
144、第一图haar小波卷积层构建子模块,用于根据所述粗化图对应的图haar小波变换矩阵,构建所述粗化图链对应的多个图haar小波卷积层;
145、第二图haar小波卷积层构建子模块,用于根据所述反粗化图对应的图haar小波变换矩阵,构建所述反粗化图链对应的多个图haar小波卷积层;
146、输出层构建子模块,用于构建所述多尺度图haar小波卷积神经网络的输出层。
147、可选地,所述装置还包括:
148、第一卷积操作子模块,用于通过多个所述图haar小波卷积层,对所述粗化图链中的每个粗化图执行图haar小波卷积操作;
149、第一池化操作子模块,用于通过多个所述图haar小波卷积层,对所述粗化图链中的每个所述粗化图执行平均池化操作。
150、可选地,所述装置还包括:
151、第二池化操作子模块,用于通过多个所述图haar小波卷积层,对所述反粗化图链中的每个所述反粗化图执行反池化操作;
152、第二卷积操作子模块,用于通过多个所述图haar小波卷积层,对所述反粗化图链中的每个反粗化图执行图haar小波卷积操作。
153、可选地,所述网络训练模块包括:
154、数据输入子模块,用于将所述邻接矩阵、所述顶点特征矩阵以及所述顶点标签矩阵输入所述多尺度图haar小波卷积神经网络中;
155、参数调整子模块,用于根据预设的损失函数,对所述多尺度图haar小波卷积神经网络的参数进行调整;
156、顶点标签矩阵输出子模块,用于在所述多尺度图haar小波卷积神经网络的预测误差满足预设的误差阈值时,停止训练,输出预测的顶点标签矩阵。
157、可选地,所述装置还包括:
158、损失函数确定子模块,用于基于交叉熵设置所述损失函数;
159、参数初始化子模块,用于对所述多尺度图haar小波卷积神经网络的各层网络参数进行初始化。
160、本技术实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本技术第一方面所述的方法中的步骤。
161、本技术实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本技术第一方面所述的方法的步骤。
162、采用本技术提供的文献分类方法,接收文献关系图、所述文献关系图对应的邻接矩阵、所述文献关系图对应的顶点特征矩阵以及所述文献关系图对应的顶点标签矩阵;使用粗化算法对所述文献关系图进行粗化处理,得到所述文献关系图对应的粗化图链;使用反粗化算法对所述粗化图链进行反粗化处理,得到反粗化图链;根据所述粗化图链以及所述反粗化图链,建立多尺度图haar小波卷积神经网络;通过所述邻接矩阵、所述顶点特征矩阵以及所述顶点标签矩阵对所述多尺度图haar小波卷积神经网络进行训练;在所述多尺度图haar小波卷积神经网络训练完毕的情况下,得到所述文献关系图对应的文献分类结果。
163、本技术中,对文献关系图进行粗化处理,得到粗化图链,又对粗化图链进行反粗化处理,得到反粗化图链。以粗化图链和反粗化图链为基础可高效构建图haar(哈尔)小波变换矩阵,避免了运算代价高昂的矩阵特征分解操作。构建出的多尺度图haar小波卷积神经网络通过捕捉粗化图链和反粗化图链不同粒度的顶点特征和不同层次的图拓扑信息,有效地扩大了图haar小波卷积核的感受野,减轻了噪声的影响,避免了过平滑问题,增强了顶点的嵌入表示,极大地提高了文献分类的准确度。并且图haar小波变换矩阵是稀疏矩阵,可大幅提高网络训练和推理效率。