一种实体分类方法、装置、电子设备及存储介质与流程

文档序号:32845179发布日期:2023-01-06 22:04阅读:48来源:国知局
一种实体分类方法、装置、电子设备及存储介质与流程

1.本公开涉及计算机应用技术领域,具体而言,涉及一种实体分类方法、装置、电子设备及存储介质。


背景技术:

2.随着信息技术的发展,人们已经进入到一个“大数据”的时代,每天都有海量多元的数据喷涌而出,一方面这大大丰富了用户、文章、商品等实体对象的语义信息,但另一方面也使人们难以从庞大的数据中发掘出所需的模式特征。
3.为了系统化、规范化、精细化的描述分析实体特点,人们通常会建立一套标准化的标签集,并用以对实体进行标注。但是,鉴于数据规模的巨大,仅靠人工完成数据标注显然是一件不可能完成的任务。于是,标签分类预测技术应运而生,并在计算机视觉、自然语言处理、生物信息、信息检索等多个领域得到了广泛的应用。
4.标签分类预测技术是一种通过总结已知实体标签出现的规律,对新的数据进行标签判别预测的技术。传统的分类问题假设实例仅与一个标签相关,即单视图分类预测。然而,在实践中一个样本通常会具有多个标签,传统分类技术不再适用。


技术实现要素:

5.本公开实施例至少提供一种实体分类方法、装置、电子设备及存储介质,以实现多视图分类预测,预测的准确度较高。
6.第一方面,本公开实施例提供了一种实体分类方法,包括:
7.获取多个实体节点对应的多个实体关系网络;同一实体节点在不同实体关系网络中对应不同的实体关系;
8.基于训练好的多个基学习器对所述多个实体关系网络进行多标签预测,得到每个实体节点在每个实体关系网络中的多标签预测结果;
9.基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实体节点对应的最终多标签预测结果。
10.在一种可能的实施方式中,在所述多标签预测结果包括多个候选标签的预测分值的情况下;所述基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实体节点对应的最终多标签预测结果,包括:
11.针对所述多个候选标签中的目标候选标签,基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实体节点针对所述目标候选标签的标签特征向量;
12.基于训练好的元学习器对多个实体节点针对所述目标候选标签的标签特征向量进行排序学习,确定每个实体节点对应的最终多标签预测结果。
13.在一种可能的实施方式中,所述基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实体节点针对所述目标候选标签的标签特征向量,包括:
14.针对所述多个实体关系网络中的目标实体关系网络,从所述实体节点在所述目标
实体关系网络中针对多个候选标签的预测分值中,选取出与所述目标候选标签匹配的目标预测分值;
15.将从所述多个实体关系网络中分别选取出的目标预测分值进行组合,得到所述实体节点针对所述目标候选标签的标签特征向量。
16.在一种可能的实施方式中,所述基于训练好的元学习器对多个实体节点针对所述目标候选标签的标签特征向量进行排序学习,确定每个实体节点对应的最终多标签预测结果,包括:
17.针对所述多个实体节点中的目标实体节点,将所述目标实体节点针对所述目标候选标签的标签特征向量输入到训练好的元学习器,确定所述目标实体节点对应多个候选标签的排序后预测分值;
18.基于所述排序后预测分值,确定所述目标实体节点对应的多标签预测结果。
19.在一种可能的实施方式中,所述基于所述排序后预测分值,确定所述目标实体节点对应的多标签预测结果,包括:
20.在所述排序后预测分值大于预设阈值的情况下,将排序后预测分值对应的候选标签确定为所述目标实体节点对应的多标签预测结果。
21.在一种可能的实施方式中,按照如下步骤训练所述元学习器:
22.获取包括有多个样本特征向量的样本训练集,所述样本特征向量的每一个维度值指向一个实体节点标签对;
23.遍历所述样本训练集中的每个样本特征向量,并确定每个样本特征向量的λ-梯度;
24.基于所述多个样本特征向量以及所述每个样本特征向量的λ-梯度构建回归树;
25.基于所述回归树的各个叶子结点与所述各个实体节点之间的对应关系,对所述待训练的元学习器中每个实体节点的排序得分进行更新,得到训练好的元学习器。
26.在一种可能的实施方式中,所述基于训练好的多个基学习器对所述多个实体关系网络进行多标签预测,得到每个实体节点在每个实体关系网络中的多标签预测结果,包括:
27.针对所述多个实体关系网络中的目标实体关系网络,利用与所述目标实体关系网络对应的目标基学习器对所述目标实体关系网络进行多标签预测,得到每个实体节点在所述目标实体关系网络中的多标签预测结果。
28.在一种可能的实施方式中,在所述目标基学习器包括全连接输入层、表示学习模块及全连接输出层的情况下,所述利用与所述目标实体关系网络对应的目标基学习器对所述目标实体关系网络进行多标签预测,得到每个实体节点在所述目标实体关系网络中的多标签预测结果,包括:
29.将所述目标实体网络中每个实体节点的原始特征向量输入到所述目标基学习器包括的全连接输入层,确定所述全连接输入层输出的针对每个实体节点的降维特征向量;以及,
30.将所述降维特征向量输入到所述目标基学习器包括的表示学习模块,确定蕴含有低阶信号及相似节点信息的隐藏特征向量;以及,
31.将所述隐藏特征向量输入到所述目标基学习器包括的全连接输出层,确定每个实体节点在所述目标实体关系网络中的多标签预测结果。
32.在一种可能的实施方式中,按照如下步骤训练包括全连接输入层、表示学习模块及全连接输出层的目标基学习器:
33.获取样本实体关系网络,所述样本实体关系网络中的部分实体节点具有多标签标注结果;
34.利用所述全连接输入层对所述样本实体关系网络中的每个实体节点进行降维表示,确定进行降维转换后每个实体节点的节点降维隐含表示;
35.利用所述表示学习模块包括的图卷积层对所述节点降维隐含表示进行低阶信号的注意力学习,得到进行注意力学习后每个实体节点的节点注意力隐含表示;以及利用所述表示学习模块包括的条件随机场层对所述节点注意力隐含表示进行节点相似学习,得到进行节点相似学习后每个实体节点的节点相似隐含表示;
36.利用所述全连接输出层对所述每个实体节点的节点相似隐含表示进行多标签预测,得到预测结果;
37.基于所述预测结果与所述多标签标注结果对所述目标基学习器进行调整,得到训练好的目标基学习器。
38.在一种可能的实施方式中,在包括多个图卷积层的情况下,所述利用所述表示学习模块包括的图卷积层对所述节点降维隐含表示进行低阶信号的注意力学习,得到进行注意力学习后每个实体节点的节点注意力隐含表示,包括:
39.将所述节点降维隐含表示作为每个所述图卷积层的初始表示;
40.针对除第一个图卷积层之外的当前图卷积层,执行如下步骤:
41.将所述样本实体关系网络以及所述当前图卷积层之前的上一个图卷积层输出的节点注意力隐含表示输入到所述其它图卷积层中的图注意力层,确定所述图注意力层输出的节点注意力隐含表示;
42.基于所述初始表示、所述图注意力层输出的节点注意力隐含表示、以及所述当前图卷积层的训练参数,确定所述当前图卷积层输出的节点注意力隐含表示。
43.在一种可能的实施方式中,所述基于所述初始表示、所述图注意力层输出的节点注意力隐含表示、以及所述当前图卷积层的训练参数,确定所述当前图卷积层输出的节点注意力隐含表示,包括:
44.基于所述初始表示以及所述图注意力层输出的节点注意力隐含表示之间的第一加权求和运算,确定第一图卷积算子;以及基于所述当前图卷积层的训练参数以及对应所述当前图卷积层的恒等映射矩阵之间的第二加权求和运算,确定第二图卷积算子;
45.基于所述第一图卷积算子和所述第二图卷积算子,确定所述当前图卷积层输出的节点注意力隐含表示。
46.在一种可能的实施方式中,所述利用所述表示学习模块包括的条件随机场层对所述节点注意力隐含表示进行节点相似学习,得到进行节点相似学习后每个实体节点的节点相似隐含表示,包括:
47.针对每个实体节点,构建对应所述实体节点的最大化条件概率函数;所述最大化条件概率函数由所述实体节点的节点相似隐含表示与所述实体节点的节点注意力隐含表示之间的第一差值、以及所述实体节点的节点相似隐含表示与所述多个实体节点中除所述实体节点之外的其他实体节点的节点相似隐含表示之间的第二差值来确定;
48.在确定所述最大条件概率函数达到最大函数值的情况下,确定所述每个节点的节点相似隐含表示。
49.在一种可能的实施方式中,所述构建对应所述实体节点的最大化条件概率函数,包括:
50.针对每个实体节点,获取所述实体节点的节点相似隐含表示与所述实体节点的节点注意力隐含表示之间的第一差值、所述实体节点的节点相似隐含表示与所述多个实体节点中除所述实体节点之外的其他实体节点的节点相似隐含表示之间的第二差值、以及所述实体节点与所述其他实体节点之间的节点相似度;
51.将所述第二差值与所述节点相似度进行乘积运算,确定乘积结果;
52.将所述实体节点与各个其他实体节点之间的乘积结果进行求和运算,得到第二差值和;
53.基于所述第一差值与所述第二差值和之间的第三加权求和运算,确定所述最大化条件概率函数。
54.在一种可能的实施方式中,所述基于所述预测结果与所述多标签标注结果对所述目标基学习器进行调整,得到训练好的目标基学习器,包括:
55.获取用于调整正负样本数量的第一权重参数、以及调节难区分样本贡献度的第二权重参数;
56.基于所述第一权重参数、所述第二权重参数、以及所述预测结果与所述多标签标注结果之间的差值结果,确定所述目标基学习器的目标损失函数值;
57.基于所述目标损失函数值对所述目标基学习器的训练参数值进行至少一轮调整,得到训练好的目标基学习器。
58.第二方面,本公开实施例还提供了一种实体分类装置,包括:
59.获取模块,用于获取多个实体节点对应的多个实体关系网络;同一实体节点在不同实体关系网络中对应不同的实体关系;
60.预测模块,用于基于训练好的多个基学习器对所述多个实体关系网络进行多标签预测,得到每个实体节点在每个实体关系网络中的多标签预测结果;
61.分类模块,用于基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实体节点对应的最终多标签预测结果。
62.第三方面,本公开实施例还提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一项所述的实体分类方法。
63.第四方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一项所述的实体分类方法。
64.采用上述实体分类方法、装置、电子设备及存储介质,在获取到多个实体节点对应的多个实体关系网络的情况下,可以基于训练好的多个基学习器对所述多个实体关系网络进行多标签预测,得到每个实体节点在每个实体关系网络中的多标签预测结果,而后基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实体节点对应的最终多
标签预测结果。也即,本公开从多视图学习的角度出发,基于多种实体关系网络进行多标签预测,能够更为充分的挖掘实体之间的关系,使得针对实体节点预测的多标签预测结果更为准确。
65.本公开的其他优点将配合以下的说明和附图进行更详细的解说。
66.应当理解,上述说明仅是本公开技术方案的概述,以便能够更清楚地了解本公开的技术手段,从而可依照说明书的内容予以实施。为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本公开的具体实施方式。
附图说明
67.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
68.而且在整个附图中,用相同的标号表示相同的部件。在附图中:
69.图1示出了本公开实施例所提供的一种实体分类方法的流程图;
70.图2示出了本公开实施例所提供的实体分类方法中,训练基学习器具体方法的流程图;
71.图3示出了本公开实施例所提供的实体分类方法中,构造隐含表示具体方法的流程图;
72.图4示出了本公开实施例所提供的实体分类方法的应用示意图;
73.图5示出了本公开实施例所提供的一种实体分类装置的示意图;
74.图6示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
75.下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
76.在本公开实施方式的描述中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
77.除非另有说明,“/”表示或的意思,例如,a/b可以表示a或b;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。
78.术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个这一特征。在本公开实施方式的描述中,除非另有说明,“多个”的含义是两个或两个以上。
79.经研究发现,多标签分类预测问题一般具有以下几个特点:(1)真实世界中实体之间并非相互独立而是存在相互关系的。例如电商平台中的用户间就存在着社交关系,相近的社交关系一般意味着相似的购买偏好。在多标签学习过程中把实体间相关性作为一种先验知识加入到模型中,能帮助更准确的捕捉到隐藏的分布规律。(2)在实际任务中,对于同一事物可以从多种途径或角度对其进行描述,即构成了描述事物的多个视图。例如一段视频片段包含图像、音像、字幕等多种模态的信息,一篇新闻稿具有标题、摘要、正文等多个部分的信息。相比于单视图表征,多视图包含更多互补信息,能够更加全面多元的对事物进行描述,从而帮助学习器获得更好的预测性能。(3)在真实任务中,标签标注频次的分布往往很不平衡,一般服从类无尺度分布。也就是说,少部分标签标注了大量的样本,而剩余大部分标签只用于标注少数样本,标签的正负样本比例严重失衡。
80.相关技术中针对多标签学习进行了一系列的研究。例如相关技术的对比文件1提供了一种基于传统最近邻算法(k-nearest neighbors,knn)和最大后验概率法则的懒惰型多标签学习算法。它的主要思想是一个样本的标签集合可以由该样本的近邻来决定。
81.ml-knn算法可以分为五个步骤:
82.a)步骤1:给定已有标注的训练样本集
83.t=((x1,y1),(x2,y2),

,(xm,ym)},其中为标签集。对于t中的每一个样本xi(1≤i≤m),计算其k个最近邻
84.b)步骤2:对于标签集中的每个标签yj(1≤j≤q),计算待分类样本x的标签集中是否出现yj的先验概率:
[0085][0086][0087]
其中,hj表示标签yj出现这一事件,m为训练集样本总数,s为平滑项,通常取1。然后计算频率数组κj和
[0088][0089][0090]
这里,κj[r]表示样本集中样本被第j个标签yj所标注且该样本的k近邻中被yj所标注的样本个数恰为r的样本总数。其中,
[0091]
[0092]
表示样本xi的k近邻中,第j个标签yj出现的总次数。
[0093]
c)步骤3:计算待分类样本x的k近邻
[0094]
d)步骤4:对于标签集中的每个标签yj(1≤j≤q),统计待分类样本x的k近邻中第j个标签yj出现的频数:
[0095][0096]
e)步骤5:预测待分类样本x的标注结果:
[0097][0098]
其中,根据贝叶斯定理有
[0099][0100]

[0101][0102][0103]
这里,表示待分类样本x的k近邻中被标签yj所标注的样本个数恰为cj的条件下,样本x也被标签yj所标注的概率。则表示待分类样本x被标签yj所标注的情况下,其k近邻中被标签yj所标注的样本个数恰为cj的可能性。
[0104]
然而,该算法存在如下技术缺陷:
[0105]
1)该算法并未显式利用真实的实体关系网络信息。事实上它基于最近邻思想,隐式的构建了一张实体关系网络:每个结点均有k个相邻结点,且边权值为结点间特征向量计算而得的欧几里德距离。但显然,这样构建的图并不能准确描述结点间关联关系,有些结点可能只与少数几个结点相似,而有些结点则可能与许多结点都有相关关系,简单化的划定一个结点度的阈值并不合理,构造出的k近邻图通常与实际问题中已经存在的实体关系网络有一定出入。
[0106]
2)该算法在样本不平衡的情况下,对于稀有类别的预测效果差。由于算法给出标注预测结果的思想是统计样本k近邻中被该标签所标注的比例,若标签在训练样本集中出现的频率很低,则k近邻中几乎无被这一标签所标注的样本,导致计算出的后验概率失真较大。
[0107]
3)该算法是基于单视图设计的,即简单的将所有样本特征组合成单个特征向量,
无法直接套用到多视图数据的情形下。
[0108]
此外,相关技术中的对比文件2还提供了一种基于协同的多标签传播算法cmlp。相较于经典的单标签传播算法,cmlp基于“协同假设”(collaborative assumption),将标签间关联考虑到模型当中,认为单个标签的预测结果不仅来自于这个标签自己的贡献,也来源于其它标签的贡献。
[0109]
记实例的特征矩阵其中n为实例个数,p为特征维数。y∈{-1,+1}
l
×q为已标注实例的标签矩阵,其中l(l<n)为已标注实例个数,q为标签个数。非负矩阵w=[w
ij
]n×n为实体关系网络的邻接权值矩阵。令p=d-1/2
wd-1/2
为w的规范化传播矩阵,其中d=diag[d1,d2,

,dn]为对角矩阵,
[0110]
cmlp算法包含两大步骤:
[0111]
a)步骤1:估计标签关联矩阵。
[0112]
基于“协同假设”,作者引入了一个标签关联矩阵r=[r
ij
]q×q,其中r
ij
反映了第i个标签对第j个标签的贡献大小,且r
ii
=0。由此,作者认为最终预测结果应该为原始预测结果f(x)和引入了关联矩阵r的预测结果间的折中,即
[0113][0114]
为求解关联矩阵r,作者从上式出发得出一个岭回归优化问题:
[0115][0116]
其中,yj和rj分别表示y和r的第j列,α为协同度,γ为正则化参数。
[0117]
b)步骤2:获得预测结果。
[0118]
记模型的输出为其中算法cmlp的目标函数被定义为:
[0119][0120]
其中,为引入的中间变量,q=(1-α)1+αr,μ和λ为平衡项参数。fi表示矩阵f的第i行。||
·
||f为frobenius范数。论文中通过交替迭代法进行优化求解,变量初始值和z
(0)
=y。
[0121]
首先,固定z更新f,有f的梯度下降的递推步为:
[0122]
[0123]
其中,β为学习率,
[0124]
然后,固定f更新z,有z的闭式解:
[0125][0126]
其中,
[0127]
不断重复上述两步直到收敛,然后把输出结果转换为最终的预测结果
[0128]
然而,该算法存在如下技术缺陷:
[0129]
1)该算法中的实体关系网络事实上是通过实体特征向量构造出的k近邻图,因此算法真正利用的实体信息只有其特征,而无网络。在一些实践场景中,实体的特征向量和实体关系网络往往是同时存在的,但该算法并没有考虑到这种情况。
[0130]
2)尽管该算法通过标签传播算法显式的利用了实体关系网络,但是标签传播算法的感受野仅局限于结点的一阶邻域,不能获取到更广泛的连通信息。此外,标签传播算法只能捕捉到线性的图拓扑结构,无法捕捉到复杂的非线性结构。
[0131]
3)该算法是基于实体只拥有一种关系网络的情形下设计的,无法应用于多种实体关系网络的场景。若需套用,则得事先将多视图网络通过加权平均、一致性集成等手段压缩为单视图网络,这样势必会造成潜在的信息丢失和噪音引入,影响模型的最终预测性能。
[0132]
尽管已有大量的研究关注于实体多标签分类算法,但是申请人在检索了大量现有技术资料后发现,当前尚未有人从多视图学习(multi-view learning)的角度出发,基于多种实体关系网络进行多标签预测。
[0133]
为了弥补这一空白,申请人提出基于深度图卷积网络(graph convolutional network,gcn)对实体关系网络中蕴含的信息进行抽取,并通过排序学习算法对多个视图间信息进行集成融合,从而获得更佳的预测效果。
[0134]
为便于对本实施例进行理解,首先对本公开实施例所公开的一种实体分类方法进行详细介绍,本公开实施例所提供的实体分类方法的执行主体一般为具有一定计算能力的电子设备,该电子设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(user equipment,ue)、移动设备、用户终端、蜂窝电话、无绳电话、个人数字助理(personal digital assistant,pda)、计算设备等。在一些可能的实现方式中,该实体分类方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
[0135]
参见图1所示,为本公开实施例提供的实体分类方法的流程图,所述方法包括步骤s101~s103,其中:
[0136]
s101:获取多个实体节点对应的多个实体关系网络;同一实体节点在不同实体关系网络中对应不同的实体关系;
[0137]
s102:基于训练好的多个基学习器对多个实体关系网络进行多标签预测,得到每个实体节点在每个实体关系网络中的多标签预测结果;
[0138]
s103:基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实
体节点对应的最终多标签预测结果。
[0139]
为了便于理解本公开实施例提供的实体分类方法,接下来首先对该方法的应用场景进行详细介绍。本公开实施例中的实体分类方法主要可以应用于任何需要进行多标签预测的应用领域中,例如可以应用于社交媒体对用户进行多标签分类的应用场景。这里预测得到的每个实体节点对应的最终多标签预测结果,可以是用户是否忠诚、是否活跃、话题偏好、消费偏好等等的多标签预测。
[0140]
本公开实施例提供的实体分类方法在获取到多个实体节点对应的多个实体关系网络(对应多个视图)的情况下,可以基于训练好的多个基学习器对多个实体关系网络进行多标签预测,以更好的挖掘多个视图下多个实体节点之间的实体关系,从而使得所确定的多标签预测结果更为准确。
[0141]
这里,在利用基学习器进行多标签预测之前,首先可以利用输入的实体集合对实体关系网络进行建模,这样所建模得到的实体关系网络更加贴合真实世界中样本间存在复杂关联而非相互独立的特性。通过输入的实体关系网络,本公开实施例可以更容易发掘样本间隐含的相似特征,并利用这种相似性提升多标签分类的准确性。
[0142]
本公开实施例可以专门针对实体间存在多种关系网络的情况进行建模设计,有效利用了多个视图彼此之间通常具备的互补性和一致性特点,弥补了单视图蕴含的分类信息较弱的问题,有利于利用不同视图的优势提升模型的最终预测性能。
[0143]
并且,通过多视图学习避免了将多种数据源堆砌为高维的单视图数据后带来的过学习问题,即模型过于复杂导致将数据噪声也学入分类法则的现象。同时,本公开实施例中,针对每个实体关系网络可以对应一个基学习器进行多标签预测,也即,这里的多视图学习框架允许各视图训练自己的分类器,得以保留各自数据源的特性。
[0144]
不管是哪个基学习器,其整体框架结构可以是相同的,例如,可以依次包括进行特征降维的全连接输入层、能够进行图卷积操作的表示学习模块以及适合预测分类的全连接输出层。
[0145]
在实际应用中,针对多个实体关系网络中的目标实体关系网络,利用与目标实体关系网络对应的目标基学习器对目标实体关系网络进行多标签预测,得到每个实体节点在目标实体关系网络中的多标签预测结果。
[0146]
这里的目标实体关系网络可以是多个实体关系网络中的任一网络,也可以是多个实体关系网络中的每个网络,还可以是多个实体关系网络中的所有网络,本公开实施例对此不做具体的限制。考虑到不同的实体关系网络将对应能够表征不同视图下的节点特征,因而,这里的目标实体关系网络可以是每个网络,这样,针对每个网络可以利用对应训练好的基学习器进行多标签预测,从而得到每个实体节点在每个实体关系网络中的多标签预测结果。
[0147]
在实际针对目标实体关系网络进行多标签预测的过程中,具体可以通过如下步骤来实现:
[0148]
步骤一、将目标实体网络中每个实体节点的原始特征向量输入到目标基学习器包括的全连接输入层,确定全连接输入层输出的针对每个实体节点的降维特征向量;
[0149]
步骤二、将降维特征向量输入到目标基学习器包括的表示学习模块,确定蕴含有低阶信号及相似节点信息的隐藏特征向量;
[0150]
步骤三、将隐藏特征向量输入到目标基学习器包括的全连接输出层,确定每个实体节点在目标实体关系网络中的多标签预测结果。
[0151]
这里,利用基学习器包括的全连接输入层可以提取出针对每个节点的降维特征向量,以更好的通过表示学习模块进行隐藏特征向量的提取,进而,可以通过全连接输出层实现多标签预测。
[0152]
本公开实施例提供的多标签预测方案中的表示学习模块解决了现有算法(如对比技术1和对比文件2)的感受野仅局限于结点的一阶领域的问题,通过图卷积层的多重叠加使得网络中的低阶和高阶拓扑信息得以充分融合,从而挖掘出潜在的结点相似特性。通过构建的更加深层次网络结构,可以获得更广阔的感受野,组合更多的浅层特征来表征更复杂的抽象特征。受益于深层架构,即使面对大规模实体关系网络,本公开实施例也能够对整个网络结构有较为全局的认识。
[0153]
需要说明的是,这里的结点与实体节点可以作为同一表述进行参考。
[0154]
这主要是考虑到一般而言,社交网络中两个间接相邻的结点间也可能存在着紧密的互作关系。例如,用户a和用户b之间经常分享帖文,用户a和用户c之间也时常分享帖文。尽管用户b和用户c之间互不认识,但是可以推断用户b和用户c对于帖文有着类似的偏好。在这个例子中,用户b和用户c就不是直接相邻(1-hop neighborhood),而是通过用户a的次级邻接结点(2-hops neighborhood)。因此,通过考虑高阶的网络拓扑结构有助于发掘潜在的实体相似特性,故而这里的表示学习模块具有更为实际的意义。
[0155]
考虑到基学习器的训练对于实现多标签预测的关键作用,接下来将以目标基学习器的训练示例说明有关训练过程,具体包括如下步骤:
[0156]
步骤一、获取样本实体关系网络,样本实体关系网络中的部分实体节点具有多标签标注结果;
[0157]
步骤二、利用全连接输入层对样本实体关系网络中的每个实体节点进行降维表示,确定进行降维转换后每个实体节点的节点降维隐含表示;
[0158]
步骤三、利用表示学习模块包括的图卷积层对节点降维隐含表示进行低阶信号的注意力学习,得到进行注意力学习后每个实体节点的节点注意力隐含表示;以及利用表示学习模块包括的条件随机场层对节点注意力隐含表示进行节点相似学习,得到进行节点相似学习后每个实体节点的节点相似隐含表示;
[0159]
步骤四、利用全连接输出层对每个实体节点的节点相似隐含表示进行多标签预测,得到预测结果;
[0160]
步骤五、基于预测结果与多标签标注结果对目标基学习器进行调整,得到训练好的目标基学习器。
[0161]
考虑到简单的堆叠大量图卷积模块,会导致低阶拓扑信息在到达深层图卷积层时已被衰减殆尽,使得最终生成的结点嵌入表示中低阶拓扑信号很弱。而在实际应用中,尽管在用户社交网络中一些二阶邻接结点之间可能存在着较为紧密的互作关系,不过通常而言,一对高阶结点间存在紧密关系的可能性会比较低。因此,低阶拓扑信息对于最终预测结果的贡献度是要高于高阶拓扑信息的。
[0162]
基于此,本公开实施例使用了两种解决方案:(1)基于“跳连接”思想,在每一个卷积层均引入结点的初始表示,并在转换矩阵中添加恒等映射,使得结点的初始表示和低阶
拓扑信息能传递到更深的隐含层;(2)在每一个图卷积模块后追加条件随机场层,促使相邻结点间的相似性信息被保留,避免反复的图卷积变换后导致相似性信息损失。通过上述两种解决策略,本公开实施例中的基学习器能够可以有效缓解过平滑问题,合理的平衡低阶与高阶拓扑信息对结点嵌入表示的贡献程度,从而得到相比于原始图卷积模块更优异的多标签预测效果。
[0163]
具体而言,上述有关节点注意力隐含表示的确定过程可以通过如下步骤来确定:
[0164]
步骤一、将节点降维隐含表示作为每个图卷积层的初始表示;
[0165]
步骤二、针对除第一个图卷积层之外的当前图卷积层,执行如下步骤:
[0166]
(1)将样本实体关系网络以及当前图卷积层之前的上一个图卷积层输出的节点注意力隐含表示输入到其它图卷积层中的图注意力层,确定图注意力层输出的节点注意力隐含表示;
[0167]
(2)基于初始表示、图注意力层输出的节点注意力隐含表示、以及当前图卷积层的训练参数,确定当前图卷积层输出的节点注意力隐含表示。
[0168]
此外,上述有关节点相似隐含表示的确定过程可以通过如下步骤来确定:
[0169]
步骤一、针对每个实体节点,构建对应实体节点的最大化条件概率函数;最大化条件概率函数由实体节点的节点相似隐含表示与实体节点的节点注意力隐含表示之间的第一差值、以及实体节点的节点相似隐含表示与多个实体节点中除实体节点之外的其他实体节点的节点相似隐含表示之间的第二差值来确定;
[0170]
步骤二、在确定最大条件概率函数达到最大函数值的情况下,确定每个节点的节点相似隐含表示。
[0171]
可知的是,这里的基学习器以实体标签向量为输入,通过全连接输入层进行特征降维。之后,将初步处理后的特征表示送入表示学习模块,在实体关系网络a
(k)
上运行图卷积进行消息传递,融入网络的拓扑结构信息,并使用条件随机场对结点表示进行调整以保留局部相似性特征,从而生成高质量的实体结点嵌入表示(即节点相似隐含表示)。
[0172]
这些嵌入表示随后又通过全连接输出层的多层感知器进行提炼,得到最终的嵌入表示,并以此给出结点与标签间是否存在关联的似然性预测结果,更具准确性。
[0173]
为了便于进一步理解基学习器的训练过程,接下来结合图2进行有关基学习器的整体流程的说明。
[0174]
由于实体节点的原始特征向量往往是高维稀疏的,不加处理直接送入图卷积网络中会造成计算压力陡增。为此,基学习器的第一步便是将实体的原始特征向量通过一个全连接输入层进行降维,使其映射为一个低维稠密向量。
[0175]
具体地,本公开实施例中全连接输入层的转换函数定义为
[0176][0177]
其中,xi为第i个实体pi的原始特征向量,表示通过第k个基学习器的全连接输入层进行降维转换后的结点隐含表示。w
(k)[0]
为权重参数矩阵,b
(k)[0]
为偏置参数。σ(
·
)为激活函数,本公开实施例中选用带泄漏线性整流函数leakyrelu,其定义为
[0178][0179]
其中,ρ∈(0,1)为设定常数,表示激活函数中第三象限射线的斜率。
[0180]
如图2所示,表示学习模块作为基学习器的核心组件,可以分为图卷积和条件随机场两大子模块。首先,为了将实体关系网络中的拓扑信息融入到结点的嵌入表示之中,本公开实施例中使用了图卷积网络技术。图卷积网络以前一层网络得到的实体结点嵌入表示为输入,在实体关系网络上进行消息传递(message passing)操作,产生初步的隐含表示。之后,为保留直接邻域内的相似性信息,通过条件随机场对初步的隐含表示进行二次加工,得到新的结点嵌入表示。这样的表示学习模块可以堆叠多层(总层数记为l),以前一层的输出作为下一层的输入,从而可以充分捕捉网络中的低阶和高阶拓扑结构。
[0181]
本公开实施例中的图卷积模块主要分为四个部分:图卷积、批规范化(batch normalization,bn)、激活函数和随机失活(dropout)。
[0182]
其中,图卷积层运行于实体关系网络之上,接收前一步骤得到的实体结点的嵌入表示为输入,通过转换函数引入实体关系网络的拓扑结构信息,输出新的实体结点的嵌入表示。
[0183]
这里的图卷积层包含两步运算:第一步,通过图注意力层(graph attention,gat)在实体关系网络上进行消息传递;第二步,通过初始表示和恒等映射对前面图注意力层产生的结果进行再加工,以保留结点表示中的低阶信号,有关当前图卷积层输出的节点注意力隐含表示的具体实现可参照图3。
[0184]
首先,不同于原生的图卷积操作将所有的邻接结点赋予相同的权重进行简单直接的加和,本公开实施例中采用了动态注意力机制(dynamic attention)自适应的学习邻接结点的权重,使得不同的邻居对中心结点信息的贡献程度有高有低,从而缓解了噪音对模型学习的干扰,增强了模型的鲁棒性。以实体节点pi为例,第l层的转换函数定义为:
[0185][0186]
其中,注意力系数α
i,j
的计算公式为:
[0187][0188]
式中,为实体pi在第l-1个表示学习模块产生的嵌入表示,且即为全连接输入层降维得到的输出表示。表示在实体关系网络中与结点pi关联的邻接结点集合(但不包含pi自身)。θ
(k)[l]
为第l层图注意力层的待学习权重参数矩阵。a
(k)[l]
为待学习的自注意力参数向量,用于注意力系数的计算。符号||表示向量拼接操作。
[0189]
由于堆叠过深的图卷积层会产生过平滑现象,损害最终的预测精度。为此,本公开实施例中在上述图注意力层之后引入了结点的初始表示和恒等映射技术,以强化低层网络信号使其得以充分保留。具体地,以实体节点pi为例,第l层的转换函数定义为:
[0190][0191]
其中,为全连接输入层降维得到的输出表示,即结点的初始表示。i为恒等映射矩阵。超参数α
(k)[l]
控制初始残差连接的强度(对应第一加权求和运算),β
(k)[l]
控制恒等映射的强度(对应第二加权求和运算)。一般,β
(k)[l]
通过以下公式:
[0192][0193]
去计算,其中θ为超参数,l表示当前模型处于第几层。该式表明,随着l不断增大,β
(k)[l]
会逐渐减小,恒等映射在卷积中的作用愈发突出。于是,越是处在深层,新引入的高阶拓扑信息越少,更多的低阶拓扑信息得以被保留。
[0194]
考虑到在深度神经网络中,每一层输入的分布在训练期间会随着前一层参数变化而变化,这种现象被称为内部协变量偏移(internal covariate shift)。对于神经网络的隐含层输出,在经过层内的各种变换操作以后,其分布会与输入信号分布不同,而且差异会随着网络深度的增大而加剧。这导致深层网络的收敛速度越来越慢,变得难以训练。本公开实施例中利用批规范化在训练的每一轮随机梯度下降中,对输入信号进行规范化操作,使得输出信号各维度上的均值为0、方差为1,从而缓和了内部协变量偏移现象,并在一定程度上缓解了梯度消失问题,使得深层网络的训练更加快速稳定。
[0195]
其中,上述批规范化一共包含四个步骤。给定一批输入信号,即前述图卷积层的输出结果它们的经验均值和方差分别为:
[0196][0197][0198]
之后,通过重中心化和重缩放对输入信号进行规范化:
[0199][0200]
其中,ε为一个任意小的常数,目的是为了保证数值稳定性。最后,对规范化结果进行尺度变换和偏移,得到批规范化的最终转换结果:
[0201][0202]
其中,γ
(k)[l]
和δ
(k)[l]
均为待学习参数。
[0203]
图卷积模块的第三步是对神经元的映射结果施加非线性激活函数。公开实施例中可以使用leakyrelu函数,于是输出结果为:
[0204][0205]
另外,随机失活作为一种常用的正则化方法,可以有效的缓解模型的过拟合问题。它的核心思想是,在训练过程中,让神经元以某一给定的概率停止工作,不再参与接下来的前向传播和反向传播,从而提高模型的泛化能力。
[0206]
在基学习器的训练阶段,随机失活的计算公式是:
[0207][0208]
其中,r
(k)[l]
表示一个掩膜向量,其中每个元素都是遵循概率为p的伯努利分布的随机变量,即神经元有概率p被保留。符号表示向量的逐元素乘法。
[0209]
在模型测试阶段,则没有采用随机失活,所有的神经元都是活跃的,即:
[0210][0211]
在进行过图卷积模块的一系列操作之后,可以利用条件随机场模块进行相似节点的特征学习。这主要是考虑到尽管图卷积操作可以将连通性信息编码进结点的隐含表示中,但是随着嵌套层数的增加,一阶邻域内结点间的相似性特征将会被冲淡,导致最终获得的结点隐含表示无法准确的表征结点在网络中的实际上下文关系。为此,本公开实施例中使用了条件随机场来保留结点隐含表示中的相似性关系。
[0212]
形式化地,给定图卷积模块产生的结点隐含表示条件随机场模型意图通过最大化条件概率
[0213][0214]
来预测包含了相似性信息的结点表示其中z(
·
)表示配平函数(partition function),充当规范化因子,e(
·
)表示能量函数(energy function)。对于能量函数,其包含两个部分:一元(unary)能量函数和二元(pairwise)能量函数。本公开实施例中,定义结点pi的能量函数为:
[0215][0216]
其中,和ψ
(k)[l]
>0为超参数(对应第三加权求和运算),用以平衡两部
分能量函数;用于表示第一差值,用于表示第二差值、表示结点pi和pj间的相似度(即节点相似度)。显然,该能量函数一方面保证条件随机场处理产生的结点表示和输入的原始结点表示间的差距有限,另一方面促使条件随机场处理产生的结点表示保留了图的相似性特性。
[0217]
本公开实施例中通过平均场近似法(mean-field approximation method)对条件随机场进行推理求解。求解过程包含t(k)[l]轮迭代,其中第t(1≤t≤t
(k)[l]
)轮迭代的计算公式为:
[0218][0219]
其中,结点pi和pj间的相似度可通过高斯函数计算:
[0220][0221]
式中,σ
(k)[l]
为待学习参数。经过反复的迭代,最终得到结点pi的隐含表示为:
[0222][0223]
在经历了l层表示学习模块的反复迭代后,获得了充分浓缩了网络拓扑结构和相似性信息的结点pi的隐含表示利用该表示,通过一个全连接输出层,可以最终产生结点pi的多标签预测结果:
[0224][0225]
其中,φ(
·
)为sigmoid函数,即
[0226][0227]
e为自然对数的底数。w
(k)[l+1]
为待学习参数权重矩阵。中的第j个元素表示结点pi与标签tj间预测出的似然性分数。
[0228]
在实际的多标签分类数据集上,许多标签只会用以标注很少量的样本,使用传统的交叉熵损失函数会导致最终的模型在低频标签上的预测效果不理想。为了缓解正负样本不平衡,本公开实施例中,可以结合用于调整正负样本数量的第一权重参数、以及调节难区分样本贡献度的第二权重参数进行训练参数的调整。
[0229]
在实际应用中,可以使用focal损失函数。该损失函数通过均衡正负样本间的权重,动态调节易分样本和难分样本对于损失函数的贡献程度,使模型训练过程更加关注于那些难区分样本,从而获得更好的训练效果。
[0230]
具体地,目标函数被定义为
[0231][0232]
其中,y
i,j
表示训练数据集上真实的标签值(对应多标签标注结果),则为基学习器的预测值(对应预测结果)。参数α(对应第一权重参数)调节正负样本间的权重,参数γ(对应第二权重参数)调节难区分样本的权重。
[0233]
可知的是,本公开实施例中提出使用focal损失函数对基学习器进行训练,通过为难分辨的样本赋予较大的权重,扩大其于其它样本在损失函数中的影响力,促使损失函数把重点集中于难分辨的样本上,从而可以有效缓解了正样本高度稀疏性和极度的标签不平衡现象对模型训练产生的不利影响,解决了已有方法(如对比技术1)中正样本影响力过小导致判决界面往负样本偏移使得模型预测精度不佳的问题,特别的在低频标签上可获得更佳的预测性能。
[0234]
除此之外,本公开实施例中可以使用adam优化器对目标函数进行优化。adam优化器作为一种基于自适应一阶和二阶动量估计的随机梯度下降算法,因其高效的计算速度和极少的内存消耗,可以很好的应用于大规模神经网络的优化问题中。事先设定好学习率以及分别用于一阶和二阶动量估计的指数衰减速率等参数,通过梯度下降算法,不断降低目标函数值并利用反向传播优化更新模型参数,直到目标函数值达到收敛后训练终止。
[0235]
这里,在利用每个基学习器得到对应的多标签预测结果的情况下,可以结合排序学习方法实现最终的标签预测结果的确定,也即,本公开实施例中可以将排序学习算法作为元学习器(meta-learner)对各视图上基学习器分别得到的初步预测结果进行整合,提高预测的泛化性能。具体可以通过如下步骤来实现:
[0236]
步骤一、针对多个候选标签中的目标候选标签,基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实体节点针对目标候选标签的标签特征向量;
[0237]
步骤二、基于训练好的元学习器对多个实体节点针对目标候选标签的标签特征向量进行排序学习,确定每个实体节点对应的最终多标签预测结果。
[0238]
与目标实体关系网络类似的是,这里的目标候选标签也可以是多个候选标签中的一个候选标签,也可以是每个候选标签,还可以是部分候选标签,这里可以是每个候选标签。这样,针对每个实体节点可以确定针对每个候选标签的标签特征向量,也即,每一个实体节点标签对可以对应一个标签特征向量,且向量值对应的是基学习器的预测分值。
[0239]
将各个实体节点标签对所确定的多个标签特征向量作为元学习器的输入,即可确定出每个实体节点对应多个候选标签的排序后预测分值,而后通过预设阈值的筛选即可确定出实体节点对应的多标签预测结果。
[0240]
接下来可以重点说明有关元学习器的训练过程,包括如下步骤:
[0241]
步骤一、获取包括有多个样本特征向量的样本训练集,样本特征向量的每一个维度值指向一个实体节点标签对;
[0242]
步骤二、遍历样本训练集中的每个样本特征向量,并确定每个样本特征向量的λ-梯度;
[0243]
步骤三、基于多个样本特征向量以及每个样本特征向量的λ-梯度构建回归树;
[0244]
步骤四、基于回归树的各个叶子结点与各个实体节点之间的对应关系,对待训练的元学习器中每个实体节点的排序得分进行更新,得到训练好的元学习器。
[0245]
这里,首先可以根据基学习器的预测打分构造元学习器的样本特征向量。记实体关系网络a
(k)
上为标签tj训练的基学习器为则其预测的实体pi被标签tj的似然性分数为
[0246]
对于每一个标签tj,将v种基学习器得到的预测打分拼接起来构成一个分数串作为排序学习模型(即元学习器)的输入特征向量。具体地,对于实体pi与标签tj对,其特征向量构造为
[0247][0248]
其中,每个分数
[0249]
然后可以通过排序学习模型给出最终预测结果。这里的排序学习(learning to rank,ltr)是一种在搜索引擎和推荐系统中广泛应用的机器学习技术,是能够在给定查询关键词的情况下,对候选文档集进行排序,使相关文档排名靠前的监督学习算法。
[0250]
在实际应用中,可以采用lambdamart进行排序学习,该排序学习方法的核心是将排序问题转化为成对(pairwise)回归问题,即给定查询实体pi,对于标签tj和tk,lambdamart会预测出tj比tk更相关的似然性分数,该数值越高,表示相比于tk,pi越可能被tj所标注。
[0251]
lambdamart算法融合了多重加性回归树(multiple additive regression tree,mart)和基于神经网络的成对排序学习模型lambdarank的优点。
[0252]
具体地说,基于mart的思想,lambdamart本质上是一棵梯度提升树(gradient boosted decision tree,gbdt),其最终输出是一组回归树输出的线性组合。并且,lambdamart将梯度提升树中的梯度计算部分替换为了lambdarank中的梯度,从而使mart适用于排序任务。
[0253]
lambdamart的训练算法流程如下所示。为了简便表示,以下记实体pi与标签tj构成的对所对应的特征向量为xc=x

i,j
,相应的标签yc=y
i,j
,由此元学习器训练数据集的大小
[0254]
训练初始状态时,所有样本的预测值均赋为0。在初始化完成后,这里的排序学习方法会迭代的生成t棵树,以不断对残差进行拟合,提升最终的预测性能。每一轮迭代都包含四个部分。
[0255]
第一部分是遍历训练集,计算每个样本的λ-梯度及其导数。具体地,首先对于样本xi和xj,定义
[0256][0257]
其中,si=f
t-1
(xi)和sj=f
t-1
(xj)表示模型此时给出的对于样本xi和xj的预测结果。|δndcg
ij
|是互换xi和xj的排序位置后评估指标归一化折损累计增益(normalized discounted cumulative gain,ndcg)的变化情况。假设xi和xj在预测结果中的排序位置分别是ri和rj,则
[0258][0259]
其中,idcg(idea dcg)表示完美排序下的dcg值,或者说将样本按照先正样本后负样本排列后计算的dcg值:
[0260][0261]
这里,表示完美排列中xi的排序位置。
[0262]
接着,对于样本xi,累计其与其它所有样本的λ
ij
值,得
[0263][0264]
其中,i为所有{i,j}索引对(i<j)组成的集合,即i={{1,2},{1,3},{1,4},

,{2,3},{2,4},

}。为了方便,可以简记
[0265][0266]
其中,记
[0267]
于是,将λi对si求导,得
[0268][0269]
第二部分即基于样本的特征向量构建回归树对λ-梯度进行拟合。这里选用的启发式结点分裂准则为最小平方误差(minimal square error,mse)。
[0270]
具体地,对于数据集其中特征向量xc=(x
c,1
,x
c,2


,x
c,v
),x
c,j
表示第j维特征值,zc即样本xc的λ-梯度λc。现在,可以穷举所有的特征j(1≤j≤v)上的所有取值τ,找到使得下列和式最小的那一维特征j
*
及其上的取值τ
*

[0271][0272]
其中,满足的所有样本均落入左子树l中,的所有样本落入右子树r中,μ
l
和μr分别表示落入左子树和右子树所有样本目标值的均值。于是,可以得到了一棵最简单的、拥有一个根结点、两个叶子结点的二叉回归树。那么,只需要同样的根据最优阈值不断对叶子结点进行切分,重复l-1次,即可得到一棵包含l个叶子结点的回归树。
[0273]
对于第t棵树上的第l个叶子结点,r
lt
表示落入这个叶子结点的所有样本的集合。
[0274]
这里,对于第t棵树上的第l个叶子结点,其上的乘数值的计算公式为:
[0275][0276]
最后一部分即将当前这一轮学习到的回归树添加到已有的排序学习模型中,对每个样本的得分进行更新:
[0277][0278]
其中,[[xc∈r
lt
]]指示样本xc是否落在叶子结点r
lt
中,若是则该值为1,否则为0。参数η为设置的学习率。实践表明,相较于不设置学习率(即η=1),配置较小的学习率(一般σ<0.1)会使模型的泛化性能得到极大的提升。这种正则化方式被称为“衰减”(shrinkage)。
[0279]
至此,我们已经完成了一轮迭代,构建了一棵回归树。
[0280]
本公开实施例中,通过反复的完成上述四步操作,可以得到最终的排序学习模型
[0281][0282]
其中,t为设定的迭代轮数。
[0283]
基于上述描述内容可知的是,本公开实施例所要解决的问题是在给定多个实体关系网络和部分实体已知标注的情况下,对未标注实体进行多标签分类预测。本公开实施例所给出的预测算法分为两个阶段,基于集成学习中的堆叠(stacking)策略,先通过以深度图神经网络为主干的基学习器(base-learner)充分挖掘捕捉实体关系网络中的低阶和高阶拓扑信息,再通过排序学习算法作为元学习器(meta-learner)对各视图上基学习器分别得到的初步预测结果进行整合,提高模型的泛化性能。为了便于进一步理解上述两个阶段的实现逻辑,可以结合图4进行具体说明。
[0284]
形式化地,设为标签集,其中n为标签的总数。在由m个实体所组成的集合中,前l个实体已拥有标注,记第i个实体pi的标注为yi=(y
i,1
,y
i,2


,y
i,n
),其中y
i,j
∈{0,1}表示pi是否被标签tj所标注,若标注则值为1,否则为0;记实体pi(i=1,

,m)的特征向量为
[0285]
此外,在这些实体间还存在着v种不同的关系网络从不同角度对实体间的关系进行描述,其中,第k个视图上的互作关系网络的邻接矩阵中第(i,j)个元素表示实体pi和pj间是否存在相关关系,若存在则值为1,否则为0。
[0286]
并且,本公开实施例中所涉及的实体关系网络属于无向无权图,且满足本方案所要解决的问题,就是利用已知的标注集和多视图实体关系网络预测剩余u=m-l个实体的标注
[0287]
给定数据集其中为已标注实体集,为未标注实体集。在模型训练过程中,先将按一定比例划分为和两部分,其中用于基学习器的训练,用于元学习器的训练。则为待预测标注的实体集。
[0288]
由图4可知的是,区别于大多数现行算法(如对比技术1和2)仅从单种关系网络上进行信息抽取的做法,本公开实施例采用集成学习技术中的“堆叠”思想,对从各种实体间关系网络上捕捉到的初步信息通过排序学习模型进行整合。透过元学习器对各基学习器的初步预测结果进行集成,模型可以有的放矢的筛选出有价值的视图信息,获得比单一学习器更加优越的泛化性能,并得到蕴含更加全面信息、性能优于基学习器的最终预测结果。这主要是考虑到在如社交媒体等的现实场景中,用户并非独立存在,而是存在一定的社会关系,通常可被建模为社交网络。由于用户会有多种行为,用户间的社交网络往往并不只有一种。例如,用户间的关注、分享、点赞、评论、提及等行为均可构建出相应的关系网络。每一种网络都从一个侧面反映了用户之间社交关系的紧密程度,单从一种关系网络出发进行建模会造成刻画的偏颇。
[0289]
此外,本公开实施例采用集成学习框架对多视图先分别训练基分类器,再通过排序学习算法进行整合,达到各视图“单独学习弱,集成学习强”的目的,使得模型的最终预测性能优于任一单视图基学习器。
[0290]
本公开实施例提供的实体分类方法可以应用于各种应用领域。以社交媒体类应用程序为例,运营者一般会为用户构建一套标签体系,对用户进行描述。例如,用户标签可能包括是否忠诚、是否活跃、话题偏好、消费偏好等等。
[0291]
由此,这构建起了一个用户多标签分类的应用场景。另外,由于用户存在多种行为,用户间的社交网络往往并不只一种。例如,用户间的关注、分享、点赞、评论、提及等行为均可构建出相应的关系网络。因此,这又构建起多视图用户间社交关系网络。那么,对社交媒体中的用户进行标签预测的任务可建模为本公开实施例所提出的多视图实体多标签分类问题。
[0292]
首先,根据用户的基本属性、发帖信息、历史浏览信息、收藏信息等事实信息构建刻画用户的特征向量。并且,根据用户间的关注、分享、点赞、评论、提及等行为构建出相应的社交关系网络。此外,挑选部分用户通过人工标注的方式进行多标签标注,从而构建标准
数据集。
[0293]
第二步,将构造的用户社交关系网络、用户特征向量和人工标注输入本公开实施例提出的基于图卷积网络的基学习器中,分别获得每种视图下未标注用户的初步标签预测结果。
[0294]
最后,将上一步各基学习器产生的初步预测打分拼接起来,输入本公开实施例提出的基于排序学习算法的元学习器中,获得最终的用户的标注预测结果。
[0295]
在本说明书的描述中,参考术语“一些可能的实施方式”、“一些实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式或示例以及不同实施方式或示例的特征进行结合和组合。
[0296]
关于本公开实施方式的方法流程图,将某些操作描述为以一定顺序执行的不同的步骤。这样的流程图属于说明性的而非限制性的。可以将在本文中所描述的某些步骤分组在一起并且在单个操作中执行、可以将某些步骤分割成多个子步骤、并且可以以不同于在本文中所示出的顺序来执行某些步骤。可以由任何电路结构和/或有形机制(例如,由在计算机设备上运行的软件、硬件(例如,处理器或芯片实现的逻辑功能)等、和/或其任何组合)以任何方式来实现在流程图中所示出的各个步骤。
[0297]
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
[0298]
基于同一发明构思,本公开实施例中还提供了与实体分类方法对应的实体分类装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述实体分类方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0299]
参照图5所示,为本公开实施例提供的一种实体分类装置的示意图,装置包括:获取模块501、预测模块502、分类模块503;其中,
[0300]
获取模块501,用于获取多个实体节点对应的多个实体关系网络;同一实体节点在不同实体关系网络中对应不同的实体关系;
[0301]
预测模块502,用于基于训练好的多个基学习器对多个实体关系网络进行多标签预测,得到每个实体节点在每个实体关系网络中的多标签预测结果;
[0302]
分类模块503,用于基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实体节点对应的最终多标签预测结果。
[0303]
采用上述实体分类装置,在获取到多个实体节点对应的多个实体关系网络的情况下,可以基于训练好的多个基学习器对多个实体关系网络进行多标签预测,得到每个实体节点在每个实体关系网络中的多标签预测结果,而后基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实体节点对应的最终多标签预测结果。也即,本公开从多视图学习的角度出发,基于多种实体关系网络进行多标签预测,能够更为充分的挖掘实体之间的关系,使得针对实体节点预测的多标签预测结果更为准确。
[0304]
在一种可能的实施方式中,在多标签预测结果包括多个候选标签的预测分值的情况下;分类模块503,用于按照如下步骤基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实体节点对应的最终多标签预测结果:
[0305]
针对多个候选标签中的目标候选标签,基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实体节点针对目标候选标签的标签特征向量;
[0306]
基于训练好的元学习器对多个实体节点针对目标候选标签的标签特征向量进行排序学习,确定每个实体节点对应的最终多标签预测结果。
[0307]
在一种可能的实施方式中,分类模块503,用于按照如下步骤基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实体节点针对目标候选标签的标签特征向量:
[0308]
针对多个实体关系网络中的目标实体关系网络,从实体节点在目标实体关系网络中针对多个候选标签的预测分值中,选取出与目标候选标签匹配的目标预测分值;
[0309]
将从多个实体关系网络中分别选取出的目标预测分值进行组合,得到实体节点针对目标候选标签的标签特征向量。
[0310]
在一种可能的实施方式中,分类模块503,用于按照如下步骤基于训练好的元学习器对多个实体节点针对目标候选标签的标签特征向量进行排序学习,确定每个实体节点对应的最终多标签预测结果:
[0311]
针对多个实体节点中的目标实体节点,将目标实体节点针对目标候选标签的标签特征向量输入到训练好的元学习器,确定目标实体节点对应多个候选标签的排序后预测分值;
[0312]
基于排序后预测分值,确定目标实体节点对应的多标签预测结果。
[0313]
在一种可能的实施方式中,分类模块503,用于按照如下步骤基于排序后预测分值,确定目标实体节点对应的多标签预测结果:
[0314]
在排序后预测分值大于预设阈值的情况下,将排序后预测分值对应的候选标签确定为目标实体节点对应的多标签预测结果。
[0315]
在一种可能的实施方式中,分类模块503,用于按照如下步骤训练元学习器:
[0316]
获取包括有多个样本特征向量的样本训练集,样本特征向量的每一个维度值指向一个实体节点标签对;
[0317]
遍历样本训练集中的每个样本特征向量,并确定每个样本特征向量的λ-梯度;
[0318]
基于多个样本特征向量以及每个样本特征向量的λ-梯度构建回归树;
[0319]
基于回归树的各个叶子结点与各个实体节点之间的对应关系,对待训练的元学习器中每个实体节点的排序得分进行更新,得到训练好的元学习器。
[0320]
在一种可能的实施方式中,预测模块502,用于按照如下步骤基于训练好的多个基学习器对多个实体关系网络进行多标签预测,得到每个实体节点在每个实体关系网络中的多标签预测结果:
[0321]
针对多个实体关系网络中的目标实体关系网络,利用与目标实体关系网络对应的目标基学习器对目标实体关系网络进行多标签预测,得到每个实体节点在目标实体关系网络中的多标签预测结果。
[0322]
在一种可能的实施方式中,在目标基学习器包括全连接输入层、表示学习模块及
全连接输出层的情况下,预测模块502,用于按照如下步骤利用与目标实体关系网络对应的目标基学习器对目标实体关系网络进行多标签预测,得到每个实体节点在目标实体关系网络中的多标签预测结果:
[0323]
将目标实体网络中每个实体节点的原始特征向量输入到目标基学习器包括的全连接输入层,确定全连接输入层输出的针对每个实体节点的降维特征向量;以及,
[0324]
将降维特征向量输入到目标基学习器包括的表示学习模块,确定蕴含有低阶信号及相似节点信息的隐藏特征向量;以及,
[0325]
将隐藏特征向量输入到目标基学习器包括的全连接输出层,确定每个实体节点在目标实体关系网络中的多标签预测结果。
[0326]
在一种可能的实施方式中,预测模块502,用于按照如下步骤训练包括全连接输入层、表示学习模块及全连接输出层的目标基学习器:
[0327]
获取样本实体关系网络,样本实体关系网络中的部分实体节点具有多标签标注结果;
[0328]
利用全连接输入层对样本实体关系网络中的每个实体节点进行降维表示,确定进行降维转换后每个实体节点的节点降维隐含表示;
[0329]
利用表示学习模块包括的图卷积层对节点降维隐含表示进行低阶信号的注意力学习,得到进行注意力学习后每个实体节点的节点注意力隐含表示;以及利用表示学习模块包括的条件随机场层对节点注意力隐含表示进行节点相似学习,得到进行节点相似学习后每个实体节点的节点相似隐含表示;
[0330]
利用全连接输出层对每个实体节点的节点相似隐含表示进行多标签预测,得到预测结果;
[0331]
基于预测结果与多标签标注结果对目标基学习器进行调整,得到训练好的目标基学习器。
[0332]
在一种可能的实施方式中,在包括多个图卷积层的情况下,预测模块502,用于按照如下步骤利用表示学习模块包括的图卷积层对节点降维隐含表示进行低阶信号的注意力学习,得到进行注意力学习后每个实体节点的节点注意力隐含表示:
[0333]
将节点降维隐含表示作为每个图卷积层的初始表示;
[0334]
针对除第一个图卷积层之外的当前图卷积层,执行如下步骤:
[0335]
将样本实体关系网络以及当前图卷积层之前的上一个图卷积层输出的节点注意力隐含表示输入到其它图卷积层中的图注意力层,确定图注意力层输出的节点注意力隐含表示;
[0336]
基于初始表示、图注意力层输出的节点注意力隐含表示、以及当前图卷积层的训练参数,确定当前图卷积层输出的节点注意力隐含表示。
[0337]
在一种可能的实施方式中,预测模块502,用于按照如下步骤基于初始表示、图注意力层输出的节点注意力隐含表示、以及当前图卷积层的训练参数,确定当前图卷积层输出的节点注意力隐含表示:
[0338]
基于初始表示以及图注意力层输出的节点注意力隐含表示之间的第一加权求和运算,确定第一图卷积算子;以及基于当前图卷积层的训练参数以及对应当前图卷积层的恒等映射矩阵之间的第二加权求和运算,确定第二图卷积算子;
[0339]
基于第一图卷积算子和第二图卷积算子,确定当前图卷积层输出的节点注意力隐含表示。
[0340]
在一种可能的实施方式中,预测模块502,用于按照如下步骤利用表示学习模块包括的条件随机场层对节点注意力隐含表示进行节点相似学习,得到进行节点相似学习后每个实体节点的节点相似隐含表示:
[0341]
针对每个实体节点,构建对应实体节点的最大化条件概率函数;最大化条件概率函数由实体节点的节点相似隐含表示与实体节点的节点注意力隐含表示之间的第一差值、以及实体节点的节点相似隐含表示与多个实体节点中除实体节点之外的其他实体节点的节点相似隐含表示之间的第二差值来确定;
[0342]
在确定最大条件概率函数达到最大函数值的情况下,确定每个节点的节点相似隐含表示。
[0343]
在一种可能的实施方式中,预测模块502,用于按照如下步骤构建对应实体节点的最大化条件概率函数:
[0344]
针对每个实体节点,获取实体节点的节点相似隐含表示与实体节点的节点注意力隐含表示之间的第一差值、实体节点的节点相似隐含表示与多个实体节点中除实体节点之外的其他实体节点的节点相似隐含表示之间的第二差值、以及实体节点与其他实体节点之间的节点相似度;
[0345]
将第二差值与节点相似度进行乘积运算,确定乘积结果;
[0346]
将实体节点与各个其他实体节点之间的乘积结果进行求和运算,得到第二差值和;
[0347]
基于第一差值与第二差值和之间的第三加权求和运算,确定最大化条件概率函数。
[0348]
在一种可能的实施方式中,预测模块502,用于按照如下步骤基于预测结果与多标签标注结果对目标基学习器进行调整,得到训练好的目标基学习器:
[0349]
获取用于调整正负样本数量的第一权重参数、以及调节难区分样本贡献度的第二权重参数;
[0350]
基于第一权重参数、第二权重参数、以及预测结果与多标签标注结果之间的差值结果,确定目标基学习器的目标损失函数值;
[0351]
基于目标损失函数值对目标基学习器的训练参数值进行至少一轮调整,得到训练好的目标基学习器。
[0352]
需要说明的是,本技术实施方式中的装置可以实现前述方法的实施方式的各个过程,并达到相同的效果和功能,这里不再赘述。
[0353]
本公开实施例还提供了一种电子设备,如图6所示,为本公开实施例提供的电子设备结构示意图,包括:处理器601、存储器602、和总线603。存储器602存储有处理器601可执行的机器可读指令(比如,图5中的装置中获取模块501、预测模块502、分类模块503对应的执行指令等),当电子设备运行时,处理器601与存储器602之间通过总线603通信,机器可读指令被处理器601执行时执行如下处理:
[0354]
获取多个实体节点对应的多个实体关系网络;同一实体节点在不同实体关系网络中对应不同的实体关系;
[0355]
基于训练好的多个基学习器对多个实体关系网络进行多标签预测,得到每个实体节点在每个实体关系网络中的多标签预测结果;
[0356]
基于每个实体节点在每个实体关系网络中的多标签预测结果,确定每个实体节点对应的最终多标签预测结果。
[0357]
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的实体分类方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
[0358]
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的实体分类方法的步骤,具体可参见上述方法实施例,在此不再赘述。
[0359]
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
[0360]
本技术中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。尤其,对于装置、设备和计算机可读存储介质实施方式而言,由于其基本相似于方法实施方式,所以其描述进行了简化,相关之处可参见方法实施方式的部分说明即可。
[0361]
本技术实施方式提供的装置、设备和计算机可读存储介质与方法是一一对应的,因此,装置、设备和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置、设备和计算机可读存储介质的有益技术效果。
[0362]
本领域内的技术人员应明白,本公开的实施方式可提供为方法、装置(设备或系统)、或计算机可读存储介质。因此,本公开可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机可读存储介质的形式。
[0363]
本公开是参照根据本公开实施方式的方法、装置(设备或系统)、和计算机可读存储介质的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0364]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0365]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计
算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0366]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0367]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0368]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0369]
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1