知识图谱中边权重的优化方法、装置、介质、设备及系统与流程

文档序号:15888525发布日期:2018-11-09 19:50阅读:835来源:国知局
知识图谱中边权重的优化方法、装置、介质、设备及系统与流程

本发明涉及知识图谱优化领域,具体涉及一种知识图谱中边权重的优化方法、装置、介质、设备及系统。

背景技术

在现代社会中,知识图谱已被广泛应用于各种应用中,如问答系统(q&a)系统、推荐系统、网络搜索引擎和精密医学等。例如,基于知识图谱来计算问题和帮助文档之间的相似度,已被证明是有效的找到最佳文档答案的方法。

在知识图谱中,边(edge)代表了两个实体节点之间的关联信息,并且关联的强度通常由边的权重来表示。边权重的信息能够在知识图谱应用中表现出很高的价值。例如,在一个技术支持问答系统的应用中,“电脑死机”问题尝尝是由“内存不足”造成的,那么这两个实体之间关联边的权重应该更大,使得当用户询问电脑死机时,更将内存不足及其相关解决办法推荐给用户。再例如,在一个基于医疗知识图谱的诊断应用中,多个病可能导致同一个症状,但他们之间的边权重应该是不同的,这样能够帮助系统进行更加精确的诊断。

显然,如何设置边的权重是知识图谱的构造和维护的关键挑战。现有的确定知识图谱中边权重的方法主要基于两个实体之间的直接关联关系(例如网页之间的超链接)或利用两个实体之间相关的统计信息。然而,这些方法很容易受到源数据本身存在的错误或统计错误的影响,导致边权重的准确度以及知识图谱的质量低下。



技术实现要素:

为了解决上述全部或部分问题,本发明提供一种知识图谱中边权重的优化方法、装置、介质、设备以及系统。

本发明的实施方式公开了一种知识图谱中边权重的优化方法,该方法包括

定义知识图谱,知识图谱包括节点、节点之间的有向边以及有向边的原始边权重;

从用户接收查询信息;

搜索对应查询信息的候选答案,利用知识图谱对候选答案进行排序,并将排序后的候选答案推送给用户;

从用户接收对排序后的候选答案的反馈信息;

构建符号几何规划问题,符号几何规划问题的约束函数基于反馈信息设定,符号几何规划问题的目标函数为优化边权重的函数;

求解符号几何规划问题得到优化边权重。

在一示范例中,利用知识图谱对候选答案进行排序包括:

将查询信息映射到知识图谱上得到查询节点;

将候选答案映射到知识图谱上得到候选答案节点;

计算查询节点与候选答案节点之间的相似度;

将候选答案按照相似度的降序进行排列。

在一示范例中,查询节点与候选答案节点之间的相似度通过以下计算:

其中,φ(vq,va)表示查询节点vq与候选答案节点va之间的相似度,z:表示从查询节点vq到候选答案节点va跳数小于阈值的路径,|z|表示路径z的长度,p[z]为路径z的概率,c为常数参数,w(vi,vi+1)表示知识图谱中的vi节点指向vi+1节点的边权重,w(vq,v1)表示查询节点vq指向知识图谱中的v1节点的边权重,w(vk,va)表示知识图谱中的vk节点指向候选答案节点va的边权重。

在一示范例中,反馈信息包括用户从排序后的候选答案中选择的最佳答案;

约束函数为最佳答案对应的最佳答案节点与查询节点之间的相似度大于其他候选答案节点与查询节点之间的相似度;

目标函数为使得各有向边的边权重变化量的平方和最小,每条有向边的边权重变化量为该条有向边的优化边权重与原始边权重之差。

在一示范例中,该方法还包括:

对反馈信息进行聚类处理得到多个聚类;

按照融合规则融合各个聚类对应的优化边权重得到最终的优化边权重,每个聚类对应的优化边权重通过求解基于该聚类包含的反馈信息构建的符号几何规划问题而获得。

在一示范例中,基于反馈信息涉及的有向边的集合对反馈信息进行聚类处理,反馈信息涉及的有向边的集合为从反馈信息涉及的查询节点到反馈信息涉及的各候选答案节点跳数小于阈值的所有路径经过的有向边的集合。

在一示范例中,融合规则为,对于一条有向边,

如果只存在对应一个聚类的一个优化边权重,则将其作为该条有向边的优化边权重;

如果存在对应多个聚类的多个优化边权重,并且多个优化边权重均大于该条有向边的原始边权重,则将使得该条有向边的边权重增加量最大的优化边权重作为该条有向边的优化边权重;

如果存在对应多个聚类的多个优化边权重,并且多个优化边权重均小于该条有向边的原始边权重,则将使得该条有向边的边权重减少量最大的优化边权重作为该条有向边的优化边权重;

如果存在对应多个聚类的多个优化边权重,并且仅有部分优化边权重大于该条有向边的原始边权重,则计算该条有向边的边权重变化量的加权平均值并且权重为各个聚类包含的反馈信息的个数,若加权平均值为正,那么将使得该条有向边的边权重增加量最大的优化边权重作为该条有向边的优化边权重,若加权平均值为负,那么将使得该条有向边的边权重减少量最大的优化边权重作为该条有向边的优化边权重。

在一示范例中,利用文本相似度的计算方法,从语料库中搜索对应查询信息的候选答案。

本发明的实施方式还公开了一种知识图谱中边权重的优化装置,该装置包括:

知识图谱定义模块,定义知识图谱,知识图谱包括节点、节点之间的有向边以及有向边的原始边权重;

查询信息接收模块,从用户接收查询信息;

候选答案推送模块,搜索对应查询信息的候选答案,利用知识图谱对候选答案进行排序,并将排序后的候选答案推送给用户;

反馈信息接收模块,从用户接收对排序后的候选答案的反馈信息;

符号几何规划问题构建模块,构建符号几何规划问题,符号几何规划问题的约束函数基于反馈信息设定,符号几何规划问题的目标函数为优化边权重的函数;

符号几何规划问题求解模块,求解符号几何规划问题得到优化边权重。

本发明的实施方式还公开了一种非易失性存储介质,在存储介质上存储有知识图谱中边权重的优化程序,知识图谱中边权重的优化程序被计算机执行以实施知识图谱中边权重的优化方法,该程序包括:

知识图谱定义指令,定义知识图谱,知识图谱包括节点、节点之间的有向边以及有向边的原始边权重;

查询信息接收指令,从用户接收查询信息;

候选答案推送指令,搜索对应查询信息的候选答案,利用知识图谱对候选答案进行排序,并将排序后的候选答案推送给用户;

反馈信息接收指令,从用户接收对排序后的候选答案的反馈信息;

符号几何规划问题构建指令,构建符号几何规划问题,符号几何规划问题的约束函数基于反馈信息设定,符号几何规划问题的目标函数为优化边权重的函数;

符号几何规划问题求解指令,求解符号几何规划问题得到优化边权重。

本发明的实施方式还公开了一种知识图谱中边权重的优化设备,包括:

存储器,存储有计算机可以执行的知识图谱中边权重的优化程序;以及

处理器,连接至存储器,并且被配置为执行知识图谱中边权重的优化程序以:

定义知识图谱,知识图谱包括节点、节点之间的有向边以及有向边的原始边权重;

从用户接收查询信息;

搜索对应查询信息的候选答案,利用知识图谱对候选答案进行排序,并将排序后的候选答案推送给用户;

从用户接收对排序后的候选答案的反馈信息;

构建符号几何规划问题,符号几何规划问题的约束函数基于反馈信息设定,符号几何规划问题的目标函数为优化边权重的函数;

求解符号几何规划问题得到优化边权重。

本发明的实施方式还公开了一种系统,包括如上所述的知识图谱中边权重的优化装置。

本发明实施方式与现有技术相比,主要区别及其效果在于:利用用户的反馈信息将知识图谱的边权重优化问题转化成一个符号几何规划问题,能够高效地自动化地提高边权重的准确度以及知识图谱的质量。

附图说明

图1为根据本发明实施方式的知识图谱中边权重的优化装置的结构示意图;

图2为根据本发明实施方式的知识图谱中边权重的优化方法的流程示意图;

图3为根据本发明实施方式的边权重优化示例的示意图。

具体实施方式

在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术方案。

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。

图1为根据本发明实施方式的知识图谱中边权重的优化装置的结构示意图,边权重优化装置100包括知识图谱定义模块101、查询信息接收模块102、候选答案推送模块103、反馈信息接收模块104、符号几何规划问题构建模块105以及符号几何规划问题求解模块106。图2为根据本发明实施方式的知识图谱中边权重的优化方法的流程示意图,如图2所示,知识图谱中边权重的优化方法具体包括:

步骤201,知识图谱定义模块101定义知识图谱,知识图谱包括节点、节点之间的有向边以及有向边的原始边权重;

步骤202,查询信息接收模块102从用户接收查询信息;

步骤203,候选答案推送模块103搜索对应查询信息的候选答案,利用知识图谱对候选答案进行排序,并将排序后的候选答案推送给用户;

步骤204,反馈信息接收模块104从用户接收对排序后的候选答案的反馈信息;

步骤205,符号几何规划问题构建模块105构建符号几何规划问题,符号几何规划问题的约束函数基于反馈信息设定,符号几何规划问题的目标函数为优化边权重的函数;

步骤206,符号几何规划问题求解模块106求解符号几何规划问题得到优化边权重。

其中,在步骤201,可以将知识图谱定义为有向有权重图g=(v,e,w),其中v是节点集,e是有向边集,w是有向边的权重集。

其中,步骤203中可以利用文本相似度的计算方法,从语料库中搜索对应查询信息的候选答案;此外,利用知识图谱对候选答案进行排序具体可以包括:

1)将查询信息映射到知识图谱上得到查询节点;

2)将候选答案映射到知识图谱上得候选答案节点;

3)计算查询节点与各个候选答案节点之间的相似度;

4)将各个候选答案节点对应的各个候选答案按照相似度的降序进行排列。

对于查询节点与候选答案节点之间的相似度可以通过下列公式进行计算:

其中,φ(vq,va)表示查询节点vq与候选答案节点va之间的相似度,z:表示从查询节点vq到候选答案节点va跳数小于阈值l的路径,|z|表示路径z的长度(经过的有向边的条数),p[z]为路径z的概率,c为个性化pagerank中的常数参数,w(vi,vi+1)表示知识图谱中的vi节点指向vi+1节点的边权重,w(vq,v1)表示查询节点vq指向知识图谱中的v1节点的边权重,w(vk,va)表示知识图谱中的vk节点指向候选答案节点va的边权重;例如,当|z|=2时,p[z]=w(vq,v1)w(vk,va)。

对于步骤205以及步骤206,可以利用单个用户的否定反馈信息来构建符号几何规划问题并求解优化边权重,具体地:

假设推送给用户的候选答案的有序列表为其中为最佳答案,ftop为求取有序列表中排位第一的元素的函数,那么将用户的否定反馈信息tn定义为从有序列表ak到有序列表的匹配tn:其中为用户反馈的最佳答案。

基于用户的否定反馈信息集tn求解优化边权重的算法可表示为如下:

输入:否定反馈集tn,待优化图g

输出:已优化图g*

算法描述:

其中函数generateconstraints(tn)的流程如下:

用户反馈的tn包含了用户选择的他认为的最佳答案,所以该最佳答案对应的候选答案节点与查询节点vq的相似度应该大于其他候选答案节点与查询节点vq之间的相似度,据此生成约束方程:

函数generateobjective(tn)的流程如下:

符号几何规划问题中的目标函数可以自由设定,在本发明实施方式中,设定目标函数为使得知识图谱的边权重变化量最小,形式化定义为:

normalizeedges函数用来对图进行归一化,即,从某一个节点出发到其邻居节点的所有有向边的权重总和为1。

图3为利用上述基于单个用户的否定反馈信息优化边权重的一个示例的示意图,根据原始知识图谱推送给用户的候选答案有序列表为<d1,d2,d3>,其中d1为最佳答案,而用户认为d2应该为最佳答案,基于此否定反馈信息求解出优化边权重并更新知识图谱,当再从用户接收相同的查询信息时,根据更新的知识图谱推送给用户的候选答案有序列表变为<d2,d1,d3>。

为了进一步提高边权重优化的质量,可以利用从多个用户接收的否定反馈信息以及肯定反馈信息来求解优化边权重,其中肯定反馈信息定义为:

假设推送给用户的候选答案的有序列表为其中为最佳答案,那么将用户的肯定反馈信息tp定义为从有序列表ak到有序列表a′k的匹配tp:其中为用户反馈的最佳答案。

基于多个用户的反馈信息求解优化边权重具体可以包括:

1)基于反馈信息涉及的有向边的集合对反馈信息进行聚类处理得到多个聚类

反馈信息涉及的有向边的集合为从反馈信息涉及的查询节点到反馈信息涉及的各候选答案节点跳数小于阈值l的所有路径经过的有向边的集合。

在进行聚类处理时,使得每个聚类内各反馈信息涉及的有向边的集合之间的重合度尽可能高,不同聚类内反馈信息涉及的有向边的集合之间的重合度尽可能低。

2)对于每个聚类,构建符号几何规划问题并求解

对于每个聚类,基于每个聚类中的每个反馈信息设定符号几何规划问题的约束方程,再把所有反馈信息对应的约束方程组成一个方程组作为该聚类的符号几何规划问题的约束函数;自由设定符号几何规划问题中的目标函数,最后基于约束函数和目标函数求解该聚类对应的优化边权重。

3)按照融合规则融合各个聚类对应的优化边权重得到最终的优化边权重

具体的融合准则可以例如为:对于一条有向边,

如果只存在对应一个聚类的一个优化边权重,则将其作为该条有向边的优化边权重;

如果存在对应多个聚类的多个优化边权重,并且多个优化边权重均大于该条有向边的原始边权重,则将使得该条有向边的边权重增加量最大的优化边权重作为该条有向边的优化边权重;

如果存在对应多个聚类的多个优化边权重,并且多个优化边权重均小于该条有向边的原始边权重,则将使得该条有向边的边权重减少量最大的优化边权重作为该条有向边的优化边权重;

如果存在对应多个聚类的多个优化边权重,并且仅有部分优化边权重大于该条有向边的原始边权重,则计算该条有向边的边权重变化量的加权平均值并且权重为各个聚类包含的反馈信息的个数,若加权平均值为正,那么将使得有向边的边权重增加量最大的优化边权重作为该条有向边的优化边权重,若加权平均值为负,那么将使得有向边的边权重减少量最大的优化边权重作为该条有向边的优化边权重。

在本发明中,利用用户的反馈信息将知识图谱的边权重优化问题转化成一个符号几何规划问题,能够高效地自动化地提高边权重的准确度以及知识图谱的质量。

本发明的实施方式还提供一种非易失性存储介质,在存储介质上存储有知识图谱中边权重的优化程序,知识图谱中边权重的优化程序被计算机执行以实施知识图谱中边权重的优化方法,该程序包括:

知识图谱定义指令,定义知识图谱,知识图谱包括节点、节点之间的有向边以及有向边的原始边权重;

查询信息接收指令,从用户接收查询信息;

候选答案推送指令,搜索对应查询信息的候选答案,利用知识图谱对候选答案进行排序,并将排序后的候选答案推送给用户;

反馈信息接收指令,从用户接收对排序后的候选答案的反馈信息;

符号几何规划问题构建指令,构建符号几何规划问题,符号几何规划问题的约束函数基于反馈信息设定,符号几何规划问题的目标函数为优化边权重的函数;

符号几何规划问题求解指令,求解符号几何规划问题得到优化边权重。

本发明的实施方式还提供一种知识图谱中边权重的优化设备,包括:

存储器,存储有计算机可以执行的知识图谱中边权重的优化程序;以及

处理器,连接至存储器,并且被配置为执行知识图谱中边权重的优化程序以:

定义知识图谱,知识图谱包括节点、节点之间的有向边以及有向边的原始边权重;

从用户接收查询信息;

搜索对应查询信息的候选答案,利用知识图谱对候选答案进行排序,并将排序后的候选答案推送给用户;

从用户接收对排序后的候选答案的反馈信息;

构建符号几何规划问题,符号几何规划问题的约束函数基于反馈信息设定,符号几何规划问题的目标函数为优化边权重的函数;

求解符号几何规划问题得到优化边权重。

本发明的实施方式还提供一种系统,包括上述知识图谱中边权重的优化装置。

需要说明的是,在本专利的权利要求和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本发明的某些优选实施方式,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1