时序知识图谱表征模型构建方法和时序知识图谱补全方法与流程

文档序号:31850442发布日期:2022-10-19 00:58阅读:656来源:国知局
时序知识图谱表征模型构建方法和时序知识图谱补全方法与流程

1.本发明涉及数据挖掘技术领域,具体涉及一种时序知识图谱表征模型构建方法和时序知识图谱补全方法。


背景技术:

2.国际数据公司(idc)的报告显示,全球数据规模从2005年到2020年间,保持了每年300倍的增长速度,总规模达到了40 trillion gb,即地球上每个人的数据量达到5.7tb。这些原始数据的意义和价值,需要通过分析和挖掘才能为数据消费者带来新的知识、能力和体验。知识图谱技术(kg,knowledge graph)提供了一种从海量数据中挖掘和表达实体间关系的方法,是一种有效的知识表达形式,推动了一系列知识库的建立,例如dbpedia、yago、freebase等等,为语义搜索、人机问答、个性推荐、智能手机助理等应用提供了重要支撑。
3.知识图谱技术近年来得到了国内学术界和工业界的极大关注,已经在金融、电商、健康、医疗等涉及国计民生的重要行业中展示出巨大的应用潜力。尽管知识图谱技术取得了长足的发展,其主要基于自然语言处理(nlp)技术从文本数据中进行实体提取和实体关系发掘,在面对各类异构感知数据时,对数据集成和知识挖掘提出了更高的要求。
4.采集设备和目标对象种类繁多,包括大量的远程监控摄像头、多种多样的实时监测传感器、各种软件应用程序和数字设备不断生成了结构化、非结构化或半结构化的数据。这些异构数据需要经过转换、清理和整合才能成为可用的数据仓库,支持某些类型的基本查询模式,例如olap查询(事务分析查询)。在持续的运行过程中,这些流式数据源源源不断地产生大量动态数据,从不同和不受控制的源到达分析端,导致发现和探索不断增长的海量信息、保持一致的数据仓库变得非常困难。此外,受各种所有权和控制权限制,访问和集成大量异构数据源的信息,将异构数据关联成为更高级别的数据产品是一项资源密集而繁琐的任务,若没有适当的支持,几乎是一件不可能的事情。
5.然而,在这类问题中,如何提供一致性的数据模型和集成体系结构,从海量异构的感知数据中收集和管理关系描述,用以创建统一的图谱并提供统一的视图,从而能够关联更大的、异构的数据流,导入一致的数据仓库,用于支持知识挖掘,是知识图谱技术处理感知数据过程中面临的巨大的障碍。
6.在现有系统中,知识图谱以三元组的形式描述实体及其关系。随着网络容量的爆炸式增长,这种图形结构往往使知识图谱难以操作,导致:i)计算效率问题。在利用知识图谱计算实体间的语义关系时,往往需要设计特殊的图算法来实现;然而,一般图算法计算复杂度高,可扩展性差;当知识图谱达到较大规模时,很难满足实时计算的需要;ii)数据稀疏性问题。大规模知识图谱存在大量稀疏数据,极大影响实体间语义或推理关系的计算。
7.为了应对这些挑战,如何提供一致性的数据模型和集成体系结构,从海量异构的感知数据中收集和管理关系描述,用以创建统一的图谱并提供统一的视图,从而能够关联更大的、异构的数据流,导入一致的数据仓库,用于支持知识挖掘,是知识图谱技术处理感知数据过程中面临的巨大的障碍。


技术实现要素:

8.针对现有技术中的技术缺陷,本发明实施例的目的在于提供一种时序知识图谱表征模型构建方法和时序知识图谱补全方法,在传统静态知识图谱的三元组关系表达基础上,通过加入时间维度的四元组描述模型,为海量感知数据提供了一致性的异构数据描述模型,基于时间超平面和长短记忆网络序列模型对时间和依赖关系建模,并根据四元组的映射模型在图谱上进行链路预测和关系补全,挖掘新的知识。
9.为实现上述目的,第一方面,本发明实施例提供了一种时序知识图谱表征模型构建方法,所述方法包括以下步骤:
10.获取时序知识图谱g,所述时序知识图谱g中的每个知识采用四元组(hi,ri,ti,[t
is
,t
ie
])描述,其中,hi是头实体,ri是关系,ti是尾实体,[t
is
,t
ie
]表示知识的有效时间段,i≥1;
[0011]
对时序知识图谱g中的时间信息进行粒度划分,得到离散时间段的静态子知识图谱g1,
…gτ


,g
t
,其中,g=g1∪g2∪
…gτ

∪g
t

[0012]
对每个静态子知识图谱g
τ
学习建立超平面,获取静态子知识图谱g
τ
在超平面中实体、关系和时间的向量表征;
[0013]
利用静态子知识图谱g
τ
在超平面中实体、关系和时间的向量表征对构建的lstm模型进行训练,获得训练后的lstm模型。
[0014]
可选的,采用四元组头实体-关系-尾实体-时间(hi,ri,ti,[t
is
,t
ie
])抽取方法对领域独立的各类数据源进行开放式信息抽取,构建时序知识图谱g。
[0015]
可选的,对时序知识图谱g中的时间信息进行粒度划分,得到离散时间段的静态子知识图谱g1,...g
τ
,...,g
t
,具体包括:
[0016]
对时序知识图谱g中的时间信息进行粒度划分,得到离散时间段序列1,2,...,t,每一个时间段以时间戳τ表示,τ∈1,2,...,t;
[0017]
将动态知识图谱g根据离散时间段序列划分为若干个静态子知识图谱g1,...,g
t
,每个静态子知识图谱g
τ
中的知识以三元组(hi,ri,ti)表示。
[0018]
可选的,所述对每个静态子知识图谱g
τ
学习建立超平面,获取静态子知识图谱g
τ
在超平面中实体、关系和时序的向量表征,具体包括;
[0019]
将t个静态子知识图谱对应t个表示空间,在第τ个表示空间中学习建立超平面;
[0020]
将静态子知识图谱g
τ
中知识的头实体、尾实体及关系映射到第τ个表示空间所对应的超平面,获取静态子知识图谱g
τ
在超平面中实体、关系和时间的向量表征。
[0021]
第二方面,本发明实施例提供了一种时序知识图谱补全方法,所述时序知识图谱中的每个知识采用四元组(hi,ri,ti,[t
is
,t
ie
])描述,所述方法包括:
[0022]
确认时序知识图谱g中需要补全内容的知识,所述需要补全内容的知识中需要补全的内容包括头实体、尾实体或关系中的一种;
[0023]
基于所述需要补全内容的知识中已包含的内容,调用时序知识图谱表征模型对需要补全内容的知识进行补全,其中,所述时序知识图谱表征模型通过第一方面所述的时序知识图谱表征模型构建方法得到。
[0024]
可选的,若所述需要补全内容的知识中需要补全的内容为头实体,则所述基于所述知识中已包含的内容,调用时序知识图谱表征模型对需要补全内容的知识进行补全,包
括:
[0025]
通过时序知识图谱表征模型得到需要补全内容的知识中的超平面w
τ
,以及尾实体表征ti和关系表征ri;
[0026]
通过第一预设公式计算得到超平面上对应的尾实体表征p
τ
(ti)和关系表征p
τ
(ri);
[0027]
根据超平面上对应的尾实体表征p
τ
(ti)和关系表征p
τ
(ri),通过第二预设公式和知识库中其他实体计算评分,将评分排序最高的其他实体作为头实体预测目标h
target

[0028]
将补全后的四元组(h
target
,ri,ti,[t
is
,t
ie
])加入知识库。
[0029]
可选的,若若所述需要补全内容的知识中需要补全的内容为尾实体,则所述基于所述知识中已包含的内容,调用时序知识图谱表征模型对需要补全内容的知识进行补全,包括:
[0030]
通过时序知识图谱表征模型得到需要补全内容的知识中的超平面w
τ
,以及头实体表征hi和关系表征ri;
[0031]
通过第三预设公式计算得到超平面上对应的头实体表征p
τ
(hi)和关系表征p
τ
(ri);
[0032]
根据超平面上对应的头实体表征p
τ
(hi)和关系表征p
τ
(ri),通过第四预设公式和知识库中其他实体计算评分,将评分排序最高的其他实体作为尾实体预测目标t
target

[0033]
将补全后的四元组(hi,ri,t
target
,[t
is
,t
ie
])加入知识库。
[0034]
可选的,若所述若所述需要补全内容的知识中需要补全的内容为关系,则所述基于所述知识中已包含的内容,调用时序知识图谱表征模型对需要补全内容的知识进行补全,包括:
[0035]
通过时序知识图谱表征模型得到需要补全内容的知识中的超平面w
τ
,以及头实体表征hi和尾实体表征ti;
[0036]
通过第五预设公式计算得到超平面上对应的头实体表征p
τ
(hi)和尾实体表征p
τ
(ti);
[0037]
根据超平面上对应的头实体表征p
τ
(hi)和尾实体表征p
τ
(ti),通过第六预设公式和知识库中其他关系计算评分,将评分排序最高的其他关系作为关系预测目标r
target

[0038]
将补全后的四元组(hi,r
target
,ti,[t
is
,t
ie
])加入知识库。
[0039]
本发明至少具有如下有益的技术效果:
[0040]
1、本发明提供的时序知识图谱表征模型构建方法构建的时序知识图谱表征模型,使用时间维度四元组描述模型和动态时序知识图谱,用以解决现有海量异构数据知识图谱构建问题。
[0041]
2、本发明提供的时序知识图谱表征模型构建方法构建的时序知识图谱表征模型,对异构感知数据的动态知识建模与表达,在传统静态知识图谱的三元组关系表达基础上,融入时间信息的描述模型,具有较好的抽象能力,且相比于传统的静态知识图谱,具有对时间知识的敏感性;
[0042]
3、本发明通过划分时间粒度,建立时序依赖,既结合静态图谱的知识表征,又结合了基于深度学习的序列模型,能够对异构数据进行动态知识建模与表达,为海量数据提供了一致性的异构数据描述模型,适用于超大规模的时序知识图谱;
[0043]
4、本发明时序知识图谱补全方法利用知识事件的时序变化特性与依赖关系,能够动态性地进行知识图谱学习与推理,在抽象性和完整性知识学习上具有很好的潜力。
附图说明
[0044]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
[0045]
图1是本发明实施例提供的时序知识图谱表征模型构建方法的流程示意图;
[0046]
图2是本发明实施例提供的时序知识图谱表征模型构建系统的结构示意图;
[0047]
图3是本发明实施例提供的时序知识图谱补全方法的流程示意图。
具体实施方式
[0048]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049]
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0050]
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0051]
还应当进一步理解,本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0052]
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0053]
需要注意的是,除非另有说明,本技术使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
[0054]
如图1所述,其示出了一种时序知识图谱表征模型构建方法的流程图,该方法用于构建能够生成具有时间信息和时序依赖关系的时序知识图谱表征模型,所述构建方法包括以下步骤:
[0055]
s100:获取时序知识图谱g,所述时序知识图谱g中的每个知识采用四元组(hi,ri,ti,[t
is
,t
ie
])描述,其中,hi是头实体,ri是关系,ti是尾实体,[t
is
,t
ie
]表示知识的有效时间段,i≥1。
[0056]
知识获取是知识图谱组织构建、进行问答检索的主要任务,是深层语义的理解以及处理的基础。通过网络数据解析,restfull api调用和提供,以及通过数据库提供的账户和查询语句等方式,感知第三方数据库、结构化数据、半结构化数据和非结构化数据等各类数据,适应大规模、领域独立、高效的开放式信息抽取要求。
[0057]
本实施例中,对大规模、领域独立的各类数据源,采用四元组头实体-关系-尾实体-时间(hi,ri,ti,[t
is
,t
ie
])抽取方法进行开放式信息抽取,构建时序知识图谱g。本实施例中,hi是头实体,ri是关系,ti是尾实体,t
is
和t
ie
分别表示知识的开始时间和消失时间。
[0058]
s200:对时序知识图谱g中的时间信息进行粒度划分,得到离散时间段的静态子知识图谱g1,...g
τ
,...,g
t
,其中,g=g1∪g2∪
…gτ

∪g
t

[0059]
给定一系列时间戳τ∈1,2,...,t,动态知识图谱g可以分为若干个静态子知识图谱g1,...,g
t
,每个静态子知识图谱中包含大量在对应时间段内的有效知识。因此,动态知识图谱g可以表示为如下形式:
[0060]
g=g1∪g2∪
…gτ

∪g
t
ꢀꢀꢀꢀ
(1)
[0061]
知识图谱一般将头实体hi、尾实体ti以及关系ri的向量表达分别定义为hi∈rd×1,ti∈rd×1与ri∈rd×1,其中d表示向量的维度。动态知识图谱除了包含静态知识图谱中需要学习的头实体hi、尾实体ti以及关系ri的向量表达hi,ti,ri,还需要学习每个时间戳τ∈[1,t]所对应的映射函数,以满足以下三个基本预测任务:
[0062]
·
尾实体预测:对于时间点τ上的不完整知识(hi,ri,?),预测尾实体ti;
[0063]
·
头实体预测:对于时间点τ上的不完整知识(?,ri,ti),预测头实体hi;
[0064]
·
关系预测:对于时间点τ上的不完整知识(hi,?,ti),预测关系ri。
[0065]
s300:对每个静态子知识图谱g
τ
学习建立超平面,获取静态子知识图谱g
τ
在超平面中实体、关系和时间的向量表征。
[0066]
依据时间戳τ∈1,2,...,t来将知识图谱划分为t个子图。将t个子图对应t个表示空间,在每个表示空间中学习建立超平面,然后将对应子图的实体及关系投影到对应超平面上,得到每个静态子图g
τ
中的实体和关系表征。在时间戳为τ的表示空间中,三元组(hi,ri,ti)中的实体及关系分别被映射到该表示空间所对应的超平面w
τ
∈rd×1上,形式化地描述为如下形式:
[0067][0068]
其中,||w
τ
||2=1,p
τ
(hi),p
τ
(ri)和p
τ
(ti)分别为投影到超平面w
τ
上的头实体hi,关系ri和尾实体ti的向量表征。在不同时间内具有相同尾实体和相同关系的三元组将被投影到不同的超平面上,因此,这些三元组的头实体也将被表示为不同表示空间中的不同向量,从而避免了动态知识图谱中因为时间因素而产生的诸如hi=hj的错误。
[0069]
此时,头实体hi,关系ri,尾实体ti以及超平面w
τ
的向量表达通过优化如下损失来学习:
[0070]
[0071]
其中,w=[w1,w2,...,w
t
],α参数用于调节权重,避免过度关系负采样而影响模型区分不同实体的能力。
[0072]
时间戳τ的正样本对应两种负样本:一种是通过替换正样本集合中知识的头实体或者尾实体所获得的负样本另一种是通过替换正样本集合中知识的关系所获得的与关系相关的负样本三个集合定义为:
[0073][0074]
其中,|g
τ
|表示的是子知识图谱g
τ
所包含知识的数量。用关系事件ei=(hi,ri,ti)来表达三元组,则
[0075][0076]
此时,和的表示分别为:
[0077][0078]
其中,是静态子知识图谱g
t
的补知识图谱,即同时同时而
[0079][0080]
定义为:
[0081][0082]
其中,l1表示l1正则。
[0083]
尽管w,h,r,t的最优值可以通过优化公式(3)获得,但由于公式(3)仅仅是各个子知识图谱(静态)上损失的简单加和,每个时间戳所对应的超平面w
τ
的学习过程独立于其他时间戳,从而导致所学到的超平面模型只能够捕捉到不同时间戳所对应的独立子知识图谱(静态),而不能捕捉到动态知识图谱的动态演化过程,因此需要为静态子图建立时序关联。
[0084]
s400:利用静态子知识图谱g
τ
在超平面中实体、关系和时间的向量表征对构建的lstm模型进行训练,获得训练后的lstm模型。
[0085]
各个静态子知识图谱之间是相互依赖的,为了能够描述动态知识图谱的演化过程,即描述动态知识图谱的演化以及各个子知识图谱之间的依赖性,采用rnn类序列模型结构来捕捉时间依赖信息。具体通过采用长短记忆网络(long short-term memory,lstm)来描述具有时间依赖关系的序列数据。
[0086]
针对e
τ
=(h
τ
,r
τ
,t
τ
),用lstm的softmax输出概率为:
[0087]
p
τ
=ln(p(t
τ
|h
τ
,r
τ
))
ꢀꢀꢀꢀ
(9)
[0088]
lstm的隐层状态保存了截止到时间戳τ的动态知识图谱所包含的所有序列信息,并在一定程度上,这种累积的结构信息会直接影响下一时间戳所对应的结构。因此,通过引入了一项辅助损失,可以使用前隐层状态p
τ
来监督超平面w
τ+1
的学习。辅助损失具有如下形式:
[0089][0090]
加入上述辅助损失从建模演化过程,辅助损失的引入可以帮助超平面在保有当前静态子知识图谱的结构信息的同时,维持动态知识图谱的演化过程。在lstm优化过程中,包
含大量静态子知识图谱的动态知识图谱时,辅助损失可以降低损失向后传播的难度,提高建模准确性。
[0091]
使用lstm和辅助损失,将通过超平面法构建的静态知识图谱序列{g1,g2,
…gτ


,g
t-1
}作为输入lstm模型的输入,训练lstm模型,捕获离散子图间的时序依赖信息p
t-1
,将训练后的lstm模型作为时序知识图谱表征模型,并结合公式(10)定义的辅助损失函数,来监督超平面{w1,w2,
…wτ


,w
t
}的训练得到时序知识图谱的实体、关系和时间表征。
[0092]
基于相同的发明构思,本发明实施例提供一种时序知识图谱表征模型构建系统。如图2所示,该系统可以包括:一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104,上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序,所述计算机程序包括程序指令,所述处理器101被配置用于调用所述程序指令执行上述时序知识图谱表征模型构建方法实施例部分的方法。
[0093]
应当理解,在本发明实施例中,所称处理器101可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0094]
输入设备102可以包括键盘等,输出设备103可以包括显示器(lcd等)、扬声器等。
[0095]
该存储器104可以包括只读存储器和随机存取存储器,并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如,存储器104还可以存储设备类型的信息。
[0096]
具体实现中,本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的时序知识图谱表征模型构建方法的实施例中所描述的实现方式,在此不再赘述。
[0097]
需要说明的是,关于时序知识图谱表征模型构建系统的具体工作流程,可参考前述方法实施例部分,在此不再赘述。
[0098]
第二方面,通过第一方面的时序知识图谱表征模型构建方法构建时序知识图谱表征模型之后,可以通过该时序知识图谱表征模型对时序知识图谱中内容不完整的知识进行补全。如图3所示,其示出了时序知识图谱补全方法的方法流程图。该方法可以包括:
[0099]
s500:确认时序知识图谱g中需要补全内容的知识,所述需要补全内容的知识中需要补全的内容包括头实体、尾实体或关系中的一种。
[0100]
时序知识图谱中的每个知识采用四元组(hi,ri,ti,[t
is
,t
ie
])描述,内容不完整的知识需要补全的内容包括:头实体、尾实体或关系。对于需要补全头实体的知识可以表示为(?,ri,ti,[t
is
,t
ie
]),对于需要补全尾实体的知识可以表示为(hi,ri,?,[t
is
,t
ie
]),需要补全关系的知识可以表示为(hi,?,ti,[t
is
,t
ie
])。
[0101]
s600:基于所述需要补全内容的知识中已包含的内容,调用时序知识图谱表征模型对需要补全内容的知识进行补全,其中,所述时序知识图谱表征模型通过第一方面所述的时序知识图谱表征模型构建方法得到。
[0102]
本实施例中,若所述需要补全内容的知识中需要补全的内容为头实体,则所述基于所述知识中已包含的内容,调用时序知识图谱表征模型对需要补全内容的知识进行补全,包括:
[0103]
s610:通过时序知识图谱表征模型得到需要补全内容的知识中的超平面w
τ
,以及尾实体表征ti和关系表征ri。
[0104]
s611:通过第一预设公式计算得到超平面上对应的尾实体表征p
τ
(ti)和关系表征p
τ
(ri)。
[0105]
本实施例中,第一预设公式如下:
[0106][0107][0108]
其中,||w
τ
||2=1,p
τ
(ri)和p
τ
(ti)分别为投影到超平面w
τ
上的关系ri和尾实体ti的向量表征。
[0109]
s612:根据超平面上对应的尾实体表征p
τ
(ti)和关系表征p
τ
(ri),通过第二预设公式和知识库中其他实体计算评分,将评分排序最高的其他实体作为头实体预测目标h
target

[0110]
本实施例中,评分为第二预设公式如下:
[0111][0112]
其中为评分函数,l1表示l1正则;p
τ
(hi)为知识库中其他实体在超平面w
τ
的向量表征。
[0113]
s613:将补全后的四元组(h
target
,ri,ti,[t
is
,t
ie
])加入知识库。
[0114]
本实施例中,若若所述需要补全内容的知识中需要补全的内容为尾实体,则所述基于所述知识中已包含的内容,调用时序知识图谱表征模型对需要补全内容的知识进行补全,包括:
[0115]
s620:通过时序知识图谱表征模型得到需要补全内容的知识中的超平面w
τ
,以及头实体表征hi和关系表征ri。
[0116]
s621:通过第三预设公式计算得到超平面上对应的头实体表征p
τ
(hi)和关系表征p
τ
(ri)。
[0117]
本实施例中,第三预设公式如下:
[0118][0119][0120]
其中,||w
τ
||2=1,p
τ
(hi)和p
τ
(ri)分别为投影到超平面w
τ
上的头实体hi和关系ri的向量表征。
[0121]
s622:根据超平面上对应的头实体表征p
τ
(hi)和关系表征p
τ
(ri),通过第二预设公式和知识库中其他实体计算评分,将评分排序最高的其他实体作为尾实体预测目标t
target

[0122]
本实施例中,评分为第四预设公式如下:
[0123][0124]
其中为评分函数,l1表示l1正则;p
τ
(ti)为知识库中其他实体在超平面w
τ
的向量表征。
[0125]
s623:将补全后的四元组(hi,ri,t
target
,[t
is
,t
ie
])加入知识库。
[0126]
本实施例中,若所述若所述需要补全内容的知识中需要补全的内容为关系,则所述基于所述知识中已包含的内容,调用时序知识图谱表征模型对需要补全内容的知识进行补全,包括:
[0127]
s630:通过时序知识图谱表征模型得到需要补全内容的知识中的超平面w
τ
,以及头实体表征hi和尾实体表征ti。
[0128]
s631:通过第四预设公式计算得到超平面上对应的头实体表征p
τ
(hi)和尾实体表征p
τ
(ti)。
[0129]
本实施例中,第五预设公式为:
[0130][0131][0132]
其中,||w
τ
||2=1,p
τ
(hi)和p
τ
(ti)分别为投影到超平面w
τ
上的头实体hi和尾实体ti的向量表征。
[0133]
s632:根据超平面上对应的头实体表征p
τ
(hi)和尾实体表征p
τ
(ti),通过第二预设公式和知识库中其他关系计算评分,将评分排序最高的其他关系作为关系预测目标r
target

[0134]
本实施例中,评分为第六预设公式如下:
[0135][0136]
其中为评分函数,l1表示l1正则;p
τ
(ri)为知识库中其他关系在超平面w
τ
的向量表征。
[0137]
s633:将补全后的四元组(hi,r
target,
ti,[t
is
,t
ie
])加入知识库。
[0138]
通过以上步骤得到补充的四元组信息,再经过质量评估对新知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的;最后通过人工审核修正与确认更新知识库。
[0139]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1