知识图谱的处理方法、装置、设备和介质与流程

文档序号:18739690发布日期:2019-09-21 01:38阅读:185来源:国知局
知识图谱的处理方法、装置、设备和介质与流程

本发明实施例涉及智能物流技术领域,尤其涉及一种知识图谱的处理方法、装置、设备和介质。



背景技术:

构建一个权威准确全面的医疗行业知识图谱是许多上层应用的基础数据需求,权威医疗书籍中的医疗知识是人们总结及论证过的智慧结晶,从中人们可以挖掘出许多权威的医疗事实。

现有的技术想要把从医疗书籍中挖掘的医疗事实,准确地加入到医疗图谱中,一般的方法是通过事实的频率信息进行初步筛选,然后再经过医学专家审核。此种方法因为是人力介入,存在着人力投入大、效率相对较低的问题。而医学专家审核医学事实的过程,除了依靠经验,很多情况下也需要有一个书籍查询工具进行查询印证。



技术实现要素:

本发明实施例提供一种知识图谱的处理方法、装置、设备和介质,以解决现有技术在构建知识图谱时人力投入大、效率相对较低的问题。

第一方面,本发明实施例提供了一种知识图谱的处理方法,所述方法包括:

根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元;

确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度;

根据所述匹配度,从所述至少两个候选实体证据单元中选择所述待检验知识图谱的目标实体证据单元,供基于所述目标实体证据单元对所述待验证知识图谱进行验证。

第二方面,本发明实施例提供了一种知识图谱的处理装置,所述装置包括:

候选实体证据单元选择模块,用于根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元;

匹配度确定模块,用于确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度;

目标实体证据单元选择模块,用于根据所述匹配度,从所述至少两个候选实体证据单元中选择所述待检验知识图谱的目标实体证据单元,供基于所述目标实体证据单元对所述待验证知识图谱进行验证。

第三方面,本发明实施例提供了一种设备,所述设备还包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的一种知识图谱的处理方法。

第四方面,本发明实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的一种知识图谱的处理方法。

本发明实施例通过从目标领域实体证据单元中选择至少两个候选实体证据单元,并确定至少两个候选实体证据单元与待检验知识图谱的匹配度,根据匹配度选择目标实体证据单元,供根据目标实体证据单元对待验证知识图谱进行验证,提高了知识图谱的准确率以及构建效率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本发明实施例一提供的一种知识图谱的处理方法的流程图;

图2为本发明实施例二提供的一种知识图谱的处理方法的流程图;

图3为本发明实施例三提供的一种知识图谱的处理方法的流程图;

图4为本发明实施例四提供的一种知识图谱的处理装置的结构示意图;

图5为本发明实施例五提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种知识图谱的处理方法的流程图。本实施例适用于构建医疗知识图谱的情况,该方法可以由本发明实施例提供的知识图谱的处理装置来执行,该装置可以采用软件和/或硬件的方式实现。如图1所示,该方法可以包括:

S101、根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元。

其中,待验证知识图谱所属领域可选的包括医疗、教育、金融和文化等。实体证据单元是通过在待验证知识图谱所属目标领域的知识事实进行挖掘得到的,其作用体现在如下两个方面:1、可以作为待验证知识图谱的证据,以辅助相关审核人员对待验证知识图谱进行评估;2、可以收录到待验证知识图谱中,以增加待验证知识图谱的全面性。

可选的,将待验证知识图谱中的S(实体名)、P(属性名)以及O(属性值)作为搜索词在目标领域的实体证据单元中进行搜索,根据搜索结果选择至少两个候选实体证据单元。

实体证据单元的规格可大可小,当实体证据单元的规格较大时,例如一篇完整的文献、一篇完整的论文或者一本厚重的书籍,由于其可能包含多个实体以及多个实体对应的多属性,这就可能出现以单实体多属性或多实体多属性的信息干扰问题。

为了避免这种信息干扰问题,可选的在S101之前,还包括:

A、从目标领域事实中提取属性信息和属性信息所属的章节标题信息;

其中,属性信息包括对实体多属性的一种文字描述,其包括属性名称和属性内容,章节标题信息包括与属性信息相关联实体的文字描述。

示例性的,以一个书籍html(hypertext markup language,超级文本标记语言)页面为例,其主要有两大部分,第一部分是包括描述篇、章、节、标题等信息的内容块;第二部分是包括描述详细信息的内容块。具体的,在第一部分通过包括目标关键词搜索方法提取属性信息所属的章节标题信息,例如“第三篇喉科学”、“第四章特异性咽炎”和“第三节喉梅毒”等;在第二部分通过包括目标关键词搜索方法提取属性信息,例如“临床表现声嘶”、“诊断要点家族史”或“治疗方案及原则驱梅治疗”等。

B、将所述章节标题信息作为目标领域中实体证据单元的标题;

示例性的,提取的章节标题信息为“第三篇喉科学”、“第四章特异性咽炎”和“第三节喉梅毒”,则将“第三篇喉科学”、“第四章特异性咽炎”和“第三节喉梅毒”作为实体证据单元的标题。

C、将所述属性信息中的属性名称作为目标领域中实体证据单元的属性关键字;

其中,属性信息中的属性名称是属性内容的上位概念。

示例性的,例如提取的属性信息包括“诊断要点家族史”,则属性名称为“诊断要点”,进而将“诊断要点”作为实体证据单元的属性关键字;又例如提取的属性信息包括“临床表现声嘶”,则属性名称为“临床表现”,进而将“临床表现”作为实体证据单元的属性关键字。

D、将所述属性信息中的属性内容作为目标领域中实体证据单元的属性键值。

其中,属性信息中的属性内容是属性名称下位表现形式。

示例性的,例如提取的属性信息包括“诊断要点家族史”,则属性内容为“家族史”,进而将“家族史”作为实体证据单元的属性键值;又例如提取的属性信息包括“临床表现声嘶”,则属性内容为“声嘶”,进而将“声嘶”作为实体证据单元的属性键值。

通过从目标领域事实中提取属性信息和属性信息所属的章节标题信息,并最终确定实体证据单元的标题、属性关键字和属性键值,避免了信息干扰问题,使得后续待检验知识图谱与至少两个候选实体证据单元进行匹配,更加简单、有效以及直观。

通过从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元,减少了后续待检验知识图谱与实体证据单元的匹配次数,提高了效率。

S102、确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度。

其中,匹配度体现了待检验知识图谱与至少两个候选实体证据单元的相似性,匹配度越高,则待检验知识图谱与至少两个候选实体证据单元的相似性越高,匹配度越低,则待检验知识图谱与至少两个候选实体证据单元的相似性越低。

具体的,确定待检验知识图谱与至少两个候选实体证据单元的匹配度,即是确定待检验知识图谱中包含的信息与至少两个候选实体证据单元中包含的信息之间的相似度。

S103、根据所述匹配度,从所述至少两个候选实体证据单元中选择所述待检验知识图谱的目标实体证据单元,供基于所述目标实体证据单元对所述待验证知识图谱进行验证。

可选的,根据匹配度进行排序,根据排序结果,确定所述待检验知识图谱的目标实体证据单元。

本发明实施例通过从目标领域实体证据单元中选择至少两个候选实体证据单元,并确定至少两个候选实体证据单元与待检验知识图谱的匹配度,根据匹配度选择目标实体证据单元,减少了人力介入,提高了知识图谱的验证效率和构建效率。

实施例二

图2为本发明实施例二提供的一种知识图谱的处理方法的流程图。本实施例为上述实施例一提供了一种具体实现方式,如图2所示,该方法可以包括:

S201、将待验证知识图谱中的实体名作为搜索词,在目标领域的实体证据单元的章节标题信息、属性关键字和属性键值中进行搜索,得到第一实体证据单元。

具体的,为了尽量不漏掉可能的候选实体证据单元,将章节标题信息、属性关键字或属性键值中存在与待验证知识图谱中的实体名相同或相近的实体证据单元,作为第一实体证据单元。

示例性的,待验证知识图谱中的实体名为“特异性咽炎”,即搜索词,实体证据单元1的章节标题信息中包含“特异性咽炎”,则实体证据单元1为第一实体证据单元;实体证据单元2的属性键值中包含“特异性咽炎”,则实体证据单元2为第一实体证据单元;实体证据单元3的章节标题信息、属性关键字或属性键值中都没有包含与“特异性咽炎”相同或相近的词语,则实体证据单元3不是第一实体证据单元。

为了尽量不漏掉可能的候选实体证据单元,可选的在S201中,还可以将待验证知识图谱中的实体名的“别名”和“又称”作为搜索词。其中,“别名”和“又称”的收集手段包括:1)利用已有的图谱数据;2)获取书籍或文献中出现的“别名”和“又称”,在对其进行人工审核。

S202、将待验证知识图谱中的属性值作为搜索词,在目标领域的实体证据单元的属性键值中进行搜索,得到第二实体证据单元。

具体的,将属性键值中存在与待验证知识图谱中的属性值相同或相近的实体证据单元,作为第二实体证据单元。

示例性的,待验证知识图谱中的属性值为“咳嗽”,即搜索词,实体证据单元4的属性键值中包含“咳嗽”,则实体证据单元4为第二实体证据单元;实体证据单元5的属性键值中不包含“咳嗽”,则实体证据单元5不是第二实体证据单元。

S203、从所述第一实体证据单元和所述第二实体证据单元中选择至少两个候选实体证据单元。

具体的,根据预设规则从第一实体证据单元和第二实体证据单元中选择至少两个候选实体证据单元。

可选的,赋予章节标题信息、属性关键字和属性键值不同的权重值,可选的权重大小关系为:章节标题信息权重>属性关键字权重>属性键值权重,搜索完成后根据上述权重大小关系对得到的第一实体证据单元和第二实体证据单元进行排序,根据权重从大到小选取预设数量的第一实体证据单元和第二实体证据单元作为候选实体证据单元。

示例性的,第一实体证据单元A的章节标题信息包括待验证知识图谱中的实体名,第一实体证据单元B的属性关键字包括待验证知识图谱中的实体名,第一实体证据单元C的属性键值包括待验证知识图谱中的实体名,则根据章节标题信息、属性关键字和属性键值的权重大小关系,第一实体证据单元A、第一实体证据单元B以及第一实体证据单元C的排序为:第一实体证据单元A、第一实体证据单元B和第一实体证据单元C。

可选的,在上述实施例的基础上,赋予实体名作为搜索词与属性值作为搜索词不同的权重,可选的权重大小关系为:实体名作为搜索词权重>属性值作为搜索词权重,搜索完成后根据上述权重大小关系对得到的第一实体证据单元和第二实体证据单元进行排序,根据权重从大到小选取预设数量的第一实体证据单元和第二实体证据单元作为候选实体证据单元。

示例性的,第一实体证据单元A的章节标题信息包括待验证知识图谱中的实体名,第一实体证据单元B的属性关键字包括待验证知识图谱中的实体名,第二实体证据单元C的属性键值包括待验证知识图谱中的属性值,则根据章节标题信息、属性关键字和属性键值的权重大小关系以及实体名作为搜索词与属性值作为搜索词的权重大小关系,第一实体证据单元A、第一实体证据单元B以及第二实体证据单元C的排序为::第一实体证据单元A、第一实体证据单元B和第二实体证据单元C。

S204、根据知识图谱中属性名与实体证据单元中属性关键字之间的映射关系,以及待验证知识图谱,从所述至少两个候选实体证据单元中选择与所述待验证知识图谱匹配的,且滤除其他候选实体证据单元。

其中,所述映射关系体现了知识图候选实体证据单元谱中属性名与实体证据单元中属性关键字的关联关系。

可选的,将实体证据单元中属性关键字根据包括热门度进行排序,选取热门度较高的预设数量的属性关键字,通过包括语义分析算法确定知识图谱中属性名与选取的预设数量的属性关键字之间的映射关系,示例性的,知识图谱中属性名“临床表现”与实体证据单元中属性关键字“体征表现”、“身体表现”存在映射关系;知识图谱中属性名“诊断要点”与实体证据单元中属性关键字“诊断重点”、“诊断关键点”存在映射关系,最后通过得到的映射关系选择至少两个候选实体证据单元中与待验证知识图谱存在映射关系的,作为候选实体证据单元,并滤除不存在映射关系的候选实体证据单元。

S205、确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度。

由于S204已经通过属性名这一维度对候选实体证据单元进行筛选。在确定匹配度时主要考虑实体名和属性值这两个维度。可选的,S205包括如下:确定待检验知识图谱中的实体名,与候选实体证据单元中的标题之间的标题相似度;确定待检验知识图谱中的属性值,与候选实体证据单元中的属性键值之间的键值相似度;根据所述候选实体证据单元的标题相似度和键值相似度,确定候选实体证据单元的匹配度。

其中,相似度可以通过包括根据预测模型的方法确定,或者根据文本重合关系确定。具体的,根据候选实体证据单元的标题相似度和键值相似度以及预设规则,确定候选实体证据单元的匹配度。可选的,根据候选实体证据单元的标题相似度和键值相似度之和,确定候选实体证据单元的匹配度。通过确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度,为后续选择所述待检验知识图谱的目标实体证据单元奠定了数据基础。

S206、根据所述匹配度,从所述至少两个候选实体证据单元中选择所述待检验知识图谱的目标实体证据单元,供基于所述目标实体证据单元对所述待验证知识图谱进行验证。

本发明实施例通过将待验证知识图谱中的实体名以及属性值作为搜索词,在目标领域的实体证据单元中进行搜索,分别得到第一实体证据单元以及第二实体证据单元,再根据知识图谱中属性名与实体证据单元中属性关键字之间的映射关系,选择最终的候选实体证据单元,实现了得到候选实体证据单元的效果,为确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度奠定了基础。

实施例三

图3为本发明实施例三提供的一种知识图谱的处理方法的流程图。本实施例为上述实施例一提供了一种具体实现方式,如图3所示,该方法可以包括:

S301、根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元。

S302、确定待检验知识图谱中的实体名,与候选实体证据单元中的标题之间的标题相似度。

可选的,分别通过根据预测模型的方法以及确定文本重合关系的方法,来确定待检验知识图谱中的实体名,与候选实体证据单元中的标题之间的第一标题相似度以及第二标题相似度。

可选的,S302包括:

A、将所述待检验知识图谱中的实体名与候选实体证据单元中的标题,作为预测模型的输入,得到第一标题相似度。

其中,预测模型是一种深度学习模型,可选的预测模型包括pairwise模型。

可选的,预测模型的训练过程包括:将基于书籍图谱挖掘时得到的S、P和O,以及S和O的所在句子,作为正例;再利用一些启发式规则构造一些反例,再将得到正例和反例输入到包括注意力机制双向长短期记忆网络模型或者深度结构化长短期记忆网络模型,进而训练得到预测模型。

B、根据所述待检验知识图谱的实体名与候选实体证据单元的标题之间的文本重合关系,确定第二标题相似度。

其中,文本重合关系体现了文本之间的相似程度。可选的,第二标题相似度可以通过以下方式确定:

1)将四个参变量的数值设置为零,例如F1=0、F2=0、F3=0以及F4=0。

2)若待检验知识图谱的实体名与候选实体证据单元的标题完全相同,则设置F1=1、F2=0、F3=0以及F4=0。

3)若待检验知识图谱的实体名与候选实体证据单元的标题不完全相同,且待检验知识图谱的实体名是候选实体证据单元的标题的尾缀,则设置F1=0、F2=1、F3=0以及F4=0。

4)若待检验知识图谱的实体名与候选实体证据单元的标题不完全相同、待检验知识图谱的实体名不是候选实体证据单元的标题的尾缀,且候选实体证据单元的标题是待检验知识图谱的实体名的尾缀,则设置F1=0、F2=0、F3=1以及F4=0。

5)若待检验知识图谱的实体名与候选实体证据单元的标题不完全相同、待检验知识图谱的实体名不是候选实体证据单元的标题的尾缀,且候选实体证据单元的标题不是待检验知识图谱的实体名的尾缀,则设置F1=0、F2=0、F3=0以及F4=1。

6)第二标题相似度=F1×a1+F2×a2+F3×a3+F4×jaccard×a4

其中,a1、a2、a3和a4是固定常数,其可根据实际情况调整,优选的设置a1=1、a2=0.95、a3=0.92和a4=0.9。jaccard即为杰卡德相似度,其计算过程为:1)分别将待检验知识图谱的实体名与候选实体证据单元的标题分词;2)计算分词后两者相同词的个数;3)将分词后两者相同词的个数与min(实体名分词个数,标题分词个数)之间的比值,作为jaccard的值。

S303、确定待检验知识图谱中的属性值,与候选实体证据单元中的属性键值之间的键值相似度。

可选的,分别通过根据预测模型的方法以及确定文本重合关系的方法,来确定待检验知识图谱中的属性值,与候选实体证据单元中的属性键值之间的第一键值相似度以及第二键值相似度。

可选的,S303包括:

A、将所述待检验知识图谱中的属性值与候选实体证据单元中的属性键值,作为预测模型的输入,得到第一键值相似度;

B、根据所述待检验知识图谱的属性值与候选实体证据单元的属性键值之间的文本重合关系,确定第二键值相似度。

S304、若任一候选实体证据单元的标题相似度小于第一标题相似度阈值,或者该候选实体证据单元的键值相似度小于第一键值相似度阈值,则滤除该候选实体证据单元。

具体的,将标题相似度包括的第一标题相似度和第二标题相似度,分别与对应阈值比对;将键值相似度包括的第一键值相似度和第二键值相似度,分别与对应阈值比对,滤除不符合条件的候选实体证据单元。

可选的,若任一候选实体证据单元的第一标题相似度小于第一标题第一相似度子阈值且第二标题相似度小于第一标题第二相似度子阈值,或者第一键值相似度小于第一键值第一相似度子阈值且第二键值相似度小于第一键值第二相似度子阈值,则滤除该候选实体证据单元。

示例性的,例如设置第一标题第一相似度子阈值为0.9,第一标题第二相似度子阈值为0.85,候选实体证据单元A的第一标题相似度为0.95,第二标题相似度为0.8,则候选实体证据单元A应该被滤除;又例如设置第一键值第一相似度子阈值0.9,第一键值第二相似度子阈值0.85,候选实体证据单元B的第一键值相似度为0.9,第二键值相似度为0.9,则候选实体证据单元B不被滤除。

S305、若所述候选实体证据单元的标题相似度大于第二标题相似度阈值,且键值相似度大于第二键值相似度阈值,则为所述候选实体证据单元添加第一标志位;否则,为所述候选实体证据单元添加第二标志位。

可选的,将标题相似度包括的第一标题相似度和第二标题相似度中最大的相似度,与第二标题相似度阈值比对;将键值相似度包括的第一键值相似度和第二键值相似度中最大的相似度,与第二键值相似度阈值比对;若第一标题相似度和第二标题相似度中最大的相似度大于第二标题相似度阈值,且第一键值相似度和第二键值相似度中最大的相似度大于第二键值相似度阈值,则为所述候选实体证据单元添加第一标志位;否则,为所述候选实体证据单元添加第二标志位。

示例性的,设置第二标题相似度阈值与第二键值相似度阈值都为0.95,候选实体证据单元B的第一标题相似度为0.97,第二标题相似度为0.9,第一键值相似度为0.96,第二键值相似度为0.93,则第一标题相似度和第二标题相似度中最大的相似度0.97>第二标题相似度阈值0.95,第一键值相似度和第二键值相似度中最大的相似度0.96>第二键值相似度阈值0.95,则为候选实体证据单元B添加第一标志位,优选的标志位为“1”。

示例性的,设置第二标题相似度阈值与第二键值相似度阈值都为0.95,候选实体证据单元C的第一标题相似度为0.94,第二标题相似度为0.9,第一键值相似度为0.93,第二键值相似度为0.93,则第一标题相似度和第二标题相似度中最大的相似度0.94<第二标题相似度阈值0.95,第一键值相似度和第二键值相似度中最大的相似度0.93<第二键值相似度阈值0.95,则为候选实体证据单元C添加第二标志位,优选的标志位为“0”。

S306、根据所述候选实体证据单元的匹配度和标志位信息,对至少两个候选实体证据单元进行排序。

可选的,将第一标题相似度、第二标题相似度、第一键值相似度以及第二键值相似度求和,得到候选实体证据单元的匹配度。

具体的,候选实体证据单元的匹配度是将第一标题相似度、第二标题相似度、第一键值相似度以及第二键值相似度线性叠加得到的。匹配度越高则排序越靠前,可以对不同类标志位信息的候选实体证据单元按匹配度分别进行排序。例如,将标志位为“1”的候选实体证据单元分配到第一候选实体证据组中,将标志位为“0”的候选实体证据单元分配到第二候选实体证据组。并且,根据第一候选实体证据组和/或第二候选实体证据组中的候选实体证据单元的匹配度进行排序。

S307、根据排序结果,确定所述待检验知识图谱的目标实体证据单元。

具体的,按排序将预设数量阈值内的候选实体证据单元,确定为待检验知识图谱的目标实体证据单元。其中,第一候选实体证据组的第一数量阈值与第二候选实体证据组的第二数量阈值不同,一般第一数量阈值大于第二数量阈值。通过在第一候选实体证据组以及第二候选实体证据组分别确定待检验知识图谱的目标实体证据单元,避免了遗漏与待检验知识图谱相近的实体证据单元,使得后续收录目标实体证据单元之后,待检验知识图谱更加全面且可靠。

本发明实施例通过分别计算待检验知识图谱中的实体名,与候选实体证据单元中的标题之间的标题相似度以及待检验知识图谱中的属性值,与候选实体证据单元中的属性键值之间的键值相似度,并根据获取的标题相似度以及键值相似度确定目标实体证据单元,提高了知识图谱的构建效率,减少了人力介入。

实施例四

图4为本发明实施例四提供的一种知识图谱的处理装置的结构示意图,该装置可执行本发明任意实施例所提供的一种知识图谱的处理方法,具备执行方法相应的功能模块和有益效果。如图4所示,该装置可以包括:

候选实体证据单元选择模块41,用于根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元;

匹配度确定模块42,用于确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度;

目标实体证据单元选择模块43,用于根据所述匹配度,从所述至少两个候选实体证据单元中选择所述待检验知识图谱的目标实体证据单元,供基于所述目标实体证据单元对所述待验证知识图谱进行验证。

在上述实施例的基础上,所述装置还包括实体证据单元获取模块,具体用于:

从目标领域事实中提取属性信息和属性信息所属的章节标题信息;

将所述章节标题信息作为目标领域中实体证据单元的标题;

将所述属性信息中的属性名称作为目标领域中实体证据单元的属性关键字;

将所述属性信息中的属性内容作为目标领域中实体证据单元的属性键值。

在上述实施例的基础上,所述候选实体证据单元选择模块41,具体用于:

将待验证知识图谱中的实体名作为搜索词,在目标领域的实体证据单元的章节标题信息、属性关键字和属性键值中进行搜索,得到第一实体证据单元;

将待验证知识图谱中的属性值作为搜索词,在目标领域的实体证据单元的属性键值中进行搜索,得到第二实体证据单元;

从所述第一实体证据单元和所述第二实体证据单元中选择至少两个候选实体证据单元。

在上述实施例的基础上,所述候选实体证据单元选择模块41,具体还用于:

根据知识图谱中属性名与实体证据单元中属性关键字之间的映射关系,以及待验证知识图谱,从所述至少两个候选实体证据单元中选择与所述待验证知识图谱匹配的候选实体证据单元,且滤除其他候选实体证据单元。

在上述实施例的基础上,所述匹配度确定模块42,具体用于:

确定待检验知识图谱中的实体名,与候选实体证据单元中的标题之间的标题相似度;

确定待检验知识图谱中的属性值,与候选实体证据单元中的属性键值之间的键值相似度;

根据所述候选实体证据单元的标题相似度和键值相似度,确定候选实体证据单元的匹配度。

在上述实施例的基础上,所述匹配度确定模块42,具体还用于:

将所述待检验知识图谱中的实体名与候选实体证据单元中的标题,作为预测模型的输入,得到第一标题相似度;

根据所述待检验知识图谱的实体名与候选实体证据单元的标题之间的文本重合关系,确定第二标题相似度。

在上述实施例的基础上,所述匹配度确定模块42,具体还用于:

将所述待检验知识图谱中的属性值与候选实体证据单元中的属性键值,作为预测模型的输入,得到第一键值相似度;

根据所述待检验知识图谱的属性值与候选实体证据单元的属性键值之间的文本重合关系,确定第二键值相似度。

在上述实施例的基础上,所述匹配度确定模块42,具体还用于:

若任一候选实体证据单元的标题相似度小于第一标题相似度阈值,或者该候选实体证据单元的键值相似度小于第一键值相似度阈值,则滤除该候选实体证据单元。

在上述实施例的基础上,所述目标实体证据单元选择模块43,具体用于:

若所述候选实体证据单元的标题相似度大于第二标题相似度阈值,且键值相似度大于第二键值相似度阈值,则为所述候选实体证据单元添加第一标志位;否则,为所述候选实体证据单元添加第二标志位;

根据所述候选实体证据单元的匹配度和标志位信息,对至少两个候选实体证据单元进行排序;

根据排序结果,确定所述待检验知识图谱的目标实体证据单元。

本发明实施例所提供的一种知识图谱的处理装置,可执行本发明任意实施例所提供的一种知识图谱的处理方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的一种知识图谱的处理方法。

实施例五

图5为本发明实施例五提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备500的框图。图5显示的设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示,设备500以通用计算设备的形式表现。设备500的组件可以包括但不限于:一个或者多个处理器或者处理单元501,系统存储器502,连接不同系统组件(包括系统存储器502和处理单元501)的总线503。

总线503表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备500典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备500访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器502可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)504和/或高速缓存存储器505。设备500可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统506可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线503相连。存储器502可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块507的程序/实用工具508,可以存储在例如存储器502中,这样的程序模块507包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块507通常执行本发明所描述的实施例中的功能和/或方法。

设备500也可以与一个或多个外部设备509(例如键盘、指向设备、显示器510等)通信,还可与一个或者多个使得用户能与该设备500交互的设备通信,和/或与使得该设备500能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口511进行。并且,设备500还可以通过网络适配器512与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器512通过总线503与设备500的其它模块通信。应当明白,尽管图中未示出,可以结合设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元501通过运行存储在系统存储器502中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种知识图谱的处理方法,包括:

根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元;

确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度;

根据所述匹配度,从所述至少两个候选实体证据单元中选择所述待检验知识图谱的目标实体证据单元,供基于所述目标实体证据单元对所述待验证知识图谱进行验证。

实施例六

本发明实施例六还提供了一种计算机可读存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种知识图谱的处理方法,该方法包括:

根据待验证知识图谱,从待验证知识图谱所属目标领域的实体证据单元中选择至少两个候选实体证据单元;

确定所述待检验知识图谱与所述至少两个候选实体证据单元的匹配度;

根据所述匹配度,从所述至少两个候选实体证据单元中选择所述待检验知识图谱的目标实体证据单元,供基于所述目标实体证据单元对所述待验证知识图谱进行验证。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的一种知识图谱的处理方法中的相关操作。本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1