知识图谱构建方法及系统与流程

文档序号:15736905发布日期:2018-10-23 21:38阅读:371来源:国知局

本发明涉及专业数字出版领域,尤其涉及一种知识图谱构建方法及系统。



背景技术:

知识服务是专业数字出版领域最近一段时间追捧的热点,国家在这方面大量的资金投入也加快了知识服务在出版单位落地的时间。但是目前国内建设的知识服务系统一般来说仍然是传统的文献级别的知识服务,提供传统的全文检索方式,资源关联方面也只是文献与参考文献之间的关联方式。

为了实现真正的知识检索,构建作为知识检索基础支撑的各种类型的知识体系就成了关键,目前部分在知识体系构建方面领先的专业出版社在领域主题词表方便已经有了一定的积累,但是对于知识检索来说,构建领域本体以及知识图谱才是最理想的目标。

然而,对于专业领域来说,需要能够对本专业十分了解的专家才能够资格来手动构建知识图谱,投入了大量的人工和时间投入,构建知识图谱的效率太低,成本太高,准确率太低。



技术实现要素:

本发明提供一种知识图谱构建方法及系统,用于解决现有技术中构建知识图谱成本高,效率低的问题。

本发明的第一个方面是提供一种知识图谱构建方法,包括:

获取待构建知识图谱的至少一个领域的语料信息,所述语料信息包括:多个知识文本内容片段;

对所述知识文本内容片段进行分词以及词性标注,获取所述知识文本内容片段中的关键词;

将所述关键词按照预设的规则与领域本体进行匹配,获取所述知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系;所述领域本体包括:领域主题,领域主题包括的至少一个模型,模型的属性以及模型之间的关联关系;所述模型包括至少一个知识元实例;

根据所述多个知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系构建知识图谱。

进一步地,所述将所述关键词按照预设的规则与领域本体进行匹配,获取所述知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系,包括:

将所述知识文本内容片段中的至少一个关键词与所述领域本体中的领域主题进行匹配,确定所述知识文本内容片段的领域主题;

将所述知识文本内容片段中的至少一个关键词按照预设的规则与对应的领域主题所包括的模型进行匹配,确定与所述知识文本内容片段匹配的模型以及所述知识文本内容片段的知识元实例;

将所述知识文本内容片段中的至少一个关键词按照预设的规则与对应的模型的属性进行匹配,确定所述知识文本内容片段中知识元实例的属性;

结合模型之间的关联关系以及所述知识文本内容片段中知识元实例的属性,确定知识元实例之间的关联关系。

进一步地,所述将所述知识文本内容片段中的至少一个关键词按照预设的规则与对应的领域主题所包括的模型进行匹配,确定与所述知识文本内容片段匹配的模型以及所述知识文本内容片段的知识元实例,包括:

将所述知识文本内容片段中的至少一个关键词与对应的领域主题所包括的模型依次进行匹配,确定各个模型的置信度;

根据各个模型的置信度确定与所述知识文本内容片段匹配的模型;

将所述知识文本内容片段中的至少一个关键词与对应的模型的内容进行匹配,确定所述知识文本内容片段的知识元实例。

进一步地,所述将所述知识文本内容片段中的至少一个关键词与对应的领域主题所包括的模型依次进行匹配,确定各个模型的置信度,包括:

针对所述知识文本内容片段的领域主题所包括的多个模型,将所述知识文本内容片段中的至少一个关键词与所述模型的多个内容依次进行匹配,确定所述模型的权重;

根据所述多个模型的权重,确定所述多个模型的置信度。

进一步地,所述知识元实例的属性包括:普通属性和关联属性;

所述普通属性包括:基础属性;

所述根据所述多个知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系构建知识图谱之后,还包括:

获取知识元实例对应的知识文本内容片段的相关信息;所述相关信息包括:知识文本内容片段的内容以及来源信息;

将所述知识文本内容片段的相关信息确定为知识元实例的基础属性值。

进一步地,所述根据所述多个知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系构建知识图谱之后,还包括:

从所述知识图谱中获取与所述知识元实例具有第一关联关系的多个关联知识元实例;

从所述知识图谱中获取所述关联知识元实例对应的知识文本内容片段的相关信息;

将所述关联知识元实例对应的知识文本内容片段的相关信息确定为知识元实例的第一关联属性的值。

进一步地,所述根据所述多个知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系构建知识图谱之后,还包括:

对所述知识图谱进行展示。

进一步地,所述根据所述多个知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系构建知识图谱之后,还包括:

接收用户的查询指令,所述查询指令中携带知识元实例;

根据所述知识元实例查询知识图谱,获取所述知识元实例的属性、所述知识元实例的关联关系、所述知识元实例对应的知识文本内容片段以及与所述知识元实例具有关联关系的关联知识元实例对应的知识文本内容片段;

将所述知识元实例的属性、所述知识元实例的关联关系、所述知识元实例对应的知识文本内容片段以及与所述知识元实例具有关联关系的关联知识元实例对应的知识文本内容片段进行显示。

本发明中,通过获取待构建知识图谱的至少一个领域的语料信息,所述语料信息包括:多个知识文本内容片段;对所述知识文本内容片段进行分词以及词性标注,获取所述知识文本内容片段中的关键词;将所述关键词按照预设的规则与领域本体进行匹配,获取所述知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系;所述领域本体包括:领域主题,领域主题包括的至少一个模型,模型的属性以及模型之间的关联关系;所述模型包括至少一个知识元实例;根据所述多个知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系构建知识图谱。本发明实现了自动化构建知识图谱,降低了知识图谱的构建成本,提高了知识图谱的构建效率和准确率。

本发明的第二个方面是提供一种知识图谱构建系统,包括:

获取模块,用于获取待构建知识图谱的至少一个领域的语料信息,所述语料信息包括:多个知识文本内容片段;

分词以及词性标注模块,用于对所述知识文本内容片段进行分词以及词性标注,获取所述知识文本内容片段中的关键词;

匹配模块,用于将所述关键词按照预设的规则与领域本体进行匹配,获取所述知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系;所述领域本体包括:领域主题,领域主题包括的至少一个模型,模型的属性以及模型之间的关联关系;所述模型包括至少一个知识元实例;

构建模块,用于根据所述多个知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系构建知识图谱。

进一步地,所述匹配模块包括:

第一匹配单元,用于将所述知识文本内容片段中的至少一个关键词与所述领域本体中的领域主题进行匹配,确定所述知识文本内容片段的领域主题;

第二匹配单元,用于将所述知识文本内容片段中的至少一个关键词按照预设的规则与对应的领域主题所包括的模型进行匹配,确定与所述知识文本内容片段匹配的模型以及所述知识文本内容片段的知识元实例;

第三匹配单元,用于将所述知识文本内容片段中的至少一个关键词按照预设的规则与对应的模型的属性进行匹配,确定所述知识文本内容片段中知识元实例的属性;

确定单元,用于结合模型之间的关联关系以及所述知识文本内容片段中知识元实例的属性,确定知识元实例之间的关联关系。

本发明中,通过获取待构建知识图谱的至少一个领域的语料信息,所述语料信息包括:多个知识文本内容片段;对所述知识文本内容片段进行分词以及词性标注,获取所述知识文本内容片段中的关键词;将所述关键词按照预设的规则与领域本体进行匹配,获取所述知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系;所述领域本体包括:领域主题,领域主题包括的至少一个模型,模型的属性以及模型之间的关联关系;所述模型包括至少一个知识元实例;根据所述多个知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系构建知识图谱。本发明实现了自动化构建知识图谱,降低了知识图谱的构建成本,提高了知识图谱的构建效率和准确率。

附图说明

图1为本发明提供的知识图谱构建方法一个实施例的流程图;

图2为本发明提供的知识图谱构建方法又一个实施例的流程图;

图3为本发明提供的知识图谱构建方法又一个实施例的流程图;

图4为本发明提供的知识图谱构建系统一个实施例的结构示意图;

图5为本发明提供的知识图谱构建系统又一个实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明提供的知识图谱构建方法一个实施例的流程图,如图1所示,包括:

101、获取待构建知识图谱的至少一个领域的语料信息,语料信息包括:多个知识文本内容片段。

本发明提供的知识图谱构建方法的执行主体为知识图谱构建系统,知识图谱构建系统可以为计算机、服务器等硬件设备或者安装在硬件设备上的软件。

其中,领域可以指专业领域,例如“冶金”领域、“经济”领域、“医学”领域等,领域可以有多个子领域,例如“医学”领域下面有“儿科医学”领域。语料信息是指知识文本内容片段,通过自然语言的方式描述知识内容,可分为生语料和熟语料。原始的未经加工标引的语料为生语料,经过加工分析之后的语料称为熟语料。熟语料包含原始文本内容、自然语言分词结果及词性分析结果、文本所描述的知识元实例及其属性等。本实施例中涉及到的待构建知识图谱的语料信息为生语料。知识文本内容片段例如“脑膜炎可以通过专业医生确认后的抗生素药物来治疗”。

102、对知识文本内容片段进行分词以及词性标注,获取知识文本内容片段中的关键词。

103、将关键词按照预设的规则与领域本体进行匹配,获取知识文本内容片段中的知识元实例、知识元实例的属性以及知识元实例之间的关联关系;领域本体包括:领域主题,领域主题包括的至少一个模型,模型的属性以及模型之间的关联关系;模型包括至少一个知识元实例。

其中,领域主题可以指专业领域或者子领域。专业领域,例如“冶金”领域、“经济”领域、“医学”领域等,领域可以有多个子领域,例如“医学”领域下面有“儿科医学”领域。每个领域内会有多个模型,例如“医学”领域内有“医院”、“专家”、“疾病”、“药物”等模型。每个模型会有自己特有的属性,例如“疾病”模型会有“症状”、“诊断”、“病理变化”、“治疗方案”等属性。模型之间会有各种关联关系,例如“药物”和“疾病”之间会有“治疗”关系,“专家”和“疾病”之间也会有“擅长治疗”的关系。“脑膜炎”为“疾病”模型的一个知识元实例。“抗生素药物”为“药物”模型的一个知识元实例。“抗生素药物”和“脑膜炎”之间有“治疗”关系。

104、根据多个知识文本内容片段中的知识元实例、知识元实例的属性以及知识元实例之间的关联关系构建知识图谱。

进一步地,步骤104之后,还可以包括:对知识图谱进行展示。

具体地,知识图谱构建系统可以提供可交互的展示界面,以可视化的方式来展示知识图谱,例如采用图数据库Neo4j来存储图谱节点和关系,采用D3插件在浏览器上展示整个知识图谱。另外,知识图谱构建系统还可以根据用户的需求对知识图谱进行展示。例如,接收用户的知识图谱查看指令,指令中携带某个领域的领域主题;知识图谱构建系统根据用户的查看指令展示对应领域的知识图谱。

更进一步地,步骤104之后,还可以包括:接收用户的查询指令,查询指令中携带知识元实例;根据知识元实例查询知识图谱,获取知识元实例的属性、知识元实例的关联关系、知识元实例对应的知识文本内容片段以及与知识元实例具有关联关系的关联知识元实例对应的知识文本内容片段;将知识元实例的属性、知识元实例的关联关系、知识元实例对应的知识文本内容片段以及与知识元实例具有关联关系的关联知识元实例对应的知识文本内容片段进行显示。

通过上述知识图谱用户可以查询到各个领域的知识体系结构,还可以查询到与某个知识元实例相关的所有文献,以便使用。

本实施例中,通过获取待构建知识图谱的至少一个领域的语料信息,所述语料信息包括:多个知识文本内容片段;对所述知识文本内容片段进行分词以及词性标注,获取所述知识文本内容片段中的关键词;将所述关键词按照预设的规则与领域本体进行匹配,获取所述知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系;所述领域本体包括:领域主题,领域主题包括的至少一个模型,模型的属性以及模型之间的关联关系;所述模型包括至少一个知识元实例;根据所述多个知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系构建知识图谱。本发明实现了自动化构建知识图谱,降低了知识图谱的构建成本,提高了知识图谱的构建效率和准确率。

图2为本发明提供的知识图谱构建方法又一个实施例的流程图,如图2所示,在图1所示实施例的基础上,步骤103具体可以包括:

1031、将知识文本内容片段中的至少一个关键词与领域本体中的领域主题进行匹配,确定知识文本内容片段的领域主题。

1032、将知识文本内容片段中的至少一个关键词按照预设的规则与对应的领域主题所包括的模型进行匹配,确定与知识文本内容片段匹配的模型以及知识文本内容片段的知识元实例。

其中,知识图谱构建系统可以将知识文本内容片段中的至少一个关键词与对应的领域主题所包括的模型依次进行匹配,确定各个模型的置信度;根据各个模型的置信度确定与知识文本内容片段匹配的模型;将知识文本内容片段中的至少一个关键词与对应的模型的内容进行匹配,确定知识文本内容片段的知识元实例。

具体地,针对知识文本内容片段的领域主题所包括的多个模型,知识图谱构建系统可以将知识文本内容片段中的至少一个关键词与所述模型的多个内容依次进行匹配,确定模型的权重;根据所述多个模型的权重,确定所述多个模型的置信度。其中,知识图谱构建系统可以将知识文本内容片段中的至少一个关键词与所述模型的多个内容依次进行匹配,确定与知识文本内容片段中的至少一个关键词相似的内容的数量,从而确定模型的权重。

其中,模型的内容为模型所包括的知识元实例。

需要进行说明的是,匹配规则主要包括规则名称和规则内容两部分,规则内容是知识图谱构建系统分析应用的对象,是通过正则表达式扩展而成,例如“创建年份”是一个规则,它的内容是“^.*创建于(.*?)年.*$”,该规则主要用来识别某个对象的创建时间。

本系统在正则表达式的基础上,增加了自定义的识别符。

专名词指示符:[[{str}]],其中str是枚举值,表示专名词类别,类别可以在专名词表中定义。默认包括如下几种:A:人物;B:地点;C:事件;D:机构;E:时间。

除了默认的,可以在专名词表中自定义类型,专名词表的数据系统内置常识类词汇,专业领域的专名词可以导入专业领域的词典。专名词表用来辅助规则创建,扩展正则表达式的匹配范畴,加入行业知识。

1033、将知识文本内容片段中的至少一个关键词按照预设的规则与对应的模型的属性进行匹配,确定知识文本内容片段中知识元实例的属性。

具体地,模型的属性包括:普通属性和关联属性。对于普通属性来说,通过规则匹配后如果获取了多个结果,会结合权重和重复次数高的来选择一条,其他属性作为补充存储起来,等待人工确认。例如识别了“北京大学”创建时间有多个结果,其中只有一条是1900年,其他的都是1898年,那么结果会采纳1898年。

对于关联属性来说,通过规则匹配后如果获取了多个结果,会将结果文本内容都存储起来。然后系统对文本内容做如下的分析。如果关联属性和模型之间的关系进行了映射,那么说明关键词必定是知识元,例如“脑膜炎可以通过专业医生确认后的抗生素药物来治疗”这段话,通过规则提取出了疾病知识元实例“脑膜炎”的治疗属性的值为“专业医生确认后的抗生素药物”,通过关键词提取,获得了“抗生素药物”,而在领域本体管理中,设置了“疾病”模型和“药物”模型之间有治疗关系,并且和“疾病”的“治疗”属性进行了映射。那么由此可以得到“抗生素药物”就是“药物”模型的知识元实例。此时,假如我们的知识图谱存在“抗生素药物”,那么就可以和“脑膜炎”建立关联,如果图谱中还没有“抗生素”,系统会自动生成一个“药物”模型的新知识元实例。由此实现了知识元实例的自动化扩展。

1034、结合模型之间的关联关系以及知识文本内容片段中知识元实例的属性,确定知识元实例之间的关联关系。

本实施例中,通过获取待构建知识图谱的至少一个领域的语料信息,所述语料信息包括:多个知识文本内容片段;对所述知识文本内容片段进行分词以及词性标注,获取所述知识文本内容片段中的关键词;将知识文本内容片段中的至少一个关键词与领域本体中的领域主题进行匹配,确定知识文本内容片段的领域主题;将知识文本内容片段中的至少一个关键词按照预设的规则与对应的领域主题所包括的模型进行匹配,确定与知识文本内容片段匹配的模型以及知识文本内容片段的知识元实例;将知识文本内容片段中的至少一个关键词按照预设的规则与对应的模型的属性进行匹配,确定知识文本内容片段中知识元实例的属性;结合模型之间的关联关系以及知识文本内容片段中知识元实例的属性,确定知识元实例之间的关联关系;根据所述多个知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系构建知识图谱。本发明实现了自动化构建知识图谱,降低了知识图谱的构建成本,提高了知识图谱的构建效率和准确率。

图3为本发明提供的知识图谱构建方法又一个实施例的结构示意图,如图3所示,在图1所示实施例的基础上,还包括:

105、获取知识元实例对应的知识文本内容片段的相关信息;相关信息包括:知识文本内容片段的内容以及来源信息。

106、将知识文本内容片段的相关信息确定为知识元实例的基础属性值。

107、从知识图谱中获取与知识元实例具有第一关联关系的多个关联知识元实例。

108、从知识图谱中获取关联知识元实例对应的知识文本内容片段的相关信息。

109、将关联知识元实例对应的知识文本内容片段的相关信息确定为知识元实例的第一关联属性的值。

本实施例中,通过将知识文本内容片段的相关信息确定为对应的知识元实例的基础属性值,将与知识元实例具有第一关联关系的多个关联知识元实例对应的知识文本内容的相关信息确定为知识元实例的第一关联属性的值,从而使得知识图谱构建系统在接收到用户的携带知识元实例的查询请求时,能够将知识元实例的属性、所述知识元实例的关联关系、所述知识元实例对应的知识文本内容片段以及与所述知识元实例具有关联关系的关联知识元实例对应的知识文本内容片段显示给用户。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图4为本发明提供的知识图谱构建系统一个实施例的结构示意图,如图4所示,包括:

获取模块41,用于获取待构建知识图谱的至少一个领域的语料信息,语料信息包括:多个知识文本内容片段;

分词以及词性标注模块42,用于对知识文本内容片段进行分词以及词性标注,获取知识文本内容片段中的关键词;

匹配模块43,用于将关键词按照预设的规则与领域本体进行匹配,获取知识文本内容片段中的知识元实例、知识元实例的属性以及知识元实例之间的关联关系;领域本体包括:领域主题,领域主题包括的至少一个模型,模型的属性以及模型之间的关联关系;模型包括至少一个知识元实例;

构建模块44,用于根据多个知识文本内容片段中的知识元实例、知识元实例的属性以及知识元实例之间的关联关系构建知识图谱。

本发明提供的知识图谱构建系统可以为计算机、服务器等硬件设备或者安装在硬件设备上的软件。

进一步地,知识图谱构建系统还可以包括:展示模块,用于对知识图谱进行显示。

具体地,知识图谱构建系统可以提供可交互的展示界面,以可视化的方式来展示知识图谱,例如采用图数据库Neo4j来存储图谱节点和关系,采用D3插件在浏览器上展示整个知识图谱。另外,知识图谱构建系统还可以根据用户的需求对知识图谱进行展示。例如,接收用户的知识图谱查看指令,指令中携带某个领域的领域主题;知识图谱构建系统根据用户的查看指令展示对应领域的知识图谱。

更进一步地,知识图谱构建系统还可以接收用户的查询指令,查询指令中携带知识元实例;根据知识元实例查询知识图谱,获取知识元实例的属性、知识元实例的关联关系、知识元实例对应的知识文本内容片段以及与知识元实例具有关联关系的关联知识元实例对应的知识文本内容片段;将知识元实例的属性、知识元实例的关联关系、知识元实例对应的知识文本内容片段以及与知识元实例具有关联关系的关联知识元实例对应的知识文本内容片段进行显示。

通过上述知识图谱用户可以查询到各个领域的知识体系结构,还可以查询到与某个知识元实例相关的所有文献,以便使用。

更进一步地,知识图谱构建系统构建知识图谱后,还可以获取知识元实例对应的知识文本内容片段的相关信息;相关信息包括:知识文本内容片段的内容以及来源信息;将知识文本内容片段的相关信息确定为知识元实例的基础属性值;从知识图谱中获取与所述知识元实例具有第一关联关系的多个关联知识元实例;从知识图谱中获取关联知识元实例对应的知识文本内容片段的相关信息;将所述关联知识元实例对应的知识文本内容片段的相关信息确定为知识元实例的第一关联属性的值。

知识图谱构建系统通过将知识文本内容片段的相关信息确定为对应的知识元实例的基础属性值,将与知识元实例具有第一关联关系的多个关联知识元实例对应的知识文本内容的相关信息确定为知识元实例的第一关联属性的值,从而使得知识图谱构建系统在接收到用户的携带知识元实例的查询请求时,能够将知识元实例的属性、所述知识元实例的关联关系、所述知识元实例对应的知识文本内容片段以及与所述知识元实例具有关联关系的关联知识元实例对应的知识文本内容片段显示给用户。

本实施例中,通过获取待构建知识图谱的至少一个领域的语料信息,所述语料信息包括:多个知识文本内容片段;对所述知识文本内容片段进行分词以及词性标注,获取所述知识文本内容片段中的关键词;将所述关键词按照预设的规则与领域本体进行匹配,获取所述知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系;所述领域本体包括:领域主题,领域主题包括的至少一个模型,模型的属性以及模型之间的关联关系;所述模型包括至少一个知识元实例;根据所述多个知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系构建知识图谱。本发明实现了自动化构建知识图谱,降低了知识图谱的构建成本,提高了知识图谱的构建效率和准确率。

进一步地,结合参考图5,在图4所示实施例的基础上,所述匹配模块43包括:

第一匹配单元431,用于将知识文本内容片段中的至少一个关键词与领域本体中的领域主题进行匹配,确定知识文本内容片段的领域主题;

第二匹配单元432,用于将知识文本内容片段中的至少一个关键词按照预设的规则与对应的领域主题所包括的模型进行匹配,确定与知识文本内容片段匹配的模型以及知识文本内容片段的知识元实例;

第三匹配单元433,用于将知识文本内容片段中的至少一个关键词按照预设的规则与对应的模型的属性进行匹配,确定知识文本内容片段中知识元实例的属性;

确定单元434,用于结合模型之间的关联关系以及知识文本内容片段中知识元实例的属性,确定知识元实例之间的关联关系。

其中,知识图谱构建系统可以将知识文本内容片段中的至少一个关键词与对应的领域主题所包括的模型依次进行匹配,确定各个模型的置信度;根据各个模型的置信度确定与知识文本内容片段匹配的模型;将知识文本内容片段中的至少一个关键词与对应的模型的内容进行匹配,确定知识文本内容片段的知识元实例。

具体地,针对知识文本内容片段的领域主题所包括的多个模型,知识图谱构建系统可以将知识文本内容片段中的至少一个关键词与所述模型的多个内容依次进行匹配,确定模型的权重;根据所述多个模型的权重,确定所述多个模型的置信度。其中,知识图谱构建系统可以将知识文本内容片段中的至少一个关键词与所述模型的多个内容依次进行匹配,确定与知识文本内容片段中的至少一个关键词相似的内容的数量,从而确定模型的权重。

其中,模型的内容为模型所包括的知识元实例。

还需要进行说明的是,模型的属性可以包括:普通属性和关联属性。对于普通属性来说,通过规则匹配后如果获取了多个结果,会结合权重和重复次数高的来选择一条,其他属性作为补充存储起来,等待人工确认。例如识别了“北京大学”创建时间有多个结果,其中只有一条是1900年,其他的都是1898年,那么结果会采纳1898年。

对于关联属性来说,通过规则匹配后如果获取了多个结果,会将结果文本内容都存储起来。然后系统对文本内容做如下的分析。如果关联属性和模型之间的关系进行了映射,那么说明关键词必定是知识元,例如“脑膜炎可以通过专业医生确认后的抗生素药物来治疗”这段话,通过规则提取出了疾病知识元实例“脑膜炎”的治疗属性的值为“专业医生确认后的抗生素药物”,通过关键词提取,获得了“抗生素药物”,而在领域本体管理中,设置了“疾病”模型和“药物”模型之间有治疗关系,并且和“疾病”的“治疗”属性进行了映射。那么由此可以得到“抗生素药物”就是“药物”模型的知识元实例。此时,假如我们的知识图谱存在“抗生素药物”,那么就可以和“脑膜炎”建立关联,如果图谱中还没有“抗生素”,系统会自动生成一个“药物”模型的新知识元实例。由此实现了知识元实例的自动化扩展。

本实施例中,通过获取待构建知识图谱的至少一个领域的语料信息,所述语料信息包括:多个知识文本内容片段;对所述知识文本内容片段进行分词以及词性标注,获取所述知识文本内容片段中的关键词;将知识文本内容片段中的至少一个关键词与领域本体中的领域主题进行匹配,确定知识文本内容片段的领域主题;将知识文本内容片段中的至少一个关键词按照预设的规则与对应的领域主题所包括的模型进行匹配,确定与知识文本内容片段匹配的模型以及知识文本内容片段的知识元实例;将知识文本内容片段中的至少一个关键词按照预设的规则与对应的模型的属性进行匹配,确定知识文本内容片段中知识元实例的属性;结合模型之间的关联关系以及知识文本内容片段中知识元实例的属性,确定知识元实例之间的关联关系;根据所述多个知识文本内容片段中的知识元实例、所述知识元实例的属性以及所述知识元实例之间的关联关系构建知识图谱。本发明实现了自动化构建知识图谱,降低了知识图谱的构建成本,提高了知识图谱的构建效率和准确率。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1