一种知识图谱的构建系统及方法与流程

文档序号:16068865发布日期:2018-11-24 12:56阅读:301来源:国知局

本发明涉及自然语言处理、计算机信息处理技术领域,特别涉及一种知识图谱的构建系统及方法。

背景技术

知识图谱是一种以自然语言处理(nlp)为中心,结合应用数学、图形学、信息可视化的多种技术的知识组织形式和规范。近来知识图谱在人工智能很多行业拥有成熟的应用,如搜索引擎、聊天机器人、智能医疗、智能硬件等。知识图谱分为行业知识图谱和通用知识图谱,2012年谷歌提出通用知识图谱的概念。通用知识图谱强调广度,很难生成全局性本体层统一管理。常见通用知识图谱包括:freebase、dbpedia、zhishi.me等。行业知识图谱是基于特定领域,应对不同的业务场景,具有一定深度和完备性的知识库系统。当然通用知识图谱和行业知识图谱并不是相互对立,而是相互互补的一个关系,利用通用的知识图谱的广度结合行业知识图谱的深度,可以形成更加完善的知识图谱。

知识图谱是关系的一种有效的表现方式,把不同种类的信息连接在一起得到一个关系网络。通过知识图谱,利用关系推导实现语义理解和推理。关系的基本表现形式为三元组如:<node,relation,node>,可以表示两个实体具有某一种关系,或者某一个实体含有某一种属性。例如:<张三,父母,李四>,<陈六,父母,李四>,<张三,性别,男>,<陈六,性别,女>=><张三,配偶,陈六>,四个三元组依次表示为:张三和李四是父母关系,陈六和李四也是父母关系,张三拥有性别属性为男,陈六拥有性别属性为女,可以通过这四条知识推导出张三和陈六是配偶关系。

知识图谱的构建核心环节就是关系抽取。现有行业知识图谱的构建的方案主要有:一是至顶向下式,先创建基于本体的数据模式,利用高质量的结构化连接数据根据图映射得到关系三元组。这种方法可靠性较高,但是非常耗时耗力,且需要较强的领域知识作为支撑,一般数据规模无法做得很大。二是由底向上式,采用一定技术手段从公开数据集中实现关系抽取。公开数据集往往包含少量半结构化数据和大量非结构化数据,半结构化数据如表格、列表、字典、infobox等,通常采用装饰器(wrapper),根据数据呈现的形式编写规则来提取关系。而非结构化的纯文本中的关系往往呈现多种多样。比如下面四段文本都可以表示a和b的配偶关系:1、a与b结婚了。2、a娶了b。3、b嫁给a。4、c的爸爸妈妈a和b。四句话均体现了配偶关系,虽然有一些特性可循,但是很难单纯靠规则模式来处理。非结构化文本中关系往往和该句子的语义特征相关联。现有的方案中也有用规则模版来提取关系三元组的,这种方法的优点是比较准确可靠。但是缺点很明显,一是需要人工编写模版无法自动化,二是只能适配特定的句子模式。有方案基于规则抽取的基础上提出先进行人工规则学习,生成新的规则集,再用新的规则提取未分类的关系模式。此方案虽然能提高规则提取的能力,但是无法进行自动化的部署,规则学习的阶段需要不断介入人工审核,不是一个很好的解决方案。从非结构化的纯文本中抽取关系构建知识图谱,始终是一个棘手的难题。



技术实现要素:

为了解决现有技术的问题,本发明实施例提供了一种知识图谱的构建系统及方法。所述技术方案如下:

第一方面,提供了一种知识图谱的构建系统,包括:

爬虫模块,对文本进行爬虫以及数据清洗;

基础标注模块,用于进行包括主语补全操作在内的基础标注工作;

候选关系提取模块,用于提取包括候选关系句子和/或关系实体对的候选关系;

特征提取模块,用于进行特征提取;

关系分类器训练模块,用于根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;

关系审核模块,用于对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。

结合第一方面,在第一种可能的实现方式中,所述系统还包括:

启发式规则库,用于设置关系提取的启发式规则;

所述关系审核模块用于结合所述关系分类器获得的候选句子关系和所述启发式规则进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。

结合第一方面的第一种可能实现方式,在第二种可能的实现方式中,所述系统还包括:

日志分析模块,用于对原有日志进行挖掘,获得所述启发式规则;和/或根据所述关系审核模块审核确定的结果进行挖掘,更新所述启发式规则。

结合第一方面以及第一方面的第一、二种可能实现方式,在第三至五种可能的实现方式中,所述系统还包括:

特征权重更新模块,用于根据所述关系审核模块审核确定的结果对所述关系分类器进行权重更新。

结合第一方面,在第六种可能的实现方式中,所述基础标注模块,用于进行包括分词、词性标注、命名实体识别、句法依存分析、主语补全操作的基础标注工作。

结合第一方面,在第七种可能的实现方式中,所述特征提取模块,用于基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征和/或基于句法结构的语法特征基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征和/或基于句法结构的语法特征。

结合第一方面以及第一方面的第一、二、六、七种可能实现方式,在第八至十一种可能的实现方式中,所述主语补全操作包括:

判断句子是否包含主语,

若是,则判断主语是否是指代词,若是,则判断所述句子的上一句是否包含主语,若是,则判断所述主语是否是实体词,若是,则根据所述主语进行所述句子的主语补全;

若否,则判断所述句子的上一句是否包含主语,若是,则判断所述主语是否是实体词,若是,则根据所述主语进行所述句子的主语补全。

结合第一方面以及第一方面的第一、二、六、七种可能实现方式,在第十二至十五种可能的实现方式中,所述关系审核模块,通过利用投票机制和/或人工判决的方法进行候选关系审核确定。

第二方面,一种知识图谱的构建方法,包括:

对文本进行爬虫以及数据清洗:

进行包括主语补全操作在内的基础标注工作;

提取包括候选关系句子和/或关系实体对的候选关系;

进行特征提取;

根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;

对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。

结合第二方面,在第一种可能的实现方式中,所述方法还包括:

设置关系提取的启发式规则;

所述对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整,包括:

结合所述关系分类器获得的候选句子关系和所述启发式规则进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。

结合第二方面的第一种可能实现方式,在第二种可能的实现方式中,所述方法还包括:

对原有日志进行挖掘,获得所述启发式规则;和/或

根据所述关系审核模块审核确定的结果进行挖掘,更新所述启发式规则。

结合第二方面以及第二方面的第一、二种可能实现方式,在第三至五种可能的实现方式中,所述方法还包括:

根据所述关系审核模块审核确定的结果对所述关系分类器进行权重更新。

结合第二方面,在第六种可能的实现方式中,进行包括主语补全操作在内的基础标注工作,包括:

进行分词、词性标注、命名实体识别、句法依存分析、主语补全操作的基础标注工作。

结合第二方面,在第七种可能的实现方式中,进行特征提取,包括:

基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征和/或基于句法结构的语法特征基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征和/或基于句法结构的语法特征。

结合第二方面以及第二方面的第一、二、六、七种可能实现方式,在第八至十一种可能的实现方式中,所述主语补全操作包括:

判断句子是否包含主语,

若是,则判断主语是否是指代词,若是,则判断所述句子的上一句是否包含主语,若是,则判断所述主是否是实体词,若是,则根据所述主语进行所述句子的主语补全;

若否,则判断所述句子的上一句是否包含主语,若是,则判断所述主语是否是实体词,若是,则根据所述主语进行所述句子的主语补全。

结合第二面以及第二方面的第一、二、六、七种可能实现方式,在第十二至十五种可能的实现方式中,通过利用投票机制和/或人工判决的方法进行候选关系审核确定。

本发明实施例提供的技术方案带来的有益效果是:

本发明实施例提供的知识图谱构建系统及方法,相对现有技术具有以下有益效果:

1、由于在基础标注工作中设置了主语补全操作,通过结合爬虫、其他基础标注、候选关系提取、特征提取、统计机器学习训练、关系审核等其他操作,使得该知识图谱构建系统及方法具有更强的关系抽取能力,实现了从非结构化的纯文本中抽取关系构建知识图谱的自动化便捷部署;

2、利用启发性规则库和统计机器学习相结合的标注手段,避免大规模标记语料的同时也保证了比较高的准召率;

3、日志分析和权重更新,使得本系统拥有不断迭代学习能力,能够在数据量增加之后拥有更好的关系抽取能力;

总的来说,本发明实施例提供的知识图谱构建系统及方法,通过主语补全技术与采用关系分类器的统计机器学习相结合,不断迭代更新,优化参数,实现了更强的关系抽取能力,减少了人工参与的成本,提高了构建知识图谱的效率。正是其较强的关系抽取能力和处理效率,该知识图谱构建方案尤其适用于处理非结构化的纯文本的知识图谱构建,在涉及知识图谱的领域具有很好的应用前景。需要注意的是,上述实施例重点在金融领域公司图谱的构建上给予实践参考,但是理论上,本发明实施例提供的方案适用于任何行业知识图谱的构建,同时也给通用知识图谱的构建提供比较新颖的参考作用。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的知识图谱构建系统的结构示意图;

图2是依存结构示例;

图3是主语补全算法示例;

图4是句子词汇特征举例的图表;

图5是本发明实施例中涉及的关系抽取组建知识图谱示例流程示意图;

图6是通过本发明实施例提供的知识图谱构建系统构建的知识图谱示例;

图7是本发明实施例提供的知识图谱构建系统的结构示意图;

图8是启发式规则集示例;

图9是本发明实施例中涉及的系统内数据处理流程示意图;

图10是本发明实施例提供的知识图谱构建方法流程图;

图11是本发明实施例提供的知识图谱构建方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供的知识图谱的构建系统及方法,通过对文本进行爬虫预处理、基础标注、候选关系提取、特征提取、关系分类器训练以及关系审核构建知识图谱,由于在基础标注工作中设置了主语补全操作,实现了更强的关系抽取能力,然后与采用关系分类器的统计机器学习相结合,不断迭代更新,优化参数,实现了更强的关系抽取能力,减少了人工参与的成本,提高了构建知识图谱的效率。正是其较强的关系抽取能力和处理效率,该知识图谱构建方案尤其适用于处理非结构化的纯文本的知识图谱构建,在涉及知识图谱的领域具有很好的应用前景。

下面结合具体实施例,对本发明实施例提供的知识图谱构建系统及方法作进一步说明。

实施例1

图1是本发明实施例提供的知识图谱构建系统的结构示意图,如图1所示,本发明实施例提供的知识图谱构建系统,包括以下组成结构:爬虫模块、基础标注模块、候选关系提取模块、特征提取模块、关系分类器训练模块以及关系审核模块。

爬虫模块,用于对文本进行爬虫以及数据清洗。具体的,爬虫爬取相关资讯,清洗出文本输入给基础标注模块。

基础标注模块,用于进行包括主语补全操作在内的基础标注工作。具体的,基础标注模块,用于进行包括分词(word-seg)、词性标注(pos)、命名实体识别(ner)、句法依存分析(dep-parser)、主语补全操作的基础标注工作。

需要说明的是,本发明实施例的基础标注模块进行的基础标注工作,除了上述列举的处理过程外,还可以包括其他现有技术中任何可能的自然语言处理(nlp)标注操作,本发明实施例不对其加以特别限制。

示例性地,基础标注模块首先根据段落符号或者标点符号对文本进行句子切割,对每一个句子根据pipeline的方式,依次进行分词、词性标注、命名实体识别和依存句法分析。

其中在ner处理过程,运用词典和模型结合的方法,实体识别模型运用众包平台标注加crf模型训练,最后再结合领域词典给出结果。根据实体识别的结果对那些被切开的实体词进行还原。比如:“小米科技”可能被切开成“小米”和“科技”,但是后面会根据ner的结果把切开的重新组合成“小米科技”。此时,我们会得到两个列表,其中一个是句子tokens,另一个是句子的依存结构列表。

依存结构是一个以root为根的树状结构,表明句子中每一个词的依赖关系。图2是依存结构示例,示出了一个典型的依存结构,att表示定中关系、sbv表示主谓关系、vob表示直接宾语,利用依存分析可以解析句子主干,处理并列关系等等,该示例中,把依存结构树用列表结构来储存。

关系抽取首先必须把大段长文本分割成句子,再抽取候选实体对及其相关特征。而在把文本分割成句子的时候,经常会碰到一个句子缺乏主语或者以指代词代替主语,但这个句子本身包含非常强的关系特征。于是,基于该句子上下文的依存信息,进行过句法依存分析后,可以对当前句子的主语进行补全和填充,即进行主语补全操作。

图3是主语补全算法示例,示出了一优选的主语补全算法的具体流程。详细流程如下:

首先判断句子是否包含主语,

若是,则判断主语是否是指代词,若是,则判断句子的上一句是否包含主语,若是,则判断主语是否是实体词,若是,则根据主语进行句子的主语补全;

若否,则判断句子的上一句是否包含主语,若是,则判断主语是否是实体词,若是,则根据主语进行句子的主语补全;

除上述满足主语补全条件的情况下进行主语补全,其他情况则不进行主语补全。

也就是说,如果一个句子缺乏主语或者包含指代词,运用句子依存分析,结合上一个句子语义结构,给出补全填充。例如句子:“马云出生于1964年,他是阿里巴巴集团主要创始人。”由句子依存信息可知第一个句子主语是人名实体(person:马云);第二个句子主语是“他”,谓语是“是”,宾语是“阿里巴巴集团主要创始人”,宾语修饰包含实体词“阿里巴巴集团”。如此就可以利用第一句主语实体词替换第二句指代词,变成“马云出生于1964年,马云是阿里巴巴集团主要创始人。”

上述基础标注工作完成之后,会将处理数据输入到候选关系提取模块。

候选关系提取模块,用于提取包括候选关系句子和/或关系实体对的候选关系。具体的,根据基础标注模块的输出结果,筛选出包含关系的候选句子,提取流程大致为:首先判断句子中包含实体个数是否大于某个阈值;其次句子中包含的实体类型是否符合关系中的实体类型,满足两个条件的句子就是符合条件的候选句子。对于一个候选句子中多个实体的情况,我们利用笛卡尔集和关系对应的实体类型要求,穷举生成所有的候选关系对。

示例性的,筛选出包含两个实体及以上的句子,并且实体类型要满足当前关系提取的要求,如提取公司关系,则需要满足两个实体类型全部是公司实体类型,提取公司和人的关系时,满足要求的句子就必须包含至少一个公司实体类型和人名实体类型。

需要说明的是,这里提取的候选关系数据,除了具有候选关系句子和/或关系实体对外,还可以包括现有技术中任何可能的候选关系提取类型,本发明实施例不对其加以特别限制。

经过上述候选关系提取模块处理后,数据会输入到特征提取模块,该特征提取模块用于进行特征提取。具体的,特征提取模块用于基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征,以及基于句法结构的语法特征。词嵌入是指将单词的语义信息分布地表示成稠密的低维度实值向量。词嵌入特征是基于预先训练的word2vec词向量,利用分布式词向量空间平移不变性,求出两个实体词的嵌入向量的余弦距离值。图4是句子词汇特征举例的图表,词汇级别的特征举例如图4所示。语法特征是指基于依存分析和词性的句子结构特征,如实体词c1的依存词d1,实体词c2的依存词d2,以及依存词d1的词性posd1,依存词d2的词性posd2等。示例性地,特征提取模块用于基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征和/或基于句法结构的语法特征。举例说明,在得到句子序列和句子里面每个词的依存信息后,接下来通过特征提取模块提取句子上下文特征,比如:两个实体中间动词、第一个实体前一个词、第二个实体后一个词等等。

接下来,关系分类器训练模块根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器。这里的关系分类器优选地为贝叶斯分类器。分类器的构建过程具有以下两种方式:

方式一,首先收集小部分实体关系例子,利用爬虫定向爬取其相关文本,人工标注少量样本,预训练一个关系抽取模型;然后根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;

方式二,直接根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器。

示例性地,在利用上述方式一进行分类器构建的过程中,人工整理出少量公司关系对和公司人物关系对例子,并且用包含其中关系的句子进行训练。这其中需要少量人工标注工作,但是并不是持续性的,只是预先训练的一个准备过程。人工标注少量数据用于初始化特征值。构建分类器的步骤大致分为:

a)将数据集转化成频率表;

b)创建并计算不同特征对关系成立的概率似然表;

c)使用贝叶斯公司计算关系成立的得分;

注意,本设计方案中分类器只对一种关系的正负类判定,多重关系的判定可以平行的建立多个分类器。

将上述关系分类器获得的候选句子关系输入到关系审核模块,关系审核模块对其进行审核确定,获得符合审核条件的数据结果,然后根据该数据结果对上述关系分类器进行相应调整,以对其进行优化。

通过上述审核优化的关系分类器获得一系列关系结果数据,将关系实体对存储在关系数据库作为知识图谱的基础知识载体,以供上层接口查询和知识加工和推理,至此系统完成知识图谱的构建工作。示例性地,最后把抽取的关系三元组存入关系数据库,建立基础数据平台,选用neo4j图数据库,根据cypher图形查询语言自动将结果存入数据库,并且建立支持上层查询接口。

图5是本发明实施例中涉及的关系抽取组建知识图谱示例流程示意图,示出了通过知识图谱构建系统由纯文本获得如图5中所示的最终知识图谱。图6是通过本发明实施例提供的知识图谱构建系统构建的知识图谱示例,示出了公司股东关系的知识图谱。

实施例2

图7是本发明实施例2提供的知识图谱构建系统的结构示意图,如图7所示,本发明实施例提供的知识图谱构建系统,包括以下组成结构:爬虫模块、nlp(自然语言处理)基础标注模块、候选关系提取模块、特征提取模块、关系分类器训练模块、启发式规则库、关系审核模块、日志分析模块以及特征权重模块。

这里的爬虫模块、nlp(自然语言处理)基础标注模块、候选关系提取模块、特征提取模块、关系分类器训练模块与实施例1中描述的相应模块相同,因此不再赘述。

启发式规则库,用于设置关系提取的启发式规则。

具体的,启发式规则可以是人工可以设置一些启发式规则集,例如根据行业知识,人工整理启发式规则集;也可以根据对原有日志的挖掘,自动总结得到,例如对日志中所有带标记句子进行序列挖掘,结合相应算法自动给出启发式规则。图8是启发式规则集示例,如图8所示,示出了启发式规则集的一个示例。

关系审核模块用于结合关系分类器获得的候选句子关系和启发式规则库的启发式规则进行审核确定,根据审核确定的结果对关系分类器进行相应调整,以优化关系分类器。上述审核确定过程,可以按照如下方式进行:

启发式规则和分类器的同时作用于一个句子,得到的结果通过一个仲裁机制来确定最后的关系确定,该仲裁机制利用投票机制方法、人工判决方法或两者相结合的方法。示例性地,根据关系分类器和启发式规则对未分类的新句子中候选实体对分别进行打分和投票,分类器打分规则是:分类得分(classify_score)超过某一个阈值就投正票(+1),否则就投负票(-1)。规则打分机制就是满足某一个规则就投正票,否则投负票,然后把所有的投票结果相加,如果两方式最终投票结果是0,则通过关系审核模块进行最终的审核判断来确定。如果启发式规则和分类器同时给出判断时,运用投票的方法给出裁决;如果无法解决冲突则打上标记进入日志分析模块,等待人工裁决。

至于日志分析模块,前面已经提到,可以利用其对原有日志进行挖掘,获得启发式规则库的启发式规则,另外,它还用于关系审核模块审核确定的结果进行挖掘,从而更新启发式规则。日志分析模块主要是可视化地给出分类器得分以及错误情况,根据常见的错误类型整理出启发性的人工规则库,从而挖掘出启发式规则,提高准确率。上述日志挖掘过程可以利用prefixspan算法,结合聚类进行自动总结,也可以人工总结,本发明对实现该过程采用的方法不进行特别限定。

在启动日志分析模块的同时,关系审核之后会触发特征权重更新模块,特征权重更新模块,用于根据关系审核模块审核确定的结果对关系分类器进行权重更新。示例性地,特征权重更新模块根据带标记的句子重新计算已有特征的的权重,输入到关系分类器中,更新分类器的识别能力,经过关系评判后的候选关系句子可以有效得对分类器需要的特征进行权重更新,回馈给关系分类器,实现迭代学习,使其具有更好的准确性,从而使整个系统实现自动化的迭代学习,在数据量增大的情况也会拥有更强的识别能力。

需要注意的是,特征权重更新模块进行的更新迭代过程与日志分析模块进行的日志分析挖掘过程,可以如上所述地同时进行,也可以以先后顺序进行,例如先通过特征权重更新模块进行更新迭代过程再通过日志分析模块进行日志分析挖掘过程,或者,先通过日志分析模块进行日志分析挖掘过程再通过特征权重更新模块进行更新迭代过程,本发明实施例不对其加以特别限制。

通过上述过程最终获得一系列关系结果数据,将关系实体对存储在关系数据库作为知识图谱的基础知识载体,以供上层接口查询和知识加工和推理,至此系统完成知识图谱的构建工作。示例性地,最后把抽取的关系三元组存入关系数据库,建立基础数据平台,选用neo4j图数据库,根据cypher图形查询语言自动将结果存入数据库,并且建立支持上层查询接口。图9是本发明实施例中涉及的系统内数据处理流程示意图,上述模块执行的数据处理流程如图9所示。再回到图5和图6,图5是本发明实施例中涉及的关系抽取组建知识图谱示例流程示意图,示出了通过知识图谱构建系统由纯文本获得如图5中所示的最终知识图谱;图6是通过本发明实施例提供的知识图谱构建系统构建的知识图谱示例,示出了公司股东关系的知识图谱。

值得注意的是,上述模块执行相应操作的具体过程,除了上面所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。

实施例3

图10是本发明实施例提供的知识图谱构建方法流程图,如图10所示,本发明实施例提供的知识图谱构建方法,包括以下步骤:

301、对文本进行爬虫以及数据清洗:

302、进行包括主语补全操作在内的基础标注工作;

303、提取包括候选关系句子和/或关系实体对的候选关系;

304、进行特征提取;

305、根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;

306、对关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对关系分类器进行相应调整。

实施例4

图11是本发明实施例提供的知识图谱构建方法流程图,如图11所示,本发明实施例提供的知识图谱构建方法,包括以下步骤:

401、对文本进行爬虫以及数据清洗。

402、进行分词、词性标注、命名实体识别、句法依存分析、主语补全操作的基础标注工作。

具体的,主语补全操作包括:

判断句子是否包含主语,

若是,则判断主语是否是指代词,若是,则判断句子的上一句是否包含主语,若是,则判断主语是否是实体词,若是,则根据主语进行句子的主语补全;

若否,则判断所述句子的上一句是否包含主语,若是,则判断主语是否是实体词,若是,则根据主语进行句子的主语补全。

403、提取包括候选关系句子和/或关系实体对的候选关系。

404、提取基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征和/或基于句法结构的语法特征。

405、根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器。

406、对原有日志进行挖掘,获得所述启发式规则。

407、结合关系分类器获得的候选句子关系和启发式规则进行审核确定,根据审核确定的结果对关系分类器进行相应调整。

具体的,通过利用投票机制和/或人工判决的方法进行候选关系审核确定。

408、根据关系审核模块审核确定的结果进行挖掘,更新启发式规则。

409、根据关系审核模块审核确定的结果对关系分类器进行权重更新

值得注意的是,步骤401-409的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。

上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。

需要说明的是:上述实施例提供的知识图谱构建系统在触发知识图谱构建业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的知识图谱构建方法与知识图谱构建系统实施例属于同一构思,其具体实现过程详见系统实施例,这里不再赘述。

本发明实施例提供的知识图谱构建系统及方法,相对现有技术具有以下有益效果:

1、由于在基础标注工作中设置了主语补全操作,通过结合爬虫、其他基础标注、候选关系提取、特征提取、统计机器学习训练、关系审核等其他操作,使得该知识图谱构建系统及方法具有更强的关系抽取能力,实现了从非结构化的纯文本中抽取关系构建知识图谱的自动化便捷部署;

2、利用启发性规则库和统计机器学习相结合的标注手段,避免大规模标记语料的同时也保证了比较高的准召率;

3、日志分析和权重更新,使得本系统拥有不断迭代学习能力,能够在数据量增加之后拥有更好的关系抽取能力;

总的来说,本发明实施例提供的知识图谱构建系统及方法,通过主语补全技术与采用关系分类器的统计机器学习相结合,不断迭代更新,优化参数,实现了更强的关系抽取能力,减少了人工参与的成本,提高了构建知识图谱的效率。正是其较强的关系抽取能力和处理效率,该知识图谱构建方案尤其适用于处理非结构化的纯文本的知识图谱构建,在涉及知识图谱的领域具有很好的应用前景。需要注意的是,上述实施例重点在金融领域公司图谱的构建上给予实践参考,但是理论上,本发明实施例提供的方案适用于任何行业知识图谱的构建,同时也给通用知识图谱的构建提供比较新颖的参考作用。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1