面向中文领域的非分类关系抽取方法、装置、设备及介质与流程

文档序号:16468737发布日期:2019-01-02 22:56阅读:192来源:国知局
面向中文领域的非分类关系抽取方法、装置、设备及介质与流程

本发明涉及自然语言处理领域,尤其涉及面向中文领域的非分类关系抽取方法、装置、设备及介质。



背景技术:

本体学习的目标是实现自动或半自动本体构建,与手动本体构建相比,可节省大量时间和资源。本体学习包括以下几个任务:术语的抽取、概念的抽取、概念之间的分类关系和非分类关系的抽取,公理的抽取。其中,抽取概念之间非分类关系是较为困难的一个任务,往往被忽视。

非分类关系识别方法常用基于统计的方法,对于统计方法,经常使用共现频率和关联规则挖掘算法来确定相关概念对。然而,这些方法对语料库中概念的频率很敏感,并可能返回并不相关的概念对。非分类关系的标注,通常会抽取两个概念之间的动词作为关系的标注,一些研究工作首先确定与领域相关的动词,然后将这些动词与概念结合起来构建非分类关系模板;最后,数据挖掘算法(如关联规则挖掘算法)用于细化关系的标注,还有设计了一种基于向量空间的质心函数来训练关系标注抽取模型,结构化信息用于删除无效的关系标注并提高系统性能,也有提出了一种用于抽取非分类学关系的半自动技术,五种nlp技术用于语料库注释,三种抽取规则用于抽取候选关系,两种统计方法用于关系细化和标注识别。与其他技术相比,抽取规则的使用使得系统可以获得更好的结果。但是,这些方法中未使用句法或者语义信息。

发明人在实施本发明实施例发现,在实际应用中我们需要抽取有关系的概念对和为概念对抽取合适的动词表示非分类关系,非分类关系的抽取分为两个步骤,即非分类关系的识别和非分类关系的抽取。非分类关系的识别是指识别出有关系的概念对,非分类关系的标注是指为识别出的有关系的概念对抽取合适的动词,其中动词作为概念对的非分类关系,基于现有的很多研究工作进行非分类关系的识别和非分类关系的标注,在一定程度上忽视了句法信息和语义信息,导致在非分类关系的识别阶段容易抽取出没有关系的概念对,在非分类关系的标注阶段,容易为概念对标注的动词不合理。



技术实现要素:

针对上述问题,本发明的目的在于提供一种面向中文领域的非分类关系抽取方法,充分利用句法信息和语义信息能够得到更好的抽取结果。

第一方面,本发明提供了一种面向中文领域的非分类关系抽取方法,包括:将包含相同语义信息的术语放到同一个集合中,以得到所述集合对应的概念;

根据所述术语之间的相似度及预设第一阈值构建语义图;

抽取所述术语的上下文信息;其中,所述上下文信息为语料库中包含所述术语的句子或者包含所述术语在百科中的定义;

将所述语义图和所述术语的上下文信息输入至网络表示学习方法cane,以获取得到所述术语的表示;

根据所述术语的表示及预设第二阈值计算所述概念相似度,以获取得到强关联的概念对;

根据对包含所述概念对的句子进行依存句法分析,从而得到每个所述概念对相对应的所有动词;

将包含很少语义信息的动词删除;

获取未被删除的动词,将所述未被删除的动词中包含相同语义信息的动词放到同一个动词集合,从而得到每个概念对相对应的动词集合;

计算所述动词集合中每个所述动词的分数并累加,以获取得到每个所述动词集合的总分数;

将所述总分数靠前的所述动词集合作为非分类关系的标注。

在第一方面的第一种可能实现方式中,所述根据所述术语之间的相似度及预设第一阈值构建语义图包括:

根据主题模型lda产生的文档、主题矩阵和主题、词矩阵计算所述术语之间的相似度;

在所述术语之间的相似度高于所述预设第一阈值时,则在所述术语之间构建一条边,形成所述语义图。

在第一方面的第二种可能实现方式中,所述根据所述术语之间的相似度及预设第一阈值构建语义图还包括:

使用基于gensim的word2vec模块训练词向量模型;

基于所述词向量模型使用余弦相似度计算所述术语之间的相似度;

在所述术语之间的相似度高于所述预设第一阈值时,则在所述术语之间构建一条边,形成所述语义图。

在第一方面的第三种可能实现方式中,所述根据所述术语的表示计算所述概念相似度,预设第二阈值,以获取得到强关联的概念对包括:

根据所述术语的表示重新获取术语之间的相似度;

获取概念对;

将每个所述概念对中所包含的术语两两之间的相似度进行求和,以得到所述概念对之间的相似度;

在所述概念对之间的相似度高于所述预设第二阈值时,将所述概念对添加至概念对集合中,以获取得到强关联的概念对。

在第一方面的第四种可能实现方式中,所述根据对包含所述概念对的句子进行依存句法分析,从而得到每个所述概念对相对应的所有动词包括:

获取相应的语料库;

在所述语料库中对所述概念对所在的句子进行所述依存句法分析;

从所述句子中抽取出所述概念对的动词,以得到每个概念对相对应的所有动词。

在第一方面的第五种可能实现方式中,所述获取未被删除的动词,将所述未被删除的动词中包含相同语义信息的动词放到同一个动词集合,从而得到每个概念对相对应的动词集合包括:

获取未被删除的动词,根据hownet和tongyicicilinextended,将所述未被删除的动词中包含相同语义信息的动词放到同一个动词集合,从而得到每个所述概念对相对应的动词集合。在第一方面的第六种可能实现方式中,所述抽取所述术语的上下文信息包括:

将语料库中包含所述术语的句子抽取出来作为所述术语的上下文信息,或根据爬虫技术获取所述术语在百科页面中的定义作为所述术语的上下文信息。

第二方面,本发明还提供了面向中文领域的非分类关系抽取装置,包括:

概念获取模块,用于将包含相同语义信息的术语放到同一个集合中,以得

到所述集合对应的概念;

语义图构建模块,用于根据所述术语之间的相似度及预设第一阈值构建语义图;

上下文信息抽取模块,用于抽取所述术语的上下文信息;

其中,所述上下文信息为语料库中包含所述术语的句子或者包含所述术语在百科中的定义;

术语表示获取模块,用于将所述语义图和所述上下文信息输入至网络表示学习方法cane,以获取得到所述术语的表示;

概念对获取模块,用于根据所述术语的表示计算所述概念相似度,预设第二阈值,以获取得到强关联的概念对;

动词获取模块,用于根据对包含所述概念对的句子进行依存句法分析,从而得到每个所述概念对相对应的所有动词;

动词删除模块,用于将包含很少语义信息的动词删除;

动词集合获取模块,用于获取未被删除的动词,将所述未被删除的动词中包含相同语义信息的动词放到同一个动词集合,从而得到每个概念对相对应的动词集合;

总分数获取模块,用于计算所述动词集合中每个所述动词的分数并累加,以获取得到每个所述动词集合的总分数;

标注模块,用于将所述总分数靠前的所述动词集合作为非分类关系的标注。

第三方面,本发明实施例还提供了一种面向中文领域的非分类关系抽取设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的面向中文领域的非分类关系抽取方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的面向中文领域的非分类关系抽取方法。

上述技术方案具有如下优点:

提出基于语义图结构的方法进行非分类关系的识别,抽取所述术语的上下文信息,将所述语义图结构和所上下文信息输入至网络表示学习方法cane,以获取得到所述术语的表示,利用网络表示学习方法cane,将结构信息和文本上下文信息相融合为术语学习到新的表示,从而术语的表示包含更多的语义信息,能够深层次发现术语之间隐含的关系,将包含相同语义信息的术语作为一个概念,从而发现有关系的概念对,减少了没有关系的概念对的产生。提出基于依存句法的方法进行概念对之间的动词的抽取,该方法能够有效利用句法信息和语义信息为概念对找到有关系的动词。将包含很少语义信息的动词删除;获取未被删除的动词,将所述未被删除的动词中包含相同语义信息的动词放到同一个动词集合,从而得到每个概念对相对应的动词集合;计算所述动词集合中每个所述动词的分数并累加,以获取得到每个所述动词集合的总分数,将分数高的标注集合作为概念对的非分类关系标注。该方法能够大大提高为每个概念对找到更加合适的动词,用于描述概念对之间的非分类关系,进而实现了充分利用句法信息和语义信息能够得到更好的抽取结果。

附图说明

图1是本发明第一实施例提供的面向中文领域的非分类关系抽取方法流程示意图;

图2是本发明第一实施例提供的相似度为0.07的语义图;

图3是本发明第一实施例提供的相似度为0.06的语义图;

图4是本发明第一实施例提供的构建语义图方法流程示意图;

图5是本发明第一实施例提供的获取强关联概念对方法流程示意图;

图6是本发明第二实施例提供的另一种构建语义图方法流程示意图

图7是本发明第三实施例提供的一种面向中文领域的非分类关系抽取装置结构示意图;

图8是本发明第四实施例提供的面向中文领域的非分类关系抽取设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

参见图1,本发明第一实施例提供的面向中文领域的非分类关系抽取方法流程示意图。

s10、将包含相同语义信息的术语放到同一个集合中,以得到所述集合对应的概念;

在本发明实施例中,需要获取非分类关系识别的数据输入,先收集与研究对象相关领域的文本内容,然后再从收集到的文本内容中收集与所述研究对象领域相关的术语,再对术语进行初步的识别。

具体的,以研究对象是足球为例,收集2600篇与足球领域相关的新闻文本。收集与足球领域相关的术语54个,使用hownet(知网)和tongyicicilinextended(同义词词林扩展版)计算术语之间的相似度,如果相似度高,我们认为两个术语之间高度关系,包含相同的语义信息,就把它们放到一个集合中,将每个包含相同语义信息的术语集合作为一个概念,共有24个集合,即24个概念,其中,一个集合就是一个概念,一个概念有多个包含相同语义信息的术语。

s11、根据所述术语之间的相似度及预设第一阈值构建语义图;

在本发明实施例中,根据预设第一阈值,当术语之间的相似度高于所述预设第一阈值,则两个术语之间构建一条边,形成语义图结构。根据预设第一阈值不同阈值,得到不同的语义图结构,建立术语之间的语义结构关系,为引入术语的上下文信息作准备。

具体的,假设阈值可以包括::0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09。球队与球场的相似度:0.07705210824087375954;比赛与中场的相似度:0.07188148908188773945;球员与球迷的相似度:0.07176033026018875660;球迷与球场的相似度:0.06821529000376966301;比赛与球场的相似度:0.06752307829127345007。参见图2,当所述预设的第一阈值为0.07时,由上可知,为球队和球场之间构建一条边,为比赛和中场之间构建一条边,为球员和球迷之间构建一条边,;参见图3,当预设的第一阈值为0.06时,由上可知,为球队和球场之间构建一条边,为比赛和中场之间构建一条边,为球员和球迷之间构建一条边,为球迷和球场构建一条边,为比赛和球场构建一条边。

优选地,参见图4,所述根据所述术语之间的相似度及预设第一阈值构建语义图包括:

s21、使用基于gensim的word2vec模块训练词向量模型;

s22、基于所述词向量模型使用余弦相似度计算所述术语之间的相似度;

s23、在所述术语之间的相似度高于所述预设第一阈值时,则在所述术语之间构建一条边,形成所述语义图。

具体的,以研究对象为足球,将收集到的足球领域相关的新闻文本,进行分词和去停用词,使用基于gensim的word2vec模块通过设定参数进行训练词向量模型,在训练好的词向量空间中,每个术语都是以向量的形式进行表示。余弦相似度是通过计算两个向量的夹角余弦值来评估术语之间的相似度。

s12、抽取所述术语的上下文信息;其中,所述上下文信息为语料库中包含所述术语的句子或者包含所述术语在百科中的定义;

在本发明实施例中,术语的上下文信息能够包含更丰富的语义信息,所述术语的上下文信息用于步骤s14,目的是能够使在步骤s14中学习到的术语表示包含更多的语义信息。使得到的概念对是有关系的,而不是得到没有关系的概念对。

优选地,所述抽取所述术语的上下信息包括:

将语料库中包含所述术语的句子抽取出来作为所述术语的上下文信息,或根据爬虫技术获取所述术语在百科页面中的定义作为所述术语的上上下文信息。

具体的,研究对象是足球,将收集的足球领域新闻文本进行分句操作,并且分词和去停用词。如果所述术语在某句话中出现,则将包含该术语的句子抽取出来。一个术语可能会在多个句子中出现,因此将多个句子拼接到一起作为术语的上下文信息,或者是使用爬虫技术,将百科中对术语的定义作为术语的上下文信息,本发明对此不作具体限定。

s13、将所述语义图和所述上下文信息输入至网络表示学习方法cane,以获取得到所述术语的表示;

在本发明实施例中,将步骤s13和步骤s14得到的数据作为网络表示学习方法cane,将术语的结构信息和上下文信息相融合,从而得到术语的表示。cane是一种网络表示学习方法,能够充分利用节点的结构信息和文本信息,为每个节点学习到上下文相关的表示。将构建的语义图结构和术语的上下文信息作为cane的输入,从而为每个术语学习到上下文相关的表示,使得每个术语的表示包含更多的语义信息。

s14、根据所述术语的表示计算所述概念相似度,预设第二阈值,以获取得到强关联的概念对;

在本发明实施例中,每个概念有多个包含相同语义信息的术语,从而利用将术语相似度求和的方式计算概念之间的相似度,根据所述术语的表示使用两种不同的方法计算术语之间的相似度,即余弦相似度和欧式距离,本发明对此不作具体限定。

优选地,参见图5,所述根据所述术语的表示计算所述概念相似度,预设第二阈值,以获取得到强关联的概念对包括:

s31、根据所述术语的表示重新获取术语之间的相似度;

在步骤s31中计算术语之间的相似度可以使用余弦相似度和欧式距离,因为在步骤s14之后得到的是包含更多语义信息的术语的表示,根据得到的术语的表示重新计算术语之间的相似度。

s32、获取概念对;

其中,在初始组成的概念对没有条件限制,是将任意两个概念组合到一起作为概念对。

s33、将每个所述概念对中所包含的术语两两之间的相似度进行求和,以得到所述概念对之间的相似度;;

s34、在所述概念对之间的相似度高于所述预设第二阈值时,将所述概念对添加至概念对集合中,以获取得到强关联的概念对。

具体的,术语的表示是一个200维的向量。余弦相似度是通过计算两个向量的夹角余弦值来评估术语之间的相似度。欧式距离是一个通常采用的距离定义,它是计算在m维空间中两个点之间的真实距离,从而得到术语之间的相似度。例如概念一(教练,主教练),概念二(球员,队员),那么概念一和概念二之间的相似度就是sim(概念一,概念二)=sim(教练,球员)+sim(教练,队员)+sim(主教练,球员)+sim(主教练,队员),概念对之间的相似度高于所述预设第二阈值,则概念对被添加到集合中,该集合即是非分类关系的识别的结果。根据设定的阈值不同,从而得到不同的集合,通过设定不同的阈值,判断在哪种阈值下,非分类关系的识别效果最好,其中,所述预设第二阈值的取值范围0.001-0.999,本发发明对此不作具体限定。

s15、根据对包含所述概念对的句子进行依存句法分析,从而得到每个所述概念对相对应的所有动词;

优选地,所述根据依存句法分析为所述概念对抽取动词,以得到每个概念对相对应的动词集合包括:

获取相应的语料库;

在所述语料库中对所述概念对所在的句子进行所述依存句法分析;

从所述句子中抽取出所述概念对的动词,以得到每个概念对相对应的所有动词。

s16、将包含很少语义信息的动词删除;

s17、获取未被删除的动词,将所述未被删除的动词中包含相同语义信息的动词放到同一个动词集合,从而得到每个概念对相对应的动词集合;

优选地,所述获取未被删除的动词,将所述未被删除的动词中包含相同语义信息的动词放到同一个动词集合,从而得到每个概念对相对应的动词集合包括:

获取未被删除的动词,根据hownet和tongyicicilinextended,将所述未被删除的动词中包含相同语义信息的动词放到同一个动词集合,从而得到每个所述概念对相对应的动词集合。

s18、计算所述动词集合中每个所述动词的分数并累加,以获取得到每个所述动词集合的总分数;

在本实施例中,计算了未被删除的动词分数,将所述动词集合的每一动词分数相加求和,以获取得到每个所述动词集合的总分数。

在本发明实施例中,将包含很少语义信息的动词删除后,将未被删除的包含相同语义信息的动词放到同一个动词集合,得到了每个所述概念对相对应的动词集合,对得到的所述动词集合的每一动词分数相加求和,以获取得到每个所述动词集合的总分数。

si={vbi,ovbi,cfvi,cfvbi,nb_vbi,nb_ovbi,nb_cfvi,nb_cfvbi},

vi=∪si={vi1,vi2,...,vim},

其中,set是指八种动词类型的集合,p={p1,p2,...,pn}是概念对的集合,其中pi表示一个概念对,v={v1,v2,...,vn}是动词集合,其中vi表示为概念对pi抽取的所有动词集合,vb、ovb、cfv、cfvb、ns_vb、ns_ovb、ns_cfv、ns_cfvb表示八种动词类型集合,si是每个概念对的八种动词类型集合的集合,vi是对si的并集。其中,四种动词类型集合是概念对出现在相同句子中但被逗号分隔开的概念对:vb,ovb,cfv,cfvb;另外四种动词类型集合是概念对出现在相同句子中但未被逗号分隔开的概念对:ns_vb,ns_ovb,ns_cfv,ns_cfvb。

verbsbetween(vb):概念对出现在相同句子中但被逗号分隔开,两个概念之间的所有动词。

onlyverbbetween(ovb):概念对出现在相同句子中但被逗号分隔开,两个概念之间唯一的动词。

commonfaverb(cfv):概念对出现在相同句子中但被逗号分隔开,最近的公共祖先是概念对的子依赖树中的动词。

commonfaverbbetween(cfvb):概念对出现在相同句子中但被逗号分隔开,最近的共同祖先是一个动词并位于句子中的两个概念之间。

nosepverbsbetween(ns_vb):概念对出现在相同句子中但未被逗号分隔开,两个概念之间的所有动词。

noseponlyverbbetween(ns_ovb):概念对出现在相同句子中但未被逗号分隔开,两个概念之间唯一的动词。

nosepcommonfaverb(ns_cfv):概念对出现在相同句子中但未被逗号分隔开,最近的公共祖先是概念对的子依赖树中的动词。

nosepcommonfaverbbetween(ns_cfvb):概念对出现在相同句子中但未被逗号分隔开,最近的共同祖先是一个动词并位于句子中的两个概念之间。

其中,

fset(vij)计算的是概念对pi动词分数,score(vij)计算动词vij的分数,在这个函数中feq(vij)表示vij在集合set中的词频,maxfeq(set)表示在集合set中动词vij的最大词频,fset(vij)表示动词vij在一种动词类型的集合中的分数,score(vij)表示一个动词的总分数,由于一个动词可能会在多个动词类型的集合中出现,所以将一个动词在不同动词类型集合中的所计算出的分数进行相加求和得到动词的总分数。

s19、将所述总分数靠前的所述动词集合作为非分类关系的标注。

在本实施例中,将得分最高的前五个动词集合作为概念对的非分类关系的标注,从而为每个概念对选取最合适的动词,本发明对此不作具体限定。

实施本实施例具有如下有益效果:

提出基于语义图结构的方法进行非分类关系的识别,抽取所述术语的上下文信息,将所述语义图结构和术语的上下文信息输入至网络表示学习方法cane。网络表示学习方法cane,将结构信息和术语的上下文信息相融合为术语学习到新的表示,从而术语的表示包含更多的语义信息,能够深层次发现术语之间隐含的关系,将包含相同语义信息的术语作为一个概念,从而发现有关系的概念对,减少了没有关系的概念对的产生。提出基于依存句法的方法进行概念对之间的动词的抽取,该方法能够有效利用句法信息和语义信息为概念对找到有关系的动词。将每个概念对的动词进行打分,将包含相同语义信息的动词作为一个标注集合,标注集合的分数由集合中每个动词分数的累加得到。将分数高的标注集合作为概念对的非分类关系标注。该方法能够大大提高为每个概念对找到更加合适的动词,用于描述概念对之间的关系,进而实现了充分利用句法信息和语义信息能够得到更好的抽取结果。

实施例二,参见图6,本发明第二实施例提供的另一种语义图构建方法流程示意图。

优选地,所述根据所述术语的相似度及预设第一阈值构建语义图包括:

s41、根据主题模型lda产生的文档、主题矩阵和主题、词矩阵计算所述术语之间的相似度;

s42、在所述术语之间的相似度高于所述预设第一阈值时,则在所述术语之间构建一条边,形成所述语义图。

具体的,vi表示文档dm中的一个词,z表示一个主题,k表示主题的数量。lda模型考虑三个参数:α,η和k,其中α表示文档主题先验dirichlet分布θm的参数,一般如果我们没有主题分布的先验知识,可以使用默认值1/k;η表示主题词先验dirichlet分布βk的参数,一般如果我们没有主题分布的先验知识,可以使用默认值1/k;k表示隐含主题数,需要调参,k的大小取决于对主题划分的需求。给定这些参数,文档dm通过(即超参数为α的dirichlet分布)确定主题分布θm,并通过p(z|θm)~multinomial(θm)(即从主题的多项式分布θm中取样生成文档dm中词语vi的主题k)和βk~dirichlet(η)(即从狄利克雷分布(即dirichlet分布)η中取样生成主题k的词语分布βk),从而选择主题k。lda算法会输出两个矩阵,一个是主题词矩阵θ:p(u=vi|z=k,βk),表示词vi出现在主题k的概率,另外一个是文档主题矩阵φ:p(z=k|θm),表示主题k出现在文档dm中的概率。

在文档dm中词语um的概率分布为:

同样的方式,在文档dm中两个词um和ym的联合概率能够被计算:

p(um,ym|z=k,βk)不能通过lda直接得到,所以假定文档中的词语在给定主题下是条件独立的,于是为了便于计算,上面的公式可以近似的写为:

最后,一个语料库包含多篇文档,m为语料库中文档的数量,于是,在整个语料库中两个词u和y的概率分布计算为:

其中,δm是每篇文档的先验概率。

实施本实施例具有如下有益效果:

提出基于语义图结构的方法进行非分类关系的识别,抽取所述术语的上下文信息,将所述语义图结构和术语的上下文信息输入至网络表示学习方法cane。网络表示学习方法cane,将结构信息和术语的上下文信息相融合为术语学习到新的表示,从而术语的表示包含更多的语义信息,能够深层次发现术语之间隐含的关系,将包含相同语义信息的术语作为一个概念,从而发现有关系的概念对,减少了没有关系的概念对的产生。

参见图7,图7是本发明第三实施例提供的一种面向中文领域的非分类关系抽取装置结构示意图,包括:

概念获取模块50,用于将包含相同语义信息的术语放到同一个集合中,以得到所述集合对应的概念;

语义图构建模块51,用于根据所述术语之间的相似度及预设第一阈值构建语义图;

上下文信息抽取模块52,用于抽取所述术语的上下文信息;

其中,所述上下文信息为语料库中包含所述术语的句子或者包含所述术语在百科中的定义;

术语表示获取模块53,用于将所述语义图和所述上下文信息输入至网络表示学习方法cane,以获取得到所述术语的表示;

概念对获取模块54,根据所述术语的表示计算所述概念相似度,预设第二阈值,以获取得到强关联的概念对;

动词获取模块55,用于根据对包含所述概念对的句子进行依存句法分析,从而得到每个所述概念对相对应的所有动词;

动词删除模块56,用于将包含很少语义信息的动词删除;

动词集合获取模块57,用于获取未被删除的动词,将所述未被删除的动词中包含相同语义信息的动词放到同一个动词集合,从而得到每个概念对相对应的动词集合;

总分数获取模块58,用于计算所述动词集合中每个所述动词的分数并累加,以获取得到每个所述动词集合的总分数;

标注模块59,用于将所述总分数靠前的所述动词集合作为非分类关系的标注。

优选地,所述语义图结构构建模块52包括:

根据主题模型lda产生的文档、主题矩阵和主题、词矩阵计算所述术语之间的相似度;

在所述术语之间的相似度高于所述预设第一阈值时,则所述术语之间构建一条边,形成所述语义图。

优选地,所述语义图结构构建模块52还包括:

使用基于gensim的word2vec模块训练词向量模型;

基于词向量模型使用余弦相似度计算所述术语之间的相似度;在所述术语之间的相似度高于所述预设第一阈值时,则所述术语之间构建一条边,形成所述语义图。

优选地,所述概念对获取模块55包括:

根据所述术语的表示重新获取术语之间的相似度;

获取概念对;

将每个所述概念对中所包含的术语两两之间的相似度进行求和,以得到所述概念对之间的相似度;;

在所述概念对之间的相似度高于所述预设第二阈值时,将所述概念对添加至概念对集合中,以获取得到强关联的概念对。

优选地,所述动词获取模块56包括:

获取相应的语料库;

在所述语料库中对所述概念对所在的句子进行所述依存句法分析;

从所述句子中抽取出所述概念对的动词,以得到每个概念对相对应的所有动词。

优选地,所述动词集合获取模块58包括:

获取未被删除的动词,根据hownet和tongyicicilinextended,将所述未被删除的动词中包含相同语义信息的动词放到同一个动词集合,从而得到每个所述概念对相对应的动词集合。优选地,所述上下文信息抽取模块83包括:

将语料库中包含所述术语的句子抽取出来作为所述术语的上下文信息,或根据爬虫技术获取所述术语在百科页面中的定义作为所述术语的上下文信息。

实施本实施例具有如下有益效果:

提出基于语义图结构的方法进行非分类关系的识别,抽取所述术语的上下文信息,将所述语义图结构和术语的上下文信息输入至网络表示学习方法cane。网络表示学习方法cane,将结构信息和术语的上下文信息相融合为术语学习到新的表示,从而术语的表示包含更多的语义信息,能够深层次发现术语之间隐含的关系,将包含相同语义信息的术语作为一个概念,从而发现有关系的概念对,减少了没有关系的概念对的产生。提出基于依存句法的方法进行概念对之间的动词的抽取,该方法能够有效利用句法信息和语义信息为概念对找到有关系的动词。将每个概念对的动词进行打分,将包含相同语义信息的动词作为一个标注集合,标注集合的分数由集合中每个动词分数的累加得到。将分数高的标注集合作为概念对的非分类关系标注。该方法能够大大提高为每个概念对找到更加合适的动词,用于描述概念对之间的关系,进而实现了充分利用句法信息和语义信息能够得到更好的抽取结果。

请参见图8,图8是本发明第四实施例提供的面向中文领域的非分类关系抽取设备的示意图,用于执行本发明实施例提供的面向中文领域的非分类关系抽取方法,如图8所示,该面向中文领域的非分类关系抽取设备包括:至少一个处理器11,例如cpu,至少一个网络接口14或者其他用户接口13,存储器15,至少一个通信总线12,通信总线12用于实现这些组件之间的连接通信。其中,用户接口13可选的可以包括usb接口以及其他标准接口、有线接口。网络接口14可选的可以包括wi-fi接口以及其他无线接口。存储器15可能包含高速ram存储器,也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。

在一些实施方式中,存储器15存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:

操作系统151,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;

程序152。

具体地,处理器11用于调用存储器15中存储的程序152,执行上述实施例所述的面向中文领域的非分类关系抽取方法。

所称处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述面向中文领域的非分类关系抽取方法的控制中心,利用各种接口和线路连接整个所述面向中文领域的非分类关系抽取方法的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现面向中文领域的非分类关系抽取的电子装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中,所述面向中文领域的非分类关系抽取的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,在某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。其次,本领域技术人员也应知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模拟一定是本发明所必须的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1