一种基于TopicModel的本体构建方法与流程

文档序号:14135967阅读:194来源:国知局
一种基于 Topic Model 的本体构建方法与流程

本发明涉及一种本体构建的方法,利用topicmodel作为产生基本概念单位,不用本体种子即可学习出本体达到构建本体的目的。



背景技术:

近年来,本体构建已经应用到各种领域,如人工智能、信息抽取、机器翻译等领域。但是人工构建本体是非常耗时费力的工作,由于此原因,利用计算机数据分析、数据挖掘的方式自动构建本体是一件很有意义的研究,吸引了很多研究人员对此进行大量深入的研究。大多数现在的本体学习方法集中在扩展、更新已有的本体种子,利用从文献词库中抽取出概念或者词汇单元来更新和宽展本体种子。也有一些自动学习本体的方法,但是多数这种自动学习本体的方法都是基于特殊知识领域的本体构建,如skos模型,但是这些方法都具有一定的局限性。

topicmodel概率模型是一种在没有先验知识提供的情况下,从科学出版物中识别出概念的已被业界证明了非常有效的模型。topicmodel模型现在已经被广泛应用到文本挖掘领域。

eliaszavitsanos等提出一种基于统计方法的自动本体学习方法,该方法是通过不断的重复利用topicmodel模型训练出的概念集合,然后再利用条件独立性判断识别出的概念之间的联系,但是该方法不能进行两个层次结构之间概念的联系。wangwei等人提出了两个方法都是基于语义web学习本体结构的方法,该方法利用信息论与topicmodel相结合的方式,表现出很好的召回率和准确率,但是需要限制最近根节点的子概念节点的数量。



技术实现要素:

本发明的目的是提供一种信息的计算概念之间语义相似性的度量方法,用来计算lda模型产生的概念之间的语义相似性。

为了达到上述目的,本发明的技术方案是提供了一种基于topicmodel的本体构建方法,其特征在于,包括以下步骤:

第一步、利用lda模型从给定的文献语料库中进行概念抽取,由抽取到的概念产生出概念集合,然后进行概念层次细分产生本体构建的层次结构g,g={t,e},式中,t={t1,t2,…,tm}是概念集合,定义为上层概念集合;t’={t1’,t2’,…,tm’}是子概念集合,定义为上层概念集合t的下一层概念集合;e是边的集合,每个eij∈e表示概念集合t中的第i个概念ti与子概念集合t’中第j个概念tj’有边相连;

第二步、利用costmi相似性度量方法,识别层次结构g中各个概念之间的相似性,即相邻层次间概念的潜在联系,其中,上层概念集合t中第p个概念tp与概念tp的上下文中,下一层概念集合t’中第s个概念ts’和第r个概念tr’两个概念的语义相似度costmi(ts′,tr′;tp)

式中,tp包含词汇序列{wp1,wp2,…,wpn};ts’包含词汇序列{ws’1,ws’2,…,ws’n};tr’包含词汇序列{wr’1,wr’2,…,wr’n};pmi()是两个词汇的点互信息,两个词汇w与w’的点互信息为pmi(w,w’),则有:

式中,p(w,w’)=p(w)p(w′|w);

式中,z是主题,p(z=j)是主题为j时的概率,p(w|z=j)是主题为j时,词汇w的条件概率,k是概念的数量;

式中,p(w′|z=j)是主题为j时,w’的条件概率,p(z=j|w)是词汇为w时,主题为j的条件概率。

优选地,在所述第一步中,进行概念层次细分产生本体构建的层次结构g时遵循以下规则:

规则1:如果ti∈t,tj’∈t’,nt<nt’,结论是:子概念集合t’比概念集合t,其中,nt和nt′分别是概念集合t和子概念集合t’的层高级别;

规则2:如果ti∈t,tj′∈t′,在ti与tj’之间极有可能存在上下级关系,其中,是空集。

本发明提出了aol方法,该方法支持自动的领域本体构建,发明了一种信息的计算概念之间语义相似性的度量方法,用来计算lda模型产生的概念之间的语义相似性,aol方法不限制根节点的子节点数量,不需要有种子本体作为初始学习本体的辅助。实验结果表明,本发明提出的利用topicmodel进行自动本体构建的方法是非常有效的。

本发明通过反复利用lda模型即topicmodel模型产生概念,定义能够准确测量概念之间语义相似性的度量方法来构建本体的概念以及概念之间的结构层次。

附图说明

图1为构建本体结构的过程;

图2为概念的准确性与词汇维度的关系图;

图3为本体层次数量与f1度量的对比关系图。

具体实施方式

下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种基于topicmodel的本体构建方法,包括以下步骤:

第一步、利用lda模型从给定的文献语料库中进行概念抽取,然后进行概念层次细分产生本体构建的层次结构;

第二步、设计costmi相似性度量方法,识别层次结构概念之间的相似性,即相邻层次间概念的潜在联系;

上述步骤涉及如下技术创新:

一)本体构建过程

图1图示出本体构建的过程。构建一个层次结构g,g={t,e},式中,t={t1,t2,…,tm}是概念集合,称为概念层,由lda模型产出,可以定义为上层概念集合。t’={t1’,t2’,…,tm’}是子概念集合,定义为上层概念集合t的下一层概念集合。e是边的集合,每个eij∈e表示概念集合t中的第i个概念ti与子概念集合t’中第j个概念tj’有边相连g={t,e},图中t={t1,t2,…,tm}是一个概念的集合。

为了构建上下两层概念之间的联系,需要确定这些概念节点所属的概念层次,哪些属于高一层概念集合,哪些属于低一层的概念集合,而建立起这两层概念集合之间的联系会更加复杂。利用lda模型的概念之间的界限不是特别清晰,需要利用一定的度量方法将这些概念分层,并且还要建立起层与层之间的关系,有些概念可能有几个父亲,有些概念可能没有孩子,产生的概念层次越多,概念层之间的关系越紧密,所以层次概念产生的数量不能无限制增多,需要人为设定一个本体构建的层次数量。

二)有关规则

在提出具体实现自动本体学习方法之前,首先定义两个基本的规则。一般的情况下是不断的重复利用lda模型产生出概念集合,用于构建层次结构所需要的概念。本发明定义了一些规则,这些规则用来限制该模型产生出的概念,在构建层级结构本体时候使用。

根据直觉,越处在高层的概念越抽象,反之越具体;越处在高层的概念越少,反之越多。那么基于这些常识,定义如下规则:

规则1:如果ti∈t,tj’∈t’,nt<nt’,结论是:子概念集合t’比概念集合t,其中,nt和nt’分别是概念集合t和子概念集合t’的层高级别。

当用lda模型重复的去学习产生概念集合的时候,必须首先确定nt<nt’。因此该规则对于构建本体的方法是非常重要的。

通过文献语料库由lda学习出的每层的每一个概念都是在文献中高频出现的词汇,在高层高频出现的概念集合极有可能在低层概念集合里同样高频出现,所以在构建本体过程中这些相同的词汇可能建立联系,这是不合理的。因此定义如下规则:

规则2:如果ti∈t,tj’∈t’,在ti与tj’之间极有可能存在上下级关系,其中,是空集。

该规则能够帮助我们定义概念之间的本专利下面要介绍的相似性度量。

三)相似性度量

本发明利用相似性度量的方法来构建本体的层次结构,也就是说概念之间的联系是通过概念之间的相似度建立的。两个层次概念集中的两个概念之间达到一定的相似度值,才能建立联系,否则认为他们之间是没有联系的。为了计算两个概念之间的语义相似性,要利用lda模型在产生概念集合生成的概念矩阵,每个矩阵输入是概念出现在本体里的可能性大小。

通常概念之间的相似性利用点互信息pmi(pointwisemutualinformation)来度量,本发明定义了一种新的词汇w和w’之间语义相似性度量方法,利用两个概念的期望来定义pmi,每个概念有一系列的词汇组成,这也是lda模型的一个特殊性质。两个词汇w与w’的点互信息为pmi(w,w’),则有:

式中,p(w,w’)=p(w)p(w′|w);

式中,z是主题,p(z=j)是主题为j时的概率,p(w|z=j)是主题为j时,词汇w的概率,k是概念的数量;

式中,p(w′|z=j)是主题为j时,w’的概率,p(z=j|w)是词汇为w时,主题为j的条件概率。

本发明给出两个词汇的点互信息的计算公式是为后续组织构建本体之间概念的层次结构做准备,而且定义另个概念之间的语义相似性也会用到该公式。

由lda产生的每个概念对应本体结构里面的一个概念。语义相似性度量是度量两个概念之间的语义相似度。在特殊语境的上下文中,另外两个概念的语义相似度。上层概念集合t中第p个概念tp与概念tp的上下文中,下一层概念集合t’中第s个概念ts’和第r个概念tr’两个概念的语义相似度costmi(ts′,tr′;tp)

式中,tp包含词汇序列{wp1,wp2,…,wpn};ts’包含词汇序列{ws’1,ws’2,…,ws’n};tr’包含词汇序列{wr’1,wr’2,…,wr’n}。

预先设定阈值thct,如果costmi(ts′,tr′;tp)值大于一定的阈值thct,在tp和ts,ts’建立关系。通过上述定义以及语义相似性的计算,得出的可以建立关系的概念都是本体构建中本体里的一个概念。阈值thct是通过实验要确定的一个值,此值越大说明两个概念之间的语义相似性越大,反之语义相似性越小。

以下利用真实的genia语料库及本体genia本体验证本文提出本体构建方法的有效性和实用性。

本发明所提出的构建本体方法,由genia语料库对应的genia本体来进行实验验证。genia语料库是一个生物语料库。该语料库包含1,999个医学词汇,是从mesh、human、和bloodcells中收集得到。genia本体中包含45个概念和42个关系。本发明的实验内容是将genia预料输入到lda模型,计算出要构建本体的所需概念。本发明对比了本发明提出的方法aol和zavitsanos等人提出的方法算法,执行是在奔腾4,内存2gb的pc机上完成,对比了costmi和zavitsanos等人提出的ci方法,参数设置的阈值分别是0.93和3*10-6。

本发明提出的算法最终以召回率、准确率和f1度量来评估有效性和本体结构的质量。两个方法执行对比结果如表1所示。

表1概念c和关系s基于相似性度量的执行结果

从表1中我们可以看到,我们提出的方法aol执行结果是非常有效地,能够被用于其他领域知识的本体构建,准确率和召回率都是高于ci方法。

图2展示了每个概念包含的词汇数量,在我们做实验过程中发现,每个概念所包含的词汇数量会影响到本体构建的准确性。实验结果表明如果每个概念包含10个以下的词汇数量,会严重影响本体构建的准确性。反之,如果每个概念包含的词汇数量越多,构建出本体的准确性也越高。但是并不是包含的概念越多越好,通过实验测试分析,每个概念包含16个词汇结果会比较好,如果概念包含词汇太多,概念中会出现语料库中出现的一些低频词汇,对本体构建中概念的抽象意义不大,反而会影响到本体构建的实际质量。

在图3中我们展示了算法执行准确度的一个细节图,图中展示了costmi度量下载阈值thct=0.93时,算法执行是f1值的变化情况,在图3中我们可以看到,当本体层次数量为7的时候f1值最高。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1