一种领域概念层次结构自动构建方法

文档序号:6548989阅读:618来源:国知局
一种领域概念层次结构自动构建方法
【专利摘要】本发明公开了一种领域概念层次结构自动构建的方法,该方法包括:首先抽取领域概念间关系;然后根据概念的共现频次和关系构建关系矩阵;再使用融合聚类算法对领域概念聚类,得到稳定的概念簇;最后使用BRT-Guass算法对簇进行融合,得到领域概念层次结构。本发明降低了层次结构构建的时间复杂度,能获取较全面的领域概念词对集,且具有较为理想的准确率及召回率。
【专利说明】一种领域概念层次结构自动构建方法
【技术领域】
[0001]本发明涉及自然语言处理【技术领域】,具体涉及一种领域概念层次结构自动构建方法。
【背景技术】
[0002]领域概念是人类在认知过程中对领域对象的抽象描述,是领域知识在文本中的一种表现形式,并随着领域的发展变化,形成独立的知识单元。领域概念层次结构自动构建技术的研究就是如何利用计算机从领域文本中自动地抽取领域概念和概念间关系,进一步根据关系将领域概念组织起来形成层次结构。领域概念层次结构在人工智能、自然语言处理和信息检索等应用领域有着重要的作用,实现领域概念层次结构的自动构建具有重要的意义。
[0003]现有的概念层次结构自动构建方法主要分为:概念抽取、概念间关系获取和层次结构自动构建。当前很多研究方法都是面向通用知识层次结构构建,较少针对特定领域。现有研究主要存在以下问题:(I)领域概念抽取困难,领域概念中包含了较多未登录词(新词或复合词),增加了领域概念的抽取难度;(2)领域概念间关系抽取准确率低,现有知识库没有覆盖领域概念间的关系;(3)概念层次结构自动构建算法效率有限:现有方法较多基于聚类算法,这些方法只能反映出概念的层次类别,而不能很好地表示出概念间关系层次结构。

【发明内容】

[0004]本发明的目的是针对现有技术不足而提供的一种领域概念层次结构自动构建方法(Domain Concept Taxonomy Automatic Construct Algorithm, DoCTA),该方法以令页域文本作为研究对象,通过对领域概念特征的研究,解决领域概念间关系自动抽取和层次结构自动构建这两个技术难点。为用户提供了更好的可视化平台去了解领域结构,对实现领域在线问答有很好的帮助。
[0005]实现本发明目的的具体技术方案如下:
[0006]一种领域概念层次结构自动构建的方法,该方法包括以下具体步骤:
[0007]a、关系抽取
[0008]通过基于句法树和基于规则的方法获取领域概念间关系;
[0009]b、矩阵生成
[0010]进行领域概念词频统计,选取概念间关系与共现频次作为概念间的特征构建概念矩阵;
[0011]C、聚类融合
[0012]对矩阵设置不同的初始值,使用基于K-means的算法融合聚类;
[0013]d、层次构建
[0014]对聚类结果稳定的簇,使用BRT-Guass算法构建领域概念层次结构。[0015]所述步骤a中基于句法树和基于规则的方法获取领域概念间关系,具体包括:
[0016]1、通过领域概念和领域文档得到领域语料;
[0017]U、根据制定的规则进行匹配,获取相应的概念关系,所述概念关系为并列关系、同仪关系和实例关系;
[0018]ii1、对领域语料进行依存分析得到依存结构;
[0019]iv、对依存结构进行句法分析,获取上下位和整体部分关系;
[0020]V、将得到的每一个关系以一对概念和概念间的关系这种形式表示,组成关系词对集。
[0021]所述步骤b中选取概念间关系与共现频次作为概念间的特征构建概念矩阵,具体包括:
[0022]1、选取领域概念词集合{M}和规则提取的所有集合{N},然后将{M}中每个词与{N}中的每个词进行组合,就有M*N个词对,构成一个MXN的矩阵,矩阵的取值为矩阵中每个概念词对的概念关系,表示该词对的关联程度;
[0023]?、对Μ*Ν个词对按照上下文的共现频率和词对间的概念关系,按照下式对Valueij进行赋值:
[0024]valueij= a freq (keywordj) P (ternij | keywordj) + ^R (ternij, keywordj) (I)
【权利要求】
1.一种领域概念层次结构自动构建的方法,其特征在于该方法包括以下具体步骤: a、关系抽取 通过基于句法树和基于规则的方法获取领域概念间关系; b、矩阵生成 进行领域概念词频统计,选取概念间关系与共现频次作为概念间的特征构建概念矩阵; C、聚类融合 对矩阵设置不同的初始值,使用基于K-means的算法融合聚类; d、层次构建 对聚类结果稳定的簇,使用BRT-Guass算法构建领域概念层次结构。
2.根据权利要求1所述的方法,其特征在于所述步骤a中基于句法树和基于规则的方法获取领域概念间关系,具体包括: 1、通过领域概念和领域文档得到领域语料; i1、根据制定的规则进行匹配,获取相应的概念关系,所述概念关系为并列关系、同仪关系和实例关系; ii1、对领域语料进行依存分析得到依存结构; iv、对依存结构进行句法分析,获取上下位和整体部分关系; V、将得到的每一个关系以一对概念和概念间的关系这种形式表示,组成关系词对集。
3.根据权利要求1所述的方法,其特征在于所述步骤b中选取概念间关系与共现频次作为概念间的特征构建概念矩阵,具体包括: I、选取领域概念词集合{M}和规则提取的所有集合{N},然后将{M}中每个词与{N}中的每个词进行组合,就有M*N个词对,构成一个MXN的矩阵,矩阵的取值为矩阵中每个概念词对的概念关系,表示该词对的关联程度; i1、对M*N个词对按照上下文的共现频率和词对间的概念关系,按照下式对Valueij进行赋值:
4.根据权利要求1所述的方法,其特征在于所述步骤c对矩阵设置不同的初始值,使用基于K-means的算法融合聚类,具体包括: I、根据公式(I)对Valueu赋值,得到一个初始矩阵; i1、使用K-Means进行聚类,得到聚类结果;ii1、通过调整公式⑴中的参数a与β,得到新的矩阵,接着聚类,如此迭代η次,η=10-20 ; iv、对步骤c得到的聚类结果簇进行融合,获取聚类稳定的结果。
5.根据权利要求1所述的方法,其特征在于所述步骤d中使用BRT-Guass算法,具体包括: 先验概率采用了高斯分布,多相项式的似然估如公式如下:
6.根据权利要求1所述的方法,其特征在于所述步骤d中构建领域概念层次结构,具体包括: 以簇为单位对概念进行融合;选择概念簇A与概念簇B,分别计算A和B在公式(3)、(4)、(5)连接,吸收和归并三种融合方式下得到的概念层次的概率,然后选择概率最大的作为A和B融合的结果,融合结果就是层次结构。
【文档编号】G06F19/00GK104008301SQ201410252806
【公开日】2014年8月27日 申请日期:2014年6月9日 优先权日:2014年6月9日
【发明者】吕钊, 何立群 申请人:华东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1