基于表现语义分析的概念相关度计算方法

文档序号:6366176阅读:390来源:国知局
专利名称:基于表现语义分析的概念相关度计算方法
技术领域
本发明涉及一种概念相关度计算方法,尤其涉及一种基于表现语义分析的概念相关度计算方法,属于语义网络技术领域。
背景技术
在自然语言世界中,概念是对客观实体的抽象描述。不同概念间相互关联衍生出缤纷复杂的语义关系,构成自然语言世界的基础。为适应语义推理和智能化服务的需求,语义Web为代表的下一代信息互联网络,试图在任何微小数据间构建连接,而概念关系正是构建语义网络的基础。此外,概念关系抽取在信息检索、自动问答、机器翻译等领域也都有着广泛应用。在实践中,不同概念之间的关系可以简单归纳为四种类属关系,属值关系,上下文共现和解释关系。其中解释关系是指如果词条b在词条a正文中具有说明意义的出现,则称词条b解释词条a,词条a被词条b解释,a为解释关系的主体,b为解释关系的客体。在本发明中,使用标记explain(b, a)代表b解释a的解释关系。上述“解释关系”是包含语义的。不同的概念被不同的概念集合解释,但是这些概念集合又是有交集的,这就为通过解释关系窥探概念的相关度构造了可行的渠道,即比较解释关系的集合在代数意义上的相似。解释关系和被解释关系都是一种语义元素重合的表现。语义元素的重合是没有方向性的,因此一般认为解释关系的语义特征不具有方向性。“解释关系”将语义相关转化为代数意义的相似是当前很多计算概念相关度算法的基础。例如,雅虎研究院的EvgeniyGabrilovic h博士于2007年提出ESA算法用于计算概念相关度,取得了突破性的效果。ESA算法在概念的解释集合上进行TF-IDF(词频-逆向文件频率)权重计算,使用计算得到的权重组成的向量表征概念,通过计算向量距离来求得概念相关度。在现有技术中,通常采用正向构造法和逆向构造法构造语义特征向量,进而通过数学中量化向量距离的方法计算概念相关度。所谓正向构造法是通过与词条概念具有被解释关系的概念集合,即词条概念的被解释集,构造语义特征向量的方法。例如将每一个概念视作语义空间中的一个维度,每篇由概念组成的百科全书正文就映射为语义空间中的一个向量,此向量就是百科全书正文对应词条概念的语义特征向量。正向构造法直观容易理解,构造方便。但是,不同的词条概念正文论述详细程度差别很大,论述过于详细的词条概念容易引入噪音维度,论述过于简略的词条概念会出现维度缺失。同正向构造法相似,逆向构造法是将概念集合中的一个概念视为语义空间中的一个维度。不同的是,正向构造法使用概念的被解释集构造特征向量,而逆向构造法则使用概念的解释集构造语义特征向量。上述的ESA算法就使用了逆向构建词语特征向量的方法,取得了不错的效果。但是,逆向构造法仍然存在若干缺点。例如,百科全书中存在大量词条并不解释其他概念。对于这类词条,无法使用逆向构造法进行语义特征向量进行表征。在专利号为ZL200810223792. 3的中国发明专利中,中国科学院计算技术研究所、提出了一种分类目录自动构建方法,包括步骤I)查找与用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集合;步骤2)计算所述概念术语集合中各个概念术语间的相关度;步骤3)根据所述概念术语间的相关度,对所述概念术语集合中的概念术语做分类或聚类操作,得到至少一个概念术语类;步骤4)将所述概念术语集合中的概念术语按照所述概念术语类组织成分类目录。该技术方案所涉及的概念相关度计算方法包括计算两个术语在同一文本内容中的共同出现次数的方法、计算两个术语间的互信息的方法、计算两个术语在词典或人工目录中的距离的方法、传统信息检索中计算文本间距离的计算方法等。

发明内容
本发明所要解决的技术问题在于提供一种基于表现语义分析的概念相关度计算方法。该方法可以较为准确地度量不同概念之间的关系,有利于概念关系的发现。为实现上述的发明目的,本发明采用下述的技术方案一种基于表现语义分析的概念相关度计算方法,其特征在于包括如下步骤(I)基于解释关系构造概念语义特征向量基于解释关系的语义特征方向无关性,将概念的解释集和被解释集同等视作表现语义,进而构造语义特征向量;(2)实现语义特征赋权和特征降维首先使用优化后的逆文档频率代替逆文档频率进行语义特征赋权,优化后的逆文档频率使用odf表示,计算公式如下
(ηλOdfba=Iog -^*\D\其中,nba表示概念b在概念a百科文章中的出现频率,TFb为概念b的解释集词频和,D为百科语料库中的概念总数;接着使用带监督器的滑动窗口进行特征降维;(3)通过向量距离量化表征不同概念之间的相关度。其中较优地,所述步骤(2)中采用下述的基于词频统计的解释语义特征赋权计算公式weight。(exp lain(b, a)) = tfb a * odfb a =* log ^ * | Z) |其中weight (explain (b, a))表示概念b解释概念a的情况下,概念b承载的语义特征权重,tfb,a表示概念b在概念a百科文章中的正规化频率。其中较优地,tfb,a通过如下公式进行计算
^ _ nb,atKa - V
Luk k^a其中,nb,a表示概念b在概念a百科文章中的出现频率,Σ knk,a为概念a百科文章中所有概念频率之和。其中较优地,所述步骤⑵中,TFb通过如下公式计算
权利要求
1.一种基于表现语义分析的概念相关度计算方法,其特征在于包括如下步骤 (1)基于解释关系构造概念语义特征向量 基于解释关系的语义特征方向无关性,将概念的解释集和被解释集同等视作表现语义,进而构造语义特征向量; (2)实现语义特征赋权和特征降维 首先使用优化后的逆文档频率代替逆文档频率进行语义特征赋权,优化后的逆文档频率使用odf表示,计算公式如下 odfba=\og[r^r*\D\ \^b J 其中,nb,a表示概念b在概念a百科文章中的出现频率,TFb为概念b的解释集词频和,D为百科语料库中的概念总数; 接着使用带监督器的滑动窗口进行特征降维; (3)通过向量距离量化表征不同概念之间的相关度。
2.如权利要求I所述的基于表现语义分析的概念相关度计算方法,其特征在于 所述步骤(2)中,采用下述的基于词频统计的解释语义特征赋权计算公式^eighta (exp lain(b, a)) = tfb a * odfb a = * log ^ * | D | Z a. 、TFb J 其中weight (explain (b, a))表示概念b解释概念a的情况下,概念b承载的语义特征权重,tfb,a表示概念b在概念a百科文章中的正规化频率。
3.如权利要求2所述的基于表现语义分析的概念相关度计算方法,其特征在于 七4一通过如下公式进行计算ff _ nb,aJb,a — X-' 其中,nb,a表示概念b在概念a百科文章中的出现频率,E knk,a为概念a百科文章中所有概念频率之和。
4.如权利要求I所述的基于表现语义分析的概念相关度计算方法,其特征在于 所述步骤(2)中,TFb通过如下公式计算 TFb -hi—f'bl'k 其中,k为b解释集中的概念元素,Oexplaining(b)为概念b的解释集。
5.如权利要求I所述的基于表现语义分析的概念相关度计算方法,其特征在于 所述步骤(2)中,将解释关系在百科正文中不同位置的出现归纳为两种亮点解释和普通解释;为亮点解释和普通解释赋予不同的权重。
6.如权利要求5所述的基于表现语义分析的概念相关度计算方法,其特征在于 所述亮点解释与所述普通解释的权重之比为2. 5 I。
7.如权利要求I所述的基于表现语义分析的概念相关度计算方法,其特征在于 所述步骤(2)中,特征降维采用如下步骤首先设定滑动窗口大小,记为winLen,设定权重降幅阈值S,然后按照权重对向量特征进行降序排列,将滑动窗口从向量头部向尾部滑动,若发现当前滑动窗口首末权重相差幅度超过S,则减去滑动窗口之后的特征,否则窗口整体向尾部滑动一个特征。
8.如权利要求I所述的基于表现语义分析的概念相关度计算方法,其特征在于 如果概念原始特征数小于WinLen或者滑动窗口已到达向量尾部,则无需降维。
9.如权利要求I所述的基于表现语义分析的概念相关度计算方法,其特征在于所述步骤⑶中,采用余弦相似度或者马氏距离度量向量距离。
全文摘要
本发明公开了一种基于表现语义分析的概念相关度计算方法,包括如下步骤(1)基于解释关系构造概念语义特征向量;(2)实现语义特征赋权和特征降维;(3)通过向量距离量化表征不同概念之间的相关度。通过实验比较,本发明所提供的基于表现语义分析的概念相关度计算方法明显优于现有的正向构造法和逆向构造法,而且该方法相比较基于明确语义分析的概念相关度计算更适用于概念关系的发现。
文档编号G06F17/30GK102737112SQ20121012500
公开日2012年10月17日 申请日期2012年4月25日 优先权日2012年4月25日
发明者左源, 张辉, 胡红萍, 马永星 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1