一种基于信息量的句子相似度计算方法

文档序号:6549819阅读:348来源:国知局
一种基于信息量的句子相似度计算方法
【专利摘要】本发明涉及一种基于信息量的句子相似度计算方法,包括以下步骤:首先,通过两个句子词语间具有最大的信息量的概念确定词语的词义;然后利用语义网的层次结构和语料库统计来计算词语的信息量和多词语间的公共信息量;接下来应用组合数学中容斥原理计算多个词语的总信息量,从而分别得到两个句子各自的信息量,以及两个句子总共的信息量;最后根据Jaccard相似度原理定义并计算出句子的相似度。本发明能逼真的模拟人类对句子相似程度的判断,并且不需要使用语料训练参数或使用经验参数、不依赖语料库的规模、无需词性标注等其他自然语言处理技术;时间性能优秀,对一般长度的句子对,在当前主流多核PC机上获得准实时计算效率。
【专利说明】一种基于信息量的句子相似度计算方法

【技术领域】
[0001] 本发明涉及一种句子相似度计算方法,具体涉及一种基于信息量的句子相似度计 算方法,属于自然语言处理【技术领域】。

【背景技术】
[0002] 句子或短文本相似度计算是自然语言处理的一项重要研究内容,近年来在信息检 索、机器翻译、问答系统、自动文摘等应用领域中的作用越来越重要。传统的方法多采用文 档相似度的计算方法,仅把句子词语看成相互没有关联的无意义符号,对于计算含有少量 词语的句子不够精确。而目前常用的混合方法通常需要在相关数据集上训练参数或者使用 经验参数,其缺点是依赖训练数据集,通用性不强。


【发明内容】

[0003] 本发明方法的目的在于解决上述问题,提供一种基于信息量的句子相似度计算方 法,通过使用信息量这个语言的本质属性,使用容斥原理获得精确的多个词语的总信息量, 从而得到更接近于人主观判断得到的句子相似度结果。
[0004] 本发明方法的思想是首先通过两个句子词语间具有最大的信息量的概念确定词 语的词义;然后利用语义网(比如WordNet)的层次结构和语料库(比如BNC语料库或 Brown语料库等)统计来计算词语的信息量和多词语间的公共信息量;接下来应用组合数 学中容斥原理计算多个词语的总信息量,从而分别得到两个句子各自的信息量,以及两个 句子总共的信息量;最后根据Jaccard相似度原理定义并计算出句子的相似度。
[0005] 为达到上述目的,本发明采用的技术方案是:
[0006] -种基于信息量的句子相似度计算方法,包括以下步骤:
[0007] 步骤1 :输入待计算的两个句子sa和sb,记句子sa和sb分别为 :

【权利要求】
1. 一种基于信息量的句子相似度计算方法,其特征在于,包括以下步骤: 步骤1 :输入待计算的两个句子Sa和sb,记句子sa和sb分别为 :
其中,wf和wi分别表示句子sa和sb的第i个词语,η和m分别表示句子sa和s b的 词语数; 步骤2 :对输入句子中的词语进行词义选择,过程如下: 词语wf的词义按照式1确定: [式1]
其中,subsumh, c2)为在语义网中包含概&cdPc2的所有概念集合,《皿作吵'.)表示 在语义网中所有包含词语< 的概念的集合,cons印ts(sb)表示语义网中包含句子sb中的所 有词语的概念的集合,P (c)为概念c在语料库中的频率,特殊的,如果P (c)为0,则logP (c) 为0, P(c)的值按照式2确定: [式2] P(c) = Xwewords(c)count (w)/N 其中W〇rdS(C)表示语义网中概念c以及概念c的所有子概念中的所有词语的集合, count (w)为词语w在语料库中的频数,N表示语义网中全部概念的频数之和,而每个概念的 频数为该概念中全部词语在语料库中的总频数之和; 同理,将式1中wf替换成w丨,consepts(sb)替换成consepts(sa),可得句子s b中第i 个词语的词义cf; 词义确定后句子83和sb可以记为:
步骤3 :根据步骤2所得确定词义的句子,应用组合数学中的容斥原理计算句子sa和sb 各自的信息量以及二者的总信息量,计算过程如下: 句子sa的信息量IC (sa)的计算公式如式3所示: [式3]
其中,cwwww/cg',<,···,<)表示通过语义网的层次结构和语料库统计共同构 建的语义信息空间,《讲,<;,···,<)根据式4计算: [式4]
其中,?-_(£: C …,C )为在语义网中包含概念",·.·,<的所有概念的集 ll l2 lk ll l2 lk 合; 同理,把式3和式4中所有字母a替换成b,n替换成m,可得句子sb的信息量; 把句子83和sb中所有不重复词语的集合看成一个新的句子,则通过式5得到句子\和 sb的总信息量IC(sa U sb): [式5]
其中,P为句子sa和sb不重复的词语的总数; 步骤4 :由并集和交集之间的关系定义两个句子sa和sb的公共信息量 COMMONIC (sa,sb),计算公式如式6所示: [式6] COMMONIC (sa, sb) = IC(sa)+IC(sb)-IC(sa U sb) 步骤5 :根据Jaccard相关性原理,定义句子sa和sb的相似度sim(sa, sb),计算公式如 式7所示: [式7]
步骤6 :输出两个句子的相似度sim(sa, sb)。
【文档编号】G06F17/30GK104090918SQ201410268361
【公开日】2014年10月8日 申请日期:2014年6月16日 优先权日:2014年6月16日
【发明者】吴昊, 黄河燕 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1