一种语义关系密切度的计算方法

文档序号:6627235阅读:254来源:国知局
一种语义关系密切度的计算方法
【专利摘要】本发明公开了一种语义关系密切度的计算方法,包括如下步骤:S1,对文档进行分词处理,并对处理后获得的词语集合进行过滤,过滤掉非名词以及无实意的常用名词;S2,将过滤后的词集根据在文本中的位置信息进行加权处理,计算其共现频度权值;S3,根据两个词语之间的平均权值,计算语义关系密切度。本发明充分考虑了两个词语间的距离以及其上下文关系,提高了词语相关性判断的准确性。
【专利说明】一种语义关系密切度的计算方法

【技术领域】
[0001] 本发明涉及一种语义关系密切度的计算方法,尤其涉及一种用于量化计算词语之 间语义关系密切度的方法,属于自然语言处理【技术领域】。

【背景技术】
[0002] 互联网的高速发展将人类带入了信息大爆炸的社会。面对互联网的海量信息,人 们常常应用搜索引擎来获取和定位有效信息。当前广泛使用的商业搜索引擎大多采用基于 关键词匹配及布尔运算相结合的信息检索模型,检索关键词成为用户与检索系统间最重要 的沟通渠道。但是,仅匹配用户输入的少量关键词并不能得到令人满意的检索结果。
[0003] 为得到更好的检索结果,查询扩展(query expansion,简称QE)的策略被广泛采 用。QE的基本思想是通过对关键词语义、逻辑等方面的再扩展以得到关键词扩展集合,通过 检索扩展集合得到更多的检索结果,以提高系统的查全率。然而,QE在带来更优查全率的 同时,也带来了如同义词问题(synonyms)、歧义问题(polysemy)等诸多损害检索查准率及 关注度的问题。因此,如何获得词语间更好的语义关系,使得在扩展查询的同时保证检索准 确度已成为当前信息检索领域的重要课题。
[0004]近年来,词语间语义关系的研究主要分为基于知识和基于统计两个方向:前者是 利用构建好的知识库,通过知识库约定的概念关系计算词语间的语义相似度,如中文语义 知识库知网HowNet、同义词词林、英文的WordNet等;后者是通过对大规模语料库的统计分 析,将词语上下文信息的概率分布作为词语间语义关系的计算参照。
[0005]基于构建概念间语义关系知识库的实现方法是通过人工手段把词语组织成为词 汇层次,构造以一定的语义知识为基础的知识库,该方法简单、直观,但缺点也非常明显。首 先,基于构建概念间语义关系知识库的构造过程是一项规模浩大的系统工程。其次,知识库 的构建容易受到人的主观意识影响,处理海量信息时也无法穷尽所有的语义关系,特别是 难以有效涵盖特殊领域和新兴领域的专有词汇。于是,基于大规模语料库统计,将词语上下 文信息的概率分布作为词语间语义关系的计算参照,从而得到词语之间的关系密切程度的 方法越来越受到人们的青睐,它能够对词语间语义关系进行比较精确和有效的度量。但是 如何有效地获取词语间的语义关系,并没有得到很好地解决。


【发明内容】

[0006]本发明所要解决的技术问题在于提供一种语义关系密切度的计算方法。
[0007] 为实现上述的发明目的,本发明采用下述的技术方案:
[0008] -种语义关系密切度的计算方法,包括如下步骤:
[0009] S1,对文档进行分词处理,并对处理后获得的词语集合进行过滤,过滤掉非名词以 及无实意的常用名词;
[0010] S2,将过滤后的词集根据在文本中的位置信息进行加权处理,计算其共现频度权 值;
[0011] S3,根据两个词语之间的平均权值,计算语义关系密切度。
[0012] 其中较优地,文本中的位置信息包含词语之间相隔的词数和分隔符组成的惩罚距 离。
[0013] 其中较优地,在S2中,所述共现频度权值通过公式C〇C 〇unt(K,W) = e^wdd(dis'flag) 求得;
[0014] 其中,K是特征词,W是目标词,e为自然常数,y为正常数,用于调节曲线的平滑 度,wdd(dis,flag)表示两个词语之间的距离权值函数;
[0015] 其中,dis表示K和W之间相距离的词数;flag表示词语K和W之间因段落及标点 符号形成的惩罚值之和。
[0016] 其中较优地,所述两个词语之间的距离权值函数wdd(dis,flag)通过公式

【权利要求】
1. 一种语义关系密切度的计算方法,其特征在于包括如下步骤: S1,对文档进行分词处理,并对处理后获得的词语集合进行过滤,过滤掉非名词以及无 实意的常用名词; 52, 将过滤后的词集根据在文本中的位置信息进行加权处理,计算其共现频度权值; 53, 根据两个词语之间的平均权值,计算语义关系密切度。
2. 如权利要求1所述的语义关系密切度的计算方法,其特征在于: 文本中的位置信息包含词语之间相隔的词数和分隔符组成的惩罚距离。
3. 如权利要求1所述的语义关系密切度的计算方法,其特征在于: 在步骤S2中,所述共现频度权值通过公式CoCount (K,W) = (1^ddwiUlarf求得; 其中,K是特征词,W是目标词,e为自然常数,μ为正常数,用于调节曲线的平滑度, wdd(dis,flag)表示两个词语之间的距离权值函数; 其中,dis表示K和W之间相距离的词数;flag表示词语K和W之间因段落及标点符号 形成的惩罚值之和。
4. 如权利要求3所述的语义关系密切度的计算方法,其特征在于: 所述两个词语之间的距离权值函数wdd(dis,flag)通过公式 』US,flag ) = 1 + 时丄 C也-1) * (flag + 1)求得; -一 1 , 2 其中,left,right是特征词的作用范围,L是调节权值递减速度的参数。
5. 如权利要求1或3所述的语义关系密切度的计算方法,其特征在于: 在S2中,根据词语间所述标点符号的不同设置不同的惩罚值。
6. 如权利要求1所述的语义关系密切度的计算方法,其特征在于: 在S3中,所述两个词语之间的语义关系密切度值,通过公式 ?\ CoCount(K1W) SRC(KtW)= ^^-----求得; Count{K) * {left + right) 其中,Count(K)为在文档集合中出现特征词K的次数,left为限定共现词的左边作用 范围;right为限定共现词的右边作用范围。
【文档编号】G06F17/27GK104317783SQ201410472805
【公开日】2015年1月28日 申请日期:2014年9月16日 优先权日:2014年9月16日
【发明者】张辉, 陈勇, 刘瑞 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1