一种语义关系密切度的计算方法

文档序号：6627235阅读：254来源：国知局

一种语义关系密切度的计算方法
【专利摘要】本发明公开了一种语义关系密切度的计算方法，包括如下步骤：S1，对文档进行分词处理，并对处理后获得的词语集合进行过滤，过滤掉非名词以及无实意的常用名词；S2，将过滤后的词集根据在文本中的位置信息进行加权处理，计算其共现频度权值；S3，根据两个词语之间的平均权值，计算语义关系密切度。本发明充分考虑了两个词语间的距离以及其上下文关系，提高了词语相关性判断的准确性。
【专利说明】一种语义关系密切度的计算方法

【技术领域】
[0001] 本发明涉及一种语义关系密切度的计算方法，尤其涉及一种用于量化计算词语之间语义关系密切度的方法，属于自然语言处理【技术领域】。

【背景技术】
[0002] 互联网的高速发展将人类带入了信息大爆炸的社会。面对互联网的海量信息，人们常常应用搜索引擎来获取和定位有效信息。当前广泛使用的商业搜索引擎大多采用基于关键词匹配及布尔运算相结合的信息检索模型，检索关键词成为用户与检索系统间最重要的沟通渠道。但是，仅匹配用户输入的少量关键词并不能得到令人满意的检索结果。
[0003] 为得到更好的检索结果，查询扩展（query expansion,简称QE)的策略被广泛采用。QE的基本思想是通过对关键词语义、逻辑等方面的再扩展以得到关键词扩展集合，通过检索扩展集合得到更多的检索结果，以提高系统的查全率。然而，QE在带来更优查全率的同时，也带来了如同义词问题（synonyms)、歧义问题（polysemy)等诸多损害检索查准率及关注度的问题。因此，如何获得词语间更好的语义关系，使得在扩展查询的同时保证检索准确度已成为当前信息检索领域的重要课题。
[0004]近年来，词语间语义关系的研究主要分为基于知识和基于统计两个方向：前者是利用构建好的知识库，通过知识库约定的概念关系计算词语间的语义相似度，如中文语义知识库知网HowNet、同义词词林、英文的WordNet等；后者是通过对大规模语料库的统计分析，将词语上下文信息的概率分布作为词语间语义关系的计算参照。
[0005]基于构建概念间语义关系知识库的实现方法是通过人工手段把词语组织成为词汇层次，构造以一定的语义知识为基础的知识库，该方法简单、直观，但缺点也非常明显。首先，基于构建概念间语义关系知识库的构造过程是一项规模浩大的系统工程。其次，知识库的构建容易受到人的主观意识影响，处理海量信息时也无法穷尽所有的语义关系，特别是难以有效涵盖特殊领域和新兴领域的专有词汇。于是，基于大规模语料库统计，将词语上下文信息的概率分布作为词语间语义关系的计算参照，从而得到词语之间的关系密切程度的方法越来越受到人们的青睐，它能够对词语间语义关系进行比较精确和有效的度量。但是如何有效地获取词语间的语义关系，并没有得到很好地解决。

【发明内容】

[0006]本发明所要解决的技术问题在于提供一种语义关系密切度的计算方法。
[0007] 为实现上述的发明目的，本发明采用下述的技术方案：
[0008] -种语义关系密切度的计算方法，包括如下步骤：
[0009] S1，对文档进行分词处理，并对处理后获得的词语集合进行过滤，过滤掉非名词以及无实意的常用名词；
[0010] S2,将过滤后的词集根据在文本中的位置信息进行加权处理，计算其共现频度权值；
[0011] S3,根据两个词语之间的平均权值，计算语义关系密切度。
[0012] 其中较优地，文本中的位置信息包含词语之间相隔的词数和分隔符组成的惩罚距离。
[0013] 其中较优地，在S2中，所述共现频度权值通过公式C〇C 〇unt(K，W) = e^wdd(dis'flag) 求得；
[0014] 其中，K是特征词，W是目标词，e为自然常数，y为正常数，用于调节曲线的平滑度，wdd(dis，flag)表示两个词语之间的距离权值函数；
[0015] 其中，dis表示K和W之间相距离的词数；flag表示词语K和W之间因段落及标点符号形成的惩罚值之和。
[0016] 其中较优地，所述两个词语之间的距离权值函数wdd(dis，flag)通过公式

【权利要求】
1. 一种语义关系密切度的计算方法，其特征在于包括如下步骤： S1，对文档进行分词处理，并对处理后获得的词语集合进行过滤，过滤掉非名词以及无实意的常用名词； 52, 将过滤后的词集根据在文本中的位置信息进行加权处理，计算其共现频度权值； 53, 根据两个词语之间的平均权值，计算语义关系密切度。
2. 如权利要求1所述的语义关系密切度的计算方法，其特征在于：文本中的位置信息包含词语之间相隔的词数和分隔符组成的惩罚距离。
3. 如权利要求1所述的语义关系密切度的计算方法，其特征在于：在步骤S2中，所述共现频度权值通过公式CoCount (K，W) = (1^ddwiUlarf求得；其中，K是特征词，W是目标词，e为自然常数，μ为正常数，用于调节曲线的平滑度， wdd(dis，flag)表示两个词语之间的距离权值函数；其中，dis表示K和W之间相距离的词数；flag表示词语K和W之间因段落及标点符号形成的惩罚值之和。
4. 如权利要求3所述的语义关系密切度的计算方法，其特征在于：所述两个词语之间的距离权值函数wdd(dis，flag)通过公式』US，flag ) = 1 + 时丄 C也-1) * (flag + 1)求得； -一 1 ， 2 其中，left，right是特征词的作用范围，L是调节权值递减速度的参数。
5. 如权利要求1或3所述的语义关系密切度的计算方法，其特征在于：在S2中，根据词语间所述标点符号的不同设置不同的惩罚值。
6. 如权利要求1所述的语义关系密切度的计算方法，其特征在于：在S3中，所述两个词语之间的语义关系密切度值，通过公式 ?\ CoCount(K1W) SRC(KtW)= ^^-----求得； Count{K) * {left + right) 其中，Count(K)为在文档集合中出现特征词K的次数，left为限定共现词的左边作用范围；right为限定共现词的右边作用范围。
【文档编号】G06F17/27GK104317783SQ201410472805
【公开日】2015年1月28日申请日期:2014年9月16日优先权日:2014年9月16日
【发明者】张辉, 陈勇, 刘瑞申请人:北京航空航天大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张辉;陈勇;刘瑞
技术所有人：北京航空航天大学
我是此专利的发明人

上一篇：网页渲染方法、装置及移动终端的制作方法
上一篇：答题卡信息采集方法及设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。