一种融合句子局部上下文与文档领域信息的词义消歧方法与流程

文档序号:13672249阅读:295来源:国知局
技术领域本发明涉及到一种词义消歧方法,特别涉及一种融合句子局部上下文与文档领域信息的词义消歧方法,属于自然语言处理技术领域。

背景技术:
自然语言处理系统普遍存在“领域失配”问题,词义消歧也不例外。同样的方法对于不同的领域,往往性能差异很大。在大规模词义消歧任务中,其所需处理的文本的领域类型千差万别。如果词义消歧系统无法主动适应文本领域的差别,其消歧性能将大打折扣。“领域适应”已成为制约特定领域上词义消歧性能提高的关键问题。面向特定领域的词义消歧已得到了自然语言处理领域研究者的关注。面向特定领域的词义消歧方法主要包括有监督的方法和基于知识库的方法。有监督的方法主要针对扩充有效的消歧特征和降低词义标注工作量而展开;这只能减轻对训练语料的部分依赖,面对有监督方法对训练语料的海量需求,显然无法从根本上解决困扰有监督方法的数据稀疏问题。基于知识库的方法的研究主要围绕领域信息的挖掘和利用而展开;为目标领域收集密切相关的词语作为领域信息,为词义消歧系统提供更多的消歧特征。但现有方法对领域信息的挖掘利用并不充分,尚不能将领域信息与歧义词所在句子的局部上下文信息充分融合。

技术实现要素:
本发明的目的是为了克服现有词义消歧技术所面临的“领域失配”问题,主要针对基于知识库的词义消歧方法的领域信息的挖掘和利用问题,提出一种新的融合句子局部上下文与文档领域信息的词义消歧方法。本发明的目的是通过如下技术方案实现的。一种融合句子局部上下文与文档领域信息的词义消歧方法,其具体操作步骤如下。步骤一、对歧义词所在的句子进行依存句法分析,获得与歧义词具有直接依存关系的句子局部上下文相关词;具体如下。步骤1.1:用符号S表示待处理的句子;用符号wt表示目标歧义词。步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号等,获得预处理后的句子S’。步骤1.3:使用依存句法分析器,对句子S’进行依存句法分析;并对句子中的词语进行词形还原;获得其依存元组集合Rs。步骤1.4:从依存元组集合Rs中,提取出包含wt的依存元组,并将wt的依存词提取出来,筛选其中的实词,构建句子局部上下文相关词集合C。步骤二、对领域文档集合进行依存句法分析,收集其所包含的全部的依存元组,构建依存元组库;具体如下。步骤2.1:根据歧义词所在文档的领域类型Domain,收集隶属于该领域的文档,构建领域文档集合DSet。步骤2.2:对领域文档集合DSet中的文档逐个进行依存句法分析,获得其依存元组集合,构建依存元组库DependSet。步骤三、对依存元组库进行统计分析,找到与歧义词关系最为密切的一组领域相关词;具体如下。步骤3.1:借助于LinDeKang提出的依存分布相似度的概念,根据公式(1)计算歧义词wt与其它词语w的依存分布相似度,并降序排列,记入链表DList。(1)其中,;(w,r,x)表示一个依存元组,w表示支配词,r表示依存关系的类型,x表示从属词。步骤3.2:取链表DList的top-N个词语,作为与歧义词wt最为密切的一组领域相关词,构建领域相关词集合D。步骤四、根据领域相关词的依存分布相似度及其与局部上下文的词义相关度,确定其消歧权重;具体如下。步骤4.1:由公式(2),计算领域相关词wi与句子局部上下文相关词集合C的词义相关度。(2)其中,wi表示某个特定的领域相关词,C表示句子局部上下文相关词的集合,simi(wi,cj)表示wi与某个局部上下文相关词cj的相关度。步骤4.2:结合公式(1)与公式(2),由公式(3)和公式(4)确定领域相关词wi的消歧权重。(3)mixrela(wi)=rela(wi,C)×dss(wt,wi)(4)其中,wi表示某个特定的领域相关词,D表示领域相关词的集合。步骤五、将句子局部上下文相关词和领域相关词合并,构建相关词集合;具体如下。将各个句子局部上下文相关词cj的消歧权重均置为1,将cj加入相关词集合R;将各个领域相关词wi加入相关词集合R;即R=C∪D。步骤六、根据歧义词的各个词义与相关词集合的加权累加相关度,判定正确词义;具体如下。步骤6.1:根据公式(5),由相关词集合,计算各个词义与相关词集合的相关度,并根据相关词的消歧权重进行加权累加,获得各个词义的整体相关度。(5)其中,si表示某一特定词义,wj表示某一个相关词,R表示全部相关词集合,sense(wt)表示歧义词wt的全部词义的集合;simi(si,wj)表示词义si与相关词wj的相关度,其计算方法同步骤4.1。步骤6.2:将与相关词集合整体相关度最高的词义,判定为正确词义。经过以上步骤的操作,即可判定歧义词的词义,完成词义消歧任务。如上所述,本发明提供了一种融合句子局部上下文与文档领域信息的词义消歧方法,用户输入歧义句及其所属领域类型,系统将自动判定目标歧义词的词义。有益效果本发明提出的融合句子局部上下文与文档领域信息的词义消歧方法与已有词义消歧方法相比较,其优点是根据领域相关词与局部上下文的词义相关度对领域相关词的权重进行调整,同时考虑了句子局部上下文与文档领域信息对词义判定的影响,这能够改善词义消歧系统在特定领域上的适应性,提高词义消歧的正确率。附图说明图1为本发明具体实施方式中的half#n的领域相关词表(体育)。图2为本发明具体实施方式中的half#n的领域相关词与句子局部上下文相关词集的相关度表。图3为本发明具体实施方式中的half#n的领域相关词的消歧权重表。具体实施方式下面结合附图和具体实施例对本发明的具体实施方式做进一步详细说明。以句子“TheArgentinestooka18-9advantageintothesecond‘halfofthebasketballgame.”为例,该句子所在的文档属于体育领域,对其中的名词half进行词义消歧处理。根据WordNet3.0词典,歧义词half的词义如表1所示。表1half#n的词义表词义编号词义说明half#n#1one-half,half--(oneoftwoequalpartsofadivisiblewhole;\halfaloaf\;\halfanhour\;\acenturyandonehalf\)half#n#2(oneoftwodivisionsintowhichsomegamesorperformancesaredivided:thetwodivisionsareseparatedbyaninterval)其中,#n表示词性为名词;#1,#2表示在WordNet3.0中的词义序号。步骤一、对歧义词所在的句子进行依存句法分析,获得与歧义词具有直接依存关系的句子局部上下文相关词;具体如下。步骤1.1:用符号S表示待处理的句子,此例中S为“TheArgentinestooka18-9advantageintothesecond‘halfofthebasketballgame.”;用符号wt表示目标歧义词half。步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号等,获得预处理后的句子S’,此例可得“TheArgentinestooka18-9advantageintothesecondhalfofthebasketballgame.”。步骤1.3:使用依存句法分析器,对句子S’进行依存句法分析;并对句子中的词语进行词形还原;获得其依存元组集合Rs。此例中,采用斯坦福大学所提供的StanfordParser句法分析器,使用englishPCFG.ser.gz语言模型,由句子S’可获得如下依存元组:det(Argentines-2,The-1)、nsubj(took-3,Argentines-2)、det(advantage-6,a-4)、num(advantage-6,18-9-5)、dobj(took-3,advantage-6)、det(half-10,the-8)、amod(half-10,second-9)、prep_into(took-3,half-10)、det(game-14,the-12)、nn(game-14,basketball-13)、prep_of(half-10,game-14)。借助于WordNet3.0和美国西北大学所提供的MorphAdorner工具包,完成词形还原工作。此例中,took将被还原为take。经以上处理,可得依存元组集合Rs中包含如下依存元组:det(Argentines-2,the-1)、nsubj(take-3,Argentines-2)、det(advantage-6,a-4)、num(advantage-6,18-9-5)、dobj(take-3,advantage-6)、det(half-10,the-8)、amod(half-10,second-9)、prep_into(take-3,half-10)、det(game-14,the-12)、nn(game-14,basketball-13)、prep_of(half-10,game-14)。步骤1.4:从依存元组集合Rs中,提取出包含wt的依存元组,并将wt的依存词提取出来,筛选其中的实词,构建句子局部上下文相关词集合C。此例中,对歧义词half,包含其的依存元组有:det(half-10,the-8)、amod(half-10,second-9)、prep_into(take-3,half-10)、prep_of(half-10,game-14);从中可提取half的依存词:the、second、take、game;筛选其中的实词,可得句子局部上下文相关词集合C={second,take,game
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1