一种确定关键词上下文范围的求解方法与流程

文档序号:11063461阅读:550来源:国知局
一种确定关键词上下文范围的求解方法与制造工艺
本发明涉及语义网络
技术领域
,具体涉及一种确定关键词上下文范围的求解方法。
背景技术
:自从进入21世纪以来,全球的互联网行业进入了一个高速发展的新时期,各种新技术不断涌现出来。作为联系计算机与人之间重要技术的自然语言处理也取得了长足的发展。国内外对词语语义相似度的计算方法大体可以分为两类:第一,基于语义词典的词语语义相似度计算方法,这种方法简单有效、易于理解,但是它依赖于比较完备的按照概念间结构层次关系组织的大型语义词典;第二,基于语料库的词语语义相似度计算方法,这种方法利用大规模语料库,将词语的上下文信息作为语义相似度计算的参照依据。基于语料库的方法建立在两个词语语义相似当且仅当它们处于相似的上下文环境中这一假设的基础上。词语的上下文是语料库语言学中自然语言知识获取和解决自然语言处理中多种实际应用问题依靠的资源和基础,但上下文“窗口”开多大为宜,为克服当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足,本发明提供一种确定关键词上下文范围的求解方法。技术实现要素:针对当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足,本发明提供一种确定关键词上下文范围的求解方法。为了解决上述问题,本发明是通过以下技术方案实现的:步骤1:初始化统计方法模块,即语料库或文本。步骤2:将关键词C输入初始化统计方法模块或文本中。步骤3:分别求解关键词C相邻的上下文本中每个位置的权重贡献值weight(C,Cij∈(1,2,…2n))。步骤4:对关键词C语境中上下文词位置的权重贡献值weight(C,Cij∈(1,2,…2n))。进行归一化曲线处理。步骤5:计算关键词C语境中上下文窗口的左右窗口n值。本发明有益效果是:1、对上下文语境有效范围的确定提供了非常有价值的定量化的描述,克服了前人主观描述的不足。2、上下文对关键词的描述能力相对位置由近及远逐渐递减,符合人们一般认识。3、为更好的解决词语、句子相似度计算提供了极为有价值的理论基础。附图说明表1为-j映射到weight(C,Cij∈(1,2,…2n))的离散表格图1为一种确定关键词上下文范围的求解方法结构流程图图2为上下文位置权重贡献值离散图与归一化处理后的连续函数f(-j)曲线图具体实施方式针对当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足,结合图1对本发明进行了详细说明,其具体实施步骤如下:步骤1:初始化统计方法模块,即语料库或文本。步骤2:将关键词C输入初始化统计方法模块或文本中。步骤3:分别求解关键词C相邻的上下文本中每个位置的权重贡献值weight(C,Cij∈(1,2,…2n)),其具体计算过程如下:3.1)先假设关键词C上下文语境的位置信息在一定规模语料库的基础上,选取一定规模和具有一定覆盖面的关键词,并从语料中提取每个关键词C上下文左右各n个位置的上下文词语构成其“关键词上下文矩阵Jsx”,其矩阵如下所示:上式矩阵行i∈(1,2,…,m),i为第i个上下文语境,列j∈(1,2,…,n)为关键词上下文左边n个位置,列j∈(n+1,n+2,…,n+n)为关键词上下文右边n个位置。Cij为第i个上下文语境中第几个位置词。3.2)计算每个上下文位置对关键词C的权重值weight(C,Cij∈(1,2,…2n))上式weight(C,Cij∈(1,2,…2n))分别为第i语境中位置为j时的上下文词对关键词的权重贡献值,p(C/Cij∈(1,2,…2n)为每个上下文位置已知对应的关键词C的条件统计概率,这个基于语料库可以很容易统计出,Ej∈(1,2,…2n)为各语境下每个上下文位置已知对应的关键词C的条件统计概率p(C/Cij∈(1,2,…2n)的平均值。上式m为语料库或文本中含关键词的语境数量。步骤4:对关键词语境中上下文词位置的权重贡献值进行归一化曲线处理,其具体描述过程如下:4.1)先对关键词语境中的上下文词位置j进行归一化处理以关键词为原点,上下文词位置距离关键词的相对距离如下式:上式左边位置相对距离为负值,右边位置相对距离为正值。4.2)曲线归一化上述左右位置相对距离d为自变量横坐标x,根据上述步骤3得到的weight(C,Cij∈(1,2,…2n))为对应纵坐标值,去除误差较大点,连接曲线,建立曲线上下文位置权重贡献值函数,得到的是二连续函数。即f(-j)、f(j′-n)。具体语料库或文本,根据关键词具体分析即可得到f(-j)、f(j′-n)。例如:表1上下文位置(-j)-1-2-3-4-5-6-7-8-9weight(C,Cij∈(1,2,…2n))2.181.991.871.771.601.501.301.201.10其曲线图如图2所示根据图2中数据可得令x=-jf(-j)=ax3+bx2+cx+d同理可得令x′=j′-nf(j′-n)=a′(x′)3+b′(x′)2+c′x′+d′步骤5:计算关键词语境中上下文窗口的左右窗口n值,其具体计算过程如下:上式P左为左边窗口允许的一个信息损失量的边界条件,α为用户允许的一个阈值,只有满足这个边界条件,就可以确定左边窗口的n值。同理右边窗口的确定,有下式:上式P右为右边窗口允许的一个信息损失量的边界条件,α为用户允许的一个阈值,只有满足这个边界条件,就可以确定右边窗口的n值。这里左窗口的n值大小不一定等于右边窗口大小,主要根据上两式计算可得。一种确定关键词上下文范围的求解方法,其伪代码计算过程如下:输入:关键词C,初始化语料库或文本,α边界阈值。输出:得到关键词C上下文本的左右窗口值。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1