基于主成分分析的词语权重组合方法

文档序号:6582172阅读:1487来源:国知局
专利名称:基于主成分分析的词语权重组合方法
技术领域
本发明涉及一种自然语言的处理方法,具体涉及一种词语权重的计算方法。
背景技术
近年来,自然语言处理新模型不断涌现,而这些模型都以词语权重算法为基础,它 直接影响模型的处理结果。 总结起来,权重计算方法主要包括三大类词语全局权重、词语局部权重和文档规 范化因子。而词语的最终权重,就是这三类权重的乘积。然而这些权重之间有许多重复的 冗余信息,即存在着信息上的重叠。简单的相乘会重复记录这些重叠信息,从而使得某些词 语权重过高,造成最终权重不准确。

发明内容
本发明针对现有权重之间有许多重复的冗余信息,导致这些权重相乘会重复记录
这些重叠信息,从而使得某些词语权重过高,造成最终权重不准确的问题;而提供一种采用
主成分分析方法计算组合权重的方法,该方法能够在不改变原始权重数据信息量的情况下
消除各权重间的相关性,从而给词语一个客观准确的权重。 为了达到上述目的,本发明采用如下的技术方案 基于主成分分析的词语权重组合方法,该方案包括如下的步骤 (1)正态性检验,将所有待组合的词语权重的序列进行正态性检验。这是使用本专
利计算方法的前提。主成分分析模型要求待处理的所有数据,即各权重计算方法计算出的
词语权重,也就是所有待组合的词语权重,必须符合正态性检验。 (2)将各种权重计算方法计算得到的词语权重值标准化。不同的权重计算方法的 出的权重区间可能有较大的差别,这会造成本专利组合方法结果的不准确。因而需要把不 同区间的权重进行标准化,使其在单一区间中。 (3)计算相关矩阵。本专利基于主成分分析模型改进权重组合方法,其优势在于能 够消除不同权重算法计算出的权重序列的相关性,从而提升权重组合结果的准确性。而相 关矩阵就是衡量不同权重算法的计算结果间的相关程度。 (4)求相关矩阵的特征根和特征向量,得出主成分。解相关矩阵R的特征方程,可 得R的P个特征根,其大小描述了各个主成分在描述被评价对象上所起作用的大小。由特 征方程式,每一个特征根对应一个特征向量。进而使用特征向量作为系数可直接写出主成 分。 (5)求方差贡献率,确定主成分。主成分分析是一种降维的方法,找出几个综合因 子,即主成分,来代表原来众多的变量,使这些综合因子能尽可能地反映原来变量的信息量 且彼此之间不相关。因此,需要确定哪些主成分蕴含的信息量高,从而采用这些主成分作为 综合评价因子。跟据特征根从大到小,计算其对应的主成分的方差贡献率,并累计,如果累 计方差贡献率>85%,则已计算的主成分将作为用于综合评价的主成分。
(6)综合评价。主成分进行加权求和,即得最终评价值,权数为每个主成分得方差 贡献率。 所述步骤(1)之前利用各权重计算方法计算得到相应的词语权重,且每个权重算 法得到的词语权重序列符合正态性检验。 根据上述技术方案得到的本发明采用多元统计分析中的主成分分析方法,能够在 不改变原始数据信息量的情况下消除各指标间的相关性,可以根据各项词语权重的值,给 其一个准确的综合评价值。 基于上述特点本发明将有效优化目前词语权重计算方法,提高其准确率,势必有 力推动信息检索、文本分类、自动文摘、问答系统等自然语言处理技术的研究和应用。


以下结合附图和具体实施方式
来进一步说明本发明。
图1为本发明的流程图。
具体实施例方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结 合具体图示,进一步阐述本发明。 为了消除重叠信息,本发明利用主成分分析方法计算组合权重的原理。本发明采 用多元统计分析中的主成分分析方法,给各种权重算法得出的词语权重一个综合评价值。
主成分分析方法,就是把分量相关的原始变量通过正交变换得到一组分量不相关 且具有良好方差性质的新变量,再从中选取前几个变量来代替原变量。它一方面能够在不 改变原始数据信息量的情况下消除各指标间的相关性;另一方面它还可以采取一种降维的 方法,找出几个蕴含信息量最高的综合因子来代表原来众多的变量,并用这些综合因子给 出综合评价。 从而基于该理论设计的权重组合方法,能够达到消除各权重间重叠信息的目的, 从而得出客观准确的组合权重。 本发明提供的词语权重组合方法,能够在不改变原始权重数据信息量的情况下消 除各权重间的相关性,从而给词语一个客观准确的权重。其具体步骤如下
(1)总体的正态性检验 各权重计算方法计算出的词语权重中,即所有待组合的词语权重中,每个权重算 法得出的词语权重序列必须符合正态性检验。这是使用本专利计算方法的前提。正态 性检验的方法有许多,可采用Shapiro. S.S和Wilk.M.B的正态性W检验法。先将词语
的权重序列",A, Xn)按由大到小排为(X(D, X(2), A, X(n))。记 其中
,=1
/
Z = ^>t 。ak为该检验算法的参数,可查Sh即iro-Wilk检验的&i的系数表
Ar=l得到。 可以证明对任何分布,W G
,而且分布越接近正态,W的值就越接近于1。因
4此,根据n值查Sh即iro-Wilk检验的正态性W检验临界值表找到W的下临界值Wa。若计算 出的W值满足Wa《W《l,则接受正态性假设。
(2)将各种权重计算方法的计算结果标准化 在词语权重计算中,不同的权重算法得出的值的区间很可能存在较大差异,这会 造成本专利组合方法结果的不准确。因而需要把不同区间的权重进行标准化,使其在单一 区间中。具体方法为 设由m个权重算法计算出的待组合的权重共有n个,记这n个权重值组成的样本 阵为X二 (Xij) = (X"L,XJ',令 A _ ~/ ,, 其中,E(X》和varXi分别为第i个权重算法计算出的权重值的平均值和标准差。 [OO31] (3)计算相关矩阵 本专利基于主成分分析模型改进权重组合方法,其优势在于能够消除不同权重算 法计算出的权重序列的相关性,从而提升权重组合结果的准确性。而相关矩阵就是衡量不 同权重算法的计算结果间的相关程度。 f =(《,A ,;C)'的协差矩阵就是样本阵X的相关矩阵R。计算公式为
爿=( )=S〗=1 (~ —幻Oj - X)', i =( ), = / (4)求相关矩阵的特征根和特征向量,得出主成分 解相关矩阵R的特征方程即得其m个特征根,用A工^A2^A^Am^0表示, 其大小描述了每一个主成分所蕴含的信息量。 由特征方程式,得每一个特征根所唯一对应的特征向量,表示为
ej = (lu, l2j, A , lmj) ' , j = 1, 2, A , m 使用特征向量作为系数可直接写出主成分,求出其前p个主成分
A = e乂'x,* = 、4 + /2,:2 +L + ;x二,_/ = 1,2,L ,/ 2w (1) 特征根的大小描述了各个主成分在描述被评价对象上所起作用的大小,本专利的 方法仅仅需要计算出较大的特征根对应的主成分即可, 一般不超过3个。可设定一个阈值, 比如保守起见计算出前5个主成分。
(5)求方差贡献率,确定主成分 主成分分析法要求在确保信息量损失尽可能少的前提下,用尽量少的主成分来进 行综合评价。其一种降维的方法,找出几个综合因子,即主成分,来代表原来众多的变量,使 这些综合因子能尽可能地反映原来变量的信息量且彼此之间不相关。因此,需要确定哪些 主成分蕴含的信息量高,从而采用这些主成分作为综合评价因子。实现方法为根据上步计
算出的主成分的值,从第一个主成分开始逐个计算其方差贡献率",.,当累计贡
献率E J a j达到或超过85%时,已经计算的p个主成分就能够体现原数据的信息量,从而
用于综合评价。
(6)综合评价
为了进一步综合形成一个最终评价值,以a j为权数对Zj求和的综合评价函数为
<formula>formula see original document page 6</formula> 以第i个词语的权重数据代入(1)式,再代入到计算(2)式,就得第i个词语的权 重的综合得分,即组合权重值。 把所有词语权重的数据按照步骤(6)中的方法进行计算,可得所有词语的权重综 合得分,即为组合权重的值。 以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术 人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本 发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变 化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其 等效物界定。
权利要求
基于主成分分析的词语权重组合方法,其特征在于,所述方法包括如下的步骤(1)正态性检验,将所有待组合的词语权重的序列进行正态性检验;(2)将各种权重计算方法计算得到的词语权重值标准化,使所有的词语权重值在单一区间中;(3)计算相关矩阵,计算由各种权重计算方法计算得到的词语权重值形成的样本阵的相关矩阵;(4)求相关矩阵的特征根和特征向量,得出主成分;(5)求方差贡献率,确定主成分;(6)综合评价,通过上述确定的主成分进行加权求和,即得最终评价值。
2. 根据权利要求1所述的基于主成分分析的词语权重组合方法,其特征在于,所述步 骤(1)之前利用各权重计算方法计算得到相应的词语权重,且每个权重算法得到的词语权 重序列符合正态性检验。
全文摘要
本发明公开了基于主成分分析的词语权重组合方法,该方法包括如下的步骤(1)正态性检验;(2)将各种权重计算方法计算得到的词语权重值标准化;(3)计算相关矩阵;(4)求相关矩阵的特征根和特征向量,得出主成分;(5)求方差贡献率,确定主成分;(6)综合评价。本发明将有效优化目前词语权重计算方法,提高其准确率,势必有力推动信息检索、文本分类、自动文摘、问答系统等自然语言处理技术的研究和应用。
文档编号G06F17/27GK101719121SQ200910199019
公开日2010年6月2日 申请日期2009年11月19日 优先权日2009年11月19日
发明者夏天 申请人:上海第二工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1