一种基于核函数的文档相似检测方法

文档序号:6364038阅读:270来源:国知局
专利名称:一种基于核函数的文档相似检测方法
技术领域
本发明涉及到信息检索领域,具体说是将本发明构造的S_Wang核函数用于文档相似检测的方法。
背景技术
核方法的思想是将在低维空间中一个非线性可分的问题,向高维空间转化,即映射到高维空间,使其在高维空间中变得线性可分,然后在特征空间中使用线性学习机建立优化超平面,利用高维特征空间中的内积来对低维空间的问题进行分类,从而解决问题。而转化最关键的部分在于找到输入空间中的X到高维空间中的Cj5(X)的映射方法,如何找到这个映射0没有系统的方法。事实上,该映射函数往往不易找到,且不一定能显式表达。这个办法带来的困难就是计算复杂度的增加,且直接在这个特征空间作内积计算会面临一个维数灾难问题。核函数的基本作用就是接受两个低维空间里的向量输入值X和Z,能够计算 出经过某个变换后在高维空间里的向量内积值,实现将低维空间的数据代入该函数之后即可算出高维空间中的内积,从而无需寻找那个从低维空间到高维空间的具体映射。核函数的应用很好地解决了计算复杂度和维数灾难问题。关于核函数的描述如下;设1和z G X,X属于R(n)空间,非线性函数O实现输入空间X到特征空间H(内积空间或Hilbert空间:H,〈 , >)的映射(O :X — H),其中H属于R(m), n << m。根据核函数技术有k(x, z) = < (J) (x) , 4) (z) >(I)其中<, > 为内积,k(x, z)为核函数。针对具体的问题,构造适合该问题的核函数是解决该领域具体非线性分类问题的关键所在,具有非常重要的意义。关于核函数的构造目前没有统一的方法。根据泛函的有关理论,只要一种核函数k满足Mercer条件,它就对应某一变换空间中的内积,满足Mercer条件的任意对称函数,都可以作为核函数。文档相似检测本质上是计算两篇文档的相似程度。每一个文档均可表示成一个向量,文档相似检测问题就转化为计算两个输入向量的相似度的问题。两篇文档相似与不相似是一个在低维空间中非线性可分的问题。将该低维空间中线性不可分的问题映射到高维空间,通过映射函数在高维特征空间的内积来计算两个输入数据之间的距离(即相似性)。现有的关于文本处理的核方法主要有将文本视为概念体集合(set ofconcepts)的核,如潜在语义核(Latent Semantic Kernel,简称为 LSK) [DristianiniN, Shawe-Taylor J, Lodhi H. Latent semantic kernels[J] Journal of IntelligentInformation Systems, 2002,18 (2-3) : 127-152.],考虑了词间的潜在语义关系,虽然相似检测的招回率很高,但检测的精准率很低,导致相似检测的综合表现不高。将文本视为词包或词袋(bag of words)的核,如点积或多项式核(dot product or polynomial kernels)等。词袋核基于词的独立性假设,相似检测的招回率不高;多项式核当阶数大于2时会出现不平衡特征项,且其相似计算的精准率和招回率均不高。Cauchy核来自于Cauchy分布(Basak, 2008),具有形式^(X’Z) = 1 | ||x-z||2 ’其在进行文档相似检测时的精准率和招回率
G
较差。方差分析(ANOVA)核(r阶)确定的特征集是所有r阶I次幂单项式构成,不存在不平衡特征项和过学习现象,但其相似检测的精准率和招回率也不太高。CLA复合核[王秀红,鞠时光.基于混合核函数的分布式信息检索结果融合[J].通信学报,2011,32 (4)112-118,125.]虽然与潜在语义核和ANOVA核相比在相似检测的精准率和招回率上有所改进,但相似检测的精准率、招回率和综合表现仍有待提闻。

发明内容
本发明的目的在于针对文档相 似检测招回率、精准率不高、综合评价表现差的缺陷,克服上述已有技术的不足,提出了一种新的核函数用以进行文档相似检测,以提高文档相似检测的精准率和综合评价表现,从而更有效地进行文档相似检测。实现本发明的技术方案包括如下步骤I.输入及预处理步骤构造文档集合,即文集,文集中所有的词项组成的集合为词典,大小为N ;将待比对的文档dx和dz经过特征映射后进行向量表示成文本向量X和z ;2.核函数构造步骤结合文档相似检测过程中的具体实际,通过两文本向量间的乘积和欧氏距离来描述二者的相似程度,从而构造适合文档相似检测的新核函
,, 、XT Z
f)= r Ilx-Zir ;
XZ + --—
CF3.相似计算步骤通过构造的核函数计算文本的相似度,从而进行文档相似检测。关于本发明的核函数构造,其具体步骤如下2a)当词典中某一词\在某一篇文档中未出现,即对应的向量维数位置值为0,则认为该词对两篇文档相似的贡献值为0,如果待比对的两篇文档没有共同的词,则认为该两篇文档的相似度为0,于是考虑利用两个行向量对应维数相乘XZt的形式来计算其相似度,作为构造的核函数的分子;2b)当某一词\在两篇待比对的文档中词频统计结果差值itfapW-tfapz)越大,表明两篇文档越不相似,该词ti使相似程度的计算结果越小,用I Ix-Z I I2表明两篇文档之间由于词语不同产生的欧氏距离,且将其置于构造的核函数的分母上;2c)当两篇文档dX和dZ完全相同,贝U有x = z,此时有| | x_z | | = 0,且有xzT =I ;当两篇文档完全相同的时候其相似度计算值应为1,于是考虑构造的核函数的分母形式
为 XZ1+I !X-Z I 2 ;2d)用宽度参数0(0 >0)来控制函数的径向作用范围,调节由于词语不同导致两篇文档距离对相似度的影响程度。所述的输入及预处理步骤中的特征映射为(J)1 :x — 4>i(x) = (tf (t1; x),tf (t2, x) , , tf (tN, x)) G Rn,工z — j (z) = (tf (t:, z) , tf (t2, z) , . . . , tf (tN, z)) G RN。当考虑词的潜在语义关系时,所述的输入及预处理步骤中的特征映射为小2
2 :x —小 2 (X) = ( w (t:) tf (t:, x) , w (t2) tf (t2, x) ,, w (tN) tf (tN, x)) G Rn,2 :z —小 2 (z) = ( w (t:) tf (t:, z) , w (t2) tf (t2, z) ,, w (tN) tf (tN, z)) G Rn,式中w(ti)为词\的衡量词的权重的绝对尺度,w(ti)具有形式
(I
权利要求
1.一种基于核函数的文档相似检测方法,其特征包括以下步骤 输入及预处理步骤构造文档集合,即文集,文集中所有的词项组成的集合为词典,大小为N ;将待比对的文档dx和dz经过特征映射后进行向量表示成文本向量X和Z ; 核函数构造步骤结合文档相似检测过程中的具体实际,通过两文本向量间的乘积和欧氏距离来描述二者的相似程度,从而构造适合文档相似检测的新的S_Wang核函数
2.如权利要求I所述的基于核函数的文档相似检测方法,其特征在于所述的核函数构造步骤具体如下 2a)当词典中某一词、在某一篇文档中未出现,即对应的向量维数位置值为O,则认为该词对两篇文档相似的贡献值为O,如果待比对的两篇文档没有共同的词,则认为该两篇文档的相似度为O,于是考虑利用两个行向量对应维数相乘ΧΖΤ的形式来计算其相似度,作为构造的核函数的分子; 2b)当某一词、在两篇待比对的文档中词频统计结果差值itfapW-tfayz) I越大,表明两篇文档越不相似,该词h使相似程度的计算结果越小,用11χ-ζ 112表明两篇文档之间由于词语不同产生的欧氏距离,且将其置于构造的核函数的分母上; 2c)当两篇文档dX和dZ完全相同,贝U有X = ζ,此时有I |x-z | | = O,且有χζτ = I ;当两篇文档完全相同的时候其相似度计算值应为1,于是考虑构造的核函数的分母形式为 XZ1+ I I X-Z I 2 ; 2d)用宽度參数σ (σ >0)来控制函数的径向作用范围,调节由于词语不同导致两篇文档距离对相似度的影响程度。
3.如权利要求I所述的基于核函数的文档相似检测方法,其特征在于所述输入及预处理步骤中的的特征映射为Φι Φ :χ — Φ! (χ) = (tf (ti, X), tf (t2, χ),... , tf (tN, X)) e Rn, Φ ! :Ζ — Φ ! (ζ) = (tf (tp ζ) , tf (t2, ζ) , , tf (tN, ζ) ) e RN。
4.如权利要求I所述的基于核函数的文档相似检测方法,其特征在于所述输入及预处理步骤中的特征映射为φ2 Φ2 :χ — Φ2 (x) = (ω (ti) tf (t1; χ) , ω (t2) tf (t2, χ) , · · · , ω (tN) tf (tN, χ)) e Rn, Φ2 :ζ — Φ2 (ζ) = (ω (t^ tf (t1; ζ) , ω (t2) tf (t2, ζ) , . . , ω (tN) tf (tN, ζ)) e Rn, 式中w(ti)为词h的衡量词的权重的绝对尺度。
5.如权利要求2或3或4任ー权利要求中所述的基于核函数的文档相似检测方法,其特征在于所述的tf (ti;x),是词典中的第i个词h在文档dX中出现的频率,所述的tf (ti;ζ)是第i个词h在文档dZ中出现的频率,其中i = 1,2, . . . , N。
6.权利要求4所述的基于核函数的文档相似检测方法,其特征在于所述的w(ti)具有 ( Λ形式則X.) = In ——,其中I为文集中存在的文档个数,Clfai) 、视)J 是包含词ti的文档个数,i = 1,2, . . . , N。
全文摘要
本发明公开了一种基于核函数的文档相似检测方法,它属于信息检索技术领域,主要解决文本检索的综合评价效果不好的问题。其步骤为1建文档集合即文集,其词项组成的集合构成词典,大小为N;2将待比对的文档dX和dZ表示成文本向量和;3通过两文本向量间的乘积和欧氏距离来描述二者的相似程度,构造了适合文档相似检测的新的S_Wang核函数,式中σ(σ>0)为宽度参数,用来控制函数的径向作用范围,调节由于词语不同导致两篇文档距离对相似度的影响程度;4通过构造的该核函数完成文档相似检测的任务。该方法具有检测精准率、招回率高和综合表现好的优点,可用于文本的相似度计算、文本分类、文本信息过滤、模式识别与人工智能。
文档编号G06F17/27GK102651034SQ20121010594
公开日2012年8月29日 申请日期2012年4月11日 优先权日2012年4月11日
发明者王秀红, 鞠时光 申请人:江苏大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1