通过主题词矫正基于向量空间模型文本相似度计算的方法

文档序号:6374989阅读:418来源:国知局
专利名称:通过主题词矫正基于向量空间模型文本相似度计算的方法
技术领域
本发明涉及一种基于向量空间模型计算文本相似度计算的方法,尤其是一种通过主题词矫正基于向量空间模型文本相似度计算的方法,属于计算机技术领域。
传统的向量空间模型在文本分类中已经得到比较多的应用;但是,针对文本信息过滤而言,向量空间模型的相似度计算结果精度有限,基本不能作为过滤的依据。
如果能够利用文本主题相关程度对基于向量空间模型文本相似度的计算结果进行矫正,就可以有效地提高基于向量空间模型的文本相似度计算的精度,使得向量空间模型的相似度计算的结果适用于文本信息过滤。
本发明的目的是这样实现的一种通过主题词矫正基于向量空间模型文本相似度计算的方法,所述方法包括如下步骤步骤1提取文本的主题相关信息;步骤2矫正基于向量空间模型文本相似度计算。
所述步骤2之前还包括对依据步骤1所提取的主题相关信息进行矫正,再依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算。
所述步骤1提取主题相关信息依据词频或集合频度或词长信息内容进行。
所述的提取主题相关信息依据如下计算公式进行 其中,①表示词频因子部分;②表示集合频率因子;③表示词长因子;wik表示词k在文本i中的权值;tf表示词k在文本i中的频率;MAXtf表示文本i中词频最大的词的频率;K1表示对tf的重视程度,通常取值0.5;wl为词k的词长; 为文本中词长的最大值;K2表示对wl的重视程度,通常取值0.5;Tw为文本i中的总词数(仅指特征词)。
对所提取的主题相关信息进行矫正为通过主题信息的相交程度,判断内容的相似度。
矫正基于向量空间模型文本相似度计算为相交度大于阈值时,强化特征向量相似度值;相交度小于阈值时,弱化特征向量相似度值。
主题相关信息矫正为Ris=A+Tis∩CsCs]]>其中,A是反映对主题词相关的重视程度经验值(0<A<1),Ris是主题词相关系数;Tis是待分析文本i的主题词数;Cs是标准类的主题词数,“∩”是求交运算,即判断Cs包含Tis的数量。
矫正基于向量空间模型文本相似度计算即=Sim(wi,vj)×Ris其中,Sim(wi,vj)为向量空间模型文本相似度计算。
所述的主题相关信息为主题词或特征词。
使用本发明的方法能够修正基于向量空间模型文本相似度计算的方法,用当前文本主题词和已定义类的主题词求交,以判断一个文本是否属于已定义的类别,通过反映对主题词相关程度重视的经验值和主题词求交的百分数,构建了更为有效、更为符合自然的文本类别归属结果。
标准的基于向量空间模型文本相似度计算的方法为Sim(wi,vj)=Cosθ=Σk=1nwik.vjkΣk=1nwik2·Σk=1nvjk2]]>公式中Wi,Vj分别为待分析文本向量和标准向量,wik,vjk是向量的分量。由此可以看出,在相似度计算过程中,所有的词都被同等对待。
除了特征词之外,每一类文本中都存在一些特殊的词,它们对文本的类别归属具有特殊的价值,这些特定的词被称为特征词或主题词。在人类的智能分类过程中,会考虑到这些主题词的特殊贡献,对文本类别归属进行加权。
基于这种思想,为使相似度计算的结果更加有效和自然,设置一依据主题词的提取方法,并依据提取的主题词对上述标准方法进行的矫正。
在进行主题词相关矫正之前,首先要提取特定类别的主题词。其过程是分析特定文本,提取文本特征向量时,综合考虑词频、集合频度、词长信息提取主题词。我们提出的具体方法如下 其中,①表示词频因子部分;②表示集合频率因子;③表示词长因子;wik表示词k在文本i中的权值;tf表示词k在文本i中的频率;MAXtf表示文本i中词频最大的词的频率;K1表示对tf的重视程度,通常取值0.5;wl为词k的词长; 为文本中词长的最大值;K2表示对wl的重视程度,通常取值0.5;Tw为文本i中的总词数(仅指特征词)。
在训练过程中,从标准文本中提取以上值最高的一批词作为标准主题词集,处理待分析文本时,也依据这个公式计算待分析文本的主题词集,以这两个集合作为主题词矫正的依据。
具体实例为判断一个特征词W是否属于文本i的主题词某一文本i中总特征词数Tw=100,词频最大MAXtf=6,词长最大MAXwl=5,]]>文本中有特征词W,其长度wl=3,在文本中的频率tf为5,取K1=K2=0.5,用主题词提取公式计算特征词W在文本i中的权值,得wik=(0.5+0.5×56)×1log21005×(0.5+0.5×36)≈0.159]]>重复上述步骤,计算文本i中所有100个特征词的权值,将所有特征词按权值大小排序,若在文本i中提取10个主题词,则直接选取权值最大的前十个特征词作为文本主题词,若词W的权值wik满足条件,词W就是文本i的主题词。
在计算待分析文本的相似度时,基于主题词矫正思想,根据待分析文本与标准主题词集合的相交程度调节主题词矫正系数。
主题词矫正计算公式如下Ris=A+Tis∩CsCs]]>其中,A是经验值(0<A<1),通常取值0.7,反映对主题词相关的重视程度。Ris是主题词相关系数,取值范围A-A+1;Tis是待分析文本i的主题词数;Cs是标准类的主题词数,“∩”是求交运算,即判断Cs包含Tis的数量,求交运算不受主题词的排列顺序影响。
主题词相关系数的目的在于通过主题词相交程度来判断内容的相似度。公式表明,只要达到1-A的主题词相交,即待分析文本主题词数与标准文本主题词数的比值 大于1-A,Ris大于1,就强化特征向量相似度值;反之,Ris小于1,就弱化特征向量相似度值。
本发明的方法目的是通过主题词矫正基于向量空间模型文本相似度计算的方法,即为用主题词矫正修正基于向量空间模型文本相似度计算待分析文本i与标准文本的相关程度=Sim(wi,vj)×Ris其中Ris为主题词相关矫正系数。
具体实例为某一过滤类T有主题词集Subj_T={S1,S2,S3,S4,S5,S6,S7,S8,S9,S10}某一文本i经向量空间模型计算得到与过滤类T的相似度为Sim(t,i),经主题词抽取得到主题词集Subj_i={i1,i2,i3,i4,i5,i6,i7,i8,i9,i10}对Subj_T和Subj_i求交,即判断Si等于ik的个数,1)假设有Sibk_T∩Subj_i=7,取A=0.7,则主题词矫正值Ris=0.7+Tis∩CsCs0.7+710=1.4]]>用Ris对由VSM模型文本相似度进行矫正待分析文本i与T类的相关程度=Sim(i,T)×Ris=1.4×Sim(i,T)文本相似度被矫正提高,说明文本i与过滤类T的主题高度相关增强了文本内容相似程度。
2)假设有Subj_T∩Subj_i=1,取A=0.7,则主题词矫正值Ris=0.7+Tis∩CsCs=0.7+110=0.8]]>用Ris对由VSM模型文本相似度进行矫正待分析文本i与T类的相关程度=Sim(i,T)×Ris=0.8×Sim(i,T)文本相似度被矫正降低,说明文本i与过滤类T的主题偏离削弱了文本内容相似程度。
权利要求
1.一种通过主题词矫正基于向量空间模型文本相似度计算的方法,其特征在于所述方法包括如下步骤步骤1提取文本的主题相关信息;步骤2矫正基于向量空间模型文本相似度计算。
2.如权利要求1所述的通过主题词矫正基于向量空间模型文本相似度计算的方法,其特征在于所述步骤2之前还包括对依据步骤1所提取的主题相关信息进行矫正,再依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算。
3.如权利要求1所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于所述步骤1提取主题相关信息依据词频、集合频度、词长信息、词以及总词数,取加权后权重最高的为主题相关信息。
4.如权利要求3所述的基于向量空间模型文本相似度计算的方法,其特征在于所述的提取主题相关信息依据如下计算公式进行 其中,①表示词频因子部分;②表示集合频率因子;③表示词长因子;wik表示词k在文本i中的权值;tf表示词k在文本i中的频率;MAXtf表示文本i中词频最大的词的频率;K1表示对tf的重视程度,通常取值0.5;wl为词k的词长; 为文本中词长的最大值;K2表示对wl的重视程度,通常取值0.5;Tw为文本i中的总词数(仅指特征词)。
5.如权利要求2所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于对所提取的主题相关信息进行矫正为通过主题信息的相交程度,判断内容的相似度。
6.如权利要求2或5所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于矫正基于向量空间模型文本相似度计算为相交度大于阈值时,强化特征向量相似度值;相交度小于阈值时,弱化特征向量相似度值。
7.如权利要求2所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于主题相关信息矫正为Ris=A+Tis∩CsCs]]>其中,A是反映对主题词相关的重视程度经验值(0<A<1),Ris是主题词相关系数;Tis是待分析文本i的主题词数;Cs是标准类的主题词数,“∩”是求交运算,即判断Cs包含Tis的数量。
8.如权利要求6或7所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于矫正基于向量空间模型文本相似度计算即=Sim(wi,vj)×Ris其中,Sim(wi,vj)为向量空间模型文本相似度计算。
9.如权利要求1、2、3、4、5或7所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于所述的主题相关信息为主题词或特征词。
全文摘要
一种通过主题词矫正基于向量空间模型文本相似度计算的方法,它包括步骤1提取文本的主题相关信息;步骤2矫正基于向量空间模型文本相似度计算;该方法能够修正基于向量空间模型文本相似度计算的结果,用当前文本主题词和已定义类的主题词求交,以判断一个文本是否属于已定义的类别,通过反映对主题词相关程度重视的经验值和主题词求交的百分数,构建了更为有效、更为符合自然的文本类别归属结果。
文档编号G06F17/21GK1403957SQ0113140
公开日2003年3月19日 申请日期2001年9月6日 优先权日2001年9月6日
发明者肖航, 高建忠, 王江, 诸光, 王楠 申请人:联想(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1