基于向量空间模型的文本相似性匹配方法

文档序号:6581550阅读:445来源:国知局
专利名称:基于向量空间模型的文本相似性匹配方法
技术领域
本发明涉及一种计算机技术,具体说,涉及一种基于向量空间模型的文本相似性匹配方法。
背景技术
现在一些常用的文本检索模型,包括基于文字的检索模型和基于结构的检索模型。基于文本的检索模型又包括向量空间模型、近似模型、概率模型和统计语言检索模型;基于结构的文本检索模型又包括内部结构检索模型、外部结构检索模型。文本的相似度,即两篇文本之间相似程度的数值度量,取两篇文本D1、D2,若(Dl H D2)/ (Dl U D2)越接近I表示两篇文本的相似度越高,反之相反。在文本检索技术中,相似度计算主要用于衡量文本对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示和特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。针对不同的应用场景,受限于数据规模、时空开销等的限制,相似度计算方法的选择又会有所区别和不同。通常使用的计算相似度的方法是VSM (向量空间模型)。这种模型通过对文本提取关键词,然后进行权值赋值,将文本表示成由权重不同的关键词构成的向量,通过计算两个文本的向量距离从而得到文本的相似度。由于关键词很可能存在同义词、一词多义等现象,所以用传统的向量空间模型方法得到的相似度计算结果精度不高,结果往往并不令人满意;关键词加权算法仅仅是寻求文本和关键词之间的关系,不能横向地联系不同文本间关键词之间的关系,给文本检索带来了如下问题(I)关键词不能准确表达用户需求。用户很难选择准确的关键词来进行搜索,因为其中涉及到查询和概念之间的语义映射问题。用户给出的查询关键词不能很好地反映用户的意图。(2)关键词不能反映文本内容。如果关键词外延太大,就很难或者无法检索到相关文本。(3) —词多义现象。由于关键词匹配技术很难解决一词多义现象,往往会检索出大量无关信息。(4)关键词以同义方式在文中出现。用户的查询关键词有时并不在文中直接出现,而是以同义词、近义词或者关键词的其他构词方式出现,这样,文本就不能检索到。当查询关键词与文本主题词构成概念上下位关系时,则更加难以检索到。

发明内容
本发明所解决的技术问题是提供一种基于向量空间模型的文本相似性匹配方法,相对准确反映了文本之间的联系,这样可以更加充分地反映文本的相似度。技术方案如下一种基于向量空间模型的文本相似性匹配方法,包括提取文本的关键词,对所有关键词进行聚类,生成关键词概念树;根据构建的待翻译文本中关键词的关键词概念树计算文本的相似性,按相似性的大小得到在翻译参考文献库中匹配的文本。进一步,所述生成关键词概念树的步骤包括提取待分类文档和参考库中的所有关键词,得到关键词集合;对关键词集合中的关键词进行聚类,把相同概念的关键词聚合为一个概念类集合,根据所述概念类集合生成所述关键词概念树。进一步,若关键词Ici出现的概率P (ki)>Pl ;且有,在出现匕的该文本中也出现关键词kj的条件概率P Ckj I Iii) >P2,则认为关键词kj和Iii表达相同概念,Pl和P2为设定概
率阀值。进一步,生成所述关键词概念树的过程具体步骤包括提取待分类文档和参考库中的所有关键词,得到关键词集合C= {kl,k2,…,kn},计算C中每个关键词k在参考库中出现的概率p(k),即出现关键词k的文本数和集合中文本总数之比; 根据设定阀值过滤关键词,取pmin〈p(k)〈pmax的关键词,将其作为待合并的集合项,设符合条件的关键词个数为m个,其中pmax和pmin为设定好的高低限阀值;对过滤后得到的关键词按P (k)进行降序排序,并将每一个关键词作为一个集合,这样得到初始的m个待合并集合,记为{kj, {k2},….,{kj ;在这m个关键词中,计算在关键词Ici出现的文本中关键词kj也出现的概率,记为P(IijIki),共计P I个条件概率,(I 彡 i,j 彡 m ;i 关 j);p (IijIki)=P (^ki)/p Cki),p (Iijki)为h和Iii同时出现在同一篇文本中的概率;合并待合并集合,生成根节点为关键词集合C的关键词概念树。进一步,对于待合并的两个关键词集合Cl和C2,合并条件为存在Ici属于Cl,kj属于C2,且P Cki) >Pl,p (kj I Iii) >P2,当P (IiiWPp (k」| Iii)大于所述设定阀值时,关键词h和h表达相同概念,满足其所在的集合的合并条件之一;在合并后的集合中任给一个关键词ki;其与集合中一半以上关键词都满足条件P α」1^)>Ρ2 ;若两个集合满足以上两个条件,则概念具有很大相似性,属于可合并的集合,合并后生成上一层概念类集合。进一步,在参考库中查找匹配的文本的过程包括提取参考库内所有文档的关键词,组成关键词集合;根据所述关键词概念树的结构,通过改进的文本相似度计算公式,计算待分类文本与参考库中每个文本的相似性,按照相似度降序返回结果文本。进一步,在翻译参考文献库中查找匹配的文本的过程具体步骤包括定义H为生成的概念树的高度,定义cbpth (k)为节点k在树中的深度,即为从根节点到该节点所经历的边数;定义com (ki; kj)为离节点Iii和kj最近的共同父节点,任两个节点必有一个共同的父节点即根节点;任两个关键词的积的计算公式IciXkj=Clepth (com Cki, kj)) /H ;
设向量A=^a2, ---,aj ,B= {b1 b2,…,bn},定义向量计算:
权利要求
1.一种基于向量空间模型的文本相似性匹配方法,包括 提取文本的关键词,对所有关键词进行聚类,生成关键词概念树; 根据构建的待翻译文本中关键词的关键词概念树计算文本的相似性,按相似性的大小得到在翻译參考文献库中匹配的文本。
2.如权利要求1所述的基于向量空间模型的文本相似性匹配方法,其特征在于,所述生成关键词概念树的步骤包括 提取待分类文档和參考库中的所有关键词,得到关键词集合; 对关键词集合中的关键词进行聚类,把相同概念的关键词聚合为ー个概念类集合,根据所述概念类集合生成所述关键词概念树。
3.如权利要求2所述的基于向量空间模型的文本相似性匹配方法,其特征在于,若关键词も出现的概率p Cki) >P1 ;且有,在出现ん的该文本中也出现关键词Icj的条件概率pCkj I kj >P2,则认为关键词も和Ici表达相同概念,Pl和P2为设定概率阀值。
4.如权利要求3所述的基于向量空间模型的文本相似性匹配方法,其特征在于,生成所述关键词概念树的过程具体步骤包括 提取待分类文档和參考库中的所有关键词,得到关键词集合C= {kl,k2,…,kn},计算C中每个关键词k在出现的概率,出现关键词k的文本数和文本总数之比记为p (k); 根据设定阀值过滤关键词,取Pmin〈P (k) <pfflax的关键词,将其作为待合并的集合项,设符合条件的关键词个数为m个,其中Pmax和Pmin为设定好的高低限阀值; 对过滤后得到的关键词按P (k)进行降序排序,并将每ー个关键词作为ー个集合,这样得到初始的m个待合并集合,记为{kj,{k2},…,{kj ; 在这m个关键词中,计算在关键词h出现的文本中关键词Icj出现的概率,记为p(kjlh),共计P t个条件概率,(I 彡 i,j 彡 m ;i 关 j);p (IcjIki)=P (^ki)/p Cki)^ (^ki)为も和Ici同时出现在同一篇文本中的概率; 合并待合并集合,生成根节点为关键词集合C的关键词概念树。
5.如权利要求4所述的基于向量空间模型的文本相似性匹配方法,其特征在于,对于待合并的两个关键词集合Cl和C2,合并条件为存在Ici属于Cl,、属于C2,且p (ki)>Pl,P (kj I Ici) >P2,当p (Ici)和p (kj Iki)大于所述设定阀值时,关键词Ici和kj表达相同概念,满足其所在的集合的合并条件之一;在合并后的集合中任给ー个关键词h,其与集合中一半以上关键词都满足条件P (1^|1^)汗2 ;若两个集合满足以上两个条件,则概念具有很大相似性,属于可合并的集合,合并后生成上ー层概念类集合。
6.如权利要求1所述的基于向量空间模型的文本相似性匹配方法,其特征在于,在翻译參考文献库中查找匹配的文本的过程包括提取翻译參考文献库内所有文档的关键词,组成关键词集合;根据所述关键词概念树的结构,通过改进的文本相似度计算公式,计算待分类文本与參考库合中每个文本的相似性,按照相似度降序返回结果文本。
7.如权利要求6所述的基于向量空间模型的文本相似性匹配方法,其特征在于,在翻译參考文献库中查找匹配的文本的过程具体步骤包括 定义H为生成的概念树的高度,定义cbpth (k)为节点k在树中的深度,即为从根节点到该节点所经历的边数; 定义com Cki, kj)为离节点Ici和kj最近的共同父节点,任两个节点必有ー个共同的父节点即根节点; 任两个关键词的积的计算公式
全文摘要
本发明公开了一种基于向量空间模型的文本相似性匹配方法,包括提取文本的关键词,对所有关键词进行聚类,生成关键词概念树;根据构建的待翻译文本中关键词的关键词概念树计算文本的相似性,按相似性的大小得到在翻译参考文献库中匹配的文本。本发明技术方案相对准确反映了文本之间的联系,这样可以更加充分地反映文本的相似度。
文档编号G06F17/30GK103049569SQ201210593148
公开日2013年4月17日 申请日期2012年12月31日 优先权日2012年12月31日
发明者江潮 申请人:武汉传神信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1