一种基于主客观语义的双层次文本相似度计算方法

文档序号:6501816阅读:290来源:国知局
一种基于主客观语义的双层次文本相似度计算方法
【专利摘要】基于主客观语义的双层次文本相似度计算方法具有如下特征:本发明将文本分为题目和正文两个层次,通过过滤构建题目-词语向量,通过提取关键词构建较低维度的正文-词语向量,并将主客观结合的词语语义相似度计算方法用于词语向量相似度的计算,分别得到题目和正文的相似度,进而得到文本相似度;基于《知网》和语料库的词语-文本索引计算词语语义相似度,使词语表达简洁,计算结果能既符合主观概念又符合客观语义环境;文本相似度计算中,题目和正文并重,且将主客观结合的词语语义相似度计算方法运用其中,避免了高维度的文本-词语向量,充分提取了文本信息,提高了文本相似度结果的准确度,且适用于各种情况下文本的相似性分析。
【专利说明】—种基于主客观语义的双层次文本相似度计算方法
[0001]
【技术领域】
[0002]本发明涉及中文信息处理【技术领域】,特别涉及一种基于主客观语义的双层次文本相似度计算方法。
【背景技术】
[0003]随着计算机在个人用户的大量普及和互联网技术的飞速发展,网络用户和网站数量呈现出爆炸式的增长方式,网络上的信息也随之海量增长。文本是计算机与互联网世界重要的信息载体之一,文本相似度计算是文本分类与文本聚类等文本信息处理方式的基础,对提高文本分类、文本聚类等方面的效果有重要的意义。国内外学者在文本相似度计算领域已经有大量的研究工作,目前主流的相似度计算方法有:
(I)基于向量空间模型的相似度计算方法
向量空间模型(VSM)是将文本表不成一个向量,即表不为向量空间中的一个点,向量的每一维表示文本的一个特征,该特征通常是一个字或词。使用VSM进行文本表示,需要进行的工作包括分词、停用词处理、词根处理以及权重计算等,然后文本集D中的任一文本Clj都
可以表示成形如(Wu, W2y......,WwO的向量,其中,Wu表示文本4中词的权重。权重计算的
方法主要有TFIDF函数、布尔函数、频度函数等。
[0004]较为简单的相似度计算方法是通过数学方法计算点与点之间的距离,并以此作为文本相似度。数学上应用较为广泛的距离有欧氏距离,街区距离,幂距离等。
[0005]除了距离相似度之外,学术界还提出了基于K最近邻集(KNN)的相似度计算方法。K最邻近方法是使用邻近点作为相似度的评判标准。
[0006](2)基于短语的相似度计算方法
为了在文本表示中增强文本的语义联系,许多文本表示方法采用了短语作为特征项。该方法多采用后缀树模型,该方法采用两个文本之间相交的短语占两个文本短语并集的比例作为文本相似度。对于相交短语需要综合考虑短语的个数、长度、在两个文本中的出现频度以及语义重要性等指标,进行加权后得到文本的相似度。在后缀树模型中,文本被表示为短语的集合。在一棵后缀树中,中间节点表示两个词串所共有的短语,因而可以用两个文本的后缀树所共有的中间节点数来定义文本相似度。
[0007](3)基于本体的相似度计算方法
本体由概念和关系组成,文本可以看作由本体构成的集合,可以将文本之间的相似度转化为概念之间的相似度。该类方法可以分为以下几种:1)基于距离的相似度计算,该方法是根据两个概念在本体树状结构分类体系中的路径长度来量化概念之间的语义距离;2)基于信息内容的语义相似度计算,该方法的思想是这样的:如果两个概念之间共享的信息越多,它们之间的语义相似度也就越大;反之,共享的信息越少,相似度也就越小。在本体分类体系树中, 每个概念子节点都是对其祖先节点概念的一次细化和具体化。因此,可以通过被比较概念的公共父节点概念词所包含的信息内容来衡量它们之间的相似度;3)基于属性的语义相似度算法,该方法认为事物由其属性特征反映其本身,人们用以辨识或区分该事物的标志就是属性特征,被比较的文本之间的公共属性越多则证明相似度越高。
[0008]以上方法虽然各有优点,但是由于文本结构的复杂性和语义的多样性,在很多情况都存在不足。方法(I)中向量空间模型的构建简便,向量空间之间计算相似度简单易行,但是文本-词语向量空间模型中词语的维度会很大,造成很大的语义噪声,也会占用过多的存储空间,并且向量空间模型在计算相似度时常用字符串匹配的方法,会割裂内在的语义。方法(2)虽然考虑文本的内在语义,利用短语的语义联系得到文本的语义相似度计算,但是由于短语的复杂性,对于短语的提取包括后缀树的构建都较为困难。方法(3)利用本体进行相似度计算,该方法直接从文本整体语义方面考虑文本之间的相似度,由于本体是人为构建,因此计算结果能够较为符合人的主观概念,但是把数量庞大的文本集构建成本体,工作量太大,不具有普适应性,并且由于本体是人为构建的,可能使得计算结果脱离客观语境。
[0009]此外,文本相似度计算一般包括如下步骤:(I)对要进行相似度计算的文本进行结构化处理,即通过分词将文本表示为结构化的向量;(2)对构建的文本-词语向量进行过滤,使得词语向量的维度尽可能小,以达到计算简便和节省空间的目的;(3)对表达文本的词语向量进行相似度计算,进而得到文本的最终相似度,其中词语向量相似度计算的传统方法包括基于本体的、字符串匹配等多种方法。传统的文本相似度计算方法会使表达文本信息的词语向量维度较大,并且词语向量相似度计算结果不能既符合主观概念又符合客观语。
[0010]文本信息结构复杂,包含内容广泛,通常的文本相似度计算只考虑文本正文部分而不考虑文本题目,由于文本题目通常表达了文本内容的主题信息,而题目的关键词有可能不属于文本正文的关键词,所以如果单纯以文本正文关键词向量来表达文本可能会使某些关键信息丢失,
由此可见,目前还没有一种方法既能够在表述文本信息方面做到简单易行,又能够从语义角度使文本相似度计算结果既符合人的主观概念又符合客观语境。为了达到以上目的,本发明设计了一种基于主客观语义的双层次文本相似度计算方法,不仅使得文本表达简便,而且使得计算结果既符合人的主观概念又能够符合客观语境。

【发明内容】

[0011]本发明目的在于提供一种基于主客观语义的双层次文本相似度计算方法,用于解决文本表达存在的维度高,以及文本相似度计算结果准确度或合理性有待提高的问题。
[0012]本发明解决其技术问题所采用的技术方案是:本发明是一种策略性方法。本发明将文本的表达分为两个层次:文本题目信息和文本正文信息,并提出基于主客观语义的双层次文本相似度计算方法。本发明提出的文本相似度计算方法首先将文本划分为题目信息和正文信息两个部分,然后通过分词得到题目-词语向量和正文-词语向量,再利用主客观结合的词语语义相似度方法计算词语向量相似度,分别得到题目语义相似度和正文的相似度,再将题目语义相似度结果与正文内容语义相似度结果整合并进行归一化得到最终的文本相似度,如图1与图2所示。[0013]本发明使用如下概念和计算公式:
(I)词语信息:记以词语#为关键词的文本向量是U1, t2,…,?η},称向量U1, t2,…,?η}是词语PF的信息内容,简记为Info M。
[0014](2)词语覆盖信息量:将词语Jf1和的信息内容的并集称作词语覆盖信息,称词语覆盖信息的维数为词语覆盖信息量,记为InfoanXwl, w2),即:
【权利要求】
1.一种基于主客观语义的双层次文本相似度计算方法,其特征在于,包含如下步骤: 步骤I)构建文本语料库,分词并提取关键词,建立文本索引; 步骤2)将每个要进行相似度计算的文本划分为题目信息和文本正文内容信息两部分; 步骤3)将文本的题目信息作为语句处理,将题目语句分词,并过滤掉副词、介词、代词、连词、是其他词的子串的词,得到语句-词语向量,将主客观结合的词语语义相似度计算方法运用到词语向量相似度计算中,得到文本题目相似度;其中主客观结合的词语语义相似度计算方法包括如下步骤: 步骤31)利用《知网》对词语的定义对义原进行语义距离计算,再将义原语义距离归一化得到词语的主观语义相似度; 步骤32)在语料库的文本索引中,分别搜索要进行相似度计算的词语,根据搜索结果,建立词语的文本向量,然后按照公式(3)计算词语客观语义相似度,公式⑶为:
【文档编号】G06F17/27GK103678275SQ201310129124
【公开日】2014年3月26日 申请日期:2013年4月15日 优先权日:2013年4月15日
【发明者】成卫青, 吴旭东, 黄卫东, 范恒亮 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1