基于语义的文本相似度计算方法

文档序号:6522944阅读:1346来源:国知局
基于语义的文本相似度计算方法
【专利摘要】本发明提供了一种基于语义的文本相似度计算方法,涉及面向文本的智能信息处理【技术领域】。其目的在于解决常规的文本向量空间模型及余弦相似度无法进行语义相关判断的问题。基于语义的文本相似度计算包括以下步骤:对文本集进行预处理,提取出初始特征词,将其表示成由关键词和概念两部分组成的向量模型;然后分别计算关键词部分的语义相似度和概念部分的语义相似度,通过对两部分进行求和最终得到文本的语义相似度。
【专利说明】基于语义的文本相似度计算方法
?【技术领域】[0001]本发明涉及面向文本的智能信息处理【技术领域】,尤其涉及基于关键词的文本语义相似度计算方法和基于概念的文本语义相似度计算方法。
?【背景技术】[0002]随着互联网的飞速发展,信息技术的发展也突飞猛进,各类信息资源的数量以惊人的速度增长,如何通过精确地计算文本间的相似度快速而又准确地检索出信息是当前亟待解决的问题。[0003]文本相似度的计算方法在计算机技术的各个领域获得应用,例如在文本检索领域(Text Retrieval),文本相似度可以改善搜索引擎的召回率(Recall)和准确度(Precision);在文本挖掘领域(Text Mining),文本相似度作为一个测量方法用来发现文本数据库中潜在的知识;在基于网页的图像检索(Image Retrieval)领域,可以利用图像周围的描述性短文本来提高准确率。此外,文本相似度计算方法也可以应用到其他一些研究领域,包括文本概括(Text Summarization),文本分类(Text Categorization)和机器翻译(Machine Translation)等领域。[0004]常规的文本相似度计算的大致步骤为:首先,将待进行相似度计算的文本进行预处理,然后利用特征选择算法对特征进行抽取,构建一个传统的空间向量模型,再利用余弦相似度计算公式进行文本的相似度计算。[0005]对文本表示模型而言,现在普遍使用的还是Salton和McGill提出的向量空间表示模型,它是一个由词和文档构成的矩阵,词和词之间是独立的个体,将文本转化为向量空间的点。每个样本可以看成是多维的点,如一个数据集P有s个样本点,则P = (PpP2,...,PsI,在一个n维的空间中,每一个样本点Pi可用一个n维的属性向量表示< Pil, pi2,...,Pin >,其中KiSs ;其中Pini表示的是第m个属性(特征项)在第i个样本中的权重。[0006]向量空间模型的最大优点是实现简单。它把文本这种非结构化形式进行了数值化的表示,把文本看成多维空间中的一个点,对文本的计算可以通过向量计算得出,降低了复杂度。常用的文本处理方法在结构化文本时通常采用词袋表示模型,该模型有以下不足:(1)未考虑两个词的语义关联,两个语义相近的词却被看成了两个独立的特征。(2)在不同上下文中的同一个词的语义不能被很好地鉴别出来。[0007]对文本相似度计算而言,常用的文本间相似度计算方法是余弦相似度方法,该方法将文本看作空间中的一个点并将其表示为向量形式,利用向量之间的夹角大小来定量地计算文本间相似度,该方法没有考虑文本间具有相同语义的特征词,不能充分体现文本之间的语义相似性。[0008]为解决常规的文本相似度计算的上述问题,本发明提供了一种基于语义的文本相似度计算方法。
?
【发明内容】
[0009]本发明提供一种基于语义的文本相似度计算方法,其目的在于解决常规的文本向量空间模型及余弦相似度无法进行语义相关判断的问题,能够提高文本相似度计算的精度,以满足各种智能文本信息处理的需求。
[0010]本发明的上述目的是这样实现的,详细说明如下:
[0011]一种基于语义的文本相似度计算方法,其特征在于采用基于关键词和基于概念的混合语义相似度计算方法计算文本间的语义相似度,具体包括如下步骤:
[0012]文本预处理,对文本集进行预处理,去停用词;
[0013]特征选择,应用卡方统计方法选择文本集的特征:针对每个类别,分别计算各个关键词和类别的卡方值,根据卡方值的大小对关键词进行降序排列,设定一个阈值Y,过滤掉低于确定Y的全部关键词,从而得到每个文本的初始表示向量;
[0014]构建文本语义表示模型:文本的语义表示模型由关键词和概念两部分构成,即D=It1, t2,..., tm, C1, c2,..., CnI ,其中D表示文本的特征集合,ti表示关键词特征,Ci表示概念特征;对于文本的初始表示向量中不在知识库中的词,保留原形作为文本语义表示模型中关键词特征;对于出现在知识库中的词,利用概念转化规则将其转化成知识库中的概念,作为文本语义表示模型中的概念特征;概念转化规则包括按照一定顺序进行以下两个操作:首先结合文本所在类别的类标签对概念进行词义消歧处理,确定概念的确切词义,然后利用概念层次转换对概念进行合并处理,以充分挖掘概念间的语义关联,接着,计算文本语义模型中关键词权重,最后,结合词语自身的特征权重以及词和类别之间相似度的信息计算概念的权重值;
[0015]基于关键词的文本相似度计算,该部分主要包括两方面处理:一是计算每对关键词间的相似度,二是在关键词相似度基础上计算文本相似度;在计算关键词间的相似度时依赖于以下假设:如果一个词语和其他词语之间存在某些联系,那么它们通常会共同出现在一些文档中;以此为基础,基于关键词的相似度计算方法首先根据语料库构建一个关键词相似度矩阵,然后通过对关键词对间的相似度加权求和取平均的方式得到文本相似度;
[0016]基于概念的文本相似度计算,该步骤主要包括两部分,一是计算每对概念间的相似度,二是在概念相似度的基础上计算文本相似度;在计算概念的相似度时,根据Lin提出的经典的概念相似度计算公式计算概念间的相似度,构建一个概念相似度矩阵,然后通过对概念对间的相似度加权求和取平均的方式得到文本相似度;
[0017]基于语义的文本相似度计算,最后对基于关键词的文本相似度计算结果和基于概念的文本相似度计算结果进行求和从而确定文本间的语义相似度。
[0018]其中利用概念层次转换对概念进行合并处理,以充分挖掘概念间的语义关联包括:
[0019]根据知识库中概念之间的继承关系,依次找到每个概念的第r层上位概念,用第r层上位概念来表不当前概念;对于概念C1和C2,如果C1是C2的子概念,C2是C1的父概念,那么它们之间的关系可表示为C1 < C2 ;进一步地,如果没有任何概念C3处于C1和C2之间,那么C1就是C2的直接下位概念,C2是C1的直接上位概念,它们之间的关系可表示为C1 < dC2 ;一个概念Ci的第r层上位概念的定义如下:
[0020]H(Ci, r) = {c I Ci < d C1 < d...< d cr = c} (I)
[0021]其中,H(Ci,r)表示的是Ci的第r层上位概念,r是概念在知识库中的层次数。[0022]其中计算文本语义模型中关键词权重包括:关键词t在文档d中的权重计算采用tfidf计算方法,计算公式如式(2)所示:
[0023]
【权利要求】
1.一种基于语义的文本相似度计算方法,其特征在于采用基于关键词和基于概念的混合语义相似度计算方法计算文本间的语义相似度,具体包括如下步骤: 文本预处理:对文本集进行预处理,去停用词; 特征选择,应用卡方统计方法选择文本集的特征:针对每个类别,分别计算各个关键词和类别的卡方值,根据卡方值的大小对关键词进行降序排列,设定一个阈值Y,过滤掉低于确定Y的全部关键词,从而得到每个文本的初始表示向量; 构建文本语义表示模型:文本的语义表示模型由关键词和概念两部分构成,即D =It1, t2,..., tm, C1, c2,..., CnI ,其中D表示文本的特征集合,表示关键词特征,Ci表示概念特征;对于文本的初始表示向量中不在知识库中的词,保留原形作为文本语义表示模型中关键词特征;对于出现在知识库中的词,利用概念转化规则将其转化成知识库中的概念,作为文本语义表示模型中的概念特征;概念转化规则包括按照一定顺序进行以下两个操作:首先结合文本所在类别的类标签对概念进行词义消歧处理,确定概念的确切词义,然后利用概念层次转换对概念进行合并处理,以充分挖掘概念间的语义关联,接着,计算文本语义模型中关键词权重,最后,结合词语自身的特征权重以及词和类别之间相似度的信息计算概念的权重值; 基于关键词的文本相似度计算,该部分主要包括两方面处理:一是计算每对关键词间的相似度,二是在关键词相似度基础上计算文本相似度;在计算关键词间的相似度时依赖于以下假设:如果一个词语和其他词语之间存在某些联系,那么它们通常会共同出现在一些文档中;以此为基础,基于关键词的相似度计算方法首先根据语料库构建一个关键词相似度矩阵,然后通过对关键词对间的相似度加权求和取平均的方式得到文本相似度; 基于概念的文本相似度计算,该步骤主要包括两部分,一是计算每对概念间的相似度,二是在概念相似度的基础上计算文本相似度;在计算概念的相似度时,根据Lin提出的经典的概念相似度计算公式计算概念间的相似度,构建一个概念相似度矩阵,然后通过对概念对间的相似度加权求和取平均的方式得到文本相似度; 基于语义的文本相似度计算,最后对基于关键词的文本相似度计算结果和基于概念的文本相似度计算结果进行求和从而确定文本间的语义相似度。
2.如权利要求1所述的一种基于语义的文本相似度计算方法,其中利用概念层次转换对概念进行合并处理,以充分挖掘概念间的语义关联包括: 根据知识库中概念之间的继承关系,依次找到每个概念的第r层上位概念,用第r层上位概念来表示当前概念;对于概念C1和C2,如果C1是C2的子概念,C2是C1的父概念,那么它们之间的关系可表示为C1 < C2 ;进一步地,如果没有任何概念C3处于C1和C2之间,那么C1就是C2的直接下位概念,C2是C1的直接上位概念,它们之间的关系可表示为C1 < d C2;一个概念Ci的第r层上位概念的定义如下:
H(ci; r) = {c Ci < d C1 < d...< d cr = c} (1) 其中,H(Ci,r)表示的是Ci的第r层上位概念,r是概念在知识库中的层次数。
3.如权利要求1所述的一种基于语义的文本相似度计算方法,其中计算文本语义模型中关键词权重包括:关键词t在文档d中的权重计算采用tfidf计算方法,计算公式如下所示:
4.如权利要求1所述的一种基于语义的文本相似度计算方法,其中计算文本语义模型中概念权重包括:概念权重计算公式为
w(c, dk) = tf (c, dk) X idf (c) Xrel (c, Ii | dk) (3) 其中,rel(c,Ijdk)表示概念c和其所在文本dk所属类别的类标签Ii之间的相似度,w(c,dk)是概念c在文本dk中的权重,idf (C)是概念c的反文档频率,tf (c,dk)是词频,它表示概念c在文档dk中出现的频率,idf (c) = log(|D|/n), |D为文档总数,η表示包含概念c的文档数; 当概念在知识库中的层次r > I时,其权重根据以下公式迭代计算:
5.如权利要求1所述的一种基于语义的文本相似度计算方法,其中计算每对关键词间的相似度包括:设T = It1, t2,...,tm},表示未出现在知识库中的关键词构成的集合,基于关键词的相似度计算方法根据语料库构建一个基于统计的相似度矩阵A = (au)mXm,该矩阵的每一个元素au是每一对属于T中关键词\和&之间的相似度值,其计算公式如下所示:
6.如权利要求1所述的一种基于语义的文本相似度计算方法,其中在关键词相似度的基础上计算文本相似度包括:假设两个文本Cl1和d2的表示模型中分别包括I和k个不在知识库中出现的关键词,则基于关键词的方法定义两个文本间的相似度如以下所示:
7.如权利要求1所述的一种基于语义的文本相似度计算方法,其中计算每对概念间的相似度包括:在计算概念间的相似度时,根据Lin提出的经典的相似度计算公式计算概念间的相似度,其计算公式如下所示:
8.如权利要求1所述的一种基于语义的文本相似度计算方法,其中在概念相似度的基础上计算文本相似度包括:设C = Ic1, C2, , cn}是文本表示模型中的概念集合,构建概念相似度矩阵P = (Pij)nxn,该矩阵的每一个元素Pu是概念Ci和h之间的相似度,计算Pij的公式如下:
Pij = sim(Ci, Cj) = simlin(s17 Sj-) (8) 假设两个文本Cl1和d2的表示中分别包括m和n个概念,则基于概念的相似度计算方法将Cl1和d2之间的相似度定义为如下的形式:


9.如权利要求1所述的一种基于语义的文本相似度计算方法,其中对基于关键词的文本相似度计算结果和基于概念的文本相似度计算结果进行求和从而确定文本间的语义相似度包括:计算公式如下
sim((I1, d2) = simvs ((I1, d2)+simwn(d1, d2) (10) 其中,simd d2)表示文本间的语义相似度。
【文档编号】G06F17/30GK103617157SQ201310661778
【公开日】2014年3月5日 申请日期:2013年12月10日 优先权日:2013年12月10日
【发明者】孙铁利, 杨凤芹, 周旭, 孙红光, 吴迪 申请人:东北师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1