基于语义分析和语义关系网络的文本相似度度量方法

文档序号:6586087阅读:729来源:国知局
专利名称:基于语义分析和语义关系网络的文本相似度度量方法
技术领域
本发明属于文本相似度度量方法技术领域,特别是涉及一种基于语义分析和语义关系网络的文本相似度度量方法。
背景技术
随着网络信息的迅速发展,如何在海量的文本信息资源中快捷且准确地获取有用的信息已成为数据挖掘和信息检索技术领域亟待解决的问题。文本相似度的度量可用于数据挖掘和信息检索技术领域,如文本相似度计算是文本聚类、信息检索、自动问答中的关键步骤。目前,较为典型的文本相似度方法主要有基于语义理解和基于数理统计两种,但这两种方法都存在的问题是:没有考虑词汇对文本相似度度量所具有作用与地位。因此,度量的准确性不高。

发明内容
本发明提供了一种基于语义分析和语义关系网络的文本相似度度量方法,其用于数据挖掘和信息检索过程中,将文本转化为语义关系网络以提取文本特征,并最终转化为二分图以实现文本相似度的计算,极大地提高了计算结果的准确程度。为了实现上述目的,本发明公开了基于语义分析和语义关系网络的文本相似度度量方法,其按如下步骤进行:一、输入两个文本并对这两个文本进行预处理,预处理的结果为词汇的集合;二、计算所述两个文本预处理结果的词汇语义相似度,并根据计算结果分别构建语义关系网络;三、分别计算语义关系网络中每个节点的流介数值,获得两个文本的特征集合;四、根据两个文本的特征集合构建二分图,并设置二分图两部分(即二分图的两个点集)之间的路径权值;五、利用二分图最优匹配法计算两个文本之间的相似度。优选的,步骤一,预处理包括中文分词和去除停用词。优选的,步骤二,构建语义关系网络的节点由步骤一的结果组成,构建语义关系网络的边的权值由词汇之间的语义相似度计算得到,表示为w(i,j),i和j为步骤一预处理结果中的不同词汇,W(i,j)的计算式如下:w(i, j)=l-sim(i, j)1:预处理结果中的一个词汇;j:预处理结果中的另一个词汇;sim(i, j):两个词汇的语义相似度。优选的,步骤二,两个词汇之间的语义相似度可以根据具体的语义词典或语义库来计算,但结果要进行归一化处理。优选的,步骤三,计算每个节点的流介数值,按照流介数值排序,取前m大的流介数值所对应的词汇作为该文本特征;节点U的流介数值是指网络中所有路径中经过该节点的路径的数目占所有路径总数的比例,用Bfu表示,计算式为:
权利要求
1.关于语义分析和语义关系网络的文本相似度度量方法,其特征是按如下步骤进行: 一、输入两个文本并对这两个文本进行预处理,预处理的结果为词汇的集合; 二、计算所述两个文本预处理结果的词汇语义相似度,并根据计算结果分别构建语义关系网络; 三、分别计算语义关系网络中每个节点的流介数值,获得两个文本的特征集合; 四、根据两个文本的特征集合构建二分图,并设置二分图两部分之间的路径权值; 五、利用二分图最优匹配法得到两个文本之间的相似度。
2.根据权利要求1所述基于语义分析和语义关系网络的文本相似度度量方法,其特征在于,步骤一,预处理包括中文分词和去除停用词。
3.根据权利要求1所述基于语义分析和语义关系网络的文本相似度度量方法,其特征在于,步骤二,构建语义关系网络的节点由步骤一预处理的结果组成,构建语义关系网络的边的权值由步骤二的词汇语义相似度计算得到,表示为w(i,j),i和j为步骤一预处理结果中的不同词汇,w(i,j)的计算式如下:w(i, j)=l-sim(i, j)1:预处理结果中的一个词汇;j:预处理结果中的另一个词汇;sim(i, j):两个词汇的语义相似度。
4.根据权利要求书I或3所述基于语义分析和语义关系网络的文本相似度度量方法,其特征在于,步骤二,根据具体的语义词典或语义库计算两个词汇之间的语义相似度。
5.根据权利要求书I所述基于语义分析和语义关系网络的文本相似度度量方法,其特征在于,步骤三,计算每个节点的流介数值,按照流介数值排序,取前m大的流介数值所对应的词汇作为该文本特征,其中,m为输入值;节点u的流介数值是指网络中所有路径中经过该节点的路径的数目占所有路径总数的比例,用Bfu表示,计算式为:
6.根据权利要求书5所述基于语义分析和语义关系网络的文本相似度度量方法,其特征在于,步骤三,在获得文本特征之后将每个文本特征的流介数值进行归一化处理,公式如下:.BJi)
7.根据权利要求1所述基于语义分析和语义关系网络的文本相似度度量方法,其特征在于,步骤四,构建二分图的两部分(x,Y)分别为步骤三的两个文本的特征集合,两部分之间的边的权值为所述的路径权值W (xi, yj),计算式为:
8.根据权利要求1所述基于语义分析和语义关系网络的文本相似度度量方法,其特征在于,步骤五,设利用二分图最优匹配求得结果为: M=I(XillYjl), (Xi2lYj2),..., (Xiffl, YjmM 步骤一输入的两个文本的相似度计算式为:
全文摘要
本发明公开了基于语义分析和语义关系网络的文本相似度度量方法一、输入两个文本并对这两个文本进行预处理,预处理的结果为词汇的集合;二、计算所述两个文本预处理结果的词汇语义相似度,并根据计算结果分别构建语义关系网络;三、分别计算语义关系网络中每个节点的流介数值,获得两个文本的特征集合;四、根据两个文本的特征集合构建二分图,并设置二分图两部分之间的路径权值;五、利用二分图最优匹配法计算两个文本之间的相似度。本发明基于语义分析和语义关系网络的文本相似度度量方法,可用于数据挖掘和信息检索技术领域,例如文本聚类、信息检索等,其与现有的其他文本相似度计算方法相比,极大地提高了文本相似度计算的准确程度。
文档编号G06F17/27GK103092828SQ20131004697
公开日2013年5月8日 申请日期2013年2月6日 优先权日2013年2月6日
发明者吴国华, 尤金朋, 张祯, 王玉娟, 邵根富 申请人:杭州电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1