一种基于海量文本数据的相似度衡量方法

文档序号:6506979阅读:284来源:国知局
一种基于海量文本数据的相似度衡量方法
【专利摘要】本发明公开了一种基于海量文本数据的相似度衡量方法,该方法基于语义规则的扩展来衡量文本信息的相似度,具体分为两种扩展方法:全扩展和选择扩展。前者将全部可用语义规则用于扩展字符串,后者结合了全扩展和贪心扩展,给出了一种更加有效的扩展方法。通过实验对比表明,两种扩展方法都取得了非常好的性能,从而验证了本发明的可行性与可靠性。
【专利说明】一种基于海量文本数据的相似度衡量方法

【技术领域】
[0001] 本发明涉及一种基于海量文本数据的相似度衡量方法,具体涉及一种对不同文本 进行数据相似度比对的方法,属于信息【技术领域】中字符串模糊匹配技术。

【背景技术】
[0002] 近十年来,随着互联网的不断发展,文本数据信息不断积累,同时,信息检索与关 系数据库有不断融合的趋势。关系数据库通过提供更加强大的操纵文本数据的函数,促进 了这一趋势的发展。随着关系数据库中存储的文本数据越来越多,对字符串进行模糊匹配 和查询的需求也在增加。
[0003] 目前,已经有许多衡量字符串相似度的方法,比如Levenshtein距离、Hamming距 离、Episode距离、Cosine矩阵、Jaccard距离等,但是这些方法仅考虑字符串的字面相似度 而忽略了字符串的语义信息相似度。在实际的情况下,很多字面不相同的字符串通常表示 了相同的含义,比如有下面两个字符串:
[0004] S1=KDD 2012 conference
[0005] S2=18th ACM SIGKDD conference
[0006] 两者指的是同一个会议,但是其Jaccard相似度仅有1/6,这个相似度比对结果显 然是不理想的。
[0007] 假如我们有三条语义规则:
[0008]

【权利要求】
1. 一种基于海量文本数据的相似度衡量方法,其特征在于,所述方法包括: 步骤A :对于给定的字符串Si和S2,利用全扩展,选择规则集R中的规则,分别获得其对 应的扩展集合S/与&'; 步骤B :衡量扩展集合Si'与S2'的相似度,作为原始字符串Si和S2的相似度。
2. 如权利要求1所述的衡量方法,其特征在于,所述全扩展包括: 步骤A1 :对于原始字符串Si和S2,分别获得其对应的集合Si和S2 ; 步骤A2 :扫描规则集R,进行全扩展:对于规则集R中任意规则r :lhs(r) - rhs(r), 若lhs(r)是51的子串,则将rhs(r)中包含的词组添加到Si ;若lhs(r)是&的子串,则将 rhs(r)中包含的词组添加到S2。
3. -种基于海量文本数据的相似度衡量方法,其特征在于,所述方法包括: 步骤A :对于给定的字符串Si和S2,利用选择扩展,选择规则集R中的规则,分别获得其 对应的扩展集合S/与&';所述选择扩展为如权2所述的全扩展和贪心扩展的结合; 步骤B :衡量扩展集合Si'与S2'的相似度,作为原始字符串Si和S2的相似度。
4. 如权利要求3所述的衡量方法,其特征在于,所述贪心扩展包括: 步骤A1 :分别确定两个字符串的可用规则集&和R2 ; 步骤A2 :分别对两个集合进行贪心扩展: 步骤A2-1 :对于Si,执行如下扩展过程: 步骤A2-1-1 :计算&中各个规则的增益,选出增益最大的规则r ; 步骤A2-1-2:如果使用规则r扩展Si后,S/与&'的相似度增加,则将rWRi中删 除,并将其添加到IV1中; 步骤A2-1-3 :重复上述步骤,直到相似度不再增加或者&为空; 步骤A2-2 :对于S2,执行贪心扩展,与步骤A2-1类似。
5. 如权利要求4所述的衡量方法,其特征在于,给定两个集合Si和S2,以及Si的一条 可用规则r :lhs (r) - rhs (r),规则r的增益定义为:
所述规则增益反映了规则对提高字符串相似度的贡献。
6. 如权利要求5所述的衡量方法,其特征在于,所述选择扩展包括: 步骤A1 :分别确定两个字符串的可用规则集&和R2 ; 步骤A2 :分别选择扩展两个集合: 步骤A2-1 :对于Si,执行全扩展,获得扩展后的集合S/,此时1^=札; 步骤A2-2 :对于S2,执行如下扩展过程: 步骤A2-2-1 :计算规则集R2中各个规则的增益; 步骤A2-2-2 :选择规则R2中增益最大的规则r ; 步骤A2-2-3 :测试使用规则r扩展&后,如果S/与&'的相似度增加,则将1~从1?2中删除,并将其添加到R2U中; 步骤A3-1-4 :重复上述步骤,直到相似度不再增加或者R2为空; 步骤A2-3 :删去IV1中的无用规则: 步骤A2-3-1 :计算规则集1C中各个规则的增益; 步骤A2-3-2:选择增益最小的规则r,如果S/去掉仅由r引入的元素,可以使S/与 S2'的相似度增加,则去掉相应元素,从IV1中删去r; 步骤A2-3-3 :重复上述步骤,直到相似度不再增加或者1C为空; 步骤A2-4 :删去R2U中的无用规则,过程类似A2-3; 步骤A2-5:返回扩展集; 步骤A3 :分别对两个集合进行扩展,步骤类似A2,在此次扩展中对S2进行全扩展,Si进 行贪心扩展,返回扩展后的集合; 步骤A4 :比较A2与A3返回的扩展集合之间的相似度,将相似度较大的选择为最终扩 展集合,较大的相似度为最终相似度。
【文档编号】G06F17/30GK104346394SQ201310335123
【公开日】2015年2月11日 申请日期:2013年8月2日 优先权日:2013年8月2日
【发明者】陆嘉恒 申请人:中国人民大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1