一种基于海量文本数据的相似度衡量方法

文档序号：6506979阅读：284来源：国知局

一种基于海量文本数据的相似度衡量方法
【专利摘要】本发明公开了一种基于海量文本数据的相似度衡量方法，该方法基于语义规则的扩展来衡量文本信息的相似度，具体分为两种扩展方法：全扩展和选择扩展。前者将全部可用语义规则用于扩展字符串，后者结合了全扩展和贪心扩展，给出了一种更加有效的扩展方法。通过实验对比表明，两种扩展方法都取得了非常好的性能，从而验证了本发明的可行性与可靠性。
【专利说明】一种基于海量文本数据的相似度衡量方法

【技术领域】
[0001] 本发明涉及一种基于海量文本数据的相似度衡量方法，具体涉及一种对不同文本进行数据相似度比对的方法，属于信息【技术领域】中字符串模糊匹配技术。

【背景技术】
[0002] 近十年来，随着互联网的不断发展，文本数据信息不断积累，同时，信息检索与关系数据库有不断融合的趋势。关系数据库通过提供更加强大的操纵文本数据的函数，促进了这一趋势的发展。随着关系数据库中存储的文本数据越来越多，对字符串进行模糊匹配和查询的需求也在增加。
[0003] 目前，已经有许多衡量字符串相似度的方法，比如Levenshtein距离、Hamming距离、Episode距离、Cosine矩阵、Jaccard距离等，但是这些方法仅考虑字符串的字面相似度而忽略了字符串的语义信息相似度。在实际的情况下，很多字面不相同的字符串通常表示了相同的含义，比如有下面两个字符串：
[0004] S1=KDD 2012 conference
[0005] S2=18th ACM SIGKDD conference
[0006] 两者指的是同一个会议，但是其Jaccard相似度仅有1/6,这个相似度比对结果显然是不理想的。
[0007] 假如我们有三条语义规则：
[0008]

【权利要求】
1. 一种基于海量文本数据的相似度衡量方法，其特征在于，所述方法包括：步骤A :对于给定的字符串Si和S2，利用全扩展，选择规则集R中的规则，分别获得其对应的扩展集合S/与&'; 步骤B :衡量扩展集合Si'与S2'的相似度，作为原始字符串Si和S2的相似度。
2. 如权利要求1所述的衡量方法，其特征在于，所述全扩展包括：步骤A1 :对于原始字符串Si和S2，分别获得其对应的集合Si和S2 ; 步骤A2 :扫描规则集R，进行全扩展：对于规则集R中任意规则r :lhs(r) - rhs(r), 若lhs(r)是51的子串，则将rhs(r)中包含的词组添加到Si ;若lhs(r)是&的子串，则将 rhs(r)中包含的词组添加到S2。
3. -种基于海量文本数据的相似度衡量方法，其特征在于，所述方法包括：步骤A :对于给定的字符串Si和S2，利用选择扩展，选择规则集R中的规则，分别获得其对应的扩展集合S/与&';所述选择扩展为如权2所述的全扩展和贪心扩展的结合；步骤B :衡量扩展集合Si'与S2'的相似度，作为原始字符串Si和S2的相似度。
4. 如权利要求3所述的衡量方法，其特征在于，所述贪心扩展包括：步骤A1 :分别确定两个字符串的可用规则集&和R2 ; 步骤A2 :分别对两个集合进行贪心扩展：步骤A2-1 :对于Si，执行如下扩展过程：步骤A2-1-1 :计算&中各个规则的增益，选出增益最大的规则r ; 步骤A2-1-2:如果使用规则r扩展Si后，S/与&'的相似度增加，则将rWRi中删除，并将其添加到IV1中；步骤A2-1-3 :重复上述步骤，直到相似度不再增加或者&为空；步骤A2-2 :对于S2，执行贪心扩展，与步骤A2-1类似。
5. 如权利要求4所述的衡量方法，其特征在于，给定两个集合Si和S2，以及Si的一条可用规则r :lhs (r) - rhs (r)，规则r的增益定义为：
所述规则增益反映了规则对提高字符串相似度的贡献。
6. 如权利要求5所述的衡量方法，其特征在于，所述选择扩展包括：步骤A1 :分别确定两个字符串的可用规则集&和R2 ; 步骤A2 :分别选择扩展两个集合：步骤A2-1 :对于Si，执行全扩展，获得扩展后的集合S/，此时1^=札；步骤A2-2 :对于S2，执行如下扩展过程：步骤A2-2-1 :计算规则集R2中各个规则的增益；步骤A2-2-2 :选择规则R2中增益最大的规则r ; 步骤A2-2-3 :测试使用规则r扩展&后，如果S/与&'的相似度增加，则将1~从1?2中删除，并将其添加到R2U中；步骤A3-1-4 :重复上述步骤，直到相似度不再增加或者R2为空；步骤A2-3 :删去IV1中的无用规则：步骤A2-3-1 :计算规则集1C中各个规则的增益；步骤A2-3-2:选择增益最小的规则r，如果S/去掉仅由r引入的元素，可以使S/与 S2'的相似度增加，则去掉相应元素，从IV1中删去r; 步骤A2-3-3 :重复上述步骤，直到相似度不再增加或者1C为空；步骤A2-4 :删去R2U中的无用规则，过程类似A2-3; 步骤A2-5:返回扩展集；步骤A3 :分别对两个集合进行扩展，步骤类似A2,在此次扩展中对S2进行全扩展，Si进行贪心扩展，返回扩展后的集合；步骤A4 :比较A2与A3返回的扩展集合之间的相似度，将相似度较大的选择为最终扩展集合，较大的相似度为最终相似度。
【文档编号】G06F17/30GK104346394SQ201310335123
【公开日】2015年2月11日申请日期:2013年8月2日优先权日:2013年8月2日
【发明者】陆嘉恒申请人:中国人民大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陆嘉恒
技术所有人：中国人民大学
我是此专利的发明人

上一篇：硬盘文件储存方法
上一篇：双机互动模式下控制智能移动终端物理按键的方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。