一种基于MinwiseHash动态多阈值过滤计算文本相似度的方法

文档序号:9616241阅读:624来源:国知局
一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法
【技术领域】
[0001 ] 本发明属于信息检索领域,特别涉及一种基于MinwiseHash动态多阈值过滤计算 文本相似度的方法。
【背景技术】
[0002] WEB正经历着爆炸性增长,越来越多的文献资料开始在网上公布,这种趋势使得网 络上文档资源成几何级数增长,为人类共享知识和创造财富提供了前所未有的便利,也对 我国的现代化建设有着积极的推动作用。然而,这些数字化资源给人们提供帮助的同时,资 源的易获性也使得文档的非法复制、抄袭、剽窃等行为越来越猖獗,使得在各种论文和项目 申请书等中,可能存在比较严重的抄袭现象。同时,随着国家对教育科研的大量投入,提供 了各种教育和科技项目的资助,如:国家自然科学基金项目、教育部的博士点项目,各省市 的基金项目、各种科技计划等。由于这些项目属于不同的职能部门单位分管,这就使得项目 申请书存在着多次申报和多头申报的现象。申请书的抄袭、多次申报和多头申报现象严重 影响了项目审批的客观性和公平性,对国家科研经费的合理分配产生不良的影响,造成科 学研究经费可能得不到高效利用。为防止抄袭剽窃,端正学术风气,进行文档相似性检测技 术的研究非常有意义。由此,世界各地的搜索引擎、图书馆、基金会、论文库、知识产权部门 等都投入巨大的人力、物力和财力,正努力地在文档相似性检测上摸索和探究,以期尽快突 破相似性检测的关键科学问题,为论文、项目申请书、奖励申报书、专利的查重或搜索引擎 的网页去重等提供了良好的解决方案。
[0003] 相似性检测数据具有海量性的特点,以国家自然科学基金申请书为例,目前就 2013年申请量来说,申请书数量达17万份以上,每年还将以较快的速度增长。又如,近几 年中国每年高校毕业生人数约为700万,其中大部分的毕业论文都需要进行相似性检测, 每年5月份论文检测量达到高峰,日均在几万份以上,相似性检测不但要和当年的数据进 行查重,还需要和历史数据进行检测,而如此海量的文档,光靠常规检测方式是根本行不通 的,因此迫切需要借助哈希估计技术,建立一套精度和效率倶优的检测机制,实现对海量文 档的相似性比对技术。文本相似度度量这一概念及相关技术也应运而生。一个好的文本相 似度度量方法在相似性检测、自动问答系统、智能检索、网页去重、自然语言处理等研究领 域具有重要的意义。
[0004] 文本相似度是指两个或者多个文本之间的匹配程度的一个度量参数,相似度越 高,表示两个文本之间的相似程度越大,反之越低。传统的文本相似度度量方法是向量空间 模型(VSM)通过计算待查文档与数据集中某一篇文档带有权重的频率向量内积,得到两篇 文档的相似度。算法需要存储大量的特征词汇、比对速度慢、准确率低等缺点,无法应用于 海量数据中相似度度量。基于Minwise相似性度量算法作为最主流、成熟的相似性检测方 法,通过将相似度问题转换为一个事件的发生概率问题,将文本词汇集合映射到hash值集 合中,将字符串比对问题转化为特征指纹比对问题,适用于海量数据相似度度量。
[0005] 基于Minwise相似性度量算法及其变种算法具有较高的估计精度,被大多数的文 本相似性度量技术借鉴,广泛应用于计算机的各个领域中,有了相当多的理论和实验方法 的创新和发展。目前,在海量数据的环境下对于Minwise哈希估计算法的研究趋势,集中在 以下四个方面:1)降低存储空间,2)三者相似性估计,3)提高估计精度,4)提高算法效率。
[0006] 1)降低存储空间方面:b位MinwiseHash[12]将b= 64缩小到b= 1,降低了存 储空间和计算时间。分数位MinwiseHash算法[13]对各种精度和存储空间需求有着更加 广泛的可选择性;2)三者相似性估计方面:文献[14]提出了基于b位Minwise哈希三者估 计的估计子;3)在提高精度方面:文献[15]提出b位极大似然Minwise哈希,有效提高了在 极端数据情况下的估计精度;4)在提高算法效率方面:0nePermutationHashing[16]只 需一次置换,就能达到k次置换的效果(k次置换占Minwise哈希估计总消耗时间的80% ), 提升了指纹生成效率。
[0007] 综上所述,目前在降低海量指纹存储空间和提高精度等方面已经有较多成熟的算 法,已有明显的改进。在海量文档数据的环境下,算法效率成为最制约海量文档相似性检 测系统能否可用的因素。缩短算法的运算时间是相似度估计算法必须考虑的要素。因此, Minwise哈希估计理论急需解决问题是提高算法效率。

【发明内容】

[0008] 针对文档集中的文档更多是低相似性文档这个特点,本发明提供了一种基于 MinwiseHash动态多阈值过滤计算文本相似度的方法,克服MinwiseHash估算时间的瓶颈 问题。
[0009] -种基于MinwiseHash动态多阈值过滤计算文本相似度的方法,包括以下步骤:
[0010] 步骤一,提取待计算文本相似度的文档对的文本特征:minwise指纹集合Sd,集合 大小为K;
[0011] [在现有的文本相似度计算方法中,需要minwise指纹集合中所有的指纹进行 一一比对,即比对次数为指纹集合的大小;]
[0012] 步骤二,设置多个比对点k,将总比对次数K划分为若干个阶段;
[0013] [为了减少比对次数,依据设置的比对点作为比对次数进行文本相似度计算,提前 预估文本相似度;]
[0014] 步骤三,分别计算所设置的比对点k对应的文本相似度上界阈值τ,οο与文本相 似度下界阈值?ΥΟΟ:
[0015] Tu(k) =nij/k,Tu(k) =mu/k;
[0016] 其中,!111表示比对点的下界阈值,按照
计算获得的m即为 m1;
[0017] mu表示比对点的上界阈值,按照
十算获得的m即为mu;
[0018]X是文档对Si, 52的minwise特征指纹相等次数,
为 比对次数阈值,〇〈m<k;T。为预设文本相似度阈值;i表示第i次比对;Pr( ·)表示括号中 的事件发生的概率,且事件发生概率为小概率;
[0019] 步骤四,计算文档对第k次比对时的文本相似度估计值I,并依据以下准则判断是 否过滤当前文本对:
[0020] 若£ 幻,则过滤当前文档对;
[0021] 若.?. >7) (/:),则当前文档对的相似度较高,以当前的文本相似度估计值作为当前文 档对的文本相似度,保留当前文档对;
[0022] 否则,增大比对点k,返回步骤三,重新计算文档对的文本相似度。
[0023] Pr( ·)的取值小于或等于1E-10。
[0024] 所述步骤一提取待计算文本相似度的文档对的文本特征minwise指纹集合Sd,具 体过程如下:
[0025] 首先,提取文档的文本特征,获得文本特征集合Sshgs;
[0026] 其次,对文本特征集合进行数值映射,得到文档对应的数值集合Sd;
[0027] 最后,文档对应的数值集合Sd采用minwise指纹表征:
[0028] 爲.min!^2(Srf)h...,min丨;^(5^)})。
[0029] 有益效果
[0030] 本发明提供了一种基于MinwiseHash动态多阈值过滤计算文本相似度的方法,该 方法将比对过程划分为多个比对点,并设置各比对点的动态阈值,过滤相似度低于下界阈 值IY(k)的文档,输出相似度高于上界阈值I;(k)的文档。这种提前过滤的方法减少了后 续的比对次数,降低了工作量。针对数据的各种情况,对于文档集合全部都是重复的极端情 况,基于文本相似度上界阈值的过滤策略会非常有效;对于文档集合全部都是不重复的极 端情况,基于文本相似度下界阈值的过滤策略则会非常有效。而在实际的文档集中,相似的 文档毕竟占少数,不相似性的文档是大多数。实验结果表明过滤算法在选取了适当的参数 时,计算时间仅为MinwiseHash的31 %,较大地提升了算法的时间效率。所发明的估算方 法不仅能应用于MinwiseHash,也能用于它的变种算法(如b位MinwiseHash),乃至所有 符合二项分布的估计子。
[0031] 在海量数据的相似度检测中,例如网页去重,常常有上亿的网页需要估计相似度。 仅仅只需少量的比对次数(例如1〇〇次比对),就可过滤大多数文档的比对,可减少大量比 对时间,具有较强的实际应用价值。
【附图说明】
[0032] 图1是原始MinwiseHash输出相似度i:w大于预设阈值T。的文档对的示意图;
[0033] 图2是原始MinwiseHash在增设阈值Tk= 100后输出相似度大于T。的文档对 的不意图;
[0034] 图3是原始MinwiseHash在增设上阈值和下阈值后输出相似度L大于T。的文档 对的不意图;
[0035] 图4是原始MinwiseHash在增设多个上阈值和下阈值后输出相似度大于T。的 文档对的不意图;
[0036] 图5是选取的不同小概率和MinwiseHash动态多阈值过滤算法过滤率的关系图, 其中,(a)是预设相似度阈值T。为0. 3的情况,(b)是预设相似度阈值T。为0. 5的情况, [0037] (c)是预设相似度阈值Τ。为0· 8的情况;
[0038] 图6是不同小概率和下阈值?;(k)的关系图,(a)是预设相似度阈值Τ。为0. 3的 情况,(b)是预设相似度阈值T。为0. 5的情况,(c)是预设相似度阈值T。为0. 8的情况;
[0039] 图7是原始MinwiseHash方法和MinwiseHash动态多阈值过滤算法时间性能在 选取多种小概率的情况下的比较图,其中,(a)为心和Rk(Pr= 1E-10, 1E-5, 1E-3)计算时 间;(b)为Rb和Ebk(Pr= 1E-10, 1E-5, 1E-3)计算时间。
【具体实施方式】
[0040] 下面将结合附图和实施例对本发明做进一步的说明。
[0041] 本发明提出的查找相似文本的方法,具体包括如下步骤:
[0042] 步骤一,文本特征提取步骤:该步骤用于提取文本特征集合Sd;
[0043] 首先,对文本信息进行扫描分析,利用中文分词算法对文档进行分词,利用停用词 表过滤掉文本噪音数据后的分词集合即为文档的词集Sshgs。噪音即为文本中无意义的词 语,一般是高频低义的助词、虚词等;
[0044] 对
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1