一种内容无关的文本快速过滤方法

文档序号:10534958阅读:331来源:国知局
一种内容无关的文本快速过滤方法
【专利摘要】本发明涉及计算机信息检索领域,具体涉及一种应用于图书馆信息检索、抄袭检测、著作权侵权检测等场合中的内容无关的文本快速过滤方法。使用分隔符将母文本A和目标文本B各自分割成系列片段,对每一文本片段使用能值函数求值,所述能值函数与文本内容无关且与文本包含的噪声正相关;在求得的母文本A和目标文本B的能值中,将小于预定义能值阈值H的量滤去,得到能值序列N与M;对M作自相似分析;在允许误差约束下将M与N作匹配比较,如果穷尽N,目标文本B与母文本A的任意一部分内容的匹配度均低于阈值,则目标文本B被排除。使用本发明的文本快速过滤方法,避免了对文本内容的分析,计算量小,过滤速度快,且可以屏蔽部分噪声影响。
【专利说明】
一种内容无关的文本快速过滤方法
技术领域
[0001] 本发明涉及计算机信息检索领域,具体涉及一种应用于图书馆信息检索、抄袭检 测、著作权侵权检测等需要进行文本过滤的场合中的内容无关的文本快速过滤方法。
【背景技术】
[0002] 文本是人类的自然语言的书写表示,是半结构或无结构的,缺乏计算机可理解的 语义。文本处理技术广泛应用于信息检索、搜索引擎、抄袭检测、著作权保护等领域,其作用 是从海量、异构、分布的文本中发现隐含知识和模式。文本处理技术以适当的数学模型表示 文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂而超出计算机的处 理能力。目前主要的方法是使用分词算法和词频统计技术从文本中抽取特征词,并对其向 量化。当文本较大时,文本向量的维度会相应增大,给后续工作带来巨大的计算开销,并且 损害分类、聚类处理的精确性。对这个问题正面的解决办法是对文本向量作净化处理,在保 证原文含义的基础上,找出对文本特征类别最具代表性的文本特征,即通过特征选择来降 维。这要求特征项要能够确实标识文本内容,具有将目标文本与其他文本相区分的能力,且 分离也比较容易实现。
[0003] 在中文文本中可以采用字、词或短语作为表示文本的特征项。字、词、短语虽都是 文本内容,相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短 语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征 词。这些特征词作为文本的中间表示形式,用来实现文本与文本、文本与用户目标之间的相 似度计算。
[0004] 在浩如烟海的网络信息中,80 %的信息以文本的形式存放,这些来自网络的文本 可能带有噪声,且对某些应用来说80%以上是无关的。如能不触及文本内容,快速过滤掉无 关的含噪声的文本,将大大节约计算机系统的计算能力。

【发明内容】

[0005] 本发明解决的技术问题在于提供一种内容无关的文本快速过滤方法,快速排除与 母文本A中的任意一部分内容匹配度低于匹配阈值的含有噪音的目标文本B。
[0006] 为了实现上述目的,本发明采用了如下技术方案:
[0007] -种内容无关的文本快速过滤方法,用于对含有噪音的目标文本B,当其与母文本 A中的任意一部分内容匹配度低于匹配阈值时,将其快速排除,其中A=(am 2. . .ai. . .ax),B = (bib2. . .bi. . .1^),31£5,比£3且1>7,5为出现在母文本六和目标文本8中的所有符号的 集合,包括但不限于文字、字母、标点、数理记号、分段符、换行符;包括如下步骤:
[0008] S1、定义能值函数F(cpcp+i. . .Cq) = q_p+1,其中,CiGS,p彡;Kq,所述能值函数的 函数值是与文本内容无关但与文本包含的噪声正相关的实数,预定义能值阈值为H,并定义 能值序列N和M,所述能值序列中的元素为所述能值函数的函数值,所述能值序列N和M初始 时为空;
[0009] S2、定义有限集合L={l|l = (ld2. . .1*),11£3 4彡1},其中,1为在5中任意选取 的分隔符和/或标点符号组成的长度大于等于1的序列;定义L的子集L',即Cci:,L' = u,li^a'dY-.rthriGspiMrGL,;
[0010] S3、以1对母文本A作分割,即A=(aia2. ? .las. ? .atl. ? .ax),从左至右对每一个片段 (as. . .at)使用所述能值函数求值:n = F(as. . .81;) = 1:-8+1;如果11<11,忽略11;如果11>11,则 将n加入能值序列N的末尾;如此处理母文本A后得到能值序列N=(mn2. . .nz),z<=x;
[0011 ] S4、以1 '对目标文本B作分割,即B = (bib2. . . 1 'bu. . .bvl ' . . .by),从左至右对每一 个片段(bu. . .bv)使用所述能值函数求值:m = F(bu. . .1^)=¥-11+1;如果111彡11,忽略111;如果111 >H,则将m加入能值序列M的末尾;如此处理目标文本B后得到能值序列M= (mim2. . .mw),w< =y;
[0012] S5、对所述能值序列M作自相似性分析,得到M的自相似性序列为Rm = (m ? .ri. ? .rw),其中ri为整数且riG [0? .w];
[0013] S6、预定义能值误差上限e和累积误差上限E;取i的初值为l,g的初值为0,将能值 序列M= (mim2…mw)与N= (rurn+i. ? .m+w-1)从左到右按序作比较,即,当变量j从1增加至w 时,对每个j:
[0014] a?如果|mj-ru+j-11 >e,且i = z-w+l,贝lj认为目标文本B与母文本A中的任意一部分 内容匹配度低于匹配阈值,排除目标文本B;
[0015] b?如果 |mj-ru+j-11 >e,且i辛z-w+1,贝lj令i = i+j-1-rj,并令g = 0,变量j加 1 后继续 进行比较;
[0016] c ?如果 |mj-ru+j-11 <e,则令g = g+|mj-m+j-11 ;若g>E且i = z-w+l,则认为目标文本B 与母文本A中的任意一部分内容匹配度低于阈值,排除目标文本B;若g>E,且i辛z-w+1,则令 1 =丨+」-1-:^,并令8 = 0,变量」加1后继续进行比较;
[0017] 若变量j增加至w后,目标文本B仍未排除,则保留目标文本B;B是否与A匹配取决于 后续的内容相似度比较。
[0018] 进一步的,步骤S4中,求取ri的步骤如下:
[0019] S51、从mi开始从左往右列出mi所有左序子序列:(mi),(mim2),(mim2m3)...... (mim2 …mi-1)
[0020] S52、从mi开始从右往左列出mi所有右序子序列:(mi),(mi-inn),(mi-2mi-inn)...... …mi)
[0021] S53、取左序子序列和右序子序列中共有项的最大长度为ri。
[0022] 本发明的内容无关的文本快速过滤方法,使用分隔符将母文本A和目标文本B各自 分割成系列片段,对每一文本片段使用能值函数求值,所述能值函数与文本内容无关且与 文本包含的噪声正相关。在求得的母文本A和目标文本B的能值中,将小于预定义能值阈值H 的量滤去,得到能值序列N与M。再对M作自相似分析以加快比较速度;之后,在允许误差约束 下将M与N作匹配比较,如果穷尽N,目标文本B与母文本A的任意一部分内容的匹配度均低于 阈值,则目标文本B被排除。
[0023] 使用本发明的文本快速过滤方法,在进行信息检索、搜索引擎、抄袭检测、著作权 保护等领域的文本处理时,避免了对文本内容的分析,计算量小,过滤速度快,且可以屏蔽 部分噪声影响。实际应用中,大部分网页内容可以被过滤掉,从而减少了加入内容库的内 容,并降低了后续内容匹配计算的计算量,减轻了系统负担。本发明也可应用于图书信息检 索、抄袭检测等需要处理大规模文本的场合。
【附图说明】
[0024] 图1为一种网络著作权侵权检测系统的架构图;
[0025] 图2为本发明的实施例的流程示意图。
【具体实施方式】
[0026] 为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是 应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的 限制。
[0027] 本发明可在文学作品著作权网络侵权的检测中得到典型应用。
[0028] 著作权,英美法系术语称为版权,是最普遍知识产权形式,凡是人的智力活动产 生、具有独创性并且可复制的作品皆拥有著作权。著作权载体以文艺作品最为常见,如小 说、诗歌、剧本、音乐、戏剧、曲艺、舞蹈、杂技、美术、摄影、电影等;科学和工程作品也有著作 权,如工程设计图、产品设计图、地图、示意图、计算机软件等。
[0029]随着博客、微博、社交媒体、朋友圈、文库等各种形式的网络媒体蓬勃发展,一方面 促进了文化传播,另一方面也使著作权侵权行为日益泛滥,严重侵害了作者的合法权益,扰 乱了经济秩序。因此,需要通过计算机技术手段,构造著作权保护的平台。
[0030]图1给出了一种网络著作权侵权检测系统的架构图。如图所示,该系统运行于集群 并行的硬件平台上,分为以下几个部分:
[0031] 1 )Web内容获取:根据一定策略将网上数据抓取到内容库;
[0032] 2)特征生成:对原作进行特征提取,存入特征索引库;
[0033] 3)侵权检测:执行侵权检测;
[0034] 4)电子取证:如确认存在侵权,由取证服务器对侵权现场进行取证,产生可信的司 法证据。
[0035]由于爬虫抓取网络内容具有盲目性,99%以上的内容是不侵犯任何著作权的。用 于侵权检测的文本内容特征提取、基于特征的相似性比较都是耗时的计算,如不能将这 99 %的内容快速滤去大部分,将影响系统的性能乃至可行性。在互联网内容进入内容库之 前,可使用本发明的文本快速过滤方法对其进行过滤。步骤如下:
[0036] 一、定义要素
[0037] 符号集S为文字、字母、标点、数理记号、分段符、换行符等所有出现在文本中的符 号的集合。定义能值函数F(cPc P+i. . .Cq)=p_q+1,其中,CiGS,p彡;Kq。该能值函数的函数 值即能值是文本(cPcP+i. . .cq)的长度,它与文本内容无关,而文本越长可能包含的噪声越 大。定义能值阀值H= 15;
[0038] 定义能值序列N和M,所述能值序列中的元素为所述能值函数的函数值,N和M初始 时为空。
[0039] 二、处理原作库
[0040]原作库包含一批需保护的文学作品原作,数据量大,是十亿、百亿级的文字量。打 通作品界限将其连成一个长串,记为母文本A=(am2. . .m. . .&〇,&1£5。原作库中的原作为 标准txt文本,定义有限集合L= {11 l = (lil2. . . It),liGS,t彡1}为S中的分隔符集,其中,1 为在S中任意选取的分隔符和/或标点符号组成的长度大于等于1的序列。
[0041] 本实施例中,1选取为ASCII码的回车换行。以1对母文本A作分割,即A = (aia2. ? ? las. ? .atl. ? .ax),从左至右对每一个片段(as. . .at)使用所述能值函数求值:n = F (as. . .at) = t-s+1;如果n<H,忽略n;如果n>H,则将n加入能值序列N的末尾;如此处理母文 本A后得到能值序列N=(mn2. ? .nz),z<=x。
[0042] 以上过程只需计算一次。当新的文本加入原作库时,对其做同样的分割和能值计 算,结果附于能值序列N末尾即可。
[0043] 三、处理网络内容
[0044]网络内容通常为片段,数据量较小,万把字、甚至几千字的量级为多见。且网络内 容可能含有噪声,如乱码、错误码、短广告、网站标志性插入文字等,应尽量消除其影响。 [0045] 设爬虫程序抓取到一个的网络内容为目标文本B=(bib2. . .bi. . .1^),匕£5且7< X,定义有限集合…l'thl'ASj彡1}为L的子集,即厂[乙,令l'G L,。
[0046] 本实施例中,1'选取为HTML分割标记为分隔符,包括<br>,<p>等;以1'对B作分割, 艮PB= (bib2. . . 1 'bu. . .bvl ' . . .by),从左至右对每一个片段(bu. ? .bv)使用所述能值函数求 值:m=F(bu...bv)=v-u+l;如果m < H,忽略m;如果m > H,则将m加入能值序列M的末尾;如此 处理目标文本B后得到能值序列M=(mim2. ? .mw),w<=y。
[0047] 继而对M作自相似性分析。M的自相似性序列为RM=(nr2. . .ri. . .rw),其中ri为整 数且:TiG [0. .w]。求取ri的步骤如下:
[0048] S41、从mi开始从左往右列出mi所有左序子序列:(mi),(mim2),(mim2m3)...... (mim2 …mi-1)
[0049] S42、从mi开始从右往左列出mi所有右序子序列:(mi),(mi-inn),(mi-2mi-inn)...... …mi)
[0050] S43、取左序子序列和右序子序列中共有项的最大长度为ri。
[0051] 四、过滤
[0052]预定义能值误差上限e = 4,累积误差上限E=109。实际E可根据统计经验得出,这 里E取极大数表示不作累积误差检查。
[0053]取i的初值为l,g的初值为0;
[OOM] 将能值序列M=(mim2. ? .mw)与N=(mm+i. ? .m+w-1)从左到右按序作比较,即,当变 量j从1增加至w时,对每个j:
[0055] 如果>e,且i = z-w+l,贝lj认为目标文本B与母文本A中的任意一部分内 容匹配度低于匹配阈值,排除目标文本B;
[0056] 如果11 >e,且i辛z-w+1,则令i = i+j-l_rj,并令g = 0,变量j加1后继续进 行比较;
[0057] 如果 | mj-rn+j-11 彡e,则令g = g+ | mj-ru+j-11 ;若g>E且i = z_w+l,贝IJ认为目标文本B与 母文本A中的任意一部分内容匹配度低于阈值,排除目标文本B;若g>E,且i辛z-w+1,则令i =1+」-1-;1^,并令8 = 0,变量」加1后继续进行比较;
[0058]如果从m到mw的比较都未超过误差,则证明B未被排除,B需要被加入内容库;B是否 真被A包含需要后续的内容相似度比较来确定。
[0059]以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对 于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行 若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
【主权项】
1. 一种内容无关的文本快速过滤方法,用于对含有噪音的目标文本B,当其与母文本A 中的任意一部分内容匹配度低于匹配阈值时,将其快速排除,其中A=(aia2. · .ai· · .ax),B = (bib2. . .bi. . .1^),31£5,匕£3且1>7,5为出现在母文本4和目标文本8中的所有符号的 集合,包括但不限于文字、字母、标点、数理记号、分段符、换行符,其特征在于,包括如下步 骤: 51、 定义能值函数F(cPcP+i. . .Cq)=q-p+l,其中,CiGS,p彡i彡q,所述能值函数的函数 值是与文本内容无关但与文本包含的噪声正相关的实数,预定义能值阈值为H;并定义能值 序列N和M,所述能值序列中的元素为所述能值函数的函数值,所述能值序列N和M初始时为 空; 52、 定义有限集合L= Ull = (1山...It),IiG S,t多1},其中,1为在S中任意选取的分隔 符和/或标点符号组成的长度大于等于1的序列;定义L的子集L',即L'c L,L' = {Γ I Γ = 0-ι1,2· · .rt),ries,t>l}4reL,; 53、 以I对母文本A作分割,即A = (aia2... Ias... atl... ax),从左至右对每一个片段 (as. . .at)使用所述能值函数求值:n = F(as. . .81;) = 1:-8+1;如果11<!1,忽略11;如果11>!1,则 将η加入能值序列N的末尾;如此处理母文本A后得到能值序列N=(nin2. . .nz),z<=x; 54、 以I '对目标文本B作分割,即B = (bib2. . . I 'bu. . .bvl ' . . .by),从左至右对每一个片 段(bu. . .bv)使用所述能值函数求值:m = F(bu. . .bv)=v-u+l;如果m<H,忽略m;如果m = H, 则将m加入能值序列M的末尾;如此处理目标文本B后得到能值序列M=(mim2. . .mw),w<=y; 55、 对所述能值序列M作自相似性分析,得至IjM的自相似性序列为RM=(rir2. . .ri. . .rw), 其中ri为整数且ne [〇. .w]; 56、 预定义能值误差上限e和累积误差上限E;取i的初值为l,g的初值为0,将能值序列M = (mim2·· .mw)与N=(mm+i· · .m+w-1)从左到右按序作比较,即,当变量j从1增加至w时,对每 个j: a. 如果11 >e,且i = z-w+l,则认为目标文本B与母文本A中的任意一部分内容 匹配度低于匹配阈值,排除目标文本B; b. 如果I mj-ru+j-11 >e,且i乒z-w+1,则令i = i+j-1-rj,并令g = 0,变量j加1后继续进行 比较; c. 如果I mj-ru+j-11 Se,则令g = g+ I mj-ru+j-11 ;若g>E且i = z-w+l,则认为目标文本B与母 文本A中的任意一部分内容匹配度低于阈值,排除目标文本B;若g>E,且i辛z-w+1,则令i = i +?]_-1-1^,并令8 = 〇,变量」加1后继续进行比较; 若变量j增加至W后,目标文本B仍未排除,则保留目标文本B ;B是否与A匹配取决于后续 的内容相似度比较。2. 如权利要求1所述的内容无关的文本快速过滤方法,其特征在于,步骤S4中,求取ri的 步骤如下: 551、 从mi开始从左往右列出mi所有左序子序列:(mi),(mim2),(???ηκπ?)......(ηιιηκ · · · πη-ι) 552、 从mi开始从右往左列出mi所有右序子序列:(mi),(mi-inii),(πη-2ΠΗ-ιπη)...... (m2m3...πη) 553、 取左序子序列和右序子序列中共有项的最大长度为ri。
【文档编号】G06F17/30GK105893503SQ201610192303
【公开日】2016年8月24日
【申请日】2016年3月30日
【发明人】张帆, 金哲凡
【申请人】浙江传媒学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1