一种论文查重的方法

文档序号:6552424阅读:338来源:国知局
一种论文查重的方法
【专利摘要】本发明公开了一种论文查重的方法。该方法通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置,然后判断重复分句在原文中的间隔是否小于M,假如重复分句在原文中的间隔小于M,则待查文章在文本库中内容有重复。本发明的论文查重的方法判重速率和响应速度快,通过精确到分句的对比可以从多个原始论文中多处摘抄中找出摘抄的原始论文。
【专利说明】一种论文查重的方法

【技术领域】
[0001] 本发明涉及论文查重的技术。

【背景技术】
[0002] 目前论文查重方法主要有三种:基于字符串匹配的方法,基于文档指纹的方法和 基于语义知识的方法。
[0003] 基于字符串匹配的方法是一种基于数理统计的方法。它先通过字符串匹配算法, 找出待检测文档与数据库中的文档相匹配的字符串数目,随后利用相似性计算公式求出结 果。这种方法对字符串的选取要求很高,同时字符串匹配算法的时间复杂度较高,需要较大 的资源开销和较长的计算时间。
[0004] 基于文档指纹的方法通过将代表文档语义的文本作为"指纹",通过比较"指纹"从 而达到判别抄袭的目的。在选取"指纹"的过程中可能受到文章的层次结构的影响而造成 漏判。
[0005] 基于语义知识的方法是通过分析比较待检测文章与数据库文章的自然语义相似 程度从而达到判别抄袭的目的。该方法依赖于自然语言相似性的计算,由于中文语言的复 杂性,基于语义知识的判断结果正确性很难得到保证。
[0006] 针对目前的查重技术,如果论文作者在同一段落,尽可能多的选择多篇文献,从每 篇参考文献中摘取部分子句到同一段落,不会被论文查重系统快速检测出来。


【发明内容】

[0007] 本发明所要解决的问题:如果论文作者选择多篇文献,从每篇参考文献中摘取部 分子句,则不会被目前的论文查重系统快速检测出来。
[0008] 为解决上述问题,本发明采用的方案如下: 一种论文查重的方法,包括以下步骤: 51 :对文本库中的原文进行分句,并计算原文每个分句的指纹; 52 :对待查文章进行分句,并计算待查文章每个分句的指纹; 53 :通过待查文章各个分句的指纹与原文各个分句的指纹的对比,确定原文分句指纹 与待查文章分句指纹相同的分句和分句的位置,得到重复分句和重复分句在原文中的位 置; 54 :根据重复分句在原文中的位置,判断重复分句在原文中的间隔是否小于Μ ;假如重 复分句在原文中的间隔小于Μ,则待查文章与原文的内容有重复;其中Μ为预先设定的常 量。
[0009] 进一步,根据本发明的论文查重的方法,还包括构建分句指纹库的步骤;所述构建 分句指纹库的步骤为对文本库中各个原文进行分句,并计算各个原文每个分句的指纹得到 分句指纹库;所述的分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应 关系表。
[0010] 本发明的技术效果如下: 1.本发明通过指纹对比,计算开销低,判重速率快,响应速度快。
[0011] 2.精确到分句的判别方法,可以更加准确地对抄袭的现象进行判别。
[0012] 3.可以精确还原被抄袭的段落及子句内容,为论文查重提供有力证据。
[0013] 4.可以从多个原始论文中多处摘抄中找出摘抄的原始论文。

【专利附图】

【附图说明】
[0014] 图1本发明论文查重方法的流程图。

【具体实施方式】
[0015] 下面结合附图对本发明做进一步详细说明。
[0016] 本发明通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复 分句在原文中的位置,然后判断重复分句在原文中的间隔是否小于M,假如重复分句在原文 中的间隔小于M,则待查文章在文本库中内容有重复。如图1所示,包括步骤: 51 :计算文本库中原文各个分句的指纹; 52 :计算待查文章的各个分句的指纹; 53 :找出重复分句和重复分句在原文中的位置; 54 :判断重复分句在原文中的间隔是否小于M。
[0017] 这里的原文是指文本库中的文献文本。步骤S1和S2中计算指纹的过程实际上包 含了两个步骤:对文本进行分句的步骤和计算分句指纹的步骤。对文本进行分句的步骤是 指将文本根据分割符进行分割成多个句子的过程。分割符可以是句号、感叹号、问号、分号、 分段符等等。文本分割后得到的句子称为分句。文本所有的分句按顺序组合后成文原始文 本。计算分句指纹的步骤是采用哈希函数对分句进行运算的过程。这里的哈希函数是指单 向散列函数,比如MD5、SHA-l、SHA-2、SHA-3等等。通过采用哈希函数对分句进行运算后得 到分句的哈希值,该哈希值即可作为该分句的指纹。
[0018] 图1中的整体过程是本发明的一实施例。更为通常的情形,步骤S1从属于初始化 的步骤。该初始化的步骤又可以称为构建分句指纹库的步骤。构建分句指纹库的步骤为对 文本库中各个原文进行分句,并计算各个原文每个分句的指纹得到分句指纹库。分句指纹 库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。有了初始化的构建分 句指纹库的步骤后,当需要对某待查文章进行查重时,只需要执行步骤S2、S3和S4即可。 分句指纹库可以通过数据库保存,也可以通过内存保存。当分句指纹库采用数据库保存时, 可以采用独立的数据库保存,也可以将每个原文的分句指纹信息作为文本的属性保存至文 本库内。
[0019] 步骤S3是通过待查文章各个分句的指纹与原文各个分句的指纹的对比,确定原 文分句指纹与待查文章分句指纹相同的分句和分句的位置,得到重复分句和重复分句在原 文中的位置。步骤S4是根据重复分句在原文中的位置,判断重复分句在原文中的间隔是否 小于Μ ;假如重复分句在原文中的间隔小于M,则待查文章与原文的内容有重复。其中Μ为 预先设定的常量,可以是2或3或5。步骤S3和步骤S4是连续的过程,S卩,步骤S3的输出 直接作为步骤S4判重的输入依据。步骤S3和S4有两种实施方式:第一种实施方式是对文 本库中各个原文逐个与待查文章比较分句的指纹,这种实施方式如图1所示,当一个原文 判重结束后执行下一个原文的判重。第二种实施方式是首先在步骤S3中找出在文本库中 所有的与待查文章分句指纹相同的分句,然后在步骤S4中一次性地找出符合"重复分句在 原文中的间隔小于M"条件的各个原文。其中第一种实施方式适用于前述的"每个原文的分 句指纹信息作为文本的属性保存至文本库内"和"未构建分句指纹库"的情形,第二种实施 方式适用于前述的"分句指纹库采用独立的数据库保存"和"通过内存保存分句指纹库"的 情形。本发明优先第二种实施方式。需要说明的是,根据本发明的方法,找到的与待查文章 具有相同内容的原文可能有多个。
[0020] 下面用具体的数据演示说明本发明的过程。设文本库中的文本为:..., 怂。待查文章的文本为文本库中的各个文本拆分分句后如下: Pl~^- Pi, f Ρ 1,2·> Ρ 1,3·> ···> ΡΙ,αιΛ ^2~ ? ^2,1^ ^2,2^ ^2,3^
'Ρ?,πιΣ^ '> 卩3-、卩3, 1,卩3,2,卩3,3,· · ·,卩3,〇!3、' Pf、- Ρη, 1,Ρη,2, Ρη,3,· · ·,Pn,mn、。
[0021] 上述...,備分别为文本. . 的分句数。经计算指纹后得 到各个文本的指纹如下所示: 产厂{力,7,力,之,力,J,· · ·,力,?7 }; ?2八 h2," h2,2, h2,3, · · ·,h2,m2} ·' 产?- { Λ? 7,力以,力3 J,· · ·,力 m3 }; Pf、- hn,p hn,2, hn,3,· · ·,hn,·']。
[0022] 分句指纹库,文本库中各个原文的分句的指纹和分句的位置对应关系表如下所 示: 、Pi,h!,!,'、, { Pt,h12, 2}, i 3}, 、Ρ" hi,mi,ml], 、P2,h 2?, 、Pn,hn,mn, mn]。
[0023] 待查文章的文本7?的各个分句为:/?={ . . .}。计算待查文章的各个分 句指纹为:U,夂,冬,· · ·,夂}。经步骤S3得到重复分句序列为:{尽,巧,3},{尽,巧,4}, {尽,/^,6},{尽,/^,8},{尽,Λ,71。上述重复分句序列〇结构中,第一个是待查文章的分 句序号,第二个为文本库中原文的ID,第三个为原文中分句的序号。上述重复分句中,分句 &和&在原文Λ中的间隔为1,分句&和&在原文Λ中的间隔为3,分句5;和5^在原文 Α中的间隔为2。假设Μ为2,则原文巧与文本7?具有相同内容。假如Μ选3,则原文巧和 Α均与文本W具有相同内容。
【权利要求】
1. 一种论文查重的方法,其特征在于,包括以下步骤: S1:对文本库中的原文进行分句,并计算原文每个分句的指纹; 52 :对待查文章进行分句,并计算待查文章每个分句的指纹; 53 :通过待查文章各个分句的指纹与原文各个分句的指纹的对比,确定原文分句指纹 与待查文章分句指纹相同的分句和分句的位置,得到重复分句和重复分句在原文中的位 置; 54 :根据重复分句在原文中的位置,判断重复分句在原文中的间隔是否小于Μ ;假如重 复分句在原文中的间隔小于Μ,则待查文章与原文的内容有重复;其中Μ为预先设定的常 量。
2. 如权利要求1所述的论文查重的方法,其特征在于,还包括构建分句指纹库的步骤; 所述构建分句指纹库的步骤为对文本库中各个原文进行分句,并计算各个原文每个分句的 指纹得到分句指纹库;所述的分句指纹库保存了文本库中各个原文的分句的指纹和分句的 位置对应关系表。
【文档编号】G06F17/30GK104050299SQ201410319183
【公开日】2014年9月17日 申请日期:2014年7月7日 优先权日:2014年7月7日
【发明者】严敏, 林文荟, 杨华, 刘志程 申请人:江苏金智教育信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1