文章比对方法与装置的制作方法

文档序号:6334633阅读:557来源:国知局
专利名称:文章比对方法与装置的制作方法
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种文章比对方法与装置。
背景技术
目前使用的反剽窃系统主要有两种,一种是某网站的文章检测系统,包括了 TMLC, SMLC,AMLC三套系统。TMLC为专门为研究生院等部门提供检测服务,仅限检测研究生毕业 论文。可检测涉及抄袭与剽窃、伪造、篡改等学术不端文献。SMLC专门为社科期刊编辑部提 供检测服务,仅限检测社科期刊稿件。可检测抄袭与剽窃、伪造、篡改、不当署名、一稿多投 等学术不端文献等问题。AMLC专门为科技期刊编辑部提供检测服务,仅限检测科技期刊稿 件。可检测抄袭与剽窃、伪造、篡改、不当署名、一稿多投等学术不端行为。另外一种是某大学的ROST系统,目前已在全国20多所高校院系和100多家期刊 社推广使用。可以自动将文档切割为多个50-200字(可自定义)的小文本,通过混合引擎 与188亿个网页和490万篇文献进行匹配,标示出每个文本块与文献库中的文献的最大相 似度。由此软件统计出相似度>95% (基本原封不动拷贝)与相似度>80% (拷贝后略 作修改)的字数所占总字数比例。软件把这个比例作为相似程度参考衡量指标。ROST反剽 窃系统与其他系统最大的不同之处在于覆盖了 188亿个网页以及490万篇文章。但是,上述技术存在如下缺陷1.前一种方法中各套系统只能检测本单位内部的文章,不能检索本单位之外的文 章,相似度比对精度不够、比对信息显示不明确。而且没有对外的接口,外部人无缘此系统。2.后一种方法作者已经停止更新,其缺点有数据维护困难,相似度比对进度不够、 比对信息显示不明确。综上可知,现有的文章比对系统存在缺陷有比对速度慢、比对精度低且准确度低、 比对信息显示不明确、比对库不全面且相对维护困难、用户少且访问困难。

发明内容
本发明的目的在于提供一种章比对方法与装置,基于本发明,能够针对用户的需 求,根据关键词搜索相关文章,再将自己的文章与搜索到的文章进行分析比对,以克服比对 速度慢、比对精度低、准确度低等缺陷。一方面,本发明一种文章比对方法,包括如下步骤文章集获取步骤,接收用户输 入的关键字,用搜索引擎的原理在系统数据库中搜索得到相关联的文章,将所述相关联的 文章实体化,形成文章集;相似度比对步骤,接收用户输入的、作为比对对象的用户文章,基 于相对熵和余弦定理,将所述用户文章与所述文章集中的每一篇文章进行相似度比对;结 果获取步骤,根据相似度,确定比对结果。上述文章比对方法,优选所述系统数据库通过如下方式创建抓取步骤,抓取文章 并存储;分类步骤,将存储的文章进行分类,类别包括期刊、学术论文、专利文献、会议论文、 标准文献;分析步骤,按类别分析文章,确定文章的标题、作者、关键词、内容摘要;索引创
4建步骤,用所述标题、作者、关键词和内容摘要创建数据库索引。上述文章比对方法,优选所述相似度比对步骤包括如下步骤特征向量计算步骤, 基于相对熵,计算所述文章集中,每一篇文章的特征向量;以及,计算所述用户文章的特征 向量;夹角计算步骤,利用余弦定理的原理,计算所述文章集中的每一篇文章对应的特征向 量与所述用户文章的特征向量之间的夹角;根据所述夹角,确定相似度。上述文章比对方法,优选所述每一篇文章的特征向量以及用户文章的特征向量的 计算是通过词频率-逆向文档频率的统计获取的。另一方面,本发明一种文章比对装置,包括如下步骤文章集获取模块、相似度比 对模块和结果获取模块。文章集获取模块用于接收用户输入的关键字,用搜索引擎的原理 在系统数据库中搜索得到相关联的文章,将所述相关联的文章实体化,形成文章集;相似度 比对模块用于接收用户输入的、作为比对对象的用户文章,基于相对熵和余弦定理,将所述 用户文章与所述文章集中的每一篇文章进行相似度比对;结果获取模块用于根据相似度, 确定比对结果。上述文章比对装置,优选所述文章集获取模块中的系统数据库通过如下方式创 建抓取文章并存储;将存储的文章进行分类,类别包括期刊、学术论文、专利文献、会议论 文、标准文献;按类别分析文章,确定文章的标题、作者、关键词、内容摘要;用所述标题、作 者、关键词和内容摘要创建数据库索弓I。上述文章比对装置,优选所述相似度比对模块包括特征向量计算单元,用于基于 相对熵,计算所述文章集中,每一篇文章的特征向量;以及,计算所述用户文章的特征向量; 夹角计算单元,用于利用余弦定理的原理,计算所述文章集中的每一篇文章对应的特征向 量与所述用户文章的特征向量之间的夹角;相似度确定单元,用于根据所述夹角单元,确定 相似度。上述文章比对装置,优选所述特征向量计算单元中,每一篇文章的特征向量以及 用户文章的特征向量的计算是通过词频率-逆向文档频率的统计获取的。相对于现有技术而言,本发明根据关键词搜索相关文章,基于相对熵和余弦定理 的原理,将自己的文章与搜索到的文章进行分析比对,有效的提高了比对速度、比对精度以 及比对的准确度。


图1为本发明文章比对方法实施例的步骤流程图;图2为本发明实施提供的根据关键词查找索引库得出数据库中相关联的文章集, 用比对对象(文章)与文章集比对,得到所有与比对对象相似的文章以及“比对信息”的示 意图;图3为本发明文章比对装置实施例的结构示意图;图4为本发明文章比对装置实施例中,相似度比对模块的结构简图。
具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本发明作进一步详细的说明。
参照图1,图1为本发明文章比对方法实施例的步骤流程图,包括如下步骤文章集获取步骤S110,接收用户输入的关键字,用搜索引擎的原理在系统数据 库中搜索得到相关联的文章,将所述相关联的文章实体化,形成文章集;相似度比对步骤 S120,接收用户输入的、作为比对对象的用户文章,基于相对熵和余弦定理,将所述用户文 章与所述文章集中的每一篇文章进行相似度比对;结果获取步骤S130,根据相似度,确定 比对结果。以某文章的比对为例图2为本发明的实施提供了文章比对的流程示意图,如图2所示,本实施例的文章 比对主要包括以下步骤一、比对系统数据库的构建通过多种渠道,如经济手段或与对方协商或网络爬虫,充实数据库,并对数据进行 分类、分析,创建数据库索引。1、网络爬虫在对方允许的情况下通过httpclient网络爬虫抓取对方的文章。2、数据分类将存储设备中的数据进行分类,类别有期刊、学术论文、专利文献、会 议论文、标准文献等。3、数据分析按类别分析的各种文章,分析出标题、作者、关键词、内容摘要、内容寸。4、创建数据库索引用标题、作者、关键词和内容摘要做数据库索引,所用技术为 搜索引擎Lucene的索引库创建功能。二、文章比对1、用户输入关键字,用搜索引擎的原理搜索得到相关联的文章,将文章实体化作 为文章集。具体涉及的技术是Lucene。Lucene是某软件基金会某项目组的一个子项目,是一个开放源代码的全文检索引 擎工Lucene具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提 供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene 的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文 检索的功能,或者是以此为基础建立起完整的全文检索引擎。作为一个开放源代码项目, Lucene从问世之后,引发了开放源代码社群的巨大反响,程序员们不仅使用它构建具体的 全文检索应用,而且将之集成到各种系统软件中去,以及构建Web应用,甚至某些商业软件 也采用了 Lucene作为其内部全文检索子系统的核心。某软件基金会的网站使用了 Lucene 作为全文检索的引擎,某公司的开源软件eclipSe[9]的2. 1版本中也采用了 Lucene作 为帮助子系统的全文索引引擎,相应的该公司的商业软件Web Sphere[10]中也采用了 Lucene0Lucene以其开放源代码的特性、优异的索引结构、良好的系统架构获得了越来越多 的应用。Lucene是一个高性能、可伸缩的信息搜索(IR)库。它使你可以为你的应用程序添 加索引和搜索能力。Lucene是用java实现的成熟的、免费的开源项目,并且基于在某软件 许可[ASF,License].同样,Lucene是当前与近几年内非常流行的免费的Java信息搜索 (IR)库。2、用户上传自己的文章作为比对对象,与形成的文章集进行相似度比对,具体比 对用到了 “相对熵”和余弦定理俩个概念;
相对熵用来衡量两个正函数是否相似,对于两个完全相同的函数,它们的相对熵 等于零。在自然语言处理中可以用相对熵来衡量两个常用词(在语法上和语义上)是否同 义,或者两篇文章的内容是否相近,这是信息熵在本系统中的主要应用。利用相对熵,可以 到出信息检索中最重要的一个概念词频率-逆向文档频率(TF/IDF)。如短语“原子能的应用”可以分成三个关键词原子能、的、应用。根据直觉和经验, 包含这三个词多的文献应该比包含它们少的文献相关。当然,这个办法有一个明显的漏洞, 就是长的文献比短的文献占便宜,因为长的文献总的来讲包含的关键词要多些。因此需要 根据文献的长度,对关键词的次数进行归一化,也就是用关键词的次数除以文献的总字数。 我们把这个商称为“关键词的频率”,比如,在某个一共有一千词的文献中“原子能”、“的”和 “应用”分别出现了 2次、35次和5次,那么它们的词频就分别是0. 002,0. 035和0. 005。我 们将这三个数相加,其和0. 042就是相应文献和查询“原子能的应用”相关性的一个简单的 度量。概括地讲,如果一个查询包含关键词wl,w2,. . .wN,它们在一篇特定文献中的词频分 别是TF1,TF2. · · TFN。那么,这个查询和该文献的相关性就是:TF1+TF2+. · · +TFN。这样算 有一个漏洞。在上面的例子中,词“的”占了总词频的80%以上,而它对确定文献的主题几 乎没有用。我们称这种词叫“应删除词”(Stopwords),也就是说在度量相关性是不应考虑 它们的频率。在汉语中,应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些 应删除词后,上述文献的相似度就变成了 0. 007,其中“原子能”贡献了 0. 002,“应用”贡献 了 0. 005。还有另一个小的漏洞。在汉语中,“应用”是个很通用的词,而“原子能”是个很专 业的词,后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重, 这个权重的设定必须满足下面两个条件1. 一个词预测主题能力越强,权重就越大,反之,权重就越小。我们在文献中看到 “原子能”这个词,或多或少地能了解文献的主题。我们看到“应用”一次,对主题基本上还 是一无所知。因此,“原子能“的权重就应该比应用大。2.应删除词的权重应该是零。很容易发现,如果一个关键词只在很少的文献中出 现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量文献中 出现,我们看到它仍然不很清楚要找什么内容,因此它应该小。概括地讲,假定一个关键词w 在Dw个网页中出现过,那么Dw越大,w的权重越小,反之亦然。在信息检索中,使用最多的权 重是“逆文本频率指数”(Inverse document frequency缩写为IDF),它的公式为log(D/Dw) 其中D是全部文献数。比如,我们假定中文文献数是D= 10亿,应删除词“的”在所有的文 献中都出现,即Dw= 10亿,那么它的IDF= log(10亿/10亿)=Iog(I) = 0。假如专用词 “原子能”在两百万个文献中出现,即Dw = 200万,则它的权重IDF= log (500) = 6.2。又假 定通用词“应用”,出现在五亿个文献中,它的权重IDF= log(2)则只有0. 7。也就只说,在网 页中找到一个“原子能”的比配相当于找到九个“应用”的匹配。利用IDF,上述相关性计算 个公式就由词频的简单求和变成了加权求和,即TF1*IDF1+TF2*IDF2+. . . +TFN*IDFN。在上 面的例子中,该网页和“原子能的应用”的相关性为0. 0161,其中“原子能”贡献了 0. 0126, 而“应用”只贡献了 0.0035。这个比例和我们的直觉比较一致了。余弦定理在文章比对上的应用计算机其实读不懂文章,它只能快速计算。这就要求我们设计一个算法来算出任
7意两篇文章的相似性。为了做到这一点,需要想办法用一组数字来描述一篇文章。对于一篇 文章中的所有实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。和 文章有关的那些实词频率高,TF/IDF值很大。按照这些实词在词汇表的位置对它们的TF/ IDF值排序。比如,词汇表有六万四千个词,分别为

单词编号汉字词
1阿 2啊 3阿斗 4阿姨
789服装
64000做作
在一篇文章中,这64,000个词的TF/IDF值分别为 单词编号TF/IDF值
1 0
20.0034
30
40.00052
50
789 0. 034
64000 0.075
如果单词表中的某个词在文章中没有出现,对应的值为零,那么这64,000个数, 组成一个64,000维的向量。我们就用这个向量来代表这篇文章,并成为文章的特征向量。 如果两篇文章的特征向量相近,则对应的文章内容相似,可以得到比对信息。向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近 零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向 量的夹角了。余弦定理描述了三角形中任何一个夹角和三个边的关系,换句话说,给定三角 形的三条边,可以用余弦定理求出三角形各个角的角度。假定三角形的三条边为a,b和c, 对应的三个角为A,B和C,那么角A的余弦一
「 , h2 + C2 — α2cos .4 =-
26c 如果将三角形的两边b和c看成是两个向量,那么上述公式等价于
8
权利要求
一种文章比对方法,其特征在于,包括如下步骤文章集获取步骤,接收用户输入的关键字,用搜索引擎的原理在系统数据库中搜索得到相关联的文章,将所述相关联的文章实体化,形成文章集;相似度比对步骤,接收用户输入的、作为比对对象的用户文章,基于相对熵和余弦定理,将所述用户文章与所述文章集中的每一篇文章进行相似度比对;结果获取步骤,根据相似度,确定比对结果。
2.根据权利要求1所述的文章比对方法,其特征在于,所述系统数据库通过如下方式 创建抓取步骤,抓取文章并存储;分类步骤,将存储的文章进行分类,类别包括期刊、学术论文、专利文献、会议论文、标 准文献;分析步骤,按类别分析文章,确定文章的标题、作者、关键词、内容摘要; 索引创建步骤,用所述标题、作者、关键词和内容摘要创建数据库索引。
3.根据权利要求2所述的文章比对方法,其特征在于,所述相似度比对步骤包括如下 步骤特征向量计算步骤,基于相对熵,计算所述文章集中,每一篇文章的特征向量;以及,计 算所述用户文章的特征向量;夹角计算步骤,利用余弦定理的原理,计算所述文章集中的每一篇文章对应的特征向 量与所述用户文章的特征向量之间的夹角; 根据所述夹角,确定相似度。
4.根据权利要求3所述的文章比对方法,其特征在于,所述每一篇文章的特征向量以 及用户文章的特征向量的计算是通过词频率-逆向文档频率的统计获取的。
5.一种文章比对装置,其特征在于,包括如下步骤文章集获取模块,用于接收用户输入的关键字,用搜索引擎的原理在系统数据库中搜 索得到相关联的文章,将所述相关联的文章实体化,形成文章集;相似度比对模块,用于接收用户输入的、作为比对对象的用户文章,基于相对熵和余弦 定理,将所述用户文章与所述文章集中的每一篇文章进行相似度比对; 结果获取模块,用于根据相似度,确定比对结果。
6.根据权利要求5所述的文章比对装置,其特征在于,所述文章集获取模块中的系统 数据库通过如下方式创建抓取文章并存储;将存储的文章进行分类,类别包括期刊、学术论文、专利文献、会议论 文、标准文献;按类别分析文章,确定文章的标题、作者、关键词、内容摘要;用所述标题、作 者、关键词和内容摘要创建数据库索弓I。
7.根据权利要求6所述的文章比对装置,其特征在于,所述相似度比对模块包括 特征向量计算单元,用于基于相对熵,计算所述文章集中,每一篇文章的特征向量;以及,计算所述用户文章的特征向量;夹角计算单元,用于利用余弦定理的原理,计算所述文章集中的每一篇文章对应的特 征向量与所述用户文章的特征向量之间的夹角;相似度确定单元,用于根据所述夹角单元,确定相似度。
8.根据权利要求7所述的文章比对装置,其特征在于,所述特征向量计算单元中,每一 篇文章的特征向量以及用户文章的特征向量的计算是通过词频率-逆向文档频率的统计 获取的。
全文摘要
本发明公开了一种文章比对方法与装置。该方法包括接收用户输入的关键字,用搜索引擎的原理在系统数据库中搜索得到相关联的文章,将所述相关联的文章实体化,形成文章集;接收用户输入的、作为比对对象的用户文章,基于相对熵和余弦定理,将所述用户文章与所述文章集中的每一篇文章进行相似度比对;根据相似度,确定比对结果。本发明根据关键词搜索相关文章,基于相对熵和余弦定理的原理,将自己的文章与搜索到的文章进行分析比对,有效的提高了比对速度、比对精度以及比对的准确度。
文档编号G06F17/30GK101980196SQ20101052364
公开日2011年2月23日 申请日期2010年10月25日 优先权日2010年10月25日
发明者卢帅州, 张树亮, 臧金玉, 赵佳宁, 高万林 申请人:中国农业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1