一种检测及定位电子文本内容剽窃的方法

文档序号:6471393阅读:133来源:国知局

专利名称::一种检测及定位电子文本内容剽窃的方法
技术领域
:本发明属于智能信息处理和计算机
技术领域
,涉及一种检测电子文本是否含有剽窃内容的方法,特别是一种检测及定位电子文本内容剽窃的方法,该方法能够对被检测的电子文本进行精确定位,并给出确凿的剽窃证据。
背景技术
:随着网络的快速发展和迅速普及,目前在互联网上发布的电子文本成为当前知识产权保护的一个重点。由于电子文本易于复制和下载,已成为许多人研究、引用的对象,一些电子文本被大版面的复制而被认为抄袭的案例时有发生。而目前网络上的电子文本保护措施主要有两种一种是"阻止"法,一种是"检测"法。"阻止"法就是使用加密、水印、特殊载体等方法使得受保护内容难以拷贝。例如IEEE通过光盘发行文集,中国期刊网上的文章采用专用软件才能阅读。贝尔实验室提出了"水印"技术使用加密的单词空格或者图像,可以鉴定文档授权用户身份。但是这个世界上没有攻不破的马其诺防线,也没有绝对可靠的加密技术。上述方法都有可能被破解;而且我们也没有技术手段来防止授权用户使用光学识别(OCR)等办法去非法复制、扩散。所以"阻止"法不能完全解决知识产权保护问题。"检测"法保护知识产权的思路是这样的它并不关心文件是如何被复制的。而是首先判断出当前的文件中是否含有复制或者剽窃的内容;如果发现了非法复制或者剽窃行为,那么再对复制源或者剽窃者采取相关措施。"检测"法的核心就是复制检测技术。显然"阻止"法和"检测"法不是相互对立的关系,而应该相互补充、完善才能更好地保护知识产权。所谓文本复制检测,也称为文本剽窃检测,就是判断一个文本的内容是否抄袭、剽窃或者复制于另外一个或者多个文本。剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换、同义词替换以及改变说法重述等等方式。现在文本复制检测技术主要有两种基本检测方法^种是"字符串匹配"法,另一种是"词频"法。所谓字符串匹配检测法就是首先从文本中提取一些特征字符串,一般称之为"指纹"(fingerprints);然后根据这些指纹的雷同率来判定文本中是否有剽窃。例如斯坦福大学Brin和Garcia-Molina等人提出的COPS系统([1]S.Brin,J.Davis,andH.Garcia—Molina.Copydetectionmechanismsfordigitaldocuments.InProceedingsoftheACMSIGMODAnnualConference,sSanFrancisco,CA,May1995.);贝尔实验室Heintze开发的KOALA系统([2]HeintzeN.ScalableDocumentFingerprinting.InProceedingsoftheSecondUSENIXWorkshoponElectronicCommerce,Oakland,California,18-21November,1996.)等等。所谓词频检测法是借用信息检索中"单词袋"(bagofwords)方法,首先统计文本中各个单词出现频率,然后对单词频率矢量运用某种度量得到两篇文本的雷同度,并得出最终判断。例如斯坦福大学Garcia-Molina和Shivakumar等人提出的SCAM原型([3]N.ShivakumarandH.Garcia—Molina.SCAM:Acopydetectionmechanismfordigitaldocuments.InProceedingsof2ndInternationalConferenceinTheoryandPracticeofDigitalLibraries饥'95),Austin,Texas,June1995.);香港理工大学Si和Leong等人建立的CHECK原型([4]SiA.,LeongH.V.,LauR.W.H.CHECK:ADocumentPlagiarismDetectionSystem.InProceedingsofACMSymposiumforAppliedComputing,pp.70-77,Feb.1997.)等等。字符串匹配法可以精确确定被复制内容,但是当字符串中个别字词被改变(删除)之后,精度便大大降低。词频法具有一定抗噪声性能,小规模的字词改变不会显著影响检测精度,检测效率相对较高。但是当被复制内容占整篇文本的比重较小时,词频法则难以检测出来。词频法对于n合l型部分复制几乎失效。字符串匹配法是一种注重于局部特征的检测方法,由于局部特征一般不稳定,所以该方法抗噪声性能不佳。词频法通过词频挖掘全局特征,局部的微小调整不会影响全局特征,所以该方法抗噪声能力相对较强。但是由于词频法仅仅关注全局特征,忽略了局部特征,从而不能对两篇比较相似(但不同)的文本进行细致检测,所以词频法对于小含量剽窃(例如n合l型部分复制)难以检测。申请人于2003年向中国专利局提交了名称为"一种利用计算机程序检测电子文本剽窃的方法",已被授予专利权(专利号ZL03134562.X),该方法根据文本的结构信息和语义信息提取文本特征;然后运用文本剽窃判定模块中设定的探针法估计待检测文本特征和特征库中的文本特征的最大共同语义并给出文本雷同度量;最后据此判定是否有剽窃,如果雷同度大于或者等于某个阈值则认为被检测文本中存在剽窃,否则认为被检测文本中没有剽窃,适合于较快速地检测长文本剽窃。该方法适当结合了基本字符串匹配法和词频法,不是依据简单字词的频率度量雷同度,而是根据文本特征语义序列的重叠概率来度量雷同度。但是,由于该方法的文本特征库中没有存储完整的文本内容,所以该方法不会给出剽窃文本的具体内容,即无法定位具体剽窃内容。也就是说,对于检测的剽窃文本不能同时给出确凿的剽窃证据。
发明内容针对上述现有技术存在的缺陷或不足,本发明的目的在于,提供一种检测及定位电子文本内容剽窃的方法,该方法可以检测出经过简单字词替换、插入、删减等手段处理过的剽窃文本,并精确定位剽窃内容,给出剽窃证据。通过该方法可以找出或者发现那些有剽窃嫌疑的电子文本,指出被剽窃内容,为采取进一步措施保护合法知识产权提供了技术手段和依据。为了实现上述任务,本发明采取如下的技术解决方案一种检测及定位电子文本内容剽窃的方法,其特征在于,该方法利用计算机系统检测电子文本是否含有剽窃内容并且精确定位剽窃文字,所述的计算机系统至少包括电子文本录入模块,用以向计算机系统提交被检测文本或者增添新的被检测文本;文本特征提取模块,用以提取文本特征,生成项序列;剽窃证据提取模块,用以项序列中依次取出每个项映射到已知项表上,生成疑似剽窃队列,获取剽窃证据表;判定电子文本剽窃模块,用以计算被检测文本对雷同度,判定被检测文本中是否含有剽窃内容;展示检测结果及定位剽窃内容模块,用以向用户输出检测结果并展示剽窃文本具体的剽窃内容作为剽窃证据。电子文本录入模块、文本提取特征模块、剽窃证据提取模块、文本剽窃判定模块、展示检测结果及定位剽窃内容模块依次相连,其检测和定位过程包括以下步骤步骤一,对提交被检测文本或者增添新的被检测文本,根据文本结构信息和语义信息提取被检测文本特征,生成待检测项序列;步骤二,依次处理待检测项序列中的所有项,生成疑似剽窃队列;步骤三,检测所有疑似剽窃队列,从中获得剽窃证据,生成证据表;步骤四,根据证据表计算文本雷同度,判定是否有剽窃,如果雷同度大于或等于某个阈值则认为被检测文本中存在剽窃,否则认为被检测文本中没有剽窃;步骤五,被判定有剽窃的文本对从证据表中取出相应剽窃内容,作为剽窃证据显示。本发明中文本雷同度由雷同文字占文本篇幅的比率(R值)和最大雷同片段长度(M值)共同表示。二者其一大于指定阈值则认为文本中有剽窃内容。其剽窃证据(具体的剽窃文字)就是证据表中相应雷同区间所对应的文本内容。图1是本发明的一个较佳实施例结构图;图2是本发明检测输入文本,生成疑似剽窃队列的流程图;图3是本发明检测疑似剽窃队列,获得剽窃证据的流程图。图4是本发明根据证据表判定是否有剽窃的流程图。下面结合附图和实施例对本发明做进一步说明。具体实施方式本发明的检测及定位电子文本内容剽窃的方法,其基本思路是首先,检测两篇文本是否有一定数量的相同文字。如果没有相同文字,则必然没有剽窃。如果有,则进行下一步检测。其次,检测相同文字在两篇文本中的先后顺序是否相同,是否构成了语句,即是否有雷同语句。如果没有雷同语句,则没有剽窃。如果有,则进行下一步检测。注意雷同语句并非指两个语句绝对相同,一个字符都不差。雷同语句允许语句中有个别字词不同,但是语句主要框架应该是一样的。最后,如果雷同语句超过了一定范围,则可判定为剽窃。雷同语句就是剽窃证据。基于一个事实,即剽窃文本必定包含一定数量的相同文字。如果两篇文本没有足够数量的相同文字,则这两篇文本之间应该没有剽窃。有大量相同文字的两篇文本,也未必一定就是剽窃文本。如果两篇文本有大量相同的文字,并且这些相同文字的先后顺序在两篇文本中也相同。g卩,两篇文本中存在着相同语句(或者段落),并且相同语句(或者段落)达到了一定长度。那么这两篇文本就存在着剽窃,相同语句(或者段落)就是剽窃证据。本发明利用计算机系统检测电子文本是否含有剽窃内容并精确定位具体的剽窃内容,该计算机系统至少包括(1)电子文本录入模块,用以向系统提交被检测文本或者增添新的被检测文本;(2)文本特征提取模块,用以提取文本特征,生成项序列;(3)剽窃证据提取模块,用以生成疑似剽窃队列,获取剽窃证据表;(4)文本剽窃判定模块,用以计算被检测文本对雷同度,判定被检测文本中是否含有剽窃内容;(5)展示检测结果及定位剽窃内容模块,用以向用户输出检测结果并展示剽窃文本具体的剽窃内容(即剽窃证据)。上述电子文本录入模块与文本特征提取模块连接,文本特征提取模块与剽窃证据提取模块连接,剽窃证据提取模块与文本剽窃判定模块连接,文本剽窃判定模块与展示检测结果及定位剽窃内容模块连接。其检测和定位过程包括以下步骤(1)根据文本结构信息和语义信息提取被检测文本特征,获得待检测项序列;(2)依次处理待检测项序列中的所有项,获得疑似剽窃队列;(3)检测所有疑似剽窃队列,从中获得剽窃证据,生成证据表;(4)根据证据表计算文本雷同度,判定是否有剽窃。如果雷同度大于或等于某个阈值则认为被检测文本中存在剽窃,否则认为被检测文本中没有剽窃。(5)被判定有剽窃的文本对从证据表中取出相应剽窃证据,送入展示检测结果及定位剽窃内容模块显示具体剽窃内容。上述被检测文本来自于用户人工录入,或者用户现有文本的拷贝,或者用户通过网络下载,或者通过互联网自动获取。被检测文本在计算机中无论以什么格式存储(比如ASCII文件、微软公司word文件、HTML文件、pdf(portabledocumentformat)文件、Tex文件等等),其向用户呈现的是自然语言为主的内容,不是图形、图像、视频、音频信息。上述自然语言文本包括中文、英文、日文、朝鲜文、法文、西班牙文、俄文、德文等单一语言或者由以上语言混合而成的电子文本。对不同语言的文本仅仅在于文本预处理阶段分割字词的操作有所不同,其它所有环节完全相同。上述被检测的电子文本,被处理的最小单元是项。一个项就是一个或者多个连续的字符。项的长度就是连续字符的个数,是一个人为设置的系统参数。检测剽窃的最小长度就是项的长度。项在计算机中按照如下方式安排所有项存入一个哈希表中,每一个项都是一个关键字。该表称之为己知项表;每一个项都对应一个文件列表,文件列表中存的是所有包含该项的文件或者文件代码,文件列表用哈希表组织,文件代码是关键字;文件列表中的每一个文件(或者文件代码)都对应一个队列,队列中存储该项在该文件中的所有出现位置,队列中的位置按照有序方式排列。上述疑似剽窃队列,简称为疑似剽窃队列,是由多个项构成的一个有序序列。该序列具有以下特征(1)序列中所有的项都在同一篇文本(记为文本d)中出现;(2)序列中任意两个项的先后顺序由它们在文本d中的出现顺序决定;(3)序列中任意两个相邻项在文本d中的位置相近。上述剽窃证据是文本中的一段连续的文字。该段文字与某个疑似剽窃队列相对应,即疑似剽窃队列中所有的项都出现在该段文字中,并且顺序相同。生成疑似剽窃队列的过程如下(1)待检测文本经过数据清洗之后得到待检测项序列;(2)对待检测项序列中的项依次映射到已知项表上;(3)如果已知项表中对应项的对应已知文本不为空,则把该项及其在已知文本中的位置放入疑似剽窃队列中;(4)如果新放入疑似剽窃队列中的项与该队列中上一个项的位置不相近,则生成一个新的疑似剽窃队列,否则就继续原疑似剽窃队列;(5)重复以上步骤直至待检测项序列处理完。生成疑似证据表的过程如下(1)对疑似剽窃队列中的每一个项,取出其在已知文本中的位置队列;(2)对于位置队列中的每一个位置,判断其是否落在某个雷同区间之内,或者之外;(3)如果当前没有雷同区间,则以当前位置为起止位置构成一个雷同区间,并存入当前雷同队列;(4)如果当前位置在雷同区间之内,则转至(7);(5)如果当前位置在雷同区间之外,并且与雷同区间的起止位置相近,则扩展该雷同区间;(6)如果当前位置在雷同区间之外,并且与雷同区间的起止位置均不相近,则以当前位置为起止位置构成一个雷同区间,并存入当前雷同队列;(7)如果雷同区间足够长,则将其直接存入剽窃证据表中,并从当前雷同队列中删除;(8)重复上述步骤直至疑似剽窃队列处理完。计算文本雷同度并判定文本剽窃的过程如下(1)读入被检测文本对;(2)在证据表中査找该文本对所有的雷同区间(记为P);(3)累计P中所有雷同区间的长度(记为S);(4)找到P中最长雷同区间的长度(记为M);(5)计算S与文本长度之比(记为R);(6)如果R大于指定阈值,则该文本对中包含剽窃;(7)如果M大于指定阈值,则该文本对中包含剽窃;(8)输出有剽窃文本所有的雷同区间作为剽窃证据;以下是发明人给出的较佳实施例,需要说明的是,本发明不限于这些实施例。参照图l,图l为本发明的提供的一个较佳实施例的结构图。该实施例中的计算机系统至少包括电子文本录入模块20、文本特征提取模块30、剽窃证据提取模块40、判定电子文本剽窃模块50和展示检测结果及定位剽窃内容模块60,电子文本录入模块20与文本特征提取模块30连接,文本特征提取模块30与剽窃证据提取模块40连接,剽窃证据提取模块40与文本剽窃判定模块50连接,文本剽窃判定模块50与展示检测结果及定位剽窃内容模块60连接。被检测文本来自于用户人工录入,或者用户现有文本的拷贝,或者用户通过网络下载,或者通过互联网自动获取。在电子文本录入模块20,由用户IO将收集的电子文本录入和提交。在文本特征提取模块30,针对提交的电子文本提取其文本特征,生成项序列。在剽窃证据提取模块40中,从待检测文本生成的项序列中依次取出每个项映射到己知项表上,然后得到疑似剽窃队列和剽窃证据表。在判定电子文本剽窃模块50中,根据剽窃证据表计算出文本对雷同度,并判定剽窃,记录剽窃证据。最后系统通过展示检测结果及定位剽窃内容模块60向用户报告检测结果,并展示剽窃文本具体的剽窃内容作为剽窃证据。图1中,文本特征提取模块30提取文本特征时需要对文本进行预处理。文本预处理包括对文本进行格式转换、分词(切词)、词干处理、去除高频词等操作。格式转换就是把其它格式(比如微软公司word文件,pdf(portabledocumentformat)文件等等)的文本统统转换成纯ASCII码格式文件,使得转换后的文本中不含有非ASCII码的字符。分词或者切词是指按照单词来切割文本,使得文本成为一个长的单词序列而不是一个字符序列。在分词的过程中去掉了各种标点符号、数字、以及其它非字符符号,所有单词之间用统一的一个符号来分隔(比如空格)。词干处理是指把单词的不同词形统统归一到一个词干上。例如把danced,dancing和dance都归一为dance。去除高频词是指把那些出现频率特别高的单词从文本中去除掉,这些高频词包括单字母词、代词、介词、语气词等等,比如a、he、the、of等等。最后文本特征提取模块30把一篇输入文本变成一个长长的项序列。文本特征提取模块30还负责由已知文本构建己知项表。参照图2,图2为检测输入文本,生成疑似剽窃队列的流程图。首先进行步骤201,把一个待检测文本读入计算机中,记为d。接着进行步骤202,从文本d中读取一个项,记为t,并记录其在待测文本中的当前位置,记为P。然后进行步骤203,判断t是否存在于已知项表。如果是,则进行步骤204;否则转至步骤213。在步骤204,取出包含t的所有已知文本。然后在步骤205判断包含t的已知文本是否已经处理完,如果是,则转至步骤213,否则进行步骤206。在步骤206,取出一个未处理的包含t的已知文本d'。然后进行步骤207,取出待测文本与该已知文本的疑似剽窃队列,记为L。接着进行步骤208,判断L长度是否大于指定值T1,如果是,则转至步骤212,否则进行步骤209。在步骤209,取出L最后一项所记的位置,记为p'。然后进行步骤210,判断位置p与p'之差是否大于指定值T2。如果是,则转至步骤212,否则进行步骤211。在步骤211,把t及其现在位置p追加在疑似剽窃队列L的最后。在步骤212,执行检测当前疑似剽窃队列L的操作,获得剽窃证据,详细步骤请参照图3说明。在步骤213,判断待测文本d是否已经读完。如果是,则说明待测文本已经处理完了。否则,转至步骤202,继续上述循环,直至处理完待测文本中所有的项。参照图3,图3为检测疑似剽窃队列,获得剽窃证据的流程图。首先进行步骤301,取出疑似剽窃队列中的一个项,记为t。然后进行步骤302,取出t在已知文件中的位置队列。接着进行步骤303,判断位置队列是否已经处理完。如果是,转至步骤319,否则进行步骤304。在步骤304,取出位置队列中的下一个位置,记为P。然后进行步骤305,判断雷同队列是否已经处理完。如果是,转至步骤307,否则进行步骤306。在步骤307,生成一个新的雷同区间,其起始和终止位置都是位置P,同时记录该项在待测文本中的位置;并把这个新区间插在雷同队列的最后,然后转至步骤318。在步骤306,取出雷同队列中的下一个雷同区间,记为R。然后进行步骤308,计算位置P与区间R的终止位置之差,记为G。接着进行步骤309,判断G是否大于指定值T2。如果是,则进行步骤310,否则转至步骤311。在步骤310,判断区间R的长度是否大于指定值T3。如果是,则进行步骤312,否则转至步骤305。在步骤311,判断G是否大于O。如果是,则进行步骤314,否则转至步骤315。在步骤312,区间R是一段剽窃文字,将R放入剽窃证据表中。接着进行步骤313,从雷同队列中删除区间R,然后转至步骤305。在步骤314,将区间R的终止位置修改为位置P,并将待测文本中雷同区间的终止位置修改为该项的位置,然后转至步骤318。在步骤315,雷同队列中的区间指针退后一步。接着进行步骤316,判断位置P是否小于区间R的起始位置。如果是,则进行步骤317,否则转至步骤318。在步骤317,生成一个新的雷同区间,其起始和终止位置都是位置P,同时记录该项在待测文本中的位置;并把这个新区间插在雷同队列的最后,然后进行步骤318。在步骤318,标记位置P已经处理过,然后转至步骤303。在步骤319,判断疑似剽窃队列中所有项是否已经处理完。如果是,说明疑似剽窃队列已经处理完毕,则把剽窃证据表中相邻的雷同区间合并为较大的雷同区间并保存剽窃证据,然后检测疑似剽窃队列的过程结束。否则转至步骤301,继续上述循环,直至处理完疑似剽窃队列中所有项。参照图4,图4为根据证据表判定文本对是否有剽窃的流程图。首先进行步骤401,读取一个待检测文本,记为d。然后进行步骤402,读取一个已知文本,记为d'。接着进行步骤403,计算证据表中d与d'之间所有雷同区间长度总和,记为s。然后进行步骤404,计算证据表中d与d'之间的最大雷同区间,即长度最大的雷同区间,记为M。接着进行步骤405,计算s与d长度之比值Rl。然后进行步骤406,计算s与d'长度之比值R2。接着进行步骤407,取R1和R2中较大的值,记为R。然后在步骤408,判断R是否大于指定值T4。如果是,则转至步骤411,否则进行步骤409。在步骤409,判断M是否大于指定值T5。如果是,则转至步骤411,否则进行步骤410。在步骤410,判定为d没有剽窃d',然后转至步骤413。在步骤411,判定为d剽窃d'。然后进行步骤412,从证据表中取出雷同区间,在d和d'中分别定位,输出剽窃证据。接着进行步骤413,判断所有已知文本是否已经处理完。如果是,对待测文本d的剽窃判定过程结束。否则转至步骤402,继续上述循环,直至d和所有已知文本都已进行过剽窃判定。权利要求1.一种检测及定位电子文本内容剽窃的方法,其特征在于,该方法利用计算机系统检测电子文本是否含有剽窃内容并且精确定位剽窃文字,所述的计算机系统至少包括电子文本录入模块,用以向计算机系统提交被检测文本或者增添新的被检测文本;文本特征提取模块,用以提取文本特征,生成项序列;剽窃证据提取模块,用以项序列中依次取出每个项映射到已知项表上,生成疑似剽窃队列,获取剽窃证据表;判定电子文本剽窃模块,用以计算被检测文本对雷同度,判定被检测文本中是否含有剽窃内容;展示检测结果及定位剽窃内容模块,用以向用户输出检测结果并展示剽窃文本具体的剽窃内容作为剽窃证据;电子文本录入模块、文本提取特征模块、剽窃证据提取模块、文本剽窃判定模块、展示检测结果及定位剽窃内容模块依次相连,其检测和定位过程包括以下步骤步骤一,对提交被检测文本或者增添新的被检测文本,根据文本结构信息和语义信息提取被检测文本特征,生成待检测项序列;步骤二,依次处理待检测项序列中的所有项,生成疑似剽窃队列;步骤三,检测所有疑似剽窃队列,从中获得剽窃证据,生成证据表;步骤四,根据证据表计算文本雷同度,判定是否有剽窃,如果雷同度大于或等于某个阈值则认为被检测文本中存在剽窃,否则认为被检测文本中没有剽窃;步骤五,被判定有剽窃的文本对从证据表中取出相应剽窃内容,作为剽窃证据显示。2.如权利要求l所述的方法,其特征在于,所述的被检测文本来自于用户人工录入,或者用户现有文本的拷贝,或者用户通过网络下载,或者通过互联网自动获取,被检测文本在计算机中无论以什么格式存储,其呈现的是自然语言为主的内容,不是图形、图像、视频或音频信息。3.如权利要求2所述的方法,其特征在于,所述的自然语言包括中文、英文、日文、朝鲜文、法文、西班牙文、俄文、德文或其它单一语言构成的文本,或者由以上语言混合而成的文本。4.如权利要求l所述的方法,其特征在于,所述的被检测文本被处理的最小单元是项,所述的项是一个或者多个连续的字符,项在计算机系统中按照如下方式安排所有项存入一个哈希表中,每一个项都是一个关键字,并且每一个项都对应一个文件列表,文件列表中存的是所有包含该项的文件或者文件代码,文件列表用哈希表组织,文件代码是关键字;文件列表中的每一个文件或者文件代码都对应一个队列,队列中存储该项在该文件中的所有出现位置,队列中的位置按照有序方式排列。5.如权利要求1所述的方法,其特征在于,所述的疑似剽窃队列是由多个项构成的一个有序序列,该有序序列具有以下特征1)有序序列中所有的项都在同一篇文本中出现;2)有序序列中任意两个项的先后顺序由它们在一篇文本中的出现顺序决定;3)有序序列中任意两个相邻项在一篇文本中的位置相近。6.如权利要求1所述的方法,其特征在于,所述的生成疑似剽窃队列过程按以下步骤进行1)待检测电子文本经过数据清洗之后得到待检测项序列;2)对待检测项序列中的项依次映射到已知项表上;3)如果已知项表中对应项的对应已知文本不为空,则把该项及其在已知文本中的位置放入疑似剽窃队列中;4)如果新放入疑似剽窃队列中的项与该队列中上一个项的位置不相近,则生成一个新的疑似剽窃队列,否则就继续原疑似剽窃队列;5)重复以上步骤2)步骤4),直至待检测项序列处理完。7.如权利要求1所述的方法,其特征在于,所述的获取剽窃证据表的过程按以下步骤进行1)对疑似剽窃队列中的每一个项,取出其在已知文本中的位置队列;2)对于位置队列中的每一个位置,判断其是否落在某个雷同区间之内或者之外;3)如果当前没有雷同区间,则以当前位置为起止位置构成一个雷同区间,并存入当前雷同队列;4)如果当前位置在雷同区间之内,则转至步骤7);5)如果当前位置在雷同区间之外,并且与雷同区间的起止位置相近,则扩展该雷同区间;6)如果当前位置在雷同区间之外,并且与雷同区间的起止位置均不相近,则以当前位置为起止位置构成一个雷同区间,并存入当前雷同队列;7)如果雷同区间足够长,则将其直接存入剽窃证据表中,并从当前雷同队列中删除;8)重复上述步骤l)步骤7),直至疑似剽窃队列处理完。8.如权利要求1所述的方法,其特征在于,所述的判定文本剽窃过程包含以下步骤1)读入被检测文本对;2)在证据表中査找该被检测文本对所有的雷同区间记为P;3)累计P中所有雷同区间的长度记为S;4)找到P中最长雷同区间的长度记为M;5)计算S与文本长度之比记为R;6)如果R大于指定阈值,则该文本对中包含剽窃;7)如果M大于指定阈值,则该文本对中包含剽窃;8)输出有剽窃文本所有的雷同区间作为剽窃证据。9.如权利要求1所述的方法,其特征在于,所述的输出检测结果包括雷同文字占文本篇幅的比率R值和最大雷同片段长度M值。10.如权利要求1所述的方法,其特征在于,所述的定位剽窃文字就是根据证据表中的雷同区间,把该区间所对应的文本内容输出并展现给用户。全文摘要本发明公开了一种利用计算机系统检测及定位电子文本内容剽窃的方法,该计算机系统至少包括电子文本录入模块,文本特征提取模块,剽窃证据提取模块,文本剽窃判定模块,展示检测结果及定位剽窃内容模块。其检测方法首先根据文本结构信息和语义信息提取特征,获得待检测项序列;然后依次处理待检测项序列中的所有项,获得疑似剽窃队列;接着检测所有疑似剽窃队列,从中获得剽窃证据,生成剽窃证据表;然后根据证据表计算文本雷同度,并判定是否有剽窃。如果雷同度大于或等于某个阈值则认为被检测文本中存在剽窃,否则认为被检测文本中没有剽窃。被判定有剽窃的文本对从证据表中取出相应剽窃证据,送入展示模块显示具体剽窃内容。文档编号G06F17/30GK101404037SQ200810232309公开日2009年4月8日申请日期2008年11月18日优先权日2008年11月18日发明者冯中慧,鲍军鹏申请人:西安交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1