一种利用网络资源实现剽窃和格式检查的在线论文管理方法

文档序号:6561213阅读:297来源:国知局

专利名称::一种利用网络资源实现剽窃和格式检查的在线论文管理方法
技术领域
:本发明专利涉及教育与出版业的论文提交与评审工作。
背景技术
:本发明专利面向期刊编辑部、大专院校和国际会议,为它们的编辑、投稿人、审稿人和管理人员提供一个计算机系统,支持他们的在线协同工作。该系统由一台上网计算机、自动剽窃检查软件、自动格式检査软件以及论文提交与评审软件组成。该系统面向论文全生命周期,支持提交者、评审者、论文管理者、单位管理者、论文导师的多角色权限管理和个性化专业工具箱,支持他们的在线协同工作,包括论文创作、交流和评审,进度实时统计,自动通知、定向群发,数据归档等功能。目的是减少管理人员、评审人员和投稿人的工作时间和交流中的失误,节省多余论文打印费、车旅费、电话费、邮递费等,提高工作效率。目前,对考试、文本剽窃已经有一些算法和检测监控方法,例如专利l"一种利用计算机程序检测电子文本剽窃的方法"和专利2"基于计算机网络的防转载或/和反剽窃监控方法"。然而,这些方法本质是基于静态文本特征库的检测。与专利1比较,而本专利的剽窃检査,是目前论文评审过程中手工剽窃检査的自动化,是在网络论文资源具备计算机接口、支持软件远程访问和操作的条件下才可能实现的。因此和上述的方法l的目标、使用场合、技术手段不一样,只是在执行剽窃分析这一环节具有一定的类似性,而这一环节并非本专利的主要特征。专利2只是一种针对静态、特定文档进行数据比较的一种计算机系统实施方法,未涉及网络资源的使用,也没有剽窃检査机制与算法,在目标、应用场合和技术手段上均无本专利的特征。国内外的国际会议、编辑部、高校已经有一些论文管理系统,但是这些系统的主要功能是论文远程提交和评审,均没有自动格式检査和自动剽窃检查的功能,也没有如本系统的多角色权限管理和自动工作流管理。管理人员和评审者需要人工协调论文评审,人工检査论文格式,人工査阅各种文献来判断是否涉嫌剽窃。
发明内容本发明专利面向期刊编辑部、大专院校和国际会议,为它们的编辑、投稿人、审稿人和管理人员提供一套利用计算机系统自动执行格式检查、自动剽窃检查、支持他们在线协同工作的方法与机制。基于该专利的系统实现由一台上网计算机、自动剽窃检査软件、自动格式检査软件以及论文提交与评审软件组成。该系统面向论文全生命周期,支持提交者、评审者、论文管理者、单位管理者、论文导师的多角色权限管理和个性化专业工具箱,支持他们的在线协同工作,包括论文创作、交流和评审,进度实时统计,自动通知、定向群发,数据归档等功能。目的是减少管理人员、评审人员和投稿人的工作时间和交流中的失误,节省多余论文打印费、车旅费、电话费、邮递费等,提高工作效率。汉不万茶1论文管理的组成与机制整个论文管理分为5部分,在计算机系统实现上1)前端是与不同角色用户交互的论文提交界面。各个角色的用户通过它登陆系统,进入自己的工具箱界面。所有的评审交互过程都伴随系统自动发送的EMAIL进行系统边界以外的互联,方便师生进行沟通。系统中所有角色和论文都由管理员用户统一进行管理。论文提交平台建立了论文从提交到评审的完备工作流程,将这一复杂的过程信息化,实现了该流程的无纸化运作。2)服务器端自动运行着论文检査服务中间件,它根据论文提交平台提交上来的论文信息,向检査论文格式、论文抄袭的WebServices提出调用请求,并将检査结果整理成报告形式存入数据库中,论文提交界面把报告展示给用户,用户可查询到论文最新的检査报告。3)论文检查服务中间件负责与检査论文的两个WebServices联系。4)论文格式检查与剽窃检査WebServices的作用是接受论文检査服务中间件发过来的调用请求,接收论文检査服务中间件发送过来的要求检査的论文,把文档存储在自己和核心程序都能访问的共享文件夹(Samba共享)内,并调用核心程序开始检査。最后当检査完毕之后,把结果返还给论文检査服务中间件。这两个WebServices,每次接到一个新的请求便创建出一个新的线程负责处理,该进程首先将文档转换成TXT格式的文件,然后读取整个文件,以句子为单位进行保存,分别进行检査后,给出整体的报告。报告的形式是生成一个检査结果数组,将统计数据,耗时和检査到的结果都写在这个数组中返回。5)最后一部分是搜索引擎,这个是第三方提供的Web搜索引擎,包括GoogleAPI和其他论文检索系统的接口。2功能特征与功能设计1)论文管理部分的功能特征在线协同工作,毕业论文涉及的学生、导师、评审委员、管理人员、主管院长、学位分委员会主席等角色协同在线,无纸办公,免去论文反复打印、传送、修改等的繁琐工作和过程数据丢失之苦。专业工作界面,各个角色登录系统,均为自己所熟悉的界面、所需要的统计数据和工作工具。完善的权限管理,按照不同角色在开提报告和论文业务中的工作内容,有完善的操作权限管理。数据进度统计,进入系统,不同角色可看到自己所关注各项统计数据,如提交论文数、论文状态等数据。在线人员管理,管理人员可以在线管理各种角色,进行评审管理。通知定向群发,根据论文管理中通信需要,为不同角色分别提供了对应的定向通知群发功能。接收人员不但可在系统中看到被发送的消息,同时也会在自己的电子邮件中接收到评审等工作安排通知。完全流程支持,支持从开提报告、专家确定、报告审阅、论文提交、评审分配、论文评审、评语填写直到通过答辩的整个流程。批量打印功能,支持开提报告、学位论文、论文评阅书等的批量输出、打印,方便管理和存档。2)本专利的主要功能设计产品名称支持剽窃和格式检査的在线协同论文管理系统<table>tableseeoriginaldocumentpage5</column></row><table><table>tableseeoriginaldocumentpage6</column></row><table><table>tableseeoriginaldocumentpage7</column></row><table><table>tableseeoriginaldocumentpage8</column></row><table>3)论文检査服务中间件接受用户提交的论文接受Word格式的文档向检査论文格式的WS发出调用请求向检査论文抄袭的WS发出调用请求接收检査的结果,将检查结果返还给用户4)检査论文两个的WebServices接受用户的调用请求接收上传过来的需要检査的文档维护与核心部分能共同访问的共享文件夹(Samba共享)激活核心部分的程序,开始进行检査(Sockets通讯)将检査结果反馈回给论文提交网站核心程序接受WS的调用命令,创建新的线程处理该请求将文档由Word格式转换为TEXT文件读取模版格式读取全文格式,并与模版对照读取全文存入数组对句子进行分词,并生成相应的URL请求与GoogleAPI交互,获取返回信息读取返回信息,运行比对算法统计最终的结果,生成检査结果报告5)搜索弓l擎、将关键词封装到URL请求中去从返回的HTML页面中获取査询的结果3格式检査技术方案系统的自动格式检查功能基于论文检査单位的论文模板,通过计算机软件获取论文模板和所提交论文的格式,执行比对,输出不一致的(错误)格式项目。自动格式检查的实现主要是基于Word文件及其二次开发环境。非Word文档的论文数据,首先要转换成为Word格式。OfficeWord中有几十种自带的样式,并且可以由用户自定义新的样式,而每种样式又是由一系列的子元素构成的,如标题一的元素定义为"正文+段落大纲l.段落上端间距17磅,段落下端间距16.5磅,行距多倍,行距大小2.4字行,段中不分页,与下端同页,粗体,字号二号,字距调整二号",而这些元素又是用一系列Word自定义标签来表示的,粗略统计有几百种元素。使用WordAPI把word转成XML文件,所有的格式元素都以XML标签的形式发挥其作用。这是经过中间层转换后的XML,所以有中文tag,如果是直接转换的XML,其tag全为英文,这样对于一些比较偏僻的tag就很难了解其表达含义了。在本方案中,对较为常见的tag定义了语义库,格式检查的基本算法如下提取标准模版中的所有样式及其相应的元素定义提取提交文档中的所有样式及其相应的元素定义对提交文档逐句检査其应用样式若其应用样式在模版样式中存在,则对比其元素是否与模版中此样式的元素一一相符,若不符则归结为样式设置错误若其应用样式在模版样式中不存在,则提示为所应用的样式不存在,请校正。4剽窃检查技术方案系统的自动剽窃检査功能基于开放的网络文献资源、图书馆在线资源、系统自建论文资源,利用计算机软件获取文献、分解文献、检查文献来实现。世界上现有的搜索引擎能够处理的搜索字串都不超过二十个单字(单词),超过的话搜索精度就会大大降低。如果输入的关键字有限,则失去了句子的整体性,无法判断其句子的相识度,仅是个别词相识是不能说明问题的。特别是在较长的论文中,较之整篇大面积的照搬,抄袭更多情况是拼接。抄袭者常常将原文中的词句或观点糅合起来,并用自己的语言和观点来说明;或者是从不同的资料来源中找到自己需要的,不注明来源,拼接成自己的东西;或者将注明引用的和未注明引用的文字糅合在一起。首先我们要对最容易相似的关键词,如标题、作者、摘要等要素进行提取。如果提交的word文档在文件属性中有这些属性,那可以通过WordAPI直接提取,如果Word文件文件名不包含相关信息,那么论文标题,作者,作者身份等信息该如何获取并不是一件容易的事。因为不是所有论文都是按照严格的统一格式书写的,即使是有标准格式,这些标准也不是唯一的,这就造成上述信息不能简单地通过定位来确定。我们的处理方法是(以作者名字为例)作者名字是以单独语素存在的,也就是说,问题转化为,当获得一个语素时如何判断其是否为作者姓名。1、该语素应该满足姓名的命名法则,即从语素本身的characteristic入手。例如姓氏是有一定取值范围的,同时姓名长度也是有一定范围的。任何一个语素按照characteristic的规则可以获得一个权值c。2、从语素在全文的位置考虑,即从语素的location入手。例如作者姓名只可能出现在文档前面或者最后的一定范围内,该位置值可能是绝对位置或者是百分比位置,并且应该定义为一个范围。同样,每个语素都获得一个权值l。3、从语素所在的上下文考虑,即从语素的context入手。例如作者姓名前后应该是描述作者的单位,编号等信息,当信息符合时,该语素应获得更高的权值t。综上,一个语素最后可得到一个综合权值q,当q值达到某一水平才会被认为是目标。Google的一个变化是开始采用词干法进行搜索服务。换言之,如果在搜索框中键入"dietary",那么也会得到一些基于"diet"的搜索结果。也就是说,它不再拘泥搜索与输入査询完全相同的词语,亦会向用户提供与部分或所有查iU词语相近的搜索结果。例如,对于査询词语"petlemurdietaryneeds",Google也会显示"petlemurdietneeds"及其它词性变化形式的搜索结果。而且对于搜索结果页上出现的査询词本身及其不同的变化形式,Google会以粗体突出表示。"所以我们采用逐句式搜索,先以逗点为分割符分割文本,然后对短剧进行有效性筛选,去除一些通用性语句,如"thanks"、"bytheway"等不能说明问题的句子。将剩下的有效句子记录到array中,用做调用Googlesearch的输入关键词。反剽窃的算法的实现。算法的好坏和编程的情况是决定整个检验过程的效果和效率的关键。因为中英文的文章风格,用词,标点符号都是有差别的,很难说能开发一个任何语言都能通吃,且效率又都特别好的算法。所以我们针对英文论文进行算法实现。我们的算法基于一个假设涉嫌剽窃的论文,至少都是一整段内容的照搬。单独句子的出现可能是因为作者有引用他人的文章,而不是说剽窃,但是存在很多句子被发现,甚至是大段大段的内容被发现,则必定说明作者剽窃了他人的论文。反剽窃的算法的设计如下接收论文,转换为TXT格式句子识别&单词识别单句搜索&随机起点比对结果&"CheckNext"策略按照要求重复3,4步骤结果统计因为设计的时候考虑到文章过长可能会耗很长的时间,所以在全文检査的基础上设置了一个检査间隔,例如,选择检査间隔为IO,那么每隔10句话,会检查一次,这样有个问题,就是起点如何定,在1一10这个间隔范围内,从哪句话开始检查,我们采用了随机数的方法,每次会从间隔起点的范围内挑选一个数作为开始检查的位置。这样就能保证检査的随机性,而不至于每次都只能检査到文章的同一部分。如果整句话能在google上搜索到,那么这句话肯定是抄袭来的'。如果整篇文章或整段文章存在大量的整句的抄袭,而且出处又集中在几篇文章内,那么肯定可以判断文章是抄袭的了。这样做的好处是只要去向Google査询就行了,而不用去把找来的文章做两两对比,比较节约时间。选取了査找句后就是调用GoogleAPI进行搜索.Google搜索引擎提供了基于SOAP的WebService。这意味着不同的开发语言、开发环境都能够使用这种服务,另外,Google为了简化Java程序员的开发,它还提供了一套JavaAPI接口,用于访问WebSerivce,这使得开发一套支持Google搜索功能的程序变得十分容易。开发人员可以将Google的搜索功能嵌入到他们的应用程序当中。目前,Google的API还是处于Beta测试阶段,因此,在API的使用上还有一些限制。例如,使用这些API需要申请一个帐号。对于免费申请的帐号,为了防止开发人员不正当的使用,限制每个帐号、每天最多只能查询1000次。目前,Google还没有提出正式的运营模式和收费方式。GoogleAPI目前主要提供三种服务,分别如下1)搜索服务。用户提交一个搜索内容请求,Google服务器将査找超过20亿的网页内容,并且将满足用户需求的目标返回给用户,一般来说这种处理只需要几秒的时间。2)缓存服务(Cache)。用户提交一个URL,Google服务器将返回搜索器访问该URL的最新记录。这样,用户很容易复用Google的搜索成果。3)拼写检査。该功能用于检査用户的查询请求是否有效。用户提交一个检査内容,Google服务器将返回有效的、最接近该内容的查询请求,返回的査询请求将符合Google的査询规则。Google提供了基于SOAP的WebService,因此用户可以向Google服务器提交SOAP的査询请求,而后Google服务器将处理这些请求,并返回SOAP格式的査询结果。和GoogleAPI交互之后,会得到Google的返回结果,这时我们需要进行内容的解析,首先判断是不是什么都没査到,如果是这样的话,本次查询就结束了。如果有査询到内容,那么就读取査到的内容,和进行査询的那句句子进行比对,如果发现两者相同或者相似,那么就把内容记录下来。抄袭有以下几种方式1、照抄不误,等于C0PY,有的甚至连标点符号也不放过。这是一种低级的抄袭,这种情况很容易检测,但并不常见。2、抄袭别人的核心观点,放在自己的语言体系中。这种抄袭较为常见。3、袭用别人的理论模型或框架、方法、定理,再加一些叙述。这种抄袭也较多。4、改写别人的文字,加上自己的一些看法,但通读之后使人感到了无新意,并能发现文章的出处原型。5、引用别人的成果不老实,如有些地方加注明,有些地方不注明,只是改写,在数量上篇幅较大。或大量引用别人引用过的资料不说明转引,也属对别人劳动成果的一种剽窃,是较常见的抄袭行为。为了区分这几种抄袭,在设计上,我们采用相似度权值的方法。标准如下<table>tableseeoriginaldocumentpage11</column></row><table>在我们的怀疑记录中目前不记录O.7以下的记录。在Google返回的结果中,已经按照搜索词的关联度进行排序了,也就是说从第一条开始读取记录进行比较是最有可能找到相似句子的,并且在返回的结果中有个summary字段是搜索到的文件中包含关键词的一段话,所以和summaiT字段进行比较就可以了。那么如果本句话被査到了,那么它的下一句应该也会在Google的返回结果中,只要我们再比对一下下一句话,那么很大的程度上能够命中。这样就能减少一次査询。这个就是CheckNext的策略。这个策略对于抄袭越严重的论文,检查的速度会越快。文档一从第一个语素开始,每个语素都与文档二的每个语素顺序比较,当找到匹配时R印ort对象加入元素。做完所有匹配之后,调用R印ort类的summarizing()函数进行归纳,对相邻元素连续匹配加以合并。为了节省搜索时间,我们只取搜索结果的前10条进行比对。检査完一句话后,然后在拿出下一句话进行检查,这样反复直到所有该检查的句子都检査完毕了,这样査询过程也就结束了。接下来是一些统计数据的生成,以及报告的表达形式,多种匹配方式的支持。专利效果本专利面向期刊编辑部、大专院校和国际会议,为它们的编辑、投稿人、审稿人和管理人员提供一个计算机系统,支持他们的在线协同工作。该系统由一台上网计算机、自动剽窃检査软件、自动格式检查软件以及论文提交与评审软件组成。该系统面向论文全生命周期,支持论文创作和交流、面向提交者、评审者、论文管理者、单位管理者、论文导师的多角色权限管理和个性化专业工具箱,进度实时统计,自动通知、定向群发,数据归档等功能。目的是减少管理人员、评审人员和投稿人的工作时间和交流中的失误,节省多余论文打印费、车旅费、电话费、邮递费等,提高工作效率。专利案例表明,该系统可以免除管理人员和师生60-80%的工作量,减少不必要的时间精力消耗,每年节省开支1万一6万多元,提高工作效率30%以上,把大家从琐碎、烦杂的论文创作、提交、修改、评审、管理等工作中解脱出来。下面结合图片说明介绍本专利具体实施方式。图l是本专利的计算机系统组成图。图2是本专利的系统软件结构。图3是本专利的论文检査服务中间件类图示例。图4是本专利实施例中的用户登陆界面。图5是本专利实施例中的论文管理人员界面。图6是本专利实施例中的论文格式检査界面。图7是本专利实施例中的论文剽窃检査界面。具体实施例方式本专利面向期刊编辑部、大专院校和国际会议,为它们的编辑、投稿人、审稿人和管理人员提供一套利用计算机系统自动执行格式检査、自动剽窃检查、支持他们在线协同工作的方法与机制。基于本专利所描述方法与机制的系统实施例是复旦大学的学位论文提交与评审系统。1论文管理的组成与机制如图1所示,整个论文管理分为5部分,在计算机系统实现上1)前端是与不同角色用户交互的论文提交界面。各个角色的用户通过它登陆系统,进入自己的工具箱界面。所有的评审交互过程都伴随系统自动发送的EMAIL进行系统边界以外的互联,方便师生进行沟通。系统中所有角色和论文都由管理员用户统一进行管理。论文提交平台建立了论文从提交到评审的完备工作流程,将这一复杂的过程信息化,实现了该流程的无纸化运作。2)服务器端自动运行着论文检查服务中间件,它根据论文提交平台提交上来的论文信息,向检査论文格式、论文抄袭的WebServices提出调用请求,并将检査结果整理成报告形式存入数据库中,论文提交界面把报告展示给用户,用户可査询到论文最新的检査报告。3)论文检査服务中间件负责与检査论文的两个WebServices联系。4)论文格式检査与剽窃检査WebServices的作用是接受论文检查服务中间件发过来的调用请求,接收论文检査服务中间件发送过来的要求检査的论文,把文档存储在自己和核心程序都能访问的共享文件夹(Samba共享)内,并调用核心程序开始检査。最后当检查完毕之后,把结果返还给论文检查服务中间件。这两个WebServices,每次接到一个新的请求便创建出一个新的线程负责处理,该进程首先将文档转换成TXT格式的文件,然后读取整个文件,以句子为单位进行保存,分别进行检查后,给出整体的报告。报告的形式是生成一个检査结果数组,将统计数据,耗时和检査到的结果都写在这个数组中返回。5)最后一部分是搜索引擎,这个是第三方提供的Web搜索引擎,包括GoogleAPI和其他论文检索系统的接口。2功能特征与功能设计图4是本专利实施例中的用户登陆界面。图5是本专利实施例中的论文管理人员界面。1)论文管理部分的功能特征在线协同工作,毕业论文涉及的学生、导师、评审委员、管理人员、主管院长、学位分委员会主席等角色协同在线,无纸办公,免去论文反复打印、传送、修改等的繁琐工作和过程数据丢失之苦。专业工作界面,各个角色登录系统,均为自己所熟悉的界面、所需要的统计数据和工作工具。完善的权限管理,按照不同角色在开提报告和论文业务中的工作内容,有完善的操作权限管理。数据进度统计,进入系统,不同角色可看到自己所关注各项统计数据,如提交论文数、论文状态等数据。在线人员管理,管理人员可以在线管理各种角色,进行评审管理。通知定向群发,根据论文管理中通信需要,为不同角色分别提供了对应的定向通知群发功能。接收人员不但可在系统中看到被发送的消息,同时也会在自己的电子邮件中接收到评审等工作安排通知。完全流程支持,支持从开提报告、专家确定、报告审阅、论文提交、评审分配、论文评审、评语填写直到通过答辩的整个流程。批量打印功能,支持开提报告、学位论文、论文评阅书等的批量输出、打印,方便管理和存档。2<table>tableseeoriginaldocumentpage13</column></row><table><table>tableseeoriginaldocumentpage14</column></row><table><table>tableseeoriginaldocumentpage15</column></row><table><table>complextableseeoriginaldocumentpage16</column></row><table><table>tableseeoriginaldocumentpage17</column></row><table>3)论文检查服务中间件接受用户提交的论文接受Word格式的文档向检査论文格式的WS发出调用请求向检查论文抄袭的WS发出调用请求接收检查的结果,将检查结果返还给用户4)检査论文两个的WebServices接受用户的调用请求接收上传过来的需要检査的文档维护与核心部分能共同访问的共享文件夹(Samba共享)激活核心部分的程序,开始进行检査(Sockets通讯)将检査结果反馈回给论文提交网站核心程序接受WS的调用命令,创建新的线程处理该请求将文档由Word格式转换为TEXT文件读取模版格式读取全文格式,并与模版对照读取全文存入数组对句子进行分词,并生成相应的URL请求与GoogleAPI交互,获取返回信息读取返回信息,运行比对算法统计最终的结果,生成检查结果报告5)搜索引擎将关键词封装到URL请求中去从返回的HTML页面中获取査询的结果3格式检査技术方案图6是本专利实施例中的论文格式检查界面。系统的自动格式检查功能基于论文检查单位的论文模板,通过计算机软件获取论文模板和所提交论文的格式,执行比对,输出不一致的(错误)格式项目。自动格式检查的实现主要是基于Word文件及其二次开发环境。非Word文档的论文数据,首先要转换成为Word格式。OfficeWord中有几十种自带的样式,并且可以由用户自定义新的样式,而每种样式又是由一系列的子元素构成的,如标题一的元素定义为"正文+段落大纲l.段落上端间距17磅,段落下端间距16.5磅,行距多倍,行距大小2.4字行,段中不分页,与下端同页,粗体,字号二号,字距调整二号",而这些元素又是用一系列Word自定义标签来表示的,粗略统计有几百种元素。使用WordAPI把word转成XML文件,形式如下<xmlversion="1.0"encoding="UTF-8"><uof:UOFxmlns:uof="http:〃schemas.uof.org/cn/2003/uof"xmlns:="http:〃schemas.uof.org/cn/2003/graph"xmlns:="http:〃schemas.uof.org/cn/2003/uof-wordproc"xmlns:="http:〃schemas.uof.org/cn/2003/uof-spreadsheet"xmlns:="http:〃schemas.uof.org/cn/2003/uof-slideshow"xmlns:xsi="http:〃www.w3.org/2001/XMLSchema-instance"xsi:schemaLocaticm="http:〃schemas.uof.org/cn/2003/uofD:\UOF\uof_schema\uof.xsd"uof:language="cn"uof:version="1.0"uof:locID="u0000">〈uof:元数据uof:locID="u0001">〈uof:标题uof:lodD-"u0002"〉基于Googlewebservice的论文査抄袭系统々uof:标题〉〈uof:创建者uof:locID^'u0004"x/uof:创建者>〈uof:最后作者uof:locID="u0006">々uof:最后作者〉〈uof:创建日期uof:loclD-"u0008"〉2006-05-30T02:00:00〈/uof:创建日期>〈uof:编辑次数uof:locID="u0009">3K/uof:编辑次数〉〈uof:编辑时间uof:locID-"u0010"〉P0Y0M0DT0H55M6S〈/uof:编辑时间〉〈uof:创建应用程序uof:locID="u001l">EIOffice2007〈/uof:创建应用程序〉〈uof:公司名称uof:locID="u0018">SoftwareFudan.lK/uof:公司名称〉々uof:元数据〉〈uof:书签集uof:locID="u0027">〈uof:书签uof:locID="u0028"uof:attrLisf名称"叫f:名称一'—Tocl38184650">〈uof:文本位置uof:locID="u0029"uof:attrLisH'区域引用"字:区域引用-"bk—Tocl38184650'7>々uof:书签〉々uof:书签集〉〈uof:对象集uof:locID="u0033">〈uof:其他对象uof:locID="u0036"uof:attrLisf标识符内嵌公共类型私有类型"uof:标识符-"OBJ00002"uof:内嵌-"false"uof:公共类型-"png、〈uof:数据uof:locID="u0037">々uof:数据〉々uof:其他对象〉<图:图形uof:locID="g0000"uof:attrLisf层次标识符组合列表其他对象"图:层次="4"图:标识符-"OBJ0000r图:其他对象y'OBJ00002"〉<图:预定义图形uof:locID="g0005"><图:类别uof:locID="g0006">l1</图:类别><图:名称uof:locID-"g0007"〉Rectangle〈/图:名称><图:生成软件uof:locID^'g0008"〉EIOffice々图:生成软件〉<图:属性uof:locID="g0011"><图:线型uof:locID-"g0014,single〈/图:线型〉<图:线粗细uof:loclD-"g0016"X).75々图:线粗细〉<图:宽度uof:locID="g0023">36.00055</图:宽度><图:高度uof:locIDJg0024"〉36.00055々图:高度><图:旋转角度uof:locID-"g0025"X).(X/图:旋转角度〉<图:锁定纵横比uof:locID="g0028">1</图:锁定纵横比><图:打印对象uof:locID-"g0032"〉true〈/图:打印对象〉〈图:Web文字uof:locID^'g0033"〉Graph々图:Web文字></图:属性></图:预定义图形></图:图形>可以看到,所有的格式元素都以XML标签的形式发挥其作用。这还是经过中间层转换后的XML,所以有中文tag,如果是直接转换的XML,其tag全为英文,这样对于一些比较偏僻的tag就很难了解其表达含义了。在本系统中,对较为常见的tag定义了语义库,格式检査的基本算法如下提取标准模版中的所有样式及其相应的元素定义提取提交文档中的所有样式及其相应的元素定义对提交文档逐句检査其应用样式若其应用样式在模版样式中存在,则对比其元素是否与模版中此样式的元素一一相符,若不符则归结为样式设置错误若其应用样式在模版样式中不存在,则提示为所应用的样式不存在,请校正。此部分服务的难点在于,Word转成xml后,其层次结构相当复杂,尤其是当样式中设置的元素过多或是存在复杂表格的时候,一个短句的格式相关结构会达到10层左右,并且元素标签的数量巨大,要准确地定位语句和准确提取元素标签,是很费时和占资源的,如果提交的文档过大(一般大于2M)就会在运行过程中因资源耗尽而出错终止。所以本系统采用分段传输word,分段检查,最后合并检査报告的方法来解决这个问题。4剽窃检査技术方案图7是本专利实施例中的论文剽窃检査界面。系统的自动剽窃检査功能基于开放的网络文献资源、图书馆在线资源、系统自建论文资源,利用计算机软件获取文献、分解文献、检查文献来实现。世界上现有的搜索引擎能够处理的搜索字串都不超过二十个单字(单词),超过的话搜索精度就会大大降低。如果输入的关键字有限,则失去了句子的整体性,无法判断其句子的相识度,仅是个别词相识是不能说明问题的。特别是在较长的论文中,较之整篇大面积的照搬,抄袭更多情况是拼接。抄袭者常常将原文中的词句或观点糅合起来,并用自己的语言和观点来说明;或者是从不同的资料来源中找到自己需要的,不注明来源,拼接成自己的东西;或者将注明引用的和未注明引用的文字糅合在一起。所以如何向Googlewebservice发送合理的搜索关键字是本项目的难点。首先我们要对最容易相似的关键词,如标题、作者、摘要等要素进行提取。如果提交的word文档在文件属性中有这些属性,那可以通过WordAPI直接提取,如果Word文件文件名不包含相关信息,那么论文标题,作者,作者身份等信息该如何获取并不是一件容易的事。因为不是所有论文都是按照严格的统一格式书写的,即使是有标准格式,这些标准也不是唯一的,这就造成上述信息不能简单地通过定位来确定。我们的处理方法是(以作者名字为例)作者名字是以单独语素存在的,也就是说,问题转化为,当获得一个语素时如何判断其是否为作者姓名。1、该语素应该满足姓名的命名法则,即从语素本身的characteristic入手。例如姓氏是有一定取值范围的,同时姓名长度也是有一定范围的。任何一个语素按照characteristic的规则可以获得一个权值c。2、从语素在全文的位置考虑,即从语素的location入手。例如作者姓名只可能出现在文档前面或者最后的一定范围内,该位置值可能是绝对位置或者是百分比位置,并且应该定义为一个范围。同样,每个语素都获得一个权值l。3、从语素所在的上下文考虑,即从语素的context入手。例如作者姓名前后应该是描述作者的单位,编号等信息,当信息符合时,该语素应获得更高的权值t。综上,一个语素最后可得到一个综合权值q,当q值达到某一水平才会被认为是目标。Google的一个变化是开始采用词干法进行搜索服务。换言之,如果在搜索框中键入"dietary",那么也会得到一些基于"diet"的搜索结果。也就是说,它不再拘泥搜索与输入査询完全相同的词语,亦会向用户提供与部分或所有査il]词语相近的搜索结果。例如,对于査询词语"petlemurdietaryneeds",Google也会显示"petlemurdietneeds"及其它词性变化形式的搜索结果。而且对于搜索结果页上出现的査询词本身及其不同的变化形式,Google会以粗体突出表示。"所以我们采用逐句式搜索,先以逗点为分割符分割文本,然后对短剧进行有效性筛选,去除一些通用性语句,如"thanks"、"bytheway"等不能说明问题的句子。将剩下的有效句子记录到array中,用做调用Googlesearch的输入关键词。反剽窃的算法的实现。算法的好坏和编程的情况是决定整个检验过程的效果和效率的关键。因为中英文的文章风格,用词,标点符号都是有差别的,很难说能开发一个任何语言都能通吃,且效率又都特别好的算法。所以我们针对英文论文进行算法实现。我们的算法基于一个假设涉嫌剽窃的论文,至少都是一整段内容的照搬。单独句子的出现可能是因为作者有引用他人的文章,而不是说剽窃,但是存在很多句子被发现,甚至是大段大段的内容被发现,则必定说明作者剽窃了他人的论文反剽窃的算法的设计如下接收论文,转换为TXT格式句子识别&单词识别单句搜索&随机起点比对结果&"CheckNext"策略按照要求重复3,4步骤结果统计因为设计的时候考虑到文章过长可能会耗很长的时间,所以在全文检査的基础上设置了一个检査间隔,例如,选择检查间隔为IO,那么每隔10句话,会检査一次,这样有个问题,就是起点如何定,在1一10这个间隔范围内,从哪句话开始检査,我们采用了随机数的方法,每次会从间隔起点的范围内挑选一个数作为开始检査的位置。这样就能保证检査的随机性,而不至于每次都只能检査到文章的同一部分。如果整句话能在google上搜索到,那么这句话肯定是抄袭来的'。如果整篇文章或整段文章存在大量的整句的抄袭,而且出处又集中在几篇文章内,那么肯定可以判断文章是抄袭的了。这样做的好处是只要去向Google查询就行了,而不用去把找来的文章做两两对比,比较节约时间。选取了査找句后就是调用GoogleAPI进行搜索.Google搜索引擎提供了基于SOAP的WebService。这意味着不同的开发语言、开发环境都能够使用这种服务,另外,Google为了简化Java程序员的开发,它还提供了一套JavaAPI接口,用于访问WebSerivce,这使得开发一套支持Google搜索功能的程序变得十分容易。开发人员可以将Google的搜索功能嵌入到他们的应用程序当中。目前,Google的API还是处于Beta测试阶段,因此,在API的使用上还有一些限制。例如,使用这些API需要申请一个帐号。对于免费申请的帐号,为了防止开发人员不正当的使用,限制每个帐号、每天最多只能査询1000次。目前,Google还没有提出正式的运营模式和收费方式。GoogleAPI目前主要提供三种服务,分别如下1)搜索服务。用户提交一个搜索内容请求,Google服务器将查找超过20亿的网页内容,并且将满足用户需求的目标返回给用户,一般来说这种处理只需要几秒的时间。2)缓存服务(Cache)。用户提交一个URL,Google服务器将返回搜索器访问该URL的最新记录。这样,用户很容易复用Google的搜索成果。3)拼写检查。该功能用于检査用户的査询请求是否有效。用户提交一个检査内容,Google服务器将返回有效的、最接近该内容的査询请求,返回的査询请求将符合Google的查询规则。Google提供了基于SOAP的WebService,因此用户可以向Google服务器提交SOAP的査询请求,而后Google服务器将处理这些请求,并返回SOAP格式的査询结果。和GoogleAPI交互之后,会得到Google的返回结果,这时我们需要进行内容的解析,首先判断是不是什么都没查到,如果是这样的话,本次查询就结束了。如果有査询到内容,那么就读取查到的内容,和进行査询的那句句子进行比对,如果发现两者相同或者相似,那么就把内容记录下来。抄袭有以下几种方式1、照抄不误,等于C0PY,有的甚至连标点符号也不放过。这是一种低级的抄袭,这种情况很容易检测,但并不常见。2、抄袭别人的核心观点,放在自己的语言体系中。这种抄袭较为常见。3、袭用别人的理论模型或框架、方法、定理,再加一些叙述。这种抄袭也较多。4、改写别人的文字,加上自己的一些看法,但通读之后使人感到了无新意,并能发现文章的出处原型。5、引用别人的成果不老实,如有些地方加注明,有些地方不注明,只是改写,在数量上篇幅较大。或大量引用别人引用过的资料不说明转引,也属对别人劳动成果的一种剽窃,是较常见的抄袭行为。为了区分这几种抄袭,在设计上,我们采用相似度权值的方法。标准如下<table>tableseeoriginaldocumentpage21</column></row><table>在我们的怀疑记录中目前不记录O.7以下的记录。在Google返回的结果中,已经按照搜索词的关联度进行排序了,也就是说从第一条开始读取记录进行比较是最有可能找到相似句子的,并且在返回的结果中有个summary字段是搜索到的文件中包含关键词的一段话,所以和sumraary字段进行比较就可以了。那么如果本句话被査到了,那么它的下一句应该也会在Google的返回结果中,只要我们再比对一下下一句话,那么很大的程度上能够命中。这样就能减少一次査询。这个就是CheckNext的策略。这个策略对于抄袭越严重的论文,检查的速度会越快。文档一从第一个语素开始,每个语素都与文档二的每个语素顺序比较,当找到匹配时R印ort对象加入元素。做完所有匹配之后,调用R印ort类的summarizing()函数进行归纳,对相邻元素连续匹配加以合并。为了节省搜索时间,我们只取搜索结果的前10条进行比对。检査完一句话后,然后在拿出下一句话进行检査,这样反复直到所有该检査的句子都检查完毕了,这样查询过程也就结束了。接下来是一些统计数据的生成,以及报告的表达形式,多种匹配方式的支持。5系统业务流程<table>tableseeoriginaldocumentpage22</column></row><table><table>tableseeoriginaldocumentpage23</column></row><table>6系统实现的软件结构支持本专利实现的整个论文管理系统软件结构如图2所示。论文检査服务中间件负责与检查论文的两个WebServices联系,其结构如图2所示。7系统开发环境系统在开发环境为Tomcat+Axis+Java。环境配置步骤如下1)建立Java开发环境,Java.SDKl.3.1或更新的版本。相关地址http:.〃java.sun.com/J2SE2)下载GoogleAPI的Jar文件,Google即i.jar。开发人员可以到http:〃www.google,com/即is下载。3)申请Google访问帐号,目前Google支持免费申请的方式,用户需要使用一个email帐号来获取新帐号。注意,目前免费帐号支持每天1000条的最大査询量。申请地址http://www.google.com/apis。4)(可选)如果用户需要通过Java程序直接发送SOAP请求,开发人员需要下载相关的Java软件包,JAXM。下载±也址http:〃Java.sun.com/xmlWebServices部署步骤如下1)安装Tomcat服务器,tomcat5.0或更新版本,并确保tomcat服务器能够正常运行。2)将Axis工具包解压到Tomcat安装目录的webapps目录下。3)把检查服务的WebService的plgpreventing.jar包复制到axisMVEB-INF、lib下4)将jacob.dll复制到windows、system32文件夹下5)依次分别运行格式检查服务的und印loy.bat与d印loy.bat,以及剽窃检查服务的undeploy.bat与d印loy.bat。6)重启tomcat服务器7)打开浏览器,在地址栏上输入hUp:〃localhost:端口号/axis/services/,检査服务是否存在。若存在则表示WebService部署成功8软硬件配置软件配置-Microsoft.NETFramework1.1—MicrosoftSQLServer2000EnterpriseEdition一MicrosoftSMTPServer一MicrosoftIIS-JavaSDK1.3.2-Tomcat5.0-Axis工具包硬件配置服务器应具有如下配置-最低配置PIII550双CPU、512M内存、15G快速硬盘-推荐配置双致强CPU、2048M内存、36G以上高速热拔插硬盘(磁盘整列)-客户端应具备如下配置-系统配置PII233以上,128M内存,IOG硬盘-操作系统Windows98以上-浏览器IE5.5以上权利要求1支持剽窃检查和格式检查的在线论文管理方法与实现机制。基于该专利的计算机系统由一台上网的计算机、自动剽窃检查软件、自动格式检查软件以及论文提交与评审软件组成。该专利面向论文全生命周期,支持提交者、评审者、论文管理者、单位管理者、论文导师的多角色权限管理,支持他们的协同在线工作,包括论文创作、提交、交流、评审、管理。其主要特征包括利用Word开发环境实现论文自动格式检查、利用网络论文资源实习论文自动剽窃检查的方法、机制和软件实现方法,个性化专业工具箱和协同工作流机制,进度实时统计,通知定向群发,数据归档等功能。2"权利要求l"中的论文自动剽窃检査及其实现方法。特征基于开放的网络文献资源、图书馆在线资源、系统自建论文资源,利用计算机软件获取、分解、检査文献,同时分解待检査论文,通过语义匹配和剽窃判断规则给出涉嫌剽窃的部分。3"权利要求l"中的论文自动格式检査及其实现方法。特征基于论文检査单位的论文模板,通过计算机软件获取论文模板和所提交论文的格式,执行比对,输出不一致的(错误)格式项目说明。全文摘要1)本发明包括面向论文全生命周期的协同在线论文管理、利用Word开发环境实现论文自动格式检查、利用网络论文资源实习论文自动剽窃检查的方法、机制和软件实现方法。基于该发明的系统实现由一台上网的计算机、自动剽窃检查软件、自动格式检查软件以及论文提交与评审软件组成,目前的实施例是复旦大学。该发明所实现的系统,针对论文全生命周期的专业业务流程,支持论文创作交流、在线提交、评审、管理的协同在线管理。目的是减少管理人员、评审人员和投稿人的工作时间和交流中的失误,节省多余论文打印费、车旅费、电话费、邮递费等,提高工作效率。2)系统的自动剽窃检查功能基于开放的网络文献资源、图书馆在线资源、系统自建论文资源,利用计算机软件获取文献、分解文献、检查文献来实现。系统的自动格式检查功能基于论文检查单位的论文模板,通过计算机软件获取论文模板和所提交论文的格式,执行比对,输出不一致的(错误)格式项目。面向论文全生命周期的协同在线论文管理,包括面向论文提交者、评审者、论文管理者、单位管理者、论文导师的多角色权限管理,个性化专业工具箱,进度实时统计,通知定向群发,数据归档等功能。文档编号G06Q50/20GK101178786SQ200610118150公开日2008年5月14日申请日期2006年11月9日优先权日2006年11月9日发明者涛李,李银胜申请人:上海晨鸟信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1