基于终端的论文查重方法、终端及存储介质与流程

文档序号:15851564发布日期:2018-11-07 10:04阅读:132来源:国知局
基于终端的论文查重方法、终端及存储介质与流程

本发明涉及计算机技术领域,尤其涉及基于终端的论文查重方法、终端及计算机可读存储介质。

背景技术

院校学生或科研工作者在自身研究的技术方向上取得一定技术成果时,需要进行论文的发表。而在论文发表之前,需要对论文的重复率进行反复检测,以避免其中大量篇幅与已公开文献重复,从而影响论文本身的价值。

目前已有的论文查重软件在进行查重时主要是根据用户上传的论文进行检测,然后在检测完成后生成查重检测报告,该查重检测报告详细记录有用户提交的论文中哪句话与已公开文献的相似度过高以及对应的相似来源。用户则需要从论文查重软件中下载该查重检测报告,并根据查重检测报告进行相关内容的修改,然后再次将论文上传至论文查重软件,直至论文的重复率符合要求为止。这种论文查重方法存在如下问题:

用户在对照查重检测报告的内容进行相应修改时,需要根据查重检测报告的内容在论文文档中查找需要修改的段落或语句,此外对照修改时还需要在两个独立的文档间进行反复切换,因此修改操作麻烦且耗费时间长。



技术实现要素:

基于此,本发明提供一种基于终端的论文查重方法、终端及计算机可读存储介质,用于解决问题。

第一方面,本发明提供一种基于终端的论文查重方法,包括步骤:

响应用户的论文查重请求;

将所述论文与预设数据库中的文本内容进行指纹匹配,以确定所述论文与所述文本内容间的相似度;

在终端显示界面上同时显示至少三个页面;所述至少三个页面包括:用于接收所述用户的编辑修改指令的第一论文文档页面,专用于显示所述相似度超过预设阈值时所述论文中对应标记的语句的第二论文文档页面,以及用于索引和显示所述语句对应的所述文本内容的页面。

可选地,所述终端显示界面上还设有查重按钮;

所述在终端显示界面上同时显示至少三个页面的步骤之后还包括:

通过所述查重按钮侦测用户的点击操作,并在侦测到所述用户的点击操作时触发重新确定所述论文与所述文本内容间的相似度;

根据重新确定的相似度,更新所述第二论文文档页面。

可选地,所述将所述论文与预设数据库中的文本内容进行指纹匹配,以确定所述论文与所述文本内容间的相似度的步骤包括:

获取预设数据库中所有的文本内容分别对应的指纹以及所述论文的总字数;

对所述论文进行切分以形成论文单元,并以所述论文单元作为输入数据,通过相似性哈希算法计算每个所述论文单元分别对应的论文单元指纹;

从所有的文本内容分别对应的指纹中,查找与论文单元指纹相似的所有指纹;

根据查找到的所有相似的指纹,加载对应的相似文本内容;

根据所述相似文本内容、所述论文单元以及所述论文的总字数,计算所述论文与所述文本内容间的相似度。

可选地,所述文本内容分别对应的指纹为n位指纹;

所述获取预设数据库中所有的文本内容分别对应的指纹以及所述论文的总字数的步骤之后还包括:

将所有文本内容分别对应的指纹分成m块,以形成m个指纹分块,其中每个指纹分块具有n/m位指纹;

以具有n/m位的指纹为关键词,为m个指纹分块分别建立倒排索引;

所述根据查找到的所有相似的指纹,加载对应的相似文本内容的步骤包括:

确定每个相似的指纹所属的指纹分块;

以所述相似的指纹为关键词,从该关键词所属指纹分块所在倒排索引中查找所述相似的指纹对应的相似文本内容。

可选地,所述论文单元指纹为n位指纹;

所述从所有的文本内容分别对应的指纹中,查找与论文单元指纹相似的所有指纹的步骤包括:

将所有论文单元指纹分成m块,以形成m个论文指纹分块,其中每个论文指纹分块具有n/m位指纹;

依次将每个论文指纹分块与每个指纹分块进行比较,以查找出相似的所有指纹。

可选地,所述根据所述相似文本内容、所述论文单元以及所述论文的总字数,计算所述论文与所述文本内容间的相似度的步骤包括:

根据所述相似文本内容,从所有的论文单元中查找出每个相似文本内容对应的相似论文单元;

对每个相似文本内容以及对应的相似论文单元进行分词,得到每个相似文本内容的文本分词集合以及每个相似论文单元的论文分词集合;其中,一个文本分词集合由一个相似文本内容中的若干个词语构成,一个论文分词集合由一个相似论文单元中的若干个词语构成;

获取每个相似文本内容的文本长度以及对应的相似论文单元的文本长度;

通过每个相似文本内容的文本长度、文本分词集合、每个相似论文单元的文本长度以及论文分词集合,计算所述论文与所述文本内容之间的相似字数;

将所述相似字数与所述总字数相除得到的商作为所述论文与所述文本内容间的相似度。

可选地,所述通过每个相似文本内容的文本长度、文本分词集合、每个相似论文单元的文本长度以及论文分词集合,计算所述论文与所述文本内容之间的相似字数的步骤包括:

通过similar=factor*editsimilar+(1-factor)*jaccardsimilar计算每个相似文本内容与对应的相似论文单元间的相似度;其中,similar为每个相似文本内容与对应的相似论文单元间的相似度;factor为每个相似文本内容与对应的相似论文单元间的预设权重因子,0≤factor≤1;editsimilar为编辑相似度,editsimilar=1-editdistance(a,b)/max,a为相似文本内容的文本长度,b为相似论文单元的文本长度,editdistance为编辑距离;jaccardsimilar为杰卡德相似度,jaccardsimilar=|a∩b|/|a∪b|,a为文本分词集合,b为论文分词集合;

通过计算所述论文与所述文本内容之间的相似字数,其中,s为相似字数,i为第i个相似论文单元,n为相似论文单元的总数,similar为每个相似文本内容与对应的相似论文单元间的相似度,b为该相似论文单元的文本长度。

第二方面,本发明提供一种终端,用于论文查重,所述终端包括:

响应模块,用于响应用户的论文查重请求;

确定模块,用于将所述论文与预设数据库中的文本内容进行指纹匹配,以确定所述论文与所述文本内容间的相似度;

显示模块,用于在显示界面上同时显示至少三个页面;所述至少三个页面包括:用于接收所述用户的编辑修改指令的第一论文文档页面,专用于显示所述相似度超过预设阈值时所述论文中对应标记的语句的第二论文文档页面,以及用于索引和显示所述语句对应的所述文本内容的页面。

第三方面,本发明提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的基于终端的论文查重方法的步骤。

第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于终端的论文查重方法的步骤。

本发明通过在终端显示界面上同时显示至少三个页面;其中,所述至少三个页面包括:用于接收所述用户的编辑修改指令的第一论文文档页面,专用于显示所述相似度超过预设阈值时所述论文中对应标记的语句的第二论文文档页面,以及用于索引和显示所述语句对应的所述文本内容的页面,以使用户能够在终端显示界面上参照第二论文文档页面中标记的语句,以及显示有标记的语句对应文本内容的页面,在第一论文文档页面进行对应的编辑修改,不需要根据检测报告的内容从论文中查找待修改的语句或段落,简单直观;且终端显示界面同时显示了用户需要修改论文的页面、已经标记有待修改语句的论文文档页面以及待修改语句对应索引的文本内容的页面,进而方便用户的参照修改操作,节约了修改论文的时间。

附图说明

图1是本发明基于终端的论文查重方法一实施例的流程示意图;

图2为本发明基于终端的论文查重方法另一实施例中步骤s20的细化流程示意图;

图3为本发明基于终端的论文查重方法又一实施例中步骤s250的细化流程示意图;

图4为本发明终端的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了便于更好地理解本发明,下面将结合相关实施例附图对本发明进行进一步地解释。附图中给出了本发明的实施例,但本发明并不仅限于上述的优选实施例。相反,提供这些实施例的目的是为了使本发明的公开面更加得充分。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

请参阅图1,为本发明一实施例提供的基于终端的论文查重方法的流程图,包括步骤s10至s30。

步骤s10,响应用户的论文查重请求;

当用户需要进行论文查重时,会发起论文查重请求,终端响应用户的论文查重请求。例如,可以是在终端的显示界面上设置有查重按钮,当论文文档上传成功之后,可以触发该查重按钮以发起论文查重请求,终端的处理器接收到终端显示模块中的查重按钮上报的论文查重指令后,可以进行用户论文查重请求的响应。

步骤s20,将所述论文与预设数据库中的文本内容进行指纹匹配,以确定所述论文与所述文本内容间的相似度;

需要说明的是,预设数据库可以由本地数据库和网络数据库组成。本地数据库可以收集发表过的论文,可以是.doc格式和/或.pdf格式;可以理解地是,当收集的论文格式是.pdf格式时,可以根据apache提供的开源工具pdfbox从.pdf格式的论文文件中提取具体的文件内容。网络数据库中的文件内容则可以利用爬虫技术从互联网中实施抓取文档资源,该文档资源可以是经过去噪后的文档资源。

在进行指纹匹配的过程中,如果两个文件完全一致,则两个文件的指纹完全相同。而指纹的计算一般是采用哈希算法,但传统的哈希算法只能保证原始内容计算出来的指纹尽量均匀随机,对于两个相同的文档,它们的原始内容一定是相同的,但对于两个不相同指纹,传统的哈希算法除了说明它们的原始内容不相同之外,不会再提供额外信息,对于论文相似度的计算困难。而在实际运用中,即使两个文件的原始内容只相差了一个字节,其对应的指纹也很可能相差很大,因此在本实施例中,可以通过相似性哈希算法替代传统的哈希算法分别计算出论文的指纹以及预设数据库中文本内容对应的指纹。相似性哈希算法主要思想是降维,将高维的特征向量映射成低维的特征向量,通过两个特征向量的汉明距离来进行指纹匹配,以确定论文与文本内容是否相似。

需要说明的是,在通过相似性哈希算法评价论文与文本内容的相似性时,通过汉明距离判断文本是否相似的标准与指纹的位数有关。以64位的相似性哈希指纹为例,我们根据经验值可以认为汉明距离在3以内的论文与文本内容相似度高。

步骤s30,在终端显示界面上同时显示至少三个页面;所述至少三个页面包括:用于接收所述用户的编辑修改指令的第一论文文档页面,专用于显示所述相似度超过预设阈值时所述论文中对应标记的语句的第二论文文档页面,以及用于索引和显示所述语句对应的所述文本内容的页面。

在确定了论文与文本内容之间的相似度之后,可以将相似度与预先设定的阈值进行比较,其中阈值可以设定为一个,也可以设定为多个。相似度是一个大于等于0,小于等于1的数值,阈值也是如此,但一般以百分比的形式进行显示,例如可以设定为30%、50%。

在终端显示界面进行显示时,至少会显示三个页面,其中一个页面为第一论文文档页面,可以接收用户通过键盘、麦克风、鼠标和/或触控屏发出的编辑修改指令,然后根据该编辑修改指令进行论文内容的修改和/或内容的新增。第二论文文档页面和第一论文文档页面均为用户所提交查重的同一论文,用户可以通过终端显示界面进行不同预设阈值的调整设置,使得第二论文文档页面中显示的标记语句根据实际预设阈值的设置进行调整。例如第二论文文档页面中显示有论文中相似度超过50%的标记的语句,该标记的语句可以通过颜色或加粗等方式进行突出显示。进一步地,在设置了多个预设阈值进行标记的语句的显示时,还可以通过不同颜色进行区分,例如,相似度超过50%至80%的标记的语句,可以用黄色的背景颜色进行语句的突出显示;相似度超过80%的标记的语句,可以通过红色的背景颜色进行语句的突出显示。另外,关于索引和显示所述语句对应的文本内容的页面,则可以根据用户选择的第二论文文档页面中标记的语句,进行对应文本内容的索引以及显示,此外除了显示相似的文本内容之外,还可以显示相似文本内容的作者,发表论文所在期刊名称,文章名称,发表时间,该相似文本对应的相似度,以及给用户的修改建议中的至少一个。

此外,还需要说明的是,终端显示界面中页面的显示利用了freemarker技术加载网页模板,从而生成了用于显示页面的html网页数据。

本实施例通过响应用户的论文查重请求;将所述论文与预设数据库中的文本内容进行指纹匹配,以确定所述论文与所述文本内容间的相似度;在终端显示界面上同时显示至少三个页面;所述至少三个页面包括:用于接收所述用户的编辑修改指令的第一论文文档页面,专用于显示所述相似度超过预设阈值时所述论文中对应标记的语句的第二论文文档页面,以及用于索引和显示所述语句对应的所述文本内容的页面。以使用户能够在终端显示界面上参照第二论文文档页面中标记的语句,以及显示有标记的语句对应文本内容的页面,在第一论文文档页面进行对应的编辑修改,不需要根据检测报告的内容从论文中查找待修改的语句或段落,简单直观;且终端显示界面同时显示了用户需要修改论文的页面、已经标记有待修改语句的论文文档页面以及待修改语句对应索引的文本内容的页面,进而方便用户的参照修改操作,节约了修改论文的时间。

在其他实施例中,所述终端显示界面上还设有查重按钮,所述步骤s30之后还可以包括以下步骤:

通过所述查重按钮侦测用户的点击操作,并在侦测到所述用户的点击操作时触发重新确定所述论文与所述文本内容间的相似度;

根据重新确定的相似度,更新所述第二论文文档页面。

需要说明的是,在传统论文查重方案中,当用户的论文修改完成时,还需要重新上传论文至论文查重软件,不能马上知晓重复率是否符合要求,因此需要对论文进行反复修改。通过设置查重按钮,在基于终端显示界面显示的三个界面的基础上,直接再次根据网络数据库和本地数据库对修改后的论文计算相似度,以查找出修改后的论文与文本内容之间的相似度和相似的内容,方便用户接收到论文查重结果的更新反馈,并对论文进行修改,操作方便直观。

请参阅图2,为本发明另一实施例提供的基于终端的论文查重方法中步骤s20的细化流程图,包括步骤s21至步骤s25。

步骤s21,获取预设数据库中所有的文本内容分别对应的指纹以及所述论文的总字数;

相似度的确定是通过所有的相似字数与论文的总字数相除取得的,而其中论文的总字数可以通过终端显示界面所支持的软件进行直接获取,主要需要求取的是相似字数。这其中即涉及到了与本地数据库和网络数据库中的文本内容进行指纹比对,因此需要获取每个文本内容分别对应的指纹。

具体的,每个文本内容分别对应的指纹的获取方法可以是按照预设的标准对文本内容进行切分,然后通过相似性哈希算法计算切分后的每个单元的指纹。可选地,可以以句子为单位进行文本内容的切分。

进一步地,当所述文本内容对应的指纹为n位指纹时,所述步骤s21之后还可以包括步骤:

将所有文本内容分别对应的指纹分成m块,以形成m个指纹分块,其中每个指纹分块具有n/m位指纹;

以具有n/m位的指纹为关键词,为m个指纹分块分别建立倒排索引;

为了提高论文查重的实时响应速度可以为预设数据库中所有文本内容对应的海量指纹建立多级索引,以达到提高响应速度的目的。其中文本内容分别对应的指纹均为n位指纹,例如,n等于64,在建立多级索引时,可以将64位指纹均分成4块,即m等于4,每个指纹分块具有16位指纹。以每个指纹分块具有的16位指纹为关键词,即可建立关键词与文本内容相关联的倒排索引,倒排索引相当于关键词与关键词对应的文本内容的映射关系表,倒排索引的数量与指纹分块的个数相同。

步骤s22,对所述论文进行切分以形成论文单元,并以所述论文单元作为输入数据,通过相似性哈希算法计算每个所述论文单元分别对应的论文单元指纹;

计算论文的指纹也可以与计算文本内容的指纹类似,在进行具体的指纹匹配时,如果预设数据库中文本内容对应的指纹为n位指纹,则论文对应的指纹也应该为n位指纹,n为大于0的整数。

步骤s23,从所有的文本内容分别对应的指纹中,查找与论文单元指纹相似的所有指纹;

在进行指纹匹配处理时,也需要对论文对应的指纹进行均分。仍然以n位指纹为例,可以将论文对应的指纹均分成文本内容对应的指纹均分时一致的m块,以形成m块论文指纹分块,每个论文指纹分块具有n/m位指纹。由于文本内容对应的指纹也被分成了m块,因此通过每个指纹分块与每个论文指纹分块的对比,即可找出相似的指纹。

基于上述分析,当所述文本内容分别对应的指纹为n位指纹时,所述步骤s23包括步骤:

将所有论文单元指纹分成m块,以形成m个论文指纹分块,其中每个论文指纹分块具有n/m位指纹;

依次将每个论文指纹分块与每个指纹分块进行比较,以查找出相似的所有指纹。

步骤s24,根据查找到的所有相似的指纹,加载对应的相似文本内容;

可以理解地是,文本内容对应的指纹与论文对应的指纹之间存在相似的指纹,那么文本内容与论文之间必然在原始文本数据中存在相似文本内容,可以通过指纹与文本内容之间的对应关系,以相似的指纹进行查找,从而进行相似文本内容的加载。

仍以本实施例中建立的倒排索引为例,所述步骤s24可以包括步骤:

确定每个相似的指纹所属的指纹分块;

以所述相似的指纹为关键词,从该关键词所属指纹分块所在倒排索引中查找所述相似的指纹对应的相似文本内容。

由于文本内容对应的指纹建立有倒排索引,可以先通过相似的指纹找到所属的指纹分块,然后以相似的指纹为关键词,从对应所述指纹分块中快速查找到对应相似文本内容。

步骤s25,根据所述相似文本内容、所述论文单元以及所述论文的总字数,计算所述论文与所述文本内容间的相似度。

需要说明的是,相似字数的计算涉及文本之间特征向量的距离,通过距离的大小可以评估文本之间的相似情况。而相似字数的计算又与所有相似文本内容与对应的论文单元之间的词语的相似情况有关,因此通过相似文本内容以及对应的论文单元可以计算出相似字数,然后再结合论文总字数即可计算出论文与文本内容间的相似度。

本实施例给出了指纹匹配以得出文本内容与论文之间相似度的具体方法,为论文查重的实施提供了技术基础。此外,还建立了文本内容对应的指纹的多级索引,帮助加快了论文查重的实时响应以及论文查重结果的得出。

请参阅图3,为本发明又一实施例提出的基于终端的论文查重方法中步骤s25的细化流程示意图。所述步骤s25包括步骤s251至步骤s255。

步骤s251,根据所述相似文本内容,从所有的论文单元中查找出每个相似文本内容对应的相似论文单元;

本实施例中的相似论文单元可以包括:第二论文文档页面显示的相似度超过预设阈值时论文中标记的语句,以及相似度未超过预设阈值时论文中的语句,即所有的相似论文单元是文本内容与论文之间关联内容的集合。

步骤s252,对每个相似文本内容以及对应的相似论文单元进行分词,得到每个相似文本内容的文本分词集合以及每个相似论文单元的论文分词集合;其中,一个文本分词集合由一个相似文本内容中的若干个词语构成,一个论文分词集合由一个相似论文单元中的若干个词语构成;

由于相似字数的确定涉及文本之间特征向量的距离计算,而相似字数的计算又与所有相似文本内容与对应的论文单元之间的词语的相似情况有关,因此需要对相似文本内容与对应的论文单元进行分词,具体分词所采用的技术可以参考现有的分词工具和分词算法,在此不进行赘述。在将每个相似文本和对应的相似论文单元进行分词后,即可得到分词后的词语构成的集合,其中单个的相似论文单元分词后得到论文分词集合,单个的相似文本内容分词后得到文本分词集合。通过论文分词集合和文本分词集合可以计算出相似论文单元与相似文本内容之间的杰卡德相似度,或者称为杰卡德相似系数。

步骤s253,获取每个相似文本内容的文本长度以及对应的相似论文单元的文本长度;

需要说明的是,相似文本内容或相似论文单元的文本长度表示一个相似文本内容或一个相似论文单元对应的字数。通过文本长度可以确定相似论文单元与相似文本内容之间的编辑距离和编辑相似度。

步骤s254,通过每个相似文本内容的文本长度、文本分词集合、每个相似论文单元的文本长度以及论文分词集合,计算所述论文与所述文本内容之间的相似字数;

具体的,所述步骤s254可以包括:

通过similar=factor*editsimilar+(1-factor)*jaccardsimilar计算每个相似文本内容与对应的相似论文单元间的相似度;其中,similar为每个相似文本内容与对应的相似论文单元间的相似度;factor为每个相似文本内容与对应的相似论文单元间的预设权重因子,0≤factor≤1;editsimilar为编辑相似度,editsimilar=1-editdistance(a,b)/max,a为相似文本内容的文本长度,b为相似论文单元的文本长度,editdistance为编辑距离;jaccardsimilar为杰卡德相似度,jaccardsimilar=|a∩b|/|a∪b|,a为文本分词集合,b为论文分词集合;

通过计算所述论文与所述文本内容之间的相似字数,其中,s为相似字数,i为第i个相似论文单元,n为相似论文单元的总数,similar为每个相似文本内容与对应的相似论文单元间的相似度,b为该相似论文单元的文本长度。

需要说明的是,杰卡德相似度用于比较有限样本集之间的相似性与差异性,杰卡德相似度越大,样本集合之间的相似度越高。而本实施例中相似字数的计算是分别由杰卡德相似度、编辑相似度结合权重因子分别相乘相加得到的。

步骤s255,将所述相似字数与所述总字数相除得到的商作为所述论文与所述文本内容间的相似度。

需要说明的是,由于论文中包括目录、标题、公式、图表以及参考文献等,但在通过软件进行总字数识别时,一般会跳过上述非正文部分,因此实际论文的总字数会大于检测出的总字数。而其中类似标题、目录等内容一般与论文实际内容相关度较小,将其排除在总字数范围内也有利于真实相似度的确定。本实施例给出了相似度计算中相似字数的计算方式,有利于论文查重的具体实施。

请参阅图4,图4为本发明一实施例提出的终端的结构示意图,所述终端包括:

响应模块10,用于响应用户的论文查重请求;

确定模块20,用于将所述论文与预设数据库中的文本内容进行指纹匹配,以确定所述论文与所述文本内容间的相似度;

显示模块30,用于在显示界面上同时显示至少三个页面;所述至少三个页面包括:用于接收所述用户的编辑修改指令的第一论文文档页面,专用于显示所述相似度超过预设阈值时所述论文中对应标记的语句的第二论文文档页面,以及用于索引和显示所述语句对应的所述文本内容的页面。

进一步地,在另一实施例中,所述终端显示界面上还设有查重按钮;

所述终端还包括:

侦测模块40,用于通过所述查重按钮侦测用户的点击操作,并在侦测到所述用户的点击操作时触发重新确定所述论文与所述文本内容间的相似度;

更新模块50,用于根据重新确定的相似度,更新所述第二论文文档页面。

进一步地,在又一实施例中,所述确定模块20包括:

获取单元21,用于获取预设数据库中所有的文本内容分别对应的指纹以及所述论文的总字数;

计算单元22,用于对所述论文进行切分以形成论文单元,并以所述论文单元作为输入数据,通过相似性哈希算法计算每个所述论文单元分别对应的论文单元指纹;

查找单元23,用于从所有的文本内容分别对应的指纹中,查找与论文单元指纹相似的所有指纹;

加载单元24,用于根据查找到的所有相似的指纹,加载对应的相似文本内容;

所述计算单元22,还用于根据所述相似文本内容、所述论文单元以及所述论文的总字数,计算所述论文与所述文本内容间的相似度。

进一步地,在又一实施例中,所述文本内容分别对应的指纹为n位指纹;

所述确定模块20还包括:

切分单元25,用于将所有文本内容分别对应的指纹分成m块,以形成m个指纹分块,其中每个指纹分块具有n/m位指纹;

建立单元26,用于以具有n/m位的指纹为关键词,为m个指纹分块分别建立倒排索引;

所述加载单元24包括:

确定子单元241,用于确定每个相似的指纹所属的指纹分块;

第一查找子单元242,用于以所述相似的指纹为关键词,从该关键词所属指纹分块所在倒排索引中查找所述相似的指纹对应的相似文本内容。

进一步地,在又一实施例中,所述论文单元指纹为n位指纹;

所述查找单元23包括:

切分子单元231,用于将所有论文单元指纹分成m块,以形成m个论文指纹分块,其中每个论文指纹分块具有n/m位指纹;

第二查找子单元232,依次将每个论文指纹分块与每个指纹分块进行比较,以查找出相似的所有指纹。

进一步地,在又一实施例中,所述计算单元22包括:

第三查找子单元221,用于根据所述相似文本内容,从所有的论文单元中查找出每个相似文本内容对应的相似论文单元;

分词子单元222,用于对每个相似文本内容以及对应的相似论文单元进行分词,得到每个相似文本内容的文本分词集合以及每个相似论文单元的论文分词集合;其中,一个文本分词集合由一个相似文本内容中的若干个词语构成,一个论文分词集合由一个相似论文单元中的若干个词语构成;

获取子单元223,用于获取每个相似文本内容的文本长度以及对应的相似论文单元的文本长度;

计算子单元224,用于通过每个相似文本内容的文本长度、文本分词集合、每个相似论文单元的文本长度以及论文分词集合,计算所述论文与所述文本内容之间的相似字数;

所述计算子单元224,用于将所述相似字数与所述总字数相除得到的商作为所述论文与所述文本内容间的相似度。

进一步地,在又一实施例中,所述计算子单元224还用于通过similar=factor*editsimilar+(1-factor)*jaccardsimilar计算每个相似文本内容与对应的相似论文单元间的相似度;其中,similar为每个相似文本内容与对应的相似论文单元间的相似度;factor为每个相似文本内容与对应的相似论文单元间的预设权重因子,0≤factor≤1;editsimilar为编辑相似度,editsimilar=1-editdistance(a,b)/max,a为相似文本内容的文本长度,b为相似论文单元的文本长度,editdistance为编辑距离;jaccardsimilar为杰卡德相似度,jaccardsimilar=|a∩b|/|a∪b|,a为文本分词集合,b为论文分词集合;并通过计算所述论文与所述文本内容之间的相似字数,其中,s为相似字数,i为第i个相似论文单元,n为相似论文单元的总数,similar为每个相似文本内容与对应的相似论文单元间的相似度,b为该相似论文单元的文本长度。

本实施例还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的基于终端的论文查重方法的步骤。

本实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于终端的论文查重方法的步骤。

上述实施例描述了本发明的技术原理,这些描述只是为了解释本发明的原理,而不能以任何方式解释为本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其他具体实施方式,这些方式都将落入本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1