原创文本甄别方法、装置、设备与计算机可读存储介质与流程

文档序号:18900240发布日期:2019-10-18 21:50阅读:176来源:国知局
原创文本甄别方法、装置、设备与计算机可读存储介质与流程

本发明涉及金融科技(fintech)技术领域,尤其涉及原创文本甄别方法、装置、设备与计算机可读存储介质。



背景技术:

近年来,随着金融科技(fintech),尤其是互联网金融的不断发展,数据甄别技术被引入银行等金融机构的日常业务中。在银行等金融机构的日常宣传过程中,为确保宣传文本,如新闻、软文和广告等,不是抄袭他人的抄袭作品,在传播之前,需要对宣传文本的原创性进行审核,只有确保宣传文本是原创文本,才能避免不必要的版权纠纷,并且使原创作品得到应有的价值反馈,因此,对待甄别文本进行原创性甄别是银行等金融机构对外宣传时必做的一项工作。

现有做法是,银行等金融机构的公关部门或者其他对外宣传的部门,在将宣传文本对外传播之前,将宣传文本输入计算机,通过计算机将宣传文本与计算机原创数据库中的文本进行比对,通过关键字计算相似度来确定宣传文本的原创性。

然而现有做法仅能判断待甄别文本是否存在抄袭,但无法给出具体的抄袭率指标,如果待甄别文本依次从多篇原创文本中各摘抄一段话,那么现有做法无法给出抄袭的结论,并且,对于存在大量主语替换和代词替换等的待甄别文本,很难对其原创性进行甄别,显然,现有甄别方法准确率较低。



技术实现要素:

本发明的主要目的在于提出一种原创文本甄别方法、装置、设备与计算机可读存储介质,旨在提高原创文本的甄别精度。

为实现上述目的,本发明提供一种原创文本甄别方法,所述原创文本甄别方法包括如下步骤:

在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象;

对所述待甄别文本进行预处理,以得到一个以上的第一分句;

将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句;

若所述非原创分句在所述待甄别文本中的占比不大于预设的抄袭阈值,则确定所述待甄别文本为原创文本。

优选地,所述在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象的步骤包括:

在接收到待甄别文本时,确定所述待甄别文本的文本长度,并将所述待甄别文本截为所述文本长度对应数量的字符串;

在预设的原创数据库中获取与所述字符串匹配的匹配对象,并在所述匹配对象中选取预设数量的待比较对象。

优选地,所述对所述待甄别文本进行预处理,以得到一个以上的第一分句的步骤包括:

基于预设过滤规则,对所述待甄别文本进行过滤,以得到过滤文本;

基于预设分句规则,对所述过滤文本进行分句,以得到一个以上的第一分句。

优选地,所述基于预设分句规则,对所述过滤文本进行分句,以得到一个以上的第一分句的步骤包括:

基于预设分句规则,对所述过滤文本进行分句,以得到各个子句,并依次确定各个子句的字数是否达到预设字数;

若当前子句的字数达到所述预设字数,则将当前子句设定为所述第一分句;

若当前子句的字数未达到所述预设字数,则将当前子句合并到基于前一子句所设定的所述第一分句中。

优选地,所述将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句的步骤包括:

生成各个所述第一分句对应的第一哈希值;

调取各个所述待比较对象对应的哈希值集合,所述哈希值集合中包含多个第二哈希值;

将所述第一哈希值与所述第二哈希值进行比较,在所述第一哈希值中,确定与至少一个所述第二哈希值的海明距离小于或等于第一预设值的第三哈希值;

在所述第一分句中,将所述第三哈希值对应的分句标记为非原创分句。

优选地,在所述将所述第三哈希值对应的分句标记为非原创分句的步骤之后,还包括:

若确定所述待甄别文本中第i个第一分句到第i+k第一分句与目标对象中第j分句到第j+k分句的海明距离都未超过第一预设值,则计算所述待甄别文本中第i-n个第一分句与所述目标对象中第j-n分句的第一编辑距离,以及所述待甄别文本中第i+k+m个第一分句与所述目标对象中第j+k+m分句的第二编辑距离,其中,所述目标对象为所述待比较对象中的一个对象,i、j为大于0的常数,k为预设常数,n为1到i的集合,m为1到无穷大的集合,且i+k+m小于等于所述待甄别文本的分句的数量,j+k+m小于等于所述目标对象的分句的数量;

若所述第一编辑距离与所述第j-n分句的分句长度的比值小于第二预设值,则将所述第i-n个第一分句标记为非原创分句;若所述第二编辑距离与所述第j+k+m分句的分句长度的比值小于所述第二预设值,则将所述第i+k+m个第一分句标记为非原创分句。

优选地,在所述确定所述第一分句中存在的非原创分句之后,还包括:

在所述待甄别文本中,统计所述非原创分句的字数,并基于所述字数以及所述待甄别文本的总字数,确定所述非原创分句在所述待甄别文本中的占比。

此外,为实现上述目的,本发明还提供一种原创文本甄别装置,所述原创文本甄别装置包括:

获取模块,用于在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象;

预处理模块,用于对所述待甄别文本进行预处理,以得到一个以上的第一分句;

第一确定模块,用于将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句;

第二确定模块,用于若所述非原创分句在所述待甄别文本中的占比不大于预设的抄袭阈值,则确定所述待甄别文本为原创文本。

优选地,所述获取模块还用于:

在接收到待甄别文本时,确定所述待甄别文本的文本长度,并将所述待甄别文本截为所述文本长度对应数量的字符串;

在预设的原创数据库中获取与所述字符串匹配的匹配对象,并在所述匹配对象中选取预设数量的待比较对象。

优选地,所述预处理模块还用于:

基于预设过滤规则,对所述待甄别文本进行过滤,以得到过滤文本;

基于预设分句规则,对所述过滤文本进行分句,以得到一个以上的第一分句。

优选地,所述预处理模块还用于:

基于预设分句规则,对所述过滤文本进行分句,以得到各个子句,并依次确定各个子句的字数是否达到预设字数;

若当前子句的字数达到所述预设字数,则将当前子句设定为所述第一分句;

若当前子句的字数未达到所述预设字数,则将当前子句合并到基于前一子句所设定的所述第一分句中。

优选地,所述第一确定模块还用于:

生成各个所述第一分句对应的第一哈希值;

调取各个所述待比较对象对应的哈希值集合,所述哈希值集合中包含多个第二哈希值;

将所述第一哈希值与所述第二哈希值进行比较,在所述第一哈希值中,确定与至少一个所述第二哈希值的海明距离小于或等于第一预设值的第三哈希值;

在所述第一分句中,将所述第三哈希值对应的分句标记为非原创分句。

优选地,所述第一确定模块还用于:

若确定所述待甄别文本中第i个第一分句到第i+k第一分句与目标对象中第j分句到第j+k分句的海明距离都未超过第一预设值,则计算所述待甄别文本中第i-n个第一分句与所述目标对象中第j-n分句的第一编辑距离,以及所述待甄别文本中第i+k+m个第一分句与所述目标对象中第j+k+m分句的第二编辑距离,其中,所述目标对象为所述待比较对象中的一个对象,i、j为大于0的常数,k为预设常数,n为1到i的集合,m为1到无穷大的集合,且i+k+m小于等于所述待甄别文本的分句的数量,j+k+m小于等于所述目标对象的分句的数量;

若所述第一编辑距离与所述第j-n分句的分句长度的比值小于第二预设值,则将所述第i-n个第一分句标记为非原创分句;若所述第二编辑距离与所述第j+k+m分句的分句长度的比值小于所述第二预设值,则将所述第i+k+m个第一分句标记为非原创分句。

优选地,所述第一确定模块还用于:

在所述待甄别文本中,统计所述非原创分句的字数,并基于所述字数以及所述待甄别文本的总字数,确定所述非原创分句在所述待甄别文本中的占比。

此外,为实现上述目的,本发明还提供一种原创文本甄别设备,所述原创文本甄别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的原创文本甄别程序,所述原创文本甄别程序被所述处理器执行时实现如上所述的原创文本甄别方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有原创文本甄别程序,所述原创文本甄别程序被处理器执行时实现如上所述的原创文本甄别方法的步骤。

本发明提出的原创文本甄别方法,在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象;对所述待甄别文本进行预处理,以得到一个以上的第一分句;将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句;若所述非原创分句在所述待甄别文本中的占比不大于预设的抄袭阈值,则确定所述待甄别文本为原创文本。本发明还公开了一种原创文本甄别装置、设备和可读存储介质。本发明将待甄别文本处理为各个分句,将确定待甄别文本是否为原创文本,分解为确定各个分句是否是原创分句,从而通过原创分句的占比,确定待甄别文本是否为原创文本,有效提高原创文本的甄别精度。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;

图2为本发明原创文本甄别方法第一实施例的流程示意图;

图3为本发明原创文本甄别方法第二实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例设备可以是pc机或服务器设备。

如图1所示,该设备可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及原创文本甄别程序。

其中,操作系统是管理和控制原创文本甄别设备与软件资源的程序,支持网络通信模块、用户接口模块、原创文本甄别程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。

在图1所示的原创文本甄别设备中,所述原创文本甄别设备通过处理器1001调用存储器1005中存储的原创文本甄别程序,并执行下述原创文本甄别方法各个实施例中的操作。

基于上述硬件结构,提出本发明原创文本甄别方法实施例。

参照图2,图2为本发明原创文本甄别方法第一实施例的流程示意图,所述方法包括:

步骤s10,在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象;

步骤s20,对所述待甄别文本进行预处理,以得到一个以上的第一分句;

步骤s30,将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句;

步骤s40,若所述非原创分句在所述待甄别文本中的占比不大于预设的抄袭阈值,则确定所述待甄别文本为原创文本。

本实施例原创文本甄别方法运用于理财机构或者银行系统等金融机构的原创文本甄别设备中,为描述方便,原创文本甄别设备以下简称甄别设备,甄别设备对接原创数据库,原创数据库中储存着互联网上所有的原创文本,其中包括原创新闻文本、原创广告和原创软文等作品,在具体实施时,由于硬件限制,原创数据库中一般只储存近3年的原创文本,此外,甄别设备中搭建有检索模块,用于获取原创数据库中与当前检索语对应的原创对象,其中,检索模块在本实施例中优选es检索模块(elasticsearch,弹性检索,一种分布式的全文检索引擎)。es检索模块根据检索语,在原创数据库中进行检索,并返回检索结果,返回的检索结果排序越靠前,代表该结果与检索语的文本相似度越高,基于es检索的检索原理由于是现有技术,在此不做赘述。

本实施例的甄别设备,在接收到待甄别文本时,先从原创数据库中筛选出与当前待甄别文本相关的待比较对象,再将待甄别文本处理成分句,再确定分句中的非原创分句占比,以此确定待甄别文本是否为原创文本。

以下将对各个步骤进行详细说明:

步骤s10,在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象;

在本实施例中,理财机构或者银行等金融机构的对外宣传人员,在对外宣或者发布待甄别文本之前,先将待甄别文本输入甄别设备中,以甄别当前待甄别文本是否为原创文本,以避免不必要的版权纠纷。

甄别设备在接收到待甄别文本后,先在原创数据库中获取待甄别文本对应的一个以上的待比较对象,也即是说,本实施例并不需要将当前待甄别文本与原创数据库中的所有原创文本进行一一比较,而是先从原创数据库中筛选出与当前待甄别文本相关的待比较对象。

具体的,步骤s10包括:

在接收到待甄别文本时,确定所述待甄别文本的文本长度,并将所述待甄别文本截为所述文本长度对应数量的字符串;

在该步骤中,甄别设备在接收到待甄别文本时,先确定待甄别文本的文本长度,也即计算待甄别文本的字符长度,并将待甄别文本截为对应数量的字符串,具体的,预设字符串长度,将待甄别文本按照预设字符串长度进行截断,如假设当前待甄别文本的文本长度为n,预设字符串长度为100,则截断后得到n/100个字符串。这是由于es检索模块的检索语存在长度上限,因此需要将待甄别文本进行截断,优选以100字作为预设字符串长度。

在预设的原创数据库中获取与所述字符串匹配的匹配对象,并在所述匹配对象中选取预设数量的待比较对象。

在该步骤中,将每个字符串分别作为检索语进行检索,在预设的原创数据库中获取与当前字符串匹配的原创对象,所有字符串检索完成后,所得的原创对象的集合即为匹配对象,由于不同的字符串检索对应的原创对象可能是同一个,因此,在该步骤中,还需要对检索到的原创对象进行去重,再在匹配对象的基础上选取预设数量的待比较对象。

具体选取方式可以为:在每一个字符串对应的检索结果中,取排序靠前的原创对象,具体数量为:预设数量/字符串数量。如字符串有10个,要得到5000篇原创对象,则每个字符串进行检索时,每次取排序靠前的5000/10=500篇原创对象,再将10个字符串的检索结果合并,得到50000篇原创对象。

需要说明的是,可能存在当前字符串的检索结果并不多,不满足每次取排序靠前的预设数量/字符串数量的原创对象的条件,如a字符串检索结果只有3个,不满足每次取排序靠前的500篇原创对象的条件,那么只需获取这3个检索结果,并对不足的497篇原创对象,以空白文本代替。

或者,在a字符串的检索结果不多的情况下,在a字符串的下一字符串的检索结果中取更多的原创对象,以对a字符串的检索结果进行补偿。

步骤s20,对所述待甄别文本进行预处理,以得到一个以上的第一分句。

在本实施例中,甄别设备对待甄别文本进行预处理,从而得到一个以上的第一分句,也即将待甄别文本分解成各个子句。具体的,将待甄别文本按照标点符号,具体可以为句号,分解成各个子句。

步骤s30,将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句。

在本实施例中,将各个第一分句与各个待比较对象进行比对,从而判断各个第一分句的原创性,最终确定第一分句中存在多少非原创分句。

具体的,步骤s30包括:

生成各个所述第一分句对应的第一哈希值;

在该步骤中,甄别设备生成各个第一分句对应的第一哈希值,其中,第一哈希值优选simhash值,simhash为局部敏感哈希,是一种文本哈希映射算法,用于将文本映射为长度等于64的比特串。区别于普通哈希算法的是,两个相似文本的局部敏感哈希结果也是相似的,其海明距离小于等于3。当然,第一哈希值为为普通哈希值也可以进行相似度的计算,本实施例优选以simhash为例进行描述。

具体的,将待甄别文本按照标点符号,具体可以为句号,分解成各个第一分句,并对各个第一分句进行分词,得到有效的特征向量,然后为每一个特征向量设置1-5等5个级别的权重,其中,特征向量的权重可以是该特征向量对应的词在待甄别文本中出现的次数。如当前第一分句为“互联网银行通过人脸识别技术和大数据信用评级发放贷款”,分词后为“互联网银行通过人脸识别技术和大数据信用评级发放贷款”,然后为每个特征向量赋予权重:互联网银行(4)通过(1)人脸识别技术(3)和(1)大数据(4)信用评级(5)发放(1)贷款(5),其中括号里的数字代表这个词在当前子句中的重要程度,数字越大代表越重要。

然后,通过hash函数计算各个特征向量的hash值,hash值为二进制数01组成的签名。比如“互联网银行”的hash值,hash(互联网银行)为100101,“贷款”的hash值,hash(贷款)为101011,至此,当前子句就变成了一系列数字。

再在hash值的基础上,给所有特征向量进行加权,即w=hash×weight,且遇到1则hash值和权重正相乘,遇到0则hash值和权重负相乘。例如给“互联网银行”的hash值“100101”加权得到:w(互联网银行)=100101×4=4-4-44-44,给“贷款”的hash值“101011”加权得到:w(贷款)=101011×5=5-55-555,其他特征向量也类似此操作。

接着,将上述各个特征向量的加权结果累加,变成只有一个序列串。如“互联网银行”的“4-4-44-44”和“贷款”的“5-55-555”进行累加,得到“4+5-4+-5-4+54+-5-4+54+5”,得到“9-91-11”。

最后,对于签名的累加结果,如果大于0则置1,否则置0,从而得到当前第一分句的simhash值,如上述结果为“9-91-119”最终得到“101011”。

调取各个所述待比较对象对应的哈希值集合,所述哈希值集合中包含多个第二哈希值;

在该步骤中,原创数据库中存储有多个原创对象,并且存储有每一个原创对象的分句结果列表和分句的simhash值,因此,甄别设备可在原创数据库中调取各个待比较对象的哈希值集合,其中,哈希值集合包含多个第二哈希值,第二哈希值优选第二simhash值。

将所述第一哈希值与所述第二哈希值进行比较,在所述第一哈希值中,确定与至少一个所述第二哈希值的海明距离小于或等于第一预设值的第三哈希值;

具体的,将各个第一simhash值与各个待比较对象中的第二simhash值进行比较,确定其海明距离,其中,海明距离是两个字符串对应位置的不同字符的个数,也就是说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。例如:1011101与1001001之间的海明距离是2。

将计算所得海明距离与第一预设值进行比较,进而确定第一哈希值中与至少一个第二哈希值的海明距离小于或等于第一预设值的第三哈希值,其中,第一预设值在具体实施时,优选为3,在海明距离小于或等于3时,确定当前第一分句存在抄袭。

在所述第一分句中,将所述第三哈希值对应的分句标记为非原创分句。

在该步骤中,在第一分句中,将确定抄袭的分句标记为非原创分句。具体如标红显示等。

步骤s40,若所述非原创分句在所述待甄别文本中的占比不大于预设的抄袭阈值,则确定所述待甄别文本为原创文本。

在本实施例中,统计非原创分句在待甄别文本中的占比,具体可统计非原创分句的数量,以及待甄别文本中第一分句的数量,从而计算出非原创分句在待甄别文本中的占比,并进一步的,确定非原创分句在埭镇北文本中的占比是否不大于预设的抄袭阈值,若是,则确定待甄别文本为原创文本;若否,则确定甄别文本为抄袭文本。

进一步地,在所述确定所述第一分句中存在的非原创分句之后,还包括:

在所述待甄别文本中,统计所述非原创分句的字数,并基于所述字数以及所述待甄别文本的总字数,确定所述非原创分句在所述待甄别文本中的占比。

在该步骤中,确定非原创分句在待甄别文本中的占比还可以通过统计非原创分句的字数,以及待甄别文本的总字数,并将非原创分句的字数除以待甄别文本的总字数,从而得到非原创分句在待甄别文本中的占比。后续根据该占比,确定待甄别文本是否为原创文本。

在本实施例中预设一个抄袭阈值,如80%,在计算得到待甄别文本中非原创分句的占比后,确定该占比是否大于预设的抄袭阈值,若是,则确定待甄别文本为抄袭文本,否则为原创文本。

本实施例在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象;对所述待甄别文本进行预处理,以得到一个以上的第一分句;将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句;若所述非原创分句在所述待甄别文本中的占比不大于预设的抄袭阈值,则确定所述待甄别文本为原创文本。本发明还公开了一种原创文本甄别装置、设备和可读存储介质。本发明将待甄别文本处理为各个分句,将确定待甄别文本是否为原创文本,分解为确定各个分句是否是原创分句,从而通过原创分句的占比,确定待甄别文本是否为原创文本,有效提高原创文本的甄别精度。

进一步地,基于本发明原创文本甄别方法第一实施例,提出本发明原创文本甄别方法第二实施例。

原创文本甄别方法的第二实施例与原创文本甄别方法的第一实施例的区别在于,参照图3,所述预处理包括过滤和分句,步骤s20包括:

步骤s21,基于预设过滤规则,对所述待甄别文本进行过滤,以得到过滤文本;

步骤s22,基于预设分句规则,对所述过滤文本进行分句,以得到一个以上的第一分句。

本实施例在对待甄别文本进行预处理时,具体使用过滤和分句,从而将待甄别文本分解成各个第一分句。

以下将对各个步骤进行详细说明:

步骤s21,基于预设过滤规则,对所述待甄别文本进行过滤,以得到过滤文本。

在本实施例中,基于预设过滤规则,甄别设备对待甄别文本进行过滤,其中,预设过滤规则为:将待甄别文本中无意义的符号过滤掉,无意义符号包括html标签,html字符实体以及颜文字符号等;将待甄别文本中的繁体中文转换为简体中文;将待甄别文本中的破折号,中英文单引号,中英文双引号和中英文冒号等符号统一替换为中文逗号等,这样做的目的是为了避免符号带来的差别而影响原创性的甄别,如:

项目负责人张三:不忘初心,砥砺前行。

项目负责人张三——不忘初心,砥砺前行。

项目负责人张三:“不忘初心,砥砺前行。”

在将待甄别文本进行过滤后,得到过滤文本,以便后续对过滤文本进行分句。

步骤s22,基于预设分句规则,对所述过滤文本进行分句,以得到一个以上的第一分句。

在本实施例中,甄别设备基于预设分句规则,对完成过滤的过滤文本进行分句,其中,预设分句规则为:按照中英文逗号,中英文句号,中英文叹号,中英文问号,中文分号,中文顿号,空格以及转义字符\n和\t等进行分句,如“项目负责人张三对团队成员说,接下来我们要更进一步,不忘初心,砥砺前行”,按照符号进行分句为:“项目负责人张三对团队成员说”,“接下来我们要更进一步”,“不忘初心”,“砥砺前行”,将待甄别文本过滤并分句后,得到各个第一分句。

进一步地,步骤s22包括:

步骤a,基于预设分句规则,对所述过滤文本进行分句,以得到各个子句,并依次确定各个子句的字数是否达到预设字数;

在该步骤中,甄别设备基于预设分句规则,对完成过滤的过滤文本进行分句,从而得到各个子句,具体的预设根据规则包括按照中英文逗号,中英文句号,中英文叹号,中英文问号,中文分号,中文顿号,空格以及转义字符\n和\t等进行分句,从而得到各个子句,并确定各个子句的字数是否达到预设字数,如10字等,这是由于符号的存在,各个子句长短不一,为减少比较次数,需要将字数少的子句进行合并,以此减少分句的数量,又因为一个完整有意义的句子需要有一定的主语、谓语和宾语等,因此其本身具备一定的字数要求,因此,在对过滤文本进行分句后,需要确定各个子句的字数是否达到预设字数。

步骤b,若当前子句的字数达到所述预设字数,则将当前子句设定为所述第一分句;

在确定各个子句的字数是否达到预设字数的过程中,若当前子句的字数达到预设字数,如10字,则将当前子句设定为第一分句。

步骤c,若当前子句的字数未达到所述预设字数,则将当前子句合并到基于前一子句所设定的所述第一分句中。

若未达到,则将当前子句合并到基于前一子句所设定的第一分句中。即将当前子句与前一个第一分句合并;而前一个第一分句可以是当前子句的前一子句构成的第一分句,也可以是当前子句的前两个子句构成的第一分句......若当前子句为待甄别文本的第一句,且当前子句的字数未达到预设字数,则将当前分句与后一子句所设定的第一分句进行合并。

如上述例子,分句后得到:“项目负责人张三对团队成员说”,“接下来我们要更进一步”,“不忘初心”,“砥砺前行”,对字数不足10字的子句进行合并,得到“项目负责人张三对团队成员说”,“接下来我们要更进一步不忘初心砥砺前行”。

本实施例的预处理包括过滤和分句,在对待甄别文本进行预处理时,具体使用过滤和分句,从而过滤掉影响原创性甄别的因素,也即过滤掉各种无意义的符号,将待甄别文本分解成各个分句,进而通过确定各个分句的原创性来甄别待甄别文本的原创性,细化甄别对象,使得原创文本的甄别精度得以提高。

进一步地,基于本发明原创文本甄别方法第一、第二实施例,提出本发明原创文本甄别方法第三实施例。

原创文本甄别方法的第三实施例与原创文本甄别方法的第一、第二实施例的区别在于,所述将所述第三哈希值对应的分句标记为非原创分句的步骤之后,还包括:

步骤d,若确定所述待甄别文本中第i个第一分句到第i+k第一分句与目标对象中第j分句到第j+k分句的海明距离都未超过第一预设值,则计算所述待甄别文本中第i-n个第一分句与所述目标对象中第j-n分句的第一编辑距离,以及所述待甄别文本中第i+k+m个第一分句与所述目标对象中第j+k+m分句的第二编辑距离,其中,所述目标对象为所述待比较对象中的一个对象,i、j为大于0的常数,k为预设常数,n为1到i的集合,m为1到无穷大的集合,且i+k+m小于等于所述待甄别文本的分句的数量,j+k+m小于等于所述目标对象的分句的数量;

步骤e,若所述第一编辑距离与所述第j-n分句的分句长度的比值小于第二预设值,则将所述第i-n个第一分句标记为非原创分句;若所述第二编辑距离与所述第j+k+m分句的分句长度的比值小于所述第二预设值,则将所述第i+k+m个第一分句标记为非原创分句。

本实施例对于替换主语和代词等情况的待甄别文本,在将待甄别文本分解为各个分句,并确定各个分句的原创性之后,还计算各个分句的编辑距离,进一步确认各个分句的原创性。

以下将对各个步骤进行详细说明:

步骤d,若确定所述待甄别文本中第i个第一分句到第i+k个第一分句与目标对象中第j分句到第j+k分句的海明距离都未超过第一预设值,则计算所述待甄别文本中第i-n个第一分句与所述目标对象中第j-n分句的第一编辑距离,以及所述待甄别文本中第i+k+m个第一分句与所述目标对象中第j+k+m分句的第二编辑距离,其中,所述目标对象为所述待比较对象中的一个对象,i、j为大于0的常数,k为预设常数,n为1到i的集合,m为1到无穷大的集合,且i+k+m小于等于所述待甄别文本的分句的数量,j+k+m小于等于所述目标对象的分句的数量。

在本实施例中,甄别设备在对各个非原创分句进行标记后,实时监测已标注的子句的连续性,也即监测非原创分句的连续性,若在待甄别文本中存在第i个第一分句到第i+k个第一分句与目标对象中第j分句到第j+k分句的海明距离都未超过第一预设值,也即待甄别文本的第i个第一分句到第i+k个第一分句都被标记为非原创分句,则计算待甄别文本中第i-n个第一分句与目标对象中第j-n分句的第一编辑距离,以及待甄别文本中第i+k+m个第一分句与目标对象中第j+k+m分句的第二编辑距离,即原先待甄别文本中第i-n个第一分句和第i+k+m个第一分句未被标记,但这些分句可能存在主语替换以及代词替换等场景,而简单的主语替换以及代词替换等,并不算原创,但海明距离并不能判断出来,因此,在确定待甄别文本连续k个第一分句都被标记为非原创分句的情况下,可确定在此之前的子句以及在此之后的子句依旧存在抄袭的可能,故对第i-n个第一分句以及第i+k+m个第一分句进行编辑距离的计算,其中,目标对象为待比较对象中的一个对象,i、j为大于0的常数,k为预设常数,n为1到i的集合,m为1到无穷大的集合,且i+k+m小于等于所述待甄别文本的分句的数量,j+k+m小于等于所述目标对象的分句的数量。

编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,在本实施例中,指待甄别文本中的分句转换为目标对象中的分句的最少编辑操作次数。

需要说明的是,除了使用编辑距离来确定原先未标记的分句是否抄袭之外,还可以采用jaccard(杰卡德)距离,或者最长公共子序列的长度值来确定,在此不做穷举。

步骤e,若所述第一编辑距离与所述第j-n分句的分句长度的比值小于第二预设值,则将所述第i-n个第一分句标记为非原创分句;若所述第二编辑距离与所述第j+k+m分句的分句长度的比值小于所述第二预设值,则将所述第i+k+m个第一分句标记为非原创分句;

在本实施例中,在得到第一编辑距离和第二编辑距离之后,将第一编辑距离与目标对象的第j-n分句的分句长度进行相除,将第二编辑距离与目标对象的第j+k+m分句的分句长度进行相除,若第一编辑距离与第j-n分句的分句长度的比值小于第二预设值,则将待甄别文本中的第i-n个第一分句标记为非原创分句;若等于或者大于第二预设值,则不对待甄别文本中的第i-n个第一分句进行标记。同理,若第二编辑距离与第j+k+m分句的分句长度的比值小于第二预设值,则将待甄别文本中的第i+k+m个第一分句标记为非原创分句,若等于或者大于第二预设值,则不对待甄别文本中的第i+k+m个第一分句进行标记。其中第二预设值优选为0.1。

即,先计算待甄别文本中第i-1个第一分句与目标对象第j-1分句的编辑距离,并在编辑距离与第j-1分句的分句长度的比值小于第二预设值时,对第i-1个第一分句进行标记,在大于等于第二预设值时,不对第i-1个第一分句进行标记,再继续计算待甄别文本中第i-2个第一分句与目标对象第j-2分句的编辑距离......直至第i-n个第一分句已被标记。同理,计算待甄别文本中第i+k+1个第一分句与目标对象第j+k+1分句的编辑距离,并在编辑距离与第j+k+1分句的分句长度的比值小于第二预设值时,对第i+k+1个第一分句进行标记,在大于等于第二预设值时,不对第i+k+1个第一分句进行标记,再继续计算待甄别文本中第i+k+2个第一分句与目标对象第j+k+2分句的编辑距离......直至第i+k+m个第一分句已被标记,或者当前第一分句为待甄别文本的最后一个第一分句。

在确定待甄别文本中第i-n个第一分句已被标记时,即已确定第i-n分句存在抄袭,无需再对第i-n分句进行编辑距离的计算,同理,在确定待甄别文本中,第i+k+m个第一分句已被标记时,无需再对后续的分句进行编辑距离的计算。此时,统计被标记为非原创分句的字数,此时的非原创分句包括一开始通过海明距离进行标记的非原创分句,也包括后续通过编辑距离进行标记的非原创分句。

需要说明的是,若待甄别文本的第i+k+m个第一分句在目标对象中没有比较对象,也即目标对象到底了,则也不对待甄别文本的第i+k+m个第一分句进行标记。

本实施例在确定待甄别文本是否为原创文本时,除了考虑待甄别文本与原创对象的相似度之外,还考虑存在主语替换和代替替换的因素,相比单一海明距离算法,可以有效解决存在大量主语替换,代词替换的抄袭场景,进一步提高原创文本的甄别精度。

本发明还提供一种原创文本甄别装置。本发明原创文本甄别装置包括:

获取模块,用于在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象;

预处理模块,用于对所述待甄别文本进行预处理,以得到一个以上的第一分句;

第一确定模块,用于将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句;

第二确定模块,用于若所述非原创分句在所述待甄别文本中的占比不大于预设的抄袭阈值,则确定所述待甄别文本为原创文本。

进一步地,所述获取模块还用于:

在接收到待甄别文本时,确定所述待甄别文本的文本长度,并将所述待甄别文本截为所述文本长度对应数量的字符串;

在预设的原创数据库中获取与所述字符串匹配的匹配对象,并在所述匹配对象中选取预设数量的待比较对象。

进一步地,所述预处理模块还用于:

基于预设过滤规则,对所述待甄别文本进行过滤,以得到过滤文本;

基于预设分句规则,对所述过滤文本进行分句,以得到一个以上的第一分句。

进一步地,所述预处理模块还用于:

基于预设分句规则,对所述过滤文本进行分句,以得到各个子句,并依次确定各个子句的字数是否达到预设字数;

若当前子句的字数达到所述预设字数,则将当前子句设定为所述第一分句;

若当前子句的字数未达到所述预设字数,则将当前子句合并到基于前一子句所设定的所述第一分句中。

进一步地,所述第一确定模块还用于:

生成各个所述第一分句对应的第一哈希值;

调取各个所述待比较对象对应的哈希值集合,所述哈希值集合中包含多个第二哈希值;

将所述第一哈希值与所述第二哈希值进行比较,在所述第一哈希值中,确定与至少一个所述第二哈希值的海明距离小于或等于第一预设值的第三哈希值;

在所述第一分句中,将所述第三哈希值对应的分句标记为非原创分句。

进一步地,所述第一确定模块还用于:

若确定所述待甄别文本中第i个第一分句到第i+k第一分句与目标对象中第j分句到第j+k分句的海明距离都未超过第一预设值,则计算所述待甄别文本中第i-n个第一分句与所述目标对象中第j-n分句的第一编辑距离,以及所述待甄别文本中第i+k+m个第一分句与所述目标对象中第j+k+m分句的第二编辑距离,其中,所述目标对象为所述待比较对象中的一个对象,i、j为大于0的常数,k为预设常数,n为1到i的集合,m为1到无穷大的集合,且i+k+m小于等于所述待甄别文本的分句的数量,j+k+m小于等于所述目标对象的分句的数量;

若所述第一编辑距离与所述第j-n分句的分句长度的比值小于第二预设值,则将所述第i-n个第一分句标记为非原创分句;若所述第二编辑距离与所述第j+k+m分句的分句长度的比值小于所述第二预设值,则将所述第i+k+m个第一分句标记为非原创分句。

进一步地,所述第一确定模块还用于:

在所述待甄别文本中,统计所述非原创分句的字数,并基于所述字数以及所述待甄别文本的总字数,确定所述非原创分句在所述待甄别文本中的占比。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有原创文本甄别程序,所述原创文本甄别程序被处理器执行时实现如上所述的原创文本甄别方法的步骤。

其中,在所述处理器上运行的原创文本甄别程序被执行时所实现的方法可参照本发明原创文本甄别方法各个实施例,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1