一种文章的查重检测方法、装置、设备及存储介质与流程

文档序号:19189112发布日期:2019-11-20 01:52阅读:188来源:国知局
一种文章的查重检测方法、装置、设备及存储介质与流程

本发明实施例涉及信息处理技术,尤其涉及一种文章的查重检测方法、装置、设备及存储介质。



背景技术:

随着网络技术的迅速发展,网络用户可以轻易的获取网络上其他人发布的研究成果以及学位论文等。现在很多工作中都有撰写论文的需求,例如,教师、医生以及学生毕业答辩等,为了验证论文的原创性,通常要对论文进行查重检测。

现有的论文查重系统,可以通过比较文本的方式发现待查重论文与网络上其他人上传的论文的相似度,但有一些作弊软件通过大量的同义词替换,使通过比较文本进行查重检测的论文查重系统失效,而且,通过人为将原文内容顺序进行改变,同样也会干扰上述查重系统,从而影响查重检测准确性。



技术实现要素:

本发明实施例提供一种文章的查重检测方法、装置、设备及存储介质,以提高文章查重检测的准确性。

第一方面,本发明实施例提供了一种文章的查重检测方法,所述方法包括:

对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;

获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;

将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。

第二方面,本发明实施例还提供了一种文章的查重检测装置,所述装置包括:

关键句集合确定模块,用于对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;

关键描述特征获取模块,用于获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;

相似度确定模块,用于将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。

第三方面,本发明实施例还提供了一种电子设备,包括:

一个或多个处理器;

存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例提供的文章的查重检测方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的文章的查重检测方法。

本发明实施例的技术方案,通过对待查重文章进行语义分析,获得与待查重文章对应的至少一个关键句集合,并将上述关键句集合与获取到的参考文章的关键描述特征进行匹配,最终根据匹配结果,确定待查重文章与各参考文章之间的关键特征相似度,以对待查重文章进行查重检测,实现了将待查重文章中的核心观点与参考文章的核心观点进行匹配,避免了因同义词替换或者文章内容顺序改变而造成对查重检测结果的影响,提高了文章查重检测的准确性。

附图说明

图1是本发明实施例一中的一种文章的查重检测方法的流程图;

图2是本发明实施例二中的一种文章的查重检测方法的流程图;

图3是本发明实施例三中的一种文章的查重检测方法的流程图;

图4是本发明实施例四中的一种文章的查重检测方法的流程图;

图5是本发明实施例五中的一种文章的查重检测装置的结构示意图;

图6是本发明实施例六提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一中的一种文章的查重检测方法的流程图,本实施例的技术方案适用于根据从待查重文章中提取的关键句与从参考文章中提取的关键描述特征进行文章查重检测的情况,该方法可以由文章的查重检测装置执行,该装置可以由软件和/或硬件来实现,并可以集成在各种通用计算机设备中,具体包括如下步骤:

步骤110、对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;

其中,关键句集合是从待查重文章中提取出来的,能够表征文章核心观点的语句的集合。

本实施例中,通过对待查重文章以预设长度的句子为单位进行语义解析,并根据文章中包含的所有句子的语义进行类别的划分,例如,可以将相似度大于设定阈值的句子划分为一类,最终从至少一类句子中按照设定规则提取最能够表征文章核心观点的关键句,并由这些关键句构成关键句集合。

步骤120、获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;

其中,关键描述特征是预先对参考文章进行处理得到的与参考文章对应的描述信息,每一个关键描述特征对应参考文章中包含的一个主要观点。

本实施例中,获取将要与待查重文章进行匹配的至少一个参考文章对应的关键描述特征,以对待查重文章进行查重检测,其中,一篇参考文章对应至少一个关键描述特征。

步骤130、将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。

本实施例中,将步骤110中得到的待查重文章的关键句集合依次与各个参考文章对应的关键描述特征进行对比,根据对比结果确定待查重文章与各个参考文章的相似度,根据相似度信息来确定待查重文章是否通过查重检测并出具检测报告,例如,可以预先设定相似度阈值,当待查重文章与某一篇参考文章的相似度超出该相似度阈值,则确定待查重文章没有通过查重检测,也可以计算与参考文章匹配的关键句在关键句集合中的占比,若占比超过预设占比阈值,则确定待查重文章没有通过查重检测。

本发明实施例的技术方案,通过对待查重文章进行语义分析,获得与待查重文章对应的至少一个关键句集合,并将上述关键句集合与获取到的参考文章的关键描述特征进行匹配,最终根据匹配结果,确定待查重文章与各参考文章之间的关键特征相似度,以对待查重文章进行查重检测,实现了将待查重文章中的核心观点与参考文章的核心观点进行匹配,避免了因同义词替换或者文章内容顺序改变而造成对查重检测结果的影响,提高了文章查重检测的准确性。

实施例二

图2为本发明实施例二提供的一种文章的查重检测方法的流程图,本实施例在上述实施例的基础上进一步细化,提供了对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合的具体步骤。下面结合图2对本发明实施例二提供的一种文章的查重检测方法进行说明,包括以下步骤:

步骤210、对所述待查重文章中包括的句子按照预设条件过滤,得到备选关键句集合。

本实施例中,为了提取待查重文章的核心观点,首先以句子为单位对待查重文章进行拆分,得到文章中包含的全部句子的集合,但其中可能包含一些与文章核心观点联系较小的句子,这是需要采用预设条件对上述集合中的全部句子进行筛选,以过滤与文章核心观点关系不大的部分句子,最终将过滤完成后的句子集合(即将筛选出的与文章核心观点关系不大的部分句子从文章中包含的全部句子的集合中删除后的句子集合)作为备选关键句集合。

示例性的,上述预设条件可以是将句子长度不满足预设长度的句子从句子集合中删除,或者,将章节标题为“绪论”或者“研究背景与意义”等部分中,不能体现待检测文章核心观点的句子从集合中删除,这里不做具体限定。

可选的,所述对所述待查重文章中包括的句子按照预设的规则过滤,得到备选关键句集合,包括:

将所述待查重文章以标点符号为参照拆分为多个句子;

筛除句子长度不满足预设的有效阈值的所述句子,将剩余的句子形成所述备选关键句集合。

本可选的实施例中,提供一种具体的对待查重文章中包括的句子进行过滤,得到备选关键句集合的具体规则,首先按照待查重文章中的标点符号对文章进行拆分,可以将两个连续的任意类型标点符号中间的内容作为一个句子,也可以将两个连续的指定类型标点符号中间的内容作为一个句子,在根据上述规则对文章进行拆分后,得到文章全部句子集合;其次,依次判断句子集合中包含的句子是否大于有效阈值,将小于有效阈值的句子从句子集合中删除,并由剩余的句子构成备选关键句集合。示例性的,可以将任意两个连续的标点符号之间的内容作为一个句子,也可以规定将两个连续的逗号或者句号之间的内容作为一个句子。

可以理解的是,对待查重文章进行拆分后,得到的全部句子的集合中可能包含一些短句,而很多短句中不具有明确意思,例如,“首先”、“综上所述”等,因此,需要将长度不满足有效阈值的句子删除,而有效阈值的设定可以根据具体情况灵活调整。

步骤220、根据各所述备选关键句在所述待查重文章中的章节位置,和/或标题位置,确定与各所述备选关键句分别对应的权重系数。

通常情况下,文章的章节布局都有一定的规律,而不同章节中可能出现文章核心观点的概率也不相同,因此,为了准确识别文章的核心观点,按照备选关键句在文章中的位置设置其对应的权重。

示例性的,通常学位论文包括摘要、绪论、具体内容章节、总结以及致谢五大部分,而绪论以及致谢部分可能出现文章的核心观点的概率较小,因此,这两部分中包含的备选关键句的权重可以设置较小值(例如,设置权重为1),而摘要、具体内容章节以及总结部分可能出现文章的核心观点的概率较大,因此,这两部分中包含的备选关键句的权重可以设置较大值(例如,设置权重为5)

步骤230、按照所述权重系数,对所述备选关键句集合中的各所述备选关键句进行等效扩充。

本实施例中,在步骤220中设置各备选关键句的权重的基础上,按照与各备选关键句对应的权重对各备选关键句进行扩充,例如,对于出现在文章摘要部分的备选关键句进行5倍扩充。

步骤240、根据所述备选关键句集合中的句子的语义进行聚类,得到所述待查重文章的至少一个关键句集合。

本实施例中,通过对备选关键句进行语义分析,得到其对应语义,并根据语义,对上述备选关键句集合中的备选关键句进行聚类,最终通过将聚类结果按照预设条件进行筛选,最终得到最能表达文章核心观点的至少一个关键句集合,其中,同一关键句集合中包含的关键句对应同一文章观点。

可选的,所述根据所述备选关键句中的句子的语义进行聚类,得到所述待查重文章的至少一个关键句集合,包括:

分别计算所述备选关键句集合中任意两个所述备选关键句之间的语义相似度;

根据所述语义相似度,对所述备选关键句集合中的各所述备选关键句进行聚类处理,得到至少一个聚类簇;

统计各所述聚类簇中包括的备选关键句的数量;

将所述数量满足数量阈值条件的聚类簇,作为所述关键句集合。

本可选的实施例中,提供了通过对备选语句集合中包含的句子进行聚类,获取关键句集合的具体步骤,首先,计算备选关键句集合中任意两个备选关键句的语义相似度,其次,根据所述语义相似度,对所述备选关键句集合中的各所述备选关键句进行聚类处理,将语义相似度高于设定阈值的备选关键句组合为一个聚类簇,也就是说,根据语义将备选关键句进行类别划分,一个类别的备选关键句组成一个聚类簇,再次,依次统计得到的全部聚类簇中包括的备选关键句的数量,一个聚类簇中包含的备选关键句的数量越多,表明其语义可能越接近文章的核心观点,因此,最后由满足数量阈值条件的聚类簇中包含的备选关键句,构成关键句集合。示例性的,可以将数量阈值设置为5。

步骤250、获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点。

步骤260、将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。

本实施例的技术方案,通过对待查重文章中的句子按照设定条件过滤,得到备选关键句集合,再按照与备选关键句在文章中的位置对应的权重系数对其进行扩充,然后根据备选关键句集合中的句子的语义进行聚类,得到关键句集合,最终通过将上述关键句集合与获取到的参考文章的关键描述特征进行匹配,确定待查重文章与各参考文章之间的关键特征相似度,以对待查重文章进行查重检测,一方面,根据备选关键句在文章中的位置确定其权重系数实现了准确把握待查重文章的关键句,另一方面,将待查重文章中的核心观点与参考文章的核心观点进行匹配,避免了因同义词替换或者文章内容顺序改变而造成对查重检测结果的影响,提高了文章查重检测的准确性。

实施例三

图3为本发明实施例三中的一种文章的查重检测方法的流程图,本实施例在上述实施例的基础上进一步细化,提供了对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合之前的具体步骤以及获取与至少一个参考文章分别对应的至少一个关键描述特征之后的具体步骤。下面结合图3对本发明实施例三提供的一种文章的查重检测方法进行说明,包括以下步骤:

步骤310、对所述参考文章进行语义分析,确定与所述参考文章对应的至少一个关键句集合,作为比对关键句集合。

本实施例中,为了能够与待查重文章的核心观点进行精确匹配,同时也要对参考文章进行语义分析,并获得与各个参考文章对应的至少一个关键句集合,作为与待查重文章的关键句进行对比的比对关键句集合。其中,比对关键句集合的获取方法与待查重文章的关键句集合的获取方法相同,具体可参见实施例二中的步骤210~步骤240,这里不再赘述。

步骤320、提取各所述比对关键句集合中的比对关键句的语义特征,得到与所述参考文章的各所述比对关键句集合对应的关键描述特征。

本实施例中,在获取各参考文章对应的至少一个比对关键句集合后,要从比对关键句集合中包含的比对关键句中提取语义特征,最终得到与参考文章的各比对关键句集合对应的关键描述特征。示例性的,对参考文章1进行语义分析,得到了5个比对关键句集合,要分别从这5个比对关键句集合包含的关键句中提取其共同特征,以获取与各比对关键句集合对应的语义特征,最终将与5个比对关键句集合分别对应的至少5个语义特征作为与参考文章1对应的关键描述特征,用于和待查重文章的关键句进行匹配。

可选的,所述提取各所述比对关键句集合中的比对关键句的语义特征,得到与各所述比对关键句集合对应的关键描述特征,包括:

在当前处理的比对关键句集合中,获取一个比对关键句作为标准问,并将除去所述标准问之外的其他比对关键句作为所述标准问的相似问句;

对所述标准问的各所述相似问句进行分词,并对分词结果取交集,其中,每个相似问句的分词结果由对应相似问句的各单词所属的词类组成;

在所述交集中,依据词组出现的频率选择词组以构成与所述标准问对应的至少一个语义表达式,每个词组由预定数目个词类组成;

将构成的所述至少一个语义表达式,作为与所述当前处理的比对关键句集合对应的关键描述特征。

其中,标准问是用来表示参考文章中各个主要观点的句子或者词组,这里主要是为了明确表达参考文章的主要观点,而不是指文章中的问句,而与其对应的相似问句是指与标准问语义相同但表达方式不同的句子或者词组。例如,一篇参考文章中的主要观点之一是“红细胞是血液中数量最多的一种血细胞”,将其作为表达清晰的标准问,而文章中提到的,例如“血液中的红细胞比其他任何血细胞都要多”等与标准问语义相同,但表达方式不同的语句被设定为标准问的相似问句。

本可选的实施例中,首先从当前处理的比对关键句集合中选定一个表达清晰简要(例如,下定义形式的语句)的比对关键句作为标准问,并将除标准问之外的其他关键句作为标准问的相似问句,然后可以采用任何已知的分词算法将每个相似问句分为多个单词,并用每个单词所述此类来替换该单词,得到分词结果后,对当前标准问的多个相似问句的分词结果取交集,在交集中,依据词组出现的频率选择词组以构成与标准问对应的多个语义表达式,并将其作为与当前处理的比对关键句集合对应的关键描述特征。

示例性的,一个标准问的5个相似问句的分词结果分别如下:

[a][b][c][d][e][f][g]、[a][b][k][j][l][m]、[a][b][c][m][q]、[a][b][c][d],[a][e][d]其中,[a]、[b]、[c]、[d]、[e]、[f]、[g]、[k]、[j]、[l]、[m]、[q]都是分词结果中的此类,并且对上述五个分词结果取交集过程中,[a]出现5次,[b]出现4次,[c]出现3次,则此时,可以选择出现频率较高的分词[a]作为标准问的语义表达式,也可以选择词组[a][b]作为标准问的语义表达式,并将其作为与当前处理的比对关键句集合对应的关键描述特征。

可选的,所述提取各所述比对关键句集合中的比对关键句的语义特征,得到与各所述比对关键句集合对应的关键描述特征,包括:

根据当前处理的所述比对关键句集合中的各个所述比对关键句构造多个训练样本;

使用所述训练样本,对基础深度学习模型进行训练,得到关键特征描述模型;

将所述关键特征描述模型,作为与所述当前处理的比对关键句集合对应的关键描述特征。

本可选的实施例中,将比对关键句集合中包含的比对关键句作为训练样本,将上述样本输入至基础深度学习模型中,对模型进行训练,得到关键特征描述模型,也就是说,最终得到的关键特征描述模型可以表征参考文件对应的比对关键句集合的语义特征,因此,将关键特征描述模型作为与当前处理的比对关键句集合对应的关键描述特征,用于和待查重文章的关键句进行匹配。

步骤330、对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点。

步骤340、获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点。

可选的,在所述获取与至少一个参考文章分别对应的至少一个关键描述特征之后,还包括:

将所述参考文章的各所述关键描述特征作为参考文章知识数据输入至问答引擎的知识库中。

本可选的实施例中,当通过对参考文章进行语义分析获取参考文章对应的比对关键句集合,并使用根据比对关键句生成的标准问从比对关键句集合中提取比对关键句的语义特征,得到与参考文章的各比对关键句对应的关键描述特征后,可以将获取到的参考文章的关键描述特征输入至问答引擎知识库中,用于与待查重文章包含的关键句集合进行匹配。

步骤350、将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。

可选的,所述将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,包括:

将所述关键句集合中的各所述关键句分别输入至所述问答引擎中;

获取所述问答引擎输出的各所述参考文章知识数据中的标准问触发次数;

将所述标准问触发次数与全部关键句集合的数量的比值,作为所述待查重文章与各所述参考文章之间的关键特征相似度。

本可选的实施例中,在获取到待查重文章的关键句集合后,将其中的各关键句分别输入至问答引擎,与问答引擎中预存的参考文章知识数据进行匹配,若匹配成功则参考文章知识数据中的标准问触发计数器加1,最后计算标准问触发次数与全部关键句集合的数量的比值,并将上述比值作为待查重文章与各参考文章之间的关键特征相似度。

这样设置的好处在于,通过将参考文章的语义表达式作为参考文章知识数据输入至问答引擎的知识库中后,可以直接使用技术比较成熟的问答引擎实现对关键特征相似度的计算,可以大大减少开发成本,简化开发流程。

本实施例的技术方案,通过对参考文章进行语义分析获取参考文章对应的比对关键句集合,并使用根据比对关键句生成的标准问或者关键特征描述模型从比对关键句集合中提取比对关键句的语义特征,得到与参考文章的各比对关键句对应的关键描述特征,最终通过将上述关键描述特征与待查重文章中的关键句进行匹配,实现将待查重文章中的核心观点与参考文章的核心观点进行匹配,提高了文章查重检测的准确性。

实施例四

图4为本发明实施例四中的一种文章的查重检测方法的流程图,本实施例在上述实施例的基础上进一步细化,提供了将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度的具体步骤以及根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度之后的具体步骤。下面结合图3对本发明实施例三提供的一种文章的查重检测方法进行说明,包括以下步骤:

步骤410、对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点。

步骤420、获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点。

步骤430、在所述待查重文章的每个所述关键句集合中,分别选取至少一个关键句,与所述参考文章的各关键描述特征分别进行匹配。

本实施例中,从待查重文章对应的至少一个关键句集合中,分别取出至少一个关键句,与所述参考文章的各关键描述特征分别进行对比。示例性的,将待查重文章中的关键句集合1(关键句集合1包含15个关键句)中的关键句与参考文章的各关键描述特征分别进行匹配。例如,可以通过计算相似度进行匹配,当关键句与关键描述特征相似度高于设定阈值,则确定当前关键句与所述关键描述特征匹配。

步骤440、根据所述每个所述关键句集合中的至少一个关键句与各所述关键描述特征的匹配结果,在各所述关键句集合中确定匹配关键句集合。

本实施例中,根据关键句集合中包含的关键句与各关键描述特征的匹配结果,确定当前处理的关键句集合是否属于匹配关键句集合。例如,当超过设定数量的关键句与关键描述特征匹配时,确定这些关键句所属的关键句集合属于匹配关键句集合。

可选的,所述根据所述每个所述关键句集合中的至少一个关键句与各所述关键描述特征的匹配结果,在各所述关键句集合中确定匹配关键句集合,包括:

判断在当前处理的关键句集合中的所述至少一个关键句中,是否超过设定比例的关键句均与同一所述关键描述特征相匹配;

若是,则将所述当前处理的关键句集合确定为所述匹配关键句集合。

本可选的实施例中,提供了一种具体的根据匹配结果,确定匹配关键句集合的方式,具体为,通过将当前关键句集合与关键描述信息匹配的关键句数量与关键句集合中全部关键句数量相除,计算与关键描述信息匹配的关键句在该关键句集合中的比例,当这一比例大于设定比例时,确定当前处理的关键句集合确定为所述匹配关键句集合。示例性的,设定比例为45%。

在一个具体例子中,可以在当前处理的关键句集合中,随机获取一个关键句,并将所述关键句与各所述关键描述特征进行匹配,若与任一关键描述特征匹配成功,则确定当前处理的关键句集合为所述匹配关键句集合;若与全部关键描述特征均匹配失败,确定当前处理的关键句集合不为所述匹配关键句集合。

步骤450、计算所述匹配关键句集合的数量与全部所述关键句集合的数量的比值,作为所述待查重文章与所述参考文章之间的所述关键特征相似度。

本实施例中,通过计算匹配关键句集合的个数占待查重文章中包含的所有关键句集合数量的比例,来确定待查重文章与参考文章之间的关键特征相似度。

可选的,在所述根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度之后,还包括:

如果确定存在与所述待查重文章之间的所述关键特征相似度满足重复相似度阈值条件的至少一个目标参考文章,则确定所述待查重文章未通过查重测试,也即,当确定待查重文章中的大部分文章观点,均出自于一个目标参考文章中时,确定该待查重文章未通过查重测试。

本可选的实施例中,提供一种判断待查重文章是否通过查重测试的方式,具体为,根据计算得到的关键特征相似度,确定待查重文章是否与至少一篇参考文章的关键特征相似度超出预设的重复相似度阈值条件(例如,关键特征相似度超过90%),若是,则确定待查重文章未通过查重测试。

可选的,在所述根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度之后,还包括:

获取与所述待查重文章之间的所述关键特征相似度满足接近相似度阈值条件的至少一个目标参考文章;

获取所述待查重文章中,与各所述目标参考文章分别匹配的目标关键句集合;

计算所述与各所述目标参考文章分别匹配的目标关键句集合之间的集合并集;

如果所述集合并集中包括的目标关键句集合的数量与所述待查重文章中包括的关键句集合的总数量的比值满足设定比值阈值条件,则确定所述待查重文章未通过查重测试。

本可选的实施例中,提供另一种判断待查重文章是否通过查重测试的方式,具体为,首先,获取与待查重文章的关键特征相似度满足接近相似度阈值条件(例如,关键特征相似度大于40%)的目标参考文章,并将待查重文章中与各目标参考文章匹配的目标关键句集合的数量进行统计并求和,获得与目标参考文章匹配的目标关键句集合的总数量,然后计算目标关键句集合的数量与待查重文章中包括的关键句集合的总数量的比值,当比值满足设定的比值阈值条件时,确定待查重文章未通过查重测试。

也即,当确定待查重文章中的大部分文章观点,出自于多个目标参考文章中时,该待查重文章对多个目标参考文章的文章观点进行了组合,进而可以确定待查重文章未通过查重测试。

可选的,在所述根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度之后,还包括:

获取与所述待查重文章之间的所述关键特征相似度满足比对相似度阈值条件的至少一个目标参考文章;

获取所述待查重文章中,与各所述目标参考文章分别匹配的目标关键句集合;

在所述待查重文章中,获取与各所述目标关键句集合中的目标关键句对应的文章原文句,生成与各所述目标关键句集合对应的文章原文句集合;

根据所述待查重文章与每个所述目标参考文章分别对应的所述关键特征相似度以及所述文章原文句集合,生成查重测试报告。

本可选的实施例中,提供一种根据查重检测结果生成查重测试报告的方式,具体为,首先,获取与待查重文章的关键特征相似度满足比对相似度阈值条件(例如,关键特征相似度大于60%)的目标参考文章,然后获取待查重文章中与各目标参考文章匹配的目标关键句集合,再根据目标关键句集合中的目标关键句确定与其对应的待查重文章中的原文句,最后根据待查重文章与每个目标参考文章分别对应的关键特征相似度以及文章原文句集合,生成查重测试报告。示例性的,可以将与目标参考文章匹配的关键句对应的原文句标红,并将目标参考文章中的相关内容与其对应显示,并且标注出待查重文章与该目标参考文章的关键特征相似度。

本领域技术人员可以理解的是,上述重复相似度阈值条件、接近相似度阈值条件、比对相似度阈值条件可以根据实际情况进行预设,本实施例对此并不进行限制。

本实施例的技术方案,通过将待查重文章的关键句和各参考文章的关键描述特征进行匹配,获取关键句集合中与参考文章匹配的匹配关键句集合,并进一步计算匹配关键句集合的数量与全部关键句集合的数量的比值,以确定待查重文章与参考文章的相似度,最终通过重复相似度阈值条件或者匹配关键句集合数量与全部关键句集合数量的设定比值阈值条件来判断待查重文章是否通过查重检测,并根据匹配结果生成查重测试报告,可以灵活设置查重检测通过条件,且便于用户查看具体查重情况。

实施例五

图5为本发明实施例五中的一种文章的查重检测装置的结构示意图,该文章的查重检测装置,包括:关键句集合确定模块510、关键描述特征获取模块520和相似度确定模块530。

关键句集合确定模块510,用于对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;

关键描述特征获取模块520,用于获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;

相似度确定模块530,用于将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。

本发明实施例的技术方案,通过对待查重文章进行语义分析,获得与待查重文章对应的至少一个关键句集合,并将上述关键句集合与获取到的参考文章的关键描述特征进行匹配,最终根据匹配结果,确定待查重文章与各参考文章之间的关键特征相似度,以对待查重文章进行查重检测,实现了将待查重文章中的核心观点与参考文章的核心观点进行匹配,避免了因同义词替换或者文章内容顺序改变而造成对查重检测结果的影响,提高了文章查重检测的准确性。

可选的,所述关键句集合确定模块510,包括:

备选关键句获取单元,用于对所述待查重文章中包括的句子按照预设条件过滤,得到备选关键句集合;

关键句集合获取单元,用于根据所述备选关键句集合中的句子的语义进行聚类,得到所述待查重文章的至少一个关键句集合。

可选的,所述关键句集合获取单元,具体用于:

将所述待查重文章以标点符号为参照拆分为多个句子;

筛除句子长度不满足预设的有效阈值的所述句子,将剩余的句子形成所述备选关键句集合。

可选的,所述备选关键句获取单元,具体用于:

分别计算所述备选关键句集合中任意两个所述备选关键句之间的语义相似度;

根据所述语义相似度,对所述备选关键句集合中的各所述备选关键句进行聚类处理,得到至少一个聚类簇;

统计各所述聚类簇中包括的备选关键句的数量;

将所述数量满足数量阈值条件的聚类簇,作为所述关键句集合。

可选的,所述关键句集合确定模块510,还包括:

权重系数确定单元,用于在所述对所述待查重文章中包括的句子按照预设的规则过滤,得到备选关键句集合之后,根据各所述备选关键句在所述待查重文章中的章节位置,和/或标题位置,确定与各所述备选关键句分别对应的权重系数;

等效扩充单元,用于按照所述权重系数,对所述备选关键句集合中的各所述备选关键句进行等效扩充。

可选的,所述文章的查重检测装置,还包括:

比对关键句集合获取模块,用于在所述对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合之前,对所述参考文章进行语义分析,确定与所述参考文章对应的至少一个关键句集合,作为比对关键句集合;

关键描述特征获取模块,用于提取各所述比对关键句集合中的比对关键句的语义特征,得到与所述参考文章的各所述比对关键句集合对应的关键描述特征。

可选的,所述关键描述特征获取模块,具体用于:

在当前处理的比对关键句集合中,获取一个比对关键句作为标准问,并将除去所述标准问之外的其他比对关键句作为所述标准问的相似问句;

对所述标准问的各所述相似问句进行分词,并对分词结果取交集,其中,每个相似问句的分词结果由对应相似问句的各单词所属的词类组成;

在所述交集中,依据词组出现的频率选择词组以构成与所述标准问对应的至少一个语义表达式,每个词组由预定数目个词类组成;

将构成的所述至少一个语义表达式,作为与所述当前处理的比对关键句集合对应的关键描述特征。

可选的,所述关键描述特征获取模块,具体用于:

根据当前处理的所述比对关键句集合中的各个所述比对关键句构造多个训练样本;

使用所述训练样本,对基础深度学习模型进行训练,得到关键特征描述模型;

将所述关键特征描述模型,作为与所述当前处理的比对关键句集合对应的关键描述特征。

可选的,所述相似度确定模块530,包括:

特征匹配单元,用于在所述待查重文章的每个所述关键句集合中,分别选取至少一个关键句,与所述参考文章的各关键描述特征分别进行匹配;

匹配关键句集合确定单元,用于根据所述每个所述关键句集合中的至少一个关键句与各所述关键描述特征的匹配结果,在各所述关键句集合中确定匹配关键句集合;

相似度计算单元,用于计算所述匹配关键句集合的数量与全部所述关键句集合的数量的比值,作为所述待查重文章与所述参考文章之间的所述关键特征相似度。

可选的,所述匹配关键句集合确定单元,具体用于:

判断在当前处理的关键句集合中的所述至少一个关键句中,是否超过设定比例的关键句均与同一所述关键描述特征相匹配;

若是,则将所述当前处理的关键句集合确定为所述匹配关键句集合。

可选的,所述文章的查重检测装置,还包括:

知识数据输入模块,用于在所述获取与至少一个参考文章分别对应的至少一个关键描述特征之后,将各所述参考文章的各所述关键描述特征作为参考文章知识数据输入至问答引擎的知识库中;

可选的,所述相似度确定模块,包括:

关键句输入单元,用于将所述关键句集合中的各所述关键句分别输入至所述问答引擎中;

触发次数获取单元,用于获取所述问答引擎输出的各所述参考文章知识数据中的标准问触发次数;

相似度获取单元,用于将所述标准问触发次数与全部关键句集合的数量的比值,作为所述待查重文章与各所述参考文章之间的关键特征相似度。

可选的,所述文章的查重检测装置,还包括:

查重测试结果确定模块,用于在所述根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度之后,如果确定存在与所述待查重文章之间的所述关键特征相似度满足重复相似度阈值条件的至少一个目标参考文章,则确定所述待查重文章未通过查重测试。

可选的,所述文章的查重检测装置,还包括:

目标参考文章获取模块,用于在所述根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度之后,获取与所述待查重文章之间的所述关键特征相似度满足接近相似度阈值条件的至少一个目标参考文章;

目标关键句集合获取模块,用于获取所述待查重文章中,与各所述目标参考文章分别匹配的目标关键句集合;

集合并集计算模块,用于计算所述与各所述目标参考文章分别匹配的目标关键句集合之间的集合并集;

查重测试结果确定模块,用于如果所述集合并集中包括的目标关键句集合的数量与所述待查重文章中包括的关键句集合的总数量的比值满足设定比值阈值条件,则确定所述待查重文章未通过查重测试。

可选的,所述文章的查重检测装置,还包括:

目标参考文章获取模块,用于在所述根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度之后,获取与所述待查重文章之间的所述关键特征相似度满足比对相似度阈值条件的至少一个目标参考文章;

目标关键句集合获取模块,用于获取所述待查重文章中,与各所述目标参考文章分别匹配的目标关键句集合;

文章原文句集合生成模块,用于在所述待查重文章中,获取与各所述目标关键句集合中的目标关键句对应的文章原文句,生成与各所述目标关键句集合对应的文章原文句集合;

查重测试报告生成模块,用于根据所述待查重文章与每个所述目标参考文章分别对应的所述关键特征相似度以及所述文章原文句集合,生成查重测试报告。

本发明实施例所提供的文章的查重检测装置可执行本发明任意实施例所提供的文章的查重检测方法,具备执行方法相应的功能模块和有益效果。

实施例六

图6为本发明实施例六提供的一种电子设备的结构示意图,如图6所示,该电子设备包括处理器60和存储器61;设备中处理器60的数量可以是一个或多个,图6中以一个处理器60为例;设备中的处理器60和存储器61可以通过总线或其他方式连接,图6中以通过总线连接为例。

存储器61作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种倒文章的查重检测方法对应的程序指令/模块(例如,文章的查重检测装置中的关键句集合确定模块510、关键描述特征获取模块520和相似度确定模块530)。处理器60通过运行存储在存储器61中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的文章的查重检测方法。

该方法包括:

对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;

获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;

将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。

存储器61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器61可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器61可进一步包括相对于处理器60远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例七

本发明实施例七还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种文章的查重检测方法,该方法包括:

对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;

获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;

将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。

当然,本发明实施例所提供的包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文章的查重检测方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述一种文章的查重检测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1