文本查重方法及装置、计算机可读存储介质、电子设备与流程

文档序号:19310541发布日期:2019-12-03 23:28阅读:246来源:国知局
文本查重方法及装置、计算机可读存储介质、电子设备与流程

本公开涉及文本处理技术领域,具体而言,涉及一种文本查重方法、文本查重装置、计算机可读存储介质以及电子设备。



背景技术:

在科学文化事业的发展中,作品的正当传播和使用无论对于作者还是传播者都是尤为重要的,因此对原创作品的版权进行验证以及保护成为非常必要的环节。

对于发布原创文章的平台来说,在文章上线前需要确保文章没有抄袭别人,具有唯一性;在文章上线之后也需要及时发现别人的抄袭行为;以在必要时能够利用法律途径维护作者以及平台的合法权益。现有技术中对文章进行查重的方案,大多是通过爬虫技术获取大量的文章保存在数据库内,再一一匹配文章的相似度。然而,这种方案过于依赖于资源的全面性,需要爬虫不停地获取新资源,而且会占用大量的数据库存放空间。如果数据库中的文章资源没有及时更新则根据文章匹配的相似度来确定文章是否具有唯一性是不可靠的。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

本公开的目的在于提供一种文本查重方法、文本查重装置、电子设备以及计算机可读存储介质,进而在一定程度上克服由于相关技术的限制和缺陷而导致的,在新的资源获取的不及时或者不全面时造成的文本查重率不可靠的问题。

根据本公开的第一方面,提供一种文本查重方法,包括:

从待查重文本中提取多个文字片段;

对各所述文字片段进行检索,获得各所述文字片段的检索结果列表;

从各所述检索结果列表包含的所有检索结果中,确定重复出现的检索结果为目标检索结果,获得目标检索结果集合;

确定所述目标检索结果集合对应的待比对文本集合;

利用所述待比对文本集合确定出所述待查重文本的查重率。

在本公开的一种示例性实施例中,所述从各所述检索结果列表包含的所有检索结果中,确定重复出现的检索结果为目标检索结果,获得目标检索结果集合,包括:

确定包含所述目标检索结果的检索结果列表,作为目标列表,确定所述目标检索结果在所述目标列表中的位置,作为第一指标;

根据所述目标检索结果的第一指标,计算所述目标检索结果与所述待查重文本的相关度;

获取所述相关度满足预设阈值的目标检索结果,作为目标检索结果集合。

在本公开的一种示例性实施例中,所述计算所述目标检索结果与所述待查重文本的相关度,包括:

获取所述目标检索结果的第一指标;

确定所述目标检索结果与对应的所述文字片段的命中率,作为所述目标检索结果的第二指标;

结合所述第一指标和所述第二指标,计算所述目标检索结果与所述待查重文本的相关度。

在本公开的一种示例性实施例中,所述从各所述检索结果列表包含的所有检索结果中,确定重复出现的检索结果为目标检索结果,获得目标检索结果集合,包括:

根据所述所有的检索结果,确定所述目标检索结果的出现概率;

获取所述出现概率满足预设阈值的目标检索结果,作为目标检索结果集合。

在本公开的一种示例性实施例中,所述利用所述待比对文本集合确定出所述待查重文本的查重率,包括:

将所述待比对文本集合中的待比对文本与所述待查重文本进行匹配,确定所述待比对文本与所述待查重文本的相似度;

如果所述待比对文本与所述待查重文本的相似度超过预设阈值,则确定所述待查重文本为重复文本。

在本公开的一种示例性实施例中,所述对各所述文字片段进行检索,获得各所述文字片段的检索结果列表,包括:

利用搜索引擎对各所述文字片段进行检索,基于所述搜索引擎对检索结果的排序获得各所述文字片段的检索结果列表。

在本公开的一种示例性实施例中,所述从待查重文本中提取多个文字片段,包括:

根据所述待查重文本的类型,从所述待查重文本中随机顺序提取多个文字片段。

根据本公开的第二方面,提供一种文本查重装置,包括:

文本提取模块,用于从待查重文本中提取多个文字片段;

检索获取模块,用于对各所述文字片段进行检索,获得各所述文字片段的检索结果列表;

结果筛选模块,用于从各所述检索结果列表包含的所有检索结果中,确定重复出现的检索结果为目标检索结果,获得目标检索结果集合;

文本确定模块,用于确定所述目标检索结果集合对应的待比对文本集合;

查重率确定模块,用于利用所述待比对文本集合确定出所述待查重文本的查重率。

在本公开的一种示例性实施例中,所述结果筛选模块包括:

位置获取单元,用于确定包含所述目标检索结果的检索结果列表,作为目标列表,确定所述目标检索结果在所述目标列表中的位置,作为第一指标;

相关度计算单元,用于根据所述目标检索结果的第一指标,计算所述目标检索结果与所述待查重文本的相关度;

相关度筛选单元,用于获取所述相关度满足预设阈值的目标检索结果,作为目标检索结果集合。

在本公开的一种示例性实施例中,所述相关度计算单元可以用于下述步骤:获取所述目标检索结果的第一指标;获取所述目标检索结果与应的所述文字片段的命中率,作为所述目标检索结果的第二指标;结合所述第一指标和所述第二指标,计算所述目标检索结果与所述待查重文本的相关度。

在本公开的一种示例性实施例中,所述结果筛选模块包括:

概率确定单元,用于根据所述所有的检索结果,确定所述目标检索结果的出现概率;

概率筛选单元,用于获取所述出现概率满足预设阈值的目标检索结果,作为目标检索结果集合。

在本公开的一种示例性实施例中,所述查重率确定模块包括:

相似度计算单元,用于将所述待比对文本集合中的待比对文本与所述待查重文本进行匹配,确定所述待比对文本与所述待查重文本的相似度;

结果输出单元,用于如果所述待比对文本与所述待查重文本的相似度超过预设阈值,则确定所述待查重文本为重复文本。

在本公开的一种示例性实施例中,所述检索获取模块可以用于:利用搜索引擎对各所述文字片段进行检索,基于所述搜索引擎对检索结果的排序获得各所述文字片段的检索结果列表。

在本公开的一种示例性实施例中,所述文本提取模块用于:根据所述待查重文本的类型,从所述待查重文本中随机顺序提取多个文字片段。

根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一种所述的方法。

根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种所述的方法。

本公开示例性实施例可以具有以下部分或全部有益效果:

在本公开的一示例实施方式所提供的图像融合方法中,根据待查重文本中提取的文字片段,对文字片段进行检索,在检索结果中筛选出目标检索结果,进一步根据目标检索结果对应的待比对文本确定待查重文本的查重率,从而在不依赖大量的文本资源的前提下,将文本的范围缩小,在小范围内进行文本相似度匹配,减少了文本匹配的计算压力,提高了文本查重率确定的速率。并且,由于无需获取大量文本资源到数据库,减少了存储空间的占用,提高了存储空间的利用率。此外,利用待查重文本的文字片段直接对待查重文本进行检索,能够比较全面覆盖网络中的所有文本资源,从而提高查重结果的可靠性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的一种文本查重方法及装置的示例性系统架构的示意图;

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;

图3示意性示出了根据本公开的一个实施例的文本查重方法的流程图;

图4示意性示出了根据本公开的一个实施例中获取目标检索结果集合的步骤的流程图;

图5示意性示出了根据本公开的一个实施例中计算目标检索结果与待查重文本相关度的步骤的流程图;

图6示意性示出了根据本公开的一个实施例中获取目标检索结果集合的步骤的流程图;

图7示意性示出了根据本公开的一个实施例的文本查重方法的流程图;

图8示意性示出了根据本公开的一个实施例的文本查重装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种文本查重方法及装置的示例性应用环境的系统架构的示意图。

如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的文本查重方法一般由服务器105执行,相应地,文本查重装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的文本查重方法也可以由终端设备101、102、103执行,相应的,文本查重装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,可以是用户通过终端设备101、102、103将待查重文本上传至服务器105,服务器通过本公开实施例所提供的文本查重方法确定待查重文本的查重率,并将待查重文本的查重率发送给终端设备101、102、103等。

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示,计算机系统200包括中央处理单元(cpu)201,其可以根据存储在只读存储器(rom)202中的程序或者从存储部分208加载到随机访问存储器(ram)203中的程序而执行各种适当的动作和处理。在ram203中,还存储有系统操作所需的各种程序和数据。cpu201、rom202以及ram203通过总线204彼此相连。输入/输出(i/o)接口205也连接至总线204。

以下部件连接至i/o接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分207;包括硬盘等的存储部分208;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至i/o接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(cpu)201执行时,执行本申请的方法和装置中限定的各种功能。在一些实施例中,计算机系统200还可以包括ai(artificialintelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。

需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图3~图7所示的各个步骤等。

以下对本公开实施例的技术方案进行详细阐述:

在相关技术中,主要是通过爬虫技术爬取大量文章到自己的数据库内,再将待查重文本与数据库中文本进行相似度的匹配,确定出待查重文本的查重率。然而,大量的文本资源对存储空间的要求非常高,容易出现存储空间不足的问题,并且将文本资源进行一一匹配的计算量巨大,速度比较慢。另外,搜索引擎对爬虫的限制越来越严格,导致文本资源的获取越来越不容易。

基于上述一个或多个问题,本示例实施方式提供了一种文本查重方法。该文本查重方法可以应用于上述服务器105,也可以应用于上述终端设备101、102、103中的一个或多个,本示例性实施例中对此不做特殊限定。参考图3所示,该文本查重方法可以包括以下步骤s310至步骤s350:

s310.从待查重文本中提取多个文字片段。

s320.对各所述文字片段进行检索,获得各所述文字片段的检索结果列表。

s330.从各所述检索结果列表包含的所有检索结果中,确定重复出现的检索结果为目标检索结果,获得目标检索结果集合。

s340.确定所述目标检索结果集合对应的待比对文本集合。

s350.利用所述待比对文本集合确定出所述待查重文本的查重率。

在本示例实施方式所提供的文本查重方法中,根据待查重文本中提取的文字片段,对文字片段进行检索,在检索结果中筛选出目标检索结果,进一步根据目标检索结果对应的待比对文本确定待查重文本的查重率,从而在不依赖大量的文本资源的前提下,将文本的范围缩小,在小范围内进行文本相似度匹配,减少了文本匹配的计算压力,提高了文本查重率确定的速率。并且,由于无需获取大量文本资源到数据库,减少了存储空间的占用,提高了存储空间的利用率。此外,利用待查重文本的文字片段直接对待查重文本进行检索,能够比较全面覆盖网络中的所有文本资源,从而提高查重结果的可靠性。

下面,对于本示例实施方式的上述步骤进行更加详细的说明。

在步骤s310中,从待查重文本中提取多个文字片段。

本示例实施方式中,待查重文本可以是由作者原创的作品,例如,待查重文本可以为小说、诗歌、戏剧、学术论文等等,也可以为其他作品,例如影评、剧评等,本实施方式对此不做特殊限定。文字片段可以为待查重文本中的句子或者段落。文字片段可以包括一个句子或者多个句子,也可以包括句子以及段落。根据文本大小的不同,文字片段的数量也会有所不同。对待查重文本进行分句、分段可以得到待查重文本对应的文字片段。

本示例实施方式中,可以通过多种方式提取待查重文本中的多个文字片段。例如,如果待查重文本是诗歌,由于诗歌大多都是短句的形式,则可以将待查重文本按段划分得到诗歌中的每一段,然后将诗歌中所有的段落均提取出来作为文字片段;如果待查重文本是学术论文,则可以将待查重文本按段划分得到论文中的每一段,由于论文的篇幅大多非常长,可以按顺序随机提取出一定数量的段落作为文字片段。此外,还可以对待查重文本按句划分,从提取的段落中再随机提取出一定数量的句子也作为文字片段,进一步判断文本的唯一性。因此,可以根据待查重文本的类型提取待查重文本中的文字片段,待查重文本的类型的不同,文字片段的提取方式也可以不同。

此外,在提取待查重文本中的文字片段之前需要对待查重文本进行预处理,例如预处理可以包括分段处理、分句处理等。利用特定符号可以对待查重文本进行分段或分句处理,例如,按照文本中的段落标记对待查重文本进行分段,按照文本中句号、分号等符号对待查重文本进行分句等等。待查重文本还可以具有一定的格式,按照待查重文本符合的统一的格式,可以将待查重文本中模板部分的内容去掉,从而在剩下的文本内容中提取文字片段。

在步骤s320中,对各所述文字片段进行检索,获得各所述文字片段的检索结果列表。

本示例实施方式中,从待查重文本中提取出的文字片段可以包括多个,可以分别对每个文字片段进行检索,每进行一次检索可以得到一文字片段对应的一检索结果列表,检索结果列表中可以包括多个针对该文字片段的检索结果。检索结果可以表示与文字片段包含相同内容的相关信息。检索结果可以包括相关信息的标识,例如相关信息的名称,也可以包括相关信息的存储地址,或者相关信息的网页链接。

示例性的,文字片段的检索结果列表可以通过搜索引擎获取。将文字片段输入搜索引擎可以得到互联网上的所有与该文字片段包含相同内容的相关信息的链接,并且搜索引擎还可以根据相关性对检索到的链接进行排序,因此可以选取搜索到的前m条链接作为检索结果,m为大于0的正整数。一般而言,搜索引擎可以对输入的文字片段进行搜索,匹配到包含该文字片段的相关信息;或者还可以对文字片段进行分词处理,从而得到文字片段中的多个词语,然后分别利用每个词语进行一次信息匹配,得到包含该词语的相关信息。并且,可以对检索到的所有相关信息进行排序,排在前面的与文字片段的相似度更高。因此,利用搜索引擎检索到检索结果后,可以基于搜索引擎对检索结果的排序确定检索结果列表,从而使得检索结果列表中的检索结果的排列顺序可以表征检索结果与文字片段的相关性。

不同的搜索引擎对于检索结果的排序不同,因此,本示例性实施方式中可以通过多个不同的搜索引擎对文字片段进行检索,进而平衡由于不同搜索引擎的排序权重不同而导致的误差。并且,通过多个不同的搜索引擎同时检索,还可以降低单一搜索引擎的检索频率,节省检索时间,提高检索效率。

如果从待查重文本中提取出多个文字片段,则多个文字片段可以按照提取的顺序进行检索。即,先检索在待查重文本中位置靠前的文字片段,自上而下地将所有的文字片段进行检索。文字片段被提取出的顺序可以表示文字片段在待查重文本中的前后顺序,而大多数情况下,文章的上下文都是非常重要的。因此,文字片段对应的检索结果列表也可以根据该顺序排序,以便于确定目标检索结果。

例如,从待查重文本中按照顺序提取出了10个文字片段,每个文字片段检索后会得到对应的检索结果列表,从而得到了这10个文字片段分别对应的10个检索结果列表,并且这10个检索结果列表的顺序按照文字片段的检索顺序排列。

在步骤s330中,从各所述检索结果列表包含的所有检索结果中,确定重复出现的检索结果为目标检索结果,获得目标检索结果集合。

得到每个文字片段分别对应的检索结果列表后,从所有的检索结果列表包含的检索结果中,筛选出目标检索结果。目标检索结果可以表示对文字片段进行检索时,不止一次被检索到的检索结果。换言之,在各个检索结果列表中至少在两个检索结果列表中均包含的检索结果可以为目标检索结果。此外,还可以设置一阈值,将重复出现的次数满足该阈值的检索结果作为目标检索结果。该阈值可以根据实际需求设定,例如3、4、5等,本实施方式对此不做限定。例如,阈值为5,则在所有的检索结果中,有5个或者5个以上的检索结果列表中均包含的检索结果为目标检索结果。

通过逐一遍历检索结果列表中的检索结果,可以确定检索结果列表中包含的检索结果是否与其他检索结果列表中包含的检索结果相同,从而通过对每一检索结果列表进行遍历,确定出所有的检索结果中重复出现的检索结果,作为目标检索结果。例如,从待查重文本中提取出10个文字片段,对第一个文字片段进行检索时,检索到了a,对第二个文字片段进行检索时,又检索到了a,对第十个文字片段进行检索时,再次检索到了a,则在第一个检索结果列表、第二个检索结果列表、第十个检索结果列表中a重复出现,可以将a确定为目标检索结果。

确定出所有的检索结果列表中所有重复出现的检索结果,作为目标检索结果存入目标检索结果集合。目标检索结果集合中可以包括一个,或多个目标检索结果。本实施方式中,通过对文字片段的检索,将重复出现的检索结果确定目标检索结果,从而在无需获取文本资源的前提下,对文本范围进行缩小,可以减少文本相似度计算的次数,提高文本查重的速率。

参考图4,本示例性实施方式中,可以利用步骤s410至步骤s420对目标检索结果进行进一步筛选,从而在目标检索结果的基础上进一步缩小范围。其中:

s410.确定包含所述目标检索结果的检索结果列表,作为目标列表,确定所述目标检索结果在所述目标列表中的位置,作为第一指标。

s420.根据所述目标检索结果的第一指标,计算所述目标检索结果与所述待查重文本的相关度。

s430.获取所述相关度满足预设阈值的目标检索结果,作为目标检索结果集合。

在步骤s410中,确定包含目标检索结果的检索结果列表为目标列表,从而确定目标检索结果在目标列表中的位置,即第一指标。可以通过序号表示目标检索结果在目标列表中的位置,例如1可以表示在目标列表中的第一个检索结果。目标检索结果重复出现在多个检索结果列表中,因此包含目标检索结果的目标列表可以为多个,目标检索结果重复出现的数量可以为目标列表的数量。目标检索结果的第一指标可以包括多个,在不同的目标列表中同一目标检索结果的位置可以是不同的。

换言之,如果目标检索结果一共重复出现了m次,则该目标检索结果的第一指标可以包括m个。例如,目标检索结果a在第一检索结果列表、第二检索结果列表、第五检索结果列表中重复出现,则在第一检索结果列表中a的序号可以为2,而在第二检索结果列表中a的序号可以为3,在第五检索结果列表中a的序号可以为10,可以看出a重复出现了三次,出现时对应的序号分别为2、3、10,因此,在第一、第二、第五检索结果列表中的位置越来越靠后。

在步骤s420中,可以将目标检索结果的多个第一指标进行加和,从而获得目标检索结果的平均出现位置,作为相关度。示例性的,得到目标检索结果的多个第一指标后,可以通过:来计算相关度。其中,n表示目标检索结果出现的位置,k表示目标列表的总数,j表示其中一个目标列表。通过上述方式可以计算每一目标检索结果的相关度。

本领域技术人员可以理解的是,在本公开的其他实施方式中,相关度还可以通过其他方式计算,例如:通过对数函数对加和得到的位置进行平衡等,这些同样属于本公开的保护范围。

参考图5,在示例性实施方式中,还可以利用步骤s510至步骤s530计算目标检索结果的相关度。其中:

s510.获取所述目标检索结果的第一指标。

s520.获取所述目标检索结果与对应的所述文字片段的命中率,作为所述目标检索结果的第二指标。

s530.结合所述第一指标和所述第二指标,计算所述目标检索结果与所述待查重文本的相关度。

获取目标检索结果的第一指标与上述步骤s410中所述的方法类似,此处不再赘述。

在步骤s520中,目标检索结果与对应的文字片段的命中率可以表示目标检索结果命中的文字片段中的字符的概率,即,目标检索结果中包含的文字片段中字符的数量与文字片段的字符总数的比值。如果目标检索结果对对应的文字片段完全命中,即,目标检索结果中包含完整的文字片段,则命中率可以为1。例如,文字片段为“春天来了”,该文字片段对应的目标检索结果为“春天来了,来到了小河边,小溪欢快的流着”,则该目标检索结果的命中率可以为1。再例如,文字片段为“你和我一起出去玩”,而检索到的目标检索结果为“你和我,心连心”,则目标检索结果中命中的字符数量为3,命中率为3/8。

目标检索结果是在多个检索结果列表中重复出现,因此目标检索结果每次出现时,对应的文字片段不同,即所在的检索结果列表对应的文字片段。因此,每一目标检索结果的第一指标可以包括多个,目标检索结果重复出现的次数与目标检索结果的第一指标的数量一致。

在步骤s530中,结合目标检索结果的多个第一指标和多个第二指标可以计算相关度。示例性的,可以通过如下函数计算相关度:

其中,j可以表示其中一个检索结果列表,kw可以表示所有的检索结果列表,sp为第二指标,r为第一指标。

例如,有10个检索结果列表,则j的取值为1-10,每个检索结果列表中包含20条检索结果,所有的检索结果中有10条为目标检索结果。则在j为1时,r表示目标检索结果a出现的第1个检索结果列表中第一指标,即在该检索结果列表中的位置;sp为目标检索结果a与该检索结果列表对应的文字片段的命中率,即第二指标。

通过将目标检索结果的第一指标与第二指标的乘积进行求和,可以得出目标检索结果与待查重文本的相关度。

由于目标检索结果与文字片段的命中率越高,目标检索结果与待查重文本重复的可能性越高,因此可以为第二指标添加一系数,使得命中率较高的第一指标增大。而,在每一次检索中,排在检索结果列表中越靠后的检索结果与待查重文本重复的可能性越小,因此可以对第一指标进行对数函数处理,使得第二指标增长减慢。示例性实施方式中的,还可以通过如下方式计算相关度:

其中,sp为第二指标,α为加成系数,当命中率超过一定值后,在α的加成下,相关度会大幅度的增长。例如,可以设置在sp超过0.9时,α为2,否则α为1。kw可以表示所有的检索结果列表,j可以表示其中的一个检索结果列表,r为第一指标,sn为搜索次数。

例如,对10个文字片段进行了检索,每一检索结果列表中包含20条链接,共有200条检索结果,假如这200条检索结果中重复出现的链接有10条,则目标链接为10条。对于每一条目标链接,可以确定目标链接第一次出现时对第一文字片段的命中率除以第一次出现的列表中的序号,以及该目标链接第二次出现时对第二文字片段的命中率除以第二次出现的列表的序号,依次类推,计算出每次出现的得分,将这些得分进行加和后除以log(sn+2)得到第一个链接的相关度得分。

在本公开的其他示例性实施方式中,计算目标检索结果的相关度还可以通过其他方式,例如,利用不同的搜索引擎对同一文字片段进行多次检索,得到同一文字片段对应的多个检索结果列表,确定在这些检索结果列表中每一检索结果出现的概率为该文字片段与该检索结果的得分,从而计算出该检索结果对于所有的文字片段的得分之和作为该检索结果与待查重文本的相关度。本公开对此不做限定。

接下来,在步骤s430中,相关度可以表示目标检索结果与待查重文本重复的概率,如果相关度满足预设阈值,则可以表示目标检索结果与待查重文本重复的可能性较大,如果相关度不满足预设阈值,则可以表示目标检索结果与待查重文本重复的可能性较小。

获取相关度满足预设阈值的目标检索结果作为目标检索结果集合。从而,进一步将检索结果的数量进行减少,减少需要进行文本相似度匹配的文本资源的数量,从而节省相似度匹配的计算时间,提高速率。此外,预设阈值可以根据实际需要设定,例如0.5、1等,预设阈值也可以包括其他值,例如0.6、0.78、0.99等等,本实施方式对此不做限定。

对于不同类型的待查重文本,提取的文字片段可以不同,对于短文提取的文字片段较少,对于长文提取的文字片段较多。例如,对于一短文共提取了10个文字片段,分别对10个文字片段进行检索得到200个检索结果,其中包含5条目标检索结果,每一目标检索结果为一网页链接。相关度的预设阈值为1,如果通过计算得出如下数据:

sn:10,sp:[0.7,1],r:[1,10],1链接得分=2.29

sn:10,sp:[0.7,1],r:[1,5],2链接得分=3.04

sn:10,sp:[0.7,1],r:[1,3],3链接得分=3.06

sn:10,sp:[0.7,1],r:[10,20],4链接得分=3.06

sn:10,sp:[0.1,0.3],r:[1,5],5链接得分=0.6

则除第5个目标链接的相关度小于预设阈值之外,其他4个目标链接的相关度均满足预设阈值,则第一至第四目标链接可以放入目标检索结果集合中。

如图6所示,在本公开的一种示例性实施方式中,还可以通过步骤s610至步骤s620对检索结果进行筛选,得到目标检索结果集合。其中:

s610.根据所述所有的检索结果,确定所述目标检索结果的出现概率;

s620.获取所述出现概率满足预设阈值的目标检索结果,作为目标检索结果集合。

在步骤s610中,目标检索结果为在检索结果列表中重复出现的检索结果,则可以确定,目标检索结果的出现概率。例如对待查重文本提取了20个文字片段,在得到的20个检索结果列表中,目标检索结果a出现在了其中的5个检索结果列表中,则a的出现概率为0.25。

在步骤s620中,获取出现概率满足预设阈值的目标检索结果,得到目标检索结果集合。其中,预设阈值可以包括0.5、0.6、0.7等,也可以包括其他值,例如0.4、0.8等,本实施方式对此不做限定。

在本公开的其他实施方式中,可以通过其他方法对检索结果进行筛选,得到目标检索结果集合,例如通过多次对同一文字片段进行检索得到多个检索结果集合,将出现总次数满足条件的检索结果筛选出来作为目标检索集合,这些同样属于本公开的保护范围。

在步骤s340中,确定所述目标检索结果集合对应的待比对文本集合。

目标检索结果集合中包含多条检索结果,每一检索结果可以表示与文字片段相关的信息。检索结果可以包括该信息的标识,例如地址、名称等。通过检索结果可以获取到该检索结果标识的待比对文本。利用搜索引擎对文字片段进行检索则得到的检索结果可以为网页链接,从而通过网页链接获取对应网页中的文本内容为待比对文本。获取目标检索结果集合中的每条检索结果对应的文本内容后,可以得到待比对文本集合。

在步骤s350中,利用所述待比对文本集合确定出待查重文本的查重率。

通过相似度计算方法,将待查重文本分别与待比对文本集合中的每一待比对文本进行对比,计算相似度,得到待查重文本与每一待比对文本的相似度,从而可以求得相似度平均值作为待查重文本的查重率。并且,可以设置一相似度阈值,在待查重文本与各个待比对文本的相似度平均值超过该相似度阈值时,确定待查重文本为重复文本。或者,确定出待查重文本与各待比对文本之间的最大相似度,在最大相似度超过该相似度阈值时,确定待查重文本为重复文本。

计算得到待查重文本与每一待比对文本的相似度后,还可以通过其他方式确定待查重文本的查重率,例如将相似度的调和平均值作为查重率等,这些均属于本公开的保护范围。

通过本示例实施方式中的方法,通过对文本内容的检索,可以对检索结果进行筛选,得到与待查重文本重复可能性较高的目标检索结果,再对目标检索结果对应的文本进行相似度计算,确定待查重文本的查重率,从而减小了需要对比的文本数量,节省了计算资源,能够提高计算速率,更快地得到查重结果。

参考图7所示,为本示例实施方式中方法的一个具体应用举例。其中,在步骤s710中,获取待查重文本;在步骤s720中,对待查重文本进行预处理;预处理可以包括对待查重文本分段分句,以及从待查重文本中筛选出一定数量的文字片段;在步骤s730中,分别对每一文字片段进行搜索,得到每一文字片段对应的链接列表;链接列表中可以包含多个链接,通过链接可以获取对应的文本内容;在步骤s740中,计算所有的链接列表中的链接的相关度得分;在步骤s750中,从所有链接中筛选出目标链接;在步骤s760中,获取目标链接对应的待比对文本;在步骤s770中,计算待比对文本与待查重文本的相似度;在步骤s780中,确定待查重文本的查重结果。

应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。

进一步的,本示例实施方式中,还提供了一种文本查重装置。该文本查重装置可以应用于一服务器或终端设备。参考图8所示,该文本查重装置800可以包括文本提取模块810、检索获取模块820、结果筛选模块830、文本确定模块840以及查重率确定模块850。其中:

文本提取模块810,用于从待查重文本中提取多个文字片段;

检索获取模块820,用于对各所述文字片段进行检索,获得各所述文字片段的检索结果列表;

结果筛选模块830,用于从各所述检索结果列表包含的所有检索结果中,确定重复出现的检索结果为目标检索结果,获得目标检索结果集合;

文本确定模块840,用于确定所述目标检索结果集合对应的待比对文本集合;

查重率确定模块850,用于利用所述待比对文本集合确定出所述待查重文本的查重率。

在本公开的一种示例性实施例中,所述结果筛选模块830包括:

位置获取单元,用于确定包含所述目标检索结果的检索结果列表,作为目标列表,确定所述目标检索结果在所述目标列表中的位置,作为第一指标;

相关度计算单元,用于根据所述目标检索结果的第一指标,计算所述目标检索结果与所述待查重文本的相关度;

相关度筛选单元,用于获取所述相关度满足预设阈值的目标检索结果,作为目标检索结果集合。

在本公开的一种示例性实施例中,所述相关度计算单元可以用于下述步骤:获取所述目标检索结果的第一指标;获取所述目标检索结果与对应的所述文字片段的命中率,作为所述目标检索结果的第二指标;结合所述第一指标和所述第二指标,计算所述目标检索结果与所述待查重文本的相关度。

在本公开的一种示例性实施例中,所述结果筛选模块830包括:

概率确定单元,用于根据所述所有的检索结果,确定所述目标检索结果的出现概率;

概率筛选单元,用于获取所述出现概率满足预设阈值的目标检索结果,作为目标检索结果集合。

在本公开的一种示例性实施例中,所述查重率确定模块850包括:

相似度计算单元,用于将所述待比对文本集合中的待比对文本与所述待查重文本进行匹配,确定所述待比对文本与所述待查重文本的相似度;

结果输出单元,用于如果所述待比对文本与所述待查重文本的相似度超过预设阈值,则确定所述待查重文本为重复文本。

在本公开的一种示例性实施例中,所述检索获取模块820可以用于:利用搜索引擎对各所述文字片段进行检索,基于所述搜索引擎对检索结果的排序获得各所述文字片段的检索结果列表。

在本公开的一种示例性实施例中,所述文本提取模块810用于:根据所述待查重文本的类型,从所述待查重文本中随机顺序提取多个文字片段。

上述文本查重装置中各模块或单元的具体细节已经在对应的文本查重方法中进行了详细的描述,因此此处不再赘述。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1