一种相似文本检测方法及装置与流程

文档序号:18193582发布日期:2019-07-17 05:42阅读:234来源:国知局
一种相似文本检测方法及装置与流程

本发明涉及文本处理技术领域,尤其涉及一种相似文本检测方法及装置。



背景技术:

随着网络的蓬勃发展,互联网已成为各大厂商投放广告的重要领域。为了更好的推广产品信息,厂商们开始投放“软文”广告以逐步取代以往的广告形式。其中,“软文”广告可以将厂商们想要推荐的产品与相关文章有机的结合在一起,能够使阅读者在认同文章中理念的同时更好接受文章中推荐的产品。为了验证“软文”广告的推广效果,厂商通常会使用现有技术中的tf-idf、lda等算法或模型,通过计算出“软文”广告的原始文本与网络中待判断文本的特征,并对该计算出的特征进行一一对比来确定文本是否相似,进而判断推广效果。

目前,在对相似文本的检测时,需要计算每一个待判断文本的特征,并与原始文本的特征进行比较。然而,当网络中待判断文本的数量较大时,需要计算和对比的特征数量也会变得较大,进而使相似文本的检测需要花费更多的时间,从而导致相似文本检测的效率较低。



技术实现要素:

鉴于上述问题,本发明提供一种相似文本检测方法及装置,主要目的在于减少相似文本检测过程中所需花费的时间,进而提高相似文本检测的效率。

为解决上述技术问题,第一方面,本发明提供了一种相似文本检测方法,该方法包括:

通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合;

计算所述筛选文本集合中的每个筛选文本的特征值与所述目标文本的特征值;

判断所述筛选文本的特征值与所述目标文本的特征值是否相同;

若是,则确定所述筛选文本与所述目标文本相似。

可选的,所述计算所述筛选文本集合中的每个筛选文本的特征值与所述目标文本的特征值包括:

从所述筛选文本与所述目标文本中分别提取预置数量的中心段句子,所述中心段句子为文本的中心段经拆分后得到的句子;

根据哈希算法计算所述筛选文本与所述目标文本中每一个中心段句子对应的哈希值,并生成对应所述筛选文本的哈希数组,以及对应所述目标文本的哈希数组。

可选的,所述判断所述筛选文本的特征值与所述目标文本的特征值是否相同,包括:

根据哈希数组中哈希值的数量设定阈值;

判断所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值相同的数量是否超过所述阈值;

所述若所述筛选文本的特征值与所述目标文本的特征值相同,则确定所述筛选文本与所述目标文本相似,包括:

若所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值相同的数量超过阈值,则确定所述筛选文本与所述目标文本相似。

可选的,所述判断所述筛选文本的特征值与所述目标文本的特征值是否相同包括:

判断所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值是否完全相同;

所述若所述筛选文本的特征值与所述目标文本的特征值相同,则确定所述筛选文本与所述目标文本相似,包括:

若所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值完全相同,则确定所述筛选文本与所述目标文本相似。

可选的,所述通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合包括:

从所述目标文本中提取多个关键词;

逐个判断所述待检测文本集合中的各个待检测文本中是否包含所述多个关键词;

若是,则确定所述待检测文本为筛选文本。

可选的,在所述通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合之前,所述方法还包括:

解析所述目标文本的内容,并根据所述内容确定所述目标文本的文本类别;

获取所述文本类别的对应文本,得到所述待检测文本集合。

第二方面,本发明还提供了一种相似文本检测装置,该装置包括:

筛选单元,用于通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合;

计算单元,用于计算所述筛选单元得到的筛选文本集合中的每个筛选文本的特征值与所述目标文本的特征值;

判断单元,用于判断所述计算单元计算出的筛选文本的特征值与所述目标文本的特征值是否相同;

确定单元,用于若所述判断单元判断所述筛选文本的特征值与所述目标文本的特征值相同,则确定所述筛选文本与所述目标文本相似。

可选的,所述计算单元包括:

提取模块,用于从所述筛选文本与所述目标文本中分别提取预置数量的中心段句子,所述中心段句子为文本的中心段经拆分后得到的句子;

计算模块,用于根据哈希算法计算所述筛选文本与所述目标文本中由提取模块提取的每一个中心段句子对应的哈希值,并生成对应所述筛选文本的哈希数组,以及对应所述目标文本的哈希数组

可选的,所述判断单元包括:

设定模块,用于根据哈希数组中哈希值的数量设定阈值;

第一判断模块,用于判断所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值相同的数量是否超过所述设定模块设定的阈值;

所述确定单元具体用于,若所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值相同的数量超过阈值,则确定所述筛选文本与所述目标文本相似。

可选的,所述判断单元包括:

第二判断模块,用于判断所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值是否完全相同;

所述确定单元具体用于,若所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值完全相同,则确定所述筛选文本与所述目标文本相似。

可选的,所述筛选单元包括:

提取模块,用于从所述目标文本中提取多个关键词;

判断模块,用于逐个判断所述待检测文本集合中的各个待检测文本中是否包含所述提取模块提取的多个关键词;

确定模块,用于若所述判断模块判断待检测文本中包含多个关键词,则确定所述待检测文本为筛选文本。

可选的,所述装置还包括:

解析单元,用于解析所述目标文本的内容,并根据所述内容确定所述目标文本的文本类别;

获取单元,用于获取所述解析单元得到的文本类别的对应文本,得到所述待检测文本集合。

为了实现上述目的,根据本发明的第三方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的相似文本检测方法。

为了实现上述目的,根据本发明的第四方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的相似文本检测方法。

借由上述技术方案,本发明提供的相似文本检测方法及装置,对于现有技术在对相似文本进行检测时,需要计算每一个待判断文本的特征,并与原始文本的特征进行比较,本发明通过利用从目标文本中提取的关键词对待检测文本进行筛选操作,计算并比较筛选文本与目标文本的特征值,在确定二者特征值相同时来确定筛选文本与目标文本相似,因此相比于现有技术,本发明通过利用从目标文本中提取的关键词来对待检测文本进行筛选操作,可以将待检测文本中不符合筛选条件的文本剔除出去,进而有效的减少了需要检测的文本数量,从而减少了计算文本特征值过程中的计算量,进而提高了的相似文本检测的效率;此外,通过对所述筛选文本与所述目标文本的特征值进行比较,并在二者特征值相同时确定筛选文本与目标文本相似,可以确保在相似文本检测过程中,检测结果的准确性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种相似文本检测方法流程图;

图2示出了本发明实施例提供的另一种相似文本检测方法流程图;

图3示出了本发明实施例提供的一种相似文本检测装置的组成框图;

图4示出了本发明实施例提供的另一种相似文本检测装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

为了提高用户需求分析结果的准确性,本发明实施例提供了一种相似文本检测方法,如图1所示,该方法包括:

101、通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合。

一般来说,在进行相似文本的检测时,需要有一个进行对比的原始文本,即将该文本作为待检测文本在进行检测时的参照物。根据本发明实施例所述的方法,所述原始文本即为所述的目标文本,因此在对待检测文本进行相似文本检测时,要将待检测文本与目标文本进行比较。

由此,根据本步骤所述的方法,首先需要获得目标文本中提取的关键词,其中所述关键词可以理解为在目标文本中较为重要的一个或多个词语。具体选择关键词的规则和数量在此不做具体的限定,可以根据需要进行选取,例如,可以选择在目标文本中出现频率最高的词语作为本步骤所述的关键词;或者,可以选择出现频率排在前三位的词语作为本步骤所述的关键词组。然后,根据所述关键词或关键词组对待检测文本集合进行筛选操作,并将筛选后的文本所形成的集合确定为筛选文本集合。

需要说明的是,在本步骤所述的方法中,具体筛选操作的实现过程与所述关键词的数量、以及实际需要有关,例如,当关键词的数量较少时,并且待检测文本集合中文本数量特别多时,可以选择将只包含部分关键词的文本与不包含关键词的文本剔除,而将待检测文本集合中包含全部所述关键词的文本保留,作为筛选后的生成的筛选文本集合;或者,当关键词的数量较多时且待检测文本集合中文本数量较少时,可以选择只将完全不包含所述关键词的文本剔除,而将包含关键词组中的部分关键词的文本保留,作为筛选后生成的筛选文本集合。在本步骤中,筛选的具体操作规则以及关键词的数量、种类在此均不做限定,可以根据实际情况,作相应的调整。

例如,当待检测文本集合中文本的数量为10000000个时,关键词数量为3,根据本步骤所述的方法,可以在筛选过程中将全部包含上述3个关键词的文本作为筛选文本保留作为筛选文本集合,这样可以有效减少后续计算过程的计算量;而当待检测文本集合中文本的数量为400个时,关键词数量为15个,则根据本步骤所述的方法,可以在筛选过程中包含上述15个关键词中的10个以上的文本确定为筛选文本并生成对应的筛选文本集合。

102、计算所述筛选文本集合中的每个筛选文本的特征值与所述目标文本的特征值。

具体的,在本步骤中所述的特征值可以理解为文本的特征经预设算法量化后得到的数值。其中,文本的特征可以理解为能够区分文本或可以用于对文本进行对比的一些词语、词语组或语句。例如,根据本步骤所述的方法可以选择文本的段落中心句、或文本主旨句作为文本的特征;或者选择出现在文本中出现次数最多的一个词语或出现次数频率排序前几名的词语所组成的词语组作为文本的特征。

需要说明的是,所述文本的特征选取方式在此不做具体的限定,但是要保证所述筛选文本的特征选取方式与目标文本的特征选取方式相同。例如,当目标文本选择的特征为该文本中每段的段落中心句,则筛选文本的特征也应该选择其文本每段的段落中心句。此外,在获取了文本的特征之后,可以通过预置的算法或模型对文本的特征进行计算。在此,选取的计算方法与模型不做具体的限定,可以根据需要来进行选取,例如,可以选择hash算法或其他算法来计算文本的特征值。其中,hash算法一般直接音译为“哈希算法”,就是把任意长度的输入内容,通过散列算法,变换成固定长度的输出内容,该输出内容就是散列值。简单的说该算法就是一种将任意长度的消息压缩到某一固定长度的消息摘要的算法函数。

103、判断所述筛选文本的特征值与所述目标文本的特征值是否相同。

在计算出了筛选文本集合中每个筛选文本的特征值与目标文本的特征值后,可以将所述特征值进行比较,以判断二者是否相同。需要说明的是,本步骤所述的特征值为根据步骤102所述的方法计算出的,因此,当102步骤中计算出的目标文本的特征值的数量为多个时,筛选文本的特征值也应为多个,则根据本步骤所述的方法,需要确保二者的特征值完全相同,具体的是否需要根据次序进行一一对比,或者是进行集合比较则是根据实际需要来进行选取的,在此不做限定。

104、若判断所述筛选文本的特征值与所述目标文本的特征值相同,则确定所述筛选文本与所述目标文本相似。

如步骤103所述,当计算出的文本特征值为多个时,判断筛选文本与目标文本的特征值是否相同,可以选择一一对应的方式,也可以选择集合对比的方式来确定,即当目标文本的特征值完全存在筛选文本的特征值中时,即可判断筛选文本与目标文本相似。

例如,当筛选文本计算出的特征值分别为391c3337c24994e2bb19914ff62fa79f、df803e7100844162686e417f63944a08与1c3c0845ab5a5862f95a76e2473e6cfa而目标文本计算出的特征值为df803e7100844162686e417f63944a08、1c3c0845ab5a5862f95a76e2473e6cfa及391c3337c24994e2bb19914ff62fa79f时,根据本步骤所述的方法,目标文本与筛选文本包含的特征值完全相同,仅是顺序上不同,可以确定二者为相似文本。

一般来说,由于一个文本的相似文本可能会是该文本经过段落顺序或某些句子颠倒后生成的文本,因此在相似文本的检测中,特征值的顺序很可能不同的,因此一般进行特征值比较过程中,可选择集合对比的方式来进行本步骤。但是具体的对比方式,仍然可以根据实际需要选取,而本步骤所述的对比方式仅仅是示例性,并不做具体的限定。

本发明实施例提供的相似文本检测方法,对于现有技术在对相似文本进行检测时,需要计算每一个待判断文本的特征,并与原始文本的特征进行比较,本发明通过利用从目标文本中提取的关键词来对待检测文本集合进行筛选操作,可以将待检测文本集合中不符合筛选条件的文本剔除出去,进而有效的减少了需要检测的文本数量,从而减少了计算文本特征值过程中的计算量,进而提高了的相似文本检测的效率;此外,通过对所述筛选文本与所述目标文本的特征值进行比较,并在二者特征值相同时确定筛选文本与目标文本相似,可以确保在相似文本检测过程中,检测结果的准确性。

进一步的,作为对图1所示实施例的细化及扩展,本发明实施例还提供了另一种相似文本检测方法,如图2所示。

201、解析目标文本的内容,并根据所述内容确定所述目标文本的文本类别。

在本发明实施例中,所述的目标文本与实施例101中所述的目标文本相同,在此不做赘述。

根据本步骤的方法,在获得目标文本后,需要对目标文本的内容进行解析操作以获得所述目标文本的类别。具体的,可以理解为通过对目标文本内容的分析来确定所述目标文本的具体种类,例如新闻、广告等。或者是更为具体的类别,例如,护肤品广告、保健品广告等。具体的文本的种类根据实际操作中的目标文本来确定。其中,本步骤所述的解析操作的过程可以通过人工方式来进行,或者是通过含有自然语料分析能力的相关软件来实现。具体情况,可以根据目标文本的文字数量或根据实际需要来选择,在此不做限定。

根据本步骤所述的方法,通过对目标文本的内容进行解析,并根据文本内容确定目标文本的类别,实现了以目标文本的主要内容来确定文本类别的功能,为后续获取所述文本类别对应的文本提供了范围,进而可以减少获取文本的数量,减少了相似文本检测的文本数量,从而提高了整体的检测效率。

202、获取所述文本类别的对应文本,得到所述待检测文本集合。

根据步骤201确定的文本类别,可以在网络上获取该类的文本,以生成待检测文本的集合。其中,获取所述类别的文本的方式可以选择网络爬虫,当然,也可以选择其他的方式获取,在此不做限定,可自行选取。此外,在本步骤中,当获取对应所述文本类别的文本时,同时可以通过网络爬虫获取该文本的统一资源定位符(uniformresourcelocator,简称url),以实现对文本来源的追踪。其中,url是一种用于表征互联网上资源的位置及访问方法的字符串,可以理解为互联网上标准资源的地址信息。互联网上的每个文件都有一个唯一的url。

根据本步骤的方法,通过获取对应所述文本类别的文本来生成待检测文本可以在确定网络中是否存在与目标文本相似的文本时,能够有针对性的控制待检测文本的范围及获取数量,进而从源头上避免了无意义的文本获取操作,从而减少相似文本检测过程中整体的时间消耗,进一步提高了检测效率。

203、通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合。

具体的,本步骤包括:首先,从目标文本中提取多个关键词;然后,逐个判断所述待检测文本集合中的各个待检测文本中是否包含所述多个关键词;最后,若确定待检测文本集合中的文本包含所述多个关键词,则确定所述待检测文本为筛选文本,并将经多次筛选后得到的多个筛选文本所形成的集合确定为筛选文本集合。

本步骤所述的关键词的数量可以根据需要来选取,并且提取关键词的模型或程序可以根据需要选择,例如,当选择tf-idf作为关键词的提取工具时,可以选择出现频率较高的前几个词语作为该目标文本的关键词。其中,tf-idf(termfrequency–inversedocumentfrequency,简称tf-idf)是一种用于信息检索与数据挖掘的常用加权技术。具体的,可以将该技术看做一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。其中,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

根据本步骤所述的方法,在提取了关键词后可以将所述待检测文本存储至全文本检索引擎中,如elasticsearch等引擎。然后根据关键词对所述待检测文本进行检索,将符合筛选条件的文本作为筛选文本。

例如,当目标文本中提取的关键词为“美白”、“隔离”、“透白”、“瓷肌”4个关键词时,根据本步骤所述的方法,通过所述全文本检索引擎对待检测文本进行筛选。其中,若待检测文本中包含全部上述4个关键词时,则保留该文本作为筛选文本;否则,则筛除该文本。

此外,根据本步骤所述的方法,当提取的关键词数量较多时,可以将包含部分关键词的文本也作为筛选文本集合中的筛选文本,而并非只将完全包含关键词的文本确定为筛选文本。

例如:当目标文本中提取的关键词为“水润”、“保湿”、“水感”、“滋润”、“柔嫩”、“滋养”、“柔滑”7个关键词,且根据本步骤所述的方法,将确定包含超过4个关键词的文本为筛选文本时,通过所述全文本检索引擎对待检测文本进行筛选操作。若待检测文本包含6个上述关键词,则可以保留该文本作为筛选文本并生成对应的筛选文本集合;若待检测文本中包含3个上述关键词,则将该文本筛除。

由此,根据本步骤所述的方法,通过从目标文本中提取的关键词对待检测文本进行筛选操作,能够实现将待检测文本中不包含关键词的文本进行筛除的功能,从而减少了后续需计算特征值的文本整体数量,进而减少了后续的计算量。

204、计算所述筛选文本集合中的每个筛选文本的特征值与所述目标文本的特征值。

本步骤具体包括:首先,从筛选文本集合中的每个筛选文本与目标文本中分别提取预置数量的中心段句子;然后,根据哈希算法计算所述筛选文本与所述目标文本中每一个中心段句子对应的哈希值,并生成对应所述筛选文本的哈希数组,以及对应所述目标文本的哈希数组。其中,本步骤所述的中心段句子可以理解为文本的中心段经拆分后得到的句子。

根据本步骤所述的具体步骤,在提取中心段句子之前,需先确定文本的中心段。本发明实施例所述的中心段可以理解为文本内容的主要段落,即能够表征文本整体含义或包含文本主旨的段落。在此,可以选择将文本的首末两段进行筛除,得到其余部分的段落,并将所述其余部分段落确定为文本的中心段。

需要说明的是,本步骤所述的中心段的确定方法是根据实际使用来确定的。由于网络中出现的相似文本往往是由各个媒体在稍作修改后生成的,为了在转载相似文本的过程中达到推广自身的目的,转载者通常会对被转载的相似文本的原文本上对其前面或后面添加额外的信息。例如,添加转载媒体的公众号、网址信息、转载人信息等。而其余内容实际上很少进行修改。因此,根据本步骤所述的将文本的首、末段进行筛除的方法,实际上筛除了被转载文本中被转载人添加的部分,因此,可以确保文本剩余部分即为原文本的主要内容。当然,上述确定中心段的方式仅仅是示例性的,中心段的确定方式还可以根据需要选取其他的方式。

在确定的文本的中心段后,对中心段提取预置数量的句子,即中心段句子。中心段句子的数量根据目标文本的内容来确定。例如,当目标文本的内容中包含60个句子时,可以提取的数量为20或30句等等。这样,实际上提取的目标文本中句子数量占文本中句子数量比例已达到1/3至1/2,因此,所提取的中心段句子可以很大程度上代表整个中心段的主旨。由此,可以确定本步骤所述的预置数量的中心段句子实际上是占有较大比例的中心段句子数量,以确保提取的中心段句子能够代表整体的内容。同时,在提取中心段句子时,可以选择从所述中心段的起始位置开始提取;或者,根据中心段整体的段落分布,在中心段的每一个自然段内提取一定数量的句子;或根据中心段的整体的句子数量,随机抽取一定比例的句子作为中心段句子,在此提取中心段句子的方式不做具体的限定,可以根据需要进行选取,但是要保证所述筛选文本与所述目标文本的中心段句子的提取方式相同。此外,在对中心段进行中心段句子的提取过程时,可以以句号作为该拆分句子的符号,当然也可以选取其他符号来进行中心段句子的拆分,例如,可以选择逗号,但是选取用于拆分的符号可以根据需要选择,在此不做具体的限定。

在确定中心段以及提取中心段句子之后,可以根据哈希算法来计算提取到的中心段句子的哈希值。其中,所述哈希算法即hash算法,与步骤102中的描述完全相同,在此不做赘述。由于,本步骤所述的中心段句子数量是多个,因此得到的目标文本的哈希值,以及筛选文本的哈希值均为多个,因此通过哈希算法生成的分别是对应所述目标文本的哈希数组,以及对应所述筛选文本的哈希数组。

需要说明的是,在通过哈希算法计算所述中心段句子的哈希值时,需将所述句子中的标点符号进行去除,得到不包含标点符号的语段,然后对该语段通过哈希算法计算出该语段的哈希值。

根据本步骤所述的方法,通过对从目标文本与筛选文本提取预置数量的中心段句子,可以确保在能够表征文本内容的前提下,避免对文本的全部内容进行哈希值的计算,从而减少了计算过程的每一个文本的计算量,进而减少了计算时间,提高了计算效率。

205、判断所述筛选文本的特征值与所述目标文本的特征值是否相同。

其中,第一方面,本步骤具体可以包括:根据哈希数组中哈希值的数量设定阈值;判断所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值相同的数量是否超过所述阈值。

由于前述步骤204中计算出的文本的哈希值并非一个,而是多个中心段句子对应的多个哈希值,故而每个文本分别对应一个哈希数组。因此,本步骤中在对筛选文本的哈希数组中的哈希值与所述目标文本的哈希数组中的哈希值进行比较时,可以首先设定一个阈值,然后将两个哈希数组中相同的数量与这个设定的阈值进行对比,判断这两个文本对应的哈希数组中相同的哈希值的数量是否超过设定的阈值。

第二方面,本步骤具体还可以为:判断所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值是否完全相同。

根据步骤204中计算出的哈希数组,对目标文本与筛选文本对应的哈希数组进行比较,确定两个哈希数组中的哈希值是否完全相同。

206、若所述筛选文本的特征值与所述目标文本的特征值相同,则确定所述筛选文本与所述目标文本相似。

对应步骤205中第一方面所述的方法,本步骤具体可以为:若筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值相同的数量超过阈值,则确定所述筛选文本与所述目标文本相似。

例如,当目标文本对应的哈希数组为:5ebeb3d0edb5518f6fd7323644081e930749d0b4、e6552fbd0fd75d2d077623abc05720b570ef7805、d929507eb444f3a2252a67e221233e69dba248e0、2480b68d4c703efd6e4dbd632b49e63136761448、625951d58f17acb62e6bc01f8a60144870006567,筛选文本对应的哈希数组为:5ebeb3d0edb5518f6fd7323644081e930749d0b4、e6552fbd0fd75d2d077623abc05720b570ef7805、d7c608d77977bd21a3153dbf54a44c70393769d4、1f508912575219724c92c9d681b7a2f735f3024d、d929507eb444f3a2252a67e221233e69dba248e0时,根据本步骤所述的方法,设定的阈值为2个,则这两个文本对应的哈希数组中相同的哈希值为3个,大于设定阈值2个,则可以确定所述筛选文本与所述目标文本相似。

对应步骤205中第二方面所述的方法,本步骤具体可以为:若筛选文本对应的哈希数组中的哈希值,与目标文本对应的哈希数组中的哈希值完全相同,则确定所述筛选文本与所述目标文本相似。

例如,当目标文本对应的哈希数组为:5ebeb3d0edb5518f6fd7323644081e930749d0b4、e6552fbd0fd75d2d077623abc05720b570ef7805、d929507eb444f3a2252a67e221233e69dba248e0、2480b68d4c703efd6e4dbd632b49e63136761448、625951d58f17acb62e6bc01f8a60144870006567,筛选文本对应的哈希数组为:5ebeb3d0edb5518f6fd7323644081e930749d0b4、e6552fbd0fd75d2d077623abc05720b570ef7805、d7c608d77977bd21a3153dbf54a44c70393769d4、1f508912575219724c92c9d681b7a2f735f3024d、d929507eb444f3a2252a67e221233e69dba248e0时,两个文本对应的哈希数组中的哈希值并未完全相同,只有3个哈希值相同,因此确定这所述筛选文本与所述目标文本不相似。

通过步骤205-206所述第一方面的方法,通过设定阈值,并通过所述阈值与两个哈希数组中相同哈希值的数量进行对比,来确定两个文本是否相似,可以使本发明实施例所述的相似文本检测方法,能够达到识别两个较高的相似度的文本的功能,进而可以扩大相似文本的识别范围。而通过步骤205-206所述第二方面的方法,可以实现相同文本的识别功能,从而提高相似文本检测的精确度。

进一步的,作为对上述图1所示方法的实现,本发明实施例还提供了一种相似文本检测装置,用于对上述图1所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示,该装置包括:筛选单元31、计算单元32、判断单元33、确定单元34,其中

筛选单元31,可以用于通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合。

计算单元32,可以用于计算所述筛选单元31得到的筛选文本集合中的每个筛选文本的特征值与所述目标文本的特征值。

判断单元33,可以用于判断所述计算单元32计算出的筛选文本的特征值与所述目标文本的特征值是否相同。

确定单元34,可以用于若所述判断单元33判断所述筛选文本的特征值与所述目标文本的特征值相同,则确定所述筛选文本与所述目标文本相似。

进一步的,作为对上述图2所示方法的实现,本发明实施例还提供了另一种相似文本检测装置,用于对上述图2所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图4所示,该装置包括:筛选单元41、计算单元42、判断单元43、确定单元44,其中

筛选单元41,可以用于通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合。

计算单元42,可以用于计算所述筛选单元41得到的筛选文本集合中的每个筛选文本的特征值与所述目标文本的特征值。

判断单元43,可以用于判断所述计算单元42计算出的筛选文本的特征值与所述目标文本的特征值是否相同。

确定单元44,可以用于若所述判断单元43判断所述筛选文本的特征值与所述目标文本的特征值相同,则确定所述筛选文本与所述目标文本相似。

进一步的,所述计算单元42包括:

提取模块421,可以用于从所述筛选文本与所述目标文本中分别提取预置数量的中心段句子,所述中心段句子为文本的中心段经拆分后得到的句子。

计算模块422,可以用于根据哈希算法计算所述筛选文本与所述目标文本中由提取模块421提取的每一个中心段句子对应的哈希值,并生成对应所述筛选文本的哈希数组,以及对应所述目标文本的哈希数组。

进一步的,所述判断单元43包括:

设定模块431,可以用于根据哈希数组中哈希值的数量设定阈值。

第一判断模块432,可以用于判断所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值相同的数量是否超过所述设定模块431设定的阈值。

所述确定单元44可以具体用于,若所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值相同的数量超过阈值,则确定所述筛选文本与所述目标文本相似。

进一步的,所述判断单元43包括:

第二判断模块433,可以用于判断所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值是否完全相同。

所述确定单元44可以具体用于,若所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值完全相同,则确定所述筛选文本与所述目标文本相似。

进一步的,所述筛选单元41包括:

提取模块411,可以用于从所述目标文本中提取多个关键词。

判断模块412,可以用于逐个判断所述待检测文本集合中的各个待检测文本中是否包含所述提取模块411提取的多个关键词。

确定模块413,可以用于若所述判断模块412判断待检测文本中包含多个关键词,则确定所述待检测文本为筛选文本。

进一步的,所述装置还包括:

解析单元45,可以用于解析所述目标文本的内容,并根据所述内容确定所述目标文本的文本类别。

获取单元46,可以用于获取所述解析单元45得到的文本类别的对应文本,得到所述待检测文本集合并将所述待检测文本集合发送至筛选单元41中。

借由上述技术方案,本发明实施例提供的一种相似文本检测方法及装置,对于现有技术在对相似文本进行检测时,需要计算每一个待判断文本的特征,并与原始文本的特征进行比较,本发明通过利用从目标文本中提取的关键词来对待检测文本集合进行筛选操作,可以将待检测文本集合中不符合筛选条件的文本剔除出去,进而有效的减少了需要检测的文本数量,从而减少了计算文本特征值过程中的计算量,进而提高了的相似文本检测的效率。同时,通过对从目标文本与筛选文本提取预置数量的中心段句子,可以确保在能够代表文本内容的前提下,避免对文本的全部内容进行哈希值的计算,从而减少了计算过程中每一个文本的计算量,进而减少了计算时间,提高了计算效率。进一步的,一方面通过首先设定阈值,并根据所述阈值与两个哈希数组中相同哈希值的数量进行对比,来确定两个文本是否相似,能够达到识别两个较高的相似度的文本的功能,进而可以扩大相似文本的识别范围;另一方面,通过对两个哈希数组中哈希值完全相同来确定两个文本相似,可以实现相同文本的检测功能,从而提高相似文本检测的精确度。此外,通过对目标文本的内容进行解析,并根据文本内容确定目标文本的类别,实现了以目标文本的主要内容来确定文本类别的功能,提高了文本类别确定的准确性,并且,通过获取与目标文本的文本类别相同的文本来生成待检测文本,可以在确定网络中是否存在与目标文本相似的文本时,能够有针对性的控制待检测文本的范围及获取数量,进而从源头上避免了无意义的文本获取操作,从而减少相似文本检测过程中整体的时间消耗,进一步提高了检测效率。

所述文本处理装置包括处理器和存储器,上述筛选单元、计算单元、判断单元、确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高用户需求分析结果的准确性。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述相似文本检测方法。

本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述相似文本检测方法。

本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合;计算所述筛选文本集合中的每个筛选文本的特征值与所述目标文本的特征值;判断所述筛选文本的特征值与所述目标文本的特征值是否相同;若是,则确定所述筛选文本与所述目标文本相似。

进一步的,所述计算所述筛选文本集合中的每个筛选文本的特征值与所述目标文本的特征值包括:

从所述筛选文本与所述目标文本中分别提取预置数量的中心段句子,所述中心段句子为文本的中心段经拆分后得到的句子;

根据哈希算法计算所述筛选文本与所述目标文本中每一个中心段句子对应的哈希值,并生成对应所述筛选文本的哈希数组,以及对应所述目标文本的哈希数组。

进一步的,所述判断所述筛选文本的特征值与所述目标文本的特征值是否相同,包括:

根据哈希数组中哈希值的数量设定阈值;

判断所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值相同的数量是否超过所述阈值;

所述若所述筛选文本的特征值与所述目标文本的特征值相同,则确定所述筛选文本与所述目标文本相似,包括:

若所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值相同的数量超过阈值,则确定所述筛选文本与所述目标文本相似。

进一步的,所述判断所述筛选文本的特征值与所述目标文本的特征值是否相同包括:

判断所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值是否完全相同;

所述若所述筛选文本的特征值与所述目标文本的特征值相同,则确定所述筛选文本与所述目标文本相似,包括:

若所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值完全相同,则确定所述筛选文本与所述目标文本相似。

进一步的,所述通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合包括:

从所述目标文本中提取多个关键词;

逐个判断所述待检测文本集合中的各个待检测文本中是否包含所述多个关键词;

若是,则确定所述待检测文本为筛选文本。

进一步的,在所述通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合之前,所述方法还包括:

解析所述目标文本的内容,并根据所述内容确定所述目标文本的文本类别;

获取所述文本类别的对应文本,得到所述待检测文本集合。

本发明实施例中的设备可以是服务器、pc、pad、手机等。

本发明实施例还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合;计算所述筛选文本集合中的每个筛选文本的特征值与所述目标文本的特征值;判断所述筛选文本的特征值与所述目标文本的特征值是否相同;若是,则确定所述筛选文本与所述目标文本相似。

进一步的,所述计算所述筛选文本集合中的每个筛选文本的特征值与所述目标文本的特征值包括:

从所述筛选文本与所述目标文本中分别提取预置数量的中心段句子,所述中心段句子为文本的中心段经拆分后得到的句子;

根据哈希算法计算所述筛选文本与所述目标文本中每一个中心段句子对应的哈希值,并生成对应所述筛选文本的哈希数组,以及对应所述目标文本的哈希数组。

进一步的,所述判断所述筛选文本的特征值与所述目标文本的特征值是否相同,包括:

根据哈希数组中哈希值的数量设定阈值;

判断所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值相同的数量是否超过所述阈值;

所述若所述筛选文本的特征值与所述目标文本的特征值相同,则确定所述筛选文本与所述目标文本相似,包括:

若所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值相同的数量超过阈值,则确定所述筛选文本与所述目标文本相似。

进一步的,所述判断所述筛选文本的特征值与所述目标文本的特征值是否相同包括:

判断所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值是否完全相同;

所述若所述筛选文本的特征值与所述目标文本的特征值相同,则确定所述筛选文本与所述目标文本相似,包括:

若所述筛选文本的哈希数组中的哈希值,与所述目标文本的哈希数组中的哈希值完全相同,则确定所述筛选文本与所述目标文本相似。

进一步的,所述通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合包括:

从所述目标文本中提取多个关键词;

逐个判断所述待检测文本集合中的各个待检测文本中是否包含所述多个关键词;

若是,则确定所述待检测文本为筛选文本。

进一步的,在所述通过从目标文本中提取的关键词对待检测文本集合进行筛选,得到筛选文本集合之前,所述方法还包括:

解析所述目标文本的内容,并根据所述内容确定所述目标文本的文本类别;

获取所述文本类别的对应文本,得到所述待检测文本集合。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1