文章重复度的检测方法、装置及计算设备与流程

文档序号:11155619阅读:来源:国知局

技术特征:

1.一种计算设备,包括:

网络接口,所述网络接口使得所述计算设备能够经由一个或多个网络通信;

存储器,通过所述网络接口加载的网络资源缓存在所述存储器中;以及

处理器,与所述网络接口和所述存储器相连接,所述处理器配置为执行以下操作:

对待检测文章进行切分,以得到多个切片;

对所述多个切片中至少部分切片执行搜索操作,以得到对应于所述部分切片中每个切片的搜索结果;

计算每个所述切片和与其对应的搜索结果之间的相似度;

根据计算得到的相似度来确定所述待检测文章的重复度。

2.一种文章重复度的检测装置,包括:

切分单元,用于对待检测文章进行切分,以得到多个切片;

搜索单元,用于对所述多个切片中至少部分切片执行搜索操作,以得到对应于所述部分切片中每个切片的搜索结果;

相似度计算单元,用于计算每个所述切片和与其对应的搜索结果之间的相似度;

重复度确定单元,用于根据计算得到的相似度来确定所述待检测文章的重复度。

3.根据权利要求2所述的检测装置,其中,所述相似度计算单元包括:

第一分词模块,用于对所述切片进行分词,以得到第一分词结果;

第二分词模块,用于对所述搜索结果中的匹配内容进行分词,以得到第二分词结果;

词频计算模块,用于分别计算所述第一分词结果和所述第二分词结果的词频,以得到第一词频向量和第二词频向量;

相似度计算模块,用于根据余弦相似性计算所述第一词频向量和所述第二词频向量的相似度,作为所述切片和与其对应的搜索结果之间的相似度。

4.根据权利要求2所述的检测装置,其中,所述重复度确定单元计算相似度大于第一预定阈值的个数占总的相似度的个数的比值,所述比值为所述待检测文章的重复度。

5.根据权利要求2所述的检测装置,其中,所述搜索单元使用搜索引擎分别对所述多个切片中至少部分切片在数据库中进行搜索。

6.根据权利要求2所述的检测装置,其中,

在所述多个切片的数量大于第二预定阈值时,所述搜索单元对所述多个切片中部分切片执行搜索操作,

在所述多个切片的数量小于第二预定阈值时,所述搜索单元对所述多个切片中每个切片执行搜索操作。

7.根据权利要求2所述的检测装置,还包括:

关键词提取单元,用于提取所述待检测文章中的关键词;

权重赋予单元,用于根据所述关键词在所述切片中的出现情况,为所述至少部分切片中的每个切片赋予权重。

8.一种文章重复度的检测方法,包括:

对待检测文章进行切分,以得到多个切片;

对所述多个切片中至少部分切片执行搜索操作,以得到对应于所述部分切片中每个切片的搜索结果;

计算每个所述切片和与其对应的搜索结果之间的相似度;

根据计算得到的相似度来确定所述待检测文章的重复度。

9.根据权利要求8所述的检测方法,其中,所述计算每个所述切片和与其对应的搜索结果之间的相似度的步骤包括:

对所述切片进行分词,以得到第一分词结果;

对所述搜索结果中的匹配内容进行分词,以得到第二分词结果;

分别计算所述第一分词结果和所述第二分词结果的词频,以得到第一词频向量和第二词频向量;

根据余弦相似性计算所述第一词频向量和所述第二词频向量的相似度,作为所述切片和与其对应的搜索结果之间的相似度。

10.根据权利要求8所述的检测方法,其中,所述根据计算得到的相似度来确定所述文章的重复度的步骤包括:

计算相似度大于第一预定阈值的个数占总的相似度的个数的比值,所述比值为所述待检测文章的重复度。

11.根据权利要求8所述的检测方法,其中,对所述多个切片中至少部分切片执行搜索操作的步骤包括:

使用搜索引擎分别对所述多个切片中至少部分切片在数据库中进行搜索。

12.根据权利要求8所述的检测方法,其中,

在所述多个切片的数量大于第二预定阈值时,对所述多个切片中部分切片执行搜索操作,

在所述多个切片的数量小于第二预定阈值时,对所述多个切片中每个切片执行搜索操作。

13.根据权利要求8所述的检测方法,还包括:

提取所述待检测文章中的关键词;

根据所述关键词在所述切片中的出现情况,为所述至少部分切片中的每个切片赋予权重。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1