文本相似性检测方法、装置、计算机设备及存储介质与流程

文档序号:38072375发布日期:2024-05-21 20:07阅读:39来源:国知局
文本相似性检测方法、装置、计算机设备及存储介质与流程

本技术实施例涉及计算机,特别涉及一种文本相似性检测方法、装置、计算机设备及存储介质。


背景技术:

1、随着互联网技术的发展,网络文学,公众号文章,新闻内容等文本性内容得以广泛传播,在扩大传播领域的同时,也伴随着文本被抄袭的风险,鉴定文本是否被抄袭成为维护原创作者利益的必要途径。

2、在相关技术中,在鉴别两个文本是否具有相似性时,通常通过已有的分词方式对目标文本以及待检测文本分别进行文本分词,之后基于获得的分词结果进行相似性对比,以确定待检测文本是否为目标文本的侵权文本。

3、然而,上述方法中,通过分词结果直接进行相似性对比,会使得对比体量较大,对比效率较低,同时也使得相似性对比结果较差。


技术实现思路

1、本技术实施例提供了一种文本相似性检测方法、装置、计算机设备及存储介质,可以有效去除目标文本与待检测文本中的停用词,从而减少停用词在文本相似性对比中造成的影响,提高文本相似性对比的准确性;同时,通过过滤文本中的停用词,可以减少相似性对比过程中需要对比的文本内容量,进而减少文本相似性对比过程中不必要的资源浪费,提高相似性对比效率。该技术方案如下:

2、一方面,提供了一种文本相似性检测方法,所述方法包括:

3、获取目标文本以及待检测文本;

4、通过停用词模板对所述目标文本以及所述待检测文本进行预过滤,获得预过滤结果;所述预过滤结果中包含预过滤后的所述目标文本以及预过滤后的所述待检测文本;

5、对所述预过滤结果进行停用词提取,获得所述目标文本的专属停用词以及所述待检测文本的专属停用词;

6、基于所述目标文本的专属停用词对预过滤后的所述目标文本进行停用词过滤,以及,基于所述待检测文本的专属停用词对预过滤后的所述待检测文本进行停用词过滤,获得专属停用词过滤后的所述目标文本以及专属停用词过滤后的所述待检测文本;

7、对专属停用词过滤后的所述目标文本以及专属停用词过滤后的所述待检测文本进行相似性对比,获得第一相似性检测结果。

8、另一方面,提供了一种文本相似性检测装置,所述装置包括:

9、文本获取模块,用于获取目标文本以及待检测文本;

10、第一过滤模块,用于通过停用词模板对所述目标文本以及所述待检测文本进行预过滤,获得预过滤结果;所述预过滤结果中包含预过滤后的所述目标文本以及预过滤后的所述待检测文本;

11、停用词提取模块,用于对所述预过滤结果进行停用词提取,获得所述目标文本的专属停用词以及所述待检测文本的专属停用词;

12、第二过滤模块,用于基于所述目标文本的专属停用词对预过滤后的所述目标文本进行停用词过滤,以及,基于所述待检测文本的专属停用词对预过滤后的所述待检测文本进行停用词过滤,获得专属停用词过滤后的所述目标文本以及专属停用词过滤后的所述待检测文本;

13、第一对比模块,用于对专属停用词过滤后的所述目标文本以及专属停用词过滤后的所述待检测文本进行相似性对比,获得第一相似性检测结果。

14、在一种可能的实现方式中,所述停用词提取模块,用于,

15、将所述预过滤结果输入到停用词提取模型中,获得所述停用词模型输出的停用词提取结果;所述停用词提取结果用于指示各个词汇为停用词的概率;

16、基于所述停用词提取结果,确定所述目标文本的专属停用词以及所述待检测文本的专属停用词;

17、其中,所述停用词提取模型是基于文本样本以及文本样本中的停用词标签训练获得的。

18、在一种可能的实现方式中,所述装置还包括:

19、更新模块,用于基于所述停用词提取模型输出的所述停用词提取结果,更新所述停用词模板。

20、在一种可能的实现方式中,所述装置还包括:

21、得分获取模块,用于获取所述目标文本的各个文本段落和所述待检测文本的各个文本段落中包含的预过滤停用词的占比得分,所述预过滤停用词是基于所述停用词模板筛选获得的停用词;

22、段落筛选模块,用于基于各个文本段落对应的所述占比得分,对所述目标文本以及所述待检测文本进行文本段落筛选,获得文本段落筛选的所述目标文本以及文本段落筛选后的所述待检测文本;

23、第二对比模块,用于对文本段落筛选后的所述目标文本以及文本段落筛选后的所述待检测文本进行相似性对比,获得第二相似性检测结果;

24、相似性确定模块,用于基于所述第一相似性检测结果和所述第二相似性检测结果,确定所述待检测文本是与所述目标文本的相似性。

25、在一种可能的实现方式中,所述段落筛选模块,用于,

26、若所述文本段落对应的所述占比得分高于分数阈值,删除所述文本段落;

27、若所述文本段落对应的所述占比得分不高于所述分数阈值,保留所述文本段落。

28、在一种可能的实现方式中,各个词性对应有各自的权重分数;

29、所述得分获取模块,用于获取各个所述预过滤停用词的词性;

30、基于各个所述预过滤停用词的词性,以及各个词性对应的权重分数,计算各个文本段落对应的所述占比得分。

31、在一种可能的实现方式中,所述相似性确定模块,用于将所述第一相似性检测结果与所述第二相似性检测结果中指示所述待检测文本与所述目标文本相似性最高的一个确定为最终相似性检测结果;

32、基于所述最终相似性检测结果,确定所述待检测文本与所述目标文本相似性。

33、另一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现上述的文本相似性检测方法。

34、另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现上述的文本相似性检测方法。

35、另一方面,提供了一种计算机程序产品,所述计算机程序产品包括至少一条计算机程序,所述计算机程序由处理器加载并执行以实现上述各种可选实现方式中提供的文本相似性检测方法。

36、本技术提供的技术方案可以包括以下有益效果:

37、本技术实施例提供的文本相似性检测方法,在对目标文本与待检测文本进行相似性检测之前,通过停用词模板分别对目标文本以及待检测文本进行停用词预过滤,再通过提取到的目标文本的专属停用词进一步对目标文本进行过滤,通过提取到的待检测文本的专属停用词进一步对待检测文本进行过滤,之后对停用词过滤后的目标文本以及待检测文本进行相似性检测;通过停用词模板和专属停用词的两次过滤过程,可以有效去除目标文本与待检测文本中的停用词,从而减少停用词在文本相似性对比中造成的影响,提高文本相似性对比的准确性;同时,通过过滤文本中的停用词,可以减少相似性对比过程中需要对比的文本内容量,进而减少文本相似性对比过程中不必要的资源浪费,提高相似性对比效率。

38、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1