本公开涉及互联网信息匹配,尤其涉及一种公文文本查重方法、装置和电子设备。
背景技术:
1、随着科学技术的发展,现在政府发布公文也是通过线上发布的形式,而这种发布方式,使得公文可以很便捷地被进行随意转载。也即,同一篇公文可能在各地方网站中均进行展示。但是,公文发布时,除特殊体例、格式要求外,各单位发布的公文重复率不能超过规定阈值。因此,在公文发布之前,需要对公文进行查重。
技术实现思路
1、提供该公开内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该公开内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
2、本公开实施例提供了一种公文文本查重方法、装置和电子设备,可以使得公文在发布之前,高效进行查重,从而可以避免公文的重复发布。同时,在查重过程中,先基于哈希值确定已发布的文本成员中是否包括符合预定义条件的文本成员,在确定符合预定义条件的文本成员与第一待发布公文的相似度,从而既可使得第一待发布公文在进行查重过程中,可以高效地进行查重,从而可以提升获得查重结果的效率。
3、第一方面,本公开实施例提供了一种公文文本查重方法,包括:响应于接收到第一待发布公文,获取已发布的预定义文本类型的公文集合;计算上述第一待发布公文的哈希值,以及计算上述公文集合中各文本成员的哈希值;基于上述第一待发布公文的哈希值和各文本成员的哈希值,确定上述公文集合中是否包括符合预定义条件的文本成员;响应于确定上述公文集合中包括符合预定义条件的文本成员,确定符合预定义条件的文本成员与上述第一待发布公文的相似度;基于确定的相似度,确定上述第一待发布公文的查重结果。
4、第二方面,本公开实施例提供了一种公文文本查重装置,包括:获取单元,用于响应于接收到第一待发布公文,获取已发布的预定义文本类型的公文集合;计算单元,用于计算上述第一待发布公文的哈希值,以及计算上述公文集合中各文本成员的哈希值;第一确定单元,用于基于上述第一待发布公文的哈希值和各文本成员的哈希值,确定上述公文集合中是否包括符合预定义条件的文本成员;第二确定单元,用于响应于确定上述公文集合中包括符合预定义条件的文本成员,确定符合预定义条件的文本成员与上述第一待发布公文的相似度;第三确定单元,用于基于确定的相似度,确定上述第一待发布公文的查重结果。
5、第三方面,本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得上述一个或多个处理器实现如第一方面上述的公文文本查重方法。
6、第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面上述的公文文本查重方法的步骤。
7、本公开实施例提供的公文文本查重方法、装置和电子设备,在接收到第一待发布公文后,可以获取已经发布的预定义文本类型的公文集合,并可以计算第一待发布公文的哈希值和公文集合中各文本成员的哈希值,这样,利用计算的哈希值判断公文集合中包括符合预定义条件的文本成员,而当公文集合中包括符合预定义条件的文本成员时,则可以确定符合预定义条件的文本成员与第一待发布公文的相似度;并可以基于确定的相似度确定第一待发布公文的查重结果。而这种方式,也就无需确定第一待发布公文与所有已发布公文的相似度,而是仅对符合预定义条件的文本成员进行相似性对比,这样,可以极大的提升公文发布过程中的查重效率。
1.一种公文文本查重方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一待发布公文的哈希值和各文本成员的哈希值,确定所述公文集合中是否包括符合预定义条件的文本成员:
3.根据权利要求2所述的方法,其特征在于,所述基于确定的各汉明距离,确定所述公文集合中是否包括符合预定义条件的文本成员,包括:
4.根据权利要求1所述的方法,其特征在于,通过如下方式确定任一符合预定义条件的文本成员与所述第一待发布公文的相似度:
5.根据权利要求4所述的方法,其特征在于,所述确定所述第一待发布公文关键词集合与该文本成员关键字集合的重合度,包括:
6.根据权利要求1所述的方法,其特征在于,在所述计算所述第一待发布公文的哈希值,以及计算所述公文集合中各文本成员的哈希值之前,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
9.根据权利要求1所述的方法,其特征在于,所述获取已发布的预定义类型的公文集合,包括:
10.一种公文文本查重装置,其特征在于,包括:
11.一种电子设备,其特征在于,包括:
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。