本申请涉及数据处理的领域,具体而言,涉及一种标讯信息去重的方法、装置、设备和可读存储介质。
背景技术:
1、目前,现有的标讯信息去重流程中,先制定一套重复规则识别重复数据,包括规则判定的结果及对应的处理操作,然后对重复规则进行了处理优先级,从第一个规则开始判断,只要命中重复规则就执行相应的处理操作。
2、但是,在规则去重的过程中,由于数据的复杂性和主观性,考虑通用情况和多种特殊情况的分类,导致现有规则库积累了大量复杂的规则,需要定期监督各个规则的活跃度和准确率,规则维护难度较大,容易导致部分规则的准确率降低,且复杂的业务处理逻辑需要大量服务器资源来保障数据的处理时效性。
3、因此,如何准确、高校的去重标讯信息,是一个需要解决的技术问题。
技术实现思路
1、本申请实施例的目的在于提供一种标讯信息去重的方法,通过本申请的实施例的技术方案可以达到准确、高校的去重标讯信息的效果。
2、第一方面,本申请实施例提供了一种标讯信息去重的方法,包括,聚合待去重标讯信息集合中同一项目的标讯信息,得到多个标讯信息集合;确定多个标讯信息集合中每一标讯信息集合内的相同或者相似标讯信息;去重相同或者相似标讯信息。
3、本申请在上述实施例中,将同标数据聚合在一起后,确定集合内相同或者相似标讯信息去重,有效解决了标文数据的多样性和复杂性造成的问题,可以达到准确、高校的去重标讯信息的效果。
4、在一些实施例中,标讯信息,包括:标题、项目名称、标的物、时间类集合、金额类集合、单位类集合、公告类型集合、标段和招标次数中的至少一个。
5、本申请在上述实施例中,标讯信息包括多种,根据多种标讯信息可以确认标讯信息的所属项目,以便于后续可以快速的将同一项目的标讯信息进行聚合。
6、在一些实施例中,聚合待去重标讯信息集合中同一项目的标讯信息,得到多个标讯信息集合,包括:去除待去重标讯信息集合中标讯信息的通用词和不相关词,得到处理后的待去重标讯信息集合;按照三段论方法将待去重标讯信息集合中的标讯信息进行两两对比,得到对比结果,其中,对比结果包括不同标讯信息之间对比得到的多个相似得分;将对比结果中相似得分大于等于相似阈值对应的标讯信息聚合,得到多个标讯信息集合。
7、本申请在上述实施例中,使用关键词,能够更快速准确地将同标数据聚合在一起,有效地提高了规则处理的时效性,通过三段论的方式将标讯信息进行对比,可以将相似的标讯信息聚合到同一项目,提高了标讯信息的聚合效率。
8、在一些实施例中,确定多个标讯信息集合中每一标讯信息集合内的相同或者相似标讯信息,包括:根据不同场景对应的预设得分规则,对多个标讯信息集合中每一标讯信息集合内的标讯信息进行相似评分,得到评分结果;筛选评分结果中评分大于等于预设评分阈值对应的标讯信息,得到相同或者相似标讯信息。
9、本申请在上述实施例中,可以通过预设的评分规则,对不同的标讯信息组合进行相似评分,准确的筛选相同或者相似标讯信息,以便于后续可以准确的进行标讯信息的去重。
10、在一些实施例中,聚合待去重标讯信息集合中同一项目的标讯信息,得到多个标讯信息集合,包括:筛选待去重标讯信息集合中每一标讯信息的关键词;通过机器学习自动识别标讯信息中关键词的出现频率,确定每一标讯信息的关键词的类型;将相同类型的关键词对应的标讯信息进行聚合,得到多个标讯信息集合。
11、本申请在上述实施例中,可以筛选标讯信息中的关键词,将出现频率高的关键词进行筛选,并确定关键词的类型,进而根据类型可以准确的进行标讯信息的聚合。
12、第二方面,本申请实施例提供了一种标讯信息去重的装置,包括:
13、聚合模块,用于聚合待去重标讯信息集合中同一项目的标讯信息,得到多个标讯信息集合;
14、确定模块,用于确定多个标讯信息集合中每一标讯信息集合内的相同或者相似标讯信息;
15、去重模块,用于去重相同或者相似标讯信息。
16、可选的,标讯信息,包括:
17、标题、项目名称、标的物、时间类集合、金额类集合、单位类集合、公告类型集合、标段和招标次数中的至少一个。
18、可选的,聚合模块具体用于:
19、去除待去重标讯信息集合中标讯信息的通用词和不相关词,得到处理后的待去重标讯信息集合;
20、按照三段论方法将待去重标讯信息集合中的标讯信息进行两两对比,得到对比结果,其中,对比结果包括不同标讯信息之间对比得到的多个相似得分;
21、将对比结果中相似得分大于等于相似阈值对应的标讯信息聚合,得到多个标讯信息集合。
22、可选的,确定模块具体用于:
23、去除待去重标讯信息集合中标讯信息的通用词和不相关词,得到处理后的待去重标讯信息集合;
24、按照三段论方法将待去重标讯信息集合中的标讯信息进行两两对比,得到对比结果,其中,对比结果包括不同标讯信息之间对比得到的多个相似得分;
25、将对比结果中相似得分大于等于相似阈值对应的标讯信息聚合,得到多个标讯信息集合。
26、可选的,确定模块具体用于:
27、根据不同场景对应的预设得分规则,对多个标讯信息集合中每一标讯信息集合内的标讯信息进行相似评分,得到评分结果;
28、筛选评分结果中评分大于等于预设评分阈值对应的标讯信息,得到相同或者相似标讯信息。
29、可选的,聚合模块具体用于:
30、筛选待去重标讯信息集合中每一标讯信息的关键词;
31、通过机器学习自动识别标讯信息中关键词的出现频率,确定每一标讯信息的关键词的类型;
32、将相同类型的关键词对应的标讯信息进行聚合,得到多个标讯信息集合。
33、第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
34、第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
35、本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
1.一种标讯信息去重的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述标讯信息,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述聚合待去重标讯信息集合中同一项目的标讯信息,得到多个标讯信息集合,包括:
4.根据权利要求1或2所述的方法,其特征在于,所述确定所述多个标讯信息集合中每一标讯信息集合内的相同或者相似标讯信息,包括:
5.根据权利要求1或2所述的方法,其特征在于,所述聚合待去重标讯信息集合中同一项目的标讯信息,得到多个标讯信息集合,包括:
6.一种标讯信息去重的装置,其特征在于,包括:
7.根据权利要求6所述的装置,其特征在于,所述聚合模块具体用于:
8.根据权利要求6或7所述的装置,其特征在于,所述确定模块具体用于:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,包括: