本发明涉及数据处理领域,特别是涉及一种基于大数据的政采信息处理方法、电子设备及介质。
背景技术:
1、当前我国各地财政部门重点关注各地优化营商环境和提高财政资金使用效率,但是当前政府采购行业市场报价透明度低,采购人编制政府采购需求时对市场调研不足,监督管理部门审批采购预算时缺乏足够的市场依据。
2、相关技术中,对于政府采购信息推荐处理产品主要是利用爬虫技术针对全网招标数据进行爬取,将同类型项目推荐给投标人或者采购人,但是由于爬取数据量太大,导致推荐模型处理速度很慢效率很低,同时过大的数据量里面有很多异常数据无法通过简单的数据清洗进行剔除,也导致政府采购信息推荐准确度差,会给政府采购货物与服务行业人员给来不合理的参考。
技术实现思路
1、鉴于上述问题,本申请提供了一种基于大数据的政采信息处理方法、电子设备及介质,能够快速精确的实现同类货物类型信息的政府采购相关信息推荐,为政府采购人员提供采购参考,增加政府采购的透明度和提高政府财政资金使用效率。
2、第一方面,本申请实施例提供了一种基于大数据的政采信息处理方法,包括:
3、获取采购网上的政府采购交易数据;
4、对每一个政府采购交易数据进行预处理,得到每一个政府采购交易数据对应的关键交易信息集合;
5、对任意两个政府采购交易数据对应的关键交易信息集合中的货物类型信息进行相似程度计算,得到任意两个政府采购交易数据对应的关键交易信息集合的相似度;
6、对每一个政府采购交易数据对应的关键交易信息集合分别进行关注度指标计算和可靠性指标计算,得到每一个政府采购交易数据对应的关键交易信息集合的关注度指标和可靠性指标;
7、基于任意两个政府采购交易数据对应的关键交易信息集合的相似度、每一个政府采购交易数据对应的关键交易信息集合的关注度指标和可靠性指标进行聚类处理,得到多个聚类簇;
8、将每一个聚类簇输入对应的预先训练好的神经网络模型,得到对应货物类型信息的政府采购推荐信息。
9、在一种可能的实现方式中,对每一个政府采购交易数据进行预处理,得到每一个政府采购交易数据对应的关键交易信息集合,包括:
10、对每一个政府采购交易数据进行分别进行数据提取、数据清洗及数据转换,得到对应的第一结构化数据;
11、对第一结构化数据进行数据聚合,得到每一个政府采购交易数据对应的关键交易信息集合。
12、在一种可能的实现方式中,对任意两个政府采购交易数据对应的关键交易信息集合中的货物类型信息进行相似程度计算,得到任意两个政府采购交易数据对应的关键交易信息集合的相似度,包括:
13、采用word2vec词向量模型将每一个政府采购交易数据对应的关键交易信息集合中的货物类型信息映射为一个向量,计算每个货物类型信息对应的向量与其他货物类型信息对应的向量的余弦相似度得到任意两个政府采购交易数据对应的关键交易信息集合的相似度。
14、在一种可能的实现方式中,对每一个政府采购交易数据对应的关键交易信息集合进行关注度指标计算,其中关注度指标的计算公式为:
15、
16、其中,atten(i,j)表示第i个政府采购交易数据网页对应的第j个时间区段的关注度指标,i表示第i个政府采购交易数据网页;j表示第j个时间区段;xi,k表示对应的第i个政府采购交易数据网页第k小时内的点击量;n表示第j个时间区段的总小时数;sum表示与第i个政府采购交易数据网页同类型货物的政府采购交易数据网页总点击量之和。
17、在一种可能的实现方式中,对每一个政府采购交易数据对应的关键交易信息集合进行可靠性指标计算,其中可靠性指标的计算公式为:
18、
19、其中,rel(i,j)表示第i个政府采购交易数据网页对应的第j个时间区段的可靠度指标;i表示第i个政府采购交易数据网页;j表示第j个时间区段;r表示与第i个政府采购交易数据网页同类型货物的政府采购交易数据网页的数量;wi,j表示第i个政府采购交易数据网页第j个时间区段对应的投标人总数量数量;q表示与第i个政府采购交易数据网页同类型货物的政府采购交易数据网页第j个时间区段内的政府采购交易总规模;ρ表示第i个政府采购交易数据网页中标率,t表示第i个政府采购交易数据网页距离当前时间最近的时间区段,t取值10。
20、在一种可能的实现方式中,基于任意两个政府采购交易数据对应的关键交易信息集合的相似度、每一个政府采购交易数据对应的关键交易信息集合的关注度指标和可靠性指标进行聚类处理,得到多个聚类簇,包括:
21、将任意两个政府采购交易数据对应的关键交易信息集合的相似度与第一预设阈值进行比较,得到多个中间聚类簇;
22、将每一个中间聚类簇根据对应关键交易信息集合的关注度指标和可靠性指标进行聚类优化,得到多个聚类簇。
23、在一种可能的实现方式中,将每一个中间聚类簇中根据对应关键交易信息集合的关注度指标和可靠性指标进行聚类优化,得到多个聚类簇,包括:
24、将每一个政府采购交易数据对应的关键交易信息集合的关注度指标和可靠性指标分别与第二预设阈值和第三预设阈值进行比较,当对应的关注度指标和可靠性指标均分别大于第二预设阈值和第三预设阈值时,保留对应的关键交易信息集合,否则剔除,得到聚类优化后的多个聚类簇。
25、在一种可能的实现方式中,预先训练好的神经网络模型为全连接神经网络或cnn卷积神经网络模型。
26、第二方面,本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现如第一方面各个可能实现的实施例。
27、第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行如第一方面各个可能实现的实施例。
1.一种基于大数据的政采信息处理方法,其特征在于,包括:
2.根据权利要求1所述的基于大数据的政采信息处理方法,其特征在于,对每一个所述政府采购交易数据进行预处理,得到每一个政府采购交易数据对应的关键交易信息集合,包括:
3.根据权利要求1所述的基于大数据的政采信息处理方法,其特征在于,对任意两个所述政府采购交易数据对应的关键交易信息集合中的货物类型信息进行相似程度计算,得到任意两个所述政府采购交易数据对应的关键交易信息集合的相似度,包括:
4.根据权利要求1所述的基于大数据的政采信息处理方法,其特征在于,对每一个政府采购交易数据对应的关键交易信息集合进行关注度指标计算,其中所述关注度指标的计算公式为:
5.根据权利要求1所述的基于大数据的政采信息处理方法,其特征在于,对每一个政府采购交易数据对应的关键交易信息集合进行可靠性指标计算,其中所述可靠性指标的计算公式为:
6.根据权利要求1所述的基于大数据的政采信息处理方法,其特征在于,基于任意两个所述政府采购交易数据对应的关键交易信息集合的相似度、每一个所述政府采购交易数据对应的关键交易信息集合的关注度指标和可靠性指标进行聚类处理,得到多个聚类簇,包括:
7.根据权利要求6所述的基于大数据的政采信息处理方法,其特征在于,将每一个中间聚类簇根据对应所述关键交易信息集合的关注度指标和可靠性指标进行聚类优化,得到多个聚类簇,包括:
8.根据权利要求1所述的基于大数据的政采信息处理方法,其特征在于,所述预先训练好的神经网络模型为全连接神经网络或cnn卷积神经网络模型。
9.一种电子设备,其特征在于,包括存储器和处理器,其中:
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的基于大数据的政采信息处理方法。