一种基于水泥价格指数的多源数据清洗方法与流程

文档序号:36937646发布日期:2024-02-02 22:05阅读:来源:国知局

技术特征:

1.一种基于水泥价格指数的多源数据清洗方法,其特征在于,包括步骤:

2.根据权利要求1所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,所述真实异常数据组包括所述异常数据、所述清洗算法和人工对所述清洗算法针对所述异常数据输出的清洗结果的校正结果。

3.根据权利要求1所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,步骤s2具体包括步骤:

4.根据权利要求1所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,所述中间数据为地级行政区平均价格通过如下公式(2)计算:

5.根据权利要求1所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,步骤s3具体包括步骤:

6.根据权利要求5所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,步骤s32中,通过如下公式(2)计算fij:

7.根据权利要求6所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,若对应的元素ii′1为归一化后所述异常数据矩阵中的第一子矩阵中的元素,则wx为ii′j在归一化的所述第一子矩阵中所处的行中记载的品牌权重;若对应的元素ii′1为归一化后的所述异常数据矩阵中的第二子矩阵中的元素,则wx为ii′j在归一化的所述第二子矩阵中所处的行中记载的地级行政区权重。

8.根据权利要求3-7任意一项所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,步骤s4具体包括步骤:

9.根据权利要求8所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,步骤s41中,数据集划定方法为:对从每个地级行政区对应的所述异常数据矩阵中的第一子矩阵中筛选出的第一样本数据划入到所述第一样本数据集,将从每个所述地级行政区对应的所述异常数据矩阵中的第二子矩阵中筛选出的第二样本数据划入到所述第二样本数据集。

10.根据权利要求3所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,所述第一异常数据包括水泥品牌、所述水泥品牌在地级行政区的粉磨站产能占有率、熟料占有率以及品牌产品价格中的重复数据和值缺失的数据;


技术总结
本发明公开了一种基于水泥价格指数的多源数据清洗方法,利用地级行政区平均价格影响水泥价格指数变化量的重要性,并将其作为中间数据引入到异常数据矩阵中,实现了对数据清洗对象的分割,通过数据分割确保后续能够实现对数据的并行清洗和清洗算法的并行筛选;通过f<subgt;ij</subgt;表征异常数据矩阵中的第一子矩阵中的各元素之间对求解中间数据的重要程度,以及表征第二子矩阵中的各元素相比较中间数据对求解水泥价格指数的重要程度,以f<subgt;ij</subgt;值为筛选验证算法可用性的样本数据变得简单、直观;计算f<subgt;ij</subgt;时,引入了和偏差列表中排列前P个使得f<subgt;ij</subgt;更能表征上述两个重要程度,筛选到的样本数据更具代表性;通过计算清洗偏差和融合偏差,实现了对清洗算法的精准筛选。

技术研发人员:邵俊,郑建辉,华牮,江勋,王立
受保护的技术使用者:杭州砼福科技有限公司
技术研发日:
技术公布日:2024/2/1
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1