1.一种基于水泥价格指数的多源数据清洗方法,其特征在于,包括步骤:
2.根据权利要求1所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,所述真实异常数据组包括所述异常数据、所述清洗算法和人工对所述清洗算法针对所述异常数据输出的清洗结果的校正结果。
3.根据权利要求1所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,步骤s2具体包括步骤:
4.根据权利要求1所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,所述中间数据为地级行政区平均价格通过如下公式(2)计算:
5.根据权利要求1所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,步骤s3具体包括步骤:
6.根据权利要求5所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,步骤s32中,通过如下公式(2)计算fij:
7.根据权利要求6所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,若对应的元素ii′1为归一化后所述异常数据矩阵中的第一子矩阵中的元素,则wx为ii′j在归一化的所述第一子矩阵中所处的行中记载的品牌权重;若对应的元素ii′1为归一化后的所述异常数据矩阵中的第二子矩阵中的元素,则wx为ii′j在归一化的所述第二子矩阵中所处的行中记载的地级行政区权重。
8.根据权利要求3-7任意一项所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,步骤s4具体包括步骤:
9.根据权利要求8所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,步骤s41中,数据集划定方法为:对从每个地级行政区对应的所述异常数据矩阵中的第一子矩阵中筛选出的第一样本数据划入到所述第一样本数据集,将从每个所述地级行政区对应的所述异常数据矩阵中的第二子矩阵中筛选出的第二样本数据划入到所述第二样本数据集。
10.根据权利要求3所述的一种基于水泥价格指数的多源数据清洗方法,其特征在于,所述第一异常数据包括水泥品牌、所述水泥品牌在地级行政区的粉磨站产能占有率、熟料占有率以及品牌产品价格中的重复数据和值缺失的数据;