本发明涉及数据处理,特别涉及一种基于大数据的施工数据处理方法及系统。
背景技术:
1、随着信息科技的飞速发展,软件技术已经融入到各个行业中,在电力建设项目中,通过软件技术对其施工过程所产生的数据进行处理已经成为趋势。
2、目前针对电力建设项目数据处理,通常是利用软件对所采集到的数据进行处理后,结合工作人员的自身经验对其进行验证,从而避免施工过程中造成的异常,然而,伴随着电力建设项目的数量增加,其数据的复杂度也在逐渐提升,种类也逐渐变得多样性,软件的处理过程中也会存在一定的误差,并且,根据自身经验的方式会造成项目数据处理不准,从而造成项目的管控效果不佳,以致无法实现对电力建设项目的现场进行有效的处理,造成时间、资源以及人力消耗。
技术实现思路
1、基于此,本发明的目的是提供一种基于大数据的施工数据处理方法及系统,以至少解决上述技术中的不足。
2、本发明提出一种基于大数据的施工数据处理方法,包括:
3、获取待处理的电力施工项目的施工数据,并对所述施工数据进行特征选择,以得到所述施工数据的特征数据;
4、从电力施工项目数据库中获取源数据,并将所述源数据与所述特征数据进行特征筛选,以从所述特征数据中找到与所述源数据的特征相近的特征标记数据;
5、利用局部特征提取算法分别提取所述特征标记数据和所述源数据的局部特征数据,并将所述局部特征数据进行组合标记,得到组合特征数据;
6、获取各所述特征数据的标签,并对所述组合特征数据进行权重计算,基于权重计算结果对所述标签和各所述特征数据进行更新,以得到更新后的特征数据;
7、计算出所述更新后的特征数据与所述源数据的差异信息,并基于所述差异信息对所述待处理的电力施工项目进行施工优化。
8、进一步的,获取待处理的电力施工项目的施工数据,并对所述施工数据进行特征选择,以得到所述施工数据的特征数据的步骤包括:
9、给定施工数据集,其中,,,表示施工数据集的特征空间,表示施工数据集的标签集;
10、将所述施工数据集的特征空间中每个特征映射出一个新的特征,并对所述新的特征进行中心化处理,以得到中心化数据:
11、;
12、计算出所述中心化数据的协方差矩阵:
13、;
14、构建所述协方差矩阵的特征算法,根据所述协方差矩阵和所述特征算法进行特征处理,以得到所述施工数据所对应的特征数据,其中,所述协方差矩阵所对应的特征算法的表达式为:
15、;
16、式中,表示协方差矩阵的特征向量,表示协方差矩阵的特征值;
17、所述特征数据的表达式为:
18、。
19、进一步的,将所述源数据与所述特征数据进行特征筛选,以从所述特征数据中找到与所述源数据的特征相近的特征标记数据的步骤包括:
20、利用数据标准化算法对所述源数据和所述特征数据进行标准化处理,以得到对应的标准化源数据和标准化特征数据;
21、计算所述标准化源数据和所述标准化特征数据的均值、标准差、偏度以及峰度,分别构建所述标准化源数据的特征分布向量以及所述标准化特征数据的特征分布向量;
22、计算出所述标准化源数据的特征分布向量以及所述标准化特征数据的特征分布向量之间的欧氏距离,并将符合阈值的欧氏距离所对应的特征数据标记为特征标记数据。
23、进一步的,利用局部特征提取算法分别提取所述特征标记数据和所述源数据的局部特征数据,并将所述局部特征数据进行组合标记,得到组合特征数据的步骤包括:
24、利用局部特征提取算法分别提取所述特征标记数据和所述源数据的局部特征数据;
25、在特征空间内对所述局部特征数据以线性方式进行组合,并利用对称矩阵对组合结果进行联合分配,以得到对应的组合特征数据。
26、进一步的,基于权重计算结果对所述标签和各所述特征数据进行更新,以得到更新后的特征数据的步骤包括:
27、利用半监督模型对所述标签进行伪标签生成,并将所述伪标签和所述标签输入至所述半监督模型中进行训练,以得到半监督优化模型;
28、利用所述权重计算结果和所述半监督优化模型对各所述特征数据进行数据更新,以得到更新后的特征数据。
29、本发明还提出一种基于大数据的施工数据处理系统,包括:
30、特征选择模块,用于获取待处理的电力施工项目的施工数据,并对所述施工数据进行特征选择,以得到所述施工数据的特征数据;
31、特征筛选模块,用于从电力施工项目数据库中获取源数据,并将所述源数据与所述特征数据进行特征筛选,以从所述特征数据中找到与所述源数据的特征相近的特征标记数据;
32、组合标记模块,用于利用局部特征提取算法分别提取所述特征标记数据和所述源数据的局部特征数据,并将所述局部特征数据进行组合标记,得到组合特征数据;
33、数据更新模块,用于获取各所述特征数据的标签,并对所述组合特征数据进行权重计算,基于权重计算结果对所述标签和各所述特征数据进行更新,以得到更新后的特征数据;
34、差异计算模块,用于计算出所述更新后的特征数据与所述源数据的差异信息,并基于所述差异信息对所述待处理的电力施工项目进行施工优化。
35、进一步的,所述特征选择模块包括:
36、数据集定义单元,用于给定施工数据集,其中,,,表示施工数据集的特征空间,表示施工数据集的标签集;
37、中心化处理单元,用于将所述施工数据集的特征空间中每个特征映射出一个新的特征,并对所述新的特征进行中心化处理,以得到中心化数据:
38、;
39、协方差计算单元,用于计算出所述中心化数据的协方差矩阵:
40、;
41、特征处理单元,用于构建所述协方差矩阵的特征算法,根据所述协方差矩阵和所述特征算法进行特征处理,以得到所述施工数据所对应的特征数据,其中,所述协方差矩阵所对应的特征算法的表达式为:
42、;
43、式中,表示协方差矩阵的特征向量,表示协方差矩阵的特征值;
44、所述特征数据的表达式为:
45、。
46、进一步的,所述特征筛选模块包括:
47、标准化处理单元,用于利用数据标准化算法对所述源数据和所述特征数据进行标准化处理,以得到对应的标准化源数据和标准化特征数据;
48、向量构建单元,用于计算所述标准化源数据和所述标准化特征数据的均值、标准差、偏度以及峰度,分别构建所述标准化源数据的特征分布向量以及所述标准化特征数据的特征分布向量;
49、特征筛选单元,用于计算出所述标准化源数据的特征分布向量以及所述标准化特征数据的特征分布向量之间的欧氏距离,并将符合阈值的欧氏距离所对应的特征数据标记为特征标记数据。
50、进一步的,所述组合标记模块包括:
51、局部特征提取单元,用于利用局部特征提取算法分别提取所述特征标记数据和所述源数据的局部特征数据;
52、组合标记单元,用于在特征空间内对所述局部特征数据以线性方式进行组合,并利用对称矩阵对组合结果进行联合分配,以得到对应的组合特征数据。
53、进一步的,所述数据更新模块包括:
54、标签训练单元,用于利用半监督模型对所述标签进行伪标签生成,并将所述伪标签和所述标签输入至所述半监督模型中进行训练,以得到半监督优化模型;
55、数据更新单元,用于利用所述权重计算结果和所述半监督优化模型对各所述特征数据进行数据更新,以得到更新后的特征数据。
56、本发明还提出一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于大数据的施工数据处理方法。
57、本发明还提出一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基于大数据的施工数据处理方法。
58、本发明当中的一种基于大数据的施工数据处理方法及系统,通过对电力施工项目的施工数据进行特征选择,并利用所得到的特征数据和源数据进行特征筛选,在保留数据本身特征结构的同时有效减少冗余数据的影响;利用局部特征提取算法分别提取特征标记数据和源数据的局部特征数据,减少项目数据间的边缘分布差异和条件分布差异;利用迭代更新伪标签的方式,对数据进行优化更新,使得数据结果稳定收敛,将所得到的更新数据与源数据进行差异化比对,从而根据差异化实现对电力施工项目的施工过程的优化,进而对施工现场进行有效的管控,减少时间、资源以及人力消耗。