本发明涉及工业制造大数据处理领域,尤其是基于工业制造大数据的不平衡数据学习方法。
背景技术:
不平衡学习问题主要关注数据表示不充分和类分布扭曲变形时学习算法的性能。制造业在测控网和测控数据方面,由于来自不同设备并且针对不同对象,呈现典型的不平衡形式。由于不平衡数据集固有的复杂特点,学习这样的数据需要将大量原始数据高效转化为信息和知识表示的新理解、新原理、新算法和新工具。
技术实现要素:
为了克服上述现有技术中的不足,本发明提供了一种基于工业制造大数据的不平衡数据学习方法。
本发明解决其技术问题所采用的技术方案为:
基于工业制造大数据的不平衡数据学习方法,包括以下步骤
101、确定工业制造大数据的采集源及采集方式:
102、按照步骤101的采集方式从采集源获取工业制造大数据以构成不平衡数据集;
103、通过抽样机制来修改不平衡数据集,以提供平衡的数据分布;
104、将所述不平衡数据集引入sfbp代价矩阵框架,通过代价矩阵框架元素的逐项搜索比较,对每行和每列中满足约束条件的元素个数进行计数;通过比较每行每列满足约束条件的元素个数所占每行每列的比例,对sfbp代价矩阵框架添加相应的代价值行列数,改变其代价矩阵框架,以优化不平衡数据集的平衡度。
所述抽样机制包括随机过抽样和欠抽样、伴随数据生成的合成抽样、自适应合成抽样、数据清理抽样、基于聚类的抽样和boosting集成抽样。
所述代价矩阵的构建过程具体包括如下步骤:
步骤1、设定的插入操作代价值ci和删除操作代价值cd;
步骤2、构建sfbp算法的原始代价矩阵;
步骤3、逐行逐列统计原始代价矩阵中替换操作部分满足约束条件的元素个数;其中约束条件为:
αcs>(ci+cd)
其中,α为给定参数,α∈(0,1];cs为元素值即替换操作代价值,ci为设定的插入操作代价值,cd为设定的删除操作代价值;
步骤4、计算原始代价矩阵中替换操作部分的每一行中所有满足约束条件的元素个数与该行所有元素个数之比即行占比ti,并统计行占比ti小于预设占比参数q的行数m;其中i=1,2,…,m,m为原始代价矩阵中替换操作部分的总行数,q∈(0,1];
步骤5、计算原始代价矩阵中替换操作部分的每一行中所有满足约束条件的元素个数与该列所有元素个数之比即列占比tj,并统计行占比tj小于预设占比参数q的列数n;其中j=1,2,…,n,n为原始代价矩阵中替换操作部分的总列数,q∈(0,1];
步骤6、根据步骤4所得行数m和步骤5所得列数n,计算r=max(m,n);并在整个原始代价矩阵的基础上添加r行和r列元素,由此得到供后续计算图编辑距离使用的求解代价矩阵。
本发明带来的有益效果有:
本发明通过集成多种采样机制平衡数据集的数据分布,再结合代价矩阵描述错误分类任何特定数据样本的代价,通过对代价矩阵框架元素的逐项搜索比较,对每行和每列中满足约束条件的元素个数进行计数;通过比较每行每列满足约束条件的元素个数所占每行每列的比例,对sfbp代价矩阵框架添加相应的代价值行列数,改变其代价矩阵框架,以达到优化的目的。当达到优化目标时,就可以使用通用的求解算法对代价矩阵进行求解计算,从而避免约束条件对算法使用的限制,使得算法更好的应用于工业制造大数据中。
具体实施方式
本发明的基于工业制造大数据的不平衡数据学习方法,包括以下步骤
101、确定工业制造大数据的采集源及采集方式:
102、按照步骤101的采集方式从采集源获取工业制造大数据以构成不平衡数据集;
103、通过抽样机制来修改不平衡数据集,以提供平衡的数据分布;
104、将所述不平衡数据集引入sfbp代价矩阵框架,通过代价矩阵框架元素的逐项搜索比较,对每行和每列中满足约束条件的元素个数进行计数;通过比较每行每列满足约束条件的元素个数所占每行每列的比例,对sfbp代价矩阵框架添加相应的代价值行列数,改变其代价矩阵框架,以优化不平衡数据集的平衡度。
所述抽样机制包括随机过抽样和欠抽样、伴随数据生成的合成抽样、自适应合成抽样、数据清理抽样、基于聚类的抽样和boosting集成抽样。
所述代价矩阵的构建过程具体包括如下步骤:
步骤1、设定的插入操作代价值ci和删除操作代价值cd;
步骤2、构建sfbp算法的原始代价矩阵;
步骤3、逐行逐列统计原始代价矩阵中替换操作部分满足约束条件的元素个数;其中约束条件为:
αcs>(ci+cd)
其中,α为给定参数,α∈(0,1];cs为元素值即替换操作代价值,ci为设定的插入操作代价值,cd为设定的删除操作代价值;
步骤4、计算原始代价矩阵中替换操作部分的每一行中所有满足约束条件的元素个数与该行所有元素个数之比即行占比ti,并统计行占比ti小于预设占比参数q的行数m;其中i=1,2,…,m,m为原始代价矩阵中替换操作部分的总行数,q∈(0,1];
步骤5、计算原始代价矩阵中替换操作部分的每一行中所有满足约束条件的元素个数与该列所有元素个数之比即列占比tj,并统计行占比tj小于预设占比参数q的列数n;其中j=1,2,…,n,n为原始代价矩阵中替换操作部分的总列数,q∈(0,1];
步骤6、根据步骤4所得行数m和步骤5所得列数n,计算r=max(m,n);并在整个原始代价矩阵的基础上添加r行和r列元素,由此得到供后续计算图编辑距离使用的求解代价矩阵。
本发明通过集成多种采样机制平衡数据集的数据分布,再结合代价矩阵描述错误分类任何特定数据样本的代价,通过对代价矩阵框架元素的逐项搜索比较,对每行和每列中满足约束条件的元素个数进行计数;通过比较每行每列满足约束条件的元素个数所占每行每列的比例,对sfbp代价矩阵框架添加相应的代价值行列数,改变其代价矩阵框架,以达到优化的目的。当达到优化目标时,就可以使用通用的求解算法对代价矩阵进行求解计算,从而避免约束条件对算法使用的限制,使得算法更好的应用于工业制造大数据中。
不同于抽样法尝试通过类样本代表性比例来平衡数据分布,不平衡数据的代价敏感学习方法包括代价敏感数据空间加权,如代价敏感自举抽样,代价最小化技术,如各种meta技术和代价敏感关联技术如代价敏感决策树和代价敏感神经网络。
此外,本发明还包括基于核的学习方法:采用统计学习和vapnik-chervonenkis(vc)维度理论,结合svm最小化总分类误差,实现自主学习。
需要说明的是,以上所述只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。