一种基于高维数据分布的复合式伪标签拟合方法与流程

文档序号:30382969发布日期:2022-06-11 05:14阅读:287来源:国知局
一种基于高维数据分布的复合式伪标签拟合方法与流程

1.本发明涉及大数据处理领域,具体来说涉及一种基于高维数据分布的复合式伪标签拟合方法。


背景技术:

2.近年来,随着人工智能深度学习技术的兴起,使用有标签数据进行训练模型成为行业的热点,由于人工标记工作量较大、成本较高,研究人员开始探索一种模型自我构建标签的方式进行学习,出现了伪标签技术。伪标签的定义来自于半监督学习,半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。简单来说,伪标签技术就是利用在已标注数据所训练的模型在未标注的数据上进行预测,根据预测结果对样本进行筛选,再次输入模型中进行训练的一个过程。但随着日常生活中需要标记的数据越来越多,研究人员对广大无标签数据研究也越来越深入,伪标签技术被公认为处理无标签数据的最佳方案。
3.但目前伪标签技术仅适用于低维度、易人工标记的数据,并不适用于高维度数据的伪标签的构建。现有的基于谱聚类的半监督学习的软件缺陷预测方法,对于数据存在的空间没有进行深度探索,这样会导致谱聚类方法不能发挥优势,使用聚类的方式会导致结果数据空间分布出现偏差、为构造模型而进行的人力劳动增加、由于人工偏差导致的模型错误率增加等问题。目前,超高维无标签数据伪标签构建所使用方法不能有效结合每个维度得出更加综合的结果输出。


技术实现要素:

4.本发明的目的在于克服上述缺点而提供的一种能使超高维无标签数据进行模型训练的基于高维数据分布的复合式伪标签拟合方法。
5.为实现上述目标,本发明技术方案如下:
6.本发明的一种基于高维数据分布的复合式伪标签拟合方法,包括以下步骤:
7.(1)对各维度进行统计,获得数据分布特征:随机对每个维度进行采样,获取t个数据,对此t个数据进行统计,首先取得t个数据中的最大值(max)与最小值(min),按最大值与最小值的间隔(max-min)均匀分区,分为h个区间,则每个区间长度为:(max-min)/h,按每个区间起始位置大小,对每个区间按编号为0,1,2,3
……
h-1进行编号,后统计t个数据落到各个编号区间的数据数量,按照区间的编号,将每个编号区间的数据数量重新组合为长度为h的数组(大小为:[1 x h])的数据分布矩阵αn,此步操作设为函数a(xn),此步骤数学表达为:a(xn)=αn(αn是数据的统计分布特征矩阵,xn表示总数据第n维度的总数据);
[0008]
(2)两两对比数据相关性,不重复地选择相关性较高的n/2(取上整)组维度对:由步骤(1)得到的第n维度数据的统计分布特征矩阵αn,进行各个维度之间的相关性计算(对维度n1的统计分布特征矩阵αn1(如下公式中用x表示)与维度n2的统计分布特征矩阵αn2(如下公式中用y表示)采用皮尔森相关系数计算算法得数据统计分布特征矩阵相关性,
[0009]
即:pearsonr(x,y)=ρ(x,y)=(cov(x,y))/(σ
x
σy)=(e[(x-μ
x
)(y-μy)])/(σ
x
σy)
[0010]
):依据如上操作,计算出各个维度统计分布特征之间的相关性,后将此相关性数据取绝对值操作,后不重复地选取相关性最高的数据维度对,将取定的维度对存入特定数组,此数据维度两两组合,如出现不能配对的奇数,则对其进行自身与自身的配对;此操作设为函数b(α0,α1,α2
……
αn),此步骤的数学表达为:b(α0,α1,α2
……
αn)=q1,q2
……
qn/2,qn代表取定的第n个相关性较高的维度对;
[0011]
(3)每组维度都使用采样数据训练独立小模型:对于每一对数据维度都构建一个独有的伪标签模型,模型视作函数c(qn),输入两维数据对qn,得到一维数据zn,达到降维目的,此步数学表达为:c(qn)=zn;
[0012]
(4)用输入数据统计分布特征做为训练标签,在分布特征标签下进行模型的深度学习训练:使用步骤(1)中方法处理此独立模型的输出数据,得到输出数据的数据统计分布特征矩阵βn,将原输入两维数据的数据统计分布特征矩阵进行加和,得到具有同时此维度对两维数据统计分布特征的矩阵αn,矩阵βn与矩阵αn使用均方差的方法计算损失,得到损失loss,使用梯度下降的方法,使模型得到训练,使输出数据zn分布特征更加接近于输入维度对qn数据的总体分布特征;
[0013]
(5)实现对数据的降维:按相同的方法得到z2,z3
……
zn/2总数为n/2(取上整)的数据量(维度量),实现将数据维度减少一半,从而实现降维的目的,使用维度对数据总的统计分布特征做为模型训练的标签,也能使产生的输出zn更加贴合输入原维度对数据的统计分布特征,使数据更加具有真实性;
[0014]
(6)判断维度是否降为一:得到降维的数据,之后按照相同的方法,计算函数a(zn)=αn,得到数据统计分布αn,后将α1,α2
……
αn/2两两之间计算函数pearsonr(αx,αy)的值,对结果排序,计算函数b(α0,α1,α2
……
αn)=q1,q2
……
qn/2,qn代表取定的第n个相关性较高的维度对。后依次重复(3)、(4)、(5)、(1)、(2)操作,直到将维度降为一为止,;此时得到的是原超高维度数据的伪标签,此伪标签具有原高维数据每个维度的数据分布信息,适合使用其做为数据训练的伪标签,至此,得到高维无标签数据的伪标签;
[0015]
(7)构造新模型,将全部数据、全维度依据伪标签使模型进行有监督学习:使用步骤(6)得到的伪标签高维无标签的数据,进行新模型的拟合训练即得。
[0016]
本发明与现有技术相比,具有明显的有益效果,从以上技术方案可知,本发明通过使用伪标签技术,利用数据分布特征构造深度学习标签,建立基于伪标签模型的深度学习训练模型。通过分析数据特征,将超高维数据进行分级,利用归并的思路,实现降维操作,使用原始数据的统计分布作为模型训练的标签,能有效解决超高维数据伪标签构建问题。
附图说明
[0017]
图1为本发明的流程图;
[0018]
图2为原19维度数据各个维度统计分布矩阵间相关性热图。
具体实施方式
[0019]
以下结合附图及较佳实施例,对依据本发明提出的一种基于高维数据分布的复合式伪标签拟合方法的具体实施方式、结构、特征及其功效,详细说明如后。
[0020]
参见图1,本发明的一种基于高维数据分布的复合式伪标签拟合方法,包括以下步骤:
[0021]
(1)对各维度进行统计,获得数据分布特征:(以处理高维无标签的农民工数字画像信息为例),首先,将大量非数字信息进行量化,后进行归一化处理,得到数据大小为[54000x19](表示此矩阵中包含54000位农民工共19个维度的信息)。随机对每个维度进行采样,获取一定量数据(数据量为:600),对此600个数据进行统计,首先取得600个数据中的最大值(max)与最小值(min),按最大值与最小值的间隔(max-min)均匀分区,分为90个区间,则每个区间长度为:(max-min)/90,按每个区间起始位置大小,对每个区间进行编号(编号为0,1,2,3
……
89),后统计600个数据落到各个编号区间的数据数量,按照区间的编号,将每个编号区间的数据数量重新组合为长度为90的数组(大小为:[1x90])。此数组称为:数据分布矩阵,表示原数据采样的统计分布,含有原数据的分布特征。此步操作设为函数a(xn),此步骤数学表达为:a(xn)=αn(αn是数据的统计分布特征矩阵,xn表示总数据第n维度的数据);
[0022]
(2)两两对比数据相关性,不重复地选择相关性较高的10组维度对:由步骤(1)得到的第n维度数据的统计分布特征矩阵αn,进行各个维度之间的相关性计算(对维度n1的统计分布特征矩阵αn1(如下公式中用x表示)与维度n2的统计分布特征矩阵αn2(如下公式中用y表示)采用皮尔森相关系数计算算法得数据统计分布特征矩阵相关性,
[0023]
即:pearsonr(x,y)=ρ(x,y)=(cov(x,y))/(σ
x
σy)=(e[(x-μ
x
)(y-μy)])/(σ
x
σy)
[0024]
):依据如上操作,计算出各个维度统计分布特征之间的相关性,后将此相关性数据取绝对值操作(可得到:原始19维度数据各个维度统计分布矩阵间相关性热图如图2所示)。后不重复地选取相关性最高的数据维度对,将取定得维度对存入特定数组。此数据维度两两组合,如出现奇数(出现不能配对现象),则对其进行自身与自身的配对。此操作设为函数b(α0,a1,a2
……
a18),此步骤的数学表达为:b(α0,a1,a2
……
α18)=q1,q2
……
q10;
[0025]
(3)每组维度都使用采样数据训练独立小模型:对于每一对数据维度都构建一个独有的伪标签模型,模型视作函数c(qn),输入两维数据对qn,得到一维数据zn,达到降维目的,此步数学表达为:c(qn)=zn;
[0026]
(4)用输入数据统计分布特征做为训练标签,在分布特征标签下进行模型的深度学习训练:使用步骤(1)中方法处理此独立模型的输出数据,得到输出数据的数据统计分布特征矩阵βn,将原输入两维数据的数据统计分布特征矩阵进行加和,得到具有同时此维度对两维数据统计分布特征的矩阵αn,矩阵βn与矩阵αn使用均方差的方法计算损失,得到损失loss,使用梯度下降的方法,使模型得到训练,使输出数据zn分布特征更加接近于输入维度对qn数据的总体分布特征;
[0027]
(5)实现对数据的降维:按相同的方法得到z2,z3
……
z10总数为10的数据量(维度量)。实现将数据维度减少一半,从而实现降维的目的,使用维度对数据总的统计分布特征做为模型训练的标签,也能使产生的输出zn更加贴合输入原维度对数据的统计分布特征,使数据更加具有真实性;
[0028]
(6)判断维度是否降为一:得到降维的数据,之后按照相同的方法,计算函数a(zn)=αn,得到数据统计分布αn。后将α1,α2
……
α10两两之间计算函数pearsonr(αx,αy)的值,对结果排序,计算函数b(α0,α1,α2
……
α10)=q1,q2
……
q5,qn代表取定的第n个相关性较
高的维度对。后依次重复(3)、(4)、(5)、(1)、(2)操作,直到将维度降为一为止。此时得到的是原超高维度数据的伪标签,此伪标签具有原高维数据每个维度的数据分布信息,适合使用其做为数据训练的伪标签。至此,得到高维无标签数据的伪标签。
[0029]
(7)重新构造模型,将全部数据、全维度依据伪标签使模型进行有监督学习:使用如上得到的伪标签数据,进行新模型的拟合训练,因为使用的是包含误差存在的伪标签做为训练标签,故训练精度不宜过高。
[0030]
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,任何未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1