一种基于复杂度的高效样本筛选方法

文档序号：31228094发布日期：2022-08-23 20:19阅读：58来源：国知局

1.本发明涉及数据集上的深度神经网络训练领域，具体是指一种基于复杂度的高效样本筛选方法。

背景技术：

2.随着深度神经网络架构的复苏和gpu计算能力的提升，深度神经网络在许多计算机视觉任务中均表现出惊人的性能。然而，在大规模数据集上训练深度神经网络效率低下。总结原因有：首先，神经网络的规模越来越深，网络整体有数百万以上的参数，模型规模的爆炸性增长使得神经网络的训练变得困难；其次，深度神经网络的训练需要大量有标签数据样本来更新模型权重。因此，在大规模数据集上训练深度神经网络效率低下，训练过程需要花费更高的算力。

技术实现要素：

3.本发明要解决的技术问题是大规模数据集上的深度神经网络训练需要消耗更高的算力和能耗，且训练效率低下。
4.为解决上述技术问题，本发明提供的技术方案为：一种基于复杂度的高效样本筛选方法，通过类间采样和类内采样两大阶段对原始数据集进行样本筛选，从而达到构建轻量级数据集进行模型训练的目标。其中：
5.类间采样，通过逆向多样自步学习进行类间采样，具体为逆向多样自步学习算法：
6.输入：目标数据集d
7.输出：模型参数w，
[0008][0009]
类内采样，基于密度的采样策略来执行类内采样，具体为基于复杂度的高效类内采样算法：
[0010]
输入：目标数据集采样比率ζ；
[0011]
输出：合成数据集合ψ；
[0012]
1)ψ
←
{}；
[0013]
2)for i＝1 to||c||do；
[0014]
3)选择属于ci的所有样本，表示为
[0015]
4)
[0016]
5)for j＝1 to cn um do；
[0017]
6)如果||csamples(j)||》阈值，则：
[0018]
7)ψ
←
ψ∪metropolis-hastings(ccenters(j)，csamples(j)，ζ)；
[0019]
8)else；
[0020]
9)ψ
←
ψ∪csamples(j)；
[0021]
10)end if；
[0022]
11)end for；
[0023]
12)end for；
[0024]
13)returnψ。
[0025]
本发明与现有技术相比的优点在于：本发明提出基于复杂度的高效样本筛选方法，从大规模数据集中选出代表性样本用于模型的高效训练，证明了样本复杂性和模型训练策略对于深度神经网络的高效训练具有十分重要的影响，从样本复杂性和模型训练策略出发，解决了模型训练低效问题。基于复杂度的高效样本筛选方法旨在从大规模数据集中选出代表性样本，从而减少模型训练所用的样本数量，达到轻量化训练的目标。
[0026]
类间采样中，逆向多样自步学习数据集d＝{(xi，ci)}中的所有样本都可以通过逆向自步预训练出来的模型给定的损失值lossi量化，表示为其中yi∈c是标签信息，lossi是样本xi的训练损失。
[0027]
类内采样中，根据样本的密度分布迭代地选择每个类内的样本。采样率ζ是指从每一类中选择样本的比例，对于每次迭代，进行基于密度的聚类，将样本集中的区域连接成簇，并排除不属于簇的噪声样本。考虑到聚类的损失分布可能有显著差异，因此，本发明用均值漂移算法自动找到聚类数cnum和聚类中心ccenters，使用数量阈值来设置采样策略；当集群j中的样本数量||csample(j)||大于阈值时，表明该集群密集、样本数量较多；同时，为了减少用于模型训练的样本，使用基于密度的蒙特卡洛采样算法从集群中选择具有代表性的样本；对于样本较少的簇，将该簇中的所有样本直接加入ψ。
[0028]
进一步的，蒙特卡洛采样算法具体为：
[0029]
输入：中心、样本、采样比率ζ；
[0030]
输出：选定样本集合r；
[0031]
1)r
←
{}；
[0032]
2)samplen umber
←
||samples||
×
ζ；
[0033]
3)设μ和δ为聚类损失的平均值和方差；
[0034]
4)初始化x
(0)
～n(μ，δ2)；
[0035]
5)while||r||《samplenumber do；
[0036]
6)提出下一个候选值x
cand
～q(x(i)|x
i-1
)；
[0037]
7)计算接受概率：
[0038]
8)u～uniform(u；0，1)；
[0039]
9)如果u《α，则：
[0040]
10)接受建议值x(i)←
x
cand
；
[0041]
11)r
←
r∪{x(i)}；
[0042]
12)end if；
[0043]
13)end while；
[0044]
14)return r。
具体实施方式
[0045]
本发明在具体实施时，提出一种基于复杂度的高效样本筛选方法，通过类间采样和类内采样两大阶段对原始数据集进行样本筛选，从而达到构建轻量级数据集进行模型训练的目标。其中：
[0046]
类间采样，通过逆向多样自步学习进行类间采样，具体为逆向多样自步学习算法：
[0047]
输入：目标数据集d
[0048]
输出：模型参数w，
[0049][0050]
类内采样，基于密度的采样策略来执行类内采样，具体为基于复杂度的高效类内采样算法：
[0051]
输入：目标数据集采样比率ζ；
[0052]
输出：合成数据集合ψ；
[0053]
1)ψ
←
{}；
[0054]
2)for i＝1to||c||do；
[0055]
3)选择属于ci的所有样本，表示为
[0056]
4)
[0057]
5)for j＝1to cn um do；
[0058]
6)如果||csamples(j)||》阈值，则：
[0059]
7)ψ
←
ψ∪metropolis-hastings(ccenters(j)，csamples(j)，ζ)；
[0060]
8)else；
[0061]
9)ψ
←
ψ∪csamples(j)；
[0062]
10)end if；
[0063]
11)end for；
[0064]
12)end for；
[0065]
13)returnψ。
[0066]
基于复杂度的高效样本筛选方法是一个包括类间采样和类内采样的两阶段框架。首先，类间采样借助逆向自步学习方法加大对各类中困难样本的学习，实现对困难样本的学习权重进行自适应调整。然后，类内采样通过基于数据样本困难度的聚类采样算法，保留各类中的困难样本，并对简单样本进行下采样。最终，得出一个轻量级数据集。
[0067]
类间采样中，逆向多样自步学习数据集d＝{(xi，ci)}中的所有样本都可以通过逆向自步预训练出来的模型给定的损失值lossi量化，表示为其中yi∈c是标签信息，lossi是样本xi的训练损失。
[0068]
类内采样中，根据样本的密度分布迭代地选择每个类内的样本。采样率ζ是指从每一类中选择样本的比例，对于每次迭代，进行基于密度的聚类，将样本集中的区域连接成簇，并排除不属于簇的噪声样本。考虑到聚类的损失分布可能有显著差异，用均值漂移算法自动找到聚类数cnum和聚类中心ccenters，使用数量阈值来设置采样策略；当集群j中的样本数量||csample(j)||大于阈值时，表明该集群密集、样本数量较多；同时，为了减少用于模型训练的样本，使用基于密度的蒙特卡洛采样算法从集群中选择具有代表性的样本；对于样本较少的簇，将该簇中的所有样本直接加入ψ。
[0069]
输入：中心、样本、采样比率ζ；
[0070]
输出：选定样本集合r；
[0071]
1)r
←
{}；
[0072]
2)samplen umber
←
||samples||
×
ζ；
[0073]
3)设μ和δ为聚类损失的平均值和方差；
[0074]
4)初始化x
(0)
～n(μ，δ2)；
[0075]
5)while||r||《samplenumber do；
[0076]
6)提出下一个候选值x
cand
～q(x(i)|x
i-1
)；
[0077]
7)计算接受概率：
[0078]
8)u～uniform(u；0，1)；
[0079]
9)如果u《α，则：
[0080]
10)接受建议值x(i)←
x
cand
；
[0081]
11)r
←
r∪{x(i)}；
[0082]
12)end if；
[0083]
13)end while；
[0084]
14)return r。
[0085]
蒙特卡洛采样的伪代码如算法4所示。算法4的输入参数包括聚类中心center、给定聚类样本samples的损失分布以及控制从每个聚类中选择多少个样本的采样比率ζ。在算法4中，我们的目标是将每个集群中选择出来的样本合成一个选定的样本数据集r。首先，我们通过samplenumber＝|(|samples|)|
×
ζ来决定应该从一个簇中选择多少样本。为了完成采样，我们用聚类中心而不是随机先验分布来初始化x
(0)
以克服陷入局部最优。在算法4的主循环中，首先从先验分布q(x(i)|x
i-1
)生成候选一个候选解x
cand
，x
cand
对先验状态x
(i-1)
的接受概率表示为α(x
cand
|x
(i-1)
)，然后，基于先验分布和联合概率密度w(*)计算。最后，将接受概率α与区间[0,1]上的一个连续均匀分布u进行比较。如果u《α，则候选解被接受并作为选定样本添加到r中。不断重复此过程，直到r的大小达到采样阈值samplenumber时算法停止。
[0086]
以上显示和描述了本发明的基本原理和主要特征以及本发明的优点，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁韵基王秋实胡航语赵志英刘磊
技术所有人：西北工业大学
我是此专利的发明人

上一篇：一种高速分散机的过载防护装置的制作方法
上一篇：一种线夹铣加工夹紧装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。