一种针对深度神经网络模型训练的数据集约简方法及系统

文档序号：26052211发布日期：2021-07-27 15:28阅读：来源：国知局

技术特征：

1.一种针对深度神经网络模型训练的数据集约简方法，其特征在于，步骤包括：

1)将初始训练数据集合d中的训练样本映射到一图中，每一个数据样本作为图中的一个顶点，计算两个数据样本之间的信息冗余度并作为对应两顶点之间的边权值，初始化最小信息冗余度为r，设置最小信息冗余度总和对应的精简数据集s为空集；

2)枚举d中的每个顶点，作为初始顶点t，设置临时精简集p并初始化；

3)计算非精简集d\p中的所有顶点对应的数据样本与p中顶点对应的数据样本之间的最小信息冗余度，将具有该最小信息冗余度的顶点加入到p中；重复该步骤直到p具有k个元素个数，k为要筛选出的高质量数据个数；

4)计算p中两两顶点之间边权值的总和l；

5)对p中的元素进行如下调整：若d\p中存在顶点u，p内存在顶点v，满足u到集合p\{v}的边权值之和小于v到p\{v}的边权值之和，则将v从p中移出，将u加入到p中，更新p和l；重复该步骤直到不存在可被调整的u和v，得到p中的最小边权值总和lmin；

6)将lmin与r进行对比，若lmin<r，则令p更新s，令lmin更新r，否则不更新s和r；

7)重复步骤3)至7)，直到d中每个顶点都作过一次初始顶点，得到最终的精简数据集sfinal，将sfinal中的数据作为深度神经网络模型训练用的数据。

2.如权利要求1所述的方法，其特征在于，先计算两个数据样本之间的互信息值，再根据该互信息值计算两个数据样本之间的信息冗余度。

3.如权利要求2所述的方法，其特征在于，根据以下式子计算两个数据样本之间的互信息值：

其中，m(u，v)表示两个数据样本之间的互信息值；u和v是两个数据样本的向量表示，由若干个向量元素组成；r为向量表示中的向量元素的最大值；pu(i)为边际概率值，表示值为i的向量元素在u中的占比；pv(j)为边际概率值，表示值为j的向量元素在v中的占比；puv(i，j)表示u和v的联合概率分布，是指在u中值为i的向量元素和在v中值为j的向量元素所占两个数据样本所有元素的比例值；当puv(i，j)＝0时，

4.如权利要求2或3所述的方法，其特征在于，根据式子r(u，v)＝m(u，v)^α计算两个数据样本之间的信息冗余度，其中，r(u，v)表示两个数据样本之间的信息冗余度，m(u，v)表示两个数据样本之间的互信息值，u和v是两个数据样本的向量表示，α为调节参数。

5.如权利要求3或4所述的方法，其特征在于，根据以下式子计算p中两两顶点之间边权值的总和l：

其中，r(u，v)表示两个数据样本之间的信息冗余度，u和v是两个数据样本的向量表示。

6.一种针对深度神经网络模型训练的数据集约简系统，其特征在于，包括存储器和处理器，在该存储器上存储有计算机程序，该处理器执行该程序时实现权利要求1-5任一项所述方法的步骤。

7.一种计算机可读存储介质，其特征在于，存储有计算机程序，该程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。

技术总结
本发明提出一种针对深度神经网络模型训练的数据集约简方法及系统，涉及深度神经网络模型领域，通过计算训练数据的数据样本的互信息指，获得两两数据样本之间的信息冗余度，将数据样本及信息冗余度作为图的顶点和边权值，基于初始点的贪心扩充，以及对约简数据集进行单步替换，大幅缩减训练数据量，降低了训练依赖的时间和算力，并获得与原模型性能接近的替代模型。

技术研发人员：孟国柱;何英哲;陈恺
受保护的技术使用者：中国科学院信息工程研究所
技术研发日：2021.04.13
技术公布日：2021.07.27

完整全部详细技术资料下载

当前第2页1 2