一种虚拟样本生成方法

文档序号：9327493阅读：1508来源：国知局

一种虚拟样本生成方法
【技术领域】
[0001] 本发明涉及机器学习技术领域，具体涉及一种虚拟样本生成方法。
【背景技术】
[0002] 基于大数据的机器学习技术已经广泛和成功地应用于很多不同的行业。对于许多稀有疾病的医疗记录和柔性制造系统的早期阶段，只有少量的训练样本能够用于构造预测模型。对于复杂的流程工业过程，为实现其优化控制和运行优化，必需对关键机械设备的难以检测过程参数进行测量或预测，如磨矿过程磨机内部负荷参数难以直接检测和采用机理模型直接计算得到，主要采用基于磨机筒体的振动和振声信号高维频谱数据的软测量方法进行。但有效的建模数据只能在两个阶段获得：（1)专门为软测量模型构建进行的实验设计阶段；（2)磨机的停止运行和重新开始运行阶段。在实际工业过程中，以牺牲经济利益为代价或经过很长的等待时间后，也许可以获得足够数量的可用的训练样本。在稀有疾病的医疗记录和柔性制造系统的早期阶段同样存在类似的难以获得足够建模样本的问题。因此，现实情况是我们必须进行面向高维小样本数据的建模研究。
[0003] 研究表明，足够的样本数量对于构建有效的学习模型非常重要。目前已有的大量的研究多面向分类问题，如文献[1]研究了分类误差、学习样本数量、样本输入维数和分类算法复杂性间的相互关系。为了确定获得必要的预测性能而需要的最小样本的数量，研究人员提出了概率近似正确、训练样本与输入特征比率等指标[2, 3]。目前，关于小样本数据的定义也是非常相对和主观的。
[0004] 现有技术提出了一种新的巨型趋势分散（MTD)技术用于解决早期柔性制造系统的计划调度问题，主要采用虚拟样本生成（Virtual Sample Generation，VSG)技术提高误差逆传播神经网络（BPNN)模型的分类精度。目前，已有多种类型的VSG方法，如利用领域专家知识、将噪声加入输入数据、利用原始样本的分布函数等。这些研究多面向基于高维小样本数据的分类问题。
[0005] 对于用于回归问题的虚拟样本生成，文献[4]提出基于多层感知器网络的VSG方法用于提高学习模型的泛化性能，其中：虚拟样本的输入通过选择真实样本输入的附近点产生，虚拟样本的输出通过平衡不同多层感知器网络输出数据获得。文献[5]提出用分散神经网络（DNN)产生虚拟样本和建模小数据集，仿真结果表明DNN比BPNN具有更强的预测性能。这些方法通常都是单独处理训练样本的输入特征。最近，文献[6]提出的基于遗传算法（GA)的VSG方法可以描述不同输入特征间的积分效应。
[0006] 上述方法采用传统的单模型产生虚拟样本。对于具有复杂分布的建模数据或高维小样本训练数据，传统的单模型建模方法难以进行有效的模式识别或回归建模。
[0007] 【I 】S. J. Raudys，A. K. Jain, "Small Sample Size Effects in Statistical Pattern Recognition: Recommendations for Practitioners,'，IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 13, no. 3, pp. 252-265, 1991.
[0008] 【2 】J. Shawe-Tay lor, M. Anthony, and N. L. Bi ggs, " Bounding Samp I e Size with the Vapnik-Chervonenkis Dimension, ^ Discrete Applied Math.，vol. 42, pp. 65-73, 1993.
[0009] 【3】 Y.Muto and Y. Hamamotoj "Improvement of the Parzen Classifier in Small Training Sample Size Situations，" Intelligent Data Analysis, vol. 5, no. 6, pp. 477-490, 2001.
[0010] 【4】 S. Z. Choj M. Jang, S. J. Chang. Virtual sample generation using a population of networks, neural processing letters,vol.5,pp.83-89,1997.
[0011] 【5】 C. F. Huang and C. MoragajiiA Diffusion-Neural-Network for Learning from Small Samples，" Int' I J. Approximate Reasoning, vol. 35, pp. 137-161, 2004.
[0012] 【6】D. C. Li, I. H. Wen, "A genetic algorithm-based virtual sample generation technique to improve small data set learning, ^NeurocomputingjVol. 143, pp. 222-230, 2014.

【发明内容】

[0013] 有鉴于此，本发明提供一种虚拟样本生成方法，以解决高维小样本的样本数量不足的问题。
[0014] 本发明实施例提供一种虚拟样本生成方法，用于基于多个真实样本生成虚拟样本，所述方法包括：
[0015] S100、提取所述真实样本的输入向量的潜在特征，并获取潜在特征提取模型；
[0016] S200、根据所述潜在特征和对应的输出向量训练获取预测性能满足预定条件的预测模型，所述预测模型用于根据输入向量的潜在特征计算对应的输出向量；
[0017] S300、在所有可插值的真实样本对之间进行插值生成虚拟样本的备选输入向量，所述可插值的真实样本对为对应的输入向量或输入向量的相关向量中预定数量的元素相同的两个真实样本；
[0018] S400、根据所述潜在特征提取模型提取所述备选输入向量的潜在特征；
[0019] S500、根据所述预测模型和所述备选输入向量的潜在特征计算对应的备选输出向量，并保留符合虚拟样本筛选条件的备选输出向量和对应的备选输入向量以获取所述多个真实样本对应的虚拟样本集合。
[0020] 进一步地，所述步骤SlOO包括：
[0021] 以最大化输入向量和输出向量之间的协方差为目标，基于偏最小二乘算法提取所述真实样本的输入向量的潜在特征。
[0022] 进一步地，所述步骤S200包括：
[0023] S210、将所述真实样本的输入向量的潜在特征及对应的输出向量作为训练数据集；
[0024] S220、通过Bootstrap算法从所述训练数据集产生多个训练子样本；
[0025] S230、基于BPNN根据所述多个训练子样本构建多个候选子模型；
[0026] S240、根据训练数据集选取对应的模型选择权重参数大于模型选择阈值的所有候选子模型构成集成模型，其中，模型选择权重参数通过对随机生成的初始权重参数以最小化预测误差为目标经过遗传算法优化获得；
[0027] S250、基于训练数据集计算集成模型中所有子模型输出向量之和作为集成模型的预测输出向量，并基于所述集成模型的预测输出向量和所述训练样本的输出向量计算集成模型的预测性能；
[0028] S260、在集成模型的预测性能满足预定条件时，将所述集成模型作为所述预测模型。
[0029] 进一步地，所述步骤S300包括基于下式生成虚拟样本的备选输入向量：
[0031] 其中，为第Γ个插值生成的备选输入向量，^为第一可插值的真实样本的输入向量，·为第二可插值的真实样本的输入向量，Nvsti为预定的插值分段的数量。
[0032

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汤健;孙春来;毛克峰;贾美英;李东;李立国;胡亚男;
技术所有人：中国人民解放军61599部队计算所;
我是此专利的发明人

上一篇：一种基于相似性搜索的组合模型预测水位的方法
上一篇：垃圾袋发放数量监测方法、终端及系统及垃圾袋的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。