一种虚拟样本生成方法

文档序号:9327493阅读:1508来源:国知局
一种虚拟样本生成方法
【技术领域】
[0001] 本发明涉及机器学习技术领域,具体涉及一种虚拟样本生成方法。
【背景技术】
[0002] 基于大数据的机器学习技术已经广泛和成功地应用于很多不同的行业。对于许多 稀有疾病的医疗记录和柔性制造系统的早期阶段,只有少量的训练样本能够用于构造预测 模型。对于复杂的流程工业过程,为实现其优化控制和运行优化,必需对关键机械设备的难 以检测过程参数进行测量或预测,如磨矿过程磨机内部负荷参数难以直接检测和采用机理 模型直接计算得到,主要采用基于磨机筒体的振动和振声信号高维频谱数据的软测量方法 进行。但有效的建模数据只能在两个阶段获得:(1)专门为软测量模型构建进行的实验设 计阶段;(2)磨机的停止运行和重新开始运行阶段。在实际工业过程中,以牺牲经济利益为 代价或经过很长的等待时间后,也许可以获得足够数量的可用的训练样本。在稀有疾病的 医疗记录和柔性制造系统的早期阶段同样存在类似的难以获得足够建模样本的问题。因 此,现实情况是我们必须进行面向高维小样本数据的建模研究。
[0003] 研究表明,足够的样本数量对于构建有效的学习模型非常重要。目前已有的大量 的研究多面向分类问题,如文献[1]研究了分类误差、学习样本数量、样本输入维数和分类 算法复杂性间的相互关系。为了确定获得必要的预测性能而需要的最小样本的数量,研究 人员提出了概率近似正确、训练样本与输入特征比率等指标[2, 3]。目前,关于小样本数据 的定义也是非常相对和主观的。
[0004] 现有技术提出了一种新的巨型趋势分散(MTD)技术用于解决早期柔性制造系统 的计划调度问题,主要采用虚拟样本生成(Virtual Sample Generation,VSG)技术提高误 差逆传播神经网络(BPNN)模型的分类精度。目前,已有多种类型的VSG方法,如利用领域 专家知识、将噪声加入输入数据、利用原始样本的分布函数等。这些研究多面向基于高维小 样本数据的分类问题。
[0005] 对于用于回归问题的虚拟样本生成,文献[4]提出基于多层感知器网络的VSG方 法用于提高学习模型的泛化性能,其中:虚拟样本的输入通过选择真实样本输入的附近点 产生,虚拟样本的输出通过平衡不同多层感知器网络输出数据获得。文献[5]提出用分散 神经网络(DNN)产生虚拟样本和建模小数据集,仿真结果表明DNN比BPNN具有更强的预测 性能。这些方法通常都是单独处理训练样本的输入特征。最近,文献[6]提出的基于遗传 算法(GA)的VSG方法可以描述不同输入特征间的积分效应。
[0006] 上述方法采用传统的单模型产生虚拟样本。对于具有复杂分布的建模数据或高维 小样本训练数据,传统的单模型建模方法难以进行有效的模式识别或回归建模。
[0007] 【I 】S. J. Raudys,A. K. Jain, "Small Sample Size Effects in Statistical Pattern Recognition: Recommendations for Practitioners,',IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 13, no. 3, pp. 252-265, 1991.
[0008] 【2 】J. Shawe-Tay lor, M. Anthony, and N. L. Bi ggs, " Bounding Samp I e Size with the Vapnik-Chervonenkis Dimension, ^ Discrete Applied Math.,vol. 42, pp. 65-73, 1993.
[0009] 【3】 Y.Muto and Y. Hamamotoj "Improvement of the Parzen Classifier in Small Training Sample Size Situations," Intelligent Data Analysis, vol. 5, no. 6, pp. 477-490, 2001.
[0010] 【4】 S. Z. Choj M. Jang, S. J. Chang. Virtual sample generation using a population of networks, neural processing letters,vol.5,pp.83-89,1997.
[0011] 【5】 C. F. Huang and C. MoragajiiA Diffusion-Neural-Network for Learning from Small Samples," Int' I J. Approximate Reasoning, vol. 35, pp. 137-161, 2004.
[0012] 【6】D. C. Li, I. H. Wen, "A genetic algorithm-based virtual sample generation technique to improve small data set learning, ^NeurocomputingjVol. 143, pp. 222-230, 2014.

【发明内容】

[0013] 有鉴于此,本发明提供一种虚拟样本生成方法,以解决高维小样本的样本数量不 足的问题。
[0014] 本发明实施例提供一种虚拟样本生成方法,用于基于多个真实样本生成虚拟样 本,所述方法包括:
[0015] S100、提取所述真实样本的输入向量的潜在特征,并获取潜在特征提取模型;
[0016] S200、根据所述潜在特征和对应的输出向量训练获取预测性能满足预定条件的预 测模型,所述预测模型用于根据输入向量的潜在特征计算对应的输出向量;
[0017] S300、在所有可插值的真实样本对之间进行插值生成虚拟样本的备选输入向量, 所述可插值的真实样本对为对应的输入向量或输入向量的相关向量中预定数量的元素相 同的两个真实样本;
[0018] S400、根据所述潜在特征提取模型提取所述备选输入向量的潜在特征;
[0019] S500、根据所述预测模型和所述备选输入向量的潜在特征计算对应的备选输出向 量,并保留符合虚拟样本筛选条件的备选输出向量和对应的备选输入向量以获取所述多 个真实样本对应的虚拟样本集合。
[0020] 进一步地,所述步骤SlOO包括:
[0021] 以最大化输入向量和输出向量之间的协方差为目标,基于偏最小二乘算法提取所 述真实样本的输入向量的潜在特征。
[0022] 进一步地,所述步骤S200包括:
[0023] S210、将所述真实样本的输入向量的潜在特征及对应的输出向量作为训练数据 集;
[0024] S220、通过Bootstrap算法从所述训练数据集产生多个训练子样本;
[0025] S230、基于BPNN根据所述多个训练子样本构建多个候选子模型;
[0026] S240、根据训练数据集选取对应的模型选择权重参数大于模型选择阈值的所有候 选子模型构成集成模型,其中,模型选择权重参数通过对随机生成的初始权重参数以最小 化预测误差为目标经过遗传算法优化获得;
[0027] S250、基于训练数据集计算集成模型中所有子模型输出向量之和作为集成模型的 预测输出向量,并基于所述集成模型的预测输出向量和所述训练样本的输出向量计算集成 模型的预测性能;
[0028] S260、在集成模型的预测性能满足预定条件时,将所述集成模型作为所述预测模 型。
[0029] 进一步地,所述步骤S300包括基于下式生成虚拟样本的备选输入向量:
[0031] 其中,为第Γ个插值生成的备选输入向量,^为第一可插值的真实样本的输 入向量,·为第二可插值的真实样本的输入向量,Nvsti为预定的插值分段的数量。
[0032
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1