一种复杂多变量数据的特征选择新方法

文档序号:9688300阅读:1634来源:国知局
一种复杂多变量数据的特征选择新方法
【技术领域】
[0001]本发明涉及一种复杂多变量数据的特征选择新方法,属于化学计量学领域。具体来说是利用基于蒙特卡罗的方法,在数据的特征和样本二个方向进行随机采样构造系列子模型,统计分析模型的分析结果,以可视化的方式呈现出来,并在图形中便捷地进行数据关键特征的选择。
【背景技术】
[0002]特征选择是复杂多变量数据建模的关键步骤,也是有效避免模型过拟合,确保模型泛化能力,基于已知模型,对新的或未知样本进行有效验证或预测的关键所在。以分析仪器数据的处理为例,特征选择已经成为挖掘色谱、质谱和光谱数据信息,构建可靠分类或回归模型的重要步骤,已非常广泛地用于众多领域的工业生产和科学研究中,系统生物学(例如代谢组学)中生物标志物的发现便是其典型的应用示例。
[0003]迄今为止已经发展了众多的特征选择的算法,其中较传统和经典算法包括不加权(Unweighted)或加权(Weighted)的方法、Fisher比法,以及逐步回归分析(StepwiseRegress1n)等,这些方法分别计算每个特征在不同类别样本中不加权或加权标准偏差的均值或特征在类内与类间方差的比值,以及逐步引入或删减进入模型的特征,计算特征的回归系数,评价对模型的影响,以选取合适的引入特征。应用特别广泛,特别是在近红外等光谱数据分析中获得认可的方法包括偏最小二乘无信息变量消除法(UninformativeVariable Eliminat1n by Partial Least Squares)、移动窗口偏最小二乘法(MovingWindow Partial Least Squares)和选择性比法(Selectivity Rat1)等。这些方法依次通过加入噪声以考察对回归系数稳健性的影响来选取合适特征,或以移动窗口的方式构造一系列的子模型,通过评价这些模型的有效性从而引入或剔除被选窗口内的特征,以及考虑每个特征被解释的方差与残差方差比所构造的特征重要性评价指标等来达到选择关键特征目的。
[0004]近年来得到较快发展,引起较大关注的模型集群分析(Model Populat1nAnalysis),已经发展了一系列的有效方法,包括竞争自适应重加权采样法(CompetitiveAdaptive Reweighted Sampling)、随机青蛙法(Random Frog)、以及用于支持向量分类机分析的间隔影响分析(Margin Influence Analysis)等。他们分别通过计算多个重采样子模型的预测误差分布,实现特征集的全面评价,以选取优化的特征组合;统计分析每个特征在N个不同维数模型中选择概率,实现特征选择,以及基于蒙特卡罗的方法构建多个模型,计算相应的支持向量机模型间隔,并统计分析每个特征对模型间隔的影响能力以实现特征选择。在代谢组学的标志物发现方面,投影特征重要性法(Variable Importancein Project1n)和基于正交偏最小二乘的S-Plot法应用最为广泛,主要原因应可归功于SIMCA软件,这个在代谢组学研究领域得到广泛使用的软件,包括也仅包括这二个方法。前者同时考虑回归系数和载荷所构造的特征重要性评价指标,通常以指标值达到I作为引入该特征与否的依据,而后者则同时考虑特征间的协方差和相关性所定义的特征选择指标,因图形近似S形而得名。所有这些方法都包括在了由大连达硕信息技术有限公司所发展的复杂多变量数据分析处理软件系统中。
[0005]然而,由于实际数据的复杂性,上述方法对于数据量大、数据之间共线性强,特别是代谢组学生物标志物发现等方面的应用,还是存在众多的困难和挑战,往往难以发现真正具有生物意义的小分子标志物,急需发展新的适应性强,有效性高,结果准确可靠的复杂多变量数据的特征选择新方法。

【发明内容】

[0006]本发明的目的在于提供一种新的复杂多变量数据的特征选择方法,通过该方法所发现的关键特征,可使模型具有更高的稳健性和泛化能力,减少模型过拟合的风险,特别适合于数据量大(特征数目大)、共线性程度高的数据分析,在代谢组学等领域具有良好的应用前景。
[0007]为了解决复杂多变量数据的特征选择问题,本发明通过对待分析的数据从特征和样本二个方向进行蒙特卡罗划分,即分别从数据矩阵的行和列二个方向随机提取子数据,并分别构建和统计分析模型结果,基于分析众多子模型集群统计评价参数的角度,计算不同数据特征的重要性指标,达到优选关键特征的目的。特别地,本发明通过统计分析可视化图形来达到特征选择的目的,简便直观,意义明确,使用方便,这也是其优于传统上基于模型集群分析思路方法的特点之一。
[0008]上述从待分析数据的二个方向对数据进行划分和模型分析,其作用和意义是不同的。特征方向的数据划分和模型构建在于从原始的较大数据中提取数据,通过构造模型,优选数据特征达到数据部分降维,且保留重要数据特征和信息的目的,可视之为特征的“粗选”,即选择局部的最优特征,为下一步的大规模数据划分、子模型的构建、统计结果分析,以及可视化图形操作做准备。特别是对于样本数有限,且特征数较多的数据,直接的数据建模往往很难得到较好的结果,即出现所谓的“少样本,多变量”问题。特征方向的样本划分可以从根本上避免和改善此类现象,提高建模能力和模型的泛化能力。
[0009]上述从特征方向划分并建模后优选所得到的数据,再从样本方向进行预先设定次数的蒙特卡罗划分,获得模型训练集与预测集,或对于较大的数据集,则进行“留一法”或I折交叉验证”,计算模型结果,而对分类和回归问题,分别统计分析每个子模型的预测错误率或交互验证均方残差,再分析单次样本方向划分所构建的子模型,计算各子模型预测错误率或交互验证均方残差的平均值和方差,在完成预定次数的特征和样本方向的数据划分和模型计算后,绘制均值-方差图,最后统计落入“小均值、小方差”区域内的模型,并更进一步分析构造这些模型的子数据,统计分析包含在上述子数据中特征的出现次数,获得原始数据中所有特征在图形中的出现次数,以此作为特征重要性和被选择与否的依据,出现次数越多的特征,其重要性则越大,越需要被选择;反之亦然。
[0010]本发明与传统的方法相比,优越性明显。首先本发明建立在模型集群分析的策略之上,显著优于传统方法仅仅基于单个模型或其评价参数思路,减少模型的不稳健性,提高模型的泛化能力;其次本发明以可视化图形的方式呈现,可非常直观地获知不同特征在图形中的出现次数和建模效果,一目了然;最后本方法适应范围非常广,特别是对传统方法难于处理的“少样本,多变量”问题,提供了较好的解决方法,可以用于代谢组学等研究中,解决诸如疾病组样本难以大量获取,而候选代谢物特征量巨大,从而导致有效生物标志物很难被发现的问题。
【附图说明】
[0011]图1为本发明所述的特征选择方法的详细流程图;
图2为本发明所述的子模型统计分析结果的均值-方差图。图形被划分为4个不同的区域A、B、C和D,以及该区域内的模型和对应数据特征的基本特性;
图3为一个实施实例数据的均值-方差图结果。图中的每个点代表数据样本方向划分后所得到的系列子模型统计分析结果的均值和方差;图中所标记的二个不同区域分别表示均值和方差方向选择1/3数据点后的被选择模型结果面;
图4为所实施的实例数据计算结果,以及与传统方法的比较。其中图(A)为所实施的实例数据在7个不同的传统特征选择算法,以及偏最小二乘线性判别分析下所得到的预测错误率百分比;图⑶为7个传统特征选择算法分别所优选得到的特征序号;图(C)则为本发明所述方法选择的11个最重要的特征。上述7个传统的特征选择方法分别为遗传算法(ga)、最小二乘无信息变量消除法(uve)、子窗口重排分析(spa)、竞争自适应重加权采样法(cars)、随机青蛙(rf)、特征投影重要性(vip)和选择性比(sr);
图5为所实施的实例数据在改变图2和图3中所示的均值-方差图中的所选目标区域后的结果,图中3组不同的棒状图结果分别表示所选的模型比例为1/4、1/3和1/2时的分析结果。
【具体实施方式】
[0012]实施例:
以一个用于代谢组学研究的肝病数据为例,说明本发明所述的多变量数据关键特征的选择方法。本数据包括62个样本,其中肝病组和正常对照组样本数据各占一半,数据预处理后的代谢特征数为138个,这些特征均由高分辨质谱分析所得的精确质量数和
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1