一种在高维数据中快速识别特征组合的方法及系统的制作方法

文档序号:6534758阅读:218来源:国知局
一种在高维数据中快速识别特征组合的方法及系统的制作方法
【专利摘要】本发明公开了一种在高维数据中快速识别特征组合的方法及系统。该方法及系统一方面最小化由留一法度量的交叉验证分类误差、同时最小化选择特征的个数,最后建模实现高维数据中特征组合的快速识别,为高维数据的统计分析提供了一个快速的解决办法,在数据挖掘、机器学习、人工智能、生物医学等领域有广泛的应用前景。
【专利说明】一种在高维数据中快速识别特征组合的方法及系统
【技术领域】
[0001]本发明属于网络信息【技术领域】,涉及一种在高维数据中快速识别特征组合的方法及系统。
【背景技术】
[0002]大数据时代的到来呼唤数据建模和分析的研究,例如基于大数据的生物标记物的健康诊断是一个重要的研究热点,有着广阔的应用前景。我们注意到,许多学科领域的科学家们开始日益重视并依赖计算机方法及数学建模作为辅助的研究手段。帮助分析海量的科研数据,探究人的形象思维难以企及的高维数据空间中隐藏的规律,并由此催生出一系列新的交叉学科和研究方向,例如:数值计算,数据挖掘,生物信息学,计算金融,计算化学,以及计算统计学理论研究等。这些研究方向所面临的共同挑战就是如何正确分析和解读数据中包含的有用信息,从而为研究者提供传统观测手段所无法得到的判据和模型。其中一个突出的热点就是统计机器学习中的特征选择方法研究(刘峤,秦志光,罗旭成,程红蓉.统计机器学习中的特征选择方法综述,2009中国计算机大会论文集)。
[0003]特征是一个抽象的概念,数学中可以表示为向量中的元素,应用中可以是研究和测量对象的一个属性。例如在生物医学应用中,特征可以是生物标记物。生物标记物是指能将机体的生理和病理状态区分开来的生物分子。例如肿瘤标志物(Tumor Marker)是反映肿瘤存在的化学类物质。它们或不存在于正常成人组织而仅见于胚胎组织,或在肿瘤组织中的含量大大超过在正常组织里的含量,它们的存在或量变可以提示肿瘤的性质,借以了解肿瘤的组织发生、细胞分化、细胞功能,以帮助肿瘤的诊断、分类、预后判断以及治疗指导。
[0004]特征选择方法的研究历史可以追溯到70年代。从1973年Hirotsugu Akaike首次将信息论有关原理与最大似然法相结合,提出Akaike信息准则(AIC, Akaike InformationCriterion),并成功运用于统计模型的选择开始,特征选择研究在统计模式识别,机器学习,数据挖掘等领域取得了长足的进展,其研究成果也已广泛应用于文本分类,基因组分析,图像提取,入侵检测等实际工作中。近年来学术界关于特征选择的研究热点逐渐转向了对“高维特征空间,小样本数据”情况的研究。其深刻原因是由于信息技术的发展对传统的数据分析技术提出了严峻的挑战。例如,在计算系统生物学领域,实验中科学家们能够获得的正反样本总数通常不超过100,而待选择的基因表达变量的数量则通常在6,000到30,000这个数量级,是典型的“大特征,小样本”问题。通过采用适当的特征选择方法对数据进行预处理,则可以实现在可容忍的信息损失前提下,将特征的维数降低到数百乃至数十,这样的结果也更易于分析和解释。
[0005]在特征选择研究领域,通常认为有四种设计模式,分别为Filter,Wrapper,Hybrid和Embeded。其中,Filter和Wrapper的历史比较悠久,也是最易于理解和得到广泛实际应用的两种设计模式,而Hybrid和Embeded方法则是近年来新发展起来的特征选择算法设计模式,目的是克服前述算法中存在的不足,结合二者的长处,可探索新的特征选择算法设计模式。
[0006]特征选择的优势但同时也是难点在于特征的组合效应。例如通过全自动生化分析仪可以测量到大量病人和健康人群的血清中的蛋白或者代谢小分子的浓度数据,一个直接的应用就是构建特征选择模型,来对比健康人群和病人的不同,找到明显差异的蛋白或者代谢小分子,作为生物标记物,并进一步基于他们对新的样本和测量数据进行健康评估或者诊断。一般来说,这对单个分子而言,可以通过比较该分子在健康和病人人群值的差异,计算差异倍数,并作严格的统计分析,可以得到有区分能力的单个标记物。但是单个标记物在预测的稳定性、精度等方面存在不足,急需研究新的方法来使用两个或更多种标记物的测量结果来改进检查中的诊断问题。当然一种十分简单但通常仍然很有效的方法就是直接对有预测能力的单个分子标记物进行叠加,即如果样品对被检标记物的至少一种呈阳性,则认为是阳性结果。但是,对于复杂疾病而言,更为重要的、更为关心的是对标记物之间的非线性组合的发现,及组合中单个标记物的预测能力都很弱,但是组合之后却有很好、很稳定的预测能力。
[0007]特征的组合可以通过数学建模的办法来识别。海量的高维数据分析与建模对数学方法带来了极大的挑战。构建将数据维数降低、利于进一步处理、可视化和理解信息的数学模型,已成为各科学领域面对的一个共同问题。特别在生物医学交叉研究中,高通量测序、芯片等实验手段的快速发展产生了海量的高维数据,对这些数据进行高效的、保留较强生物解释性的降维是计算生物学研究的核心问题。该抽象为一个根据一定的评估准则最优地从初始高维特征集合中选出低维特征集合的过程,作为一个困难问题长期存在(Isabelle Guyon and Andre Elisseeff.2003.An introduction to variable andfeature selection.J.Mach.Learn.Res.3 (March2003), 1157-1182.)。现有方法难以胜任高维稀疏模型建模的要求,一方面是因为这些传统方法中包含对特征集合的组合优化问题,而在超高维空间穷举搜索最有特征组合的问题已经被证明是NP难问题,由于搜索计算的时问开销随特征空问维度呈指数增长,所以在高维特征空间中运用这些传统特征选择方法在计算上是不可行的。
[0008]目前现有技术尚存在以下不足:
[0009](I)在高维特征空(特别是当特征维数远大于样本数的情况下),特征选择在理论和实践都缺乏一个十分好的对最优特征子集的评价标准。
[0010](2)在超高维空间穷举搜索最有特征组合的问题已经被证明是NP难问题,由于搜索计算的时间开销随特征空问维度呈指数爆炸性增长,所以在高维特征空间中运用这些传统特征选择方法在计算上是不可行的。
[0011](3)目前的方法在数据是高维时,倾向于选出过多的特征,不能去除高度相关的、冗余的特征,不能发现特征之间的非线性的组合效应。
[0012](4)除此之外,现有的方法将分类和特征选择割裂进行处理,未能实现同时最优化。

【发明内容】

[0013]针对上述现有技术的不足,本发明提供了一种在高维数据中快速识别特征组合的方法及系统。该方法及系统一方面最小化由留一法度量的交叉验证分类误差、同时最小化选择特征的个数,最后建模实现高维数据中特征组合的快速识别,为高维数据的统计分析提供了一个快速的解决办法,在数据挖掘、机器学习、人工智能、生物医学等领域有广泛的应用前景。
[0014]为了实现上述目的,本发明采用以下技术方案:
[0015]一种在高维数据中快速识别特征组合的方法,包括以下步骤:
[0016]1)获取样本数据;
[0017]2)根据获取的样本数据,构建特征组合识别的最优化模型,所述模型的优化目标为分类精度最大,同时选择到特征的个数最少;
[0018]3)逐个分析单个特征的预测能力,并根据单个特征的预测能力对所有特征进行排序;
[0019]4)将具有预测能力的特征输入到特征组合识别的最优化模型,识别出最优的特征组合。
[0020]进一步地,步骤I)中,所述预处理包括过滤无预测能力的特征、去噪声、剔除异常数据、正规化、中心化等。
[0021]进一步地,步骤2)中,通过最近中心分类方法对样本数据进行分类并采用留一法交叉验证分类精度;通过奥卡姆剃刀准则最小化选择到特征的个数。
[0022]进一步地,步骤2)中还包括对特征组合识别的最优化模型进行标定,即利用一些未用到训练中的数据的预测效能,来确定模型的最优参数和预测阈值,这是建模的一部分。
[0023]进一步地,步骤2)中,所述特征组合识别的最优化模型为混合整数规划模型,具体为:
[0024]
【权利要求】
1.一种在高维数据中快速识别特征组合的方法,包括以下步骤: O获取样本数据; 2)根据获取的样本数据,构建特征组合识别的最优化模型,所述模型的优化目标为分类精度最大,同时选择到特征的个数最少; 3)逐个分析单个特征的预测能力,并根据单个特征的预测能力对所有特征进行排序; 4)将具有预测能力的特征输入到特征组合识别的最优化模型,识别出最优的特征组合。
2.如权利要求1所述 的在高维数据中快速识别特征组合的方法,其特征在于,对步骤O中的样本进行预处理,所述预处理包括过滤无预测能力的特征、去噪声、剔除异常数据、正规化、中心化。
3.如权利要求1所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤2)中,构建特征组合识别的最优化模型的步骤包括:通过最近中心分类方法对样本数据进行分类并采用留一法交叉验证分类精度;通过奥卡姆剃刀准则最小化选择到特征的个数。
4.如权利要求1所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤2)中还包括对特征组合识别的最优化模型进行标定,确定模型参数和预测阈值。
5.如权利要求1所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤2)中,所述特征组合识别的最优化模型为混合整数规划模型,具体为:
6.如权利要求1所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤3)中,逐个分析单个特征的预测能力包括:分别计算单个特征预测能力的ROC曲线下面积,根据这些计算结果绘制单个特征的火山图,并对单个特征的预测能力计算得到一个量化的数值。
7.如权利要求6所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤3)中,根据所述的量化的数值对所有特征进行排序,还包括对排序靠后的没有预测能力的单个特征进行删除。
8.如权利要求1所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤4)中,固定特征个数为k来求解模型,可以得到特征数为k的最优的特征组合,将k从I逐渐增长,同时记录分类精度的变化,当分类精度得到最大的时候,得到模型输出的最优的特征组合。
9.如权利要求8所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤4)具体包括以下步骤: a)当样本数据特征维度〈100时,当k=l时求解模型,得到的最优解与单个特征的预测能力进行对比;进一步当k=2,3时求解模型,得到的最优解与基于支持向量机等其他分类器的穷举法得到的结果进行比较;更进一步当k>4时,求解模型,对于每个k得到的特征组合,利用支持向量机等其他分类器进行精度评估;当样本数据特征维度>100时,直接求解松弛的线性规划模型得到最优特征组合; b)比较当k变化时预测精度的变化趋势,识别最优的特征组合。
10.一种在高维数据中快速识别特征组合的系统,包括: 数据预处理模块,用于对样本数据进行预处理,所述预处理包括过滤无预测能力的特征、去噪声、剔除异常数据、正规化、中心化; 模型构建模块,用于构建特征组合识别的最优化模型; 模型标定模块,用于对特征组合识别`的最优化模型进行标定,确定模型参数和预测阈值; 识别模块,用于将具有预测能力的特征输入特征组合识别的最优化模型,得到具有最少特征数目的最优特征组合,在最大的分类精度下实现样本数据的最优划分。
【文档编号】G06F19/00GK103761426SQ201410001461
【公开日】2014年4月30日 申请日期:2014年1月2日 优先权日:2014年1月2日
【发明者】王勇 申请人:中国科学院数学与系统科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1