基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用的制作方法

文档序号:6506634阅读:312来源:国知局
基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用的制作方法
【专利摘要】本发明公开一种基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用,该高维度数据功能选择算法包括三个阶段:第一阶段,基于交互作用的变量筛选法,先识别能够和其它因子交互作用从而形成功能模块的有影响力因子;第二阶段,由逆向剔除法产生功能模块,利用第一阶段产生的有影响力因子,选出能与之形成高度有影响力的功能模块,功能模块内的各因子互相作用,从而产生对因变量的强相关性;第三阶段,整合分类器,一个功能模块形成一个分类器,将多个分类器整合形成对因变量的分类规则。本方法在在医疗健康中能够为基因诊断与治疗提供量化结果,预测的准确率大大提高。
【专利说明】基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用
【技术领域】
[0001]本发明涉及预测、分类、聚簇领域技术,尤其是指一种基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用。
【背景技术】
[0002]高维度数据主要是指:数据中记录的个体数要远远小于每个个体的属性的类型。例如在基因预测与诊断中,数据包括了正常人和病人,人的总数就是数据的个体数,但是每个个体他的基因有上百万个。由于成本因素,不可能存在一个有上百万个人的基因信息,怎样在很小的个体数的前提下,从上百万的基因中找到若干真正能够预测疾病的基因,这已经不是常规统计算法能够解决的问题。不仅预测如此具备挑战性,如何将病人按照基因的类型分类以便能够更好的针对性治疗,也是当今国际上学术与商业中最具挑战的技术前沿。
[0003]现有的一类重要且被广泛采用算法是变量筛选法(LASS0法),该变量筛选法是先假设数据是依据一个统计模型产生。这模型所牵涉到的协变量对应变量的效应可由协变量在模型中的相关系数估计而得。变量筛选可以选择那些相关系数大的抛弃系数小的来进
行,例如,假设数据是由如下的线性模型产生7 = 4石+H.+巧七+h为了增加最小平
方估计的预测准确度与可理解性,LASSO法在最小平方法中加上了一阶范数惩罚项使得最小平法估计系数更接近O甚至变成O由此进行变量筛选。
[0004]这类变量筛选法在变量数目不很大时的效果很好,但是如果变量数?’很大,或者变量之间有交互作用必需要考虑由原始变量乘积所产生的额外变量,这使得总共的变量数是总共样本大小;j的指数函数,P =在这种情况下估计统计模型的系数是非常困难的,因为噪音可能比信息量还大。
[0005]注意到LASSO法的缺陷,有专家学者提出了 SIS筛选法。SIS筛选法是采用应变量与协变量相关系数一次只考虑一个变量,经过SIS筛选的变量数减少许多,然后再使用LASSO法进行二度筛选,如此SIS能够改进LASSO法的效用。但是,其具有缺点:变量交互作用通常与模块效应同时出现,所以有些变量的效用必须与其它变量同时考虑才能侦测得到。

【发明内容】

[0006]有鉴于此,本发明针对现有技术存在之缺失,其主要目的是提供一种基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用,具有预测准确、误差小、应用领域广的优点。
[0007]为实现上述目的,本发明采用如下之技术方案:
一种基于逆向剔除法的高维度数据功能选择算法,包括三个阶段:第一阶段,基于交互作用的变量筛选法,先识别能够和其它因子交互作用从而形成功能模块的有影响力因子;
第二阶段,由逆向剔除法产生功能模块,利用第一阶段产生的有影响力因子,选出能与之形成高度有影响力的功能模块,功能模块内的各因子互相作用,从而产生对因变量的强相关性;
第三阶段,整合分类器,一个功能模块形成一个分类器,将多个分类器整合形成对因变量的分类规则。
[0008]作为一种优选方案,第一阶段中,在数据筛选时,先决定影响力分数的临界值,在决定影响力分数的临界值后,再确定保留频率的阈值。
[0009]作为一种优选方案,确定影响力分数的临界值的方式是先决定了要考虑的变量或因子的交互作用,获得了对任何因子组合的统计量的分数,然后决定一个影响力分数的临界值,分数比临界值高的变量组合会被保留下来继续分析,并摈弃分数比临界值低的组合。
[0010]作为一种优选方案,确定保留频率的阈值时,高频率变量具有极大潜质形成具有影响力的变量组合,用保留频率来进行变量组合中的变量挑选。
[0011]作为一种优选方案,第二阶段中,使用逆向剔除法前需先决定两个参数,一个是计算逆向剔除法的起始大小,另一个是计算逆向剔除法所需重复的次数。
[0012]作为一种优选方案,所述起始大小由以下的条件来界定:至少有一个分割部分包含两个以上的数据点,使用泊松逼近法算出满足的条件为:
【权利要求】
1.一种基于逆向剔除法的高维度数据功能选择算法,其特征在于:包括三个阶段: 第一阶段,基于交互作用的变量筛选法,先识别能够和其它因子交互作用从而形成功能模块的有影响力因子; 第二阶段,由逆向剔除法产生功能模块,利用第一阶段产生的有影响力因子,选出能与之形成高度有影响力的功能模块,功能模块内的各因子互相作用,从而产生对因变量的强相关性; 第三阶段,整合分类器,一个功能模块形成一个分类器,将多个分类器整合形成对因变量的分类规则。
2.根据权利要求1所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:第一阶段中,在数据筛选时,先决定影响力分数的临界值,在决定影响力分数的临界值后,再确定保留频率的阈值。
3.根据权利要求2所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:确定影响力分数的临界值的方式是先决定了要考虑的变量或因子的交互作用,获得了对任何因子组合的统计量的分数,然后决定一个影响力分数的临界值,分数比临界值高的变量组合会被保留下来继续分析,并摈弃分数比临界值低的组合。
4.根据权利要求2所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:确定保留频率的阈值时,高频率变量具有极大潜质形成具有影响力的变量组合,用保留频率来进行变量组合中的变量挑选。
5.根据权利要求1所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:第二阶段中,使用逆向剔除法前需先决定两个参数,一个是计算逆向剔除法的起始大小,另一个是计算逆向剔除法所需重复的次数。
6.根据权利要求5所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:所述起始大小由以下的条件来界定:至少有一个分割部分包含两个以上的数据点,使用泊松逼近法算出满足的条件为:
7.根据权利要求5所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:逆向剔除法重复次数的界定是大于理论值J次、小于上限值2 次,其中
8.根据权利要求5所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:第二阶段中,在完成计算逆向剔除法所需重复的次数后,进而进行逆向剔除,而后进行用于减少返回集之间的相关性和假阳性的两个过滤步骤,两个过滤步骤第一步是过滤掉有重复变量的返回集,第二步是把返回集按照影响力分数递减的顺序排列,然后去除掉那些与更高分数的返回集有重叠变量。
9.根据权利要求1所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:第三阶段中,所述分类器选用包含功能模块中所有变量的交互作用的罗杰斯回归分类器,分类方法采用Boosting法来结合分类器。
10.一种基于逆向剔除法的高维度数据功能选择算法在医疗中的应用,其特征在于:采用如权利要求1至9其中一项所述的高维度数据功能选择算法依据基因表现数据将扩散型和非扩散型乳癌病人的基因分类,为基因诊断与治疗提供量化结果。
【文档编号】G06F19/00GK103500263SQ201310324927
【公开日】2014年1月8日 申请日期:2013年7月30日 优先权日:2013年7月30日
【发明者】胡膺期 申请人:胡膺期
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1