一种面向snp数据的特征选择方法

文档序号:6360622阅读:442来源:国知局
专利名称:一种面向snp数据的特征选择方法
技术领域
本发明涉及对具有高维度小样本特性的海量数据进行特征选择的相关技术,特别是设计一种面向SNP数据的特征选择方法,属于计算机应用技术领域。
背景技术
对具有高维度小样本特性的数据进行特征选择是数据挖掘领域研究热点之一。该类型数据普遍存在数据量巨大、特征维度高、样本数量少的特点。常用的数据分析方法具有样本趋向性,进行高维小样本数据分析的效率低而准确性不高。SNP是single nucleotide polymorphism的缩写,即单核苷酸多态性,指的是在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP是人类基因组最丰富的遗传变异,因此,准确定位疾病相关的关键SNPs,SNPs是SNP的集合,有助于定位致病基因,研究复杂疾病的遗传机理,辅助个性化治疗。SNP特征选择的目的,在于高效、准确定位关键SNPs。SNP数据是典型的高维度小样本数据,是SNP特征选择的困难一。复杂疾病的诱因复杂,通常由多个基因共同作用导致,在SNP层面,表现为SNP数据特征之间存在着关联关系,是SNP特征选择的困难二。传统的特征选择算法中,Relief算法能有效评估和剔除无关特征,而SVM-RFE算法能对关键性程度进行排序。但是前者忽略特征之间关联关系,后者算法效率低下。

发明内容
为解决以上SNP数据分析中的问题,本发明目的在于提供一种面向SNP数据的特征选择方法,将Relief算法和SVM-RFE算法改善并结合,解决SNP特征选择的两大困难,并提高特征选择效率和准确率。为达到上述目的,本发明的构思是首先将数据进行清洗和编码,然后用重新设计的Relief算法剔除无关SNP特征,再用SVM-RFE算法对SNP特征进行关键性程度排序,最后使用十字交叉验证来筛选关键SNPs。根据上述的发明构思,本发明采用下述技术方案
一种面向SNP数据的特征选择方法,其具体操作步骤如下
(A)、进行数据预处理;
(B)、用重新设计的Relief算法剔除无关SNP特征;
(C)、用改进的SVM-RFE算法对SNP特征进行关键性程度排序;
(D)、使用十字交叉验证来筛选关键SNPs。
上述步骤(A)进行数据预处理的具体操作步骤如下
Al)贴类别标签SNP数据属于二分类样本,即样本只有患病-case组和健康-normal组两类,case组贴类别标签{+1},normal组贴类别标签{_1};
A2)数据编码基因芯片检测出的SNP分型结果,共有四种形式野生纯合型AA、突变杂合型AB、突变纯合型BB,分型失败标记NC ;将AA编码为0,AB编码为1,BB编码为2 ;NC在数据清洗过程中被清洗掉,不进行编码;
A3)数据清洗。NC在SNP数据分析中属于噪声数据,当某SNP特征在所有样本中的NC标记超过50%时,剔除此SNP特征;当某一样本在所有SNP特征上的NC标记超过50%,剔除该样本;对于未被剔除的NC位点,使用该SNP特征处分型值所占比例最大的分型值替换NC。上述步骤B中将预处理后的SNP数据,用重新设计的Relief算法剔除无关SNP特征的操作步骤是
BI)计算两两样本距离,构成样本距离矩阵
样本5;和&距离计算公式为
权利要求
1.一种面向SNP数据的特征选择方法,其特征在于具体操作步骤如下 (1)、进行数据预处理; (2)、用重新设计的Relief算法剔除无关SNP特征; (3)、用改进的SVM-RFE算法对SNP特征进行关键性程度排序; (4)、使用十字交叉验证来筛选关键SNPs。
2.根据权利要求I所述的一种面向SNP数据的特征选择方法,其特征在于,所述步骤(1)中的进行数据预处理,其具体操作操作如下 1-1)贴类别标签SNP数据属于二分类样本,即样本只有患病-case组和健康-normal组两类,case组贴类别标签{+1},normal组贴类别标签{_1}; 1-2)数据编码基因芯片检测出的SNP分型结果,共有四种形式野生纯合型AA、突变杂合型AB、突变纯合型BB,分型失败标记NC ;将AA编码为0,AB编码为1,BB编码为2 ;NC在数据清洗过程中被清洗掉,不进行编码; 1-3)数据清洗NC在SNP数据分析中属于噪声数据,当某SNP特征在所有样本中的NC标记超过50%时,剔除此SNP特征;当某一样本在所有SNP特征上的NC标记超过50%,剔除该样本;对于未被剔除的NC位点,使用该SNP特征处分型值所占比例最大的分型值替换NC。
3.根据权利要求I所述的一种面向SNP数据的特征选择方法,其特征在于,所述步骤(2)中的用重新设计的Relief算法剔除无关SNP特征,其具体步骤如下 2-1)计算两两样本距离,构成样本距离矩阵 样本
4.根据权利要求3所述的一种面向SNP数据的特征选择方法,其特征在于,所述步骤2-3)中的计算SNP的Relief权重的操作步骤是 2-3-1)初始化呼
5.根据权利要求I所述的一种面向SNP数据的特征选择方法,其特征在于,所步骤(3)中的用改进的SVM-RFE算法对SNP特征进行关键性程度排序,其具体操作步骤如下 3-1)通过SVM训练获取特征准则分数 第i个SNP特征准则分数计算公式为Ci =Wi2,其中Wi为SVM训练模型中的权向量; 3-2)判断是否需要二次划分,若特征集合规模大于I万,则转步骤3-3);否则转步骤3-4); 3-3) 二次划分确定待删除特征为集合f ; 3-4)确定待删除特征为准则分数q 最小的特征; 3-5)将待删除特征从待分析特征集合删除,加到关键性程度排序集S。
6.根据权利要求5所述的一种面向SNP数据的特征选择方法,其特征在于,所述步骤3-3)中二次划分确定待删除特征为集合f,其具体操作步骤如下 3-3-1)初始化待划分集合为当前待分析集合; 3-3-2)计算待划分集合的分类准则分数CJ的一阶差分AC; = Cj-Cm . 3-3-3)选取Aq中K-I个峰值,将两个峰值之间的SNP作为一组划分,记为Gl,G2…Gk ; 其中K为分组参数,此处K设置为10; 3-3-4)将待划分集合设置为Gl,进行二次划分,划分方法同上,结果记为Ml,M2…Mk ; 3-3-5)待删除集合f=Ml。
7.根据权利要求I所述的一种面向SNP数据分析的特征选择方法,其特征在于,所述步骤(4)中的使用十字交叉验证来筛选关键SNPs,其具体步骤是 4-1)从SNP关键程度表中选择前I、前2…前n个SNP进行十字交叉验证,直到分类准确率达到稳定为止; 4-2)选择分类准确率最高,集合规模最小的SNP组合作为关键SNPs输出。
8.根据权利要求7所述的一种面向SNP数据分析的特征选择方法,其特征在于,所述步骤(4-2)中所述的关键SNPs是指与疾病具有最高关联关系的SNP特征集合,其评估依据十字交叉验证获得的将样本正确分类的分类准确率,选择分类准确率稳定后具有最高分类准确率的SNP集合, 作为关键SNPs。
全文摘要
本发明公开了一种面向SNP数据的特征选择方法。其具体步骤如下首先进行数据预处理;然后用重新设计的Relief算法剔除无关SNP特征;然后用改进的SVM-RFE算法对SNP特征进行关键性程度排序;最后使用十字交叉验证来筛选关键SNPs。该发明结合了Filter式特征选择和Wrapper式特征选择的优势,并在机器学习过程中使用二次划分方法,解决了SNP数据特征选择中的高维小样本及SNP致病组合模式的问题,提高了分析效率和准确率。
文档编号G06F19/22GK102629305SQ20121005556
公开日2012年8月8日 申请日期2012年3月6日 优先权日2012年3月6日
发明者刘宗田, 吴悦, 吴红霞, 张文宾, 雷州 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1