一种面向snp数据的筛选方法

文档序号:6440970阅读:1401来源:国知局
专利名称:一种面向snp数据的筛选方法
技术领域
本发明涉及对高纬度、小样本数据进行筛选的相关技术,特别是设计一种面向SNP 数据的筛选方法,属于计算机和生物医学交叉领域。
背景技术
基因芯片技术的发展带来了高通量的SNP试验设备,这些设备一次能够检测多达数十万个单核苷酸多态性位点(SNP),帮助我们开展全基因组关联分析的研究,但是由于实验的代价非常昂贵、因而SNP数据具有高纬度、小样本的特征。针对SNP数据高纬度、小样本的特征,传统的全基因组关联研究仅仅考虑单个SNP位点的作用,并没有考虑他们之间的相互作用,筛选出来的与疾病相关的SNP位点欠缺说服力。为了解决这个问题,多位点的关联分析已经成为目前研究SNP数据筛选的主要方法。

发明内容
为了解决现有方法存在的上述问题,本发明的目的是提供一种面向SNP数据的筛选方法,它在考虑了单个SNP位点作用的同时,还考虑了 SNP位点之间的相互作用,提高了 SNP筛选的可靠性和疾病基因定位的准确性。为达到上述目的,本发明采用下述技术方案,一种面向SNP数据的筛选方法,其特征在于具体操作步骤如下
1.从建立的SNP数据库中读取SNP数据并初始化SNP的分类权重;
(1)初始化SNP数据集和SNP的分类权重,将其分别设为N和0;
(2)从实验数据集N中选择第i个样本,若i>N就结束,把当前分类权重值当作最终权重值,否则继续;
(3)找到i样本的同类别的最近邻样本m和不同类别的最近邻样本n,样本类别只有正常和患病两种状态;
(4)计算在位点j处i样本和同类别最近邻样本之间的距离和不同类别最近邻样本之间的距离。同类别距离计算表达式如下
mutel (j,Si, m) = (u^D^Cj) / (D*C); 其中,D表示样本集中有病样本的个数,C表示样本集中正常样本的个数,Dj表示SNP 位点j的某种基因型在有病样本的个数,Cj表示SNP位点j的某种基因型在无病样本的个数,u表示SNP位点j在样本Si和样本m中表达值差异的相关系数,若该位点在两样本中表达值相同,则设u为0,若其中只有一个等位基因不同,则u设为1,若两个等位基因都不同, 则u设为2 ;
(5)循环累加计算SNP位点j的分类权重。其中权重计算表达式如下 Wj =Wj-mutel (j, Sij m) +mute2 (j, Sij η);
其中Wj表示位点j的分类权重,mutel (j,Si, m)表示位点j处该样本和同类别最近邻样本之间的距离,mutd^Si,!!)表示位点j处该样本和不同类别最近邻样本之间的距离。
2、利用支持向量机筛选SNP
(6)利用冒泡排序法对各个SNP的分类权重进行排序,并得到排序表 (k1>k2>k3>. . . . >kn);
(7)顺序向后选择SNP位点组合Ki= { k1; k2,· · · · kj,开始i=l ;
(8)利用支持向量机计算分类准确率;
(9)判定分类准确率accuracy(Ki)是否大于给定的参数值λ (由经验值决定)。若大于则结束,否则i加1,转向步骤(7);
(10)输出与疾病相关的的关键SNP组合;
(11)筛选结束。本发明一种面向SNP数据的筛选方法与已有技术相比较具有如下显而易见的突出特点和显著优点
(1)该方法首先计算SNP的分类权重,它不仅考虑了单个SNP位点的作用,还考虑了 SNP 位点之间的相互作用,然后对分类权重排序,分析了 SNP对疾病样本的影响程度,这使得得出的SNP分类权重值更准确。(2)利用支持向量机计算SNP位点的分类准确率,依据准确率,筛选出了对疾病起关键作用的SNP位点组合,增强了 SNP筛选的可靠性。


图1是本发明一种面向SNP数据的筛选方法的流程图。图2是本发明运用在SNP数据上的筛选结果。
具体实施例方式下面结合说明书附图和优选实施例对本发明作进一步详细的说明。参照图1,面向SNP数据的筛选方法,其具体操作步骤如下
1、利用单个SNP的作用和SNP之间的相互作用计算SNP分类权重;
(1)初始化SNP数据集和SNP的分类权重,将其分别设为N和0;
(2)从实验数据集N中选择第i个样本,若i>N就结束,把当前分类权重值当作最终权重值,否则继续;
(3)找到i样本的同类别的最近邻样本m和不同类别的最近邻样本n,样本类别只有正常和患病两种状态;
(4)计算位点j处所选样本i和同类别最近邻样本之间的距离和不同类别最近邻样本之间的距离。同类别之间的距离计算表达式如下
mutel (j,Si, m) = (u^D^Cj) / (D*C); 其中,D表示样本集中有病样本的个数,C表示样本集中正常样本的个数,Dj表示SNP 位点j的某种基因型在有病样本的个数,Cj表示SNP位点j的某种基因型在无病样本的个数,u表示SNP位点j在样本Si和样本m中表达值差异的相关系数,若改位点在两样本中表达值相同,则设u为0,若其中只有一个等位基因不同,则设u为1,若两个等位基因都不同, 则设u为2;
(5)循环累加计算SNP位点j的分类权重。权重计算表达式如下Wj =ffj-mutel (j, Si, m) +mute2 (j, Si, η); 其中Wj表示位点j的分类权重,mutel (j,Si, m)表示位点j处该样本和同类别最近邻样本之间的距离,mutd^Si,!!)表示位点j处该样本和不同类别最紧邻样本之间的距离。2、利用支持向量机筛选单核苷酸多态性位点;
(6)采用冒泡排序法对SNP的分类权重进行排序,得到的SNP排序表 (k1>k2>k3>. . . . >kn);
(7)顺序向后选择SNP位点组合Ki={ k1; k2,. . . . kj ;
(8)利用支持向量机计算分类准确率;
(9)判定分类准确率accuracy(Ki)是否大于给定的参数值λ (由经验值决定)。若大于则结束,否则i加1,转向步骤(7);
(10)输出与疾病相关的关键SNP组合,如图2所示;
(11)筛选结束。以上对本发明一种面向SNP数据的筛选方法进行了详细的介绍,只是用于帮助理解本发明的方法和核心思想;同时,对于本领域的一般技术人员,依据本发明的方法和思想,在具体实施方式
和应用范围上均会有所改变,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1.一种面向SNP数据的筛选方法,其特征在于具体操作步骤如下首先,利用单个SNP的作用和SNP之间的相互作用计算SNP分类权重,具体步骤如下(1)初始化SNP数据集和SNP的分类权重,将其分别设为N和0;(2)从实验数据集N中选择第i个样本,若i>N就结束,把当前分类权重值当作最终权重值,否则继续;(3)找到i样本的同类别的最近邻样本m和不同类别的最近邻样本n,样本类别只有正常和患病两种状态;(4)计算位点j处i样本和同类别最近邻样本之间的距离和不同类别最近邻样本之间的距离;(5)循环累加计算SNP位点j的分类权重,其中权重计算表达式如下 Wj =ffj-mutel (j, Si, m) +mute2 (j, Si, η);其中Wj表示SNP位点j的分类权重,mutel (j, Si, m)表示SNP位点j处该样本和同类别最近邻样本之间的距离,mute2(j,Si, η)表示SNP位点j处该样本和不同类别最近邻样本之间的距离;其次,利用支持向量机筛选单核苷酸多态性位点(6)利用冒泡排序法对各个SNP的分类权重进行排序,并得到排序表 (k1>k2>k3>. . . . >kn);(7)顺序向后选择SNP位点组合Ki={ k1; k2,· · · · kj,开始i=l ;(8)利用支持向量机计算分类准确率;(9)判定分类准确率accuracy(Ki)是否大于给定的参数值λ,若大于等于则结束,否则i加1,转向步骤(7);(10)输出与疾病相关的的关键SNP组合;(11)筛选结束。
2.根据权利要求1所述的一种面向SNP数据的筛选方法,其特征在于所述步骤(4)中的距离计算方式为muteiaimXi^DfCpAD^C),其中,D表示样本集中有病样本的个数,C表示样本集中正常样本的个数,Dj表示SNP位点j的某种基因型在有病样本的个数, Cj表示SNP位点j的某种基因型在无病样本的个数,u表示SNP位点j在样本Si和样本m 中表达值差异的相关系数,若该位点在两样本中表达值相同,则设u为0,若其中只有一个等位基因不同,则u设为1,若两个等位基因都不同,则u设为2。
3.根据权利要求1或2所述的一种面向SNP数据的筛选方法,其特征在于所述步骤(7) 中顺序向后选择SNP位点组合是指依次从SNP排序表中选择分类权重较大的位点放在组合里面,即先放最大的,然后是次大的,以此类推。
4.根据权利要求1或2或3所述的一种面向SNP数据的筛选方法,其特征在于,步骤 (9)中的参数λ由经验值决定。
全文摘要
本发明一种面向SNP数据的筛选方法。本方法操作步骤如下首先利用单个SNP的作用和SNP之间的相互作用计算SNP分类权重;其次利用支持向量机筛选单核苷酸多态性位点。本发明一种面向SNP数据的筛选方法,不仅考虑了单个SNP的作用,还充分考察了SNP之间的相互作用,提高了与疾病相关SNP筛选的可靠性。
文档编号G06F19/10GK102567652SQ20111041377
公开日2012年7月11日 申请日期2011年12月13日 优先权日2011年12月13日
发明者刘宗田, 吴悦, 吴红霞, 张文宾, 雷州 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1