一种生物标志物筛选方法

文档序号:8544059阅读:1592来源:国知局
一种生物标志物筛选方法
【技术领域】
[0001] 本发明为一种生物信息的数据挖掘方法,属于生物、计算机与数学交叉技术领域。
【背景技术】
[0002] 近年来,随着科学技术的发展,数据收集越来越易于实现。使基因、蛋白和代谢组 学数据具有高维、海量等特点,如何从高维数据中筛选有用的特征(变量)信息被作为挑战 问题提出。
[000引 支持向量机迭代特征删除算法(Suppo;rtVectorMachine-RecursiveFea1:ure Elimination,SVM-RFE)是一种高性能的特征选择方法,广泛应用于基因、蛋白、代谢等领 域。SVM-RFE在每次迭代时,根据当前特征子集构建超平面,同时计算特征的权重。但是随 着分析技术的发展,基因、蛋白等生物数据维数巨增,其中存在噪音和不含问题相关信息的 无关变量。噪音和无关的变量的存在可能会影响SVM超平面的构建,从而使得特征权重的 评价产生误差。为了更加准确地确定区分能力强的特征子集,基于重叠区域的支持向量机 迭代特征删除算法(SupportVectorMachine-Re州rsiveFeatureEliminationBasedon OverlappingArea,OA-SVM-RFE)统计分析每一特征在不同类别样本中的重叠度,在迭代删 除过程中将SVM计算的特征的权重和特征的重叠度结合,综合评价特征。而在实际的生物 数据分析中,还会存在特征之间相互关联,共同表征复杂的生命现象。因此在处理高维生物 信息样本、选择区分反映不同类别的生物样本的特征时,考虑变量之间的相互关联,有助于 确定反映不同种类疾病、药物疗效等的标志信息。
[0004] 对于本发明使用的特征重叠区域权值(重叠度)〇A,计算方法如下:
[0005] 设一个c〉2类问题包含n个样本和P个特征。对于特征(1《i《P),首先用它 在第k(l《k《C)类样本上的均值加减修正的标准偏差,作为其有效范围;再计算其在类 别h和k(l《h《C,h声k)中的重叠区域,即特征在h类、k类的有效范围的交集作为 重叠区域值;然后计算重叠区域系数并标准化;最后用1减去标准重叠区域系数,得到特征 的重叠区域权值0A。
[0006] 重叠区域是在各类样本之间特征的重叠深度,某一特征的重叠区域越小,在该特 征上样本区分较容易,则特征的重叠区域权值越大。

【发明内容】

[0007] 为了解决上述生物问题,通过变量之间的相互关系,挖掘生物数据的潜在标志物, 更准确地提供辅助分析,本发明提供一种生物数据分析的方法一-生物标志物筛选方法(A MethodofBiomarkersSelection,MBS)。
[000引 SVM-RFE是一种基于支持向量机的特征选择方法。SVM通过构建超平面来建立分 类模型,同时对超平面上的每个维度(特征、变量)计算权重|w|。SVM-RFE据此来迭代删 除权重小的特征。最后被删除的特征一般区分能力强。0A-SVM-R阳方法在SVM-R阳基础上 考察了特征在不同类别样本上的重叠区域,重叠区域较高的变量,由于各类样本在该变量 上分布混杂在一起,较难区分,所W变量的区分能力弱低,重叠区域权值OA低;反之,重叠 区域低的变量,区分能力强,重叠区域权值0A高。0A-SVM-RFE在每一次迭代时,同时使用 SVM计算的特征权重|w|和变量的重叠度度量,综合评价当前特征集中每一特征的重要性, 删除综合评价指标低的特征。
[0009] 在复杂的生物现象中,变量之间可能相互联系、相互作用。因此在生物信息处理 中,考虑变量之间的关联性有助于要有效挖掘隐藏在大量数据中反映不同生命现象的标识 信息。在两类问题中,最高得分对(topscoringpair(s),TS巧成对考察变量,通过统计分 析一对变量和fj.(i声j)在不同类别样本中含量相对关系的差异,计算两个变量关系的 得分AU,据此评价对变量的区分能力。TSP得分越高,则该对变量越好。
[0010] 本发明提出变量关系得分Score,利用TSP方法评价变量与当前特征子集中其他 变量的平均关联性,从变量在SVM超平面上的贡献、自身在样本上分布的统计性能、与当前 特征子集中其他变量的平均关联性=个角度出发,综合评价特征的重要性,W发现生物标 '志f曰肩、。
[00川本发明评价特征的综合得分:巧^ = (1-曰1)IW,-IX+曰2XylScore,(1)。
[001引公式(1)中,E(i)是特征的综合得分,|wi|是SVM计算的特征权重,OAi是特征 的重叠度,Scorei是的关系得分。a1、a2是参数,分别用于调整特征重叠度和变量关 系得分在变量综合评价中的比例,0《a1<1,0《a2<1。
[0013]MBS使用公式(1)计算当前特征集中每一特征的综合评价分,迭代删除当前特征 集中综合评价权重低的r% (0分<100)特征。在迭代过程中,保留性能最好的特征子集,作 为所选特征子集。
[0014] 本发明的技术方案是:一种生物标志物筛选方法,步骤如下:
[001引 (1)设当前特征集合为F,初始时,F包含所有特征,FS为空;maxACC= 0,r= 5 ;
[0016] (2)根据特征在样本上的分布,计算每一特征fiGF的重叠度OAi;
[0017] 做设定a2= 0,即不考虑变量关系得分;
[001引 (4)根据F构建SVM分类模型,计算特征集合F的5倍交叉验证的分类准确率ACC, 计算每一特征ffGF的IwiI;
[0019] (5)若ACOmaxACC,那么maxACC=ACC,FS=F;
[0020] (6)对F中的每一变量fi,计算其关系得分Score;;
[002U (7)计算特征的综合得分Ea):巧0 = (1 -S)Iw,.IX04,. + 02XyjScore,
[002引其中,E(i)是特征的综合得分,|wi|是SVM计算的特征权重,OAi是特征fi的 重叠度,Score;是的关系得分,a1、a2是参数,分别用于调整特征重叠度和变量关系得 分在变量综合评价中的比例,0《a1<1,0《a2<1 ;
[0023] (8)MBS使用E(i)综合评价当前特征集中每一特征的重要性,删除当前特征集中 综合评价权重低的r% (0分<100)特征,重复步骤(4)、巧)、化)、(7)和巧),直到F为空;
[0024] (9)a1在[0, 1)的范围内按照步长0. 1步进,令F包含初始时所有输入特征,重复 步骤(4)、巧)、化)、(7)和巧),计算a在每个步长选择的特征子集,得到"最优"特征子 集时对应a1的"最优"值;
[0025] (10)设定a1为"最优"取值,a2在[0, 1)的范围内按步长0. 1步进,F为包含初 始时所有输入特征,重复步骤(4)、巧)、化)、(7)和巧),计算a2在每个步长选择的特征子 集,得到"最优"特征子集时对应参数a2的"最优"取值;
[0026] (11)输出a1 "最优"值和a2 "最优"值时对应的"最优"特征子集FS;
[0027] 所述的变量关系得分Score;,计算方法如下;
[002引 a.对一个c〉2类问题,当前特征集合为F,P是F中所含特征数量,按照"一对一" 准则划分为C(C-1) /2个两类问题;在每一个两类问题上,按照TSP方法计算变量和F中 其他变量fj.的得分AU;
[0029] b.计算在c(c-l)/2个两类问题上变量和F中其他变量的关联性的平均得分:
[0030]
【主权项】
1. 一种生物标志物筛选方法,其特征在于以下步骤: (1) 设当前特征集合为F,初始时,F包含所有特征,FS为空;maxACC = 0, r = 5 ; (2) 根据特征在样本上的分布,计算每一特征Ae F的重叠度OA i; (3) 设定α 2= 0,即不考虑变量关系得分; (4) 根据F构建SVM分类模型,计算特征集合F的5倍交叉验证的分类准确率ACC,计 算每一特征f i e F的I w i I ; (5) 若 ACOmaxACC,那么 maxACC = ACC,FS = F ; (6) 对F中的每一变量计算其关系得分Scorei; (7) 计算特征的综合得分E (i)
其中,E(i)是特征&的综合得分,|Wi|是SVM计算的特征权重,OAi是特征的重叠 度,3(:〇1^是匕的关系得分,(11、(12是参数,分别用于调整特征重叠度和变量关系得分在 变量综合评价中的比例,〇彡a'UOS α2〈1; (8) MBS使用E(i)综合评价当前特征集中每一特征的重要性,删除当前特征集中综合 评价权重低的r %特征,0〈r〈100,重复步骤(4)、(5)、(6)、(7)和(8),直到F为空; (9) α 1在[〇, 1)的范围内按照步长〇. 1步进,令F包含初始时所有输入特征,重复步骤 (4)、(5)、(6)、(7)和(8),计算a i在每个步长选择的特征子集,得到"最优"特征子集时对 应α"最优"值; (10) 设定a i为"最优"取值,α 2在[〇, 1)的范围内按步长〇. 1步进,F为包含初始时 所有输入特征,重复步骤(4)、(5)、阳)、(7)和(8),计算(!2在每个步长选择的特征子集, 得到"最优"特征子集时对应参数α 2的"最优"取值; (11) 输出a i "最优"值和α2 "最优"值时对应的"最优"特征子集FS ; 所述的变量关系得分Scorei,计算方法如下: a. 对一个c>2类问题,当前特征集合为F,p是F中所含特征数量,按照"一对一"准则 划分为c (c-1) /2个两类问题;在每一个两类问题上,按照TSP方法计算变量F中其他 变量A的得分Δ ij; b. 计算在c (c-1)/2个两类问题上变量F中其他变量的关联性的平均得分:
其中,Scorei表示f i的变量关系得分;L是当前特征集合中所有除f i以外的变量;对 4和F中其余的每一变量f』计算二者在每一个2类(m e {1,2, c (c-1) /2})问题上的TSP 得分;Δ ijm代表f JP f』在第m个2类问题上的TSP得分,Λ ijm的平方保证TSP得分高的对 变量的优势,同时加大TSP得分低的对变量和得分高的对变量的差距;△ ^平方的和的均 值让其数值保持在特征权重I Wi I和重叠度权值OAi的数量级上,让MBS建模时均衡考虑将 三者作为特征的综合评价。
【专利摘要】本发明为一种生物信息的数据挖掘方法,属于生物、计算机与数学交叉技术领域。首先根据特征在样本上的分布,计算重叠区域权重O,再计算SVM权重和变量关系得分。MBS采用特征的SVM权重|wi|、重叠区域权值OAi和变量关系得分值Scorei综合评价该特征,也作为排名依据,确定参数α1的最优值后,确定参数α2的值。本发明研究了变量关系得分,把它和变量重叠区域权值、特征权重一起考察,提供了一种特征综合评价的新方法。最终通过改善特征选择性能,帮助发现生物标志信息。
【IPC分类】G06K9-62
【公开号】CN104866863
【申请号】CN201510207807
【发明人】王君, 林晓惠, 丁翔飞
【申请人】大连理工大学
【公开日】2015年8月26日
【申请日】2015年4月27日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1