一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法

文档序号:486216阅读:344来源:国知局
一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
【专利摘要】一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法,根据肿瘤基因表达数据的类别信息计算邻域,为了更好地利用类别信息,重新定义一种新的距离表达方式,I相同标签样本之间的距离;II不同标签样本之间的距离;分别计算类内与类外样本点的重构权;判别准则;特征评价函数。本发明具有LLE?Score算法可以将高维的邻域信息保留在低维结构里,并可以很好地利用标签信息,同时计算代价小等特点。可以根据特征选择后的降维效果,对基因数据进行有效的分类。
【专利说明】一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法

【技术领域】
[0001]本发明涉及生物信息学肿瘤基因数据处理【技术领域】,特别涉及一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法。

【背景技术】
[0002]随着DNA技术的发展,越来越多的肿瘤基因表达数据可以被获得。然而,获得的基因表达数据往往有一个共同的特点“高维、小样本”,因此在肿瘤分类的时候需要进行对这样的高维数据进行降维。特征选择方法就是一个在处理高维数据上很重要的方法,它可以从高维的基因数据里选择出更具有分类信息的基因,从而达到理想的数据降维效果。
[0003]特征选择方法大致可以被分为两大类:包装器和过滤器。包装器是通过选择在分类器上有更出色表现的特征;而过滤器是通过定义的准则选择特征。过滤器往往可以更好的利用标签信息进行降维,并大大降低数据计算能力,诸如传统的比较流行的过滤器类型的特征选择方法:Laplacian Score (He et al., 2005) > Fisher Score (Duda et al., 1997)和T-test (Devore et al.,2001)。本发明提出的LLE Score方法就是典型的过滤器类型的特征选择方法。
[0004]高维的基因表达数据结构一般是非线性的,但流形学习算法里的局部线性嵌入算法(LLE)在处理高维的非线性数据时更具有出色的表现。本发明便是基于局部线性嵌入算法提出的特征选择方法(LLE Score),不仅可以利用LLE保存邻域结构在低维不变的优点更好的处理非线性结构基因表达数据,而且还可以充分利用基因表达数据的标签信息。利用LLE Score进行基因表达数据的降维,并通过支持向量机(SVM)进行分类,最后分类的准确率与其他流形的过滤器类型特征选择方法的分类准确率进行比较。


【发明内容】

[0005]为了达到良好的数据降维效果,本发明提出了一种基于局部线性算法的肿瘤基因表达数据特征选择方法,并在构造类内、类外重构权矩阵时定义了一种新的距离方法。本技术LLE Score算法可以将高维的邻域信息保留在低维结构里,并可以很好地利用标签信息,同时计算代价小等特点。可以根据特征选择后的降维效果,对基因数据进行有效的分类。
[0006]为实现上述目的,本发明所采用的技术方案如下,
[0007]SI本方法从肿瘤数据库里获取到一组具有i类η组样本的肿瘤基因表达数据集,{Xi}n,i e {1,…,(:},让Iii代表相同标签i下的肿瘤样本点,Xi为肿瘤样本点的数据。
[0008]S2根据以上肿瘤基因表达数据的类别信息计算邻域。
[0009]利用以上的获取到的肿瘤基因表达数据集的类别信息,分别计算相同标签下和不同标签下样本点的邻域。为了达到求取到样本点类内与类外的邻域的效果,定义一种新的距离表达方式,如下:
[0010]I相同标签样本之间的距离。保存相同标签样本点之间的欧式距离不变,定义不同标签之间的距离为无穷。

【权利要求】
1.一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法,其特征在于: SI本方法从肿瘤数据库里获取到一组具有i类η组样本的肿瘤基因表达数据集,IxJn,i e {1,…,(:},让Iii代表相同标签i下的肿瘤样本点,XiS肿瘤样本点的数据; S2根据以上肿瘤基因表达数据的类别信息计算邻域; 利用以上的获取到的肿瘤基因表达数据集的类别信息,分别计算相同标签下和不同标签下样本点的邻域;为了达到求取到样本点类内与类外的邻域的效果,定义一种新的距离表达方式,如下: I相同标签样本之间的距离;保存相同标签样本点之间的欧式距离不变,定义不同标签之间的距离为无穷;
II不同标签样本之间的距离;保存不同标签下样本点之间的欧式距离不变,定义相同标签的样本点之间的距离为无穷;
S3分别计算获取到的肿瘤基因表达数据集类内与类外样本点的重构权; 样本点与它的邻域点之间的重构权如下表示:
最优重构权的选取,通过极小化下面的重构权误差来实现:
权Wu表示样本点对样本点Xi的贡献,并且有两个限制: ⑴若Xj不是Xj的邻域,则Wij = O ; ⑵对所有的 i,Σ J-Wij =l,i = l,2,…,η.根据类别信息定义的距离,分别计算以下类内与类外的重构权: I类内重构权; 按照定义的新的相同标签的样本点之间的距离,LLE算法可以很容易的通过排序新的距离找到与样本点相同标签下的Ks个最近邻点,而不至于找到到不同标签下的样本点;因此,相同标签下的重构权可以按如下公式计算:
这里,样本点'是相同标签i下样本点'的邻域; II类外重构权;按照定义的新的不同标签下的样本点之间的距离,LLE算法同样可以很容易的通过排序新的距离找到与样本点不同标签下的Kd个最近邻点,而不至于找到相同标签下的样本点;因此不同标签下的重构权可以按如下公式计算:
上式中,\是标签j下的样本点,xKi是标签i下的样本点,样本点jS是样本点xA不同标签下的邻域; S4判别准则 定义当[K],[M]正定时:
其中,Φ是特征子空间中的任一向量; 一个好的特征子集是在一定程度上可以代表整个全部数据集;由以上广义Rayleigh商定义,可知最优特征求解:可以通过让以上肿瘤基因表达数据集类间的样本点最大化远离、类内的样本点最大化聚类;于是,一个新的理想的特征求解准则提出:
这里,
Ms = (1-Ws)T (1-Ws)
Md = (1-Wd)T (1-Wd) S5特征评价函数; 定义以上从肿瘤数据库获取到的肿瘤基因表达数据集的维数是d ;特征选择的目的就是寻找到最优的特征子集;如果是要从d个特征里寻找m个特征,那么就是将d维的数据集X降到m维的数据集I ;线性变换表示为:y = Ατχ 这里,A e Rdxm是一个选择矩阵,将一个列向量% e Rd表示为:Cii = [O,…,O,I,O,…,O]7,
那么,在公式y = Atx里的A可以写成:
A = Ia1, a2,..., am] 在这里,A的作用就是选择一个特征fi;于是, tr {yMdyT} = tr {ATxMdxTA} = fjTMdfj tr {yMsyT} = tr {ATxMsxTA} = fjTMsfj 因此,特征评价的子集&可以如下计算:
其中,A e Rn(j = 1,2, - ,m); 最后,通过根据分数Score (fj)从大到小对基因进行排序,得到基因序列:[F1, F2,..., F12600]。
2.根据权利要求1所述的一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法,其特征在于:Lung_Cancer数据集是取自肺癌细胞与正常组织的基因表达数据;它具有.5类,包含203个样本;让1、2、3、4、5分别代表五个类别,再203个样本中,分别有17、21、20、6、139个样本属于1、2、3、4、5类;实验中的训练集和测试集具体分类如下表1 ; 表1 Lung_Cancer数据集的训练集与测试集具体分类
将数据按近似1:1比例随机分配的,一半分为训练集,用于特征选择,然后用支持向量机在另一半的测试集上测试,得出分类准确率,这样分得的训练集有103个样本,测试集.100个样本; SI特征选择: Lung_Cancer训练集的103个样本组成的集合可以表示为:X = [X1, x2,..., x103],矩阵的大小为12600103 ;样本集合还可以写成X = [f1; f2,....,f126JT,fj是一个基因在各个样本中的表达值组成的向量; . 1)根据Lung_Cancer数据集的类别信息计算邻域; 利用定义的新距离分别计算类内类外距离: I相同标签样本之间的距离;保存相同标签样本点之间的欧式距离不变,定义不同标签之间的距离为无穷;
II不同标签样本之间的距离;保存不同标签下样本点之间的欧式距离不变,定义相同标签的样本点之间的距离为无穷;
根据以上定义的新距离,分别计算相同标签下和不同标签下样本点的邻域#f; . 2)分别计算类内与类外样本点的重构权; 样本点与它的邻域点之间的重构权如下表示:
最优重构权的选取,通过极小化下面的重构权误差来实现:
权wu表示样本点对样本点Xi的贡献,并且有两个限制: ⑴若Xj不是Xj的邻域,则Wij = O ; ⑵对所有的 i,Σ J-Wij =l,i = l,2,…,η.根据类别信息定义的距离,以下分别计算类内与类外的重构权: I类内重构权; 按照定义的新的相同标签的样本点之间的距离,LLE算法可以很容易的通过排序新的距离找到与样本点相同标签下的Ks = 2个最近邻点,而不至于找到到不同标签下的样本点;因此,相同标签下的重构权可以按如下公式计算:
这里,样本点\是相同标签i下样本点'的邻域; II类外重构权; 按照定义的新的不同标签下的样本点之间的距离,LLE算法同样可以很容易的通过排序新的距离找到与样本点不同标签下的Kd = 12个最近邻点,而不至于找到相同标签下的样本点;因此不同标签下的重构权可以按如下公式计算:2
这里,、是标签j下的样本点,是标签i下的样本点,样本卢v是样本点'不同标签下的邻域; 3)利用LLE Score特征评价函数进行特征评价; 特征评价的子集fj可以如下计算:
其中,A e Rn(j = 1,2,...,m),Md = (1-Wd)T(1-Wd), Ms = (1-Ws)τ(1-Ws); 由LLE score评价基因的函数:Score (fj)来计算每一个基因fj &KU/ = 1,2,...J2600)的分数,然后根据分数从大到小对基因进行排序,得到基因序列:[F1, F2,,
Fl2600]; S2采用支持向量机进行训练和测试 经过特征选择,训练集和测试集变为和;取前个基因得到和,用Matlab中Iibsvm工具箱的“svmtrain”函数对进行训练,然后用Iibsvm工具箱的“svmpredict”函数进行测试,得到选择个基因时的分类准确率,这样,取I~70便可以得到对应于基因数为I到70的分类准确率曲线; 将上述过程重复25次,得到准确度的平均值。
【文档编号】C12Q1/68GK104200134SQ201410438692
【公开日】2014年12月10日 申请日期:2014年8月30日 优先权日:2014年8月30日
【发明者】李建更, 逄泽楠, 苏磊, 张卫, 李晓丹 申请人:北京工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1