一种基于截断幂的稀疏基因表达数据分析方法
【专利摘要】本发明公开了一种基于截断幂的稀疏基因表达数据分析方法,具体包括:对基因数据集进行预处理,包括正则化处理、利用主成分分析法确定主成分个数和结合局部迭代搜索确定主成分的基数;对经过步骤一处理的基因数据集中的基因数据进行特征提取,减少数据的干扰性并提高后续过程聚类的准确性;对数据特征被提取的基因数据进行聚类方法处理;将步骤三得到的聚类处理结果与设定的聚类精确率进行比对,并反馈调节稀疏降维的调优参数以达到最佳聚类精度。本发明解决了稀疏特征值分解问题,用于稀疏主成分分析不仅主成分的解释能力强且其运行速度快,可以很好验证稀疏主成分方法,提高了基因数据分析的高效性和精确性。
【专利说明】一种基于截断幂的稀疏基因表达数据分析方法
【技术领域】
[0001] 本发明公开了一种基于截断幂的稀疏基因表达数据分析方法,涉及对基因表达的 数据分析【技术领域】。
【背景技术】
[0002] 伴随生物医学水平的快速发展,DNA芯片(DNA microarray)的广泛应用可以快速 测量基因的表达水平。由于基因数据的分析可以用来识别癌细胞以预测某一疾病发生的概 率,对人的生活具有重大的意义。因此,基因聚类已经成为目前研究的热门课题。
[0003] 原始收集的基因数据具有属性多、样本少等特点,直接对此聚类分析其结果往 往会受到大量冗余数据的干扰,并且高维数据对传统的聚类方法也是一项挑战。有为 了克服这些缺点,不同的降维主特征提取方法被相继提出,独立成分分析(Incbpendent Component Analysis, ICA)可以将多维数据集分解到各自独立的成分(ICs),消除了高阶依 赖性。主成分分析(Principle Component Analysis, PCA)方法是一种经典的降维方法, 可以将高维数据进行降维处理提取其主要特征数据,它所寻求的目标是方差最大化,即属 性之间的相关变化最大。但由于其自身的线性组合缺陷导致其生成的主成分不具有可解释 性,即基因数据中一个症状不知有哪些具体的基因来决定。因此,通过在主成分的基础上对 负载因子进行稀疏化处理,可以在提取主成分的过程中考虑主成分的表达能力与负载因子 的稀疏性(Loadings),使得主成分有少量的属性决定,同时使得因子系数的非零个数小于 等于基因的个数但可表达能力比主成分分析更明显。
[0004] 稀疏主成分(Sparse PCA)的求解方法有阈值、回归、能量及规划等不同类,相比之 下,能量方法在主成分分可解释度、算法的运行时间及聚类的精确性都是非常稳定的,其中 截断幂迭代法是其中的典型算法,可以很好的解决稀疏特征值分解问题,用于稀疏主成分 分析不仅主成分的解释能力强且其运行速度快,是一种很好的特征提取方法。
[0005] 将稀疏主成分分析与聚类算法结合起来对基因表达数据是一种更高效、精确的分 析方法。聚类已经成为基因表达数据分析的主要方法之一,通过类别的判断可以快速、准确 的判断疾病的发生概率。而由于基因数据本身的特点,属性多、样本少以致在高维数据中将 存在大量的冗余数据与干扰信息,直接进行聚类分析将导致精确率不是很高。主成分分析 是一种经典的降维方法,可以将高维数据映射到低维空间,但因其结果不具有强解释力。
【发明内容】
[0006] 本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种基于截断幂的稀 疏基因表达数据分析方法。利用稀疏主成分分析一截断幂方法,对数据进行预处理提取其 主要的表达数据,在负载因子中非零个数最小化的同时保证基因主成分具有强表达能力。 通过典型的基因数据集实验,将特征提取之后的基因数据应用K-means方法进行聚类分 析。
[0007] 本发明为解决上述技术问题采用以下技术方案:
[0008] -种基于截断幂的稀疏基因表达数据分析方法,具体步骤包括:
[0009] 步骤一、对基因数据集进行预处理,包括正则化、利用主成分分析法确定主成分个 数与结合局部迭代搜索确定主成分的基数;
[0010] 步骤二、对经过步骤一处理的确定的稀疏调优参数对基因数据进行截断幂稀疏降 维与特征提取,减少数据的干扰性并提高后续过程聚类的准确性;
[0011] 步骤三、对数据特征被提取的基因数据进行聚类方法处理;
[0012] 步骤四、将步骤三得到的聚类处理结果与设定的聚类精确率进行比对,并反馈调 节步骤一中稀疏降维的调优参数以达到最佳聚类精度。
[0013] 作为本发明的进一步优选方案,步骤一中,所述预处理的具体过程为:
[0014] 设定一个基因数据集A,其样本个数为n,基因个数为P,且满足η << P,对数据集 Α进行正则化处理后得出其协方差矩阵Σ,将主成分的求解模型表示如下:
[0015] find X' =arg max χτ Σ x subject to χτχ = 1
[0016] 其中,x为自变量,对应于高维数据转换为低维数据的系数,在优化求解的过程中 将不断更新,X'目标系数,即优化求解后主成分对应的最佳载荷,T表示转置运算。
[0017] 作为本发明的进一步优选方案,采用幂迭代法求解主成分的求解模型中的矩阵特 征值,其迭代求解过程为:
[0018] V! = Sv〇
[0019] v2 = Sv2 = S2v〇
[0020] ·
[0021] ·
[0022] ·
[0023] vt = Svh =…=Skv0
[0024] 其中,S为待求解的矩阵,Vi为每次迭代过程中的更新向量,其初始值为?,i为迭 代次数,其初始值为〇,当矩阵收敛时,i的取值为t,λ为 Vt向量中所有变量的最大公约 数;
[0025] 设定/为待求解的特征向量,则/经由Vi同过提取公共参数λ变换得出。
[0026] 作为本发明的进一步优选方案,步骤一中,所述稀疏降维处理需满足|x| 其 中,k为主成分的基数。
[0027] 作为本发明的进一步优选方案,采用截断法控制稀疏度,并结合幂迭代法,进行稀 疏主成分的求解,具体过程包括:
[0028] (501)设定截断算子:
[0029]
【权利要求】
1. 一种基于截断幂的稀疏基因表达数据分析方法,其特征在于,具体步骤包括:步骤 一、对基因数据集进行预处理,包括正则化、利用主成分分析法确定主成分个数、结合局部 迭代搜索确定主成分的基数; 步骤二、对经过步骤一处理后的确定的稀疏调优参数对基因数据进行截断幂稀疏降维 与特征提取,减少数据的干扰性并提高后续过程聚类的准确性; 步骤三、对数据特征被提取的基因数据进行聚类方法处理; 步骤四、将步骤三得到的聚类处理结果与设定的聚类精确率进行比对,并反馈调节稀 疏降维的调优参数以达到最佳聚类精度。
2. 如权利要求1所述的一种基于截断幂的稀疏基因表达数据分析方法,其特征在于, 步骤一中,所述预处理的具体过程为: 设定一个基因数据集A,其样本个数为n,基因个数为p,且满足n<<p,对数据集A进 行正则化处理后得出其协方差矩阵E,将主成分的求解模型表示如下: findX,=argmaxxTExsubjecttoxTx=I 其中,X为自变量,对应于高维数据转换为低维数据的系数,在优化求解的过程中将不 断更新,X'目标系数,即优化求解后主成分对应的最佳载荷,T表示转置运算。
3. 如权利要求2所述的一种基于截断幂的稀疏基因表达数据分析方法,其特征在于: 采用幂迭代法求解主成分的求解模型中的矩阵特征值,其迭代求解过程为: V1 = Sv0 v2 = Sv2 = S V0 ? ? Vt = SVh =…=Skv。 其中,S为待求解的矩阵,Vi为每次迭代过程中的更新向量,其初始值为了,i为迭代次 数,其初始值为〇,当矩阵收敛时,i的取值为t,A为Vt向量中所有变量的最大公约数; 设定/为待求解的特征向量,则/经由Vi同过提取公共参数A变换得出。
4. 如权利要求3所述的一种基于截断幂的稀疏基因表达数据分析方法,其特征在于, 步骤一中,所述稀疏降维处理需满足IXIL<k,其中,k为主成分的基数。
5. 如权利要求4所述的一种基于截断幂的稀疏基因表达数据分析方法,其特征在于, 采用截断法控制稀疏度,并结合幂迭代法,进行稀疏主成分的求解,具体过程包括: (501) 设定截断算子:
其中,F为k个下标的集合; (502) 根据如下公式求解稀疏主成分: 入max(2,k)=maxXt2XsubjecttoIIxI12 = 1,IIxI10<k 求解过程具体包括: Stepl:初始化Xci与迭代次数t= 1,设置基数Ici ; Step2:计算
按绝对值大小获取k个Xt的下标赋给Ft ; Step3:计算xt' =Truncate(xt,Ft),归一化xt =xt' / | |xt' | |,t一t+1 ; Step4 :当Step3计算结果收敛时,停止计算;否则,重复Step2和Step3步。
6.如权利要求1所述的一种基于截断幂的稀疏基因表达数据分析方法,其特征在于: 步骤三中,采用K-means聚类算法进行聚类方法处理。
【文档编号】G06K9/62GK104268564SQ201410472872
【公开日】2015年1月7日 申请日期:2014年9月16日 优先权日:2014年9月16日
【发明者】沈宁敏, 李静, 周培云 申请人:南京航空航天大学