一种基因表达缺失数据的填补方法

文档序号:6629145阅读:774来源:国知局
一种基因表达缺失数据的填补方法
【专利摘要】本发明公开了一种基因表达缺失数据的填补方法,包括如下步骤:首先对于给定的目标基因,选取与目标基因最相似的k个近邻基因;其次利用选出的k个近邻基因构建相应的目标函数,并采用最小二乘准则和拉格朗日方法迭代地求解回归系数矩阵和对角权重矩阵;再根据不同的回归情况,分别采用不同的填补公式对缺失数据进行填补;最后利用一个不确定性度量对本发明提出的方法进行循环迭代,直到缺失值不再变化。本发明有效地解决了基因表达缺失数据的填补问题,使得对基因表达数据分析的结果更为可靠,为后续的基因表达数据分析提供更为有利的数据支持。
【专利说明】一种基因表达缺失数据的填补方法

【技术领域】
[0001] 本发明涉及生物信息【技术领域】,尤指一种基因表达缺失数据的填补方法。

【背景技术】
[0002] 随着生物技术的不断发展,特别是DNA微阵列技术的开发,已经允许人们在基因 水平上揭示有机体的奥秘。由DNA微阵列技术产生的数据亦称为基因表达数据,目前已广 泛地应用于致病基因的发现,疾病的辅助诊断,药物疗效的判断等领域。然而,由于各种各 样的原因,基因表达数据存在大量的缺失值。根据调查,所有的基因表达数据都含有一定程 度的缺失现象,有时候超过90%的基因都会受到缺失数据的影响。而且现有的大多数数据 分析工具都是针对完整的数据设计的,无法直接应用于含有缺失的基因表达数据。因此,准 确的填补基因表达缺失数据将具有重要的理论意义和实用价值。
[0003] 解决数据缺失的最简单方法就是直接删除或忽略缺失值。另外,还有一些比较简 单的缺失数据处理方法,如使用"0"填充,或者使用数据的行平均值代替,或者列平均值代 替。但由于这些方法没有考虑到数据之间的关联,也没考虑到基因表达数据本身具有的结 构,因此这样填补的数据常常具有较差的性能和较高的估计误差。近年来,随着生物信息技 术的深入研究与发展,人们尝试借鉴其他领域缺失数据填补的一些思想,提出了许多基因 表达缺失数据的填补方法。按照算法思想分类,可将常用的填补算法分为五类:基于k近邻 的方法(KNN)、基于奇异值分解的方法(SVD)、基于贝叶斯主成分分析的方法(BPCA)、基于 最小二乘准则的方法以及基于聚类的方法等。
[0004] 基于最小二乘准则的方法,由于其思想简单,数学表达清楚,填补效果显著等特点 而得到了广泛的关注,并取得了大量的研究成果,如局部最小二乘方法(LLS),迭代的局部 最小二乘方法(ILLS)、序列局部最小二乘方法(SLLS)、权重局部最小二乘方法(WLLS)、迭 代的双聚类局部最小二乘方法(BI-ILS)等。最小二乘准则填补方法都采用两步实现:第一 步,针对需要填补的基因,预选出最相似的k个近邻基因;第二步,运用预选的基因采用最 小二乘准则进行缺失数据填补。多元回归分析是所有最小二乘准则填补方法的一个必须而 重要的步骤,多元回归的结果进一步用于基因表达缺失数据的填补。然而,现存的所有最小 二乘准则方法中,多元回归分析都没有考虑到不同近邻基因的不同重要性。为此,本发明考 虑了目标基因的k个最近邻基因的不同重要性,提出了一种自动地加权不同近邻基因的缺 失数据填补方法。


【发明内容】

[0005]鉴于现有的基于最小二乘准则填补方法存在的问题,本发明的目的是提供一种考 虑了不同近邻基因的不同重要性的缺失数据填补方法一迭代的局部自加权最小二乘填 补方法(ILAW-LS)。
[0006]具体实施步骤如下所示:
[0007] -种基因表达缺失数据的填补方法,自动加权不同近邻基因并对基因表达缺失数 据进行填补,包括如下步骤:
[0008] 步骤1 :输入具有缺失数据的基因表达矩阵<3 其中,m为基因的数量,n为 样本的数量;
[0009] 步骤2 :选取目前尚未被填补的缺失数据行作为目标基因,假设该目标基因具有Ρ 个缺失样本值;再选取与目标基因最相似的k个近邻基因,并构建相应的矩阵Α和Β,其中, 矩阵A由k个近邻基因的p个缺失样本所在的列构成,矩阵B由k个近邻基因的 q = n-p 个未缺失样本所在的列构成;
[0010] 步骤3 :采用最小二乘准则和拉格朗日方法,迭代地求解回归系数矩阵奢和对角权 重矩阵禽(幻_=;
[0011] 步骤3· 1 :随机初始化对角权重矩阵w°(k),采用最小二乘方法计算回归系数矩阵 Y°使得I |w°(k) (AY-B) I |F达到最小,并计算回归残差矩阵的F范数值ErrorF= I |AY°-B| |F ; 设置最小的残差F范数值MinErrorF = ErrorF和相应的回归系数矩阵Ymin = γ°,并设定初 始的迭代次数t = 〇以及最大的迭代次数τ; mm
[0012] 步骤3·2 :令脅,采用最小二乘方法计算回归系数矩阵使得 1辆1)(灰¥-:6)1达到最小,并计算回归残差矩阵的F范数值ErrorF = | |AYt+1-B| |F ;如果 ErrorF<MinErrorF,则修正最小的残差F范数值MinErrorF = ErrorF和相应的回归系数矩 阵1 =浐+1;如果11以命(杜^1)-1>(命(幻,^11<6或者七达到最大的迭代次数 1',则跳转 到步骤4;否则,跳转到步骤3·3。其中,P(W(k),Y)为本发明的目标函数,ε为预先给定的 较小的常数值;
[0013] 步骤3_ 3 :令,采用拉格朗日方法计算权重矩阵Wt+1使得带约束的目标函数 P(輝),V)达到最小;如果IIP(妒+1_:t)-PCT(歐__,则跳转到步骤4 ;否则,重置迭代 次数t = t+Ι,并跳转到步骤3. 2 ;
[0014]步骤4 :如果迭代次数t达到最大的迭代次数T,跳转到步骤5 ;否则,采用表达式 uT = vTYt+1来填补相应的缺失数据,并且跳转到步骤6 ;其中,UT为目标基因的p个缺失样本 列,ντ为目标基因的q个未缺失样本列;
[0015]步骤5 :如果|:|:P(vV⑷,γ?+1)-,则采用表达式UT = νΥ+1来填补缺失 数据,并跳转到步骤6 ;否则,采用表达式uT = VTYmin来填补缺失数据,并跳转到步骤6 ; [0016]步骤6 :如果所有的缺失数据都被填补完全,则以现有的填补值为基础,多次迭代 的填补缺失数据直到填补达到稳定状态或者达到最大迭代次数τ ;否则,跳转到步骤2 ; [0017] 步骤7 :输出填补完全的基因表达矩阵; '
[0018]采用这样的处理,本发明方法能根据近邻基因的不同重要性自动地更新近邻基因 的权重,从而自动地强调重要的近邻基因并淡化包含噪声的近邻基因。该方法在局部最小 二乘法(LLS)的基础上,添加了一个新的步骤来计算近邻基因的权重,并采用拉格朗日法 给出了相应的最优权重计算公式。为了提高该方法的收敛速度,本发明设计了一个加速策 略,该策略保证在最差的情况下也能具有局部最小二乘方法( LLS)的收敛速度。
[0019]此外,本发明还设计了一个迭代的填补框架来进一步提高填补的准确性。所述的 步骤6中多次迭代的迭代框架可以采用以下规则来实现:对于某个给定的缺失样本,只有 当不确定性下降的时候,才以现有的迭代结果替换上一次的值。其中,不确定性度量Θ的 计算公式如下:
[0020]

【权利要求】
1. 一种基因表达缺失数据的填补方法,自动加权不同近邻基因并对基因表达缺失数据 进行填补,包括如下步骤: 步骤1 :输入具有缺失数据的基因表达矩阵,其中,m为基因的数量,η为样本 的数量; 步骤2 :选取目前尚未被填补的缺失数据行作为目标基因,假设该目标基因具有ρ个缺 失样本值;再选取与目标基因最相似的k个近邻基因,并构建相应的矩阵Α和Β,其中,矩阵 A由k个近邻基因的ρ个缺失样本所在的列构成,矩阵B由k个近邻基因的q = n-p个未缺 失样本所在的列构成; 步骤3:采用最小二乘准则和拉格朗日方法,迭代地求解回归系数矩阵t和对角权重 矩阵Vv(/〇; 步骤3. 1 :随机初始化对角权重矩阵W°(k),采用最小二乘方法计算回归系数矩阵Y°使 得| |W°(k) (ΑΥΒ) | ^达到最小,并计算回归残差矩阵的F范数值Err〇rF= | |AY°-B| |F;设置 最小的残差F范数值MinErrorF = ErrorF和相应的回归系数矩阵Ymin = Y°,并设定初始的 迭代次数t = 0以及最大的迭代次数Τ ; 步骤3. 2 :令
,采用最小二乘方法计算回归系数矩阵Yt+1使得 ||古⑷仏丫-:8瓜达到最小,并计算回归残差矩阵的F范数值ErrorF = | |AYt+1-B| |F;如果 ErrorF〈MinErrorF,则修正最小的残差F范数值MinErrorF = ErrorF和相应的回归系数矩 阵Ymin = Yt+1;如果II
<£或者t达到最大的迭代次数τ,则跳转 到步骤4;否则,跳转到步骤3.3。其中,P(W(k),Y)为本发明的目标函数,ε为预先给定的 较小的常数值; 步骤3. 3 :令?=Υ?,采用拉格朗日方法计算权重矩阵Wt+1使得带约束的目标函数 ?(\¥认)方):达到最小;如果||?(\^+1(幻,豹-?(^¥从)力||<£:,则跳转到步骤4 ;否则,重置迭代 次数七=1+1,并跳转到步骤3.2; 步骤4 :如果迭代次数t达到最大的迭代次数T,跳转到步骤5 ;否则,采用表达式uT = vTYt+1来填补相应的缺失数据,并且跳转到步骤6 ;其中,uT为目标基因的ρ个缺失样本列, ντ为目标基因的q个未缺失样本列; 步骤5 :如果|| P(\V(々),Y_' ·1) - P(\V(/〇,Y") < ;,,则采用表达式uT = vTYt+1来填补缺失数据, 并跳转到步骤6 ;否则,采用表达式uT = vTYmin来填补缺失数据,并跳转到步骤6 ; 步骤6 :如果所有的缺失数据都被填补完全,则以现有的填补值为基础,多次迭代的填 补缺失数据直到填补达到稳定状态或者达到最大迭代次数T ;否则,跳转到步骤2 ; 步骤7 :输出填补完全的基因表达矩阵。
2. 根据权利要求1所述的一种基因表达缺失数据的填补方法,其特征在于:所述的步 骤6中多次迭代的迭代框架可以采用以下规则来实现:对于某个给定的缺失样本,只有当 不确定性下降的时候,才以现有的迭代结果替换上一次的值。其中,不确定性度量Θ的计 算公式如下:
其中,ta/2;l"为置信水平为α自由度为u-r的t分布,u和r分别为矩阵A行和列的 数目,#为多元回归方差的无偏估计值,其计算公式如下所示:
其中,是矩阵B的第j列,^是矩阵?的第j列。
【文档编号】G06F19/20GK104298893SQ201410519632
【公开日】2015年1月21日 申请日期:2014年9月30日 优先权日:2014年9月30日
【发明者】李天瑞, 余增, 景运革 申请人:西南交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1