一种基于网络分析的群lasso特征分群方法

文档序号:9579514阅读:867来源:国知局
一种基于网络分析的群lasso特征分群方法
【技术领域】
[0001] 本发明属于生物工程技术领域,主要涉及生物信息学和生物数据挖掘,具体涉及 一种基于网络分析的群lasso特征分群方法。
【背景技术】
[0002] 生物工程是以生物学(主要是基因遗传学、细胞学和生物化学)的理论为基础,结 合机械、电子计算机、化工等现代工程技术,充分运用分子生物学的最新成就,自觉操纵遗 传物质,再对这些改造的工程细胞株进行培养,通过细胞增殖以生产大量有用代谢产物或 发挥它们独特生理功能的一门新兴技术。其广泛的用途主要应用于医药卫生、食品轻工、农 牧渔业、能源化工、冶金工业、环境保护等诸多方面。生物工程技术的合理应用将为解决人 类面临的粮食、健康、环境、能源等重大问题开辟广阔的前景。
[0003] 生物工程与计算器微电子技术、新材料、新能源等被列为21世纪科学技术的核 心。由于生命科学和计算机科学的有机结合,从而可以通过综合利用生物学,计算机科学和 信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
[0004] 生物工程着眼于分子层面,是对基因进行改造和重组而后进行培养增殖。对于改 造后的细胞植株要想快速培养应用于生物医药时,首先应从海量未知基因选择出并找到影 响细胞增殖的相关基因,这也是整个工程中至关重要的一步。另外,对于基因进行有效地分 群,了解其生物意义,还可以开发出基于这些基因的价格低廉的疾病基因芯片。
[0005] 目前为止基因的选择方法可以分为:滤波法、包装方法、内含法。虽然这些方法成 功地应用于联合的基因选择和微阵列分类,但是却不能较好的将其应用于较多的基因分群 之中,也不能揭示出基因与基因之间的相互作用。为了成群地选择特征的同时并能够进行 精度预测,2006年Yuan和Lin提出能按照预先分好的群进行基因选择的群lasso,Meier etal将其扩展到逻辑斯谏回归。为了能够同时产生分群的稀疏性和群内稀疏性,Simon etal提出了稀疏群lasso而且通过增广坐标下降算法发展了一个算法来拟合这个模型; Vincent等人将它拓展到了多项式稀疏群lasso和发展了求解算法。尽管群lasso,稀疏群 lasso和它们的拓展已经成功地应用到微阵列分类和基因选择,但是它们高度赖于群的划 分。传统的群lasso模型及其推广模型大多采用数据集中编写程序进行随机自动分群,常 常出现分群只与数据有关,与实际应用背景无关(无生物学意义)。从生物学角度来说,很 容易根据基因调控网络将基因成群地划分,然而对于复杂的生物过程却很难探测基因通路 并构建调控网络。因此,对群lasso及其推广模型进行特征分群是生物信息学、计算生物学 等领域的一个急需解决的挑战性问题。

【发明内容】

[0006] 本发明的目的是克服上述方法中存在的缺陷,提出了一种具有可靠性的基于网络 分析的群lasso及其推广模型的分群方法,以构建分层聚类树并利用动态树剪切算法识别 出影响细胞增殖的重要变量模块,并根据精简的网络模块对特征进行分群,进而简化特征 分群难度并提高模型进行特征选择的可靠性。
[0007] 本发明为实现上述目的采用如下技术方案,通过对实验数据进行预处理将其分为 两个数据集并通过相似性测量和幂邻接函数构建出邻接矩阵;然后利用差异性测量分别构 建出两类样本的分层聚类树并利用动态剪切树算法,计算出不同数据样本中的重要模块; 而后用负样本模块来简化正样本模块,得到精简模块;最后根据特征变量分群,构建稀疏群 lasso模型。其实现步骤如下:
[0008] (1)对于具体实验所得到的"小样本,超高维"数据,为了降低数据运行程序的负 担,依据实际实验背景,将原始数据中的异常数据,小关联数据筛选出来去掉,从而得到分 群预处理数据集X= [\山Xn;
[0009] (2)根据分类任务的类别,将分群预处理数据集X分为两类,即X+,X;通过相似性 测量和幂邻接函数,分别构建出邻接矩阵,f:
[0010] ⑶将邻接矩阵转化为拓扑重叠矩阵,Ω+ =[(:<]_&- 利用差异性测 量分别构建正样本和负样本的分层聚类树;
[0011] (4)利用动态剪切树算法,分别计算出正样本中的重要模块和负样本中的重要模 块;
[0012] (5)根据实际的实验背景,利用负样本中的模块来简化正样本中的模块,得到q个 精简模块;根据精简后的网络模块,把相应的变量分为特征群,余下的每一个变量分别看作 一个特征群,进而完成特征分群任务;
[0013] (R)枏抿Η术分雔笛^&1忽蛙紅亦看·分成η个雔.拔1???? 爐型:
[0014]
[0015] 本发明在构建数据网络时,首先将实验测试的原始数据预处理,并分成两个数据 集,便于网络的构建,此外也有利于以后根据动态聚类树显示的结果,将实验模块进行精 简,将分群过程简化。
[0016] 本发明在精简模块时,根据显示的正样本和负样本的分层聚类树图,选择出两个 样本在分层聚类树中显示相同颜色的模块,比较出两样本中具有相同数据特征的变量,并 筛选出来去掉,从而得出精简后的正样本模块,使得基于网络模块进行特征分群更具有生 物意义。
【附图说明】
[0017] 图1是本发明的总流程图;
[0018] 图2是构建网络模块并据此对特征分群示意图;
[0019] 图3是利用本发明对肝再生细胞增值数据构建的正样本模块分层聚类树图;
[0020] 图4是利用本发明对肝再生细胞增值数据识别出的正样本模块重要性图;
[0021] 图5是利用本发明对肝再生细胞增值数据识别出的简化正样本模块变量数目表;
[0022] 图6是利用本发明识别出的部分与肝再生细胞增殖相关基因表。
【具体实施方式】
[0023] 以下通过实施例对本发明的上述内容做进一步详细说明,但不应该将此理解为本 发明上述主题的范围仅限于以下的实施例,凡基于本发明上述内容实现的技术均属于本发 明的范围。
[0024] 参照附图1,本发明的实施步骤如下:
[0025] 步骤1 :用基因探针探测出大鼠肝切除后肝细胞样本在2、6、12、24小时的基因表 达谱数据,将其标记为正样本数据;同样方法可得未进行肝切除的对照组数据,将其标记为 负样本数据;将原始数据中的基因变异、异常数据和小关联数据筛选出来去掉,从而得到分 群预处理数据,其中未知变量(特征)为6995个。
[0026] 步骤2 :上述分群预处理数据,其为在4个时间节点采集的正负两类基因表达谱 数据,每一类包含36个样本,每一个样本包含6995个变量(特征),从而构建数据网络 集 …X:), " =U,"_36)为实验样本数据集, &= 1,2,· ··Μ)为对照实验样本数据集。
[0027] 步骤3 :依据相似性测量和幂邻接函数,将预处理数据集Χ+,X转化为邻接网络矩 阵I=[<,],,~乂 =仏
[0028] Π1)依?相类伸系教类系表达式:
[0029]
[0030]xh,x]为预处理数据网络 1 = ) 个变量的时间向量;cor(xh,x])为第h个变量和第j个变量的相关系数;从而将原始数据网 络转化为相关性系数网络矩阵s(hj) (h,j= 1,2,…,6995)。
[0031] (3. 2)利用幂邻接函数% ,其中β,彡1并且h,j= 1,2···,6995,β,由近似 的无标度拓扑准则,结合具体实验背景得β' = 9,计算出的矩阵Ah_j(h,j= 1,2,…,6995), 即为邻接网络矩阵。
[0032] 步骤4 :由公式/?=!>/乂/?···,3600)得到一个变量与群体变量的相关度矩 阵,将1按照从大到小进行排序,分别在不同数据集中挑选出前3600个相关度较强的变 量。
[0033] 说明4值越大说明此变量与其余变量相关性越强,在数据网络中越重要,此变量 在群体变量中的份量越重,此变量即为所找的变量,所以要在前面m个{(,值较大的变量中 进行分群。
[0034] 步骤5 :在上面选择的3600个变量中将邻接矩阵转化为拓扑重叠矩阵, Ω1 =[ω,^,:Χ?,,,ΩΗω,,]Λ^2;计算出每个集合中的变量之间的相异系数巧,构建出实验样 本和对照样本分层聚类树;利用动态剪切树算法,分别识别出实验样本中的重要模块和对 照
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1