用于疾病亚型问题的基于网络的聚类方法_2

文档序号:8943288阅读:来源:国知局
,对每个基因i建立激活函数以·)。 建立过程如下:(1)对于任意的基因i e V,i = 1,2, K,n,我们从G(V,E)中找出所有与i 相邻且以i为有向边终点的点,构成影响因子集合{Ql,q 2, K,qsn}。(2)确定解离常数k1]: h将从定义在[0.01,1]区间上的均匀分布中选取。(3)确定希尔系数n 1]:n u服从[1,10] 区间中的高斯分布函数#0)? (4)确定相对活性α1:α i将从定义在[0,1]区间上的均 匀分布上采样。
[0059] 步骤C :确定无噪声动态基因调控模型,也就是方程
[0060]
(2. 1)的各个参数。
[0061] 式中=X1--基因i的浓度;
[0062] Y1--蛋白质i的浓度;
[0063] --mRNAj9浓度变化率;
[0064] Ffriif--蛋白质i的浓度变化率;
[0065] Iiii--基因 i的最大转录速率;
[0066] Ti--HiRNAi 的翻译速率;
[0067] --InRNA1 的降解速率;
[0068] 一一蛋白质i的降解速率;
[0069] ^(〇 一一基因 i的激活函数。
[0070] 首先,mRNA的半衰期:Zfs以及蛋白质的半衰期If# (以分钟为单位)将从定义在 [5, 50]区间上的高斯分布上采样。根据公式:
[0071]
[0072] 我们便可以获得mRNA以及蛋白质的降解速率。此外,最大转录速率叫以及翻译 速率Γι服从[0.01,0.011]区间上的均匀分布。
[0073] 步骤D :在获得了基因调控网络以及动态基因模型之后,求解方程(2. 1),并做出 各个mRNA浓度随时间变化的时间序列图。为此,我们首先要选定mRNA浓度X (Xl,χ2, Κ,χη) 以及蛋白质浓度y(yp y2, K,yn)的初始值。我们的做法是令各个XjPyi服从[0,1]区间 上的均匀分布,并随机选取作为初始值。在获得了各个mRNA以及蛋白质浓度的初始值后, 我们便可以通过方程(2. 1)求解最终的基因表达数据。我们一共取η = 10, 20, 50个基因, 计算t = 0到t = 500之间的时间序列图。
[0074] 步骤F :我们用一个仿真给出一个观察。我们首先选定一个基因调控网络。接着, 我们随机产生四组不同的初值Xi (xn,xi2, K,Xin),n = 20,i = l,2,3,4以及YiCyil, yi2, K, yin),η = 20, i = 1,2, 3,4作为mRNA及蛋白质初始浓度。最后,我们用方程(2. 1)计算并 绘制四种不同初值情形下的mRNA浓度时间序列图,并给出四种状态下mRNA浓度终态的数 据。
[0075] 步骤G :我们使用基因调控模型(2. 1)进行仿真,并最终得到一个O-G矩阵 (32 X 20)。然后我们运用基于网络的Pearson距离结合k-medoids算法对被试者进行分类 具体做法为将32个被试者划分为4类,K-medoids聚类算法是,基于网络的Pearson距离 具体的算法过程如下:
[0076] A :从32数据对象中任意选取4个数据对象作为medoids-聚类的中心;
[0077] B :选定基于网络的Person距离,.
分别计算余下的数据对象到各个聚类中心的距离,并将余下的数据对象分配到离自己最近 的聚类中,最终得到4组划分;
[0078] C :数据对象分配完成后,顺序选取一个数据对象来代替原来的聚类中心,并计算 代替后的优化目标函数f,选择f最小的数据对象来代替聚类中心,这样4个mediods就改 变了;
[0079] D :与前一次的聚类中心相比较,如果发生变化转到(B),如果不发生变化转到 (E);
[0080] E :将聚类的结果输出,并将分类的结果与真实情况进行对比(真实情况即为正常 类型与每种异常各有8位被试者)。
[0081] 步骤H :综上所述,我们提出"基于网络的聚类(Network-based Clustering) "方 法,得出最终关于疾病亚型的分类。
[0082] 最后,需要注意的是,以上列举的仅是本发明的具体实施例。显然,本发明不限于 以上实施例,还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导 出或联想到的所有变形,均应认为是本发明的保护范围。
【主权项】
1.用于疾病亚型问题的基于网络的聚类方法,其特征在于,具体包括下述过程: (1) 获得O-G矩阵以及基因调控网络; (2) 选取适用于具体问题的基于网络的距离定义,构建距离矩阵; (3) 运用k-medoids算法对O-G矩阵进行聚类分析;聚类时距离的选择用基于网络的 距离; (4) 得出最终关于疾病亚型的分类; 所述过程(1)具体包括下述步骤: 步骤A :根据基因调控网络的特性,构建随机的有向图来代表基因调控网络G(V,E);其 中每个顶点i e V代表基因 i及其产生的mRNAjP蛋白质i ;每条有向边e E代表着"转 录因子j调控基因 i的转录"这种调控关系; 步骤B :根据产生的基因调控网络G (V,E),对每个基因 i建立激活函数A (·),具体建 立方式为: 对于任意的基因 i e V,i = l,2,K,n,我们从G(V,E)中找出所有与i相邻且以i为有 向边终点的点,构成影响因子集合{qpqytqj ;其中,Q1表示与i相邻且以i为有向边终 点的某基因中对基因 i起影响作用的因子,q2表示与i相邻且以i为有向边终点的某基因 中对基因 i起影响作用的因子,qsn表示与i相邻且以i为有向边终点的某基因中对基因 i 起影响作用的因子,η表示基因调控网络中基因的数量; 确定解离常数1?,且Iclj从定义在[0. 01,1]区间上的均匀分布中选取; 确定希尔系数η,,且服从[1,10]区间中的高斯分布函数力_口>4); 确定相对活性a i,且α,人定义在[〇,1]区间上的均匀分布上采样; 步骤C :确定无噪声动态基因调控模型,即确定公式(2. 1)的各个参数;式(2. 1)中,^表示基因 i的浓度;yi表示蛋白质i的浓度;F ^rna表示mRNAj^浓度变 化率;F1pi^t表示蛋白质i的浓度变化率;!!^表示基因 i的最大转录速率;r i表示mRNA i的翻 译速率;λ"表示HiRNA1的降解速率;表示蛋白质i的降解速率;匕(·)表示基因 i的 激活函数; 确定公式(2. 1)中各个参数的具体方式为:mRNA的半衰期Lrna以及蛋白质的半衰期 丁广°7人定义在[5,50]区间上的高斯分布分1(27.5,56.25)上采样; 根据公式(2.9),获得mRNA以及蛋白质的降解速率,最大转录速率Hi1以及翻译速率Γι服从[0. 01,0. 011]区间上的均匀分布; CN 105160208 A权利要求f_ _2/4 页 式(2. 9)中,表示InRNA1的降解速率;表示蛋白质i的降解速率;mRNA的半衰 期??ΝΑ以及蛋白质的半衰期T广°、 步骤D :在获得了基因调控网络以及无噪声动态基因调控模型之后,选定mRNA浓度 1(义1,12,1(,111)以及蛋白质浓度7(71,7 2,1(,711)的初始值,然后求解公式(2.1),得到最终的 基因表达数据; 所述过程(2)具体是指:根据过程(1)所获得的基因网络的拓扑关系G(V,E),定义三 种基于网络的距离,用于比较X1 (Χη,Χ12, κ,xln)与x2 (x21,x22, K,x2n)的差别;其中X1U11, x12, K,xln)、x2(x21,x22, K,x2n)分别表示两个被试者 PjP P 2的 mRNA 浓度; 令G(V,E)代表该基因调控网络,其中每个顶点i e V代表基因 i及其产生的mRNAjP 蛋白质i ;它关联的Xi表示该基因转录的mRNA ;浓度;令每条有向边e E代表着"转录 因子j调控基因 i的转录"这种调控关系;记T1表示与节点i相连的边数,I廣示节点i的 入度,(^表示节点i的出度; 其中,基于网络的Jaccard距离定义为:其中,令G(V,E)代表该基因调控网络,其中每个顶点i e V代表基因 i及其产生的 mRNAjP蛋白质i ;它关联的X ;表示该基因转录的mRNA ;浓度;T ;表示与节点i相连的边数, 1表示节点i的入度,0 1表示节点i的出度;X ^指被试者Pl的mRNA i浓度;X 21指被试者P2 的IiiRNA1浓度;η表示基因调控网络中基因的数量; 基于网络的Euclidean距离:其中,X1^被试者Pl的mRNA i浓度;X 21指被试者P2的mRNA i浓度;X ^指被试者Pl的 HiRNAj浓度;X 2j指被试者P2的mRNA j浓度;η表示基因调控网络中基因的数量; 基于网络的Pearson距离: CN 105160208 A 权利要求书 3/4页其中,被试者Pl的mRNA i浓度;X 21指被试者P2的mRNA i浓度;η表示基因调控网 络中基因的数量;1表示节点i的入度 这里的xjg被试者Pi的mRNA 3农 度;这里的112指被试者Pi的mRNA 2浓度; 所述过程(3)具体是指:将过程(2)中定义的距离引入聚类分析中,使用k-medoids聚 类分析方法,对过程(1)所获得的基因表达数据进行聚类; 假设有η个被试者,我们将η个被试者划分为k类,K-medoids聚类算法是,基于网络 的Pearson距离具体的算法具体方法如下: (a) 从η个数据对象中任意选取k个数据对象作为medoids-聚类的中心, (b) 选定基于网络的Person距离,即:然后分别计算余下的数据对象到各个聚类中心的距离,并将余下的数据对象分配到离 自己最近的聚类中,最终得到k组划分,G1, G2,…,Gk; (c) 数据对象分配完成后,顺序选取一个数据对象来代替原来的聚类中心,并计算代替 后的优化目标函数其中,(Kx1, x2)定义如下:同理定义d(Xp xj和:'慮其中,为从X1, x2,…,χΑ选取的k个聚 类中心;表示XjE G1; 再选择f最小的数据对象来代替聚类中心,这样K个mediods就改变了; (d) 与前一次的聚类中心相比较,如果发生变化转到方法(b),如果不发生变化转到方 法(e); (e)将聚类的结果输出; 所述过程(4)具体是指:根据过程(3)的聚类结果,得出最终关于疾病亚型的分类。
【专利摘要】本发明涉及逆向研究疾病亚型领域,旨在提供用于疾病亚型问题的基于网络的聚类方法。该用于疾病亚型问题的基于网络的聚类方法包括过程:获得O-G矩阵以及基因调控网络;选取适用于具体问题的基于网络的距离定义,构建距离矩阵;运用k-medoids算法对O-G矩阵进行聚类分析,聚类时距离的选择用基于网络的距离。本发明对于特定的基因网络,将有更好的组间相似性,能更有效地还原三种亚型;当有大量的基因需要测定其表达数据时,本发明通过优先精确测量信息基因的表达数据,不会大大地削弱对于疾病亚型的鉴定效果。
【IPC分类】G06F19/24
【公开号】CN105160208
【申请号】CN201510532877
【发明人】孔德兴, 方红晟
【申请人】杭州奥视图像技术有限公司
【公开日】2015年12月16日
【申请日】2015年8月27日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1