用于生物路径中的调控互动的学习和识别的系统和方法_3

文档序号:8516050阅读:来源:国知局
系统的活动的数字模型,可能地为因子图 的形式。每个路径模型150包括多个路径元素151A至151N,统一地称为路径元素151。路 径元素151表示沿通路的发生活动的级。在至少两个径元素151之间,例如所示的路径元 素151A和151B,是调控节点153A表示的调控节点,总体上称为调控节点153。虽然未示 出,但是路径元素151的每个集合之间可以存在其它调控节点153。因此,至少两个路径元 素151,例如路径元素151A和151B,经由具有调控节点153(如所示的调控节点153A)的通 路彼此耦接。路径模型150的调控节点153根据一个或多个调控参数155A(总体上称为调 控参数155)控制元素之间的沿通路的活动。应该理解,路径模型150可包括任意可行数量 的路径元素151、调控节点153和调控参数155。举例来说,考虑其中路径元素151包括DNA 序列、RNA序列、蛋白质、蛋白质功能或其它活动兀素的情况。
[0040] 在其中路径元素151包括DNA序列的情况下,调控参数155可包括转录因子、转录 激活因子、RNA聚合酶亚基、顺式调控元素、反式调控元素、乙酰化组蛋白、甲基化组蛋白、阻 遏物或其他活动参数。此外,在其中一个路径元素151包括RNA序列的情况下,调控参数 155可包括起始因子、转译因子、RNA结合蛋白、核糖体蛋白质、小片段干扰RNA、聚腺苷酸A 结合蛋白或其他RNA活动参数。而且,在其中一个路径元素151包括蛋白质的情况下,调控 参数155可包括磷酸化作用、酰化作用、溶蛋白性裂解和与至少第二类蛋白的关联。
[0041] 组学处理模块170利用路径模型150以及数据集合135来推断多个调控参数中的 一组互动关联160。可被用来推断互动关联160的一个示例类型模型包括概率模型,其中模 型配置组学处理模型170以比较多个原始数据集合135的多对调节器参数。在一些实施例 中,调节器节点153根据共存调控模型进行操作,其中学习引擎110学习给定父节点的子节 点的完整的条件概率表。在其它情况下,调控节点153可基于独立调控模型进行操作,其中 学习引擎110利用Na'ive Bayes假设学习条件概率以计算给定父节点的子节点的概率。
[0042] 设想的概率模型被进一步配置成确定多个调节器参数155之间的依赖性以及相 应通路的活动的重要性,给出通路的活动的调控参数之间的条件依存关系的重要性。例如, 一旦计算出或者建立了条件概率,组学处理模块150可利用G-测试来确定重要性。而且, 概率模型被进一步配置成针对调控参数确定互动的符号。一旦建立了互动关联160,路径模 型150可被更新来反映学习到的互相关系。由此,应该理解,学习引擎通常包括组学输入接 口,其接收一个或多个组学数据集合。这种组学输入接口可被耦接至在大部分典型情况下 向组学处理模块提供了组学信息的各种装置或系统。例如,组学信息可从公开数据、基因组 的、RNomic和/或蛋白质组的组学数据库导出,来自组学信息数据库(例如,TCGA)的输出 文件,以及提供了组学数据的其它装置、服务和网络,包括DNA、RNA和/或蛋白质序列数据 库,排序装置、BAM服务器等;由此,应该理解的是,数据的格式可考虑变化而且可表示为整 个基因组数据、部分基因组数据、或差分序列对象。
[0043] 更典型地,组学处理模块在信息上耦接至接口而且被配置成访问具有多个路径元 素(例如,DNA序列、RNA序列、蛋白质和蛋白质功能)的路径模型,其中两个或更多元素经 由具有调控节点的通路彼此耦接,调控节点根据多个调控参数控制沿通路的活动,(b)经由 组学输入接口获取至少一个组学数据集合,(c)根据至少一个组学数据集合和路径模型,推 断多个调控参数中的一组互动关联,以及(d)根据互动关联更新路径模型。
[0044] 应该认识到,对于路径模型:(a)可由组学数据的集合产生,或者可从之前的确定 结果获取。因此,设想的系统和方法将包括耦接至组学处理模块的存储模块,其中存储模块 存储一个或多个之前确定的路径模型。还应该认识到,存储的路径模型可对应于'正常'组 织或生病组织。当路径模型来自生病组织时,还应该认识到,生病组织可具有由亚特点表征 的特定亚型(例如,对针对特定药物抗治疗的亚型,来自转移性组织的亚型,等等)。还设 想,组学数据可按照各种方式经由接口提供。例如,数据可被提供为单个文件,或者不同的 多个文件的集合,其可由服务提供商提供,来自之前存储的库,或来自排序装置或序列分析 系统。因此,学习引擎可还包括或者可被耦接至染色体组数据库、BAM服务器或排序装置。
[0045] 根据具体通路,应该注意的是,路径元素的特性将显著变化,而且随着调控参数的 特性变化。然而,总体上应该注意,调控参数将确定流经从路径元素至下游元素的通路的信 号流。例如,在路径元素是或者包括DNA序列时,设想的调控参数将是DNA序列的影响转录 (或其它任务)的那些细胞实体。因此,针对DNA序列的设想的调控参数包括一个或多个转 录因子、转录激活因子、RNA聚合酶亚基、顺式调控元素、反式调控元素、(脱)乙酰化组蛋 白、(脱)甲基化组蛋白和/或阻遏物。类似地,在路径元素是或者包括RNA序列时,设想 的是,适当的调控参数包括影响RNA的转译(或其它活动)的因子。由此,这种调控参数包 括起始因子、转译因子、RNA结合蛋白、核糖体RNA和/或蛋白质、小片段干扰RNA和/或聚 腺苷酸A结合蛋白。类似地,此处,路径元素是或者包括蛋白质,影响该蛋白质的活动的所 有因素被认为是适当的调控参数而且可因此包括其它蛋白质(例如,与蛋白质互动以形成 激活的复合体或与不同活动复合),化学改型(例如,磷酸化作用、酰化作用、溶蛋白性裂解 等)。
[0046] 相对于调控参数中的该组互动关联的推断,总体上设想,该推断基于组学数据集 合和/或路径模型,而且总体上设想,利用下文将更详细描述的概率模型(例如,共存和/ 或独立调控模型)执行该推断。由于潜在的非常大量的可能互动关联,而且总体上设想,组 学处理模块将确定(单个节点的)调控参数和通路的活动之间的依赖性的重要性水平和/ 或给出通路的活动的(单个节点的)调控参数之间的条件依存关系的重要性。按照这样的 方式,解析焦点可被分配给具有统计上最高的重要性的互动关联,下文将更详细地描述。
[0047] 未限制至本发明主题,发明人还发现,互动关联及其重要性的互动关联可进一步 通过针对调控参数确定互动的符号(正/激活,或者负/抑制)的统计操作进行提炼。利 用由此确定的互动关联及其对通路的影响现在将提供对路径的网络和通过该路径的信号 流的显著改进的理解。
[0048] 因此,从不同的观点来看,应该理解的是,可通过经由组学输入接口获取至少一个 组学数据集合(例如,整个基因组数据、部分基因组数据、或差分序列对象)产生路径模型。 组学处理模块随后访问具有多个路径元素的(例如,之前确定的)路径模型,其中至少两个 元素经由具有调控节点的通路彼此耦接,所述调控节点根据多个调控参数控制沿通路的活 动。组学处理模块随后根据组学数据集合和/或路径模型推断多个调控参数中的一组互动 关联,而且路径模型随后根据互动关联进行更新。
[0049] 类似地,应该认识到,利用设想的系统和方法,可以识别出针对路径模型中的调控 节点的调控参数的亚型特定互动关联。如上所述,经由组学输入接口获取表示亚型组织的 至少一个组学数据集合,而且组学处理模块访问之前确定的路径模型。随后经由组学处理 模块,通过多个调控参数中的互动的概率分析,从代表亚型组织的组学数据集合导出亚型 互动关联,下文将更详细地描述,而且导出的亚型互动关联随后呈现在(或并入)路径模型 中。虽然组织的所有类型的亚类型被认为对于此处的使用是适当的,特别设想的亚类型包 括抗药性组织、分生组织、药物治疗组织或/或组织的克隆变异体。实验的和/或理论的实 验(例如,生物体外、硅中、整体)可随后可被执行来验证导出的亚型互动关联。当然,相对 于该方法的组件,与上述和下述相同的考虑可应用。
[0050] 更具体地,在此处呈现的概率图模型中,来自样本(例如,肿瘤活体组织切片)的 生物分子(例如蛋白质、信使RNA、复合体和小生物分子)的状态在此表现为变量。例如,对 于每个基因,变量被用于该基因的基因组副本数、转录该基因的信使RNA、从该基因导出的 蛋白质,而且在大部分情况下,对应于可被蛋白质的后转译改型调控的基因(在路径中注 释)的生物活动的非物理附加变量。变量还可被包括来表示路径中一般注释的更多抽象状 态,例如细胞死亡。
[0051] 改变分子的状态(例如基因转录调控、蛋白质磷酸化作用、复合物形)的有原因的
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1