用于生物路径中的调控互动的学习和识别的系统和方法

文档序号:8516050阅读:453来源:国知局
用于生物路径中的调控互动的学习和识别的系统和方法
【专利说明】
[0001] 相关申请的交叉引用
[0002] 本申请请求共同待决的2012年10月9日提交的序列号为61/711491的美国临时 专利申请、2012的年11月26日提交的序列号为61/729958的美国临时专利申请、以及2013 的年1月18日提交的序列号为61/754175的美国临时专利申请的优先权。
技术领域
[0003] 本发明的领域是组学数据的计算分析,具体地本发明涉及针对路径分析的学习算 法以及用途。
【背景技术】
[0004] 随着高速的遗传病筛查的出现,已经获得了捕获细胞的分子状态的逐步更大的数 据集,而且这些进步实现了对癌症中改变的细胞机理的增强的识别和理解。例如,对特定肿 瘤内频繁变化的关键目标的识别导致了最近20年来多达40种射靶疗法的开发。可惜的 是,在大部分情况下,这些药物中的许多的反应速率低于50%,突出了这些药物所影响的路 径的不完全理解。抗性机制的典型示例是结肠癌肿瘤中变化的EGFR中的RAS路径的激活, 其中突变的KRAS构成地激活RAS串,提供与EGFR路径独立的生长信号,导致诸如西妥昔单 抗治疗之类的EGFR封闭疗法极大地无效。因此,看起来,西妥昔单抗对路径的干扰的知识 相对于致瘤信号在细胞信令网络行进所经由的关键途径是不完整的。
[0005] 由于用于在路径水平下对组学数据进行积分的大量计算工具现在变得可用,所以 这种明显的不完整知识将更使人烦恼的。在各种其它工具中,多种算法(例如,GSEA、SPIA 和通路Ologist)能够利用从文献编组的路径成功地识别出感兴趣的变化的路径。其它一 些工具已经从文献中的编组互动创建了因果图,而且已经使用这些图来解释表达谱。诸如 ARACNE、MINDy和C0NEXIC之类的算法采用了基因转录信息(以及拷贝数,在C0NEXIC的情 况下),由此很可能在一组癌症样本上识别出转录驱动器。然而,这些工具不会将不同驱动 器组成识别单个关注目标的功能网络。诸如NetBox和Mutual Exclusivity Modules in Cancer(MEMo)之类的一些更新的路径算法试图解决癌症中的数据积分的问题,从而识别对 样本的致瘤潜能关键的多种数据类型的网络。虽然这种工具允许路径上的至少一些有限积 分以便找到网络,它们一般不能提供调控信息、以及该信息与相关路径或路径的网络中的 一个或多个效应的关联。类似地,GIENA寻找单个生物路径中的解除管制的基金互动,但是 不考虑路径的拓扑或者关于互动的方向或本质的先验知识。
[0006] 外部遗传分析、概率图模型已经被广泛地用在网络分析中,其中具有贝叶斯网络 和马尔可夫随机场形式的界标使用。多种方法已经通过多种不同方式从数据中成功地学习 了互动,包括相关网络。更近时间以来,PARADIGM(在染色体组模型使用数据积分的路径识 别算法)是在W02011/139345和W0/2013/062505中描述了的一种染色体组分析工具,其使 用概率图模型来在编组路径数据库上整合多种染色体组数据类型。这种模型系统有利地使 得各个样本能够被单独访问或者在成群关注的环境下被访问。然而,在该工具中学习的期 望最大化(EM)参数仅仅缺省地在观察的数据参数上执行,因为有限尺寸的可用数据集抑 制了互动参数的稳健评估。所以,该工具不能实现对将影响特定路径段中的活动的多种因 素的互动和相互关系的分析,而且由此不能提供对流经细胞信令网络的信号流的改进的分 辨率。
[0007] 因此,即使学习和识别生物路径中的调控互动的大量系统和方法在本领域是已知 的,所有或者几乎所有这些系统和方法具有一种或多种缺点。例如,在此以前已知的解析工 具不能识别出调制路径的通路中的活动的参数的互动的强度和方向,由此不仅不能实现信 号流和/或路径活动的干扰的预测,而且不能识别参数或路径元素的潜在差分使用。从不 同观点来看,当前已知的工具通常仅仅考虑单独的基因活动,但是不能检查与调控链接相 关的统计结果,因此仅仅提供了静态模型而不是动态模型。由此,已知的模型还不能检查网 络中不同的调节器如何产生类似的细胞表型,尽管采用了完全不同的路径来实现它们。因 此,仍然需要改进的系统和方法来学习和识别生物路径中的调控互动。

【发明内容】

[0008] 本发明涉及各种系统和方法,用于利用概率图模型来学习和识别生物路径中的调 控互动,在概率图模型中路径模型具有经由各个通路而彼此耦接的多个路径元素。所提出 的系统和方法中的通路被表达为具有根据多个互相联系的调控参数控制通路活动的调控 节点。
[0009] 根据组学数据集合和/或路径模型推断调控参数中的互动关联。由此,识别的互 动关联现在能够识别出调整路径的通路中的活动的参数的互动的强度和方向。由此,设想 的系统和方法能够预测路径活动的信号流和/或干扰,以及参数或路径元素的潜在的差别 应用。从不同的观点来看,设想的系统和方法提供了动态路径模型,该动态路径模型可被用 来识别通过一个或多个路径的信号流(甚至差分信号流)以及在各种(实际或仿真)情况 下预测信号流。
[0010] 在本发明主题的一个方面中,学习引擎包括组学输入接口,其接收一个或多个组 学数据集合(例如,整个基因组数据、部分基因组数据、或差分序列对象)。组学处理模块耦 接至该接口而且被配置成:(a)访问具有多个路径元素(例如DNA序列、RNA序列、蛋白质和 蛋白质功能)的路径模型,其中至少两个元素经由具有调控节点的通路彼此耦接,所述调 控节点根据多个调控参数控制沿通路的活动,(b)经由组学输入接口获取组学数据集合中 的至少一个组学数据集合,(c)基于所述至少一个组学数据集合和路径模型,推断多个调控 参数中的一组互动关联,以及(d)基于互动关联来更新路径模型。更典型地,学习引擎还包 括或耦接至染色体组数据库、BAM服务器或排序装置。
[0011] 在一些实施例中,路径元素包括DNA序列,而且调控参数是转录因子、转录激活因 子、RNA聚合酶亚基、顺式调控元素、反式调控元素、乙酰化组蛋白、甲基化组蛋白和/或阻 遏物。在其它实施例中,路径元素包括RNA序列,而且调控参数是起始因子、转译因子、RNA 结合蛋白、核糖体蛋白质、小片段干扰RNA和/或聚腺苷酸A结合蛋白,而且在另一些实施 例中,路径元素包括蛋白质,调控参数是磷酸化作用、酰化作用、溶蛋白性裂解和与至少第 >类蛋白的关联。
[0012] 在特别优选的方面中,组学处理模块被配置成利用概率模型推断互动关联,概率 模型使用共存和/或独立调控模型。而且,一般优选的是,概率模型进一步确定多个调控参 数与通路的活动之间的依存关系的重要性和/或给出通路的活动的调控参数之间的条件 依存关系的重要性。此外,设想的是,概率模型进一步确定调控参数的互动的符号。
[0013] 因此,从不同的观点来看,发明人还设想一种产生路径模型的方法,其包括经由组 学输入接口获取至少一个组学数据集合(例如,整个基因组数据、部分基因组数据、或差分 序列对象)的步骤。设想的方法还包括经由组学处理模块访问具有多个路径元素的路径模 型的附加步骤,其中至少两个元素经由具有调控节点的通路彼此耦接,所述调控节点根据 多个调控参数控制沿通路的活动;以及基于至少一个组学数据集合和路径模型,经由组学 处理模块推断多个调控参数中的一组互动关联的附加步骤。在另一步骤中,基于互动关联 来更新路径模型。更典型地,从染色体组数据库、BAM服务器或排序装置获取组学数据集合。
[0014] 在本发明主题的另一方面中,推断步骤基于概率模型,而且最优选的是,概率模型 使用共存和/或独立调控模型。此外,设想的方法包括确定多个调控参数与通路的活动之 间的依存关系的重要性和/或给出通路的活动的调控参数之间的条件依存关系的重要性 的步骤。还优选的是,设想该方法包括确定调控参数的互动的符号的步骤。
[0015] 在本发明主题的另一方面中,一种用于针对路径模型中的调控节点的调控参数识 别出亚型特定互动关联的方法,包括:经由组学输入接口获取表示亚型组织的至少一个组 学数据集合的步骤,以及经由组学处理模块访问具有多个路径元素的路径模型的步骤,其 中至少两个元素经由具有调控节点的通路彼此耦接,所述调控节点根据多个调控参数控制 沿通路的活动。设想的方法还包括:经由组学处理模块通过多个调控参数间的互动的概率 分析从表示亚型组织的至少一个组学数据集合导出亚型互动关联的步骤,以及在路径模型 中呈现导出的亚型互动关联的另一步骤。在特别优选的方面中,亚型组织是抗药性组织、分
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1