在系统毒理学中使用机理网络模型的系统和方法_3

文档序号:9553252阅读:来源:国知局
、光或半导体存储器 的适当组合,而且可以包括例如RAM 502、ROM 504、闪存驱动器、诸如紧凑盘之类的光盘或 者硬盘或驱动器。CPU 506和数据存储设备每个都可以例如完全位于单个计算机或其它计 算设备中;或者通过通信介质彼此连接,通信介质诸如是UBS端口、串口电缆、同轴电缆、以 太网类型电缆、电话线、射频收发器或者其它类似的无线或有线介质或者前述者的组合。例 如,CPU 506可以经由通信接口单元508连接到数据存储设备。CPU 506可以配置为执行一 个或多个特定的处理功能。
[0056] 数据存储设备可以存储例如(i)计算设备500的操作系统512 ; (ii)适于根据在 此描述的系统和方法,尤其是根据关于CPU 506具体描述的过程,指引CPU 506的一个或多 个应用514(例如,计算机程序代码或计算机程序产品);或者(iii)可被用来存储程序所 需信息的适于存储信息的数据库516。在某些方面,一个或多个数据库包括存储实验数据及 已发表的文献模型的数据库。
[0057] 操作系统512和应用514可以例如以压缩、未编译和加密的格式存储,并且可以包 括计算机程序代码。程序的指令可以从除数据存储设备之外的计算机可读介质,诸如从ROM 504或者从RAM 502,读取到处理器的主存储器中。在程序中指令序列的执行使CPU 506 执行在此描述的过程步骤的同时,硬连线的电路系统可以代替软件指令来实现本公开的过 程,或者与软件指令结合来实现本公开的过程。因而,所述系统与方法不限于硬件和软件的 任何特定组合。
[0058] 可以提供合适的计算机程序代码,用于执行与在此描述的建模、评分和聚集相关 的一个或多个函数。程序还可以包括诸如操作系统512、数据库管理系统和"设备驱动程序" 之类的程序元素,其中"设备驱动程序"允许处理器经由输入/输出控制器510与计算机外 围设备(例如,视频显示器、键盘、计算机鼠标等)接口连接。
[0059] 这里所使用的术语"计算机可读介质"指的是向计算设备500的处理器(或者在此 描述的设备的任何其它处理器)提供指令或参与提供指令以供执行的任何非临时性介质。 这种介质可以采取许多形式,包括但不限于非易失性介质和易失性介质。非易失性介质包 括,例如,光、磁或光-磁盘,或者集成电路存储器,诸如闪存存储器。易失性介质包括通常 构成主存储器的动态随机存取存储器(DRAM)。计算机可读介质的常见形式包括,例如,软 盘、软磁盘、硬盘、磁带、任何其它磁性介质、CD-ROM、DVD、任何其它光学介质、穿孔卡片、纸 带、任何其它具有孔图案的物理介质、RAM、PROM、EPROM或EEPROM (电可擦除可编程只读存 储器)、闪速EEPR0M、任何其它存储器芯片或盒式磁带、或者计算机可以从其中进行读取的 任何其它非临时性介质。
[0060] 各种形式的计算机可读介质可以涉及于把一条或多条指令的一个或多个序列携 带到CPU 506(或者在此描述的设备的任何其它处理器)以供执行。例如,指令可以最初 在远程计算机(未示出)的磁盘上产生。该远程计算机可以把指令加载到其动态存储器 中并且通过以太网连接、电缆线或者甚至利用调制解调器通过电话线发送指令。计算设备 500 (例如,服务器)本地的通信设备可以在相应的通信线路上接收数据并且把数据放到处 理器的系统总线上。系统总线把数据携带到主存储器,处理器从主存储器接收并执行指令。 在被处理器执行之前或之后,主存储器所接收到的指令可以可选地存储在存储器中。此外, 指令可以作为电、电磁或光信号经由通信端口接收,这些是携带各种类型信息的无线通信 或数据流的示例性形式。
[0061] 机理性网络模型
[0062] 使用计算网络模型来解释诸如转录组学数据之类的组学数据,通过从系统生物数 据集提取机理性信息提供了对生物网络扰动更详细的分子理解。组学数据指通常通过允 许如下测量被进行的技术获得的生物数据,这些测量往往以覆盖生物分子类别的大量成员 的系统级规模同时进行。可以在本发明中使用的组学数据的示例包括但不限于通过在基 因组学、表观基因组学、蛋白质组学、转录组学、脂类组学、代谢组学的研究中应用的技术获 得的那些。三步模型构建过程可以被使用。具体地,网络模型包括本生物过程的定性因 果关系。图IA示出一个这种以生物实体之间的因果关系的形式描述依组织和细胞而定 的生物过程的网络模型。模型用生物表达语言(BEL)编码并被编码在数据库中,其代表 可计算格式的科学发现。BEL框架是用于管理、公开和使用结构化生命科学知识的开源技 术,但是一般地,任何适当的框架可被使用。BEL框架不同于关注跨大量现有途径资源的生 物途径数据的整合和交换的BioPAX(生物途径交换)[Demir,E.et al. (2010)The BioPAX community standard for pathway data sharing. Nature Biotechnology. 28, 935-942]〇 诸如 KEGG(Kyoto Encyclopedia of Genes and Genomes) [Kanehisa,M.et al. (2012)KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res. 40, D109-14]和 IPA (Ingenuity Pathway Analysis) (www. ingenuity, com)之类 的基于途径的方法识别其蛋白质产物在感兴趣途径中起作用的差异表达基因。
[0063] 生物系统可以被建模为包括顶点(或节点)以及连接节点的边的数学图。节点 可以表示生物系统内的生物实体,包括但不限于化合物、DNA、RNA、蛋白质、缩氨酸、抗体、细 胞、组织和器官。边可以表示节点之间的关系。图中的边可以表示节点之间的各种关系。例 如,边可表示"绑定"关系、"被表达成"关系、"基于表达谱被共同调控"关系、"抑制"关系、 "在手稿中共现"关系或"共享结构要素"关系。一般地,这些类型的关系描述节点对之间的 关系。图中的节点也可以表示节点之间的关系。因此,表示关系之间的关系或一种关系和 图中表示的另一种类型的生物实体之间的关系是可能的。例如,表示化学品的两个节点之 间的关系可表示反应。该反应可以是该反应和抑制该反应的化学品之间的关系中的节点。
[0064] 图可以是无向的,意味着与每条边相关联的两个顶点之间没有区别。替代地,图的 边可从一个顶点指向另一个顶点。例如,在生物上下文下,转录调控网络和代谢网络可被建 模为有向图。在转录调控网络的图模型中,节点会用代表基因之间的转录关系的边来表示 基因。又例如,蛋白质-蛋白质相互作用网络描述有机体的蛋白质组中的蛋白质之间的直 接物理相互作用并且往往不存在与这种网络中的相互作用相关联的方向。因此,这些网络 可被建模为无向图。某些网络可同时具有有向和无向边。组成图的实体和关系(即,节点 和边)可作为互相关联的节点的网络被存储在数据库中。
[0065] 数据库中表示的知识可具有从各种不同源得到的各种不同类型。例如,某些数据 可表示基因组数据库,包括关于基因和基因之间关系的信息。在这种示例中,节点可表示致 癌基因,而连接到致癌基因节点的另一节点可表示抑制致癌基因的基因。数据可表示蛋白 质及蛋白质之间的关系、疾病及其相互关系以及各种疾病状态。存在许多可以在图形表达 方式中组合的不同类型的数据。计算模型可表示如下节点之间的关系的网络,所述节点表 示例如DNA数据集、RNA数据集、蛋白质数据集、抗体数据集、细胞数据集、组织数据集、器官 数据集、医学数据集、流行病学数据集、化学数据集、毒理学数据集、患者数据集和人口数据 集中的知识。如本文所使用的,数据集是源自在定义的条件下的样本(或样本组)的评价的 数值的集合。数据集例如可以通过对样本的可计量实体进行实验测量来获得,或者替代地 可以从诸如实验室、临床研究组织之类的服务提供者或从公共或私有数据库获得。数据集 可包含由节点表示的数据和生物实体,并且每个数据集中的节点可与同一数据集或其他数 据集中的其他节点相关。另外,网络建模引擎可生成表示例如DNA、RNA、蛋白质或抗体数据 集中的基因信息、医学数据集中的医学信息、关于患者数据集中的各个患者及关于流行病 学数据集中的全部人口的信息的计算模型。除了上述各种数据集之外,还存在许多其他数 据集或当生成计算模型时可被包括的生物信息类型。例如,数据集还可包括病历数据、结构 /活动关系数据、关于传染途径的信息、关于临床试验的信息、暴露模式数据、与产品的使用 历史有关的数据以及任何其他类型的与生命科学有关的信息。
[0066] 基因表达的变化不总与蛋白质活动的变化相关联。本文描述的网络模型不一定依 赖于这些"正向假设",而是可基于节点调控的基因的表达推断上游节点的活动。图IB示出 了用于指示原因和效果关系的包括骨干节点和支持节点的因果生物网络模型。"正向推理" 假设基因表达与蛋白质活动的变化相关联,而"后向推理"或"反因果推理"将基因表达的 变化考虑为上游实体活动的结果。在各种实现方式中,作为无需知晓其功能的差异表达基 因,这种网络模型中的节点的活动可基于底层可测量层来预测。图IC示出了捕捉节点中的 生物学特性以及节点之间的因果关系的网络模型。基因的差异表达(小黑球)是上游节点 活动的实验证据。
[0067] 基于反向因果推理来指示原因和效果的本发明中使用的包括节点的网络模型包 含若干优点。首先,网络中的节点由具有固定拓扑的有因果关系的边连接,允许网络模型的 生物意图被科学家或用户容易地领会,实现了网络的整体推断和计算。其次,不同于用于 构建途径或连接图的、其中连接常常被脱离组织或疾病上下文来表示的其他方法,本文的 网络模型遵守适当的组织/细胞上下文和生物过程。第三,因果网络模型可以捕捉范围广 泛的生物分子的变化,所述生物分子包括蛋白质、DNA变体、编码和非编码RNA以及其他实 体,如表型、化学品、脂类、甲基化状态或其他变型(例如,磷酸化作用)以及临床和生理学 观察。图ID示出了代表从分子、细胞和器官级别到整个有机体的知识的网络模型。第四, 网络模型是演化的并且可以被修改以通过适当的边界的应用来表示特定物种和/或组织 上下文并随着额外知识变得可获得而被更新。第五,网络模型是透明的;网络模型中的边 (因果关系)全部被公开的科学发现支持,使每个网络锚定到用于被建模的生物过程的科 学文献。最后,网络模型可以以(.XGMML)格式被提供以允许使用包括Cytoscape[Smoot,M. E. et al. (2011)Cytoscape 2. 8:new features for data integration and network visualization. Bioinformatics· 27, 431-432]的免费工具容易地可视化。
[0068] 网络模型被用作模拟和分析的基底,并且代表使能生物系统中的感兴趣特征的生 物机理和途径。所述特征或其某些机理和途径可有助于生物系统的疾病和不利影响的病理 学。在数据库中表示的生物系统的先验知识被用于构造由关于在各种条件下的许多生物实 体的状态的数据填充的网络模型,包括在正常条件下和被媒介扰动的条件下。使用的网络 模型是动态的,因为它表示各种生物实体的响应于扰动的状态的变化并且可以产生对媒介 对生物系统的影响的定性和客观评估。
[0069] 网络扰动幅度(NPA)分数的评估
[0070] 本公开的某些实现方式包括用于计算表示生物系统的一部分内的变化的大小的 数值的方法。该计算使用从一组受控实验获得的一组数据作为输入,所述受控实验中生物 系统被媒介扰动。数据随后被应用于生物系统的特征的网络模型。
[0071] 由该公开的计算机化方法生成的数值可以被用于确定由制成品(用于安全评估 或比较)、包括营养补充的治疗化合物(用于功效或健康收益的确定)和环境活动物质(用 于长期暴露及与不利影响和发病的关系的风险的预测)等等引起的想要的或不利的生物 影响的大小。
[0072] 在一个方面,本文描述的系统和方法基于受扰动生物机理的网络模型提供了表 示受扰动生物系统中的变化的大小的计算数值。本文中被称为网络扰动幅度(NPA)分数 的数值可以被用于概括地表示所定义的生物机理中的各种实体的状态变化。NPA先前被 详细描述于美国临时专利申请No. 61/525, 700 (代理人案号FTR0689/106500-0011-001)、 61/527,946(代理人案号 FTR0751/106500-0015-001)和 61/532,972(代理人案 号 FTR0748/106500-0016-001)以及 PCT 申请 N〇.PCT/EP2012/061035(代理人案号 FTR0689/106500-0011-TOl),PCT/EP2012/066557(代理人案号 FTR0751/106500-0015-W01) 和PCT/EP2012/003760(代理人案号FTR0748/106500-0016-TO1)中,上述申请中的每一个 被完整结合于此。针对不同媒介或不同类型的扰动获得的数值可以被用于相对地比较不同 媒介或扰动对生物机理的影响,所述生物机理使能或将自己体现为生物系统的特征。因此, NPA分数可被用于测量生物机理对不同扰动的响应。
[0073] NPA分数可辅助研究者和临床医生改进诊断、实验设计、治疗决定和风险评估。例 如,NPA分数可被用于筛选毒理学分析中的一组候选生物机理以识别最有可能受暴露给可 能有害媒介的影响的那些生物机理。通过提供对扰动的网络响应的测量,这些NPA分数可 允许(由实验数据测得的)分子事件与发生在细胞、组织、器官或有机体级别上的表型或生 物结果的关联。临床医生可使用NPA值来将受媒介影响的生物机理与患者的生理学条件相 比较以确定当暴露给媒介时患者最有可能经历什么健康风险或收益(例如,免疫受损的患 者可能特别易受到导致强免疫抑制响应的媒介的伤害)。
[0074] 根据该公开的示例性实现方式,因果网络模型被与用于计算NPA分数的算法相结 合。结果,基因表达倍数变化(也称为对比物或对比数据的集合)被转化成用于网络的每 个节点的差异值(用f表示)。节点差异值进而被概括成NPA的定量测量。
[0075] NPA可以被计算为网络(N)底层的有符号有向图的Sobolev型(半)范数,其可以 被表达成二次型l/#edges · fTQNf。即,如果与骨干实体的集合相关联的活动值的向量被表 示为f2,则NPA分数可以通过以下二次型来计算,
[0077] 其中
[0079] diag(out)表示具有第二组节点中的每个节点的外出度(out-degree)的对角矩 阵,diag(in)表示具有第二组节点中的每个节点的进入度(in-degree)的对角矩阵,V是网 络中所有节点的集合,并且A表示根据下式定义的并且仅限于表示骨干实体的节点的计算 网络模型的邻接矩阵(adjacency matrix)
[0081] 如果A为加权邻接矩阵,则A的元素(x,y)可乘以权重因子w(x,y)。在某些情况 中,一些骨干节点可能由于所谓的文献偏见而比其他骨干节点具有更多的支持基因表达证 据,所述文献偏见中,某些实体比其他实体被研究得更多。因果计算生物模型的结果在于具 有更多支持证据的节点将比不那么"富有"的节点具有更高的度。当结合大多数证据具有 非常低的信号的可能性进行计算时,推断出的节点活动值可能是系统上具有最低值的节点 之一。为了解决该问题,在一些实现方式中,与从节点到该节点的N个下游节点之一的边相 关联的权重被设为1/N。该修改可有利地强调(捕捉生物学特性的重要方面的)骨干结构 并平衡因果生物网络模型计算中骨干和支持节点的重要性。
[0082] 在一些实现方式中,NPA分数可根据下式来计算
[0084] 其中V。表示支持实体集(即,针对其接收了治疗和对照数据的那些实体),f(x)表 示生物实体X的活动值,并且sign (X - y)表示
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1