生物通路的相关性评估和可视化的制作方法

文档序号:11635409阅读:197来源:国知局
生物通路的相关性评估和可视化的制造方法与工艺



背景技术:

本公开一般涉及对生物通路进行评估和可视化。更具体而言,本公开涉及用于评估生物通路与特定疾病状态的相关性以及用于简化被评估为与特定疾病状态相关的生物通路的可视化的系统和方法。

许多对疾病的全基因组关联研究已经表明dna序列变异和具体疾病表型之间的成千上万的因果联系和相关联系。这些可疑的或经验证的变异常常驻留在可以被映射到生物通路的基因和开放阅读框架内。生物通路是具有(例如,通过控制代谢物合成或通过调节基因集合的表达)影响细胞功能的集体活动的细胞内分子之间的交互的有序集合。

图1示出描绘典型细胞的示例性生物通路的图。如图所示,细胞不断接收来自身体内部和外部两者的线索(cue),这些线索是由诸如受伤、感染、压力或者甚至食物之类的刺激引起的。为了对这些线索做出反应和调整,细胞通过生物通路发送和接收信号。最常见的生物通路中的一些生物通路涉及代谢、基因调节和信号传输。大多数细胞通路可以被分类为(影响基因表达的)信号通路或(调节生化合成的)代谢通路。虽然一些分子(比如氧)可以容易地行进通过细胞膜,但是信号通过细胞表面上的结构(称为受体)。在与受体交互之后,信号行进通过细胞,在细胞中,信号的信息由驻留在细胞中的专门蛋白质或其它分子传播和改变。信号可以在化学反应中被涉及,从而触发新分子的组装、引导细胞移动、打开或关闭基因或者甚至改变细胞的形状。给定的基因可以驻留在多个通路中并且可以更改多个下游通路的活动。因此,单个基因内的功能更改变异可以影响多于一条通路。通路在提升我们对细胞中的生物过程的理解方面发挥关键作用。

通路信息通过从由专业管理者(curator)创建的高质量数据库到涵盖通过对摘要的自然语言处理(nlp)和文本挖掘而创建的大量通路的大规模数据库的大量数据库可用。例如,一些通路数据库提供详细的代谢通路,而其它通路数据库提供详细的信号通路。由于大小、质量和/或性质的差异,选择通路数据库并且进一步利用所选择的通路数据库来识别与用户的目的匹配的通路会是一种挑战。

典型的通路数据库包括通过通路图将通路可视化的能力,其中该通路图基于文献来组合代谢网络、基因网络和信号网络。允许通路图的产生、编辑和分析的软件应用是可用的。通路图通常经由有向图表示。有向图(或方向图或有向网络)是连接在一起的、被称为顶点或节点的对象的图或集合,其中所有边从一个顶点指向另一个顶点。将通路图可视化的能力在解释和理解生物过程中发挥根本性作用。



技术实现要素:

实施例涉及评估至少一条通路与感兴趣的疾病的相关性的计算机实现的方法,该至少一条通路具有源和目标。该方法包括由处理器开发源对该至少一条通路的影响。该方法还包括由处理器开发至少部分地基于该至少一条通路的更改而利用感兴趣的药物将该至少一条通路作为目标的值。该方法还包括由处理器识别该至少一条通路内的源和目标之间的关系。该方法还包括将以下各项组合:源对该至少一条通路的影响;至少部分地基于该至少一条通路的更改而利用感兴趣的药物将该至少一条通路作为目标的值;以及该至少一条通路内的源和目标之间的关系,其中该组合导致表示该至少一条通路与感兴趣的疾病的相关性的评估。

实施例还涉及用于评估至少一条通路与感兴趣的疾病的相关性的计算机系统,该至少一条通路具有源和目标。该系统包括被配置为开发源对该至少一条通路的影响的处理器。该系统还包括该处理器被配置为开发至少部分地基于该至少一条通路的更改而利用至少一种药物将该至少一条通路作为目标的值。该系统还包括该处理器被配置为识别该至少一条通路内的源和目标之间的关系。该系统还包括该处理器被配置为将以下各项组合:源对该至少一条通路的影响;至少部分地基于该至少一条通路的更改而利用感兴趣的药物将该至少一条通路作为目标的值;以及该至少一条通路内的源和目标之间的关系,其中由处理器组合导致表示该至少一条通路与感兴趣的疾病的相关性的评估。

实施例还涉及用于评估至少一条通路与感兴趣的疾病的相关性的计算机程序产品,该至少一条通路具有源和目标。该计算机程序产品包括具有随其实施的程序指令的计算机可读存储介质,其中该计算机可读存储介质不是暂态信号本身,并且程序指令可由处理器电路读取以使得处理器电路执行方法。该方法包括开发源对该至少一条通路的影响。该方法还包括开发至少部分地基于该至少一条通路的更改而利用感兴趣的药物将该至少一条通路作为目标的值。该方法还包括识别该至少一条通路内的源和目标之间的关系。该方法还包括将以下各项组合:源对该至少一条通路的影响;至少部分地基于该至少一条通路的更改而利用感兴趣的药物将该至少一条通路作为目标的值;以及该至少一条通路内的源和目标之间的关系,其中该组合导致表示该至少一条通路与感兴趣的疾病的相关性的评估。

实施例还涉及简化至少一条通路的可视化的计算机实现的方法。该方法包括创建该至少一条通路的图,其中该图包括通过边连接的多个节点。该方法还包括识别图的相关路径。该方法还包括从相关路径移除无信息或不重要的节点以创建第一子图。该方法还包括简化第一子图的关系和相关属性以创建简化的第二子图。

实施例还涉及用于简化至少一条通路的可视化的计算机系统。该系统包括被配置为创建该至少一条通路的图的处理器,其中该图包括通过边连接的多个节点。该系统还包括被配置为识别图的相关路径的该处理器。该系统还包括被配置为从相关路径移除无信息或不重要的节点以创建第一子图的该处理器。该系统还包括被配置为简化第一子图的关系和相关属性以创建简化的第二子图的该处理器。

通过本文所描述的技术来实现附加的特征和优点。其它实施例和方面在本文中被详细描述。为了更好的理解,请参考描述和附图。

附图说明

在本说明书的结尾处,被认为是本公开的主题在权利要求书中被特别指出并且明确地要求保护。从以下结合附图的详细描述中,上述特征和优点以及其它特征和优点是明显的,在附图中:

图1是描绘典型细胞的示例性生物通路的图;

图2描绘了能够实现本公开的一个或多个实施例的示例性计算机系统;

图3a描绘了根据一个或多个实施例的示例性系统的示意图;

图3b描绘了根据一个或多个实施例的、可以由图3a中所示的系统的模块实现的等式;

图4描绘了根据一个或多个实施例的方法的流程图;

图5描绘了根据一个或多个实施例的示出示例性通路评估结果的表格;

图6描绘了示出根据一个或多个实施例图3a中所示的系统的通路评估可以如何实现的示例的示意图;

图7a描绘了示出未简化通路的部分的图;

图7b描绘了示出根据一个或多个实施例的图7a中所示的通路的简化版本的部分的图;

图8描绘了示出根据一个或多个实施例的方法的流程图;以及

图9描绘了根据一个或多个实施例的计算机程序产品。

在附图和所公开的实施例的以下详细描述中,向附图中示出的各种元素提供了三个或四个数字的附图标记。每个附图标记最左边的(一个或多个)数字对应于首次示出它的元素的图。

具体实施方式

现在将参考相关附图来描述本公开的各种实施例。在不背离本公开的范围的情况下,可以制定替代实施例。注意到,在以下描述和附图中,元素之间的各种连接被阐述。除非另有规定,否则这些连接可以是直接的或间接的,并且本公开不意图在这方面进行限制。因此,实体的耦接可以指直接连接或间接连接。

生物通路是细胞中的分子之间导致细胞中的某种产物或变化的一系列动作。图1中示出用于代谢、影响细胞形状的变化并且产生新的蛋白质的示例性细胞通路。这样的通路可以触发新分子(诸如脂肪或蛋白质)的组装。通路还可以打开和关闭基因、或者刺激细胞移动。因此,通路将来自身体内部和外部两者的信号或线索不断地运输到细胞,这些信号或线索是由诸如受伤、感染、压力或者甚至食物之类的这样的事情引起的。为了对这些线索做出反应和调整,细胞还通过生物通路发送信号和线索。组成生物通路的分子与信号交互以及彼此交互,以执行它们的指定的任务。生物通路可以对短距离或长距离起作用。例如,一些细胞向附近的细胞发出信号,以修复局部损伤,诸如你膝盖上的擦伤。其它细胞产生通过你的血液行进到远处的目标细胞的物质,诸如激素。生物通路还可以产生小的或大的结果。例如,一些通路巧妙地影响身体如何处理药物,而其它通路在受精卵如何发育成婴儿的过程中发挥主要作用。

存在许多类型的生物通路。最常见的生物通路中的一些生物通路涉及代谢、基因调节和信号传输。代谢通路使我们的身体中发生的化学反应成为可能。代谢通路的示例是人类细胞将食物分解成能够被存储以供以后使用的能量分子的过程。其它代谢通路实际上有助于构建分子。基因调节通路打开和关闭基因。这样的行为是至关重要的,因为基因产生蛋白质,蛋白质是我们的身体中执行几乎每个任务必需的关键组成部分。蛋白质组成我们的肌肉和器官,并且帮助我们的身体移动以及保卫我们抵抗细菌。信号转导通路将信号从细胞的外部移动到细胞的内部。不同的细胞能够通过它们表面上被称为受体的结构来接收具体信号。在与受体交互之后,信号行进通过细胞,在细胞中,信号的消息由在细胞中触发具体动作的专门的蛋白质传输。例如,来自细胞外的化学信号可能被转化成细胞内的蛋白质信号。该蛋白质信号又可以被转换成促使细胞移动的信号。

生物通路并不总是正常工作。当通路出现问题时,结果可能是诸如癌症或糖尿病之类的疾病。研究人员常常通过学习生物通路来了解人类疾病。识别生物通路涉及什么基因、蛋白质和其它分子可以提供关于当疾病发作时哪里出问题的线索。例如,研究人员可以将健康人的某些生物通路与患有疾病的人的相同通路进行比较,以协助发现紊乱(disorder)的根源。

从基因集合中识别相关通路通常是实现这种研究哲学的第一步。然而,确定对于患病基因集合而言最相关的通路是有挑战性的,并且这种确定常常由于不同通路储存库之间存在的通路组成和拓扑的差异而变得更加困难。例如,沿生物通路的任何数量的步骤的问题可能常常导致同一疾病。基因突变也使得对与疾病状态相关的通路的识别复杂化。例如,癌症是与许多基因突变相关联的基因组疾病。在这些突变的基因中,驱动基因被定义为与肿瘤的形成和发展有因果联系,而过客基因(passengergene)被认为与癌症发展无关。不同的基因突变可能导致不同患者的相同的癌症。作为试图发现攻击一个明确定义的基因敌人的方法的替代,可以通过识别和关注被基因突变破坏的生物通路来简化该复杂的视图。药物开发者不是设计数十种药物来以数十种突变为目标,而是可以将注意力集中在仅两三个生物通路。然后,患者可以基于他们的特定肿瘤中受影响的通路来接收对他们最有可能起作用的一种或两种药物。

疾病涉及的通路的准确识别以及每个患者中受影响的识别出的通路的步骤的准确识别可以导致用于诊断、治疗和预防疾病的更具个性化的策略。研究人员当前正在使用关于生物通路的信息来开发新的和更好的药物。此外,通路信息还可以被用来更有效地选择和组合现有药物。随着越来越多的大规模基因组数据集可用,将这些基因组数据集成以识别来自癌症基因组失常区域的驱动基因成为癌症基因组分析和对负责癌症发展的机制的调查的重要目标。

本公开提供了用于针对生物通路与感兴趣的疾病的相关性来评估将该生物通路作为目标的值的系统和方法,其中具有最高相关性的生物通路可以更容易地被识别。本公开还提供了用于采用已经被识别为具有高相关性的通路以及提高将该高相关性通路可视化的能力的系统和方法。在一个或多个实施例中,所公开的系统和方法对源(例如,突变的基因)以及在源的下游可以被作为目标的目标(例如,可药化(druggable)的分子实体)进行评估,由此识别值得调查的生物通路。在一个或多个实施例中,所公开的系统和方法还提供了识别出的值得调查的生物通路的简化的可视化。因此,实现所公开的实施例中的一个或多个实施例的计算机系统的操作可以被改进。

现在更详细地转向附图,其中相似的标号指示相似的元件,图2示出了示出对实现本公开的一个或多个实施例有用的基于计算机的信息处理系统200的示例的高级框图。虽然示出了一个示例性计算机系统200,但是计算机系统200包括将计算机系统200连接到附加系统(未绘出)的通信路径226,并且计算机系统200可以包括一个或多个广域网(wan)和/或局域网(lan),诸如因特网、(一个或多个)内联网和/或(一个或多个)无线通信网络。计算机系统200和附加系统经由通信路径226进行通信,例如以在它们之间传送数据。

计算机系统200包括一个或多个处理器,诸如处理器202。处理器202被连接到通信基础设施204(例如,通信总线、交叉杆(cross-overbar)或网络)。计算机系统200可以包括转发来自通信基础设施204(或者来自未示出的帧缓冲器)的图形、文本和其它数据以用于在显示单元208上显示的显示接口206。计算机系统200还包括主存储器210(优选地是随机存取存储器(ram)),并且还可以包括辅助存储器212。辅助存储器212可以包括例如硬盘驱动器214和/或可移动存储驱动器216,其中可移动存储驱动器216表示例如软盘驱动器、磁带驱动器或光盘驱动器。可移动存储驱动器216以本领域普通技术人员众所周知的方式从可移动存储单元218读取和/或写入可移动存储单元218。可移动存储单元218表示由可移动存储驱动器216读取和写入的例如软盘、压缩盘、磁带或光盘等。如将理解的,可移动存储单元218包括具有存储在其中的计算机软件和/或数据的计算机可读介质。

在替代实施例中,辅助存储器212可以包括用于允许将计算机程序或其它指令加载到计算机系统中的其它类似装置。这样的装置可以包括例如可移动存储单元220和接口222。这样的装置的示例可以包括程序包和包接口(诸如在视频游戏设备中出现的程序包和包接口)、可移动存储器芯片(诸如eprom或prom)和相关联的插口、以及允许将软件和数据从可移动存储单元220传送到计算机系统200的其它可移动存储单元220和接口222。

计算机系统200还可以包括通信接口224。通信接口224允许在计算机系统和外部设备之间传送软件和数据。通信接口224的示例可以包括调制解调器、网络接口(诸如以太网卡)、通信端口或pcm-cia槽和卡,等等。经由通信接口224传送的软件和数据是信号的形式,该信号可以是例如能够由通信接口224接收的电信号、电磁信号、光信号或其它信号。这些信号经由通信路径(即,信道)226被提供给通信接口224。通信路径226携带信号并且通信路径226可以使用电线或线缆、光纤、电话线、蜂窝电话链路、rf链路和/或其它通信信道来实现。

在本公开中,术语“计算机程序介质”、“计算机可用介质”和“计算机可读介质”一般被用来指代介质,诸如主存储器210和辅助存储器212、可移动存储驱动器216、以及被安装在硬盘驱动器214中的硬盘。计算机程序(也被称为计算机控制逻辑)被存储在主存储器210和/或辅助存储器212中。计算机程序还可以经由通信接口224接收。这样的计算机程序在运行时使得计算机系统能够执行如本文讨论的本公开的特征。特别地,计算机程序在运行时使得处理器202能够执行计算机系统的特征。因此,这样的计算机程序表示计算机系统的控制器。

图3a描绘了根据一个或多个实施例的评估和可视化系统300的示意图。评估和可视化系统300的各种功能模块可以使用图2中所示的基于计算机的信息处理系统200来实现。如图3a中所示,评估和可视化系统300包括如图所示被配置和布置的通路输入302、基因突变(gm)输入304、可作为目标的基因输入306、感兴趣的疾病输入308、多路复用(mux)模块310、驱动基因(dg)的加权值模块312、目标基因(tg)的加权值模块314、通路从源到目标的拓扑模块316、组合模块318、将相关性排序的模块320以及简化的可视化模块322。

在其整体操作中,评估和可视化系统300基于对所选择的通路数据库中的给定通路在所选择的疾病的发展中被涉及或者与所选择的疾病的治疗相关的可能性的定量确定来对包含在该数据库中的通路进行排序。对数据库中的给定通路在所选择的疾病的发展中被涉及或与所选择的疾病的治疗相关的确定至少部分地基于对该通路中将该通路朝着所选择的疾病状态推进的基因的识别。

gm是构成基因的dna序列的变化。gm使得对与疾病状态相关的通路的识别复杂化。例如,癌症是与许多gm相关联的基因组疾病。在这些gm中,dg被定义为与肿瘤的形成和发展有因果联系的gm,而过客基因是被认为与癌症发展无关的gm。不同的dg可能导致不同患者的相同的癌症。一般而言,为了本公开的目的,术语dg被用来指代推进(或驱动)某种疾病中所涉及的通路的gm。存在驱动可以导致给定疾病的很多通路的很多dg。对于给定的疾病,通常存在一定数量的最重要的dg(例如,15至20个)。

如图3a中所示,到系统300的初始数据输入是所选择的通路数据库(通路输入302)、用于给定的感兴趣的疾病的所选择的gm池(gm输入304)、与感兴趣的疾病相关联的可药化的tg(可作为目标的基因输入306)以及感兴趣的疾病(感兴趣的疾病输入308)。通路数据库可以基于若干因素来选择。在本公开中,一个或多个实施例考虑被称为nci-pid的特定于癌症的手动管理(curate)的通路数据库。选择合适的通路数据库的其它考虑因素包括但不限于:管理的水平(例如,手动相对于nlp);特定于癌症和/或其它疾病的生物通路;对该通路的实验支持的程度;高吞吐量vs.低吞吐量数据源;对人类、哺乳动物、其它动植物数据源的期望;基于同源(orthology)的链接;以及期望的交互类型(例如,物理的、逻辑的、相关的等)。

感兴趣的疾病是基于个体用户的需要和兴趣来选择的。一旦识别出感兴趣的疾病(感兴趣的疾病输入308),则然后可以识别所选择的疾病中涉及的最重要的基因和基因突变(gm输入304)。一般而言,gm输入304可以从现有文献或数据库编译(compile)。此外,还可以利用用于推断最重要的gm的已知的计算和信息学方法。用于确定gm池的方法取决于应用,例如,临床治疗或基础研究应用。

一旦识别出感兴趣的疾病(感兴趣的疾病输入308),则还可以识别与感兴趣的疾病相关联的可药化目标基因(可作为目标的基因306)。例如,可药化目标基因可以从现有文献或数据库编译。还可以使用计算和信息学方法来推断可药化目标。为了确定可药化目标基因池而选择的特定方法取决于应用,例如,临床治疗或基础研究应用。

mux模块310接收来自通路输入302、gm输入304、可作为目标的基因输入306以及感兴趣的疾病输入308的输入,并且根据通用多路复用功能来选择性地将它们提供给模块312、314和316。模块312计算dg的加权值。在一个或多个实施例中,模块312根据图3b中所示的a项来计算dg的加权值。在a项中,ai是对“i”个gm中的每个gm的存在加权的数字。因此,“a”可以考虑cnv(拷贝数变异)、dg的数量,等等。因此,“a”识别比其它gm更有意义的gm。“a”的值可以从外部知识导出,例如,从gm的活动水平以及它在感兴趣的通路中的推测出的重要性导出。对“a”的选择有相当大的灵活性。例如,“a”可以被实现为贝叶斯模型、支持向量机等。选择“a”的灵活性允许当到系统300的输入数据随时间改进和改变时,“a”随时间改变。

继续图3b中所示的a项,是二元项,如果gm没有驻留在当前感兴趣的通路中,则为零(0),而如果gm驻留在当前感兴趣的通路中,则为一(1)。换句话说,如果gm是当前感兴趣的通路的dg,则为一(1),而如果gm不是感兴趣的通路的dg,则为零(0)。注意到,在过程的该阶段处,a项和随后的相关性(即,模块318的输出)是与任何其它通路隔离地为具体通路确定的,但a项和随后的相关性随后将被用来比较通路之间的相关性。因此,二元项具有从a项的分子中消除不在导致特定的感兴趣的疾病的当前感兴趣的通路中的任何gm的效果。注意到,系统300及其相关联的方法评估在特定的感兴趣的疾病的背景下对于给定患者最初被认为相关的gm集合。因此,对照预定义的通路集合来评估gm中的所有的gm。因此,将存在不包含特定于患者的gm中的任何gm的一些通路。的源是对当前感兴趣的通路的简单搜索。因此,gm存在还是不存在将分别确定是一(1)还是零(0)。

因此,a项提供当前感兴趣的通路相对于所考虑的所有其它通路的相关性的表示。如果所有感兴趣的通路的“a”值是相等的,则a项将表示该通路对捕获该gm集合的敏感度。当所有感兴趣的通路的“a”值没有被相等地加权时,则a项将表示相对于支持“a”的计算的考虑的相关性。换句话说,a项表示是dg并且因此最有可能推进导致特定的感兴趣疾病的通路的初始gm池的百分比。a项越大,预期所识别出的dg对通路的影响越大。

模块314计算tg的加权值。在一个或多个实施例中,模块314根据图3b中所示的b项来计算tg的加权值。b项在结构上与a项相似。a项关注对dg的识别和评估,而b项关注对tg的识别和评估。因此,b项还考虑作为a项计算的一部分而被识别出的dg。在b项中,对于从1到“i”的所有药物目标,bi是对与以“i”可药化基因作为目标相关联的考虑(例如,基因在信号网络中的中心性)加权的数字。bi的值可以包括诸如以基因为目标的(一种或多种)具体药物的本质和功效或基因“i”的活动水平之类的项。继续关于b项,是二元项,如果可药化基因“i”不在当前感兴趣的通路中的任何突变基因(例如,dg)的上游和/或下游,则为零(0),而如果可药化基因“i”在当前感兴趣的通路中的任何突变基因(例如,dg)的上游和/或下游,则假定为值一(1)。

可替代地,b项还可以由图3b中所示的替代b项等式给定,其中如图所示在分子中提供m。m可以被定义为通路集合中的可药化基因目标的数量。m充当归一化项,它确保替代b项是零(0)和一(1)之间的实数值。在替代b项的计算中,除了对目标基因“i”的加权之外,bi的值还可以被修改以(例如,通过采取“i”上游的突变与“i”上游和下游的所有突变的比率)考虑基因“i”的上游和下游存在的突变对以“i”为目标的药物的潜在影响。

因此,b项提供当前感兴趣的通路相对于所考虑的所有其它通路的相关性的表示。如果所有感兴趣的通路的“b”值是相等的,则b项仅表示该通路对捕获可药化目标基因集合的敏感性。当所有感兴趣的通路的“b”值没有被相等地加权时,则b项表示相对于支持“b”的计算的考虑的相关性。

模块316计算通路从源到目标的拓扑。在一个或多个实施例中,模块316根据图3b中所示的c项来计算通路从源到目标的拓扑。c项在结构上与a项和b项相似。a项关注对dg的识别和评估,b项关注对tg的识别和评估,而c项关注a项和b项之间的关系,并且还考虑由a项识别的dg和由b项识别的可药化目标二者。在c项中,对于从1到“i”的所有dg以及对于从一(1)到“j”的所有可药化目标,如果可药化基因“i”在通路中的突变基因“j”(即,dg)的下游或者如果“i”是可药化基因并且等于“j”,则假定为值一(1)。否则,假定为值零(0)。继续关于c项,“d”是具有到dg的通路的当前感兴趣的通路中存在的(一个或多个)可药化目标的数量,“n”是当前感兴趣的通路中的dg的数量。最后在c项中,cij是对个体dg“i”和个体tg“j”之间的关系加权的实数。例如,cij的值可以基于个体dg“i”和个体tg“j”之间的距离(即,蛋白质/小分子的数量)和/或方向性,或者cij的值可以基于个体dg“i”在到任何dg的路径中的频率。

模块318组合由模块312、314和316进行的评估的输出,并且确定当前感兴趣的通路的相关性。在一个或多个实施例中,当前感兴趣的通路的相关性可以被实现为表示当前感兴趣的通路的相关性的计算出的相关性得分(在图3b中示出)。模块320依次将由模块318计算的相关性进行组装和排序,模块322简化由模块320排序的通路的可视化。由模块318和320识别出的排序允许简化的可视化模块322关注具有最高相关性的通路。除了图3b中所示的相关性得分之外,通路相关性还可以包括排序的通路的其它标准,这些标准包括但不限于通路中突变的数量或者通路中可药化基因的数量。图5描绘了示出由模块318和320识别的相关性排序可以如何被组织和显示的示例性表格。图7a、图7b和图8描绘了简化的可视化模块322的附加细节,并且将在本公开中稍后被更详细地描述。

图4描绘了根据一个或多个实施例的评估和可视化系统300的方法400的流程图。如图所示,框408从框402接收dg输入集合,并且(可选地)从框406接收基因活动输入。框408开发对dg对于当前感兴趣的通路的影响的评估。框408的示例性实现是图3b中所示的a项计算。框410(可选地)从框406接收基因输入活动并且从框404接收tg集合。框410开发对于在给定通路的驱动状态的情况下利用药物以具体通路作为目标的值的评估,其中利用药物以具体通路作为目标包括对该具体通路的更改。框410的示例性实现是图3b中所示的b项计算或替代b项计算。框412(可选地)从框406接收基因输入活动、从框404接收tg集合并且从框402接收dg输入集合。框412的示例性实现是图3b中所示的c项计算。框412开发对通路内的dg和可药化目标的对之间的关系的评估。框414采取由框408、410和412进行的评估的输出,并且确定当前感兴趣的通路的相关性。框416依次将由框414确定的相关性进行组装和排序。框418简化由框416排序的通路的可视化。由框414和416识别的排序允许由框418执行的简化过程关注具有最高相关性的通路。除了图3b中所示的相关性得分之外,通路相关性还可以由排序的通路的其它标准确定,这些标准包括但不限于通路中突变的数量或者通路中可药化基因的数量。图5描绘了示出由框414和416识别的相关性排序可以如何被组织和显示的示例性表格。图7a、图7b和图8描绘了框418的通路可视化简化过程的附加细节,并且将在本公开中稍后被更详细地描述。

图6描绘了示出根据一个或多个实施例(图3a中所示的)评估和可视化系统300的通路评估可以如何被实现的两个示例的示意图。对于通路x,“i”顺序地等于一(1)至四(4),第二个和第四个gm不在导致疾病“x”的通路中,第二个和第四个可药化目标基因不在通路中的任何可药化基因的上游或下游,“a”在所有情况下都为一(1),“b”在所有情况下都为一(1),为通路距离的倒数,cij对于潜在的对“i,j”为一(1)。如图6中所示,为通路x计算出的相关性得分为0.486。

对于通路y,“i”顺序地等于一(1)至四(4),第二个和第四个gm不在导致疾病“x”的通路中,第二个和第四个可药化目标基因不在通路中的任何可药化基因的上游或下游,“a”在所有情况下都为一(1),“b”在所有情况下都为一(1),为通路距离的倒数,cij对于潜在的对“i,j”为一(1)。通路y与通路x略有不同,其不同之处在于第一个gm具有到第一个可药化基因的附加的(addition)和更直接的通路。如图6中所示,为通路y计算出的相关性得分为0.5,它高于为通路x计算出的相关性得分0.486。因此,通路y比通路x与感兴趣的疾病稍微更相关。

因此,在(图3a中所示的)评估和可视化系统300中,a项、b项和替代b项将允许量化dg或可药化目标基因的重要性的加权因子带入系统300的评估部分。此外,c项将考虑当前感兴趣的通路的实际拓扑的方式带入系统300的评估部分。换句话说,c项允许考虑从源基因(例如,gm)到可药化目标的连接。因此,由a项和b项应用的加权由dg和目标之间是否存在路径以及由dg和目标之间的路径的距离来决定。还可以通过包括关于沿着该路径的每个基因的表达的附加信息来考虑拓扑。以这种方式,作为(例如,在“无基因表达”场景中)沿着平坦表面跟随路径的路线的替代,可以跟踪沿着成形的(contoured)表面的路线,其中轮廓高度由表达水平决定。然后可以确定得分,以最小化考虑这些轮廓的总距离。此外,可以通过评估dg和目标之间的可能路线的数量和种类来考虑拓扑。

虽然通路的相关性可以由评估和可视化系统300建立,但是识别出的相关通路仍然可能是复杂的并且难以可视化的。例如,表示识别出的相关通路的图可能由几百个节点和边组成,这使得找到生物相关的组件或发现新的见解极其困难。因此,(图3a中所示的)简化的可视化模块322和(图4中所示的)框418的通路可视化简化过程提供了在从源集合到目标集合的节点之间的交互的背景下简化通路的可视化的框架。例如,在对一组(由于一些条件)突变的蛋白质和位于它们的下游的可药化蛋白质之间的关系的调查中,本文公开的简化的可视化过程减少了图中视觉复杂性的量,以提供即时的视觉反馈并且有助于理解生物网络和发现新的见解。

图7a、图7b和图8描绘了图3a中所示的简化的可视化模块322和图4中所示的框418的通路可视化简化过程的附加细节。更具体而言,图7a和图7b是被用来示出本公开对erbb1下游信号通路的示例应用的nci-pid通路模型,其中突变(或源)是egfr,并且药物目标(或目标)是hgs和ppp2rpa。图7a示出了原始通路并且具有交点,图7b示出了具有相关共享中间节点和药物目标的经修订的简化图。一般而言,中间节点是指路径中不是端点的节点。nci-pid生物通路模型是专家管理的、基于文献的与癌症相关的通路的生物学网络。利用若干视觉特征非常详细地描述了这些通路,为了易于理解或者出于相对于数据的更多临床应用的非相关性,这些视觉特征可以根据本公开被简化。

为了简化图7a的nci-pid生物通路,从原始图中提取连接源和目标的多达长度k的所有路径。从得到的子图中,然后所有相关实体和功能交互对于可视化而被考虑。实体可以包括蛋白质、rna、小分子和复合物。交互可以包括生化反应、复合物组装、利用生化反应的运输、模板反应、模板反应调节、催化和控制。具体的特征、节点类型和交互可以在图7b的简化图中被隐藏。例如,某些小分子可以被隐藏以易于可视化,因为它们可能与临床医师搜寻治疗策略的相关性较小。在通路简化期间隐藏节点或边的过程不影响在所有节点(包括如示出的示例中的小分子)将被访问的情况下对源和目标之间的路径的搜索。作为图7a和图7b中所示的示例的通路简化的一部分,如果小分子仅具有一(1)个输入和一(1)个输出边并且不是较大的分子组件的一部分,则从网络中移除该小分子。这种对移除的约束减轻了重要机制信息的损失(如果有的话),诸如将指示分子的活动状态的磷酸化事件。

在移除所有具体的节点类型之后,然后图受到以下附加的简化。为了确定要保留的节点和边以及要创建新边的位置,可以根据不同的重要性度量来评估节点和边。例如,源(s)节点和目标(t)节点的每个对(p)之间的最短路径可以被用作通路重要性的特征,并且该最短路径可以使用例如djikstra算法来计算,该算法的细节被由numerischemathematik(数值数学)1,第269-271页(1959)出版的、由e.w.dijkstra撰写的、标题为“anoteontwoproblemsinconnectionwithgraphs”的出版物公开,该出版物的全部公开内容通过引用被并入本文。因此,基于可以依赖于期望的输出的具体标准,节点(n)将从图中被排除。例如,每个节点的得分可以是节点由p条最短路径访问的频率。可替代地,如果源s和目标n保持固定,则每个节点的得分可以通过对该节点由长度为k、k+1、k+2、…k+n的路径访问的次数进行计数来计算,其中k是基于它遍历的节点的数量来测量的,并且k是s和t之间的最短路径的长度。

至少被访问“x”次的节点被保持。该标准隐式地保持与源-目标关系的集体集合更相关的节点。可以植入更复杂的评分函数,在该评分函数中诸如节点与源和目标之间的关系的相关性的互信息得分之类的其它特征被考虑。在(一个或多个)节点被排除的位置,链接在路径中的(一个或多个)被排除的节点的上游和下游的节点的新边被创建。一般而言,边是指两个节点之间的链路。

上文描述的方法的自然扩展是继续进行排除以消除不在路径的分支点处的所有节点,即,仅具有一(1)个输入边和一(1)个输出边的节点。具有相同名称或标签的节点还被合并,以减少图中的潜在冗余,除非用户自行决定应用的例外情况。此外,复合物还可以被整合为完全包含它的最大复合物或者整合为人为生成的超集复合物。一般而言,复合物是两种或更多种相关联的蛋白质的组,而超集复合物是本文被定义为包含多个复合物中的所有实体的特殊复合物的实体。还可以从图中移除具体的特征、节点类型和交互。在具有相同名称的节点不具有在图中指定的不同定位的所有情况下,执行基于名称(具体而言是“显示名称”)的节点合并。这保留了分子的潜在的特定于定位的活动。因此,将上文描述的简化操作应用到图7a中所示的原始图导致图7b中所示的简化图。

图8是描绘用于执行图4中所示的框418的通路可视化简化过程的示例性方法800的附加细节的流程图。如图8中所示,在方法800中,框808从框802接收dg输入集合、从框804接收tg输入集合,并且(可选地)从框806接收基因活动输入。框808识别相关路径。框810从框808接收识别出的相关通路,并且移除无信息和/或不重要的实体。框812接收来自框810的输出并且创建简化的关系和相关属性。框812的相关属性是由所公开的简化方法创建的用于描述简化的节点或边的性质的信息(例如,合成链路的距离、超集复合物,等等)。

因此,从上述详细描述可以看出,本公开提供了若干技术优点。在(图3a中所示的)评估和可视化系统300中,a项、b项和替代b项将允许量化dg或可药化目标基因的重要性的加权因子带入系统300的评估部分。此外,c项将考虑当前感兴趣的通路的实际拓扑的方式带入系统300的评估部分。换句话说,c项允许考虑从源基因(例如,gm)到可药化目标的连接。因此,由a项和b项应用的加权由dg和目标之间是否存在路径以及dg和目标之间的路径的距离来决定。还可以通过包括关于沿着该路径的每个基因的表达的附加信息来考虑拓扑。以这种方式,作为(例如,在“无基因表达”场景中)沿着平坦表面跟随路径的路线的替代,可以跟踪沿着成形的(contoured)表面的路线,其中轮廓高度由表达水平决定。然后可以确定得分,以最小化考虑这些轮廓的总距离。此外,可以通过查看dg和目标之间的可能路线的数量和种类来考虑拓扑。

本公开的其它技术优点包括(图3a中所示的)简化的可视化模块322和(图4中所示的)框418的通路可视化简化过程,它们提供了在从源集合到目标集合的节点之间的交互的背景下简化通路的可视化的框架。例如,在对一组(由于一些条件)突变的蛋白质和位于它们的下游的可药化蛋白质之间的关系的调查中,本文公开的简化的可视化过程减少了图中视觉复杂性的量,以提供即时的视觉反馈并且有助于理解生物网络和发现新的见解。因此,实现所公开的实施例中的一个或多个实施例的计算机系统的操作可以被改进。

现在参考图9,根据实施例的计算机程序产品900被概括性地示出,计算机程序产品900包括计算机可读存储介质902和程序指令904。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的示例(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言-诸如smalltalk、c++等,以及常规的过程式编程语言-诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络-包括局域网(lan)或广域网(wan)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其它设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本文使用的术语仅仅是为了描述特定实施例的目的,而不是限制本公开内容。如本文所使用的,单数形式“一个”和“该”也意在包括复数形式,除非上下文另有明确指示。将进一步理解的是,当在本说明书中使用时,术语“包括”指定所述特征、整数、步骤、操作、元件和/或部件的存在,但不排除一个或多个其它特征、整数、步骤、操作、元件、部件和/或其组合的存在或添加。

以下权利要求中的所有装置或步骤加上功能元件的对应结构、材料、动作和等同物意在包括与具体要求保护的其它要求保护的元件结合执行功能的任何结构、材料或动作。本公开内容的描述是为了说明和描述的目的而给出的,但并不意在是详尽的或限制到所公开的形式的公开内容。在不背离本公开内容的范围和精神的情况下,对本领域普通技术人员来说,许多修改和变化将是显而易见的。实施例的选择和描述是为了最好地解释本公开内容的原理及实际应用,并且使得本领域其他普通技术人员能够理解本公开内容具有适于特定预期使用的各种修改的各种实施例。

将理解的是,本领域技术人员现在和将来都可以进行落入以下权利要求的范围内的各种改进和增强。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1