用于比较分子标签的设备和方法

文档序号:6349204阅读:259来源:国知局
专利名称:用于比较分子标签的设备和方法
技术领域
本发明总体而言属于生物信息学领域。更具体而言,本发明涉及用于通过比较多个分子标签进行的临床决策支持的方法。本发明还涉及用于比较多个分子标签的设备、用于临床决策支持的系统、计算机可读介质和用于分析临床数据的用途。
背景技术
已知生物样品的高通量分子概况分析已经产生用于将样品划分成特定种类的分子标签。这覆盖从在筛查和诊断背景下回答问题到疾病分型和预测对处理/治疗方案的响应的范围。很多标签在本领域中是已知的,其出现在生物和临床确认的各个阶段中。例如,用于预测乳腺癌的侵袭性的测试已经被提供在商业应用软件中,诸如来自Agendia的 MammaPrint 或者来自 Genomic Health 的 Oncotype DX0本领域的快速发展已经产生将患者划分成特定种类的很多分子标签。这一数据通常是不连贯和多样的,因为不存在特定的标准。生物系统的复杂本质以及研究它们的方式也使得难以比较不同来源的基因组等同体(identity)的集。例如,如果你具有筛查对血液疾病显著的基因表达模式的基于微阵列的测定,则这些模式的一些部分可能与对增加中风风险显著的基因表达标签是相同的。然而,即使部分标签是相似的,在本领域内并未公开如何评估专题重叠(thematic overlap) 0因此,用于分析生物数据的改进方法可能是有利的,具体而言,允许改进临床决策支持、增加灵活性、成本有效性、速度和/或分析精度的方法可能是有利的。

发明内容
因此,本发明寻求单独地或任意组合地减轻、缓解或消除本领域中的一个或多个上述缺陷和缺点。这一目标是通过提供根据随附的独立专利权利要求的用于临床决策支持的方法、设备、系统、计算机可读介质和用途来实现的。本发明的总体思想是使遗传信息与分子标签相关联并对分子标签进行排列。根据本发明的第一方面,提供一种方法,其包括获得遗传信息的步骤。此外,该方法包括从知识数据库获得对应于遗传信息的初级生物数据的步骤。然后根据初级生物数据对遗传信息进行排序。该方法还包括从标签数据储存库中获得多个分子标签的步骤。该方法进一步包括从知识数据库获得对应于每个分子标签的次级生物数据。该方法包括以下步骤根据所述次级生物数据与所述初级生物数据的对应关系分类所述分子标签,以形成所述分子标签的排列。最后,该方法包括基于所述有序的遗传信息和所述分子标签的所述排列生成指示临床决策的输出信号。根据本发明的第二方面,提供一种用于临床决策支持的设备,其包括被配置为执行根据本发明第一方面的步骤的单元,此时所述各单元可操作地彼此连接。根据本发明的第三方面,提供一种用于临床决策支持的系统。该系统包括根据本发明第二方面的设备。此外,该系统包括知识数据库和标签数据储存库。该系统还包括工作站。该设备、知识数据库、标签数据储存库和工作站通过连接网络可操作地连接。根据本发明的第四方面,提供一种其上包含由计算机处理的计算机程序的计算机可读介质。该计算机程序包括用于执行根据本发明第一方面的方法的代码段。根据本发明的第五方面,提供根据第一方面的方法、根据第二方面的设备或根据第三方面的系统用于临床数据的统计分析的用途。本发明的各实施例在从属权利要求中限定。该方法、设备、系统和计算机可读介质均至少具有以下优点其允许基于比较多个分子标签进行临床决策支持,其中至少两个所述分子标签是不同种类的分子标签。这提供了从遗传信息得出结论的增强的可能性。


在参考附图的基础上,本发明能够实现的这些和其他方面、特征和优点将是明显的且从本发明实施例的以下描述中得以阐明,在附图中图1是根据一实施例的方法的流程图;图2是根据一实施例的经排序遗传信息的树状图;图3是显示根据一实施例的聚类信息的重叠的矩阵;图4是根据一实施例的专题聚类;图5是根据一实施例的专题聚类和树状图的概览;图6是根据一实施例的专题聚类和树状图的另一概览;图7是根据一实施例的设备的流程图;图8是根据一实施例的系统;以及图9是根据一实施例的计算机可读介质的流程图。
具体实施例方式下面将参考附图更详细地描述本发明的若干实施例,以便本领域技术人员能够实现本发明。然而,本发明可以具体化为很多不同形式,并且不应被解读为局限于在此阐述的实施例。相反,提供这些实施例从而使得本公开将是全面的和完备的,并且将向本领域技术人员完全传达本发明的范围。这些实施例并不限制本发明,而本发明仅由随附的专利权利要求限制。此外,附图所示的特定实施例的详细描述中所用的术语并不意欲限制本发明。—般地,基因的基因集G是用N个标识符的ID集表示的。该ID集首先在矩阵中相对于自身比对。这些集Gi和Gj的标识符集IDi和IDj之间的重叠根据以下公式被定义成绝对相似度AS(i,j) = AS(j, i) = IDiIDj即它们的对应ID集之间的交集的基数(cardinality)。两个标识符集i、j之间的相对相似度RS (i,j)被定义成RS (i,j) = AS (i,j) / I IDi并且两个标识符集j、i之间的相对相似度RS(j,i)被定义成RS(j, i) = AS(j, i)/|lDj
为了测量标识符集相对于C个集的总集的相似度,根据以下公式为标识符集IDi 创建集体相似度(Collective Similarity)CSi CSi = <RS(i, j)>其中j = l,···,(。在根据图1的实施例中,提供了一种使用基因集来反映癌症中隐含的各种生物过程的方法10。这是通过用于描述和比较四种乳腺癌预后标签的专题聚类(thematic cluster)来实现的。在步骤110中从本领域技术人员熟知的数据库MsigDB (http://www. broad, mit. edu/gsea/msigdb/)中获得以25个基因集的形式的遗传信息。在一实施例中, 具体地使用混杂(curated)基因集,因为它们是通过聚焦于和预后标签相比相对较窄的生物过程集而得出的。一组基因集由于它们与乳腺癌相关标签的关系而被选择,而另一组基因集由于对照目的而被选择,因为它们不太可能捕获乳腺癌相关过程。这25个混杂基因集被显示在表1中。表1. 25来自MSigDB的混杂基因集
MSgDB名称简略名称乳腺癌相关组AMIPATHWAYamipAP0PT0SISapopBASSO—HCL—DIFFheldBLOOD—CLOTTING—CASCADEclotBREAST—CANCER—ESTROGEN—MGNALINGbeesBRENT ANIANGIOGENESISagenHSA05215—PROSTATE—CANCERprosHYPOXIA—REVIEWhypoIL10PATHWAYillOIL17PATHWAYill7IL22BPPATHWAYil22
INFLAMMATORY—RESPONSE—PATHWAYinfpMAPKPATHWAYmapkP53PATHWAYp53SRC—ONCOGENIC—MGNATUREsrcoTRYPTOPHAN—METABOLISMt—metTUMOR—SUPRESSORtsupVEGFPATHWAYvegfWNTSIGNALINGwntsWNTPATHWAYwntp对照组CARBON—FIXATIONc fixKREB S—TCA—C YCLEk—teaMETHIONINE—METABOLISMm metPLCPATHWAYplcpUBIQUITINMEDIATEDPROTEOLYSISubiq接下来,在步骤120中从本领域技术人员熟知的Gene Ontology(GO)数据库 (http://www. geneontology. org/)中获得对应于每个基因集的初级生物数据。在步骤130中,该初级生物数据被用于排序由根据表1的25个基因集表示的遗传信息。该排序可能导致初级生物数据的聚类。从排序步骤130得到的有序遗传信息被显示在根据图2的树状图中。图3是显示聚类信息的重叠的矩阵,其中两个聚类相对于彼此绘制。在图3中,沿着对角线显现对应于树状图中的最强聚类的邻接明亮区域。根据这些高度相关的基因集创建专题聚类。癌症相关集、脉管系统集和炎症集聚类在一起,这从图3中的树状图的结构以及高亮区域可以明显看出。此外,对照基因集实际上不与癌症相关基因集重叠。图4中更清楚地显示了专题聚类。接下来,在步骤140中从标签数据储存库中获得多个分子标签。在一实施例中,这些标签是通过选择本领域技术人员熟知的乳腺癌预后基因表达标签——例如Veer、Wang、 Caldas和Oncotype而获得的。Caldas涉及与早期淋巴结阳性和淋巴结阴性肿瘤的存活率显著相关的70个基因的预后标签。Veer标签也是70个基因表达标签,其比常规预后指标更准确地预测绝经期前淋巴结阴性和淋巴结阳性乳腺癌患者的后果。Wang标签是不同的 76个基因预后标签,其预测绝经期前淋巴结阴性乳腺癌患者的后果。Oncotype涉及21个基因表达标签,其预测经三苯氧胺治疗过的淋巴结阴性乳腺癌的复发。在步骤150中从知识数据库中获得对应于每个分子标签的次级生物数据。在步骤160中根据所述次级生物数据与所述初级生物数据的对应关系存储标签,以形成所述分子标签的排列(ranking)。作为示例,表2显示了描述基因集的子集——即这四种预后标签的基因本体(GO) 生物过程(BP)项标识符的数目。表2.标识符集描述基因集
GO BP项标识符的数目CALDAS900NC0176VEER61WANG119表3显示了作为基因集的标识符集的交集的绝对相似度。例如,基因集CALDAS与基因集apop (细胞凋亡)的标识符(GO项)的交集是9。表3.样品基因集的标识符集之间的绝对相似度
apopmapksrcowntpwntsubiqplcpbeestsupp53CALDAS950116401016160NC0573703513516603774VEER23036215126WANG1020111571311417表4显示了相对相似度和集体相似度。基因集CALDAS与基因集apop之间的相对相似度是0. 1,其为CALDAS与apop之间的绝对相似度(9)经由基因集CALDAS的标识符数目(90)归一化之后的结果。基因集Caldas相对10栏标题基因集的集体相似度是对应于 CALDAS的一行值。表4.基因集的标识符集之间的相对相似度和集体相似度
8apopmapksrcowntpwntsubiqplcpbeestsupp53CALDAS0.1000.0557.85E-0.1220.0660.0445.52E-0.1110.1770.177008564062368545106123784793ONCO0.3230.2105. OOE-0.1980.0730.0280.0900.3400.2100.42086824107869871419139123646VEER0.0320.0492.95E-0.0490.0980.0320.0160.0810.1960.0987971830618837179341986737372WANG0.0840.1680.0080.0920.0420.0580.0080.2600.1170.142035072413444028826407518651861图5图示说明了作为与基因集相关的已分类分子标签的表3和4所示的关系。显示了四个标签(Veer、Wang、Caldas和Oncotype)与癌症相关基因集之间的重叠的模式。另外,标签与对照基因集之间不存在重叠。从图5中可以看出分子标签可以如何被排列。例如,由基因集乳腺癌雌激素信号转导(bees)、肿瘤抑制因子(tsup)、P53通路(ρ5!3)和前列腺癌症相关基因(pros)组成的 C-CANCER专题聚类与所有标签相比具有重叠功能关系。Oncotype标签的重叠基本上比剩余标签集更强,这表明Oncotype标签对由C-CANCER基因集表示的癌症相关生物过程更有特异性。另外,可以看出Oncotype标签与基因集之间的重叠主要与诸如细胞凋亡和程序性细胞死亡等过程相关联,而Caldas标签与涉及细胞周期和对饥饿与营养水平的细胞响应的过程重叠。类似地,Veer标签与底层细胞生长重叠。以此方式,可以基于需要何种信息来对分子标签的聚类进行排列。接下来,在步骤170中基于所述有序遗传信息和分子标签的所述排列生成输出信号。该输出信号可以被发送到决策支持工作站。在一实施例中,所述输出信号可以是热量图。在另一实施例中,该输出信号可以是树状图。分子标签可以从本领域已知的任何分子标签源中选择,例如核苷酸序列信息、遗传变异信息、甲基化状态信息或表达信息。分子标签数据可以是本领域已知的任何种类分子标签数据的单独形式或组合形式。初级生物数据可以是本领域已知的任何种类生物数据,例如生物注释、基因组注释、基因本体、分子标签或特异性基因集。生物数据可以是本领域已知的任何种类生物数据的单独形式或组合形式。可以使用单独的或组合的分子标签信息以及单独的或组合的初级生物数据的任何组合。在根据图7的本发明的另一实施例中,提供了一种用于基于多个分子标签的比较进行的临床决策支持的设备70。所述设备70包括第一单元710,其被配置为获得遗传信息。此外,该设备70包括第二单元720,其被配置为从知识数据库中获得对应于遗传信息的初级生物数据。该设备70还包括第三单元730,其被配置为根据初级生物数据排序所述遗传信息。该设备70还包括第四单元740,其被配置为从标签数据储存库获得多个分子标签。该设备70包括第五单元750,其被配置为从知识数据库中获得对应于每个分子标签的次级生物数据。此外,该设备70包括第六单元760,其被配置为根据所述次级生物数据与所述初级生物数据的对应关系进行分类以形成所述分子标签的排列。该设备70还包括第七单元770,其被配置为基于所述有序的遗传信息和分子标签的所述排列生成指示临床决策的输出信号。决策支持工作站可以是单一工作站或者一起定位或分离地定位的多个工作站。在一实施例中,在多个工作站之间可以区分用户访问,从而一工作站仅用于报告数据,而另一工作站仅用于请求信息或接收输出信号。单元710、720、730、740、750、760、770 彼此可操作地连接。单元 710、720、730、740、 750、760、770可以具体化为连接在一起的分离的物理实体。然而,单元710、720、730、740、 750,760,770也可以具体化为单一的物理实体。单元710、720、730、740、750、760、770的任
何组合可以具体化为不同的分离的或统一的物理实体。所述实体可以进一步组合成任何设置,从而形成物理实体之间的连接。在根据图8的实施例中,提供了一种用于临床决策支持的系统100。所述系统100 包括根据在此提供的实施例的设备70。所述系统100还包括知识数据库1100,在其中存储和访问初级生物数据。另外,所述系统100包括标签数据储存库1200,在其中存储和访问次级生物数据。此外,该系统100还包括工作站1300,用户可以从该工作站输入信息、操作系统100或解释由系统100提供的输出信号。所述设备70、知识数据库1100、标签数据储存库1200以及工作站1300通过连接网络1400可操作地连接。工作站1300可以是单一的工作站或者一起定位或分离地定位的多个工作站。在一实施例中,在多个工作站之间可以区分用户访问,从而一工作站仅用于报告数据,而另一工作站仅用于请求信息或接收输出信号。储存库1200可以包括来自多个对象的数据,例如分子标签数据、科学报告、测试数据,例如来自临床研究的数据、患者数据等。知识数据库1100可以包括关于例如甲基化、转录调控信息或遗传变异的生物注释的数据、例如GO数据的生物本体数据、分子标签本体数据等。在一实施例中,方法10、设备70或系统100提供信息,例如有序遗传信息或排列, 其能够帮助医师实现诊断或治疗患者。在一实施例中,设备70或系统100被连接到医院信息系统(HIS)、实验室信息系统 (LIS)、临床部门信息系统、药物知识数据库、药房信息系统等。方法10、设备70或系统100可以使得能够选择生物相关和临床相关的分子标签或者将新标签与现已建立且生效的测试进行比较。与现有技术相比,基于根据在此提供的实施例的多值标签(如生物标记物)提供了分子诊断测试的额外解释水平。获得了诊断测试结果的进一步解释。与仅获得所执行的测试的状态的简单指示的现有技术相比,这是一种优势。这使得有可能将来自简单测试的结果转化成动作,例如需要执行什么样的其他测试。 此外,在一实施例中,现有技术测试可能被应用得超出它们的原始范围。例如,如果对象被基于一个或多个测试指示出某种疾病,则基于在不同人口统计学的研究中发现的标签,有可能将这种较低置信度的标签和正确的患者人口统计学的其他已建立的标签一起使用。也就是说,如果该对象具有的人口统计学背景完全不同于现有技术测试的临床研究中所用的对象的人口统计学,则有可能间接地评估这些指示性测试/标签多么接近与对象相关的那些测试/标签。例如,如果一个对象被诊断为患有乳腺癌,医师可能希望得到关于该疾病的侵袭性的指示。为此目的,医师安排在来自该对象的活组织上执行基于分子标签的测试A、B、C 和D。C、B和D的结果是阴性的而A的结果是阳性的。然后医师根据方法10执行分析并且发现测试C、B和D被分组在一起并具有相同的潜在生物学特性。利用设备70或系统100 做出的关于测试A背后的研究的进一步调查显示出对象人口仅基于北欧人口。该对象是中国人,由此医师推断种族关系的不同可能是该冲突性结果背后的原因。因此医师决定安排测试E和F来确认该疾病的病理并且最终选择治疗X和Y-对该对象的疾病的表现是特异性的。这显示出方法10、设备70或系统100的实施例能够基于测试的一致和不一致得出临床上有用的结论。该分析可以针对不同的背景来重复进行并且然后可以提供对对象的疾病、状况或症状的另一有价值的角度。根据在此提供的实施例的上述方法10、设备70或系统100的应用和用途是各种各样的并且包括以下领域,例如数据挖掘、研究、帮助找到临床试验临床支持的合格对象、关于治疗方法之间的相关性的信息、关于药物如何影响表型的信息等。单元710、720、730、740、750、760、770可以是正常用于执行相关任务的任何单元, 例如硬件,如带有存储器的处理器。在一实施例中,设备70或系统100被包括在医学工作站或医学系统中,例如计算机断层摄影(CT)系统、磁共振成像(MRI)系统或超声成像(US)系统。在根据图9的实施例中,一种计算机可读介质具有包含在其上的用于由计算机进行处理的计算机程序200。该计算机程序200包括用于获得遗传信息的第一代码段2100。 该计算机程序200还包括用于从知识数据库中获得对应于遗传信息的初级生物数据的第二代码段2200。该计算机程序200还包括用于根据初级生物数据排序所述遗传信息的第三代码段2300。此外,该计算机程序200包括用于从标签数据储存库中获得多个分子标签的第四代码段2400。该计算机程序200还包括用于从知识数据库中获得对应于每个分子标签的次级生物数据的第五代码段2500。另外,该计算机程序200包括用于根据所述次级生物数据与所述初级生物数据的对应关系分类所述分子标签以形成所述分子标签的排列的第六代码段2600。该计算机程序200还包括用于基于所述有序的遗传信息和分子标签的所述排列生成指示临床决策的输出信号的第七代码段2700。本发明可以以包括硬件、软件、固件或其任何组合在内的任何合适形式来实现。然而,优选地,本发明被实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件或部件可以在物理上、功能上或逻辑上以任何合适方式实现。事实上,该功能性可以在单一单元中、在多个单元中或作为其他功能单元的一部分实现。因此,本发明可以在单一单元中实现,或者可以在物理上或功能上分布于不同单元和处理器之间。虽然在上面已经参考具体实施例描述了本发明,但它并不意在被局限于在此阐述的具体形式。相反,本发明仅由随附的权利要求限制,并且除上述具体实施例以外的其他实施例同样有可能在这些随附权利要求的范围内。
在权利要求中,术语“包括/包含”并不排除其他元件或步骤的存在。此外,虽然被独立地列出,但多个装置、元件或方法步骤可以由例如单一单元或处理器来实现。另外, 虽然各个特征可能被包含在不同的权利要求中,但这些特征很可能被有利地组合,并且包含在不同的权利要求中并不意味着这些特征的组合不是可行的和/或有利的。另外,单数引用并不排除复数个。词语“一”、“一个”、“第一”、“第二”等并不排除复数个。权利要求中的参考标记仅被提供用作澄清的示例,而不应被解读为以任何方式限制权利要求的范围。
权利要求
1.一种用于基于多个分子标签的比较的临床决策支持的方法(10),所述方法(10)包括以下步骤-获得(110)遗传信息;-从知识数据库获得(120)对应于所述遗传信息的初级生物数据; -根据所述初级生物数据排序(130)所述遗传信息; -从标签数据储存库获得(140)多个分子标签; -从所述知识数据库获得(150)对应于每个分子标签的次级生物数据; -根据所述次级生物数据与所述初级生物数据的对应关系分类(160)所述分子标签, 以形成所述分子标签的排列;以及基于所述经排序的遗传信息和所述分子标签的所述排列生成(170)指示临床决策的输出信号。
2.如权利要求1所述的方法,其中,所述遗传信息是从单一对象得出的。
3.如权利要求1所述的方法,其中,所述分子标签是从包括以下项的组中选择的核苷酸序列、遗传变异、甲基化状态或表达。
4.如权利要求1所述的方法,其中,所述初级生物数据是从包括以下项的组中选择的 生物注释、基因组注释、基因本体、分子标签或特异性基因集。
5.如权利要求1所述的方法,其中,所述次级生物数据是从包括以下项的组中选择的 基因本体、分子标签或通路信息。
6.一种用于基于多个分子标签的比较的临床决策支持的设备(70),所述设备(70)包括-第一单元(710),其被配置为获得遗传信息;-第二单元(720),其被配置为从知识数据库获得对应于所述遗传信息的初级生物数据;-第三单元(730),其被配置为根据所述初级生物数据排序所述遗传信息; -第四单元(740),其被配置为从标签数据储存库获得多个分子标签; -第五单元(750),其被配置为从所述知识数据库获得对应于每个分子标签的次级生物数据;-第六单元(760),其被配置为根据所述次级生物数据与所述初级生物数据的对应关系分类所述分子标签,以形成所述分子标签的排列;以及-第七单元(770),其被配置为基于所述经排序的遗传信息和所述分子标签的所述排列生成指示临床决策的输出信号,其中,所述各单元可操作地彼此连接。
7.一种用于基于多个分子标签的比较的临床决策支持的系统(100),所述系统(100) 包括-如权利要求5所述的设备(70); -知识数据库(1100); -标签数据储存库(1200);以及 -决策支持决策支持工作站(1300),其中,所述设备(70)、知识数据库(1100)、标签数据储存库(1200)和决策支持工作站 (1300)通过连接网络(1400)可操作地连接。
8.一种计算机可读介质,其上包含由计算机处理的计算机程序000),所述计算机程序包括-第一代码段(2100),其用于获得遗传信息;-第二代码段(2200),其用于从知识数据库获得对应于所述遗传信息的初级生物数据;-第三代码段(2300),其用于根据所述初级生物数据排序所述遗传信息; -第四代码段(MOO),其用于从标签数据储存库获得多个分子标签; -第五代码段O500),其用于从所述知识数据库获得对应于每个分子标签的次级生物数据;-第六代码段(沈00),其用于根据所述次级生物数据与所述初级生物数据的对应关系分类所述分子标签,以形成所述分子标签的排列;以及-第七代码段O700),其用于基于所述经排序的遗传信息和所述分子标签的所述排列生成指示临床决策的输出信号。
9.如权利要求8所述的计算机可读介质,其包括被布置成当由具有计算处理属性的设备运行时执行权利要求1-5限定的所有方法步骤的代码段。
10.如权利要求1-5所述的方法、如权利要求6所述的设备或如权利要求7所述的系统用于临床数据的统计分析的用途。
全文摘要
本发明提供了一种用于通过比较生物数据的多个分子标签进行的临床决策支持的方法(10)。该方法包括比较至少两个所述分子标签是不同类型的分子标签。此外,本发明提供了一种执行根据该方法(10)的步骤的用于临床决策支持的设备(70)、系统(100)以及计算机程序产品(200)和用途。
文档编号G06F19/18GK102422294SQ201080020744
公开日2012年4月18日 申请日期2010年5月5日 优先权日2009年5月11日
发明者A·J·贾内夫斯基, N·班纳吉, V·瓦拉达恩, Y·H·阿萨发蒂 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1