复杂疾病的体外诊断方法

文档序号:6641621阅读:631来源:国知局
专利名称:复杂疾病的体外诊断方法
技术领域
本发明涉及如权利要求1所述的复杂疾病或其亚型的体外诊断方法,和如权利要求18所述的执行所述方法的试剂盒。在经典患者筛查和诊断中,医务人员利用多种诊断工具对患有某种疾病的患者进行诊断。在这些工具中,对一系列单一常规参数(例如血液样品中的参数)进行测定是常见的诊断实验室方法。这些单一参数包括例如酶活力和酶浓度和/或诸如葡萄糖等代谢指示物的检测。只要涉及到这样的疾病,并且这些疾病可通过临床化学简单地并且毫无疑义地与一种单一参数或若干参数相关联,则这些参数就成为了现代实验室医学和诊断中不可或缺的工具。在能够提供优异的已证实的截断值(cut-off value)的情况下(例如在糖尿病中),就可以在诊断中可靠地使用临床化学参数例如血糖。特别是,当研究公知病理生理机制背后内在的病理生理状态并从中得出指导性参数时,诸如血液中高葡萄糖浓度通常反映出胰岛素基因的遗传性缺陷,所述单一参数已证实是“其”疾病的可靠生物标志物。然而,在诸如癌症或脱髓鞘性病如多发性硬化症等共性为缺乏明确可指定的单一参数或标志物的病理生理情况下,目前还难以进行由血液样品或组织样品的差别化诊断。在癌症预防、筛查、诊断、治疗和预后治疗中,同时在临床常规上使用一系列均对特定种类癌症在某种程度上有特异性的所谓“肿瘤标志物”来诊断和监测癌病过程的治疗。 目前使用的这种肿瘤标志物例如有α-l-胎蛋白、癌抗原125(CA 125)、癌抗原15_3、CA 50XA 72-4、糖抗原19-9、降钙素、癌胚胎抗原(CEA)、细胞角蛋白片段21_1、粘蛋白样癌相关抗原、神经元特异烯醇化酶、核基质蛋白22、碱性磷酸酶、前列腺特异性抗原(PSA)J-W 细胞癌抗原、端粒酶、胸腺嘧啶激酶、甲状腺球蛋白、和组织多肽抗原。虽然,在现有技术中目前已有多种上述肿瘤标志物常规使用,但极常见的是难以由单一测定实现可靠诊断。仅举一例,CEA的截断值对不吸烟者为4. 6ng/ml,而25%的吸烟者显示在3. 5 lOng/ml的范围的正常值,并且有1 %的吸烟者显示大于lOng/ml的正常值。因此,只有大于20ng/ml的值才被解释为“高度疑似恶性过程”,这留下了很大的灰色区域,在这一区域中医生不能依靠在患者样品中测定的CEA值。EP 540 573 Bl公开了对于前列腺特异性抗原(PSA)的相似的截断值问题,其中通常测定总PSA以诊断或排除患者的前列腺癌,如果该值在灰色区域,则目前的方法是除了测定总PSA外还以对游离PSA特异的单克隆抗体测试测定游离PSA,并计算2个参数的比率从而获得对前列腺癌更准确的诊断方法,并与良性前列腺增生相区分。CEA和PSA检测的上述例子充分表明了所有单一肿瘤标志物共有的情况,即,一方面特异性相对较差,另一方面截断值不确定不可靠,从而难以解读得到的值。因此,一般的结果是,推荐在重要筛查中考虑使用肿瘤标志物。下述情况并不罕见,肿瘤标志物水平增加而没有进一步的临床相关性,使患者丧失勇气,并且根本不具有任何诊断价值。此外,在恶性疾病的预后治疗中,需要注意的是每种肿瘤标志物都首选需要“临界量”的癌细胞,直到其在临床测试中有阳性响应。另外,不是所有复发肿瘤都必须涉及肿瘤标志物水平的增加。总之,大多数情况中只有在结合其他诊断工具如内窥镜和活检以及随后的组织学检验的情况下,单一肿瘤标志物才被证实在临床实践中有用,但在常规癌症筛查中是不可靠的。对于单一肿瘤标志物的现有技术,一个巨大的进步是使用了利用微阵列技术的多基因表达水平。例如WO 2004111197A2,公开了用于获得气道上皮细胞RNA的侵袭性最小的样品获取方法,可通过表达谱(例如通过基于阵列的基因表达谱)来对所述RNA进行分析。这些方法可用于鉴定诊断肺病如肺癌的基因表达模式,从而识别有发展肺病的风险的受试者和定制开发用于诊断或预测肺病或肺病易感性的阵列,例如微阵列。出于这一目的,还公开了阵列和有信息的基因。这种多基因方法比上述单一参数要可靠得多,但受限于复杂的数学和生物信息学程序。尽管如此,这些基因表达标记是有前途的癌症诊断工具,但有时也具有不确定的限制,这些限制由于其内在统计学和受到一种核酸的限制有时也会导致不可靠的结果和确认问题。

发明内容
从上述现有技术出发,本发明的问题是提供一种生物标志物在诊断工具中的应用,上述诊断工具对于早期诊断以确定患病受试者具有最高可能的灵敏度和特异性,上述诊断工具用于患者预选和分组和用于治疗控制是诊断开发中的主要目标,并且还是各种复杂疾病特别是癌症的紧急需要。上述问题通过如权利要求1所述的方法和如权利要求18所述的试剂盒得以解决。特别是,本发明提供了在哺乳动物受试者的至少一个组织的至少一个生物样品中的复杂疾病或其亚型的体外诊断方法,所述复杂疾病或其亚型选自癌症,特别是急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌;缺血,特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病;脱髓鞘性病,特别是白质病、脑室周围脑白质病、多发性硬化症;所述方法包括以下步骤a)选择至少2个不同种类的生物分子,其中所述种类的生物分子选自RNA和/或其DNA对应物、微小RNA和/或其DNA对应物、肽、蛋白质、和代谢物;b)利用至少2组不同种类的生物分子测定所述样品中的每一种类的多种生物分子的选自是否存在(阳性或阴性)、定性和/或定量分子模式和/或分子标记、水平、量、浓度和表达水平的至少一种参数,并将所获得的值的组作为原始数据存储于数据库中;c)对所述原始数据进行数学预处理从而减少步骤b)中所用测定程序固有的技术误差;d)从逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、感知器、 缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、贝叶斯网络、隐马模型、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织映射(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、模糊分类器、袋翻、增压、和na'iveBayes中选择至少一种适合的分类算法;并将所述选择的分类器算法用于步骤c)的所述预处理的数据;e)将步骤d)的所述分类器算法对至少一个训练数据组进行训练,所述至少一个训练数据组包含来自根据其病理生理、生理、预测、或响应者情况分类的受试者的预处理数据,从而选择一个分类器功能从而将所述预处理数据映射至所述情况;f)将步骤e)的所述经训练的分类器算法应用于病理生理、生理、预测、或响应者情况未知的受试者的预处理数据组,并使用所述经训练的分类器算法预测所述数据组的类别标签从而诊断所述受试者的病况。从属权利要求2 18是本发明的优选实施方式。本发明提供了上述问题的解决方案,并一般性涉及应用“组学”数据(包括但不限于mRNA表达数据、微小RNA表达数据、蛋白质组学数据、和代谢组学数据),统计学习和机器学习分别用于识别分子标记和生物标志物。其包括经由已知方法测定上述生物分子的浓度,已知方法例如聚合酶链式反应(PCR)、微阵列和其他方法如测序以测定RNA浓度、通过质谱(MS)、特别是MS-技术如MALDI、ESI、大气压化学电离(APCI)和其他方法对蛋白识别和定量,利用MS-技术或替代性方法测定代谢物浓度,后续特征选择和将这些特征与包括至少两个分子水平的分子数据(即,至少2个不同类型内源生物分子,如RNA浓度加代谢组学数据,分别为代谢物浓度或RNA浓度加蛋白质或肽的浓度等)分类器组合并且通过统计方法和数据分类法提取最佳组成标志物组。从而测定不同分子水平(RNA分子、肽/蛋白质、代谢物等)的各标志物的浓度,并将数据加工至分类器,所述分类器指示与限于一种生物分子的方法和标志物相比以优异的灵敏度和特异性指示疾病状态。描述了选择和组合生物分子的生物标志物和分子标记的方法,特别是利用生物分子类型mRNA、微小RNA、蛋白质、或肽、小内源化合物(代谢物)中的一种或多种个体分子组合(组合至少两种上述类型的生物分子)由体液或组织获得的生物分子,利用统计方法和来自这些分子组的数据的分类器进行鉴定,以用于诊断和早期诊断,从而将患者分类、选择治疗、治疗监测和治疗诊断复杂疾病。
背景技术
-现有技术系统生物学方法利用各种组学方法如基因组学、蛋白质组学和代谢物组学,其正越来越多地应用于复杂疾病的研究和诊断。这些技术可以提供数据和生物学指示物,所谓的(预测、预计和药代动力学)生物标志物以及潜力从而使诊断的临床实践发生变革。对于早期癌检测,通常使用单一生物标志物。然而,例如广泛使用的癌抗原 125 (CA125)仅能检测50%-60%的患有I期卵巢癌的患者。类似的是,单一使用用于早期前列腺癌识别的前列腺特异性抗原(PSA)值的特异性不足以减少假阳性的数量[Petricoin EF 3rd,Ornstein DK,Paweletz CP,Ardekani A,Hackett PS,Hitt ΒΑ,Velassco A,Trucco C,Wiegand L,ffood K,Simone CB,Levine PJ,Linehan WM,Emmert-Buck MR,Steinberg SM, Kohn EC, Liotta LA, Serum proteomic patterns for detection of prostate caner, J Natl Cancer Inst. 2002 ;94 (20) : 1576-8.],并且表明利用单一生物标志物对复杂疾病很难表征或诊断和评价治疗效果。诊断工具例如癌症诊断工具的最近进展通常包括利用同类生物分子的多种生物标志物的多成分测试,所述同类生物分子例如有多种蛋白质、RNA或微小RNA种类,并且多维度数据分析给出对异常信号传导和网络作用的更深入认识,这有潜力识别此前未被发现的标志物候选物。然而,现有技术方法将单一生物分子或单一种类的生物分子的组用于生物标志物组,例如多种RNA、微小RNA或蛋白分子。见Garzon R,Volinia S,Liu CG, Fernandez-Cymering C,Palumbo T,Pichiorri F,Fabbri M,Coombes K,Aider H,Nakamura Τ, Flomenberg N, Marcucci G, Calin GA, Kornblau SM, Kantarjian H, Bloomfield CD, Andreeff Μ, Croce CM, MicroRNA signatures associated with cytogenetics and prognosis in acute myeloid leukemia, Blood. 2008 ;111 (6) :3183-9 and Ramaswamy S, Tamayo P, Rifkin R, Mukherjee S, Yeang CH, Angelo M, Ladd C, Reich M, Latulippe E, Mesirov JP, Poggio T, Gerald W, Loda M, Lander ES, Golub TR. , Multiclass cancer diagnosis using tumor gene expression signatures. Proc Natl Acad Sci USA. 2001 ; 98(26) : 15149-54。对于癌症中的 miRNA,请见 W02008055158。另外,Oncotype DX是最近的多成分RNA类测试的实例,如同多基因活性测试,可预测他莫昔芬治疗的结节阴性乳腺癌的复发,公开于I^aik S, Shak S, Tang G,Kim C, Baker J,Cronin Μ, Baehner FL, Walker MG,Watson D, Park Τ, Hiller W,Fisher ER, Wickerham DL, Bryant J, Wolmark N, Engl J Med. 2004 ;351 (27) :2817_26。Habel LA,Shak S,Jacobs MK,Capra A,Alexander C,Pho M,Baker J,Walker M, Watson D,Hackett J,Blick NT,Greenberg D,Fehrenbacher L,Langholz B,Quesenberry CP在Breast Cancer Res. 2006 ;8 (3) :R25描述了对肿瘤基因表达的人群研究和淋巴结阴性患者中的乳腺癌死亡风险。其他最近实例包括乳腺癌基因表达标记一市售用于临床使用), MammaPrint (Agendia)。此夕卜,Glas AM, Floore A, Delahaye LJ, Witteveen AT, Pover RC, Bakx N, Lahti-Domenici JS, Bruinsma TJ, Warmoes MO, Bernards R, Wessels LF, Van' t Veer LJ.在BMC Genomics. 2006 ;7 :278公开了将乳腺癌微阵列标记转为高通量诊断测试的方法。另一种已知方法作为所谓的H/1测试(AviaraDx)公开,由Nicholas C Turner和 Alison L Jones 开发,见 BMJ. 2008 July 19 ;337 (7662) 164-169,该文评估了原发乳腺癌摘除后复发的可能性。虽然这些产品和原型证明了具体诊断领域的显著进步,但还迫切需要对多种复杂疾病具有高灵敏度和特异性的可靠的早期诊断,所述复杂疾病例如有但不限于癌症,特别是急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌;缺血,特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病;脱髓鞘性病,特别是白质病、脑室周围脑白质病、多发性硬化症、阿尔茨海默病和帕金森病。这些诊断工具和生物标志物还用于选择患者中的响应者,以评估疾病的复发、选择治疗方式、效率、耐药性和毒性。发明提供了产生具有优异灵敏度和特异性的诊断复杂疾病的新型诊断工具的原理和方法以解决这些问题。将各种“组学”数据整合以例如识别由变化的RNA转录物的蛋白浓度的可能变化,是系统生物学和本领域技术人员多年来熟悉的问题。即便如此,基于统计学应用此处所述各种分类方法,独立于数据整合和对组合诊断标记(组合多种生物分子)的生物化学解读,来自不同类生物分子的生物标志物组的统计学组合对本领域人员也是非显而易见的和未知的,也未在文献中有记载。其明显不同于利用整合多维分析和组合例如基因组学、表观遗传组学和转录组学的方法(见SIGMA2 A system for the integrative genomic multi-dimensional analysis of cancer genomes, epigenomes, and transcriptomes, Raj Chari 等 BMC Bioinformatics 2008,9: 422),其试图通过各种方法分析不同组学数据之间的生物学关系。基本上,本发明的方法在统计学基础上组合了统计学显著的至少两种不同种类生物分子的生物分子参数,完全与任何种类、环节或明显生物学理论的已知或未知的生物学关系无关,从而提供了多种生物分子组成的组合生物标志物。本发明的患者情况表明,在测定分子集合中的最佳描述细胞、组织、器官或生物体的不同状态的至少两种上述生物分子类型和至少两种的这些组合的生物分子组成的诊断方法和疾病状态特异性分类器优于分子或标志物的组合和其描绘的分子标记。其还优于仅一种生物分子的生物分子的分类器, 并且如本文所证明在诊断应用中产生了更高的灵敏度和特异性。就此而言,本发明超越了现有技术,并与目前现有技术方法相比,提供了产生具有更高灵敏度和特异性和更低错误发现率的诊断分子标记的方法。所述方法可用于诊断各种复杂和完全无关的复杂疾病,例如癌症和缺血,并且具有一般性诊断用途。
具体实施例方式定义本文中使用的术语“基因表达”是指通过基因的“转录”(S卩,经由RNA聚合酶的酶学作用)将基因中编码的遗传信息转化为核糖核酸RNA (例如,mRNA、rRNA、tRNA、或snRNA) 和对于蛋白质编码基因通过mRNA的“翻译”转化为蛋白的过程。可以在该过程中多个阶段调节基因表达。“上调”或“激活”是指增加基因表达产物(即RNA或蛋白质)的产生的调节,而“下调”或“抑制”是指降低产生的调节。多核苷酸具有多于2个碱基的核酸聚合物。“肽”是由α-氨基酸以确定顺序连接形成的短杂聚物。一个氨基酸残基与下一个之间的连接已知是酰胺键或肽键。蛋白质是是多肽分子(或由多个多肽亚基构成)。区别在于肽较短,而多肽/蛋白质较长。有多种不同的规定来确定这些,所有这些规定均有防止误解的说明和细微差别。在本发明的范围内,“复杂疾病”是属于以下组但不限于以下组的疾病癌症,特别是,急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌;短暂性脑缺血发作(ΤΙΑ)、缺血,特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病;脱髓鞘性病, 特别是白质病、脑室周围脑白质病、多发性硬化症、阿尔茨海默病和帕金森病。代谢物本文中所用术语“代谢物”表示细胞、生物体、组织的或存在于体液或获自上述来源的提取物中的分子量通常小于1500道尔顿的内源性有机化合物。代谢物的典型实例是糖、脂类、磷脂、鞘脂和鞘磷脂、氨基酸、胆固醇、类固醇激素和氧化固醇以及其他化合物例如人类代谢物数据库(http://www. hmdb. ca/)和其他数据库和文献中收集的化合物。这包括通过代谢作用或通过代谢过程产生的任何物质和代谢作用中涉及的任何物质。本发明范围内理解的“代谢组学”为通过但不限于下述方法对多种O千)代谢物的全面定量测量例如质谱,质谱与液相色谱、气相色谱和其他分离方法色谱的偶联。“寡核苷酸阵列”或“寡核苷酸芯片”或“基因芯片”涉及“微阵列”,也称“芯片”、 “生物芯片”、或“生物学芯片”,是具有适合的密度的离散区域的区域阵列,例如为至少100/ cm2,优选至少约1000/cm2。微阵列中区域的尺寸例如直径优选为约10-250 μ m的范围,并与阵列中其他区域以等距离间隔。常用形式包括Agilent、Affymetrix、Illumina的产品, 以及其中通过分配器或手动方法将寡核苷酸和cDNA沉积在固体表面的点制造阵列。本领域技术人员清楚,可以通过各种方法对核酸、蛋白质和肽以及代谢物进行定量,所述方法包括上述阵列系统,以及但不限于定量测序、定量聚合酶链式反应和定量逆转录聚合酶链式反应(qPCR和RT-PCR)、免疫测定、利用抗体的蛋白质阵列、质谱。“微小RNA” (miRNA)是19至25个核苷酸的小RNA,是基因表达的负调节物。为确定miRNA是否与急性髓细胞白血病(AML)的细胞发生异常和临床特征有关,利用微阵列平台评估了⑶34⑴细胞和122例未经治疗的成人AML病例的miRNA表达。在此上下文中不同种类或类型或类别的生物分子理解为RNA、微小RNA、蛋白质和各种长度的肽以及代谢物。本文中生物标志物是包含至少2个不同种类(RNA、微小RNA、蛋白质和肽、代谢物) 的至少2种生物分子的数据的特征,所述特征经测量和评估作为生物过程、病理过程、或对治疗干预的响应的指征。本文所用的组合生物标志物可以选自下述种类的生物分子中的至少2种正义和反义核酸、信使RNA、小RNA即siRNA和微小RNA、多肽、包括抗体的蛋白质、 小内源分子和代谢物。数据分类是为了最有效和高效利用数据而进行的数据归类。分类器通常确定的功能是将生物测量的多维向量映射至二元(或η元)输出变量,所述输出变量编码临床相关种类、表型、特殊生理状态或特殊疾病状态的有或无。为了实现这一目标,可以使用各种分类方法,例如但不限于逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、 DQDA)、感知器、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、贝叶斯网络、 隐马模型、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织映射(SOM)、递归拆分和回归树、K-最邻近分类法(Κ-ΝΝ)、模糊分类器、袋翻、增压、和na‘ive Bayes器以及更多方法。术语“结合的”、“将结合”、“结合”、“已结合的”或其任意衍生词是指两个或更多个分子间的任何稳定的而非瞬时的化学键,包括但不限于共价键合、离子键合、和氢键键合。 因此,除了两个或更多个分子间的其他类型化学键合之外,该术语还包括2个核酸分子之间的杂交。说明在本发明的方法中,通过2种不同种类生物分子中的至少2种不同类型生物分子的组合而获得的生物标志物数据和分类器提供了对生理状态的描述并可用作诊断复杂疾病的极好工具,其中所述生物分子的种类选自根据本发明确认的RNA和/或其DNA对应物、 微小RNA和/或其DNA对应物、肽、蛋白质、和代谢物。对来自健康样本的病理样品或组织的辨别需要根据下表1中示出的方法组合至少2种不同类型的生物分子的数据、测定其浓度和统计学处理以及分类器产生。如上所述,通过分类方式在生物标志物中组合的分子之间的生物学联系与输出和问题选择完全无关,不必用生物学模型解释。本发明方法基本包括以下步骤第一,获得从受试者或生物体获得的生物样品。第二,从所述生物样品测定以下类型(RNA、微小RNA、肽或蛋白质、代谢物)的生物分子的量,并作为原始数据储存于数据库中。第三,对所述数据库的原始数据进行预处理。第四,将在样品中检测的RNA和/或其DNA对应物、微小RNA和/或其DNA对应物、 肽或蛋白质、代谢物的量与正常细胞或组织中测定的相应生物分子的标准量或数据库中储存的相应生物分子的参考量进行比较。如果样品中感兴趣的生物分子的量不同于标准或对照样品中测定的生物分子的量,则将差异浓度数据进行处理并用于下述的步骤5分类器生成。在步骤6中验证分类器并在步骤7中使用根据本发明,分类器利用上述类型中至少2组生物分子的数据,并提供值或分。所述分分配给具有计算概率的血浆、组织或器官的改变的生理状态,并可指示疾病状态、干预(例如治疗、外科手术或药物治疗带来的治疗干预)产生的状态或具有一定概率的中毒状态。所述分可用作诊断工具以指示受试者或生物体被诊断患有疾病,指示患有癌症的中毒。可以用所述分和该分的时间依赖的变化评估治疗的成功或施用于受试者或生物体的药物的成功或评估受试者或生物体对治疗的个体响应或得出生理状态或疾病的未来过程的预后和结果。预后与具有正常水平或分的平均值的未患有疾病或中毒的受试者或至少2种生物分子组成的分类器相关。表1
步骤1:获得生物样品_
步骤2:测定原始数据(生物分子的浓度)并存储于数据库_
步骤3:数据库的原始数据的预处理_
步骤4:与参考值比较和特征选择_
步骤5:根据由至少2种类型的生物分子组成的组合生物标志物的数据训
练分类器_
步骤6:验证分类器_
步骤7:使用分类器评估生理状态,作为指示疾病状态的诊断工具或作为预后工具_表1 所提出的方法的示意图。具体细节见文字部分。对于mRNA和微小RNA数据,数据的预处理通常由背景校正和标准化组成。技术人员知晓多种适宜的已知背景校正和标准化策略;对于Affymetrix数据的比较测量
1分另 1J 见 L. M. Cope 等,A Benchmark for Affymetrix GeneChip Expression Measures, Bioinformatics 2004,20(3),323-331 或 R. A. Irizarry 等,Comparison of Affymetrix GeneChip Expression Measures,Bioinformatics 2006,22 (7),789-794。根据手头的数据,其还可以由一些方差稳定变换或至标准的变换例如采用算法或利用 Box-Cox幂变换组成[Box,G.E. P.禾口 Cox,D.R.An analysis of transformations (with discussion). Journal of the Royal Statistical Society B 1964,26,211-252]。通常还可以使用通过例如标准偏差或中位值绝对偏差(MAD)进行的缩放来变换原始数据。然而,此步骤不是所有类型数据所必需的,对应地也不是所有类型的进一步统计分析必需的,因此可以省略。特征(变量,测定)选择步骤可能也是可选的。然而,如果特征数量大于样品数量, 则推荐此步骤。特征选择方法试图发现具有最高分辨力的特征亚组。由于mRNA和微小RNA数据的高维度,大多分类算法不能直接应用。一个原因是所谓的维度灾难随着维度的增加,各范例之间的距离同化。噪声和无关特征进一步促进该效应,使得分类算法难以建立判定边界。分类算法不适用于全维度空间的进一步原因是性能极限。最终,在分类之前应用特征变换技术,例如见[J. SJu等,Ovarian cancer identification based on dimensionality reduction for high-throughput mass spectrometry data, Bioinformatics, 21 (10) :2200-2209, 2005]。此夕卜,还由于识别未知标志物候选物的任务,传统方法的使用由于数据的高维度而受到限制。以最高可能的灵敏度和特异性识别患病受试者是诊断开发的主要目标。对于这一目标,可选择使用例如逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、 缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织映射(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、和na'ive Bayes等多种分类算法来开发新标志物候选物。这些算法可经含有根据类别(例如健康和患病)标记的例子的至少一个训练数据组训练,然后以含有未用于训练的新例子的至少一个测试数据组进行测试。在训练-测试步骤中,可以使用一轮或多轮交叉验证、自助或一些分离样品法(split-sample approach)来评估预测模型在实践中能进行到什么样的准确程度。最后,将使用分类器来预测新的未标记的例子的类别标签[Τ. M. Mitchell. Machine Learning. McGraw-Hill, 1997] 分类器通常确定的功能是将生物测量的多维向量映射至二元(或η元)输出变量,所述输出变量编码临床相关种类、表型或特殊疾病状态的有或无。建立分类器或使分类器学习的过程包括两个步骤(1)选择可以逼近系统响应的家族函数,和使用观察的有限样品(训练数据)来通过使任何给定点的系统响应和函数预测之间的差异或预计损失最小化从所述家族函数中选择最逼近系统响应的函数。根据所选的特征选择策略,可以在特征选择之前或之后进行不同数据(临床数据、mRNA、微小RNA、代谢物、蛋白质)的组合。然后将组合数据用作输入以训练和验证分类器。然而,还可以分别对不同数据训练多种不同分类器,然后将所述分类器组合用于预测标记。由于数据类型在定性/分类至定量/数值方面可能非常不同,并非所有分类器可用于所述多级数据;例如,一些分类器只接受定量数据。因此,需要根据数据类型选择用于分类的具有合适域的函数种类。
已提出了多种分类的特征选择策略,以全面研究,例如见[M. A. Hall和G. Holmes, Benchmarking Attribute Selection Techniques for Discrete Class data Mining. IEEE Transactions on Knowledge and Data Engineering, 15 (6) : 1437-1447, 2003.]。在常用表征之后,过滤器和包装器方法之间有所区别。过滤器方法利用评估标准来判断特征的辨别能力。在过滤器方法中,可以进一步区分求秩器和特征亚组评估法。求秩器不考虑各特征对分类的用途而对其进行评估。结果, 将秩列表返回用户。求秩器非常有效,但忽略了特征之间的相互作用和关联。特征亚组评估法判断特征的亚集的有用性。特征之间的相互作用的信息主要被储存,但检索空间扩展至W2<d>)的尺寸。对于高维度数据,由于性能极限而只能应用极简单有效的检索策略,例如前进选择算法。包装器属性选择法利用分类器来评估属性亚集。交叉验证用于评估分类器对新的未分类目标的准确性。对于所检查的各属性亚集,确定分类准确性。对分类器的特殊特征进行适应性改变后,在大多数情况下,包装器方法识别属性亚集的分类准确性高于过滤器方法,见 Pochet,N. ,De Smet, F. , Suykens, J. A.,禾口 De Moor, B. L. , Systematic benchmarking of microarray data classification :assessing the role of non-linearity and dimensionality reduction. Bioinformatics, 20 (17) :3185-95 (2004)。作为属性亚集评估方法,包装器方法可以通过任意检索策略使用。在所有特征选择方法中,包装器由于对于所检查的各特征亚组使用了学习算法而是计算最多的方法。本发明的优选实施方式是下述方法,其中所述复杂疾病是AML,所述哺乳动物受试者是人,所述生物样品血液和/或血液细胞和/或骨髓;其中所述不同种类的生物分子是微小RNA和蛋白质,特别是非成熟造血干细胞的表面蛋白,优选CD34;其中微小RNA表达水平和CD34存在用作步骤b)的所述参数;其中微小RNA表达的原始数据利用方差稳定标准化和将标准化多探针信号(技术平行测定)用中位数求和为单一表达值而进行预处理;其中将求秩器,特别是作为微小RNA表达数据的过滤器的结合配对差异的最大中位数的Marm-Whitney显著性测试用于所述特征选择;其中将逻辑回归选择作为适合的分类算法,包括预处理的和过滤的微小RNA表达数据和CD34信息(阳性或阴性)的分类算法的训练通过η倍交叉验证进行,所述η倍交叉验证特别是5至10倍、优选5倍交叉验证;将对所述预处理的微小RNA表达数据组和⑶34信息训练的所述逻辑回归分类器用于疑似患有AML的受试者,并将经训练的分类器用于诊断具体AML类型。本发明的另一优选实施方式是下述方法,其中所述复杂疾病是结肠癌,所述哺乳动物受试者是人,所述生物样品是结肠组织;其中所述不同种类的生物分子是mRNA和/或其DNA对应物和微小RNA和/或其 DNA对应物;其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数;其中微小RNA表达的原始数据利用方差稳定标准化进行预处理;其中mRNA表达的原始数据利用方差稳定标准化和利用稳健多阵列平均值(RMA)将完美匹配(PM)和错配(MM)探针求和为表达测量值而进行预处理;其中将求秩器,特别是作为微小RNA表达数据的过滤器的结合配对差异的最大中位数的Marm-Whitney显著性测试用于所述特征选择;其中将随机森林选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小 RNA表达数据的分类算法的训练通过继以留一法(leave-one-out) (LOO)交叉验证进行;将对所述预处理的mRNA和微小RNA表达数据组训练的所述随机森林分类器用于疑似患有结肠癌的受试者,并将经训练的分类器用于诊断结肠癌和/或其亚型。本发明的另一优选实施方式是下述方法,其中所述复杂疾病是肾癌,所述哺乳动物受试者是人,所述生物样品是肾组织;其中所述不同种类的生物分子是mRNA和/或其DNA对应物和微小RNA和/或其 DNA对应物;其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数;其中微小RNA表达的原始数据利用方差稳定标准化进行预处理;其中mRNA表达的原始数据利用方差稳定标准化和利用稳健多阵列平均值(RMA) 将完美匹配(PM)和错配(MM)探针求和为表达测量值而进行预处理;其中将求秩器,特别是作为mRNA和微小RNA表达数据的过滤器的结合配对差异的最大平均数的Welch t-测试(显著性测试)用于所述特征选择;其中将单隐层神经网络选择作为适合的分类算法,包括预处理的和过滤的mRNA 与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;将对所述预处理的mRNA和微小RNA表达数据组训练的所述随机森林分类器用于疑似患有肾癌的受试者,并将经训练的分类器用于诊断肾癌和/或其亚型。本发明的另一优选实施方式是下述方法,其中所述复杂疾病是前列腺癌,所述哺乳动物受试者是人,所述生物样品是尿路和/或前列腺组织;其中所述不同种类的生物分子是mRNA和/或其DNA对应物和微小RNA和/或其 DNA对应物;其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数;其中微小RNA表达的原始数据利用方差稳定标准化进行预处理;其中mRNA表达的原始数据利用方差稳定标准化和利用稳健多阵列平均值(RMA) 将完美匹配(PM)和错配(MM)探针求和为表达测量值而进行预处理;其中将求秩器,特别是作为mRNA和微小RNA表达数据的过滤器的结合配对差异的最大中位数的Marm-Whitney显著性测试用于所述特征选择;其中将线性判别分析选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;将对所述预处理的mRNA和微小RNA表达数据组训练的所述随机森林分类器用于疑似患有前列腺癌的受试者,并将经训练的分类器用于诊断前列腺癌和/或其亚型。本发明的另一优选实施方式是下述方法,其中所述复杂疾病是短暂性脑缺血发作 (TIA)和/或缺血和/或缺氧,所述哺乳动物受试者是人,所述生物样品是血液和/或血液细胞和/或脑脊液和/或脑组织;其中所述不同种类的生物分子是mRNA和/或其DNA对应物和脑代谢物,特别是游离的前列腺素、脂加氧酶来源脂肪酸代谢物、谷氨酰胺、谷氨酸、白氨基酸(Ieucin)、丙氨酸、丝氨酸、二十二碳六烯酸(DHA)、12 (S)-羟基二十碳四烯酸(12S-HETE);其中mRNA表达水平和定量和/或定性分子代谢物模式(代谢组学数据)用作步骤b)的所述参数;其中mRNA表达的原始数据利用肌动蛋白-β作为参照基因进行预处理,所述脑代谢物的代谢组学数据通过经由2进制对数(即以2为底)的方差稳定变换进行预处理;其中求秩器,特别是作为代谢组学数据的过滤器的结合配对差异的最大平均数的 Welch t-测试(显著性测试)用于所述特征选择;其中将支持向量机选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;将对所述预处理的mRNA表达数据和所述代谢组学数据组训练的所述支持向量机分类器用于疑似患有缺血和/或缺氧的受试者,并将经训练的分类器用于诊断缺血和/或缺氧和/或其分级。实施例实施例1 利用微小RNA和蛋白质数据的方法作为第一实施例,使用了Garzon R, Garofalo M, Martelli MP, Briesewitz R, Wang L,Fernandez-Cymering C,Volinia S,Liu CG,Schnittger S,Haferlach Τ,Liso A, Diverio D, Mancini Μ, Meloni G, Foa R, Martelli MF, Mecucci C, Croce CM, Falini B Distinctive microRNA signature of acute myeloid leukemia bearing cytoplasmic mutated nucleophosmin. PNAS 2008,105(10) :3945-50 的微小 RNA 和临床数据。这些^(据可在 ArrayExpress 在据库 http://www. ebi. ac. uk/arrayexpress 中以登录号E-TABM-^9获得。总体而言,可获得特征为NPMl和FLT3突变的亚细胞定位 /突变状态的85名成年初始AML患者的微小RNA数据。使用OSU-CCC人&小鼠微小RNA IlK v2 Microarray Shared Resource, Comprehensive Cancer Center, The Ohio State University(OSU-CCC)完成杂交。携带NPMl突变和细胞质核磷蛋白(NPMc+AML)的急性髓细胞白血病(AML)约占成人AML的三分之一,并显示出包括独特基因表达模式在内的特殊特征。作者利用微小RNA表达值来区分NPMc+突变(n = 55)与细胞质-阴性(NPMc-,即,NPMl未突变)病案(n = 30)。分析为了开发和验证基于这些数据的分类器,采用了逻辑回归结合5-倍交叉验证,其中在各交叉验证步骤中重复各分析步骤-包括低级分析。并且,将5-倍交叉验证重复了 20次。这是一种可能性。当然,还使用了等分样品、自助或不同的k-倍(k不等于幻交叉验证法。并且,可以使用不同类别的分类函数,例如(对角线)线性或二次判别分析(LDA、 QDA、DLDA、DQDA)、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织图(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、na’ive Bayes等多种分类算法。低级分析由Huber等^00 的方差稳定变换[Huber W, von Heydebreck A, Sueltmann H, Poustka A, Vingron Μ. Variance Stabilization Applied to Microarray data Calibration and to the Quantification of Differential Expression.Bioinformatics 2002,18 :96-104](通常称为标准化)和使用中位数的标准化重复值的平均化组成。同样存在大量可用的替代性方法。L.M. Cope等,Bioinformatics 2004, 20 (3),323-331 或 R. A. Irizarry 等,Bioinformatics 2006,22 (7),789-794 给出了若干实例。在各交叉验证步骤中,选择5个标准化和平均的分类用微小RNA探针,所述探针具有在 Mann-Whitney测试中那些ρ值小于或等于0. 01的微小RNA探针之外的最大配对差异的中位数(绝对值)。即,使用了所谓的特征选择的求秩器。同样有多种可用的其他特征选择策略,[Μ. A. Hall 禾口G. Holmes. IEEE Transactions on Knowledge and Data Engineering, 15(6) :1437-1447,2003.]给出了一些实例。整体而言,由于5-倍交叉验证的20次重复, 对微小RNA探针可以选择达100次。获得了表2所示的预计误差。表权利要求
1.一种哺乳动物受试者的至少一个组织的至少一个生物样品中的复杂疾病或其亚型的体外诊断方法,所述复杂疾病或其亚型选自癌症,特别是急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌;短暂性脑缺血发作 (TIA),缺血,特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病;脱髓鞘性病,特别是白质病、脑室周围脑白质病、多发性硬化症、阿尔茨海默病和帕金森氏病;所述方法包括以下步骤a)选择至少2个不同种类的生物分子,其中所述种类的生物分子选自RNA和/或其 DNA对应物、微小RNA和/或其DNA对应物、肽、蛋白质、和代谢物;b)利用至少2组不同种类的生物分子测定所述样品中的每一种类的多个生物分子的选自存在或不存在、定性和/或定量分子模式和/或分子标记、水平、量、浓度和表达水平的至少一种参数,并将所获得的值的组作为原始数据存储于数据库中;c)对所述原始数据进行数学预处理从而减少步骤b)中所用测定程序固有的技术误差;d)从逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、感知器、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、贝叶斯网络、隐马模型、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织映射(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、模糊分类器、袋翻、增压、和na'iveBayes中选择至少一种适合的分类算法;并将所述选择的分类器算法用于步骤c)的所述预处理的数据;e)将步骤d)的所述分类器算法对至少一个训练数据组进行训练,所述训练数据组包含来自根据其病理生理、生理、预后、或响应者情况分类的受试者的预处理数据,从而选择一个分类器功能从而将所述预处理数据映射至所述情况;f)将步骤e)的所述经训练的分类器算法应用于病理生理、生理、预后、或响应者情况未知的受试者的预处理数据组,并使用所述经训练的分类器算法预测所述数据组的类别标签从而诊断所述受试者的病况。
2.如权利要求1所述的方法,其特征在于所述组织选自血液和其他体液、脑脊液、骨组织、骨髓组织、肌肉组织、腺体组织、脑组织、神经组织、粘液组织、结缔组织、和皮肤组织,和 /或所述样品是活检样品,和/或所述哺乳动物受试者包括人;和/或其特征还在于还选择临床化学中常用的标准实验室参数,例如低分子量生化化合物的血清和/或血浆水平、酶、酶活性、细胞表面受体和/或细胞计数,特别是红细胞和/或白细胞计数、血小板计数。
3.如权利要求1或2所述的方法,其特征在于步骤b)中获得的所述原始数据的所述数学预处理步骤通过选自以下的统计学方法进行对于通过光谱(UV、可见光、IR、荧光)获得的原始数据背景校正和/或标准化;对于通过质谱偶联液相色谱或气相色谱、或毛细管电泳、或通过2D凝胶电泳、ELISA或 RIA的定量测定或通过免疫印记量化或与适体结合的生物分子的量的量化而对浓度/量的测定获得的代谢组学和/或蛋白质组学的原始数据平滑、基线校正、峰拾取,可选的是附加的进一步数据变换,例如采用算法以进行方差的稳定化;对于通过转录组学获得的原始数据将单像素求和为单强度信号;背景校正;将多探针信号求和为单表达值,特别是完美匹配/错配探针;标准化。
4.如权利要求1至3中任一项所述的方法,其特征在于在预处理步骤c)之后插入进一步的特征选择步骤,从而在类别之间找到具有最高分辨力的更低维度的特征亚组;和所述特征选择通过过滤器和/或包装器方法进行;其中所述过滤器方法包括求秩器和 /或特征亚组评估法。
5.如权利要求1至4中任一项所述的方法,其特征在于所述病理生理情况对应于标记 “患病”,并且所述生理情况对应于标记“健康”,或者所述病理生理情况对应于不同的标记 “疾病的级别”、“疾病的亚型”、不同值的“确定疾病的评分”;所述预后情况对应于标记“良好”、“中等”、“差”,或“治疗有响应”或“治疗无响应”或“治疗响应差”。
6.如权利要求1至5中任一项所述的方法,其特征在于所述代谢数据是高通量质谱数据。
7.如权利要求1至6中任一项所述的方法,其特征在于所述复杂疾病是AML,所述哺乳动物受试者是人,所述生物样品血液和/或血液细胞和/或骨髓;其中所述不同种类的生物分子是微小RNA和蛋白质,特别是非成熟造血干细胞的表面蛋白,优选CD34;其中微小RNA表达水平和CD34存在用作步骤b)的所述参数; 其中微小RNA表达的原始数据利用方差稳定标准化和将标准化多探针信号(技术平行测定)用中位数求和为单一表达值而进行预处理;其中将求秩器,特别是作为微小RNA表达数据的过滤器的结合配对差异的最大中位数的Marm-Whitney显著性测试用于所述特征选择;其中将逻辑回归选择作为适合的分类算法,包括预处理的和过滤的微小RNA表达数据和⑶34信息的分类算法的训练通过η倍交叉验证进行,所述η倍交叉验证特别是5至10 倍、优选5倍交叉验证;将对所述预处理的微小RNA表达数据组和CD34信息训练的所述逻辑回归分类器用于疑似患有AML的受试者,并将经训练的分类器用于诊断具体AML类型。
8.如权利要求7所述的方法,其特征在于使用以下DNA探针来靶向所述微小RNA: Seq-ID No. 1 至No. 14 ;和/或使用以下微小RNA-靶序列Seq-ID No. 15至沈。
9.如权利要求1至8中任一项所述的方法,其特征在于所述复杂疾病是结肠癌,所述哺乳动物受试者是人,所述生物样品是结肠组织;其中所述不同种类的生物分子是mRNA和/或其DNA对应物和微小RNA和/或其DNA 对应物;其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数; 其中微小RNA表达的原始数据利用方差稳定标准化进行预处理; 其中mRNA表达的原始数据利用方差稳定标准化和利用稳健多阵列平均值(RMA)将完美匹配(PM)和错配(MM)探针求和为表达测量值而进行预处理;其中将求秩器,特别是作为微小RNA表达数据的过滤器的结合配对差异的最大中位数的Marm-Whitney显著性测试用于所述特征选择;其中将随机森林选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;将对所述预处理的mRNA和微小RNA表达数据组训练的所述随机森林分类器用于疑似患有结肠癌的受试者,并将经训练的分类器用于诊断结肠癌和/或其亚型。
10.如权利要求9所述的方法,其特征在于使用以下DNA探针来靶向所述微小RNA Seq-ID No. 27 至 No. 34 ;如/或使用以下微小RNA-靶序列Jeq-ID No. 35至No. 42 ; 和/或使用以下DNA探针来靶向所述mRNA =Seq-ID No. 43至No. 264 ; 和/或使用以下靶DNA序列Jeq-ID No. 265至276。
11.如权利要求1至6中任一项所述的方法,其特征在于所述复杂疾病是肾癌,所述哺乳动物受试者是人,所述生物样品是肾组织;其中所述不同种类的生物分子是mRNA和/或其DNA对应物和微小RNA和/或其DNA 对应物;其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数; 其中微小RNA表达的原始数据利用方差稳定标准化进行预处理; 其中mRNA表达的原始数据利用方差稳定标准化和利用稳健多阵列平均值(RMA)将完美匹配(PM)和错配(MM)探针求和为表达测量值而进行预处理;其中将求秩器,特别是作为mRNA和微小RNA表达数据的过滤器的结合配对差异的最大平均数的Welch t-测试(显著性测试)用于所述特征选择;其中将单隐层神经网络选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;将对所述预处理的mRNA和微小RNA表达数据组训练的所述单隐层神经网络分类器用于疑似患有肾癌的受试者,并将经训练的分类器用于诊断肾癌和/或其亚型。
12.如权利要求11所述的方法,其特征在于使用以下DNA探针来靶向所述微小RNA Seq-ID No. 33 和 277 至 288 ;和/或使用以下微小RNA-靶序列Seq-ID No. 21、41、289至297 ; 和/或使用以下DNA探针来靶向所述mRNA =Seq-ID No. 298至716 ; 和/或使用以下 DNA 靴序列Seq-ID No. 265,268,717 至 732。
13.如权利要求1至6中任一项所述的方法,其特征在于所述复杂疾病是前列腺癌,所述哺乳动物受试者是人,所述生物样品是尿路和/或前列腺组织;其中所述不同种类的生物分子是mRNA和/或其DNA对应物和微小RNA和/或其DNA 对应物;其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数;其中微小RNA表达的原始数据利用方差稳定标准化进行预处理; 其中mRNA表达的原始数据利用方差稳定标准化和利用稳健多阵列平均值(RMA)将完美匹配(PM)和错配(MM)探针求和为表达测量值而进行预处理;其中将求秩器,特别是作为mRNA和微小RNA表达数据的过滤器的结合配对差异的最大中位数的Marm-Whitney显著性测试用于所述特征选择;其中将线性判别分析选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小 RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;将对所述预处理的mRNA和微小RNA表达数据组训练的所述线性判别分析分类器用于疑似患有前列腺癌的受试者,并将经训练的分类器用于诊断前列腺癌和/或其亚型。
14.如权利要求13所述的方法,其特征在于使用以下DNA探针来靶向所述微小RNA Seq-ID No 733 至 735 ;和/或使用以下微小RNA-靶序列Seq_ID No 736-738 ; 和/或使用以下DNA探针来靶向所述mRNA =Seq-ID No. 739至No. 892 ; 和/或使用以下DNA靶序列Jeq-ID No. 893至900。
15.如权利要求1至6中任一项所述的方法,其特征在于所述复杂疾病是短暂性脑缺血发作(TIA)和/或缺血和/或缺氧,所述哺乳动物受试者是人,所述生物样品是血液和/ 或血液细胞和/或脑脊液和/或脑组织;其中所述不同种类的生物分子是mRNA和/或其DNA对应物和脑代谢物,特别是游离的前列腺素、脂加氧酶来源脂肪酸代谢物、谷氨酰胺、谷氨酸、白氨基酸、丙氨酸、丝氨酸、 二十二碳六烯酸(DHA)、12 (S)-羟基二十碳四烯酸(12S-HETE);其中mRNA表达水平和定量和/或定性分子代谢物模式(代谢组学数据)用作步骤b) 的所述参数;其中mRNA表达的原始数据利用肌动蛋白-β作为参照基因进行预处理,所述脑代谢物的代谢组学数据通过经由2进制对数(即以2为底)的方差稳定变换进行预处理;其中求秩器,特别是作为代谢组学数据的过滤器的结合配对差异的最大平均数的 Welch t-测试(显著性测试)用于所述特征选择;其中将支持向量机选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小RNA 表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;将对所述预处理的mRNA表达数据和所述代谢组学数据组训练的所述支持向量机分类器用于疑似患有缺血和/或缺氧的受试者,并将经训练的分类器用于诊断缺血和/或缺氧和/或其分级。
16.如权利要求15所述的方法,其特征在于通过固相提取液相色谱串联质谱法(在线 SPE-LC-MS/MS)分析样品,其中优选将C18柱用作固相提取柱;并且其中所述生物组织样品中的测定的代谢物浓度的量化优选通过参考内标并通过使用电喷射电离多反应监测串联质谱检测模式来调校。
17.如权利要求15至17中任一项所述的方法,其特征在于所述mRNA表达数据通过定量实时PCR(q-RT-PCI )获得; 和/或使用以下引物对=Seq-ID No. 901至906 ;和/或使用以下DNA靶序列Seq-ID No. 265、 907 和 908。
18. 一种用于在生物样品中进行如权利要求1至17中任一项所述方法的试剂盒,所述试剂盒包含a)用于检测至少2种不同种类的生物分子的检测剂,其中所述种类的生物分子选自 RNA和/或其DNA对应物、微小RNA和/或其DNA对应物、肽、蛋白质、和代谢物;b)阳性和/或阴性对照;和c)用于将以所述检测剂取得的结果进行分类的分类软件。
全文摘要
本发明涉及用于在生物样品中体外诊断复杂疾病的方法和试剂盒,所述复杂疾病例如癌症,特别是急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌;短暂性脑缺血发作(TIA),缺血,特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病;脱髓鞘性病,特别是白质病、脑室周围脑白质病、多发性硬化症、阿尔茨海默病和帕金森氏病。对于诊断,测定至少2种不同种类的生物分子并通过适合的分类器算法和其他统计程序将结果分类,从而进行应用。通过本发明,可实现可靠性(例如仅表达曲线的可靠性)的显著进步。换言之,在确定的集合中,可以实现高达100%准确的阳性诊断,从而使本发明的方法优于现有技术。
文档编号G06F19/00GK102362279SQ201080013648
公开日2012年2月22日 申请日期2010年3月31日 优先权日2009年4月7日
发明者H·迭戈那, K·温伯格, M·科勒, M·科尔, T·克尔 申请人:拜奥尼茨生命科学公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1