基于隐含模式用于从生物数据中识别生物状态的方法

文档序号:5986906阅读:206来源:国知局
专利名称:基于隐含模式用于从生物数据中识别生物状态的方法
本申请的权利要求受益于35U.S.C.sec.119(e)(1),优先权为申请日为2000年9月12日序列号为No.60/232909的申请,申请日为2001年3月23日序列号为No.60/278550的申请,申请日为2000年7月18日序列号为No.60/219067的申请,和美国临时申请,其题目为“一种数据算法规则揭示了在血清中带有卵巢和前列腺癌蛋白标志的疾病”(将要分配序列号),其申请日为2001年5月8日,在此该申请作为一个整体参考引用。
I.发明领域本发明涉及通过发现和分析隐含或非显著识别生物数据模式从而测定生物状态的方法。该生物数据可以来自于保健资料、临床数据,或来自于生物样品(例如来自于人体的生物样品,如,血清、血液、唾液、血浆、乳突待测物(nipple aspirant)、滑液、脊髓液、汗液、尿液、粪便、泪液、支气管灌洗液(bronchial lavage)、拭取物、针吸待测物(needle aspirants)、精液、阴道液、前精液(pre-ejaculate)等等,分析这些生物样品来测定供体的生物状态。生物状态可以是病理诊断、毒性状态、药效、疾病预后等。
具体地,本发明涉及分析方法,该方法a)发现隐含识别生物数据模式(例如,血清样品中的蛋白质表达模式,该模式将器官的生物状态分类),该数据模式是更大的数据流的子集,所述识别意味着在一组学习数据中的两个或更多生物状态中的识别能力,和b)用上述模式来将未知或试验样品分类。更具体的是,本发明涉及用于分析数据流的方法,该数据流来自于生物样品中的分子(如,蛋白质、肽、DNA、RNA、等等)的物理或化学分析(例如样品质谱分析)。
这些模式定义为“隐含的”,因为它们常常与更大的高度复杂数据组隐藏在一起,而且对于眼睛或其他现在的分类系统是不显而易见的或明显的。该模式本身可作为三个或更多数据的组合定义,以便于即使在单个数据不可识别时,也可在生物状态之间识别n维空间中向量的位置。因为不需任何生物数据中单个数据点之间的特性或关系的知识或任何生物样品中分子之间的特性或关系的知识,也可定义这些模式,因此本发明的识别模式是新的。
一种发现这样的生物状态的分析方法包括应用两种相关的启发式算法,一种学习算法和一种诊断算法,其中诊断算法的参数通过将学习算法应用于一组学习数据而设置,从而可以识别两种或更多的生物状态。这样的生物状态为存在或不存在疾病,药物有效或无效,药物毒性或无毒性,等等。虽然本发明一般特定地实施于诊断各种癌症(包括,但不仅限于癌瘤、黑色素瘤、淋巴癌、恶性肉瘤、胚细胞瘤、白血病、骨髓瘤、神经肿瘤等等,和例如卵巢、前列腺、乳腺的器官的癌症),也可发现存在病原体或毒性。本发明的优选实施例是发现和使用分子模式,该模式反应器官或组织现在或未来的生物状态。本发明的另一实施例是描述生物状态分子模式的数据与另一些非生物或临床数据(例如心理问题)相结合从而产生阐述患者健康状况的分类。
II.发明背景技术检测生物状态的改变,特别是早期检测疾病已成为医学研究和临床团体关注的中心焦点。已有技术包括以下例子试图从由组织样品物理或化学分析而形成的数据流中选取诊断信息。这些技术一般称为“数据提炼”。已提炼的数据流通常为两种形式通过杂合到DNA寡聚核苷酸阵列(“DNA微阵列”)上分析mRNA的表达水平;和分析存在于细胞或血清样品中的蛋白质水平,其中蛋白质由使用质谱的分子量表示其特征或由分子量和使用2-D凝胶技术的电荷的组合表示其特征。
Rajesh Parekh及其同事已阐述了使用血清或血浆样品基于数据提炼的肝细胞癌蛋白质诊断(WO99/41612),使用组织样品的乳腺癌蛋白质诊断(WO00/55628),和使用血清或血浆样品的风湿性关节炎蛋白质诊断(WO99/47925)。在每一公开中,实施了一种二维凝胶分析。这种分析由以下步骤组成测定由2-D凝胶确定的单个蛋白质水平,并且在与正常组织比较时识别那些在恶性肿瘤中升高或降低的蛋白质。
Liotta和Petricoin(WO00/49410)提供了另外的基于使用2-D凝胶和质谱的诊断方法的蛋白质示例。然而,Liotta和Petricoin的分析与Parekh类似,因为它包括寻找特定的肿瘤标记。已经试图用DNA微阵列识别肿瘤标记。Loging,W.T.,2000,Genone Res.10,1393-02,描述了试图通过DNA微阵列识别多形性成胶质细胞瘤中的肿瘤标记。Heldenfalk,l.,et al.,2001,NewEngland J.Med.344,539,报告了试图识别肿瘤标记,该标记通过DNA微阵列数据的提炼将由BRCA1和BRCA2突变引起的乳腺癌遗传形式彼此区分开,并将之与一般的自发乳腺癌区分开。
Alon等人,1999,PNAS 96,6745-50,描述了使用DNA微阵列技术在克隆肿瘤样品与正常克隆组织比较中来识别具有同等表达水平的基因簇丛。实际上,这些研究确实识别了那些与正常组织相比在肿瘤中相对以上或以下表达的基因。然而,簇丛算法未设计成可以识别除肿瘤标记型模式的其他基因表达的诊断模式。
已将指向除肿瘤标记外的指示剂的数据提炼成果用于诊断。这些成果通常使用模式识别方法来识别单独的诊断标记或区分数据组之间的关系。模式识别方法用于基于在多种不同条件下的相互关联表达将基因分成几组,这种方法由下述人等首先使用Eisen,M.等人,1998,PNAS 95,14863-68;Brown,MPS,等人,2000,PNAS 97,262-67和Alter,O.,等人,2000,PNAS97,10101-06。一般,这些技术使用向量空间(vector space),在这个向量空间中每一个向量对应于基因或DNA微阵列上的位置。每一个向量由在各种不同条件下单独对应于基因表达的相对水平的标量组成。这样,例如Brown等人分析了79维向量空间中的向量,在这个向量空间中每一维对应于酵母生命循环阶段的一个时间点,并且2467个向量中的每一个对应于一个基因。模式识别算法规则用于识别基因簇丛,该基因表达相互关联。因为主要关注是基因表达的相关性,所以用于Eisen等人的模式识别算法中的量度和有关工作是一个Pearson系数或内积型量度而不是Euclidean距离量度。一旦建立了群集,通过认识簇丛基因的任何通常可知的属性,确定了每一簇丛的意义。得出的结论是前面在同一簇丛中的发现不典型的基因可能共有一个或多个这些一般属性。
Eisen等人的模式识别技术由Alizadeh和Staudt应用于恶性肿瘤类型的诊断中。Alizadeh和Staudt从建立向量开始,每一个向量对应于一个基因,并具有对应于在某个鉴别条件下基因表达的相对水平的标量,例如休眠的外周血液淋巴细胞或促分裂素激活的T细胞。模式识别算法根据基因表达的相关性使基因成群并且定义每一鉴别状态下表达特性的模式。通过将mRNA杂合到与确定基因簇丛所用的相同的DNA微阵列上,分析扩散的巨大B细胞淋巴瘤(DLBCL)的样品。发现DLBCL至少有两种不同的基因表达模式,每一种具有正常鉴别状态的特征。发现DLBCL的预后与特征鉴别状态相互关联。这样,由Alizadeh和Staudt提出并回答的诊断问题不是良性或恶性肿瘤,而是通过识别具有与恶性肿瘤最相似的基因表达模式的鉴别细胞类型来测定恶性肿瘤的类型或亚型。Alizadeh等人,2000,Nature 403,503-511。已用相似的技术来在急性骨髓瘤白血病和急性淋巴细胞白血病之间进行区分。Golub,T.R.等人,1999,Science 286,531-537。
因此,可以看到基于物理或化学分析的数据提炼方法具有巨大的数量,即大于1000个数据点,该方法包括两种类型用于识别单个标记的数据提炼,如基因或蛋白质,它们具有在所定义类型的恶性肿瘤细胞中与正常细胞相比增高或降低的表达水平;和数据采集,其中用正常鉴别细胞类型的已知基因表达特性模式来根据最接近相似的正常细胞类型给已知的恶性肿瘤细胞进行分类。
这样,需要有方法能够用除单独标记(如肿瘤标记)外的生物数据或基因表达簇丛来测定生物状态。通常,单独标记在疾病病理学中所起的作用一定是已知的或已建立的,常常在生物样品分析前耗费大量成本。而且,这些标记常位于内部器官或肿瘤,而且必须实行复杂、侵入性的局部组织切片以得到含有这种标记的生物样品。如果生物状态复杂,如疾病,特别需要可以用这种生物状态固有的复杂数据诊断生物状态,而不用已有的该样品中分子之间相互关系的大量知识。
而且,基因表达簇丛分析限制在一定范围内,因为这种分析结合所有表达基因的分析,不考虑是否这些基因的表达是成为要因还是仅受那些成为该生物状态特性的基因的要因行为影响。簇丛分析不单独结合那些具有目的生物状态特性的基因,而是使用由试验取得的整个数据范围,这会使簇丛分析复杂、不方便。而且,基因表达分析必须涉及核酸提取方法,使之复杂、耗时。因为所使用基因表达的相关性是一种复杂的Pearson系数或内积型量度,而不是简单的Euclidean距离量度,模式识别算法在应用时也很困难。
与已有技术相比,本发明在更大的复杂数据领域中披露了最优的隐含分子模式作为亚组,因此该模式本身在生物状态之间是可识别的。这样,本发明避免了全部与已有技术中披露的分析方法相关的前述问题,并可以发现至今未知的诊断模式。这样的隐含分子模式存在于源于保健资料、临床数据或生物数据的数据流中。虽然这种分子模式表达是极少器官疾病状态的特性,但生物数据可来源于简单的生物液,如血清、血液、唾液、血浆、乳突待测物、滑液、脑脊液、汗液、尿液、粪便、泪液、支气管灌洗液、拭取物、针吸待测物、精液、阴道液、前精液等等,这使常规取样容易。不需要或甚至不要求具有特定肿瘤标记或生物样品中存在的分子彼此之间关系的已有知识。本发明也披露了数据产生和分析方法。这样的数据分析方法结合最优化算法(在其中识别分子模式),并用该分析方法进行适合度试验,在该试验中选择在生物状态之间进行最佳识别的适合度模式用于分析生物样品。
III.发明概述本发明包括使用模式发现方法(pattern discovery method)和算法来检测生物样品中的某些分子表达之中的精细的(如果不是完全隐含的话)模式,这些模式实质上是生物状态的潜伏症状或前兆。在本发明的一个实施例中,该分子表达模式是蛋白质表达模式,具体为低分子量蛋白(即小于20,000Da)模式。这种蛋白质表达的隐含模式可以仅从提供给算法的总数据流、几个亚组中的一个亚组而得到,或者可以从总数据流分析中得到。该模式可作为三个或更多值中的一个向量来定义,以使得即使在单个值不可识别时,向量在n维空间的位置可以识别生物状态。目的分子可以是任何相关生物材料,如蛋白质(完全的、分裂的或部分表达的)、肽、磷脂、DNA、RNA等等。
这种在生物状态之间进行识别的识别模式常常是巨大数据流中隐含数据的一些小亚组,该数据流来源于生物样品的物理或化学分析。这样,为发现这种在生物状态之间进行识别的识别模式,需要一种用于发现组成识别模式的最佳特征组的方法。本发明结合用于发现该最佳特性组的方法。通过改变分类成果程度可使用许多用于识别模式的特征选择方法来实践本发明。这些包括但不仅限于统计学方法、逐步回归法、线性最优化法等等。然而,统计学方法有一些限制,因为它们至少在简单、公知的形式(如多元线性回归)中常常是线性的。而且,统计学模型关于非线性数据趋于不稳定。统计学模型自变量的数量效果良好的可以一般为10或更少,实际优选限度为5或6。优选实施例使用一种方法,该方法将遗传算法和进化计算方法直接结合到合适的模式识别算法来有效发现最优特征组。参见题目为“启发式分类方法”的美国专利申请(申请日2001年6月19日,优先权为2000年6月19日的申请序列号为No.60/212404的申请)。
本发明所披露的一个方法由两个相关的启发式算法组成,诊断算法(diagnostic algorithm)和学习算法(learning algorithm)。该诊断算法通过将学习算法应用到学习(或训练)数据组中而产生。学习数据组是一组由生物样品形成的数据组,对于该生物样品将目的生物状态提供给模式发现操作。例如,学习数据组可包括已建立活体检视诊断(例如,良性肿瘤和恶性肿瘤)的个体的血清而得到的数据。这可使学习算法用于发现蛋白质标记模式,该模式可将癌血清样品与正常血清样品区分开。
在一个实施例中,根据本发明的方法以将生物样品用于高处理量物理或化学分析开始,从而得到数据流。这种数据流包括但不仅限于,发现于样品中或mRNA杂合到不同试验聚核苷酸阵列上的强度中的蛋白质质谱数据。一般,数据流以大量(10000或更多)强度为特性,该强度以如下方式产生允许不同样品的数据流中的相应单个数据用于识别。
诊断方法的第一步骤是计算向量,即具有数据流特征的小数量(在2和20100之间,更一般的为5和208之间)的有序组。数据流转化为向量称为“提取”。在本实施例中,提取是通过从数据流中选择小数量特定强度而进行操作。
诊断方法的第二步骤是测定(如果有的话)数据组向量存在于哪个数据簇丛中。数据簇丛是数学构造,该数学构造是在向量空间中固定长度的非重叠“球面”的多维当量。已知该数据簇丛为多维球面。每一数据簇丛的位置和相关的诊断通过来自于训练数据组中的学习算法来测定。如果生物样品的向量位于已知簇丛中,样品进行与簇丛相关的诊断。如果样品向量位于任何已知簇丛之外,可以诊断样品不适于分类标准或它是未特别指明的非典型,即“非典型样品,NOS.”。例如,如果取自患者的生物样品不适于对特定癌症的恶性肿瘤状态分类,它可作为非恶性非正常或未特定指明非典型,“非典型样品,NOS.”进行分类。
学习算法利用已知数学技术和两个预置参数的组合。使用者预置向量空间的维数和数据簇丛的大小。通常,向量空间为标准化向量空间,以便于在每一维强度的变化不变。这样,组的大小可用存在于簇丛中的向量之间的最小百分数相关性(similarity)来表示。
在一个实施例中,学习算法包括两类部分,两者彼此发展,并且在该领域中为已知的——遗传算法(J.H.Holland,Adaptation Natural and ArtificialSystems,MIT Press 1992);和自组织适合模式识别系统(T.Kohonen,SelfOrganizing and Associative Memory,8 Series In Information Sciences,SpingerVerlag,1984,Kohonen,T,Self-organizing Maps,Springer Verlag,Heideberg1997)。遗传算法组织并分析复杂数据组,即使它们是由单个元素构成的信息,其中这些元素可通过由自然选择程序驱动的计算机进行操作。
在本发明中,定性地看,研究存在于“症状”中或“症状”本身的分子表达的隐含或精细模式不同于那些通过已有技术执行学习算法或数据提炼技术而产生的模式。在先进行的数据提炼已识别表现出分类的特定分子产物,例如在病理学条件下升高或降低的蛋白质或转录产物。这样,因为除了可能的用于标定分子产物水平的标准化分子产物,不进一步考虑任何样品中的任何其他分子产物水平,产物水平是症状,因此识别的分子产物水平本身称为症状。这样的诊断分子产物本身的一个例子是肿瘤标记。
相反,在根据本发明的数据簇丛分析中,任何特定标记(如蛋白质或转录产物)水平的诊断权数是用于计算样品向量的其他元素水平的函数。这样的产物在后面称为前后关联诊断产物。这样,在前面实施数据提炼技术中,目的生物样品和学习数据组之间的相似性是基于与特定诊断分子产物相比的生物样品的特定分组。然而,在本发明中,学习算法发现了全新的分类模式,而不用知晓任何关于识别或数据模式关系的已有信息,即不用已有输入,在该输入中特定的诊断分子产物表示出特定分类。
本发明部分基于发现隐含的前后关联诊断模式的突发性或非显而易见的发现,从而产生一种分类,例如,癌中的恶性肿瘤的诊断,如癌瘤、黑色素瘤、淋巴瘤、肉瘤、胚细胞瘤、白血病、骨髓瘤和神经肿瘤。
IV.发明详述本发明包括a)产生表示生物数据的数据流(或表示生物数据的数据流与临床、保健或非生物数据的组合)并提取这些数据成为特征向量;b)发现分子表达的隐含诊断模式(即模式发现);和c)测定分子表达的这种模式表示哪种目的生物状态。目的分子可以包括,但不仅限于蛋白质、肽、RNA、DNA,等等。生物样品包括,但不仅限于血清、血液、唾液、血浆、乳突待测物、滑液、脑脊液(cerebrospinal fluids)、汗液、尿液、粪便、泪液、支气管灌洗液、拭取物(swabbings)、针吸待测物、精液、阴道液、前精液,等等。
目的生物状态可以是病理学诊断、毒性状态、药效、疾病预后、疾病阶段、器官的生物状态、存在病原体(如病毒)、一种或多种药的毒性,等等。本发明可用于诊断任何疾病,该疾病中某些分子(如蛋白质)表达模式的变化使之可与非疾病状态相区别。这样,具有遗传组份的疾病可通过本发明进行研究,在该组份中表达基因异常,或在组份中可观察药毒性表达,或在该组份中体内分子水平受影响。这种疾病包括,但不仅限于癌症(癌瘤、黑色素瘤、淋巴瘤(包括Hodgkin型和非Hodgkin型)、肉瘤、胚细胞瘤、白血病、骨髓瘤和神经肿瘤,如恶性胶质瘤,等等)、Alzheimer病、关节炎、肾小球肾炎、自免疫疾病,等等。癌瘤的例子包括,但不仅限于胰腺癌、肾癌、肝癌和肺癌;肠胃癌。
本发明对诊断特定疾病特别有价值,对这些疾病早期诊断是重要的,但由于缺乏症状早期诊断在技术上是困难的,其中由于病理组织的新陈代谢作用,该疾病希望在血清中产生可检测到的差别。这样,恶性肿瘤的早期诊断成为使用本发明的主要焦点。
本发明的详细组成如下所述。
A.数据流形成数据流可以是生物样品任何可重现的物理或化学分析,该分析产生了高处理量数据流。优选的,高处理量数据流的特征为1000或更多次测定,这种测定可量化到至少1/1000(三位有效数字),更优选的为1/10000。存在许多方法用于产生数据流。在本发明的一个实施例中,当目的分子是蛋白质或肽,可用蛋白质的“飞行时间”质谱来产生数据流。更具体的为,当目的分子是蛋白质或肽时,可使用基质辅助激光解吸电离飞行时间(MALDI-TOF)和表面加强激光解吸电离飞行时间(SELDI-TOF)光谱法。一般参见WO00/49410。在一个实施例中,可用SELDI-TOF来产生用于表示毒性的生物状态和病原体检测的数据流。而在另一实施例中,数据流可使用用于基因表达分类的连续放大基因表达(SAGE)产生。在一些情况下,可使用2-D凝胶,如二维聚丙烯酰胺凝胶电泳(2D-PAGE),来产生数据流。
对临床病理学,用于分析的优选患者样品为血清。然而,也可使用相对同质的活体检视样本。对某些疾病状态,可以使用其他液体,例如,滑液可用于关节炎鉴别诊断或尿液可用于肾小球肾炎的鉴别诊断。
包括在SELDI-TOF和MALDI-TOF分析中的特定蛋白质取决于所使用的表面或基质。脂类表面,如C-18烷表面,与阴离子或阳离子表面相比特别适宜。然而,本领域技术人员希望使用不同表面可以从同样的样品中产生多个光谱。连接这些光谱从而产生根据本发明可分析的“超光谱”。同样,可结合来自两个或多个高处理量分析方法的数据,该数据通过本发明可进行分析。而且,本发明所述的生物数据可结合临床、保健或非生物数据。
不论使用任何表面、基质或表面和基质的组合,都必须多进行注意以确保从一个生物样品到下一个生物样品表面都相同。
数据流也包括本质上不是由单个有序参数(如分子量)组成的而是具有随机顺序的测定。这样,当组织样品为活体检视样本时,可使用DNA微阵列数据(其中同时测定2000或更多基因表达水平)来作为数据流,注意数据流中个别基因顺序是随机的。
本领域技术人员明白与该方法可得到的商业实施例一致,本发明的说明书认为从生物样品中产生数据流和基于最优逻辑染色体提取数据流是两个分离的步骤。然而,很明显,只有常规设计选择允许测定装置本身执行提取功能。这决不改变本发明对该诊断方法的贡献,并且将权利要求解释为允许所要求保护的诊断方法的提取和向量分析部分在不同的计算装置中进行。
应注意使用本发明方法可分析来自患者样品的单个数据流,用于多个诊断。因为特定用于每一诊断的步骤仅仅是计算,这种多个分析的额外成本很小。
B.提取方法本发明诊断方法的第一步骤是转换或提取数据流成为特征向量。数据可在提取前通过指定全部峰值为任意值1.0从而进行适宜的标准化,这样,所有其他点都是分数值。例如,在通过TOF质谱形成数据流的实施例中,TOF质谱的最简单提取包括选取少量数据点。本领域的技术人员识别建立多个点的更复杂的函数,如区间上的平均值或更复杂的总和或数据点(从选定的标准数据点到这些数据点之间的距离预先测定)之间的差。也可以使用这样的数据流强度值的函数,并认为这些函数等效作用以进行用于工作示例中的简单提取。
本领域的技术人员也知晓常规试验可测定是否通过在随机点处取瞬时斜率的抽提在本发明中也起作用。因而,所使用的工作示例的这种常规适宜变化在本发明的范围内。
C.模式发现通过在上述概述中所讨论的多种方法实现模式发现。然而,在优选实施例中,模式发现包括诊断算法和学习算法。这样,为实践本发明的该实施例,日常工作人员必须通过使用学习算法发展诊断算法。为利用学习算法,日常工作人员使用训练数据组并且必须选择两个参数、维数和数据簇丛大小。参见题目为“启发式分类方法”的美国专利申请(申请日2001年6月19日,优先权为2000年6月19日的申请序列号为No.60/212404的申请)。
在一个实施例中,可通过结合两种不同类型公共可得到的一般软件实现学习算法,它们彼此相互发展并为本领域所公知——遗传算法((J.H.Holland,Adaptation in Natural and Artificial Systems,MIT Press 1992),该算法处理一组逻辑染色体(该词“逻辑染色体”用在与遗传学习算法的联系中,因为该算法的逻辑处理类似于复制、选择、重组和变异。当然在DNA或另外物质中逻辑染色体是没有生物体现的。本发明的遗传学习算法仅仅是计算方法,不应与用于基于生物的信息处理的方案混淆。)来识别控制数据流提取的最佳逻辑染色体;和一种自组织合适模式识别系统(参见T.Kohonen,Self Organizing and Associative Memory,8 Series In Information Sciences,Spinger Verlag,1984,Kohonen,T,Self-organizing Maps,Springer Verlag,Heideberg 1997),可从Group One Software公司(Greenbelt,MD)得到,该系统基于任何由逻辑染色体产生的向量组识别一组数据簇丛。具体的,适合的模式识别软件使存在于同质数据簇丛中的向量数量最大化,也就是说,含有学习组向量的簇丛只有一种分类类型。
遗传算法实质上测定用于计算特征向量的数据点。然而,与本领域术语一致,所选择的特定点序列定义为逻辑染色体。与具有特征向量维数同样,逻辑染色体含有许多“基因”。仅仅如果逻辑染色体中没有基因进行复制,任何适宜数量的数据组可成为逻辑染色体。基因的顺序对本发明没有意义。
当两个条件满足时,可使用遗传算法。解决问题的一个特定方法必须可通过一组或一系列固定大小的离散元素表示,其中元素可以是数字或特性,并且这一系列可以重组来产生另外的方法。人们必须也能够计算每一方法相对优点的数值,称为它的适合度。在这些情况下,遗传算法的细节与寻找谁的方法这一问题无关。因而,对本发明任何一般的遗传算法软件都可使用。算法PGAKack文库(可以从Argonne National Laboratory得到)是适宜的。下面讨论任意特定逻辑染色体适合度的计算。
在描述的示例中,使用大约100个样品数据流的训练数据组,每一样品数据流包括大约15000个数据点。遗传算法以大约1500个任意选择的逻辑染色体开始。在发展算法时,复制更适合的逻辑染色体,终止不太适合的染色体。在逻辑染色体和变异体之间存在重组,重组由逻辑染色体元素的随机取代而产生。起始所选的逻辑染色体的收集为任意的,这不是本发明重要的特性。数据流总组的一定预筛分用于识别那些具有最高变异性的数据点,这样的预筛分是有用的,虽然该技术也引起了不期望的起始偏离。用使得本方法继续存在的最适宜模式来在生物状态之间进行识别并测定所需分类。
D.模式识别方法和适合度评分产生计算由遗传算法产生的每一逻辑染色体的适合度评分。该适合度评分计算需要为给定的逻辑染色体产生一组最优数据簇丛。数据簇丛简单的是在向量空间中的量,在该向量空间中存在训练数据的特征向量。产生最优数据簇丛组的方法不是本发明的关键,在下面考虑。然而,不论用来产生数据簇丛图谱的方法是什么,该图谱受到下面规则的约束(i)每一数据簇丛应位于在数据簇丛之中的数据点的质心;(ii)没有两个数据簇丛重叠;和(iii)在标准化向量空间中的每个簇丛的大小在产生图谱前就固定了。
如上所述,为使用学习算法,日常工作人员必须使用学习数据组并选择两个参数、维数、数据簇丛的大小。两个参数都可以用常规试验设定。虽然关于向量中的维数不存在绝对或固有的上限,学习算法本身自然地在每一实施中限定维数。如果维数太低或簇丛的大小太大,学习算法不能产生任何正确将样品分成同质簇丛的逻辑染色体,相反如果维数太大,在这种情况下,学习算法产生许多在早期学习方法中具有最大可能适合度的逻辑染色体,从而,只有失败的选择(abortive selection)。相似的,当数据簇丛的大小太小时,发现簇丛数接近训练数据组中的样品数量,并且日常工作人员将再次发现巨大数量的逻辑染色体将产生最大适合度。
本领域的技术人员知道训练数据组几乎常可以分配到同质数据簇丛中去。这样,由学习算法产生的诊断算法值必须通过它对数据组(除训练数据组之外)分类的能力进行试验。当学习算法产生诊断算法时,其中该诊断算法成功分配训练数据组却不能很好分配试样数据组,据说训练数据由学习算法过度拟合。当维数太大和/或数据簇丛的大小太小时,导致过度拟合。
用于识别数据簇丛大小的方法是本发明的一部分。簇丛大小由数据簇丛中任意两者之间的欧几里得距离(平方和的根)当量的最大值确定。当由SELDI-TOF质谱法产生数据流时,对应于90%相似性需要的数据簇丛的大小对本发明是适宜的。在数学上,通过需要在数据簇丛中任意两者之间的距离比标准化向量空间中两点之间距离的最大值的0.1小而确定90%相似性。为进行该计算,将向量空间标准化,以使在训练数据组中的向量的每一标量范围在0.0-1.0之间。这样标准化后,向量空间中两个任意向量之间的最大可能距离就为根N,其中N为维数。每一簇丛的欧几里得直径为0.1×根(N)。
向量空间的特定标准化不是本方法的关键特征。选择上述方法用于简化计算。可通过量取每一维而不到范围处从而完成另一种标准化,所以每一维具有相等的变量。
本领域的技术人员进一步认识到,如果在数据流中的值分布是对数法线并不标准分布,数据流可转化为对数形式。
一旦产生了对于逻辑染色体的最优数据簇丛组,可以计算对该染色体的适合度评分。对本发明,染色体的适合度评分粗略地对应于训练数据组的向量数量,该数据组存在于同质簇丛中,即,含有来自具有单独诊断的样品的特征向量的簇丛。更准确的说,通过分配给每一簇丛一个同质评分来计算适合度评分,例如,该评分从同质簇丛的0.0变化至含相同数量恶性或良性样品向量的簇丛的0.5。染色体的适合度评分是数据簇丛的平均适合度评分。这样,0.0适合度评分是最佳的。存在向产生更多数据簇丛的逻辑染色体的偏离,因为当两个具有在分配数据中存在相等数量误差的逻辑染色体时,产生更多簇丛的染色体具有较低的平均同质评分,这样是较好的适合度评分。
用于产生数据簇丛的优选生成技术是使用由Kohonen研究的自组织图谱算法(Kohonen,T,Self-organizing maps,Springer Verlag,Heidelberg 1997)。这种技术不同地称为“引导簇丛图”(“LCM”),或者“适宜特征图谱”,可通过一般公众可得到的软件执行。适宜的销售商和产品包括由Group OneSoftware(Greenbelt,MD)公司提供的模型1和Adaptive Fuzzy Feature Map(美国Heuristics公司)。LCM具有重要的优点,是a)它不是非线性模拟方法;b)自变量数量实际上不受限制;和c)与其他非线性模拟技术相比,LCM具有适宜的优点。它可以检测数据流中的新模式和痕迹罕见模式。这在生物状态分类,即病毒变异中特别有用。
E.特定实施例说明和验证1.研究对于前列腺癌的诊断使用上述学习算法,利用55位患者血清样品的SELDI-TOF质谱(MS),本发明用于研究前列腺癌的诊断,其中30人活体检视为前列腺癌并且前列腺血清抗原(PSA)水平大于4.0ng/ml,25人正常具有低于1ng/ml的PSA水平。通过选取7个分子量(2092,2367,2582,3080,4819,5439和18200Da)来提取MS数据。特定分子量不是本发明的关键参数,可以根据吸收表面而变化。产生将训练数据组中的每一向量分配到同质数据簇丛的簇丛图谱。簇丛图谱中含有34个簇丛,17个是良性的,17个是恶性的。
用231个样品来试验诊断算法,这些样品排除在训练数据组之外。使用六组来自具有不同临床和病理症状患者的样品。临床和病理学的说明和算法结果如下1)24个患者PAS>4ng/ml并且活体检视证明为癌症,22个图谱分配至疾病数据簇丛,2个图谱分配至无簇丛;2)6位正常,所有图谱分配至健康簇丛;3)39位具有良性肥大(BPH)或前列腺炎并且PSA<4ng/ml,7个图谱分配至疾病数据簇丛,没有图谱分至健康数据簇丛,32个图谱分至无数据簇丛;4)139位具有BPH或前列腺炎,并且PAS>4且<10ng/ml,42个图谱分至疾病数据簇丛,2个分至健康数据簇丛,95个分至无数据簇丛;5)19位具有BPH或前列腺炎,并且PSA>10ng/ml,9个图谱分至疾病数据簇丛,没有图谱分至健康数据,10个分至无数据簇丛。通过从已经过活体检视证明为癌瘤并且PSA>10ng/ml的患者中提取前列腺切除术前和术后样品研究第六组数据。如所期望的那样,7个外科手术前的样品中的每一个都分配到有病数据组。然而,没有取自外科手术后6周,同时当PSA水平降到1ng/ml之下时的样品不分配至任何数据组。这些结果在表1中汇总。
当计算上述试验结果时,应当记起具有PSA为4-10ng/ml并且活体检视良性诊断的患者中的隐性癌变率为大约30%。这样,发现在18%-47%之间的患者具有升高的PSA,而没有癌症组织诊断,该发现与正确测知存在癌瘤的高精确试验一致。
现有更大关注的是以下事实尽管事实上这样的种类在训练中不存在,诊断算法可以将3)、4)、5)中样品的重要部分分类为非癌症、非正常种类。实际上,任何来自该组的样品必定包括大数量潜伏癌瘤载体,该事实证明了BPH或前列腺炎样品不应包括在训练数据组中。
表1
a男性受检者进入普查试`验,入组标准>50岁,无症状的。如果PAS>4ng/ml或阳性数字直肠实验,活体检视处理。包括6位患者PSA>10ng/ml,18位患者PSA在4-10ng/ml。
b30-35%认为有潜伏癌症c患者匹配d血清取自手术后6周
2.研究诊断卵巢癌应用SELDI-TOF MS分析患者血清,使用上述方法产生对于卵巢癌瘤的诊断算法。100个样品的训练组用于组建簇丛组图谱。通过选取5种分子量(531,681,903,1108和2863m/e)来提取MS数据。建立了由15个疾病簇丛和11个健康簇丛组成的簇丛图谱。在已证明为卵巢癌的训练数据组中,50个样品中有40个分配至疾病数据簇丛,剩余10个为假阴性;50个来自正常人的样品中,44个分配至健康数据簇丛,剩余6个为假阳性。
观察到对每一所选的分子量,健康和疾病数据簇丛数值的范围重叠。实际上,对5种分子量中的4种,疾病数据簇丛的范围包括健康数据簇丛的范围。因而,所检的诊断模式不是由肿瘤标记促成,而是由前后关联的诊断产物促成。
使用另外100个样品试验诊断算法,这些样品分成三个临床、病理组。组和算法的结果如下1)50个来自没有疾病患者的样品中,47个分配至健康数据簇丛,3个分配至疾病数据簇丛;2)32位具有II、III、IV期卵巢癌瘤的患者中,全部分配至疾病数据簇丛;和3)18位具有I期卵巢癌瘤的患者中,所有定位于疾病数据簇丛。这些结果在表2中汇总。
表2
3.对早期疾病的敏感性在200个卵巢癌研究组样本中随机选择血清(50个来自对照组,50个血清来自疾病组)用于SELDI-TOF质谱分析和随后的生物信息学方法训练。从150005种模式置换开始组中所发现在5个独立的分子量区,即534,989,2111,2251和2465Da上的一种质量强度正确分离训练组中卵巢癌样品的98%(49/50)和对照中的94%(47/50)。由来自诊断失败示例中的100个SELDI-TOF数据流引起,最优proteomic模式可以正确预测包含在100个未知试验样品的所有50个癌症样本中存在卵巢癌(50/50,95%置信区间为93%-100%)。这包括18/18I期癌症的正确分类(95%置信区间为82%-100%),而对隐蔽性非癌症样品保持特异性(47/50,95%置信区间为84%-99%,通过X2检验总p<10-10)。这些结果支持如下假设血清中的低分子量proteomic模式在远位置处反应器官中的组织的病理学变化。而且,这些模式正确对来自器官限制I期卵巢癌症样本的所有18个血清进行分类,因此它们可成为早期病理变化的敏感显示。
4.存在前列腺癌和良性前列腺肥大的特异性、预测和识别开始,激励本发明发现蛋白质模式,该蛋白质模式可以从来自无症状年龄相配的男性血清中分辨已有活体检视证明为前列腺癌的男性血清。训练组由56个血清组成,31个来自经活体检视证明为前列腺癌的无症状男性(PSA>4ng/ml,平均值为14.5ng/ml),25个来自未证明为前列腺癌的年龄相配男性(PSA<1ng/ml,平均值为0.3ng/ml)。这56个血清经SELDI-TOF分析。这种模式发现分析得知在特定分子量为2092,2367,2582,3080,4819,5439和18220Da处有7个蛋白峰值(由150007可能置换产生)的组合标准化强度标记模式,该模式可以识别在前列腺血清训练组中所分析的全部56个样品。
在训练后,用227个隐蔽血清样品试验最优proteomic模式。隐蔽研究组包含a)24个血清来自无症状但随后活体检视证明为癌症的男性,他们的PSA值于收集期在4-10ng/ml之间,b)对照血清来自6位年龄相配的男性(PSA<1ng/ml)和c)197例血清来自活体检视证明为良性前列腺肥大或前列腺炎的男性(PSA值范围从0.4ng/ml-36ng/ml)。
使用前列腺标记模式,数据采集工具可以正确预测在隐蔽试验组中存在前列腺癌(92%,22/24,与具有BPH的患者相比p<0.000001),其中包括17/18含PSA值为4-10ng/ml。重要的是,活体检视证明为BPH的患者中的70%(137/197)分类属于独特(非正常、非癌症)表现型。来自BPH阳性组的血清中有1%属于正常表现型。当取自6例健康对照着的血清与活体检视证明为癌症的24位患者的血清比较时,与24/24个前列腺癌的患者比较,6/6健康患者正确分类(p<0.000001)。而且,具有统计学意义的趋势显示在增长的PSA水平(正常,带有增长PSA的BPH)同严重疾病增长分类(p=1.4×10-4)之间的关系。最优化前列腺标记在取自患者的相配血清的隐蔽组中从癌瘤恢复为非肿瘤(但不正常的)表现型,其中在这些患者(7个受检者中有7位)经历了有效的前列腺切除术(p=0.016;95%置信区间为59%-100%)。
5.样品源制备和分析a.卵巢癌根据全部设施内伦理委员会(“IRB”)的监督,从早期检测研究网(“EDRN”)的卵巢癌早期检测项目中取得的匿名化卵巢筛分血清研究组。这个组含有来自200位无症状女性的血清,100位在样品收集时患有卵巢癌,100位对照女性由于确定有家族病史或以前有乳腺癌诊断而具有患卵巢癌的危险(表3)。这个不受影响的女性组已经存活并不患疾病至少5年。所有血清在诊断和干预前取得。疾病组包括组织学确认的乳突血清的、子宫内膜样的、透明细胞、粘质腺癌和所有阶段的混合卵巢癌。在疾病组中所有女性经历了大量的外科手术探查和正式的FIGO实施。
表3
b.前列腺癌从前列腺癌筛分临床中取得匿名化前列腺筛分血清研究组,在该临床中样品在批准的知情同意下取得(277例样品)(表3)。在IRB批准的知情同意下,于国家癌症研究所中收集另外20例匿名化样本。智利试验于1996年开始并持续了5年。受检者合格标准需要50岁以上的无症状男性以前没有前列腺癌疾病史。所有男性提供血清样品并接受体检和数字直肠检测。随后,血清PSA>4.0mg/ml或可疑数字直肠检测的人进行单独的孔针活体检视用于病理诊断。所表现的前列腺腺癌是(I-III)阶段全光谱和Gleason评分(4-9)。在NCI所得到的20例血清从以下途径取得a)处于诊断时期和前列腺切除术后六周经活体检视证明器官限制性前列腺癌的7位男性和b)六位正常健康男性志愿者,PSA<1.0mg/ml。所有血清在体检、诊断和治疗前取得。所有血清在液氮中收集、离心、等分和储存直至使用。所收集的血清解冻一次,分成10ml等份,然后于液氮中再冻结直至进行SELDI-TOF分析。
5.proteomic分析解冻血清并一次使用于蛋白质生物系统1SELDI-TOF质谱(CiphergenBiosystems公司,Freemont,CA)上产生蛋白质物质标记。使用血管紧张素I(氨基酸序列1-10)和牛细胞色素c(Ciphergen Biosystems公司,Freemont,CA)(其各自质量分别为1296.5Da和12230.9Da)完成外部质量校准。在1000-20000Da质量范围内的所有蛋白质可以连接到C18反相疏水作用表面,产生这些蛋白质的蛋白质轮廓。有机酸基体表面是α-氰-4-羟基-肉桂酸(CHCA)。需要该基体与蛋白质混合物共结晶用于所选诱饵(bait)的全部蛋白质离子化。
样品制备将1ml乙腈(Sigma-Aldrich公司,St.Louis,MO)加到8功能C18疏水反应蛋白质芯片(Ciphergen Biosystems公司,Freemont,CA)的样品点上。该芯片通过疏水反应连接蛋白质,该反应取决于对每一蛋白质特定的固有主氨基酸序列。在加入1μl血清后使用乙腈。使样品在芯片上进行空气干燥。通过在去离子水中涡流有力地洗涤芯片4分钟,进行空气干燥。最后加入0.5μlCHCA溶液。在基质溶液干燥后,将另外0.5μl基质加入到每一样品中,进行空气干燥。因为发现一贯和可再生产地产生最大数量的不同蛋白质和肽标记(数据未显示),选择C18芯片。SELDI-TOF,如其他飞行时间光谱技术一样,在低分子量范围(<20000Da)内具有最佳灵敏度。记录数据和使数据最优化,使用SELDI蛋白质生物系统2.0版本软件(Ciphergen Biosystems公司,Palo Alto,CA)进行分析。未以任何方式过滤或换算的原始SELDI数据通过数据采集工具转换为ASCII数据文件用于分析。
6.检测药物毒性在从生物样品中所得到的数据流上试验本发明方法,该生物样品来源于阿霉素处理的大鼠,这些大鼠发育证明为心脏中毒。对照大鼠用盐处理。从显示为心脏中毒的大鼠中取得的生物样品具有100%选择性、100%敏感性并没有假阳性而正确分类。参见表4。
表4
敏感性100.00%选择性0.00%7.检测药物治疗用阿霉素和心脏防护剂处理大鼠。这样,一些具有毒性而另一些不具有。表8显示用本发明方法除了一个经处理的动物之外所有都可以正确识别,而仅仅使两只对照动物错误分类。参见表5。
表5
8.检测病毒猿泡沫状病毒(Simian Foamy Virus)在溶胞产物中进行检测。来自未感染细胞的溶胞产物80%次(8/10)正确分类而没有假阳性。参见表6。
表6
9.使用窗口法用于卵巢癌开始实践的简化处理基于简单的试验和在proteomic数据流中100个连续特征组误差选择。利用适合模式识别算法,引导簇丛图谱(LCM)。数据流取样开始于数据流中不同的点以用于每次试验。一次试验包括100个特征的14-15次收集。在一系列25个试验后,最佳模式正确预测80%正确的生物状态,假阳性率大约为30%。这些结果显示使用proteomic模式在生物状态分类中的有效性。实际上,具有该正确性水平的模型很好地适合于批筛选潜在治疗化合物。参见表7。
表7
10.乳腺癌检测用本发明方法分析从乳腺癌患者所取得的乳突待测物。将乳突待测物进行质谱分析并用于模式发现方法。可观察到接近92%的敏感性。参见表8。
表8
敏感性@0.6791.67%选择性@0.670.00%
权利要求
1.一种通过检测识别模式从生物数据中将生物状态分类的方法,其中识别模式描述生物状态。
2.一种从生物数据中将生物状态分类的方法,通过以下步骤a.检测识别模式,该模式是在数据流中的较大数据组的亚组,所述的识别由学习数据组中的成果限定,b.应用所述的识别模式将已知或试验样品进行分类;和c.使用所述的识别模式将未知数据样品进行分类,其中该识别模式表现出生物状态,该模式甚至在单个数据点不可识别时也是可以识别的。
3.一种通过检测识别模式用向量空间将在生物数据中的生物状态进行分类的方法,其中所述向量空间具有多个预定的诊断簇丛来限定已知生物状态,该方法包括以下步骤a.形成描述生物数据的标准化数据流;b.提取数据流来计算表征数据流的样品向量;c.识别样品向量存在于其中的诊断簇丛,如果有的话;d.分配给生物数据已识别的诊断簇丛的诊断或者,如果簇丛不可识别,将非典型性样品,NOS的诊断分配至生物数据;和e.使用所述识别模式将未知数据样品进行分类,其中该识别模式描述生物状态,并且甚至在单个数据点不可识别时也是可以识别的。
4.如权利要求1、2或3所述的方法,其特征在于识别由学习数据组中的成果限定,所述的学习数据组由生物数据形成,对于这些数据生物状态是已知的。
5.如权利要求1、2或3所述的方法,其特征在于生物数据是描述生物样品中分子表达的数据。
6.如权利要求1、2或3所述的方法,其特征在于生物数据来源于临床数据。
7.如权利要求1、2或3所述的方法,其特征在于生物数据是临床数据和描述生物样品中分子表达的数据的任意组合。
8.如权利要求1、2或3所述的方法,其特征在于生物数据是非生物数据和描述生物样品中分子表达的数据的任意组合。
9.如权利要求5所述的方法,其特征在于分子选自蛋白质、肽、磷脂、DNA和RNA。
10.如权利要求7所述的方法,其特征在于分子选自蛋白质、肽、磷脂、DNA和RNA。
11.如权利要求8所述的方法,其特征在于分子选自蛋白质、肽、磷脂、DNA和RNA。
12.如权利要求5所述的方法,其特征在于生物样品选自以下物质血清、血液、唾液、血浆、乳突待测物(nipple aspirant)、滑液、脑脊液、汗液、尿液、粪便、泪液、支气管灌洗液(bronchial lavage)、拭取物、针吸待测物(needle aspirants)、精液、阴道液、前精液(pre-ejaculate)。
13.如权利要求7所述的方法,其特征在于生物样品选自以下任意体液血清、血液、唾液、血浆、乳突待测物(nipple aspirant)、滑液、脑脊液、汗液、尿液、粪便、泪液、支气管灌洗液(bronchial lavage)、拭取物、针吸待测物(needle aspirants)、精液、阴道液、前精液(pre-ejaculate)。
14.如权利要求8所述的方法,其特征在于生物样品选自以下任意体液血清、血液、唾液、血浆、乳突待测物(nipple aspirant)、滑液、脑脊液、汗液、尿液、粪便、泪液、支气管灌洗液(bronchial lavage)、拭取物、针吸待测物(needle aspirants)、精液、阴道液、前精液(pre-ejaculate)。
15.如权利要求5所述的方法,其特征在于生物样品选自组织培养上清液、冻干组织培养物和病毒培养物。
16.如权利要求7所述的方法,其特征在于生物样品选自组织培养上清液、冻干组织培养物和病毒培养物。
17.如权利要求8所述的方法,其特征在于生物样品选自组织培养上清液、冻干组织培养物和病毒培养物。
18.如权利要求1、2或3所述的方法,其特征在于生物状态为疾病。
19.如权利要求1、2或3所述的方法,其特征在于生物状态为疾病的某阶段。
20.如权利要求1、2或3所述的方法,其特征在于生物状态为疾病的预后。
21.如权利要求1、2或3所述的方法,其特征在于生物状态为内部身体器官疾病。
22.如权利要求1、2或3所述的方法,其特征在于生物状态为内部身体器官疾病的阶段。
23.如权利要求1、2或3所述的方法,其特征在于生物状态为内部身体器官的健康状况。
24.如权利要求1、2或3所述的方法,其特征在于生物状态为一种或多种化学制剂的毒性。
25.如权利要求1、2或3所述的方法,其特征在于生物状态为一种或多种化学制剂的相对毒性。
26.如权利要求1、2或3所述的方法,其特征在于生物状态为药物效力。
27.如权利要求1、2或3所述的方法,其特征在于生物状态为一种或多种药物效力。
28.如权利要求1、2或3所述的方法,其特征在于生物状态为对治疗方式的反应。
29.如权利要求1、2或3所述的方法,其特征在于生物状态为身体器官混乱状态。
30.如权利要求1、2或3所述的方法,其特征在于生物状态为存在一种或多种病原体。
31.如权利要求18所述的方法,其特征在于该疾病是一种在其中疾病状态中固有分子的表达模式发生的变化不同于非疾病状态。
32.如权利要求18所述的方法,其特征在于疾病是癌症。
33.如权利要求18所述的方法,其特征在于疾病选自自身免疫疾病、Alzheimer病和关节炎。
34.如权利要求18所述的方法,其特征在于疾病是肾小球性肾炎。
35.如权利要求18所述的方法,其特征在于疾病是任何传染性疾病。
36.如权利要求32所述的方法,其特征在于癌症选自癌瘤、黑色素瘤、淋巴瘤、肉瘤、胚细胞瘤、白血病、骨髓瘤和神经肿瘤。
37.如权利要求37所述的方法,其特征在于癌症是前列腺癌瘤。
38.如权利要求36所述的方法,其特征在于癌症是卵巢癌。
39.如权利要求2或3所述的方法,其特征在于数据流由任意高处理量数据产生方法形成。
40.如权利要求2或3所述的方法,其特征在于数据流是飞行时间质谱。
41.如权利要求40所述的方法,其特征在于飞行时间质谱由表面加强激光解吸飞行时间质谱产生。
42.如权利要求40所述的方法,其特征在于飞行时间质谱由基质辅助激光解吸电离飞行时间产生。
43.如权利要求1、2或3所述的方法,进一步包括使用任意模式识别方法。
44.如权利要求43所述的方法,其特征在于模式识别方法进一步包括学习算法和诊断算法。
45.如权利要求1、2或3所述的方法,进一步包括使用一组学习数据流来为目的生物状态建立诊断算法,其中诊断算法以具有多个在固定维数向量空间中有预定相等大小的诊断簇丛为特征,包括以下步骤a.提供一组学习数据流,每一数据流描述具有已知生物状态的生物样品;b.选择一个随机逻辑染色体起始组,该染色体规定预定数量的数据流点的位置;c.通过在由染色体规定的位置提取数据流,计算每一染色体和每一数据流的向量;d.通过发现在预定等规模多重非重叠数据簇丛的向量空间中的位置测定每一染色体的适合度,该规模使存在于具有相同状态的簇丛中的向量数量最大化,其中这样的向量数量越大,适合度越大;e.通过反复重复含有步骤(c)和(d)的过程使逻辑染色体组最优化,终止具有低适合度的逻辑染色体,复制高适合度的逻辑染色体,重组并随机修饰染色体;f.停止重复过程并选择允许非重叠数据簇丛的优选组的逻辑染色体;和g.建立使所选逻辑染色体和同质非重叠数据流具体化的诊断算法。
46.如权利要求45所述的方法,进一步包括以下步骤试验使最优化染色体和适合度最大化数据簇丛组具体化的诊断算法,来测定诊断算法诊断数据流的试验组有多么准确,每一数据流具有独立于指导数据流的已知诊断。
47.如权利要求45所述的方法,其特征在于向量空间包含5-10之间的维数。
48.一种诊断个体器官疾病的方法,包括a.分析来自受检者的生物样品,并从分析中计算标准化向量,该向量具有至少4个标量而不大于20个标量,该向量是样品的特征;b.提供4-20之间维数的向量空间,该空间由含有至少6个相等大小、非重叠的数据簇丛的数据簇丛图谱占有,其中一些多重数据簇丛与疾病诊断有关,一些多重数据簇丛与标准样品有关,并且所述图谱中的数据簇丛不与多于一种诊断有关;c.如果有的话,计算特征向量存在于数据簇丛图谱中的哪个数据簇丛;和d.将与数据簇丛有关的疾病诊断分配给样品,特征向量存在于该数据簇中或者,如果没有向量存在于簇丛中,分配非标准分类。
49.一种诊断个体器官疾病阶段的方法,包括a.分析来自受检者的生物样品,并从分析中计算标准化向量,该向量具有至少4个标量而不大于20个标量,该向量是样品的特征;b.提供4-20之间维数的向量空间,该空间由含有至少6个相等大小、非重叠的数据簇丛的数据簇丛图谱占有,其中一些多重数据簇丛与疾病诊断有关,一些多重数据簇丛与标准样品有关,并且所述图谱中数据簇丛不与多于一种诊断有关;c.如果有的话,计算特征向量存在于数据簇丛图谱中的哪个数据簇丛;和d.将与数据簇丛有关的疾病诊断分配给样品,特征向量存在于该数据簇中或者,如果没有向量存在于簇丛中,分配非标准分类。
50.如权利要求48所述的方法,其特征在于疾病是癌症。
51.如权利要求49所述的方法,其特征在于疾病是癌症。
52.如权利要求49所述的方法,其特征在于疾病阶段是初期恶性肿瘤。
53.如权利要求48或49所述的方法,其特征在于生物样品选自以下任意体液如血清、血液、唾液、血浆、乳突待测物(nipple aspirant)、滑液、脑脊液、汗液、尿液、粪便、泪液、支气管灌洗液(bronchial lavage)、拭取物、针吸待测物(needle aspirants)、精液、阴道液、前精液(pre-ejaculate)。
54.如权利要求48或49所述的方法,其特征在于数据簇丛图谱限定一种模式,其中向量的至少一个标量是前后关联的诊断产物。
55.如权利要求48或49所述的方法,其特征在于数据簇丛的大小由欧几米得量度限定。
56.一种诊断受检者器官初期恶性肿瘤的方法,包括a.分析来自受检者的生物样品,并从分析中计算标准化向量,该向量具有至少4个标量,该向量是样品的特征;b.提供由含有至少6个相等大小、非重叠的数据簇丛的数据簇丛图谱占有的向量空间,其中一些多重数据簇丛与恶性肿瘤诊断有关,一些多重数据簇丛与良性诊断有关,并且所述图谱中数据簇丛不与多于一种诊断有关,其中至少一个标量测定前后关联的诊断产物,并且其中数据簇丛的大小由欧几米得量度限定;c.如果有的话,计算特征向量存在于数据簇丛图谱中的哪个数据簇丛;和d.将与数据簇丛有关的疾病诊断分配给样品,特征向量存在于该数据簇中或者,如果没有向量存在于簇丛中,分配非标准、非恶性肿瘤诊断。
57.如权利要求56所述的方法,其特征在于生物样品选自以下任意体液如血清、血液、唾液、血浆、乳突待测物(nipple aspirant)、滑液、脑脊液、汗液、尿液、粪便、泪液、支气管灌洗液(bronchial lavage)、拭取物、针吸待测物(needle aspirants)、精液、阴道液、前精液(pre-ejaculate)。
58.如权利要求56所述的方法,其特征在于多重标量测定前后关联诊断产物。
59.一种计算机软件产品,该产品指定计算机可执行编码执行包括以下步骤的程序a.输入描述生物样品具有样品标示符的标准化数据流;b.输入一组诊断簇丛,每一簇丛与已知生物状态的诊断有关;c.提取数据流以计算样品向量,该向量是数据流的特征;d.如果有的话,识别样品向量落入其中的诊断簇丛;e.将已识别的诊断簇丛分配给样品,或者如果没有识别簇丛将非标准、非恶性肿瘤诊断分配给样品;和f.输出已分配的诊断和样品标示符。
60.一种一般目的数字计算机,包括用于执行如权利要求59所述的可执行编码的程序。
61.一种计算机软件产品,该产品指定计算机可执行编码执行包括以下步骤的程序a.输入一组指导数据流,每一数据流描述一种已知生物状态的生物样品;b.输入限定点数的运算符和限定簇丛大小的运算符;c.选择随机逻辑染色体的起始组,该染色体限定预先限定数量的数据流点的位置;d.对每一染色体和每一数据流,通过在由染色体限定的位置处提取数据流,计算向量;e.通过发现在预先限定规模的多重非重叠数据簇丛的向量空间中的位置测定每一染色体的适合度,该规模使存在于具有相同状态的簇丛中的向量数量最大化,其中这样的向量数量越大,适合度越高;f.通过反复重复含有步骤(d)和(e)的过程使逻辑染色体组最优化,终止具有低适合度的逻辑染色体,复制高适合度逻辑染色体,重组并随机修饰染色体;g.终止重复过程;和h.输出最优化逻辑染色体和使最优化染色体适合度最大化的数据簇丛的位置,因此使输出逻辑染色体和数据簇丛的诊断算法具体化可以实现。
62.一种一般目的数字计算机,包括用于执行如权利要求61所述的可执行编码的程序。
63.一种测定目的生物状态的诊断模型,其特征在于诊断算法的特征是在固定维数的向量空间中具有多个预定相等大小的诊断簇丛。
64.一种如权利要求63所述的诊断模型,其特征在于诊断簇丛由以下步骤产生a.提供一组学习数据流,每一数据流描述具有已知生物状态的生物样品;b.选择随机逻辑染色体起始组,该染色体限定预定数量的数据流点的位置;c.通过在由染色体限定的位置处提取的数据流,计算每一染色体和每一数据流的向量;d.通过发现在预定等规模多重非重叠数据簇丛的向量空间中的位置测定每一染色体的适合度,该规模使存在于具有相同状态的簇丛中的向量数量最大化,其中这样的向量数量越大,适合度越大;e.通过反复重复含有步骤(c)和(d)的过程使逻辑染色体组最优化,终止具有低适合度的逻辑染色体,复制高适合度逻辑染色体,重组并随机修饰染色体;f.终止重复过程并且选择允许非重叠数据簇丛优选组的逻辑染色体。
65.一种由权利要求64所述模型产生的诊断簇丛。
全文摘要
本发明描述了一种通过发现和分析隐含或非显著识别生物数据模式测定生物状态的方法。该生物数据可以来自于保健资料、临床数据,或来自于生物样品(例如,来自与人体的生物样品,如,血清、血液、唾液、血浆、乳突待测物(nippleaspirant)、滑液、脑脊液、汗液、尿液、粪便、泪液、支气管灌洗液(bronchial lavage)、拭取物、针吸待测物(needleaspirants)、精液、阴道液、前精液(pre-ejaculate)等等,分析这些生物样品来测定供体的生物状态。生物状态可以是病理诊断、毒理状态、药效、疾病预后、等等。特别是,本发明涉及发现隐含识别生物数据模式(例如,血清样品中的蛋白质表达模式,该模式将器官的生物状态分类)的方法,该模式描述了生物状态。
文档编号G01N33/48GK1484806SQ01815754
公开日2004年3月24日 申请日期2001年7月18日 优先权日2000年7月18日
发明者本·A·希特, 本 A 希特, 伊曼纽尔·F·佩特里科因第三, 尔 F 佩特里科因第三, J 莱文, 彼得·J·莱文, A 利奥塔, 兰斯·A·利奥塔 申请人:科雷洛吉克系统公司, 美利坚合众国政府,由健康及人类服务部部长代表
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1