乳癌的生物标记的制作方法

文档序号:178720阅读:649来源:国知局
专利名称:乳癌的生物标记的制作方法
技术领域
本发明提供以蛋白质为基础的生物标记及生物标记的组合,该等生物标记及组合是对于鉴定患者乳癌的状态是有用的。明确言之,本发明的生物标记是对将受试者的样品分类成乳癌或非乳癌。
背景技术
根据美国国家癌症研究所(NCI)的发病资料和美国国家卫生统计中心(NCHS)的致死资料,美国癌症协会估计,2002年在美国的妇女之中乳癌是最普遍被诊断出的癌症种类。预计在所有妇女之中占所有新癌症病例的百分之31(203,500),且将有39,600人死于这种疾病。JemalA,Thomas A,Murray T,Thun M.Cancer Statistics,2002.CA CancerJ Clin.2002;5223-47。以症状前的筛选(presymptomaticscreening),在当癌症在仍具相当的治愈潜力的早期阶段侦查出癌症,可大幅地减少与乳癌相关的死亡率。不幸地,只有大约50%乳癌在诊断时被定位。美国国家癌症研究所癌症信息数据库(Cancer Net PDQCancer Information Summaries)。“乳癌筛检(Screening for breastcancer)″的专题论文。http://cancer net.nci.nih.gov/pdq.html(2001年1月更新)。尽管乳房摄影(mammography)对40岁及以上的妇女是可行且推荐使用的例行性筛检方法,乳房摄影在于降低整个人口因罹患乳癌致死率的效能仍有待研究。K.Antman等人,JAMA.1999;2811470-2。目前,已被研究用于乳癌检测的血清肿瘤标记仍然缺乏足以适用于在大量人口癌病变的早期检测的敏感性及专一性。FDA认可的肿瘤标记譬如CA15.3及CA27.29,仅推荐于晚期乳癌或复发的治疗追踪之用。D.W.Chan等人,J Clin.Oncology。1997;152322-2328。新的生物标记能个别地使用或与现有的模态(modality)组合使用,以针对乳癌进行符合成本效益的筛选仍是迫切地需要。

发明内容
在一方面,本发明提供在受试体鉴定乳癌状态(qualify breastcancer)的方法,该方法包含受试体中的生物样品至少利用一种生物标记测量,于此处至少一种生物标记从下列的生物标记群组中挑选出来包括ITIH4片段1(BC-1)、ITIH4片段1b(BC-Ib)、C3a-desArgΔ8,及C3a-desArg,且与乳癌相关状态测量相关。在一具体实例,方法包含测量以下各者ITIH4片段1(BC-1)、ITIH4片段1b(BC 1b)、C3a-desArgΔ8,及C3a-desArg。在其它具体实例,方法更进一步的包含测量CA15-3。
在一个具体实例,至少一种生物标记是由SELDI探针的吸附物表面上捕捉生物标记测得且该所捕捉的生物标记是通过激光解吸离子化质谱分析技术(laser desorption-ionization mass spectrometry)所检测。在另外的具体实例,至少一种生物标记由免疫测定所测量的,例如,使用对于至少一种生物标记有专一性的抗体。在优选的具体实例,至少一种生物标记是使用除了质谱之外的方法检测。在另一优选的具体实例,样品是血清。在又一优选的具体实例中,关联性的联系是由软件分类算法所执行。
在一个具体实例中,乳癌状态是选自乳癌或非乳癌。在另一具体实例,乳癌状态是选自非浸润性乳癌或浸润性乳癌。
在进一步的具体实例,本方法包含根据乳癌状态来管理受试者的治疗。
在优选的具体实例,吸附物是IMAC-Ni吸附物。在另一优选的具体实例,吸附物是生物专一性的吸附物(例如,抗体)。
在另一具体实例,如果测量与乳癌有关,则本方法可进一步包含管理受试者的治疗,其包括对该受试者投药化学治疗剂或对该受试者进行辐射。在又另一具体实例中,本发明的方法进一步包含在受试者的治疗管理之后测量至少一种生物标记并联系该等测量与疾病进程的关联性。
在另一具体实例中,本发明的方法包含在得自受试者的样品中测量至少一种生物标记,其中至少一种生物标记是选自由下列生物标记所组成的组群ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8,和C3a-desArg。在一个具体实例中,本方法包含测量以下各个生物标记IITIH4片段1(BC-1)、IITIH4片段1b(BC-1b)、C3a-desArgΔ8,及C3a-desArg。在另一具体实例,本方法更进一步包含测量CA15-3。
在一个具体实例,生物标记是由SELDI探针的吸附物表面上捕捉生物标记测得且该所捕捉的生物标记是通过激光解吸离子化质谱分析技术所检测。在优选的具体实例,样品是血清。在其它的具体实例中,吸附物是IMAC-Ni吸附物。在优选的具体实例中,吸附是生物专一性的吸附物(例如,抗体)。
在另一具体实例中,本发明提供的试剂盒包括其上附接有至少一种捕捉剂的固态支持体,其中该捕捉试剂结合至少一种得自第一群组的生物标记,第一组群由下列者所组成ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8,及C3a-desArg;及使用固态支持体以检测至少一种生物标记的说明书。在一个具体实例,本试剂盒包括使用该固态支持体检测选自由下列者所组成的组群的生物标记的说明书ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg。在另一具体实例,本试剂盒提供使用固态支持体以检测CA15-3的说明书。
在一个具体实例,本试剂盒所提供包含捕捉试剂的固态支持体为SELDI探针。在其它的具体实例中,该捕捉试剂是抗体。
在其它的具体实例,本试剂盒进一步的包含含有至少一种下列生物标记的容器ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8,及C3a-desArg。在其它的具体实例,本试剂盒进一步包含IMAC-Ni层析吸附物。
在另一具体实例中,本发明提供的试剂盒包括其上附接有至少一种捕捉剂的固态支持体,其中该捕捉试剂结合至少一种选自由下列生物标记所组成的组群ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8,及C3a-desArg;及含有至少一种生物标记的容器。在一个具体实例中,容器含有下列各个生物标记ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8,及C3a-desArg。在又一具体实例,该容器含有CA15-3。
在一个具体实例中,包含捕捉试剂的固态支撑体为SELDI探针。在又一具体实例中,本试剂盒包含IMAC-Ni层析吸附物。
在另一具体实例中,本发明提供一种软件产品包含存取归因于样品的数据的程序代码,所述的数据包括在样品中的至少一种生物标记的测量结果,该生物标记是选自由下列生物标记所组成的组群ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8,及C3a-desArg;以及运算分类算法的程序代码,所述的分类算法以测量结果的函数来分类乳癌的状态。在另一具体实例,所述分类算法以选自下列生物标记的测量结果的函数来分类乳癌的状态ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8,及C3a-desArg。在另一具体实例中,所述分类算法以下列各个生物标记的测量结果的函数来分类乳癌的状态ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8,及C3a-desArg。在另一具体实例中,所述分类算法以CA15-3的测量结果的函数来分类乳癌的状态。
在另一具体实例中,本发明提供选自由下列各者所组成组群的生物标记的纯化的生物标记ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8,及C3a-desArg。
在另一具体实例,本发明提供一种包括通过质谱或免疫测定来检测下列生物标记的方法ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8,及C3a-desArg。
在另一具体实例,本发明提供一种包括向受试者传递诊断的方法,所述的诊断是关于由得自该受试者的样品中的生物标记的相关性所判定的乳癌状态,其中所述的生物标记是选自下列者所组成的组群ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg 2。在另一具体实例中,该诊断是通过计算机形成的媒介来向受试者传递。
在另一具体实例,本发明提供一种鉴定与选自由下列者所组成组群的生物标记相互作用的化合物的方法ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg,其中所述的方法包括将生物标记与试验化合物接触;以及判定该试验化合物与该生物标记是否有相互作用。
在另一具体实例中,本发明提供一种在细胞中调节选自下列者所组成组群的生物标记的浓度的方法ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg,其中所述的方法包括将所述的细胞与试验化合物接触,其中所述的试验化合物避免ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)或C3a-desArgΔ8的断裂。
在另一具体实例中,本发明提供一种治疗受试者病症的方法,其中所述的方法包括对该受试者给予治疗有效量的化合物,其中所述的化合物避免ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)或C3a-desArgΔ8的断裂。在优选的具体实例中,该病症是乳癌。

图1A至1N分别表示标记I至XIV的质谱。在彼等图标中,具体指明的标记的质谱峰于所描绘出的频谱中以箭头标示。图标标示是在每个所指称的频谱图之上。
图2显示代表性的质谱峰是由在IMAC-Ni2+芯片上所保留住的血清蛋白通过SELDI分析所获得。上半部区域显示频谱图;下半区域显示M/Z(与质量相关的速度)介于4,000至10,000之间同一频谱的假胶体图。
图3显示在数据变化减少(reduction)与等化(equalization)上的对数转换。
图4A至4B显示第0至I期乳癌(较深的方形)对非癌症(白色方形)的三维UMSA组成图。
图4A显示使用UMSA所推导的所有147个峰的线性组合的描绘结果。
图4B显示使用UMSA所推导的3个所选择的峰的线性组合的描绘结果。
图5是显示十五个峰的图表,该图表有最前的平均值排序和最小值排序标准差,该标准差是由ProPeak Bootstrap Analysis。在7.0处的水平线是将同一程序用到随机产生的数据组计算而得的最小值排序标准差,所述之数据组是模拟原始数据的分布情形。
图6A至6B是显示基于对第0至I期乳癌与非癌症控制组的分离的贡献所选取的峰的相对显著度分数的绝对值的图标。
图6A显示从ProPeak Bootstrap Analysis挑选出15个峰的结果且其排序标准差小于7.0。
图6B是显示从第6A图中选出最高4个峰再评估分数的图标。
图7是图表显示对BC1、BC2、BC3的接收者操作特征(ROC)曲线分析及逻辑回归衍生的综合指数。p值从各个生物标记的AUC(曲线下面积)间比较而来,其综合指数列于此图中。
图8A至8B是显示横跨所有诊断群组(包括癌症患者的临床阶段)中所选择的生物标记(群)的分布的散点图。
图8A是显示单独由BC3所获得的结果的散点图。
图8B是显示使用BC1、BC2和BC3由逻辑回归所衍生的综合指数的结果的散点图。
图9显示三张2维的散点图,该散点图是描述所有病患样品的分布。
图10显示标记BC-2(C3a-desArgΔ8)的分布。
图11显示标记BC-3(C3a-desArg)的分布。
图12显示藉由抗C3a抗体对标记BC-2(C3a-desArgΔ8)及BC-3(C3a-desArg)的捕捉。
图13显示藉由抗C3a抗体对标记BC-2(C3a-desArgΔ8)的捕捉。
图14显示藉由抗C3a抗体对标记BC-3(C3a-desArg)的捕捉。
图15显示标记BC-1b(ITIH4片段1b)的分布。
图16显示在乳癌样品中各种ITIH4片段的鉴定。
图17显示标记BC-1b(ITIH4片段1b),BC-2(C3a-desArgΔ8),及BC-3(C3a-desArg)的接收者操作特征曲线。
图18显示用于BC-3标记纯化及鉴定的步骤流程。
图19显示标记BC-3(C3a-desArg)的胺基酸序列(SEQ ID.NO1)。
具体实施方式1.前言生物标记是在取自一种表现型状态(例如,具有疾病)的样品中的有机生物分子,在前述状态中的该有机生物分子当与另一种表现型状态(例如,不具有疾病)比较时其存在是有差别的。若在不同组群中的生物分子的平均表现程度或中值表现程度经计算是达统计显著者,则该生物标记在不同表现型状态间的存在是有差别的。判断是否达统计上显著所用的普遍试验包括,在其它试验中,为t-测试、ANOVA、Kruskal-Wallis、Wilcoxon、Mann-Whitney及胜算比(odds ratio)。生物标记,单独或在组合中,提供属于一种表现型状态或另一种表现型状态的受试者的相对风险的测量。所以,生物标记作为疾病(诊断)、药物(治疗检验,theranostics)的治疗效果及药物毒性的标记是有用的。
2.乳癌的生物标记2.1生物标记本发明提供多肽为基础的生物标记,在有乳癌的受试体,尤其,在有早期乳癌相对于正常(非乳癌)的受试体,该生物标记的存在是有差别的。藉由质谱技术所决定的质荷比,藉由生物标记在飞行时间质谱(time-of-flight mass spectrometry)的峰形状及其对吸附物表面的结合特征来描述该生物标记的特征。这些特征提供一种确定特定所检验的生物分子是否为本发明的生物标记的方法。这些特征代表该等生物分子的内生性特征且在区辨该等生物分子的方式中此些特征并不发生限制。在一方面,本发明以单离型式提供此些生物标记。
使用ProteinChip数组(得自Ciphergen Biosystems,Inc.(Fremont,CA)(″Ciphergen″))以SELDI技术来寻找前述之生物标记。血清样品是从诊断有乳癌的受试者所搜集,包括乳管内原位癌(ductalcarcinoma in situ)(DCIS)及浸润性乳癌、诊断为正常的受试体,以及自具有良性乳房疾病之受试体所搜集。样品藉由IMAC-Ni(Immobilized Metal Affinity Capture)层析技术分离。将经分离的样品用在SELDI生物芯片且在样品中的多肽频谱是在Ciphergen PBSII质谱仪藉由时间飞行质谱所产生。所获得的频谱接着由得自CiphergenBiosystem,Inc.的Ciphergen ExpresstmData Manager Software以Biomarker Wizard与Biomarker Pattern Software分析。各个群组的质谱都接受散点图分析。使用Mann-Whithey测试分析用来比较乳癌与控制组的散点图中的各蛋白质丛集,且选择在二个群组之间显著不同的蛋白质(p<0.001)。此方法在实施例部分有更详细的描述。
与SELDI评估并行,我们确认了该等标记的其中三个的蛋白质鉴定。
具有大约4.3KD的质荷比(m/z)的BC-1鉴定出为人类α间(inter-alpha)胰蛋白酶抑制剂的片段(″fragment 1″),重链H4(指″ITIH4″、″IAIH4,或″PK-120″)。亦鉴定出BC-1另一型式,标示″BC-1b″或″ITIH4片段1b″。ITIH4片段1b具有大约4.6KD的质荷比(m/z)。ITIH4片段1与2两者都含有由抗ITIH4抗体所辨认的抗原决定位(epitope),该抗原决定位存在于与卵巢癌相关的生物标记。
具有质荷比(m/z)8.1KD的BC-2是C3a-desArg的截短型(指称为C3a-desArg-8.1或C3a-desArgΔ8)。C3a-desArgΔ8的胺基酸序列是SVQLTEKRMDKVGKYPKELRKCCEDGMRENPMRFSCQRRTRFISLGEACKKVFLDCCNYITELRRQHA(SEQ ID NO2)。此型的理论质量为8132道耳吞,且预期的pI值是9.38。
具有质荷比(m/z)8.9KD的BC-3鉴定出为C3a-desArg。C3a-desArg的胺基酸序列是SVQLTEKRMDKVGKYPKELRKCCEDGMRENPMRFSCQRRTRFISLGEACKKVFLDCCNYITELRRQHARASHLGLA,如前述SEQ ID NO1所提出。C3a-desArg的预期分子量为8923道耳吞,与量得的质量8926道耳吞一致,且其预期的pI值是9.54,与其在pH9.0时无法与阴离子交换树脂结合的现象相符。
所发现的生物标记呈现于表1。表中的「蛋白质芯片数组」字段指的是其中发现有生物标记的层析分离、有前述生物标记所键结于其上的生物芯片的类型与洗涤条件,如在实施例中所指示。
本发明的生物标记由其质谱仪所判定的质荷比描述其特征。在表1中的字母M之后提供各个生物标记的质荷比。由此,例如M4283具有4283的测量质荷比。质荷比是在Ciphergen Biosystems,Inc.PBS II质谱仪上自质谱技术所辨定。此仪器的质量精准度大约+/-百分之0.15。另外,仪器的质量分辨率大约400至1000m/dm,m是质量及dm是在0.5峰高度时的质谱峰宽。该生物标记的质荷比是利用BiomarkerWizardtm软件(Ciphergen Biosystems,Inc.)所判定。BiomarkerWizard藉由将得自所有频谱分析同一峰的质荷比丛集,将质荷比归属于某生物标记,该频谱是由PBSII所测得,取在该丛集中质荷比的最大值及最小值,将之除以2。因此,所提供的质量反射了规格(specification)。
本发明的生物标记进一步由飞行时间质谱中该等生物标记的频谱峰形状描述其特征。质谱显示的峰所代表的生物标记呈现在第1图。
本发明的生物标记进一步藉由他们在层析表面的结合性质描述其特征。大多数的生物标记以PBS洗涤之后仍与金属螯合吸附物(例如,CiphergeNIMAC-Ni ProteinChip数组)结合。
该等生物标记进一步的特征描述可于WO 03/076896国际公布发现,其全文以参考文献方式并入本文中。
本发明某些生物标记的鉴定已经过检验并列示于表1。该检验所使用的方法已在前面的实施例部分叙述。对于其鉴定已经过检验的生物标记,所述生物标记的存在可藉由在此技艺中已知的其它方法检验。
因为本发明的生物标记是由质荷比、结合性质及频谱形状描述其特征,该等生物标记可藉由质谱技术所检验而不需得知其个别的鉴定结果。然而,如果需要,其鉴定尚未检验的生物标记可藉由,例如,其多肽的胺基酸序列来检验。例如,生物标记可由数种酵素,诸如胰蛋白酶或V8蛋白酶,来做肽图分析,且该消化片段的分子量可用于搜寻数据库找出与由各种酵素所产生的消化片段分子量吻合的序列。或者,蛋白质生物标记可使用串行式(tandem)MS技术定序。在此种方法中,蛋白质是藉由,例如胶体电泳法单离。切出含有生物标记的条带,并使切下的蛋白质接受蛋白酶消化。各别的蛋白质片段由第一质谱分离。该片段接着接受由碰撞所诱导的冷却,该冷却分割胜肽并产生多肽阶梯(polypeptide ladder)。多肽阶梯接着藉由串行式MS的第二质谱仪分析。多肽阶梯成员质量的差异鉴定出序列中的胺基酸。整体蛋白质可由此方式定序,或序列片段可接受数据库探勘以鉴定候选蛋白质。
生物标记检验所用的优选生物来源是尿。但是,在其它的具体实例,该等生物标记可在血清中检验。
本发明的生物标记是生物分子。因此,本发明以单离型式提供此些生物分子。该生物标记可自生物流体中单离,譬如尿或血清。该生物标记基于其质量与结合特征可由任何于此技艺中已知的方法单离。例如,包含生物分子的样品可能施以层析馏分法,如本文所描述,并接受进一步的分离,例如,丙烯醯胺胶体电泳法。生物标记鉴定的知识亦允许藉由免疫亲和层析法将生物标记单离。
2.2.生物标记修饰型的使用已发现样品中的蛋白质通常以许多不同的型式存在,该等型式的特征为其质量是可检测到其差异者。这些型式可能是由前转译修饰和后转译修饰其一所导致,或两者共同导致。前转译修饰型式包括对偶变异(allelic variant)、切割变异(slice variance)及RNA编辑型式(RNA editing form)。后转译修饰的型式包括由蛋白质水解切割(proteolytic cleavage;例如,母蛋白质(parent protein)的片段)、醣化,磷酸化、脂化、氧化、甲基化,半胱胺酸化(cystinylation)、磺酸化及乙醯化。蛋白质的收集在本文称为「蛋白质丛集」,所述的蛋白质包括特定的蛋白质及该蛋白质的所有修饰型。除了特定的蛋白质本身以外,特定蛋白质的所有修饰型的收集在本文称之为「修饰的蛋白质丛集」。亦可使用本发明任一生物标记的修饰型(包括标志ITIH4片段1、ITIH4片段1b、C3a-desArgΔ8,和/或C3a-desArg之任一者),该生物标记的本身亦为生物标记。在某些情况中,该等修饰型也许展示出较本文中所提出的特定型式在诊断上有更佳的辨别能力。
生物标记的修饰型式包括标记ITIH4片段1、ITIH4片段1b、C3a-desArgΔ8,及/或C3a-desArg之任一者,所述修饰型可藉由任何方法学做初期检验并将修饰型的生物标记与生物标记本身区分开来。初期检测优选的方法包含第一次捕捉前述的生物标记及生物标记的修饰型,例如,以生物专一性的捕捉试剂捕捉,然后藉由质谱技术检验所捕捉到的蛋白质。更具体地说,蛋白质是使用生物专一性捕捉试剂捕捉蛋白质,诸如辨认生物标记及其修饰型的抗体、适体(aptamers)或配体(Affibodies)。此方法亦导致蛋白质作用剂(proteininteractor)的捕捉,蛋白质作用剂是结合至蛋白质或者由抗体所辨认以及起本身可为生物标记。优选地,生物专一性捕捉试剂结合至固相。然后,被捕捉到的蛋白质可由SELDI质谱技术或将该等蛋白质自该捕捉剂溶析而检验,并将藉由传统MALDI或藉由SELDI检验经过溶析的蛋白质。质谱仪的使用是特别有吸引力的,因为它可基于质量分辨与定量蛋白质的修饰型而不需要标记。
优选地,生物专一性捕捉试剂结合至固相,诸如珠子、平板、膜或芯片。生物分子(诸如,抗体)耦合至固相的方法,在此技艺中已为咸知。该等方法可使用,例如双功能连接剂,或可衍生有反应性基团(诸如环氧化物或咪唑(imidizole))的固相,所述之反应性基团以接触方式与分子结合。抗不同目标蛋白质的生物专一性捕捉试剂可于同一处混合,或该等试剂可在物理性或可寻址的位置(physical oraddressable location)附着至固相。例如可在多个管柱装载有衍生物的珠子,而各个管柱能捕捉一个蛋白质丛集。另外,可在单一管柱装填衍生有抗各种蛋白质丛集的捕捉试剂,由此可在单一处捕捉所有的分析物。因此,以衍生有抗体的珠子为基础的技术,诸如Luminex(Austin,TX)的xMAP技术可用于检验蛋白质丛集。然而,为了能区分丛集中的成员,生物专一性捕捉试剂必须专一性的针对该等成员。
在又另一具体实例中,生物芯片的表面可衍生有抗蛋白质丛集的捕捉试剂,所述捕捉试剂是在同一位置或在物理上相异且可定位的位置。在不同可定位位置捕捉不同的丛群的一个好处是分析是较为简单的。
在鉴定蛋白质的修饰型并联系其与有兴趣的临床参数的关联性之后,在本发明的任一方法中该等修饰型可作为生物标记之用。这时,该等修饰型的检验可藉由任一专一性的检验方法学来完成,该等方法学包括接着进行质谱的亲和力捕捉,或专一性地针对修饰型的传统免疫测定。免疫测定需要生物专一性的捕捉试剂,诸如,抗体,以捕捉该等分析物。此外,如果该等测定必须设计为专一性地区辨蛋白质与蛋白质的修饰型式。这可藉由利用,例如,三明治测定来达成,在三明治测定中一种抗体捕捉超过一种的修饰型而第二种抗体,也就是区别性标记的抗体,专一性地与各种修饰型结合,并提供对各种修饰形区辨性的检验。抗体可由以生物分子造成免疫反应的动物产生。本发明所考量的传统免疫测定包括,例如,三明治免疫测定(包括ELISA或以萤光为基础的免疫测定,以及其它酵素免疫测定。
3.针对乳癌的生物标记检验本发明的生物标记可由任一适当的方法检验。为达此目的可使用的检测方法的范例包括光学方法、电化学方法(电位测定及电流测定技术,voltametry and amperometry technique)、原子力显微镜,及无线射频方法,例如,多极共振波谱。光学方法的例子,除了共轭焦和非共轭焦显微镜之外,是萤光、冷光、化学冷光、吸收度、反射度,透光度,及双折射或折射率的检验(例如,表面电浆共振、椭偏仪、共振镜法(resonant mirror method)、光栅耦合波导法或干涉仪)。
在一个具体实例中,样品是以生物芯片的方法分析。生物芯片一般包含固态基体且具有大致平坦的表面,捕捉试剂(亦称吸附物或亲和力试剂)附着于其上。通常,生物芯片的表面包括多个可寻址的位置,各个位置都有捕捉试剂结合于其上。
蛋白质生物芯片是改造为捕捉多肽的生物芯片。许多蛋白质生物芯片已描述于此技艺中。此些蛋白质生物芯片包括,例如,由CiphergenBiosystems,Inc.(Fremont,CA)、Packard BioScience Company(Meriden,CT)、Zyomyx(Hayward,CA)、Phylos(Lexington,MA)及Biacore(Uppsala,Sweden)生产的蛋白生物芯片。该等蛋白质生物芯片的例子描述在以下专利或已公开的专利申请案中美国专利案第6,225,047号;PCT国际公开第WO 99/51773号;美国专利第6,329,209号、PCT国际公开第WO 00/56934号及美国专利第5,242,828号。
3.1.由质谱仪检验在优选的具体实例中,本发明的生物标记是由质谱技术所检验,且是藉由使用质谱技术以检验气象离子的方法。质谱仪的例子是飞行时间、磁性区段、四极过滤器、离子阱、离子回旋共振、静电区段分析仪及其混合。
在进一步优选的方法中,质谱仪是激光解析/游离质谱仪。在激光解析/游离质谱仪,分析物放置在质谱仪探针的表面,调整装置使质谱仪的探针接口能够运作并使分析物存在于使之离子化并使之引入至质谱的离子化能量。激光解析质谱仪利用激光能量以将分析物自表面解析并将所解析的分析物挥发以及离子化而使其对质谱仪的离子光学是可用的,所述的激光能量典型得自紫外线激光,但亦得自红外线。
3.1.1 SELDI本发明所用的优选质谱测定技术是「表面增强激光解析与离子化」或「SELDI」如描述于,例如在美国专利第5,719,060和第6,225,047号,两案均为颁与Hutchens和Yip者。这指的是解析/游离气相离子频谱(例如,质谱仪)方法,在该等方法中分析物(本文,是指一种或多种生物标记)在SELDI质谱仪探针的表面被捕捉。SELDI有数种版本。
SELDI的一个版本叫做「亲和性捕捉质谱技术」。这亦叫做「表面增强的亲和性捕捉」或「SEAC」。这个版本涉及探针的使用,所述的探针其表面具有材料,而所述的探针表面通过该材料与分析物之间的非共价亲和力互相作用(吸附力)而捕捉分析物。该材料可有变化地称为「吸附物」、「捕捉试剂」、「亲和试剂」或「结合部分」。当具有「吸附物表面」时,该等探针可称为「亲和性捕捉探针」。该捕捉试剂可为能够键结分析物的任何材料。该等捕捉试剂可直接附着于所选的表面的基体,或附着于可能具有反应性表面的基体,所述的反应性表面带有能够键结捕捉试剂的反应性部分,例如,通过形成共价键或配位共价键的反应。环氧化物和碳基二咪唑(carbodiimidizole)是对于共价键结多肽捕捉试剂(诸如抗体或细胞受器)有用的反应部分。氮基乙酸及亚胺二乙酸是有用的反应部份体,其功能是作为钳合剂与金属离子结合,而该金属离子是与含有胜肽的组胺酸有非共价互相反应者。吸附物一般分类为层析吸附物与生物专一性吸附物。
「层析吸附物」指的是典型用在层析法的吸附性材料。层析吸附物包括,例如,离子交换材料、金属螯合剂(例如,氮基乙酸或亚胺二乙酸)、固定的的金属螯合物、疏水性互相反应吸附物、亲水性互相反应吸附物、染料、简单的生物分子(例如,核苷酸类、胺基酸类、简单的糖类及脂肪酸类)及混合模式的吸附物(例如,疏水性吸引/静电排斥吸附物)。
「生物专一性吸附物」指的是包含生物分子,例如,核酸分子(例如,适体)、多肽、多醣体、脂质、胆固醇或前述的共轭物(例如,醣蛋白、脂蛋白、醣酯、核酸(例如,DNA)-蛋白质共轭)的吸附物。在某些例子中,该生物专一性吸附物可为大分子结构,诸如,多重蛋白复合体、生物膜或病毒。生物专一性吸附物例子是抗体、受体蛋白质及核酸。生物专一性吸附物较于层析吸附物对标的分析物有较高的专一性。于SELDI所用的吸附物更进一步的例子可见于美国专利第6,225,047号。「生物选择性吸附物」指的是以至少10-8M的亲和力与分析物结合的吸附物。
由Ciphergen Biosystems,Inc.所生产的蛋白质生物芯片,该芯片包含于可寻址位置附着有层析或生物专一性吸附剂的表面。Ciphergen ProteinChip数组包括NP20(亲水性);H4及H50(疏水性);SAX-2、Q-10及LSAX-30(阴离子交换);WCX-2、CM-10和LWCX-30(阳离子交换);IMAC-3、IMAC-30和IMAC 40(金属螯合物);及PS-10、PS-20(具有碳基咪唑与环氧化物的反应性表面)和PG-20(通过碳基咪唑偶合的蛋白质G)。疏水性蛋白质芯片数组具有异丙基或壬基苯氧基-聚(乙二醇)甲基丙烯酸酯官能。阴离子交换蛋白质芯片数组具有四级铵官能。阳离子交换蛋白质芯片数组具有羧酸酯官能。固定的金属螯合蛋白质芯片数组具有藉由螯合作用吸附过渡金属离子(诸如,铜、镍、锌,及镓)的氮基乙酸官能。预先活化的蛋白质芯片数组具有可与在蛋白质上的基团行共价键结反应的碳基咪唑或环氧化物官能基。
此等生物芯片进一步的描述在美国专利案6,579,719号(Hutchens和Yip,″Retentate Chromatograpy″,June 17 2003);PCT国际公开案第WO 00/66265号(Rich等人,″Probes for a Gas Phase IonSpectrometer″,November 9 2000);美国专利第6,555,813号(Beecher等人,″Sample Holder with Hydrophobic Coating for Gas Phase MassSpectrometer″,Apri l29,2003);美国专利申请案第US.2003 0032043A1号(Pohl和Papanu,″Latex Based Adsorbent Chip″,July 16 2002);以及PCT国际公开案第WO 03/040700号(Um等人,″HydrophobicSurface Chip″,May 15 2003);美国专利申请案第US2003/0218130 A1号(Boschetti等人,″Biochips With Polysaccharide-BasedHydrogels″,April 14,2003)及美国专利申请案第60/448,467号标题″Photocrosslinked Hydrogel Surface Coatings″(Huang等人,于February 21,2003提出)。
一般而言,具有吸收物表面的探针与样品接触一段足以容许生物标记或可能出现样品中的生物标记与该吸收物结合的期间。在反应期间之后,洗涤受质以移除未结合的物质。任何适当的洗涤溶液都可使用;优选地,利用水性溶液。可藉由调整洗涤的严格度(stringency)来操作键结留存的分子的范围。洗涤溶液的溶析特征可能取决于,例如pH、离子强度、疏水性、乱度函数(chaotropism)的程度、清洁剂强度,及温度。除非探针具有SEAC和SEND性质两者(如于本文中所述),否则能量吸收分子是以键结的生物标记施用至该基体。
该与受质结合的生物标记是在气相离子频谱仪(诸如飞行时间质谱仪)中检验。生物标记由离子化来源(诸如,激光)而离子化,所产生的离子由离子光学组件所收集,然后以质量分析仪将通过的离子加以分散以及分析。探测器接着将所检验的离子转换的信息成质荷比。生物标记的检验典型牵涉信号强度的检验。因此,生物标记的质与量都是可测得的。
SELDI另一版本是表面增强均匀解析(SEND),该版本牵涉包含使用以化学键结至探针表面(「SEND」探针)的能量吸收分子的探针。字词「能量吸收分子」(EAM)意思是分子能够从激光解析/离子化来源吸收能量因而有助于其所接触的分析物解析并离子化的分子。EAM的范畴包括在MALDI所用的分子,通常称为「基质(matrix)」,其示例有肉桂酸衍生物、芥子酸(sinapinic acid,SPA)、氰-羟基-肉桂酸(CHCA)及二羟基苯甲酸、阿魏酸,及羟基苯乙酮衍生物。在某些具体实例中,能量吸收分子并入直链型或交联聚合物,例如,聚甲基丙烯酸酯。例如,其组成可为α-氰-4-甲基丙烯醯基氧基肉桂酸与丙烯酸酯的共聚物。在另一具体实例中,其组成可为α-氰-4-甲基丙烯醯基氧基肉桂酸、丙烯酸酯与3-(三-乙氧基)硅烷基丙基甲基丙烯酸酯的共聚物。在另一具体实例中,其组成可为α-氰-4-甲基丙烯醯基肉桂酸与甲基丙烯酸十八酯(「C18 SEND」)的共聚物。SEND进一步描述于美国专利案第6,124,137号及PCT国际公开案第WO 03/64594号(Kitagawa,″Monomers And Polymers Having Energy AbsorbingMoieties Of Use In Desorption/Ionization Of Analytes″,August7,2003)。
SEAC/SEND是捕捉试剂与能量吸收分子皆附着于样品所出现的表面的SELDI版本。因此SEAC/SEND探针不需施加外来基质即容许通过亲和力捕捉及离子化/解析作用来捕捉分析物。C18 SEND生物芯片是包含C18部分的SEAC/SEND版本,所述的部分的功能是作为捕捉试剂,且CHCA部分的功能是作为能量吸收部分。
另一个的SELDI版本,称为表面增强光不稳定性附接与释放(Surface-Enhanced-Phtolabile Attachment and Release,SEPAR),涉及使用附着于可与分析物共价键结的表面的部分,接着在暴露至光之后透过打断在该部份中的光不稳定性键结而释放该分析物,例如,暴露至激光光(参见美国专利第5,719,060号)。依据本发明,SEPAR及其它SELDI的型式是经轻易的调整以检验生物标记或生物标记的态(profile)。
3.1.2.其它质谱方法在其它质谱方法中,该等生物标记可首先在层析树脂被捕捉,该等层析树脂具有键结生物标记的层析特性。在此范例中,可包括各样方法。例如,在阳离子交换树脂(诸如,CM Ceramic HyperD F树脂)上可捕捉生物标记、洗涤树脂,溶析该生物标记并由MALDI检测。或者,此方法可在施用至阳离子交换树脂之前先在阴离子交换树脂上进行样品的馏分。或者,可在阴离子交换树脂上馏分并直接由MALDI检验。在又另一方法中,在包含与生物标记结合的抗体的免疫层析树脂上捕捉生物标记、洗涤树脂以移除未结合的物质、从该树脂溶析生物标记并由MALDI或由SELDI检验所溶析的生物标记。
3.1.3.数据分析飞行时间质谱仪对分析物进行分析产生飞行时间频谱。最终所分析的飞行时间频谱典型不代表来自对样品的离子化能量的信号而是来自多个脉冲信号的总和。这减少了噪声并增加了动态范围。该等飞行时间的数据是经过数据处理的。在Ciphergen’s ProteinChip软件,数据处理典型包括TOF对M/Z的转换以产生质谱,基线扣除以去掉仪器补偿以及高频率噪声过滤以降低高频率噪声。
藉由生物标记的解析与检验所产生的数据可使用可编程数字计算机加以分析。该计算机程序分析数据以指出所检验到的生物标记的数目,以及任选地指出信号的强度以及所检验到的各个生物标记的量定分子量。数据分析可包括下列步骤量定生物标记的信号强度并移除自预先量定的统计学分布偏离的数据。例如,藉由相对于一些参考值所计算的每个峰高,可将所观察到的峰常态化。所述参考值可为由仪器以及化学剂(诸如,在标度中设为0的能量吸收分子)所产生的噪声。
计算机可将所得的数据转换成各种不同行是来显示。可显示成标准频谱,但在一种有用的形式中,仅自频谱图(view)中保留峰高度以及质量信息,产生清楚的影像并使有差不多分子重的生物标记轻易的被看到。在另一有用的形式中,比较两种或多种频谱,合适的强调出独有的生物标记,以及在样品之间上调或下调的生物标记。使用该等形式中之任一者,可轻易的量定某个生物标记是否出现在样品中。
分析一般涉及包含在代表得自分析物的信号的频谱中峰的鉴定。峰的选择可用肉眼进行,但软件是可得的,如Ciphergen’sProteinChip软件装的其中一部分,其可使峰的检验自动化。一般而言,所述软件是藉由鉴定具有信噪比超过所选的阀值的信号以及在峰信号的中心标记峰的质量而发挥功能。在一种有用的应用中,比较许多频谱以鉴定呈现一些所选的百分比是相同的质谱的峰。该等软件的一个版本将在多种频谱中所定义的质量范围内所出现的所有峰都加以丛集,并将质量(M/Z)归于接近质量丛集的中央点的所有峰。
根据本发明,用来分析数据的软件可包括应用算法以分析信号藉以判定该信号是否代表在与生物标记相应的该信号中的峰。该软件亦可使关于所观察到的生物标记的数据接受分类树或ANN分析,以判定生物标记峰或生物标记峰的组合是否出现,而该等生物标记峰或其组合的出现在试验时该特定的临床参数的状态。该数据的分析可能是直接或者间接自该样品的质谱分析对所获得的各种参数「定调(keyed)」。该等参数包括,但不限于,一个或多个峰的出现、一个或多个峰的高度的对数,以及峰高度数据的其它算数操作。
3.1.4.乳癌的生物标记的SELDI检测所用的一般流程本发明生物标记的检验的优选的实验步骤如下。所要测试的生物样品,例如,血清或尿,在SELDI分析之前优选地接受预馏分(pre-fractionation)。此步骤使样品简单化并增进敏感性。预馏分的优选方法涉及将样品与阴离子交换层析材料接触,诸如Q HyperD(BioSepra,SA)。该键结的材料接着使用缓冲液在pH9,pH7,pH5及pH4进行逐步pH溶析(stepwise pH elution)。(参见例1-缓冲列表)(其中的生物标记已经过溶析的片段亦列示在表1)。收集含有该等生物标记的各种片段。
所要测试的样品(优选地经预馏分)接着与包含阳离子交换吸附物(WCX蛋白质芯片数组(Ciphergen Biosystems,Inc.)为优选)或与IMAC吸附物(IMAC3蛋白质芯片数组(Ciphergen Biosystems,Inc.)为优选)的亲和力捕捉探针接触,再次列示于表1中。该探针用缓冲液洗涤,该缓冲亦在将为键结的分子洗除时仍保留该生物标记。对各种生物标记适当的洗剂是在表1中所指出的缓冲液。由激光解析/离子化质谱技术检验该等生物标记。
另外,如果辨认生物标记的抗体是可得的,例如在ITIH4或C3a-desArg的例子中,该等抗体可附着于探针的表面上,如预活化的PS10或PS20蛋白质数组(Ciphergen Biosystems,Inc.)。这些抗体可将生物标记从样品捕捉至探针表面。然后生物标记可由,例如,激光解析/离子化质谱技术所检验。
3.2.由免疫测定在另一具体实例中,本发明的生物标记可由免疫测定来测量。免疫测定需要生物专一性捕捉试剂,诸如抗体,以捕捉生物标记。抗体可藉由在此技艺中所咸知的方法制造,例如,藉由以生物标记造成免疫反应的动物所制造。基于生物标记的键结特征,可将生物标记自样品中单离。另外,如果多肽生物标记的胺基酸序列已知,可合成该等多肽并以在此技艺中所咸知的方法产生抗体。
本发明所考虑使用的传统免疫测定包括,例如,三明治免疫测定(其包括ELISA或萤光为基础的免疫测定),以及其它酵素免疫测定。在该SELDI为基础的免疫测定中,该生物标记的生物专一性捕捉试剂附着于MS探针,诸如预活化的蛋白质芯片数组,的表面。该等生物标记接着在该生物芯片上通过此等试剂专一性地捕捉,接着所捕捉到的生物标记藉由质谱技术检验。
4受试体乳癌状态的量定4.1单一标记本发明的生物标记可用在诊断测试以估计受试体的乳癌状态,例如,诊断早期的乳癌。字词「乳癌状态」包括疾病的任何可区辨表现,包括非疾病。例如,疾病状态包括,而不加限制,有疾病或没有疾病(例如,乳癌相对于非乳癌)、发展成疾病的风险、疾病的状态(例如,非浸润性或早期乳癌相对于浸润性或转移性的乳癌)、疾病的进展(例如,随时间的疾病进展或疾病缓解)以及疾病治疗的效能或反应。基于此状态,也许需要进一步的程序,包括额外的诊断试验或治疗程序或疗法。
正确地预测状态(status)的诊断测试的能力一般以该测定的敏感性、该测定的专一性或接受者操作特征(ROC)曲线下面积来测量。敏感性是真阳性的百分比,真阳性是由测试预测为阳性,而专一性是真阴性的百分比,真阴性是由测试预测为阴性。ROC曲线以1-专一性的函数提供测试的敏感性。ROC曲线下的面积越大,该测试得预测值就越高。其它对测试的效用有用的测量是阳性预测值和阴性预测值。阳性预测值是测试为阳性的实际阳性的百分比。阴性预测值是测试为阴性的实际阴性的百分比。
本发明的生物标记显示出在不同的乳癌状态有至少p≤0.05、p≤10-2、p≤10-3、p≤10-4或p≤10-5的统计差异。单独使用或以组合使用该等生物标记的诊断测试显示出至少75%、至少80%、至少85%、至少90%、至少95%、至少98%及大约100%的敏感性及专一性。
在表1中所列的各个生物标记是有差异地存在于乳癌中,且,因此,各个生物标记对乳癌状态的测定都是有用的。该方法包含,首先,在受试体的样品中使用在本文中所述的方法(例如,在SELDI生物芯片上捕捉并接着以质谱技术检验)测量所选择的生物标记,接着,其次,以区辨阳性乳癌状态与阴性乳癌状态的诊断量或截切值(cut-off)来比较其测量结果。诊断量代表生物标记所量得的量,受试体由所量得的量在该等量之上或之下,藉以分类为具有特定的乳癌状态。例如,如果与正常相较在乳癌期间生物标记是上调的,则高过诊断截切值的测量量提供罹患乳癌的诊断。或者,如果比较在乳癌期间生物标记是下调的,则低于诊断截切值的测量量提供罹患乳癌的诊断。如在此技艺中所咸知者,藉由调整在测定中所用的特定诊断的截切值,可取决于诊断者的偏好来增加诊断分析的敏感性或专一性。特定的诊断截切值是可被测定的,例如,如在本文中是藉由测量得自于有不同乳癌状态的受试者的有统计意义的数量的生物标记的量,并划分出适合诊断者所欲程度的专一性与敏感度的截切值。
4.2.标记的组合当各别的生物标记都是有用的诊断性生物标记时,发现生物标记的组合比单独一个生物标记可提供特定状态的更大的预测值。特别是,在样品中检验多种生物标记可增加测试的敏感性和/或专一性。
4.3.测定发展成疾病的风险在一个具体实例中,本发明提供在受试体测定发展成疾病的风险的方法。生物标记的量或型态(pattern)是各种风险状态(例如,高、中或低)的特征。发展成疾病的风险是藉由测量相关的生物标记或生物标记群所测定,接着或者使该(等)生物标记接受分类算法,或者将之与参考量和/或型态比较,所述的参考量和/或型态是与特定的风险程度式有关的。
4.4.测定疾病的状态在一个具体实例中,本发明提供量定受试体的疾病状态的方法。疾病的各期具有生物标记的特征量或一组生物标记(型态)的相关量。疾病的状态是藉由测量相关的生物标记或生物标记(群)所量定,接着或者使该(等)生物标记接受分类算法,或者将之与参考量和/或型态比较,所述的参考量和/或型态是与特定的风险程度式有关的。例如,生物标记ITIH4片段1、ITIH4片段1b、C3a-desArgΔ8,和/或C3a-desArg的检验可用以区辨在早期(非浸润性)与浸润性乳癌。
4.5.疾病进程(进展/缓解)的量定在一个具体实例中,本发明提供量定受试者疾病进程的方法。疾病进程指的是疾病状态随时间的变化,包括疾病进展(恶化)及疾病缓解(改善)。生物标记的量或相对量(例如,型态)随时间改变。例如,生物标记ITIH4片段1、ITIH4片段1b、C3a-desArgΔ8,和/或C3a-desArg在疾病中减少了。所以,该等标记朝向有疾病的或向无疾病随时间变化的趋势,或者是增加的或是减少的,表示了疾病的进程。因此,此方法涉及在至少两个不同的时间点测量受试者的一个或多个生物标记,例如,在第一时间及第二时间,并比较其量的变化,如果有的话。相似的,此方法对量定对治疗的反应是有用的。如果治疗是有效的,则生物标记将趋向于正常,如果治疗是无效的,生物标记将趋向于表示有疾病。
4.6.受试者管理在定出乳癌状态的方法的某些具体实例中,该方法进一步包含基于其状态来管理受试者的治疗。该等管理包括在量定乳癌状态之后,内科医师或临床医师所采取的行动。例如,如果内科医师做出乳癌的诊断,则可能接着进行特定的治疗疗程,诸如化学治疗或辐射的处方或投与。或者,非乳癌或量性乳房疾病的诊断可能接着进行进一步的测试以判定患者所可能罹患的具体疾病。此外,如果诊断测试所给的乳癌状态结果是不确定的,可能要做进一步的测试。
本发明的额外具体实例是关于传递检定的结果或诊断或检定的结果与诊断两者给,例如,技术人员、内科医师或患者。在某些具体实例中,将使用计算机传送检定结果或诊断或两者给有兴趣的当事人,例如,内科医师及他们的患者。在一些具体实例中,执行检定或分析该检定结果所在的国家或辖区与传递该结果或诊断的国家或辖区是不同的。
在本发明的优选的具体实例中,基于任何在表1中的生物标记在试验受试者有出现或没有出现而下的诊断是在该诊断获得后尽快传递给受试者。可由受试者的治疗医师传递该诊断。或者,可藉由电子邮件寄送诊断给试验受试者或以电话传递给该受试者。可使用计算机以藉由电子邮件或电话来传递诊断。在某些具体实例中,含有诊断测试结果的讯息可使用计算机硬件与软件的组合来自动地产生并传递给该受试者,该等组合对于电信领域中具通常技艺者是熟悉的。健康照护导向的通讯系统的一个例子描述于美国专利案第6,283,761号中;然而,本发明不限于利用特定的通信系统的方法。在本发明方法的某些具体实例中,该等方法步骤中的所有或一些,包括检定样品、诊断疾病,及传递检定结果或诊断,可能在分别(外国的)的辖区所执行。
5.定义乳癌状态所用的分类算法的产生在一些具体实例中,衍生自频谱的数据可接着用来「训练」分类模式,所述的频谱(例如,质谱或飞行时间频谱)是使用样品(诸如「已知样品」)所产生。「已知样品」是已经预先分类的样品。自频谱衍生且用来形成分类模型的数据可称为「训练数据组」。一旦经过训练,该分类模型可辨认自频谱所衍生的数据的模式,而该频谱是使用未知样品所产生的。该分类模型接着可将未知的样品分类到类别中。这是对于,例如,预测特定生物样品是否与某些生物情况有关(例如,罹病的相对于非罹病的)有用。
用以形成该分类模型的训练数据组可能包含原始数据或预先处理的数据。在一些具体实例中,原始数据可从时间飞行频谱或质谱直接获得,且接着任选地如前文所述「预先处理」。
分类模型可使用任合适当的统计分类(或「学习」)方法形成,该方法基于在该数据中所出现的客观参数尝试将数据体分离归类。分类方法或许是监督或无监督的。监督的和无监督的分类过程的例子描述在Jain,″Statistical Pattern RecognitionA Review″,IEEETransactions on Pattern Analysis and Machine Intelligence,Vol.22,No.1,January 2000,其教示以参考文献方式并入。
在监督的分类法中,含有已知类别例子的训练数据是呈现至学习机制,该机制学习一组或多组定义各个已知种类的关系。新的数据可能接着用在该学习机制,该学习机制接着使用已习得的关系将新数据分类。监督的分类过程的例子包括线性回归过程(例如,多重线性回归(MLR)、部份最小平方(PLS)回归以及主成分回归(PCR))、二元判定树(例如,递归分割程序(诸如CART-分类及回归树))、人工神经网络(诸如反向传播网络)、区别分析(例如,贝式(Bayesian)分类器或费雪(Fischer)分析)、逻辑分类器,及支撑向量分类器(支撑向量机)。
优选的监督分类法是递归分割程序。递归分割程序使用递归分割树来分类衍生自未知样品的频谱。关于递归分割程序的进一步细节提供于美国专利申请案第2002 0138208 A1号,颁与Paulse等人,″Methodfor analyzing mass spectra″。
在另一具体实例中,可使用无监督学习方法形成。无监督分类法尝试基于训练数据组中的相似性来学习分类,而不需要预先分类训练数据组所衍生的频谱。无监督学习方法包括丛集分析。丛集分析尝试划分数据成「丛集」或群组,该丛集或群组理想上应具有彼此非常相似的成员,且与其它丛集中的成员应该是非常不相似的。相似性是使用一些距离度规(distance metric)测量,该距离度规测量数据项之间的距离,且丛集间共同的数据项彼此是更为靠近的。丛集的技术包括MacQueen的K-means算法和Kohonen’的自组织映像(Self-OrganizingMap)算法。
声称用于分类生物信息的学习算法,描述于例如,PCT国际公开案第WO 01/31580号(Barnhill等人,″Methods and devices foridentifying patterns in biological systems and methods of usethereof″)、美国专利申请案第2002 0193950 A1号(Gavin等人,″Method or analyzing mass spectra″)、美国专利申请案第20030004402 A1号(Hitt等人,″Process for discriminating betweenbiological states based on hidden patterns from biologicaldata″),及美国专利专利案第2003 0055615 A1号(Zhang and Zhang,″Systems and methods for processing biological expressiondata″)。
该分类模型可在任何适合的数字计算机上形成及使用。适合的数字计算机包括使用任何标准或特化的操作系统,诸如,Unix,WindowsTM或LinuxTM为基础的操作系统的微型、小型,或大型计算机。所用的数字计算机可能是与用来创造感兴趣的频谱的质谱仪在实体上是分离的,或是所述计算机可与质谱仪结合。
根据本发明的具体实例的该训练数据组及该分类模型可藉由计算机程序码实体化,所述的程序代码是由数字计算机执行或使用。该计算机程序码可储存在任何适合的计算机可读取媒介,包括光盘或磁盘、卡、带等,且可写入在任何适当的计算机程序语言,包括C、C++、visual basic等。
前述的学习算法对发展已经发现的生物标记的分类算法,或对寻找乳癌的新生物标记都是有用的。分类算法,依序藉由提供单独使用或组合使用的生物标记的诊断值(例如,截切点)以形成诊断的基础。
6.乳癌的生物标记检验所用的试剂盒在其它方面,本发明提供鉴定乳癌状态的试剂组,此套组是根据本发明用来检验生物标记。在一个具体实例中,本套组包含固态支持物,诸如芯片、微滴定板或有捕捉试剂附着于其上的珠子或树脂,其中该捕捉试剂与本发明的生物标记结合。因此,例如本发明的套组可包含SELDI所用的质谱探针,诸如ProteinChip数组。在生物专一性捕捉试剂的情形中,此试剂盒可包含具有反应表面的固态支持物,以及包含生物专一性捕捉试剂的容器。
本试剂盒亦可包含洗涤溶液或洗涤溶液的制作说明,其中捕捉试剂与洗涤溶液的组合允许捕捉在固态支持物上的升物标记或生物标记群以进行接下来的检验,接下来的检验是藉由,例如,质谱仪所进行。该试剂组可能包括更多类型的吸附物,其各个存在于不同的固态支持物上。
在进一步的具体实例中,此等套组可包含适当操作参数的说明书,该说明书是呈卷标或分离的插页的形式。例如,此说明说可能告知消费者关于如何收集样品、如何洗涤探针或所要检验的特定的生物标记。
在又一具体实例中,此试剂组可包括含有一个或多个生物标记样品的容器,来当作校准的标准品。
7.将生物标记用在乳癌的筛选检定以及治疗乳癌的方法本发明的方法具有其它的应用。例如该等生物标记可用于筛选在活体内或活体外调节该等生物标记的表达的化合物,该等化合物接着对治疗或预防病患的乳癌可能是有用的。在其它的实施例,该等生物标记可用在监控对乳癌的治疗的反应。在又另一实施例中,该等生物标记可用在遗传研究中以量定受试体是否处在发展成乳癌的风险中。
所以,例如,本发明的试剂组可包括具有疏水功能的固态基体,诸如蛋白质芯片(例如,Ciphergen H50 ProteinChip数组,例如,ProteinChip数组)以及洗涤该基体所用的醋酸钠缓冲液,以及提供在芯片上测量本发明的生物标记以及使用前述测量结果来诊断乳癌的说明书。
适于治疗性测试的化合物可藉由鉴定与列示于表1中的一种或多种生物标记互相作用的化合物而做初步的筛选。经由实施例的方法,筛选可能包括将列示在表1中的生物标记进行重组表达、纯化生物标记以及将生物标记贴附至基体。测试化合物接着与基体接触,典型地是在水性环境中,且测试化合物与生物标记间的互相作用是,例如,藉由测量溶析速率而测量,溶析速率是盐浓度的函数。可辨认出某些蛋白质并切割表1中的一个或多个生物标记,在此情况可藉由在标准检定(例如,藉由所述蛋白质的胶体电泳)中监控一种或多种生物标记的消化而检验蛋白质。
在相关的具体实例中,可测量测试化合物对一个或多个TableI中的生物标记活性的抑制能力。在此技艺中具通常技术者将会辨认测量特定生物标记活性所用的技术是与该等生物标记的功能与性质是非常相关的。例如,可能拿来检定的生物标记的酵素活性提供可得的适当受质并提供可轻易测量的反应产物的出现。有力的治疗性测试化合物对抑制或增强所给定的生物标记的能力可藉由在有试验化合物存在下或没有所述化合物存在下测量催化的速率而量定。可测量测试化合物干扰其中一个表1的生物标记的非酵素性(例如,结构性)功能或活性的能力。例如,包括其中一个表1的生物标记的多重蛋白质复合体的自组装可藉由光谱仪在有测试化合物或没有测试化合物存在下监控。或者,如果该生物标记是转录的非酵素性增强剂,干扰该等生物标记的能力以增强转录的测试化合物可藉由在活体内或活体外有该测试化合物或没有该化合物存在下测量与生物标记相关的转录的程度而鉴定。
能够调节表1的任何生物标记的试验化合物可投与给罹患乳癌或其它癌症或处于有发展成所述癌症的风险的患者。例如,如果特定的生物标记在活体内预防乳癌的蛋白质的堆积,则投与增加该特定生物标记的活性的测试化合物可能在患者中减少乳癌的风险。相反地,如果该生物标记是,至少部分是,癌症发病的原因,则减少该特定生物标记的活性的测试化合物的投与,可能在患者中减少乳癌的风险。
在另外一方面,本发明提供鉴定对治疗疾病有用的化合物的方法,该等疾病,例如,与ITIH4片段1、ITIH4片段1b、C3a-desArgΔ8,和/或C3a-desArg修饰型的量增加有关的乳癌。例如,在一个具体实例中,可在细胞萃取物或表达数据库中筛选出催化全长的ITIH4或C3a-desArg切割形成截短型的化合物。
在此等筛选测定的一个具体实例中,可藉由将萤光物质(fluorophore)贴附至该生物标记来检验该等生物标记的切割,当该等生物标记是未经切割时萤光物质维持不发光(quench)的状态,但当蛋白质经过切割则萤光物质发出萤光(fluoresce)。或者,修饰全长的生物标记使得藉于某些不可切割的胺基酸之间的醯胺键可用来选择性的键结或「捕集(trap)」在活体内在该位置切割全长的生物标记的细胞蛋白酶。筛选以及鉴定蛋白酶以及其标的的方法在科学文献中是有完整记载的,例如,记载于Lopez-Ottin等人的文章中。(Nature Reviews,3509-519(2002))。
在又另外具体实例中,本发明提供治疗或减少疾病(例如,乳癌)进展或可能性的方法,该方法与截短的ITIH4或C3a-desArg的量增加有关。例如,在鉴定出一个或多个切割全长的生物标记的蛋白质之后,可在组合数据库(Combinatorial Library)中筛选出抑制所辨识的蛋白质的切割活性的化合物。在化学数据库中筛选该等化合物的方法在此技艺中是咸知的。见,例如,Lopez-Otin等人(2002)。另外,抑制化合物可基于ITIH4或C3a-desArg的结构明智地设计。
在临床标准(level),筛选化合物包括从在受试体暴露至测试化合物之前或之后自测试化合物获得样品。可测量并分析在样品中表1中所列的一种或多种生物标记的量以量定在暴露至测试化合物之后该生物标记的量是否有改变。可藉由,如本文所描述,以质谱来分析样品,或藉由在此技艺中具通常技术者所知的任何适当手段来分析。例如,列示于表1中的一种或多种生物标记的量可使用辐射-或萤光-标定的专一性与该等生物标记结合的抗体藉由西方墨点法来测量。或者,可测量编码一种或多种生物标记的Mrna的量的改变并联系该等改变量与所给定的测试化合物对受试体的投与间的关系。在进一步的具体实例中,在一种或多种生物标记的达量中的改变可使用活体外方法与材料来测量。例如,表达或能够表达一种或多种表1的生物标记的人类组织培养细胞可与测试化合物接触。经以测试化合物治疗的受试体将例行性地检查任何由于该等治疗所造成的生理效应。尤其,评估该测试化合物对在受试体减少其罹病可能性的能力。或者,如果将该测试化合物投与至先前诊断有乳癌的受试者,则将筛选该等测试化合物对减缓或停止该疾病进程的能力。
8.实施例在以下实施例中,使用以下的材料与方法。
样品回溯(restrospective)血清样品是根据约翰斯霍普金斯临床研究联合委员会认可的实验流程自约翰霍普金斯临床化学血清库所获得。在此研究中一共包括169个试样。癌症群组包括了得自不同临床阶段的乳癌患者(第0期(n=4)、第I期(n=38)、第II期(n=37)及第III期(n=24))的103个血清样品所组成。诊断是经过病理确认的且试样是在治疗之前获得的。这些患者其中六位的年龄信息无法得知。其余的96名患者的年龄中位数为56岁,范围是34至87岁。非癌症的控制组包括得自25名良性乳房疾病(BN)患者与41名健康妇女(HC)的血清。其中21名健康妇女的确切年龄无法得知。其余的20名健康妇女的年龄中位数为45岁,范围是自39至57岁。良性状态组的年龄中位数为48岁,范围在自21至78岁之间。所有的样品被存放在-80℃直到要使用时。
蛋白质芯片分析对20μl的各个血清样品添加8M尿素30μl、pH7.4的1%CHAP于PBS。该混合物是在4℃搅拌15分钟并以1∶40稀释在PBS中。根据制造商(Ciphergen Biosystems,Inc.,CA)的说明书将固定的金属亲和力捕捉芯片(IMAC3)以50mM的NiSO4活化。50μl的稀释样品使用96孔的生物处理器(Ciphergen Biosystems,Inc.,CA)施加于蛋白质芯片数组的各个点上。于室温中60分钟于平板振荡器上结合之后,该数组以100μl的PBS洗涤5分钟进行二次,之后再以100μl的去离子水快速清洗。在风干之后,在50%乙腈、0.5%三氟乙酸中制备的饱和芥子酸(SPA)溶液0.5μl对各个点施加二次。键结至螯合金属的蛋白质(通过组胺酸、色胺酸、半胱胺酸或经磷酸化的胺基酸)在PBS-II质量读取器上检验。数据是以240的强度以及8的检验器敏感度以平均80的激光发射(laser shot)所收集。再现性是使用二个代表性的血清样品估计,一个得自健康控制组而另一个得自癌症患者。在二个生物处理器中各有一个IMAC-Ni芯片,将每种血清样本点在所述芯片上总共8个的饵(bait)表面上。
生物信息学及生物统计学选择具有M/Z介于2K及150K之间的合格质量峰(S/N>5,丛集量窗口定在(cluster mass window at)0.3%)并使用ProteinChip软件3.0(Ciphergen Biosystems,Inc.,CA)将峰强度对总离子流(totalion current)做常态化。进一步的预处理步骤包括对峰强度数据做对数转换,这是为了在感兴趣的频谱(M/Z 2kD至150kD)的整个范围间获得数据变异数(data variance)更一致性的量。
软件包ProPeak(3Z Informatics,SC)用来计算以及排序每个个别的峰对将二个诊断组做最适分离的贡献程度。ProPeak执行UnifiedMaximum Separability Analysis(UMSA)算法的线性版本,该算法最初是报导作微数组数据分析之用。Z.Zhang等人,ApplyingClassification Separability Analysis to Microarray Data,in Proc.of Critical Assessment of Techniques for Microarray DataAnalysis(CAMDA100),Kluwer Academic Publishers,2001。UMSA算法的主要特征是将数据分布信息并入至结构风险最小化学习算法(structural risk minimization-learning algorithrm,Vapnik VN,Statistical Learning Theory,John Wiley&Sons,Inc.,New York,199814)以确认出将二组数据作最佳分离所依循的方向。此方向代表原始变量的线性组合(加权总和)。与在该等组合中每个变量有关的加权测量了所述变量对朝向前述两类数据的分离的方向的贡献程度。
ProPeak基于分析模块提供三个UMSA。第一个是组成分析模块,该模块将各个试样以个别的点投射到三维组成空间。该组成(轴)是原始频谱峰强度的线性组合。该轴所对应的方向是当循着该方向时两组预设数据组群可达到最大可分离度。介于两组群数据间的分离可在交互式3D显示中检视。第二个模块是逐步选择法(Stepwise Selection),该模块是使用向后逐步选择程序以UMSA计算各个峰的显著度分数,并根据各峰对数据的两组预设组群的聚集贡献度。正向或负向得分表示对应的罹病组质量峰的表达程度是相对提高或下降,而该得分的绝对值代表该项得分对数据分离的相对重要性。为了避免在数据中仅基于无关的赝像的选择,ProPeak的第三个模块,也就是(靴带法)BootStrap,使用靴带程序重复UMSA数次,每次随机地自量个组群遗漏固定百分比的样品。对中位数及平均值进行排序并估计每个峰相应的标准差。有潜力的生物标记应该是中值和平均值排序最高且标准差排序最小的峰。当作建立客观选择标准的方法,同样的靴带程序亦可用至随机的数据,其中逐一的峰是模拟真实数据的分布。得自真实数据的结果与得自模拟数据者比较以建立在标准差排序上统计适当的截切值来选择具有一致性表现的峰。
实施例1鉴定在早期检测乳癌的生物标记为了鉴定出在早期检测乳癌的潜力生物标记,得自第0至1期乳癌患者的试样的蛋白质图谱(profile)与得自非乳癌控制组者相比较。前述数据的分析是使用ProPeak中的全部三个模块以多次重复来执行。通过此等重复过程,原本的全频谱被削减成质量峰的小型子集,该子集在两个所选诊断组群间的最适分离中一致展现高程度的显著度。
一旦小屏(small panel)的生物标记被选取,使用得自第II和第III期癌症患者的数据独立的测试该等生物标记对检验乳癌的能力。使用多变相逻辑回归分析衍生出基于整个数据组的综合指数。评估包括得自二-样品t试验(two-sample t-test)的p值的叙述性统计。接着对所选的生物标记集该总和指数进行接受者操作特征(ROC)曲线分析。使用靴带程序来评估表现标准,诸如综合指数的敏感性和专一性。Efron B和Tibshirani R.Bootstrap Methods for Standard Errors,Confidence Intervals,and Other Measures of StatisticalAccuracy。Statistical Science。1986;154-75。在此程序中,通过随机重取样(re-sampling)将所有患者的数据分成训练组以及试验组,训练组通过逻辑回归除以综合指数,而试验组则是用来计算敏感度以及专一性。重复数次重取样。得自该等重复性的程序最后集合以形成对敏感度以及专一性的靴带评估。
实施例2峰检验以及数据预处理在IMAC-Ni2+芯片上所保留的血清蛋白质在PBS-II质量读取器上分析。选取共计147个合于M/Z大于2KD的质量峰(S/N>5,丛集质量窗口定在0.3%)。排除小于2KD的M/Z的峰以除去来自基质的干扰。由使用多合一的蛋白质标准品(Ciphergen Biosystems,Inc.,CA)藉由外在校正达到0.1%的质量精准度。自该等分析而获得的代表性频谱显示在第2图。把对数转换用于峰强度数值。在第3图中的图标说明方差减少以及通过对数转换所进行的等化。
实施例3生物标记的选择是基于早期癌症与非癌症控制组为了鉴定具有早期检验乳癌潜力的生物标记,以早期癌症作为阳性族群(第0至1期,n=42)且以非癌症控制组(HC+BN,n=66)作为阴性族群进行UMSA。使用所有147个质量峰的UMSA衍生线性组合对两组群间的可分离度进行首度试验。当比较整个蛋白质图谱时,区分出早期癌症和非癌症组群。第4A图在UMSA组成的3D空间描绘早期癌症(较浅)对于非癌症(较深)。
为了选择表现一致良好的生物标记,使用ProPeak靴带模块重复地应用UMSA达总计100次,且每次均有30%的遗漏率。同样的程序亦应用于模拟随机数据组。衍生自该模拟数据的最小的标准差是7。在实验数据中,15个质量峰的标准差小于所述值。选取该质量峰的子集作为进一步分析的候选生物标记。他们的平均排序及对应的标准差绘制于第4图。
为了进一步在此候选生物标记减少的组中排列峰,使用ProPeak的逐步选择模块。该15个峰的相对显著分数的绝对值(见表5)以递减次序绘制于第8A图,该图显示介于二个群组数据之间的主要可分性是由前六个峰所贡献。在这些六个峰之中,四个是独一的(unique)。其它两个经使用蛋白质芯片软件3.0鉴定为该等独一的峰其中2个的二价型式。该等峰的二价和一价形式的鉴定提示了在区辨该等所选的两个诊断组群中的重要性。移除二价型式,再次使用逐步选择法将该等四个独一的峰重组并加以评估。重新计算的相对显著得分绘制在第6B图。最后选择得分最高的3个峰为乳癌检验的潜力生物标记,标示为BC1、BC2和BC3。BC1显示为下调(负向得分)而BC2和BC3显示为上调(正向得分)。使用所述3个生物标记的第0期至第I期乳癌对非乳癌控制组的3D图显示在第4B图中。
实施例4所选生物标记的评估所述三个生物标记的叙述性统计列于表2。第7图显示得自ROC分析的结果。在此三个生物标记之中,BC3展现最强的单一诊断力。BC3在跨越各诊断群组间(包括癌症患者的临床阶段)的分布绘制于第8A图。单独使用BC3在0.8的截切值以区别该等诊断组的敏感性及专一性列于表3A。
对数转换峰强度的估计CV值为BC1为6%、BC2为7%,以及BC3为13%(数据无显示)。在此三个生物标记之中,BC3具有最大的CV值13%。相较而言,BC3的平均值在癌症患者几乎是90%,在非癌症控制组的平均值之上(根据表2数据计算)。
表2 BC1、BC2和BC3的叙述性统计,及其衍生自综合指数的逻辑回归。所有3个生物标记以及该综合指数在非癌症控制组与第0至I期之间的差异,和非癌症控制组与第II至III期之间的差异,都达统计显著(p<0.000001)。
实施例5三个所选的生物标记的组合使用第9图在所有对偶比对的生物标记组合中比较在所有临床阶段的癌症患者对非癌症控制组的分布。基于此等观察,使用多变量逻辑回归将3个所选的生物标记合并以形成单值的综合指数。该综合指数的叙述性统计附于表2。跨越各诊断群的综合指数的分布描绘在第8B图。该综合指数的ROC曲线分析提供相较于得自个别生物标记的AUC(第7图)要大上许多的AUC。
使用靴带交叉验证以评估综合指数的诊断表现(20次;在每次测试中,70%的样品随机地选取为综合指数离差(composite indexderivation)而剩余的30%做为测试)。所估计的敏感度与专一性列于表3B。
亦评估该等三个有潜力的生物标记关于pT(肿瘤大小)以及pN(淋巴结转移)种类的量。并未观察到显著的相关性。
表3A BC3的诊断表现
表3B 衍生自使用BC1、BC2、BC3的逻辑回归所衍生的综合指数的经拔靴法所估计的诊断表现
实施例6使用ProteinChip数组及SELDI质谱仪藉由血清蛋白质体分析来原位检验乳癌分析有乳癌以及没有乳癌的妇女的169个血清样品的蛋白质图谱,鉴定一系列3个蛋白质(8.9KD、8.1KD、4.3KD),所述的三个生物标记组合使用可高敏感度(第0至III期,93%)且专一性地(健康控制组+良性,91%)检验乳癌。在此三个标记之中,8.9KD的蛋白质表现的最好。达到85%的敏感度,以及91%的专一性。
乳管(ductal)及小叶(lobular)原位癌(DCIS及LCIS)是非浸润性乳癌的最早期型式(第0期)。几乎100%在乳癌早期诊断出的妇女都是可治愈的。为了验证这些标记对乳癌早期检验的功效,使用由联合机构所收集的血清来评估前述3个所鉴定出来的生物标记的表现。采样对象包括了由17名带有DCIS的妇女,1名LCIS,8名良性乳房疾病者,以及40名年龄大致上配对的健康控制组(45至65岁)。在如前所述的同样实验条件下,使用IMAC-Ni(固定的金属亲合力捕捉)蛋白质芯片数组产生三重复的蛋白质图谱。在不同诊断组群间使用二样品t试验来比较所述三个蛋白质的对数相关强度。在所述三种生物标记中的二个(8.9KD及8.1KD)的表达模式与先前的结果是一致的。此二个生物标记的p值与ROC曲线下面积总结于表四中。
表4统计分析的总结
DCIS,乳管原位癌;LCIS,小叶原位癌;HC,健康控制组;BN,良性下列各引用亦以参考文献并入本文。
1.Jemal A,Thomas A,Murray T,Thun M.Cancer statistics,2002.CA Cancer J Clin.2002;5223-47.
2.National Cancer Institute.Cancer Net PDQ CancerInformation Summaries.Monographs on″Screening for breastcancer.″http://cancer net.nci.nih.gov/pdq.html(UpdatedJanuary 2001).
3.Antman K,Shea S.Screening mammography under age 50.JAMA.1999;2811470-2.
4.Chan DW,Beveridge RA,Muss H,Fritsche HA,HortobagyiG,Theriault R,等人.Use of Truquant BR Radioimmunoassay forearly detection of breast cancer recurrence in patients withstage II and stage III disease,J Clin.Oncology.1997;152322-2328.
5.Karas M,Hillenkamp F.Laser desorption ionization ofproteins with molecular masses exceeding 10,000道耳吞.AnalChem.1988;602299-2301.
6.Hutchens TW,Yip TT.New desorption strategies for themass spectrometric analysis of micfomolecules.Rapid Commun.Mass Spectrom.1993;7576-80.
7.Merchant M,Weinberger SR.Recent advancements insurface-enhanced laser desorption/ionization-time offlight-mass spectrometry.Electrophoresis.2000;211 164-67.
8.Wright Jr GL,Cazares LH,Leung S-M,Nasim S,Adam B-L,Yip T-T,等人.ProteinChipsurface enhanced laserdesorption/ionization(SELDI)mass spectrometrya novelprotein biochip technology for detection of prostate cancerbiomarkers in complex protein mixtures.Prostate Cancer ProstateDis.1999;2264-76.
9.Hlavaty JJ,Partin AW,Kusinitz F,Shue MJ,Stieg M,Bennett K,Briggman JV.Mass spectroscopy as a discovery toolfor identifying serum markers for prostate cancer.Clin.Chem.[Abstract].2001;471924-26.
10.Paweletz CP,Trock B,Pennanen M,Tsangaris T,MagnantC,Liotta LA,等人.Proteomic patterns of nipple aspirate fluidsobtained by SELDI-TOFpotential for new biomarkers to aid inthe diagnosis of breast cancer.Dis Markers.2001;17301-7.
11.Vlahou A,Schellhammer PF,Medrinos S,Patel K,KondylisFI,Gong L,等人.Development of a novel proteomic approach forthe detection of transitional cell carcinoma of the bladder inurine.Am J Pathol.2001;1581491-502.
12.Patricoin EF III,Ardekani AM,Hitt BA,Levine PJ,FusaroVA,Steinberg SM,等人.Use of proteomic patterns in serum to identify ovarian cancer.The Lancet.2002;359572-577.
13.Zhang Z,Page G,Zhang H.Applying ClassificationSeparability Analysis to Microarray Data,in Proc.of CriticalAssessment of Techniques for Microarray Data Analysis(CAMDA’00),Kluwer Academic Publishers,2001.
14.Vapnik VN,Statistical Learning Theory,John Wiley&Sons,Inc.,New York,1998.
15.Efron B and Tibshirani R.Bootstrap Methods for StandardErrors,Confidence Intervals,and Other Measures of StatisticalAccuracy.Statistical Science.1986;154-75.
8.2.实施例7.生物标记BC-1、BC-2,及BC-3的鉴定材料与方法患者的样品选取并回顾地分析得自176名妇女的血清样品。这些血清是从2000年至2002年由意大利的国家癌症中心所收集并且存放在-30℃直到要使用时。所有妇女都在收集血清之前提供知情同意,血清的收集是作为IRB(内部调节委员会)所认可的研究之用。癌症群组包括32例的DCIS(36至80岁,平均值56岁)以及61例的浸润性乳癌(47例的乳管浸润,9例的小叶浸润以及5例有乳管和小叶混合)(24至84岁,平均值=56岁)。诊断是经病理证实的,且试样是在治疗之前所获得。癌症患者额外的临床信息包括ER/PR状态、Elston等级、肿瘤大小及淋巴结状态(仅在浸润性案例)。控制组包括患有各种良性乳房疾病的37名妇女,包括13例非典型者(18至77岁,平均值44岁),及46明年龄大致配对的健康妇女(44至68岁,平均值=52岁)。
SELDI蛋白质图谱使用IMAC-Ni(固定的金属亲和力捕捉)芯片数组在如前所述的相同结合以及洗涤条件下产生蛋白质图谱。简而言之,我们添加了9M的尿素45ml、2%CHAPS、50mM Tris-HCl、pH9的各个血清样品30ml。该混合物是在4℃搅拌15分钟并以pH7.4的磷酸盐缓冲盐水(PBS)进行1∶40稀释。根据制作商的说明书(Ciphergen Biosystems,CA),IMAC3芯片数组以5.0mM NiSO4活化。50ml经稀释的样品藉由使用96孔的生物处理器(Ciphergen Biosystems,CA)施加于蛋白质芯片数组上的各个点。在平台振动器上于室温结合60分钟之后,该数组以100ml的PBS洗涤二次,每次各5分钟,随后以100ml的dH2O快速的冲洗二次。在风干以后,在50%乙腈中制备0.5ml的饱和芥子酸(SPA),对每个点施加两次0.5%的三氟乙酸。所有步骤都使用Biomek 2000工作站自动化。试样在芯片数组上的配置是随机的。各个试样在三个独立的实验中重复处理和分析。结合至芯片表面上的蛋白质以PBS-II蛋白质芯片读取器(Ciphergen Biosystems,CA)检验。数据平均由80发激光以240的强度及8的探测器敏感度收集。
生物信息学及生物统计学在本研究中所用的数据分析过程包括以下步骤(a)峰检验。使用ProteinChip软件3.0(Ciphergen Biosystems,CA)收集并评估原始频谱。每组196个试样(包括176个研究血清和20个品质控制血清(quality control sera(得自Serologicals Corp,GA的汇集人类血清)))汇编、减去基线并使用多合一蛋白质标准品(Ciphergen Biosystem,CA)做外部校正。具有质荷比(m/z)介于2K及150K之间的合格质量峰(目视检验)是手动选取。将峰强度常态化至具有同样外部系数的总离子流,其m/z介于2.0kD及150kD之间,并将该等數據汇出至Excel窗体。
(b)再现性的评估复制的再现性是由计算每对复制相关性并如字汇集的人类血清中计算来计算所述三个报导的峰的CV。如果没有观察到系统性的偏见,对在复制中所鉴定出的峰强度取平均且接着作对数转换。
(c)标记评估。二样品t测试及接收者操作特征(ROC)曲线分析(在MATLAB中执行内部软件,6.0版)执行所选生物标记的评估。
蛋白质鉴定根据个别的生物化学特性使用一系列的蛋白质分离程序(包括阴离子交换、尺寸排斥(size exclusion),及反相层析法)进行蛋白质纯化,再接着SDS-PAGE分离。为了监控纯化程序,健康控制组样品与癌症样品平行处理。在各次重复(iteration)期间,在蛋白质芯片数组上解析新片段的图谱以监控感兴趣的生物分子有否出现。含有目标蛋白质的胶体条带藉由所洗脱的蛋白质的芯片分析而鉴定,并以ASP-N消化。在PBSII蛋白质芯片读取器上得到胜肽指纹图谱。使用该蛋白质分解片段的质量以ProFound算法搜寻数据库。为了确认,含有蛋白质水解片段的NP20数组的分析是使用配备有蛋白质芯片数组接口(Ciphergen)的PE SciexQstar(Concord,Canada)藉由碰撞引致的解离(collision-induced dissociation)来进行。使用UCSFProteinProspector MS-Tag程序进行蛋白质鉴定。
CA15-3CA15-3的值是使用IRMA-mat CA 15-3测定(Byk-SangtecDiagnostica Dietzenbach-Germany)。
由SELDI评估BC-1、BC-2及BC-3
总计71个峰丛集手动选择在2KD至150KD的质量区域者。三个独立的SELDI实验的再现性是利用相关分析来评估。在复制之间的相关系数(r)是0.885(复制1对于2),0.893(复制1对于3)及0.865(复制2对于3)。既然介于复制对之间没有鉴定出系统偏差,在各个M/Z值的平均峰强度用于更进一步的分析。BC-1(4.3KD)、BC-2(8.1KD)及BC-3(8.9KD)的对数转换峰强度的预估CV分别为0.172、0.117,及0.156。
为达比较的目的,显示在两组数据的BC-1、BC-2及BC-3。与我们之前的结果一致,在癌症中BC-2及BC-3的程度是上升的,包括DCIS(第10及11图)。然而,之前在癌症中发现的程度是很低的BC-1,在目前数据中的癌症组群是上升的。因此BC-1表现是不稳定的。
实施例3.蛋白质鉴定与SELDI评估平行,我们量定所述三个标记的蛋白质鉴定。
m/z为4.3KD的BC-1,鉴定出来是人类的α间胰蛋白酶抑制剂的片段,重链H4(在本文中亦称为″ITIH4″、″IAIH4,或″PK-120″)。
m/z为8.1KD的BC-2,是C3a-desArg的截短型(在本文中亦称为C3a-desArg-8.1或C3a-desArgΔ8)。C3a-desArgΔ8的胺基酸序列是SVQLTEKRMDKVGKYPKELRKCCEDGMRENPMRFSCQRRTRFISLGEACKKVFLDCCNYITELRRQHA(SEQ ID NO2)。这个型式的理论分子量为8132道耳吞,且预计pI值是9.38。
m/z为8.9KD的BC-3,经鉴定为C3a-desArg。蛋白质鉴定的程序和结果显示在图18至19。C3a-desArg的胺基酸序列是SVQLTEKRMDKVGKYPKELRKCCEDGMRENPMRFSCQRRTRFISLGEACKKVFLDCCNYITELRRQHARASHLGLA,如SEQ ID NO1所提出。它的预计分子量是8923道耳吞,与测量的质量8926道耳吞一致,且预计的pI值是9.54,与在pH9.0时它不能与阴离子交换树脂结合的结果是一致的。
BC-2及BC-3的鉴定进一步的使用单株抗体拮抗C3a藉由免疫捕捉证实(图12)。同样地,BC-1是由抗ITIH4抗体所捕捉。
使用在芯片上的免疫分析独立地确认BC-2及BC-3随机地选取血清样品中的小型子群(10例正常、9例良性,10例DCIS以及10例浸润性者)做为使用抗C3a抗体的IP下拉(IP pull down)实验之用。在癌症与非癌症群组中被捕捉的C3a-desArg和C3a-desArg-8.1的分布与SELDI结果(图13和14)是一致的。
4.6KD的ITIH4片段(ITIH4片段1b;BC-1b)在两群中与在癌症中的下调一致。
ITIH4经剧烈的处理(heavily processed),且在血清中观察到数个IHIH4片段。为了调查BC-1分布的不一致是否由于不稳定性导致,我们亦评估全长ITIH4的分布,以及各种的处理中的产品。
发现4.6KD的片段在两群中都是在癌症中下调,如在第15图所描绘的散点图显示。蛋白质鉴定的构形显示在第16图。
评估生物标记和CA15-3的诊断表现虽然仅推荐作为晚期乳癌的治疗或复发的监控,CA15-3及CA27.29是由食品药物管理局所批准测验乳癌的二个主要所用的血清肿瘤标记试验{Chan DW,2001#46}。为了调查CA15-3在本研究群中是否具有任何区辨能力,我们使用IRMA-mat CA 15-3(Byk-Sangtec DiagnosticaDietzenbach -Germany)测量血清CA15-3的量。在176个所试验的研究血清中,使用30unit/ml为截切值仅5个(均得自浸润性癌症患者)测试结果为正向。在健康控制组、良性、DCIS及浸润性癌症组群(数据未显示)并未观察到显著的不同。CA15-3在乳癌的检验是效果不佳的。就ROC分析而论所评估的三个生物标记的诊断表现呈现在第17图。在确认数据中BC-2、BC3、4.6在曲线下的面积分别是0.65、0.70,及0.68。
咸理解本文所述的实施例和具体实例仅为了达到说明的目的,按照该等实施例所做的各种调整或改变将是在此技艺中具通常技术之人所能联想且包括在本文的精神、本申请案的范围以及所附的权力要求范围中。本文所引用的所有出版品、专利,以及专利申请案为所有目的都以参考文献方式全文并入至本文中。
高通量的蛋白质表现的测量的技术发展使得有可能大规模的比较临床试样的蛋白质表现模式。然而,在大量生物变化性出现中筛选出真正与特定疾病进程有关的新的诊断性标记,以及由预分析性(pre-analytical)和分析性变因所造成的数据偏差,仍然是具有挑战性的任务。
在先前的研究中,我们使用SELDI及PoteinChip数组分析169个患有乳癌或没有乳癌的患者的血清蛋白样品图谱。使用ProPeak选取具有对患有乳癌与没有乳癌群最适分离有显著贡献的蛋白质/胜肽,ProPeak是发展作为DNA数组及蛋白质数组数据分析的内部软件包{Zhang,2001#176}。为了避免选取其高分辨能力纯粹是偶然由在数据中与疾病进程无关的赝影所造成的错误标记,在我们的数据分析中采取数个步骤。首先,ProPeak拔靴模块在多次操作下引入随机扰动(random perturbation)并使用经平均的峰排序以提供峰区辨能力更可靠的估计值{Efron,1986#178}。其次,为了在峰的标准差排序上建立对其表现不认为是纯粹偶发的截切值的上界,应用同样的拔靴程序以随机产生模拟真实数据的分布的数据组。得自「模拟的峰」的标准差排序的最小值表示由于随机的机会所可能达到的峰的一致的程度。该最小值是用作为减少原始的147个峰的截切值,所述的减少是为了将其表现应最不可能是由于在数据内的赝影所造成的15个排列最前的峰形成子集。所述的3个最显著的区辨者,也就是BC-1、BC-2和BC-3在该经缩减的频谱峰组中使用向后逐步选择法进一步选取。尽管我们采取数个步骤以减少由分析性变因所造成的错误标记,但既然本研究并不具有完全独立的试验组,所述3个标记的正确性仍是有限的。该所选取的标记的区辨力可能仍与特定预分析偏差有关,诸如在收集程序中或不同诊断组群储存条件中的差异。为针对此议题,以及评估所述标记对检验乳癌的早期型式,我们使用由合作机构所独立收集的DCIS血清对该等标记进行试验。尽管我们不可排除在两组中都有同样的预分析偏差出现,但这个机会应该是非常低的。
总结来说,我们使用由独立来源所收集的血清评估3个血清生物标记对乳癌早期检测的表现。虽然有数屏的生物标记已报导为针对各种疾病的检测,其使用SELDI及ProteinChip数组{Adam,2002#171;Adam,2003#22;Clarke,2003#116;Koopmann,2004#78;Li,2002#137;Paweletz,2001#36;Petricoin,2002#170;Rosty,2002#143;Vlahou,2003#48;Vlahou,2001#174;Vlahou 2003#90}{Li,2004#346},这到目前为止是第一个使用独立测试组的确认性研究(validation study)。然而目前确认为乳癌的血清肿瘤标记诸如CA15-3在乳癌的早期检测仍然效果不彰,此评的生物标记具有区辨早期乳癌对健康控制组的潜能。
权利要求
1.一种鉴定受试者乳癌状态的方法,包括(a)测量得自该受试者的生物样本的至少一个生物标记,其中至少一个生物标记是选自表1的生物标记所组成的组群;以及(b)联系该测量结果和乳癌状态的关联性。
2.如权利要求1所述的方法,其中至少一个生物标记是选自由下列者所组成的组群ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg。
3.如权利要求1所述的方法,包括测量以下各者ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg。
4.如权利要求3所述的方法,进一步包括量测CA15-3。
5.如权利要求1、2或3中任一权利要求所述的方法,其中该至少一个生物标记是通过捕捉在SELDI探针的吸附物表面上的生物标记,且通过激光解吸离子化质谱分析技术检测该捕捉的生物标记而测量。
6.如权利要求1、2或3中任一权利要求所述的方法,其中至少一种生物标记是以免疫测定所测量的。
7.如权利要求6中所述的方法,其中至少一个生物标记是使用对至少一个生物标记有专一性的抗体所检测。
8.如权利要求1、2或3中任一权利要求所述的方法,其中至少一个生物标记是使用除了质谱以外的方法所检测。
9.如权利要求1、2或3中任一权利要求所述的方法,其中的样本是血清。
10.如权利要求1、2或3中任一权利要求所述的方法,其中该关联是由分类算法软件所执行。
11.如权利要求1、2或3中任一权利要求所述的方法,其中的乳癌状态是选自乳癌或非乳癌。
12.如权利要求1、2或3中任一权利要求所述的方法,其中的乳癌状态是选自非浸润性乳癌或浸润性乳癌。
13.如权利要求1、2或3中任一权利要求所述的方法,进一步包括(c)基于受试者的状态来进行受试者的治疗。
14.如权利要求5所述的方法,其中该吸附物是IMAC-Ni吸附物。
15.如权利要求5所述的方法,其中该吸附物是生物专一性吸附物。
16.如权利要求15所述的方法,其中该生物专一性吸附物包括抗体。
17.如权利要求11所述的方法,其中如果该测量结果与乳癌有关联,则对该受试者进行的治疗包括对该受试者投予化学治疗药剂或对该受试者进行辐射。
18.如权利要求11所述的方法,进一步包括(d)在受试者的进行治疗之后测量至少一个生物标记,并将该测量结果和疾病进程关联。
19.一种包括在得自受试者的样本测量至少一种生物标记的方法,其中至少一种生物标记是选自由表1的生物标记所组成的组群。
20.如权利要求19所述的方法,其中至少一种生物标记是选自由下列者所组成的组群ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg。
21.一种如权利要求19所述的方法,包括测量以下生物标记各者ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg。
22.如权利要求21所述的方法,进一步包括测量CA15-3。
23.如权利要求19、20或21中任一权利要求所述的方法,其中该生物标记是通过捕捉在SELDI探针的吸附物表面上的生物标记,且通过激光解吸离子化质谱分析技术检测所捕捉的生物标记而测量。
24.如权利要求19、20或21中任一权利要求所述的方法,其中的样本是血清。
25.如权利要求23所述的方法,其中该吸附物是IMAC-Ni吸附物。
26.如权利要求23所述的方法,其中该吸附物是生物专一性吸附物。
27.如权利要求26所述的方法,其中该吸附物包括抗体。
28.一种试剂盒,包括(a)一个固态支持体,包括至少一种附连于其上的捕捉试剂,其中该捕捉试剂键结至由表1的生物标记所组成的第一组群的至少一个生物标记;以及(b)使用该固态支持体以检测表1的生物标记的说明书。
29.如权利要求28所述的试剂盒,包括使用该固态支持体检测选自由下列者所组成的组群的生物标记的说明书ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg。
30.如权利要求28所述的试剂盒,包括使用该固态支持体检测下列生物标记的各者的说明书ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg。
31.如权利要求30所述的试剂盒,进一步包括使用该固态支持体以检测CA15-3的说明书。
32.如权利要求28、29或30中任一权利要求所述的试剂盒,其中包括捕捉试剂的该固态支持体是SELDI探针。
33.如权利要求28、29或30中任一权利要求所述的试剂盒,其中该捕捉试剂是抗体。
34.如权利要求28、29或30中任一权利要求所述的试剂盒,额外包括(c)包含至少一种表1的生物标记的容器。
35.如权利要求28、29或30中任一权利要求所述的试剂盒,额外包括(c)IMAC-Ni层析法吸收物。
36.一种试剂盒,包括(a)一个固态支持体,包括至少一种附连于其上的捕捉试剂,其中该捕捉试剂键结至由表1的生物标记所组成的第一组群的至少一个生物标记;以及(b)含有至少一个该生物标记的容器。
37.如权利要求36所述的试剂盒,其中该容器含有选自由下列者所组成的组群的至少一种生物标记ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg。
38.如权利要求36所述的试剂盒,其中该容器含有下列各个生物标记ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg。
39.如权利要求38所述的试剂盒,其中该容器进一步包含CA15-3。
40.如权利要求36、37或38中任一权利要求所述的试剂盒,其中包括捕捉试剂的该固态支持体是SELDI探针。
41.如权利要求36、37或38中任一权利要求所述的试剂盒,额外包括(c)IMAC-Ni层析法吸收物。
42.如权利要求36、37或38中任一权利要求所述的试剂盒,其中该捕捉试剂是IMAC-Ni吸收物。
43.一种软件产品,包括(a)存取归因于样本的数据的程序代码,所述的数据包括在样本中的至少一种生物标记的测量结果,该生物标记是选自由表1的生物标记所组成的组群;以及(b)运算分类算法的程序代码,所述的分类算法以测量结果的函数来分类乳癌的状态。
44.一种如权利要求43所述的软件产品,其中的分类算法以选自由下列者所组成组群的生物标记的测量结果的函数来分类乳癌的状态ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg。
45.一种如权利要求43所述的软件产品,其中的分类算法以下列各个生物标记的测量结果的函数来分类乳癌的状态ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg。
46.一种如权利要求45所述的软件产品,其中该分类算法进一步以CA15-3测量结果的函数来分类乳癌的状态。
47.一种选自表1的生物标记的纯化的生物分子。
48.一种包括通过质谱或免疫测定来检测表1的生物标记的方法。
49.一种包括向受试者传递诊断的方法,所述的诊断是关于由得自该受试者的样本中的生物标记的相关性所判定的乳癌状态,其中所述的生物标记是选自下列者所组成的组群ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg2。
50.一种如权利要求49所述的方法,其中所述的诊断是通过计算机形成的媒介来向受试者传递。
51.一种确认与选自由下列者所组成组群的生物标记相互作用的化合物的方法ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg,其中所述的方法包括(a)将生物标记与试验化合物接触;以及(b)判定该试验化合物与该生物标记是否有相互作用。
52.一种在细胞中调节选自下列者所组成组群的生物标记的浓度的方法ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)、C3a-desArgΔ8或C3a-desArg,其中所述的方法包括(a)将所述的细胞与试验化合物接触,其中所述的试验化合物避免ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)或C3a-desArgΔ8的断裂。
53.一种治疗受试者状态的方法,其中所述的方法包括对该受试者给予治疗有效量的化合物,其中所述的化合物避免ITIH4片段1(BC-1)、ITIH4片段1b(BC-1b)或C3a-desArgΔ8的断裂。
54.一种如权利要求53所述的方法,其中所述的状态是乳癌。
全文摘要
本发明提供以蛋白质为基础的生物标记及生物标记的组合,该等生物标记及组合是对于鉴定患者乳癌的状态是有用的。明确言之,本发明的生物标记是对将受试者的样品分类成乳癌或非乳癌之癌症。该等生物标记可用SELDI质谱技术检测。
文档编号A01N37/18GK101087889SQ200580039464
公开日2007年12月12日 申请日期2005年9月16日 优先权日2004年9月17日
发明者J·李, C·N·怀特, Z·张, D·W·尚, E·T·冯, X-Y·孟 申请人:约翰·霍普金斯大学, 赛弗吉生物系统公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1