诊断肝癌转移或发病可能性及鉴定治疗靶点的方法

文档序号:6410524阅读:1822来源:国知局
专利名称:诊断肝癌转移或发病可能性及鉴定治疗靶点的方法
相关申请的交叉引用关系该申请要求2002年4月5日提交的美国临时专利申请No.60/370,895的优先权,此申请的全部内容被引入本文作为参考。
对联邦政府资助的研究或开发下完成的发明的权力声明本发明归美国政府(以健康及人类服务部秘书为代表)所有。
背景技术
肝细胞癌(HCC)是世界范围内最常见和最具侵入性的恶性肿瘤之一,治愈率低于5%。死亡率高的主要原因在于癌细胞在肝内出现转移。人们对有关肝内转移的分子机制或此类病人的特异性治疗靶点知之甚少。
在过去的十年内,许多技术使得监测在任一时间点的大量转录子(transcripts)的表达水平成为可能(见例如,Schena等人,Science 270467-470,1995;Lockhart等人,NatureBiotechnology 141675-1680,1996;Blanchard等人,Nature Biotechnology 141649,1996;和美国专利No.5,569,588)。对于已经知道完整基因组的生物体而言,分析细胞内所有基因的转录子是可能的。对于其他生物体,如人,随着对人类基因组信息的逐渐了解,有可能在细胞内同时监测大量的基因。这些监测技术一般应用于鉴定在不同病理或生理状态下上调或下调的基因,应用于分析传递细胞状态信号的成员,以及应用于鉴定各种药物靶点。
本发明人分析了HCC组织中9180个基因的表达,病理组织来自伴随有肝内癌细胞转移或没有伴随转移的40个病人。使用监督机器学习算法(supervised machinelearning algorithm)对病人的基因表达特征进行分类,已经首次产生一分子信号特征(signature),该信号特征可以正确地将转移病人和非转移病人分类,而且已经鉴别出了与预后(包括病人存活率)密切相关的一些基因。伴有转移的原发HCCs病灶的基因表达信号与相应转移病灶的基因表达信号非常相似,这表明有利于扩散的基因在原发肿瘤内已启动。而且在伴有肝内转移的原发性HCC内,骨桥蛋白过度表达,并且体外侵入实验表明,抗骨桥蛋白的中和抗体可阻止高转移性肝癌细胞的侵入。这些资料表明,骨桥蛋白既可以用于诊断,又可以作为转移性HCC的治疗靶点。
该研究对肿瘤样品中9180个基因的表达进行了分析,样品来自54个HCC患者的肿瘤组织和59个有严重肝病(含高度危险发展为HCC和低度危险发展为HCC两类)但未癌变的肝脏组织。高危组包括乙肝、丙肝、血色病和Wilson氏病患者。低危组包括酒精性肝病、自身免疫性肝炎和原发性胆汁性肝硬化。高危组和低危组之间基因表达水平的比较已鉴别出一组重要的基因,可以用这些基因来对高危组和低危组进行区分。用来自HCC样品的表达数据对这组显著基因进行过滤,已识别出具有多重HCC相关分子特征的且可用于样品分类的亚组基因。此外,EpCAM作为最显著基因之一,其过度表达与严重肝病患者继发HCC的危险性呈正相关,抑制其表达可使HCC细胞生长受抑制。因此,EpCAM是预测发展为HCC危险性的诊断标志,同时也是阻止慢性肝病患者发展为HCC的治疗靶点。
发明概述本发明一方面涉及一种方法,该方法对于HCC患者而言,可以鉴定抑制转移的潜在治疗靶点;对于慢性肝病患者而言可以阻止发展成为HCC。
一种鉴定抑制HCC患者转移的潜在治疗靶点的方法,包括以下步骤a)将来自转移性HCC患者的样品与包含针对一组细胞标志物的捕获试剂的芯片接触;b)从样品中捕获标志物并产生第一个信号;c)用非转移的HCC患者的样品重复步骤a)和步骤b)从而产生第二信号;d)比较第一和第二信号,从而鉴定出第一信号和第二信号的水平不同的细胞标志物亚组,此亚组的细胞标记物就是治疗HCC转移的潜在治疗靶点。在某些具体实施例中,在步骤b)和步骤c)中扣除正常非癌组织样品在芯片(与步骤a)的芯片相同)上所产生的信号,从而产生第一和第二信号。
一种鉴别防止慢性肝病患者发展为HCC的潜在治疗靶点的方法,包括以下步骤a)将来自HCC高危的慢性肝病患者的样品与包含针对一组细胞标志物的捕获试剂的芯片接触;b)从样品中捕获标志物并产生第一个信号;c)用HCC低危的慢性肝病患者样品重复步骤a)和步骤b),从而产生第二信号;d)比较第一和第二信号,从而鉴定出第一信号和第二信号的水平不同的细胞标志物亚组,此亚组的细胞标记物就是防止慢性肝病患者发展为HCC的潜在治疗靶点。在某些具体实施例中,在步骤b)和步骤c)中扣除正常非癌组织样本在芯片(与步骤a)的芯片相同)上所产生的信号,从而产生第一和第二信号。
本发明另一方面涉及预测HCC患者转移可能性或预测慢性肝病患者发展为HCC的危险性的方法。
一种预测HCC患者癌转移可能性的方法,包括下述步骤a)将来自转移性HCC患者的样品与包含针对一组细胞标志物的捕获试剂的芯片接触,这组细胞标志物包括从表2基因中独立选出的至少10个基因或基因所编码的蛋白;b)从样品中捕获标志物;c)从步骤b)的被捕获标志物中产生第一信号;d)用非转移的HCC患者的样品重复步骤a)至步骤c)从而产生第二信号;e)用不明确有无转移可能的HCC患者样品重复步骤a)至步骤c)从而产生第三信号;f)将第三信号和第一、第二信号进行比较,从而明确步骤e)的HCC患者是否有转移可能。在某些具体实施例中,进行上述实验的细胞标志物包括至少20个,较佳地50,更佳地100,最佳地全部的基因或由基因编码的蛋白,这些基因从表2中独立选出。在其他具体实施例中,这组细胞标志物包括来自表4的基因或基因所编码的蛋白,或编号为Hs.313、Hs.69707、Hs.222、Hs.63984、Hs.75573、Hs.177687、Hs.69707、Hs.222、Hs.323712、和Hs.63984的单基因(Unigene)。较佳地,步骤a)、b)、d)、e)所用样品最好为肝组织抽提物。在一优选例中,步骤a)的芯片是基因组芯片。在另一优选例中,步骤a)的芯片是蛋白组芯片。
一种预测慢性肝病患者发展为HCC的危险性的方法,包括以下步骤a)将来自HCC高危的慢性肝病患者的样品与包含针对一组细胞标志物的捕获试剂的芯片接触,这组细胞标志物至少包括10个基因或基因所编码的蛋白(由表5基因中独立选出);b)从样品中捕获标志物;c)从步骤b)被捕获的标志物中产生第一信号;d)用HCC低危的慢性肝病患者样品重复步骤a)至步骤c)从而产生第二信号;e)用不明确有无HCC危险的慢性肝病患者样品重复步骤a)至步骤c)从而产生第三信号;f)将第三信号和第一、第二信号进行比较,从而确定步骤e)的患者发展为HCC的危险性。在某些具体实施例中,进行上述实验的细胞标志物包括至少20、较佳地50、更佳地100、最佳地全部的基因或基因所编码的蛋白,这些基因从表5中独立选出。有时,细胞标志物来自表6或表7的基因或基因所编码的蛋白。较佳地,步骤a)、b)、d)、e)所用样品为肝组织抽提物。在一优选例中,步骤a)的芯片是基因组芯片。在另一优选例中,步骤a)的芯片是蛋白组芯片。在某些实施例中,有高度危险发展为HCC的病人患乙肝感染、丙肝、血色病和Wilson氏病。在另一些例子中,发展为HCC危险性较低的病人患有酒精性肝病、自身免疫性肝炎和原发性胆汁性肝硬化。在另一些例子中,待评估患HCC的危险度的病人患有乙肝、丙肝、血色病、Wilson氏病、酒精性肝病、自身免疫性肝炎或原发性胆汁性肝硬化。
本发明的另一方面涉及抑制HCC患者癌转移的方法和抑制慢性肝病患者发展为HCC的方法。抑制HCC患者癌转移的方法包含步骤抑制OPN的活性。在某些实施例中,可通过抑制OPN的表达来抑制OPN的活性,较佳地是采用OPN特异的反义多核苷酸。此外,可通过抑制OPN与其受体间的特异性结合来抑制OPN的活性,较佳地是采用抗OPN抗体。防止慢性肝病患者发展为HCC的方法包括步骤抑制EpCAM的活性。在某些实施例中,可通过抑制EpCAM的表达来抑制EpCAM的活性,较佳地是采用EpCAM特异的反义多核苷酸或者小的干扰性RNA。此外,可通过抑制EpCAM与其受体间的特异性结合来抑制EpCAM的活性,较佳地是采用抗EpCAM抗体。
本发明的再一方面涉及用于评估HCC患者癌细胞转移可能性或评估慢性肝病患者发展为HCC危险性的计算机可读介质、数字式计算机和系统。
评估HCC患者癌细胞转移可能性的计算机可读介质包括a)第一数据集的代码,该数据集来源于第一信号,该信号来自与转移性HCC患者的样品接触的芯片,所述芯片包含针对一组细胞标志物的捕获试剂,这组细胞标志物包括至少10个基因或基因所编码的蛋白(由表2基因中独立选出);b)第二数据集的代码,该数据集来源于第二信号,该信号来自与非转移性HCC患者的样品接触的芯片,所述芯片与a)的芯片相同;c)第三数据集的代码,该数据集来源于第三信号,该信号来自与未知转移的HCC患者的样品接触的芯片,所述芯片与a)的芯片相同;d)将第三数据集与第一和第二数据集进行比较的代码。还提供了一种数字式计算机,它包含用来评估HCC患者癌细胞转移可能性的所述计算机可读介质。还提供了一个系统,它包括这样的数字式计算机、包含针对一组细胞标志物(所述标志物包括从表2基因中独立选出的至少10个基因或基因所编码的蛋白)的捕获试剂的阵列的芯片和能在与样品接触后从芯片上读取信号的阅读器。
评估慢性肝病患者发展为HCC危险的计算机可读介质包括a)第一数据集的代码,该数据集来源于第一信号,该信号来自与患慢性肝病且HCC高危的患者的样品接触的芯片,所述芯片包含针对一组细胞标志物的捕获试剂,这组细胞标志物包括至少10个基因或基因所编码的蛋白(由表5基因中独立选出);b)第二数据集的代码,该数据集来源于第二信号,该信号来自与慢性肝病且HCC低危的患者的样品接触的芯片,所述芯片与a)的芯片相同;c)第三数据集的代码,所述数据集来源于第三信号,该信号来自与慢性肝病且发展为HCC的危险度未知的患者的样品接触的芯片,所述芯片与a)的芯片相同;d)将第三数据集和第一和第二数据集进行比较的代码。还提供了数字式计算机,它包含用来评估慢性肝病发展为HCC的危险性的所述计算机可读介质。还提供一个系统,它包括这样的数字式计算机、包含针对一组细胞标志物(所述标志物包括从表5基因中独立选出的至少10个基因或基因所编码的蛋白)的捕获试剂的阵列的芯片和能在与样品接触后从芯片上读取信号的阅读器。
定义除非另有说明,此处所用科学和技术术语为该发明所属领域专业人士通常所理解的意义。下述文献提供了本发明中所用许多术语的一般定义Singleton等人,Dictionary of Microbiology and Molecular Biology(第2版,1994);The CambridgeDictionary of Science and Technology(Walker ed.,1988);The Glossary of Genetics,第5版,R.Rieger等人(eds.),Springer Verlag(1991);和Hale & Marham,The Harper CollinsDictionary of Biology(1991)。如本文所用,除非另有说明,下列术语具有其所属的含义。
如本文所用,术语“肝细胞癌”或“HCC”指占原发性肝癌的90%以上的主要类型的肝癌。肝癌细胞状态包括从高度分化的到高度退行性变而未分化的损伤。肝癌可以为单病灶肝内病变(非转移的)、多发性肝内转移或肝外转移。
“癌前高危疾病”指一组流行病学定义的疾病,这些疾病有高度危险发展为HCC。这些疾病包括慢性乙肝、丙肝、血色病和Wilson氏病。
“癌前低危疾病”指一组流行病学定义的疾病,这些疾病有低度危险发展为HCC。这些疾病包括酒精性肝病、自身免疫性肝炎和原发性胆汁性肝硬化。
术语“转移”或“转移的”指单个癌细胞浸润(侵入)周围组织、进入循环系统和在新的部位恶性增生的能力。
“非转移”指肿瘤未扩散到原发病灶以外,而且具体地指其未进入循环系统并在新的部位恶性增生。
术语“非癌”指一生物学或组织样品,其中的细胞呈正常或非病理形态,可采用肉眼、通过显微镜、免疫组织学、免疫学或应用检测病理状况的抗体或核酸探针在分子水平上进行分析。
术语“正常”指从未患HCC、高危癌前疾病、低危癌前疾病任一种病的个体采集而来的生物学样品或组织样品。
术语“捕获试剂”指任一能与特异性核酸或蛋白标志物结合的物质。典型地,可通过结合过程中的条件来控制具有标志物与捕获试剂的结合。如,核酸标志物与寡核苷酸的结合可被所用的杂交条件控制。严格的杂交条件仅允许有高度同源性(如与寡核苷酸有95%-100%的同源性)的核酸标志物与寡核苷酸结合。
“阵列”指结合于基片(如固相支持物)的多个捕获试剂,这些捕获试剂能结合于相关的标志物。例如,阵列可以由核酸分子、蛋白分子或其它试剂组成,可以特异性地结合从生物学样品中分离的核酸、蛋白或多肽。捕获试剂优先以可寻址方式结合,这样当相关标志物结合于捕获试剂时,可确定结合量。
“DNA微阵列”指捕获试剂是核酸分子的阵列。典型地,DNA阵列由一定长度的DNA寡核苷酸组成,在一定条件下能与DNA、cDNA或RNA分子杂交。DNA寡核苷酸可以是15~50碱基的短片段核苷酸,也可以是为500~1000碱基或更长片段的核苷酸。DNA微阵列可以由数百或数千个不同的核酸分子组成,每个核酸分子在阵列上处于固定的位置。当标志物被可检测分子标记后,标志物与DNA微阵列的结合通常可以被定量。术语DNA微阵列与术语“基因组阵列”可互换使用。
“蛋白质阵列”指捕获试剂能结合蛋白质标志物的阵列。典型地,捕获试剂为多克隆或单克隆抗体,可以与特异的蛋白质结合。换句话说,可以特异性结合蛋白的任何蛋白、多肽、核酸或其他分子或表面都可以被应用于蛋白阵列中。这些阵列通常包括数百或数千个位于可寻址区域的不同捕获试剂。当标志物被可检测分子标记后,蛋白质阵列上的捕获试剂与标志物的结合通常被定量。术语蛋白质阵列与术语“蛋白质组阵列”可互换使用。
“基因表达谱”指与标准样品比较,所有在组织样中表达的基因。基因表达谱中基因的表达水平,可通过比较标准样品和待检样品如HCC肿瘤样品或严重肝病患者样品的表达水平而确定。用于确定HCC肿瘤转移可能性的标准样品,为非癌肝脏组织或者为未诊断为HCC的病人的肝脏组织。用于确定严重肝病患者发展为HCC可能性的标准样品,为未诊断为严重肝病的病人的肝脏组织。与标准样品相比,待检样品中的基因可能过表达或低表达。
“转移性基因表达预测子(predictor)”指与转移性HCC的诊断相关的一簇特异基因的表达。转移性基因表达预测子可这样得出比较非转移HCC样品和和转移的HCC样品的基因表达谱,继而运用一个明确的运算法则或一组运算法则进行聚类分析和分类分析。基因数可随所用的聚类运算法则或运算法则中的参数(如p-水平=0.001vs.0.022)而变动。
“HCC基因表达预测子”指与诊断可能发展为HCC的患者相关的一簇特异基因的表达。HCC基因表达预测子可这样得出比较有发展为HCC高危的病人的非转移性肝脏样品与有发展为HCC低危的病人的非转移性肝脏样品的基因表达谱,继而运用一个明确的运算法则或一组运算法则进行聚类分析和分类分析。基因数可随所用的聚类运算法则或运算法则中的参数(如p-水平=0.001vs.0.022)而变动。
表2-7所用“UG簇”指由国家生物信息中心(NCBI)编辑的UniGene数据库。UniGene数据库中的每个登录号是所有核苷酸和氨基酸序列数据的汇编,可用于一特定的核酸序列。如,每个UG簇登录号可提供与GeneBank或其他数据库的链接,后者会提供编码基因的部分或全长cDNA的核苷酸序列。换句话说,链接可以提供基因组或EST序列资料或氨基酸序列信息。每个UG簇登录号为所鉴定的特定基因、核酸或氨基酸序列提供独一无二的序列信息。
“骨桥蛋白”指由SEQ ID NO1编码的分泌型磷蛋白质或者其保守变异物,其Genebank登录号为NM_000582。在NCBI的UniGene数据库也可找到它的核酸和氨基酸序列信息,它在NCBI网址上的登录号为Hs.313。NCBI网址列出了9个mRNA/基因组DNA序列和900以上的表达序列标签(EST)。骨桥蛋白是一胞外蛋白,与骨基质和动脉粥样硬化斑块相关。全长的骨桥蛋白包括一个RGD氨基酸序列,该RGD氨基酸序列是整联蛋白的结合位点。骨桥蛋白是玻联蛋白受体的主要配体。“OPN”可与骨桥蛋白互换使用,都指蛋白、编码蛋白的基因或其片段。
“EpCAM”为一种40kDa的糖蛋白,功能是上皮细胞粘附分子。被确定为与肿瘤的钙离子信号转导物(也称为TACSTD1),UniGene簇登录号为Hs.692,EpCAM由基因GA733-2编码,该基因位于人类染色体4q上。EpCAM是在上皮来源的细胞中表达的跨膜蛋白,可介导不依赖于钙离子的同型细胞之间的粘附,能被许多已知的单克隆抗体特异识别,如17-1A、323/A3、KS1/4、GA733、MOC31等。
本发明中的术语“标志物”指编码多肽(有特定的表观分子量)的核酸序列或基因,其在转移性HCC患者或易患HCC个体样品中与对照个体(如非转移性HCC患者、未诊断为癌症或未检测出癌症的个体,正常或健康人)的相应样品中是差异性存在的。标志物也可以指由核酸序列或基因编码的多肽或蛋白质,其在转移性HCC患者或易患HCC个体样品中与对照个体(如非转移性HCC患者、未诊断为癌症或未检测出癌症的个体,正常或健康人)的相应样品中是差异性存在的。本发明中的标志物包括下文表2-7中有UG簇登录号的基因和其编码的蛋白质。
如本文所用,术语“样品”指生物学组织或组织液样品,它们可用于确定基因表达谱、标志物的来源、或包含有关蛋白(如骨桥蛋白或EpCAM)或编码该蛋白的核酸。这样的样品包括(但并不限于)从人体分离来的各种类型的组织,也可以包括组织切片如冷冻切片或石蜡切片。组织包括肝脏样品和体液样品(血、血清、血浆、尿以及其他体液。本发明所用的优选样品是从感兴趣组织(如肝脏)抽提得到的细胞溶解产物,这样的细胞溶解产物可本领域技术人员熟知的各种方法制备,这取决于待检测和检查的细胞标志物的形式,如作为核酸(如mRNA)、蛋白或具有其他可检测生物特性(如酶活性)的分子。
对于分析测定那些具有调节象骨桥蛋白或EpCAM等重要蛋白生物活性的化合物而言,上下文提到的术语“功能效应”应该包括测定间接或直接地受OPN或EpCAM影响的相关参数,例如编码蛋白的mRNA水平、蛋白水平和它们在功能上的,以及物理和化学的效应(例如它们与其天然结合物,例如其他蛋白、核酸或其他分子,进行特异性相互作用的能力;以及它们调节信号转导引起细胞的一系列活动的能力,例如细胞增值、分化、凋亡、分泌、粘连等)。
“核酸”指的是脱氧核糖核酸或者是核糖核酸及其聚合物,可以是单链或是双链形式。这个术语应该包括有含已知核酸类似物的核酸或基本骨架残基被修饰过的核酸或是作为联接物的核酸,它们可以是合成的、自然存在的以及非自然存在的,与对照核酸相比,它们拥有相似的结合特性,并且以类似于对照核苷酸的方式被代谢。这些类似物的例子有硫代磷酸酯、氨基磷酸酯、甲基膦酸酯、手性的甲基膦酸酯、2-O-甲基核糖核苷酸、肽核酸(PNAs)。该术语还包括从生物标本中分离获得的核酸以及人工合成的寡核苷酸。
除非另外说明,一个特定的核酸序列也隐含地包含其保守修饰的核酸变异体(例如简并密码子取代)以及它们的互补序列,还包括明示的序列。具体地,简并密码子的取代可以通过生成序列而获得,在该生成的序列中,一个或多个选定的(或全部)密码子的第三个位置被混合碱基和/或脱氧肌苷残基所取代(Batzer等人,Nucleic AcidRes.195081,1991;Ohtsuka等人,J.Biol.Chem.2602605-2608,1985;Rossolini等人,Mol.Cell.Probes 891-98,1994)。核酸这一术语可与基因、cDNA、mRNA、寡核苷酸及多核苷酸互换使用。
术语“多肽”、“肽”及“蛋白”在本文可互换使用,指氨基酸残基的聚合物。该术语可指这样的氨基酸聚合物,其中一个或多个氨基酸残基是对相应天然存在氨基酸的人工化学模拟物,还可指天然存在的氨基酸聚合物和非天然存在的氨基酸聚合物。
术语“氨基酸”指的是天然存在的及人工合成的氨基酸,以及与天然存在的氨基酸发挥相同作用的氨基酸类似物和氨基酸模拟物,。天然存在的氨基酸是由遗传密码编码的氨基酸和那些后来被修饰的氨基酸,例如羟基脯氨酸,γ-羧基谷氨酸和O-磷酸丝氨酸。氨基酸类似物指的是这些化合物,它们具有同天然存在的氨基酸相同的基本化学结构,例如结合于H的α碳原子、羧基、氨基和R基,例如高丝氨酸、正亮氨酸(己氨酸)、甲硫氨酸亚砜、甲硫氨酸甲基锍。这些类似物具有修饰过的R基团(如正亮氨酸)或修饰过的多肽骨架,但保留了与天然氨基酸相同的基本化学结构。氨基酸模拟物是指这样化学化合物,它们的结构不同于氨基酸的通用化学结构,但在功能上与天然的氨基酸相似。
氨基酸可以通过它们通常已知的IUPAC-IUB生化命名委员会推荐的三字符,或通过单字符表示。同样,核酸可以通过通常已被接受的单字母密码表示。
“保守修饰的变异体”对氨基酸序列和核酸序列都适用。对于特定的核酸序列,保守修饰的变异体指编码相同或本质上相同的氨基酸序列的核酸,或者当核酸不编码氨基酸序列时指本质上相同的序列。由于遗传密码的简并性,有大量功能相同的核酸可编码任一特定的蛋白。例如,密码子GCA、GCC、GCG和GCU都编码丙氨酸。因此,在丙氨酸由一密码子限定的每个位置,该密码子能变为上述的相应密码子中的任一种而不会改变被编码的多肽。这样的核酸变异体是“沉默变异体”,它们是保守修饰变异体的一种。本文的编码多肽的每一个核酸序列也指该核酸的每种可能的沉默变异体。技术人员会认识到,核酸中的每个密码子都能被修饰,从而产生功能上相同的分子(除了AUG和TGG之外,AUG是编码甲硫氨酸的唯一密码子,TGG是编码色氨酸的唯一密码子)。因此,编码多肽的沉默的核酸变异体在每个被描述的序列中都是暗含的。
至于氨基酸序列,技术人员会认识到,通过对核酸、肽类、多肽或蛋白序列进行单个取代、缺失或插入,从而在编码序列中改变、添加或缺失单个氨基酸或小部分百分比的氨基酸,这是“保守修饰的变异体”,其中该改变导致了氨基酸被化学相似的氨基酸所取代。提供功能相似的氨基酸的保守取代表是本领域熟知的。这些保守修饰的变异体是本发明的多态变异体、种间同源物和等位基因之外的,而且并不排除本发明的多态变异体、种间同源物和等位基因。
下面8组的每一组都含有可相互保守取代的氨基酸1)丙氨酸(A),甘氨酸(G)2)天冬氨酸(D),谷氨酸(E)3)天冬酰胺(N),谷氨酰胺(Q)4)精氨酸(R),赖氨酸(K)5)异亮氨酸(I),亮氨酸(L),甲硫氨酸(M),缬氨酸(V)6)苯丙氨酸(F),酪氨酸(Y),色氨酸(W)7)丝氨酸(S),苏氨酸(T);和8)半胱氨酸(C),甲硫氨酸(M)(参见,例如Creighton,Proteins,1984)对于诸如多肽结构等大分子结构,可以根据不同结构水平进行描述。对于该结构的综述,可以参阅例如Alberts等人,Molecular Biology of the Cell(3rd ed.,1994)以及Cantor和Schimmel,Biophysical Chemistry Part IThe Conformation of BiologicalMacromolecules(1980))。“一级结构”指一特定肽的氨基酸序列。“二级结构”指多肽中局部的有序三维结构。这些结构一般被称为(结构)域。结构域是多肽的一部分,它形成多肽紧凑单元并且通常长50到350个氨基酸。典型的结构域由更小的结构部件(如β-折叠和α-螺旋)构成。“三级结构”指多肽单体的完整三维结构。“四级结构”指独立的三级结构单元通过非共价键而形成的三维结构。各向异性术语也被认为是能量术语。
“抗体”指一多肽,它具有来自免疫球蛋白基因或其片段的骨架区域,并能特异性结合和识别抗原。具有识别功能的免疫球蛋白基因包括κ、λ、α、γ、δ(σ)、ε、μ恒定区基因以及成千上万的免疫球蛋白可变区基因。轻链被分为κ或σ。重链分成γ、μ、α、σ或ε,这依次限定了免疫球蛋白的种类,IgG、IgM、IgA、IgD和IgE。
一个典型的免疫球蛋白(抗体)的结构单元应包含四聚体。每个四聚体由两对相同的多肽链组成,每一对含有一条轻链(大约25KD)和一条重链(大约50-70KD)。每条链的N端界定了约100-110个或更多氨基酸组成的可变区,该可变区主要负责识别抗原。术语可变轻链(VL)和可变重链(VH)分别指这些轻链和重链。
抗体以完整的免疫球蛋白形式存在或以大量已充分表征的片段形式存在,这些片段是由不同的肽酶消化免疫球蛋白而产生的。因此,例如胃蛋白酶在铰链区中的二硫键下方消化抗体,从而产生F(ab)′2,一个F(ab)的二聚物(Fab本身是通过二硫键连于VH-CH1区的轻链)。通过在柔和条件下打断铰链区二硫键,可使F(ab)′2还原,由此将F(ab)′2二聚物转变成Fab′单体。Fab′单体本质上是具有部分铰链区的Fab(参见Fundamental Immunology(Paul编,第3版,1993)。尽管各种抗体片段是按照完整抗体被酶消化的方式命名的,但技术人员会理解,这些片段可用化学法或DNA重组法从头合成。因此,如本文所用,术语抗体也应包括完整抗体通过修饰所产生的抗体片段,或者用DNA重组技术从头合成的抗体片段(例如,单链Fv)或使用噬菌体显示文库鉴定出的抗体片段(参见,例如McCafferty等人,Nature 348552-554,1990)对于单克隆或多克隆抗体的制备,本领域中任一已知的技术都能被使用(参见,例如Kohler & Milstein,Nature 256495-497(1975);Kozbor等人,Immunology Today 472(1983);Cole等人,pp.77-96,Monoclonal Antibodies and Cancer Therapy(1985))。生产单链抗体的技术(美国专利4946778)能用于生产本发明的多肽抗体。转基因小鼠或其他生物体(如其他哺乳动物)也能被用于表达人源化抗体。同样,噬菌体显示技术能用于鉴定特异性结合于选定抗原的抗体和异聚体的Fab片段(参见,例如McCafferty等人,同上;Marks等人,Biotechnology 10779-783,1992)。
“嵌合抗体”是一种抗体分子,在该抗体分子中,(a)恒定区或恒定区中的一部分被改变、取代或交换,以致抗原结合位点(可变区)被连接于不同类别或已改变类别的抗体恒定区、效应子官能团或种类、或者赋予嵌合抗体新性质的完全不同的分子,例如酶、毒素、激素、生长因子、药物等;或者(b)可变区或者其中一部分被改变、取代或与具有不同或已改变的抗原特异性的可变区进行交换。
“抗骨桥蛋白抗体”是一种抗体或抗体片段,它特异结合于骨桥蛋白基因、cDNA、或其亚序列所编码的多肽。抗EpCAM抗体以类似方式被定义。
如本文所用,“受体”包括能特异性结合于特定蛋白(如OPN或EpCAM)的任一分子,并且因此包括蛋白、核酸、碳水化合物或任何其他分子。
术语“免疫分析”是使用抗体对抗原进行特异性结合的一种分析。免疫分析的特征是利用特定抗体的特异结合性来分离、靶向和/或定量分析抗原。
当指蛋白或肽时,术语“特异性(或选择性)结合于”抗体或“特异性(或选择性)免疫反应于”抗体指结合反应,该结合反应是测定某蛋白是否存在于异源蛋白群或其他生物体中的决定因素。因此,在指定的免疫分析条件下,特异性抗体结合于特定蛋白至少是本底的两倍,而基本上不会大量结合于样本中的其他蛋白。在这种条件下抗体的特异结合,会需要因对特定蛋白有特异性而选出的抗体。例如,从大鼠、小鼠或人这些特定物种获得的抗OPN多克隆抗体,可被选择从而获得那些与OPN特异性免疫反应而不与其它蛋白(除了OPN的多态变异体和等位基因)反应的多克隆抗体。这个筛选可以通过扣减与其他种属的OPN分子有交叉反应的抗体而得以完成。各种不同的免疫分析方式可用于筛选与特定蛋白进行特异性反应的抗体。例如,固相ELISA免疫分析被常规用于筛选与蛋白进行特异反应的抗体,(对于能用于确定特异性免疫反应的免疫分析方式和条件的描述,可参见,例如Harlow & Lane,Antibodies,A LaboratoryManual,1988)。典型地,特异性或选择性反应至少两倍于本底信号或噪音,而且更典型地是高出本底10-100倍。
术语“差异存在”指分别与非转移的HCC样本或低危HCC病人的肝组织样本相比,在取自转移的HCC肿瘤或高危HCC病人的肝组织样本中的生物标记物在数量和/或频率上有差异。例如,标记物可以是多肽或核酸,与非转移的HCC样本或低危HCC病人的肝组织样本相比,这些标记物在取自转移的HCC肿瘤或高危HCC病人的肝组织样本中会高水平或低水平地出现。或者,标记物是多肽,与非转移的HCC样本或低危HCC病人的肝组织样本相比,该多肽在取自转移的HCC肿瘤或高危HCC病人的肝组织样本中被频率更高或更低地检测到。标记物的差异存在可以是数量、频率、或兼而有之。
如果在一个样本中多肽的数量在统计学上显著不同于同另一个样本中的数量,那么该多肽或核酸在两个样本中就是差别存在的。例如,如果多肽出现在某个样本中比另一个样本高出至少120%、至少130%、至少150%、至少180%、至少200%、至少300%、至少500%、至少700%、至少900%、或者至少1000%,或者如果多肽在其中一个样本中被检测到而在另一个样本中检测不到,那么该多肽就差别存在于两个样本中。
作为替换或作为附加,如果在转移的HCC肿瘤或高危HCC病人的肝组织样本中多肽被检测到的频率,在统计学上显著性地高于或低于在非转移的HCC样本或低危HCC病人的肝组织样本中检测到的多肽频率,那么该多肽就差别存在于两组样本。例如,如果在某组样本中观察到的多肽检测频率比其他组样本高出或低于至少120%、至少130%、至少150%、至少180%、至少200%至少300%、至少500%、至少700%、至少900%、或者至少1000%,或者如果多肽能在其中一个样本中被检测到而在另一个样本中检测不到,那么多肽就差别存在于两个样本。
“诊断”意思就是确定病理症状或病理症状易感性的存在与否或本质属性,如HCC或HCC转移。在灵敏性和特异性方面,诊断方法可有所不同。诊断分析的灵敏性就是检测为阳性的患者百分率(真阳性的百分比)。没有被检测到的患者称为假阴性。没有患病并且在分析中检测为阴性的人称为真阴性。诊断分析的特异性就是1减去假阳性率,其中假阳性率就是没有得病的人被检测出阳性的比例。虽然一个特定诊断方法可能不提供疾病的确定的诊断结果,但是如果该方法提供有助于诊断的阳性指示,那么就足够了。
标记物的测定量就是指标记物分布在被检测样本中的数量。测定量要么是以绝对数量表示(如ug/ml),要么以相对值表示(例如信号的相对强度)。
标记物的诊断量就是在人样本中的标记物数量,它与转移的HCC肿瘤或高危险的HCC患者的组织样本的诊断相符合。诊断量可以是以绝对数量表示(如ug/ml),也可以以相对值表示(例如信号的相对强度)。
标记物的对照量可以是任一数量或者是在某个范围的数量,这个数量被用于同标记物的测定量相比较。例如标记物的对照量就是在没有转移HCC肿瘤的人或低危险HCC患者组织样本中出现的标记物数量。对照量可以是以绝对数量表示(如ug/ml),也可以以相对值表示(例如信号的相对强度)。
分光光度计探测器指一种设备,它能以可拆除的方式插进气相离子分光光度计,包括一个基质,该基质具有可放置用于测定的标记物的表面。分光光度计探测器可以含有单个基质或多个基质。名称有ProteinChip,ProteinChip阵列或芯片在本文也指特定种类的分光光度计探测器。
“基质”或“探测器基质”指在其表面提供吸附剂(如通过附着、沉积等)的固相载体。
“吸附剂”指能用于吸附标记物的任何物质。在这里使用的吸附剂术语既指与标记物接触的单一物质(单式吸附剂)(例如一个化合物或一个官能团),又指与标记物接触的多种不同的物质(复式吸附剂)。复式吸附剂中的吸附剂材料被称为“吸附剂种类”。例如,在探测器基质上可寻址的位置可以包括复式吸附剂,其特征是具有许多不同的、有不同的结合特性的吸附剂种类(如阴离子交换物质、金属鳌合剂或抗体)。基质材料本身也能用于吸附标记物并可被认为是吸附剂的一部分。
“吸附”或“保留”指在用洗脱剂(选择性阈值调节剂)或洗涤溶液进行洗脱之前或之后,在吸附剂和标记物之间的可检测的结合。
“洗脱剂”或“洗涤溶液”指的是能用于调节标记物对吸附剂进行吸附的试剂。洗脱剂和洗涤溶液都被称为选择性阈值调节剂。洗脱剂和洗涤溶液都能用于洗脱和去除掉探测器基质表面没有被结合的物质。
“标记物的分辨”,“辨析”或“解析”指在某个样本中,至少有一个标记物被检测到。分辨的意思包含在某个样本中经分离检测多个标记物,以及随后随后的差别检测。解析并不需要把一个或多个标记物同混合物中其他生物分子完全分离开来。相反,分离只要使至少一个标记物和其他生物分子区别开就足够了。
“气相离子分光光度计”指当样品被蒸发和电离时,测量参数能被转换成离子形式荷质比的仪器。一般地,离子带一个电荷,并且质荷比一般被称作质量。例如,气相离子分光光度计包括质谱仪、离子迁移分光光度计、以及全离子流测量仪。
“质谱仪”指气相离子分光光度计,它包括一个进样系统、一个电离源、一个离子光学装置、一个质谱分析仪以及一个检测器。
“激光解吸质谱仪”指利用以激光为手段解吸、蒸发和电离被分析物的质谱仪。
“检测”指确定被检测物的存在、不存在或数量。
“可检测成分”或“标记物”指可通过分光光谱、光化学、生物化学、免疫化学、化学手段检测出的物质。例如,有用的标记物包括32P、35S、荧光染料、电子致密试剂、酶(例如常用在ELISA中的酶,如辣根过氧化物酶)、生物素-抗生物素蛋白链菌素、地高辛、半抗原和蛋白质(已有针对它们的抗血清或单克隆抗体)、或与靶目标有互补序列的核酸分子。可检测成分一般会产生可测量的信号,如放射性、发色的、或荧光信号,该信号能用于定量样品中已结合的可检测成分。信号定量可通过例如液体闪烁计数、密度测量或流式细胞测量术而获得。
如在该申请书中所用,“活性”指分子如由某个基因编码的蛋白(如骨桥蛋白或EpCAM)的生物学功能。该词包含生物学功能,如酶活性,同其它分子的特异性作用,在细胞或分子水平上对生物活动的调节效应等等。
如本文所用,术语“抑制的”或“抑制作用”指对有关靶点分子功能或活性的负调节作用,以致于功能或活性(如酶活性或与其他分子的特异作用)发生可检测的下降,或有效丧失。
如本文所用,术语“拮抗剂”指能够对靶分子(如骨桥蛋白或EpCAM)的生物活性进行负调节的化合物。拮抗剂可以通过不同方式完成负调节,如在转录或翻译水平通过抑制靶基因的表达,或干扰靶分子与其他分子的特异性相互作用。
如在描述多核苷酸的上下文中所使用的那样,术语“反义”指单链核酸的核苷酸序列互补于编码有关蛋白(如骨桥蛋白或EpCAM)的靶核酸的至少一部分,即与“正义”序列互补。两个单链多核苷酸之间的互补性是基于“A-T G-C”碱基配对原则的。如序列“5′-AGAT-3′”同序列“5′-ATCT-3′”互补。靶序列与其反义多核苷酸之间的互补性典型地为100%,即反义多核苷酸的所有碱基同靶核苷酸碱基相匹配,但也可有不同的互补程度,即可以有某些错配的碱基。靶核酸同它的反义多核苷酸之间互补的程度,对杂交的效率和强度有显著的影响。在本申请中的反义多核苷酸序列,可对应于靶核酸的编码区(即外显子)或非编码区。
图表的简要描述

图1.按照基因表达对转移的或没有转移的肝细胞癌进行分类。A)通过对所有5个临床组(即P、P-M、PT、PT-M、PN)的监测类别比较分析,获得143个显著性基因(P<0.0005),利用这些基因对50个原发性和转移HCC样本进行多维量表分析。轴代表这些基因中前三个主要组分。P,为肝内扩散的原发性HCC;P-M,P的转移损伤;PT,在门静脉有肿瘤血栓的原发性HCC;PN,无转移的原发性HCC样本。B)用来自于监测类别比对得到的383个显著性基因(P<0.0005),对来自P、PT、和PN组的30个原发性HCC样本的分级聚类分析。
图2.利用源于“省略单因素(leave-one-out)”的交叉验证复合共变预测分类法的转移预测模型,对转移和存活进行的预测结果。A)用于40个训练的和测试的HCC患者的转移预测模型。预测是基于训练集(圈)的,它包括先前在复合共变预测分类中使用过的10个PN和10个PT的原发性HCC样本,和20个没有在训练程序中使用过的原发性双盲HCC样本。该预测使用了153个在这两组中有区别的显著性基因。B)用153个有显著性基因,通过预测对40例原发性HCC样本进行多维量表分析。标出了病人的身份(ID)。C)40例PN、PT和P患者的Kaplan-Meier生存曲线。交叉符号表示检查时间。
图3.同转移HCC相关的候选基因。A)主要的30个候选基因分级聚类,这些基因的表达在PT和PT-M组中大部分已改变,但在PN组的却很少。每一排代表单个基因,每一列代表单个肿瘤样本。在所有肿瘤样本中,按照某一基因的丰度对所有基因丰度中值的比例,各基因就按中心关联和完全连锁(complete linkage)而排序。伪彩暗示差别表达绿色正方形,表示低于中值的转录水平;黑色正方形,表示等于中值的转录水平;红色正方形,表示高于中值的转录水平;灰色正方形,无数据。树状图是建立在10个原发性PN(绿色)和10个原发性PT(红色)样本之上的。B)在伴随有转移(黑色棒)的10个原发性PN样本(绿色棒)和10个原发性PT样本(红色棒)中,通过cDNA微阵列分析得到的OPN相对表达率。C)和D)是在有或没有转移的原发性HCC样本中,OPNmRNA水平的半定量RT-PCR分析结果。
图4.正常肝组织和肝细胞癌中骨桥蛋白的免疫组织化学分析。原发性肿瘤细胞(S30肿瘤细胞)显示了细胞质骨桥蛋白的免疫反应,尤其在脉管系统高致密区(图b和d),但在纤维隔膜区(图b和d)或正常的肝实质细胞没有出现免疫反应(图a和c;正常肝914)。放大倍率50倍(H&E,x50)。
图5.骨桥蛋白在促进HCC转移中的作用。A)用大鼠的单克隆抗OPN抗体做Western印迹,确定了CCL 13、SK-Hep-1、和Hep3B细胞中骨桥蛋白的浓度。单克隆β-肌动蛋白抗体被作为内对照。密度测量仪用于OPN的定量,并相对肌动蛋白进行归一化处理。OPN水平表示为相对倍数。B)在有或没有重组的鼠骨桥蛋白,或者有或没有中和抗骨桥蛋白的抗体中的情况下,孵育CCL 13、SK-Hep-1、和Hep3B细胞,并通过Matrigel基膜细胞侵入腔(Cell Invasion Chamber)来测定其侵入情况。在每个条件下,数值为三次测量值的平均值,且表示为相对于穿过对照膜(对照室)的扩散而言,侵入Matrigel基质和膜(matrigel腔)的平均百分比(加上一个标准偏差)。C)五个额外HCC细胞系(SMMC7721、MHCC97、HuH1、HuH4和HuH7)通过matrigel基质与骨桥蛋白中和抗体发生反应,在该反应中的侵入情况如上进行测定。D)皮下注射HCCLM3细胞加抗OPN中和抗体(下图)或不加抗OPN中和抗体(上图),从之后35天的小鼠获得的代表性肺组织切片(H&E染色,放大100倍)。箭头表示肿瘤细胞等级。E)在给裸鼠皮下注射HCCLM3细胞后的不同周数,监测原发性肿瘤的大小。数据是10只小鼠的均值。F)在裸鼠皮下注射HCCLM3细胞,并且注射或不注射抗OPN中和抗体,在35天后,在裸鼠中检测到转移灶在肺部形成。基于转移的等级,定量转移灶的数目。数值是每组10只小鼠的均值。具有显著性p值(<0.05)的组用星号表示。
图6.EpCAM在HCC发展中潜在的致癌作用。a)和b)通过微阵列(a)或RT-PCR(b)分析,获得的EpCAM在不同慢性肝脏疾病的肝组织样本中的表达浓度。c)通过抗EpCAM的单克隆抗体的Western印迹分析,EpCAM在源于正常人的成纤维细胞(NHF-hTERT)、正常肝细胞(CCL13)和肝癌细胞(SK-Hep-1、Hep3B、Huh1、Huh4、Huh7、和HepG2)中的表达。抗β-肌动蛋白的单克隆抗体被用作内对照。d)由MTT分析获得的Hep3B、Huh1、和Huh4细胞的增值情况,数值为三个独立实验的平均值。e)通过Western印迹分析,测定siRNA对EpCAM表达有效的抑制作用。f)由MTT分析测定EpCAM siRNA对Hep3B细胞生长的抑制作用。
发明详述在当今世界上,肝细胞癌(HCC)是最为普遍和最具攻击性的恶性肿瘤之一,在亚非十分盛行,而在欧洲和北美相对少(Parkin等人,CA Cancer J.Clin.4933-64,1999;Pisani等人,Int.J.Cancer 8318-29,1999)。近期研究表明,在过去的二十年,HCC在美国和英国的发生率显著增加(Taylor-Robinson等人,Lancet 3501142-1143,1997;El-Serag and Mason,N.Eng.J.Med.340745-750,1999)。大多数HCC患者由于落后的预测而导致无法救治。尽管通过对发展中的HCC患者例行检查可以使某些患者获得延长的寿命,但还是有许多患者被诊断为晚期HCC而被剥夺生存(参见,例如,Yang等人,J.Cancer Res.Clin.Oncol.123357-360,1997;Izzo等人,Ann.Surg.227513-518,1998)。虽然一小部分HCC患者有资格进行外科手术介入治疗,但对于长期生存质量的提高是不大的。极端落后的HCC预测主要是由于手术切除后的高复发率,或者是由于门静脉的侵入发展成肝内次生肿瘤,或者是由于扩散到肝内的其他部位,然而肝外次生肿瘤的发生并不普遍(参见,例如,Genda等人,Hepatology 301027-1036,1999)。这些文献说明肝脏是HCC转移的主要靶器官。这已经在动物模型系统以及门静脉是转移HCC细胞发生肝内次生肿瘤的主要路线的患者中得到证实(参见,例如,Mitsunobu等人,Clin.Exp.Metastasis 14520-529,1996)。HCC的专一特征强调发展一种精确的分子模拟模型的必要性,目的是为了对那些有肝内次生肿瘤的患者提供更好的诊断和治疗靶点。
近期研究主要集中在单个候选基因上(参见,例如,Osada等人,Hepatology241460-1467,1996;Guo等人,Hepatology 281481-1488,1998;Hui等人,Int.J.Cancer84604-608,1999)。这可能没有足够精确地反映转移型HCC的生物学本质。微阵列技术提供了在全基因组中探寻疾病相关基因表达的契机(参见,例如,Schena等人,Science 270467-470,1995)。在关于肿瘤的发展进程、预后结果或治疗后的反应方面,这条途径已经对多种人类恶性肿瘤进行了成功的分子分类(Alizadeh等人,Nature403503-511,2000;Bittner等人,Nature 406536-540,2000;Perou等人,Nature406747-752,2000;Khan等人,Nat.Med.7673-679,2001;Pomeroy等人,Nature 415436-442,2002;Shipp等人,Nat.Med.868-74,2002)。多个报告已经涉及原发性HCC样本的基因表达谱(Okabe等人,Cancer Res.612129-2137,2001;Xu等人,Proc.Natl.Acad.Sci.U.S.A.9815089-15094,2001)。然而,同转移型HCC患者预后特征相关的分子信号还不清楚。
使用基于cDNA微阵列的基因表达图谱,可研究同转移相关的所有改变。起初的目的是为了鉴定能区分原发性肿瘤和其匹配的肝内转移损伤的基因。已揭示,肝内转移损伤同原发性肿瘤是不可区分的,它与肿瘤大小、微囊化和患者的年龄无关,尽管没有原发性转移的HCC能同具有原发性转移HCC区分开来。以上资料说明,有助于肝内转移的变化是在原发性HCC中启动的。另外,一个起重要作用的基因即骨桥蛋白(一种分泌型磷蛋白)出现在HCC转移中。在体外,骨桥蛋白的过表达同原发性HCC相关,其中该原发性HCC具有转移潜能和侵入肝脏肿瘤衍生细胞系的能力,而且可中和骨桥蛋白的抗体能在体外有效阻断HCC细胞的侵入并且也能在体内阻断肺内HCC细胞的转移。这些研究明确了,骨桥蛋白既可作为用来确定HCC患者是否有转移潜能的分子标记物,也可作为治疗转移型HCC的一个潜在的治疗靶点。
类似的方法被用于开发基因表达预测模型,以便预测那些慢性肝病患者发展成HCC的可能性。将流行病学上高危患HCC的病人基因表达图谱同流行病学上低危患HCC的病人基因表达图谱相比较,可鉴别出细胞标记物,从而能够鉴别出慢性肝病会高危险地向HCC发展的病人。那些有严重肝脏疾病患者包括那些被诊断为乙型肝炎、丙肝、色素性肝硬变、威尔逊疾病、酒精肝、自身免疫性肝炎和原发性肝胆硬化的人。高危险诱发早期癌症的疾病有慢性乙肝、慢性病肝、色素性肝硬变和威尔逊病。低危险诱发为早期癌症的疾病有酒精肝、自身免疫性肝炎和原发性肝胆硬化。在严重肝病的患者体内发现的EpCAM基因已被证实,它与诱发高危险HCC有关。通过抑制EpCAM的表达,肝癌细胞的生长抑制现象已被观察到,由此确定了EpCAM在HCC发展中所起的重要作用,并且可作为阻止慢性肝病患者发展成为HCC的治疗靶点。
本发明的一个具体方面就是提供了一种方法,它将疑似有转移型HCC或者有发展成HCC潜能的患者体内的共调节基因进行聚类分析,从而形成基因表达图谱。该节提供了对共调节基因进行聚类分析的更为详细的论述。
I.DNA微阵列分析A.通过聚类分析基因表达图谱的分类对于本发明的许多应用,有必要发现共调节的基本基因在非转移型HCC样本、转移型HCC样本、高危发展中的HCC样本和低危发展中的HCC样本中的表达图谱。确定这些基本的基因表达图谱的优选例子涉及聚类算法(对于聚类算法的综述,可以参阅Fukunaga,1990,Statistical Pattern Recognition,2版.,Academic Press,San Diego;Everitt,1974,Cluster Analysis,LondonHeinemann Educ.Books;Hartigan,1975,Clustering Algorithms,New YorkWiley;Sneath和Sokal,1973,Numerical Taxonomy,Freeman;Anderberg,1973,Cluster Analysis for Applications,Academic PressNewYork)。
在一些使用聚类分析的例子中,在不同来源的生物样本中,大量基因的表达能被监测到。含基因表达测量值的数据表已用于聚类分析。聚类分析会在m×k维数的数据表上运算,其中m指条件或波动因素的总数,k是已测量的基因数量。
有许多聚类算法可用于聚类分析。当需要形成簇时,聚类算法会运用物体间的不相似性或距离。在一些例子中,多维空间中使用的距离指欧几里得距离(Euclideandistance)。欧几里得距离可以被平方,从而对分开更远的物体上设置逐渐增大的权重。或者,距离的量度标准可以是曼哈顿距离。在其他例子中,对数据表进行未监管分级聚类分析,可以使用CLUSTER或TREEVIEW软件(Eisen等人,Proc.Natl.Acad.Sci.USA,9514863-14868,1998)来执行,这些软件是利用了中值中心关联和完全连锁。
各种不同的簇连锁(linkage)规则可用于本发明的方法。单连锁是一种最近相邻法,它测定两个最靠近的物体间的距离。相反,完全连锁方法是通过不同簇中任二个物体间的最大距离来确定距离。这个方法特别适用于基因或其他细胞组分构成天然不同的“聚丛(clump)”的情况。或者,未加权的配对-组别(pair-group)的均值,界定了两个不同簇中所有配对物体间的平均距离。在对基因或其他细胞成分进行聚类分析以形成自然不同的聚丛时,这方法也非常有用。最后,加权的配对-组别平均方法也可被使用。这种方法同未加权的配对-组别平均方法相同,不同点在于将各簇的大小用作权重。这种方法特别适用于簇大小可能有很大变化的情况。(Sneath和Sokal,1973,Numerical taxonomy,San Francisco.W.H.Freeman & Co.)。其他簇连锁规则,例如未加权的和加权的配对-组别矩心和Ward氏算法也可用于本发明的一些例子。可以参阅文献Ward,1963,J.Am.Stat Assn.58236;Hartigan,1975,Clustering algorithms,NewYorkWiley。
在一特别优选的例子中,使用的聚类分析为BRB-ArrayTools软件,这是由美国国家癌症研究所的生物统计研究分部开发的完整软件包,用于对cDNA微阵列基因表达数据进行可视化和统计分析,可用于无人监控的分析和监控的分析。基于单变量F检验的“类别比较工具(Class Comparison Tool)”可用于在显著性差异水平为P<0.001或0.002的预定临床组别间寻找差异表达的基因。基于2000个随机的排列,F统计分析的排列分布状态也可用于确定统计学差异。通过使用2000个随机的P值小于0.001显著差异水平的排列,同时根据基因表达图谱,可使用具有“省略单因素(leave-one-out)”交叉确认测试的多变量复合共变预测工具(Compound Covariate Predictor,CCP),对预定的临床组别进行分类。在每一交叉确认的步骤中,一个样本被省略,并且基于基因创建一个多变量CCP,其中所述基因是在由未被省略的样本所组成的训练组中,在特定水平下显著单变的基因。CCP被用于对省略后的样本分类,然后注明分类是正确还是错误。对于每次排除一个后的所有样本都要进行重复。总交叉确认的错误分类比率就这样被测定。交叉确认的错误分类比率在统计学上的显著性,通过对数据重复进行2000次的完整交叉确认程序来确定,其中分类成员是随机置换的。CCP建立在基因表达变量的加权线性组合基础上,其中所述变量在训练组中是显著单变的,其权重对应于t-统计,如Radmacher等人,Journal of Computational Biology(出版中),2002中所述。聚类树输出的例子显示在图1和图3中(也可参阅下文的实施例1)。
基因表达谱可以基于树中许多更小的分支来定义,或者通过在不同水平上砍掉聚类树以许多更大的分支来定义。砍伐水平必须同所预期的不同临床组别数目相匹配。如果对于组别的数量而言仅有很少或没有在先信息,那么该聚类树应该被分成真实不同的许多分支。“真实不同”可用单分支间最小的距离值来定义。这个距离是连接两个分支的水平连线的纵坐标(参阅图1B)。典型值在0.2-0.4范围内,其中0是指完全关联,1是指零关联,但当训练集中良好数据较少或试验较少时,典型值可更大,或者当训练集中数据较好和试验较多时,典型值可更小。
更佳地,“真实不同”可用对聚类树中每一分叉的统计显著性的客观测试来定义。在本发明的一个方面,通过在预定显著性水平上,使用2000个随机置换,并用具有“省略单因素”交叉确认测试的复合共变预测工具,来定义客观测试。用CCP程序获得的牵引改进(tractional improvement)分布是在零假设理论(即特定分类是对或错)下对分布的评估值。
在本发明中聚类分析方法的另一方面是,提供了将基本载体的定义,用于在下文总所述的图谱规划。
B.谱的比对和分类本发明的一个方面为提供了发现药物的方法。在一例子中,基因表达谱用聚类分析来定义。基因表达谱中的基因在感兴趣条件下被揭示是潜在共调节的。可进一步研究共调节基因是否涉及调节途径。鉴别出涉及调节途径的基因,可为设计和筛选新药提供有用信息。
在本发明的某些例子中,筛选候选药物用于治疗。在一个例子中,所期望的药物活性将能影响某个特定的遗传调节途径。在一个例子中,根据影响对应于调节途径的基因表达谱的能力,来筛选候选药物。在另一例子中,期望新药取代现存的药物。在一个例子中,候选药物的设计谱与现有药物相比较,以便确定哪个候选药物具有同现有药物相似的活性。
在某些例子中,本发明的方法被用于解释树形图和动力学。当受体被配体所激发(或阻断)时,下游通路的兴奋性可能会不同,这依赖于精确瞬时表达谱和配体与受体相互作用的分子结构域。不同配体导致不同效应的简单例子是表型差异,该差异产生于对激动剂、部分激动剂、反拮抗剂和拮抗剂的响应,而且预期该差异会产生于对共价键对非共价键的结合以及受体上不同分子区域的激活的响应。参阅Ross,PharmacodynamicsMechanisms of Drug Action and the Relationship between DrugConcentration and Effect in The Pharmacological Basis of Therapeutics(Gilman等人编辑,McGraw Hill,New York,1996)。图4A陈述了通路级联中两种可能的不同反应。
本发明的某些实施例中,像以OPN为配体的受体可以用本发明的设计方法进行研究,以便将观察到的瞬时反应简化为对应答基因作出的受体/配体作用。尤其在一些特别优选例中,发现了有关的基因表达谱和瞬时谱。大量基因的瞬时反应谱被投射(projected)到预定的基因表达谱,从而获得瞬时反应的规划谱。该规划过程简化了观察到的反应,因此不同的瞬时反应可以被更精确地检测和区分。
C.诊断应用的说明本发明的一方面提供了诊断人类、动物和植物的疾病的方法。该方法同样可用于监测疾病发展的进程和治疗的有效性。
在本发明的一个实施例中,可对病人的细胞样本(如来自转移型HCC患者的患病组织的活检样本)进行大量的基因表达分析。根据基因表达谱的定义,该基因表达谱被规划成基因表达的表达值谱。把规划好的谱与含对照规划谱的对照数据库进行比对。如果在数据库中,患者的规划谱同癌症图谱匹配最佳,那么患者的病理组织被确诊为癌症。类似地,当最佳匹配是其他疾病的图谱,那就被确诊为该种疾病。
在另一实施例中,组织样本从患者的肿瘤组织中获得。对该组织样本进行大量相关基因表达分析。根据基因表达谱的定义,该基因表达谱被规划成基因表达的表达值谱。把规划好的谱与先前来自相同肿瘤的规划谱进行比对,以确定基因表达谱中的表达改变。用对照库来确定基因表达谱的改变是否预示着肿瘤发展(如转移)。类似的方法可用于确定其他疾病或紊乱的阶段。治疗中患者图谱中基因表达谱表达值的变化可用于监测治疗的有效性,例如,通过比较治疗前和治疗后的规划图谱。
D.分析试剂盒的实施在优选例中,本发明的方法可以通过使用测定生物样本反应或状态的试剂盒来得以完成。这样的试剂盒含有微阵列,例如下面段落所述的微阵列(芯片)。在这些试剂盒中的芯片包括固相(例如一表面),而探针杂交于或结合于固相的已知位置。较佳地,这些探针由已知的不同的核酸组成,而且每一个核酸能同来源于该核酸的RNA或cDNA分子杂交。特别地,本发明试剂盒中含有的探针是能特异性地杂交于源自RNA的核酸序列,其中已知该RNA的增加或减少对应于由本试剂盒测定活性的某特定蛋白的波动。本发明试剂盒中的探针宜基本上排除那些与无关RNA的杂交的核酸,对于由本试剂盒测定活性的某个特定蛋白(如骨桥蛋白)的波动,这些RNA不会增加。
在优选例中,本发明的试剂盒同时带有基因表达谱定义的数据库(如上述的数据库)、或允许远程网络计算机使用上述数据库的接入授权书。
在另一优选例上,本发明的试剂盒进一步包含用于表达图谱的规划和分析的软件,该软件能被下载到计算机系统的内存中,例如上面小节中所述的并在实施例1中阐述的那样。本发明试剂盒中的表达谱分析软件同上面实施例1中所述的表达谱分析软件本质上是等同的。
用于实施本发明的分析方法的其他试剂盒,对于本领域技术人员而言是显而易见的,因而被包括在所附的权利要求中。具体地,附随的权利要求用于包括用于执行本发明方法的、对本领域技术人员而言显而易见的其他程序结构。
E.测定生物反应图谱的方法本发明利用了测定反应的能力,这些反应是生物体系针对大量不同波动而作出的。本节为测定生物反应提供了一些代表性方法。本领域技术人员会意识到,本发明不局限于下列特定的测定生物体系反应的方法。
1.利用DNA芯片进行转录分析本发明特别适用于基因表达谱的分析。本发明一方面提供了基于基因表达关联性而确定共调节基因表达图谱的方法。本发明一些实施例基于对基因转录率的测量。
转录率可以通过核酸芯片或核酸模拟探针杂交技术而得到测定(如下一节所述),或者通过其他基因表达技术而得到测定,例如在随后一节中所述的技术。然而,一旦被测定,结果要么是转录物的绝对量或相对量,要么是应答数据,包括表示RNA丰度率的数值,其中RNA丰度率经常用来反映DNA表达率(在没有RNA降解率的差异时)。
在本发明的各种不同实施例中,还可测定除了转录状态之外的生物状态方面如翻译状态,活性状态或混合状态。
较佳地,转录状态的测定可通过与DNA芯片杂交而获得,DNA芯片在本节被叙述。测定转录状态的某些其他方法将在该小节的后面叙述。
在优选例中,本发明使用了DNA芯片。DNA芯片可用于分析生物样本中的转录状态,而且尤其适合在暴露于各级梯度药物浓度下或在有关生物信号途径的梯度波动下,测定生物样本的转录状态。
在一个实施例中,DNA芯片的制备是通过将可检测的标记的寡核苷酸杂交于芯片,其中该寡核苷酸代表了存在于细胞中的mRNA转录本(如荧光标记的、从细胞总mRNA合成得来的cDNA)。芯片就是一个具有结合(如杂交)位点的有序阵列的表面,这些位点用于结合细胞或生物体基因组中大量基因,更佳地大部分或几乎全部基因的产物。芯片可以用许多方式制备,有几个将在下面叙述。然而,制备的芯片有一些优选特征芯片有重现性,允许制备某个特定芯片的多个拷贝并且易于相互比较。优选的芯片是小型的,一般都小于52cm,并且它们用在结合反应条件下(如核酸杂交)稳定的材料制成。芯片中某一结合位点或独特的结合位点集将会特异结合于细胞中单个基因的产物。尽管对于每个特定mRNA可有多个物理结合位点(后面称之为“位点”),但为了便于清楚描述,下面论述会假定只有单个位点。
应理解,当和细胞RNA互补的cDNA被合成,并在适当的杂交条件下与微阵列(芯片)杂交时,芯片中对应于任一基因的位点的杂交水平,能反映出细胞内该基因转录的mRNA水平。比如,当可检测地标记的(如用荧光团)、与总细胞mRNA互补的cDNA和微阵列杂交时,阵列上对应于细胞内不转录的基因的位点(即能够与基因产物特异性结合)会信号很小或没有信号产生(如荧光信号);而对于编码的mRNA广泛存在的基因,则可以产生较强的信号。
在优选例中,两种不同细胞的cDNA与微阵列的结合位点杂交。在药物反应中,一种生物样品与药物接触,同一类型的另一种生物样品不与药物接触。在通路反应中,一个细胞暴露于通路扰动,同一类型的另一个细胞不暴露于通路扰动。来自两种细胞的cDNA用不同方法标记,方便区分。在一个实施例中,比如,经一种药物处理(或暴露于通路扰动)的细胞的cDNA,用荧光素标记的dNTP合成;来自另一种未经药物处理的细胞的cDNA,则用若丹明标记物的dNTP合成。当两种cDNA混合并与微阵列杂交时,可测定阵列上每一位点的每种cDNA组的信号相对强度,从而检测特定mRNA丰度的相对差。
在上述的例子中,当荧光团被刺激时,药物处理过(或通路扰动的)的细胞的cDNA显绿色荧光,而未处理细胞的cDNA显红色荧光。结果是,当药物处理直接或间接地对细胞内某一特定mRNA的相对丰度无效时,此mRNA会同等分布在两种细胞中,并且一旦逆转录,红色标记的和绿色标记的cDNA会同等存在。当杂交于微阵列时,对应于该RNA的结合位点会发出两种荧光团特有的波长(并且组合后呈现棕色)。相反,当与药物接触的细胞是用一种可直接或间接增加细胞内mRNA水平的药物处理时,绿色荧光对红色荧光强度之比会增加。如果药物降低mRNA水平,该强度比会降低。
用双色荧光标记和检测方法以确定基因表达变化的方法,在例如Shena等人,″Quantitative monitoring of gene expression patterns with a complementary DNAmicroarray,″Science 270467-470,1995中有描述,该文献在此全文引入作为参考。用两种不同荧光团标记的cDNA的优点在于,可得到对应于每种阵列基因mRNA水平的一个直接的内部对照比较值,而且试验条件(如杂交条件)微小差异所引起的变化不会影响随后的分析。但是应理解,可以使用单个细胞的cDNA,并比较例如在药物处理或通路扰动的细胞和未处理的细胞中特定mRNA的绝对数量。
2.微阵列的制备微阵列(芯片)是本领域所熟知的,它含有一表面,在该表面上与基因产物(如cDNAs、mRNAs、cRNAs、多肽、及其片段)序列相应的探针特异性杂交于或结合于已知位点。在一个实施例中,微阵列是一种阵列(即矩阵),其中每一位点代表一种基因编码的产物(如蛋白或RNA)的离散结合位点。同时,其中的结合位点代表了生物体基因组中大部分或几乎全部的基因产物。在一个优选实施例中,“结合位点”(下文的“位点”)是核酸或核酸类似物,它们能够和某一特定的同源cDNA特异性杂交。结合位点的核酸或类似物可以是,例如合成的寡聚物、全长cDNA、比全长短的cDNA、或基因片段。
尽管在优选例中,微阵列包括生物体靶基因组中所有或几乎所有基因产物的结合位点,都是这种全面性并不是必需的。通常,微阵列包含有基因组中至少50%左右,一般至少75%左右,更常见的至少85%左右,更普遍的至少90%左右,最普遍的至少99%左右的基因结合位点。微阵列宜有与药物或生物通路作用相关的基因结合位点。被鉴别为开放性阅读框(ORF)的“基因”宜含有至少50、75或99个氨基酸,并且其mRNA在生物体(例如,如果单细胞)或多细胞生物体的一些细胞中转录。基因组中的基因数目可以通过生物体表达的mRNA数量估计,或根据基因组已经充分研究的部分进行推断。当所研究的生物体基因组已被测序,ORFs的数量可以被确定并可通过分析DNA序列来确定mRNA编码区。比如,酿酒酵母的基因组已被完全测序,并报道约含有6275个长于99个氨基酸的开放性阅读框(ORFs)。对这些ORFs的分析显示5885个ORFs可能有蛋白产物(Goffeau等人,1996,Life with 6000 genes,Science274546-567,该文献全文引入本文作为参考)。相对而言,人类基因组估计含有约5×104个基因。
3.制备微阵列核酸如上所述,一个与特定的同源cDNA特异性杂交的“结合位点”通常是附着在该结合位点上的核酸或核酸类似物。在一个实施例中,微阵列的结合位点是DNA多核苷酸,它对应于生物体基因组每个基因的至少一个片段。这些DNA可通过聚合酶链式反应(PCR)等对基因组DNA、cDNA(如通过RT-PCR)或克隆序列的扩增而获得。根据基因或cDNA的已知序列,选择PCR引物,从而扩增得到独特的片段(即,和阵列上的其它片段没有多于10个碱基的相同序列的片段)。可用计算机程序设计特异性引物和优化的扩增条件。参见如Oligo 5.0版(National Biosciences)。如果是很长的基因的结合位点,可以扩增基因近3′端的片段,这样当寡-dT引物cDNA探针与微阵列杂交时,短于全长的探针可有效结合。典型地,微阵列上每一个基因片段长度在50bp和2000bp之间,更典型地在100bp和1000bp之间,通常的长度为300bp和800bp之间。PCR的方法是熟知的,在如Innis等人编辑,1990,PCR ProtocolsA Guide to Methods and Applications,Academic Press Inc.,San Diego,Calif.中有描述,该文献全文引用作为参考。很明显,计算机控制的自动系统可用于有效分离和扩增核酸。
合成微阵列核酸的另一方法是用N-膦酸酰或膦酸酰胺化学方法合成多核苷酸或寡聚核苷酸(Froehler等人,1986,Nucleic Acid,Res 145399-5407;McBride等人,1983,Tetrahedron Lett.24245-248)。合成的序列长度约在15和500个碱基之间,较典型地在20和50个碱基之间。在一些实施例中,合成的核酸中含有非天然的碱基,如次黄苷。如上所述,核酸类似物可用作杂交的结合位点。一个合适的核酸类似物的例子是肽核酸(见Egholm等人,1993,PNA hybridizes to complementary oligonucleotides obeying theWatson-Crick hydrogen-bonding rules,Nature 365566-568;也可参见美国专利No.5,539,083)。
在另一个实施例中,结合(杂交)位点来自基因的质粒或噬菌体克隆、cDNA(如表达序列标签)或其插入序列(Nguyen等人,1995,Differential gene expression in the murine thymusassayed by quantitative hybridization of arrayed cDNA clones,Genomics 29207-209)。在另一实施例中,结合位点的多核苷酸是RNA。
4.核酸与固相表面的粘附核酸或类似物附着在固相载体上,固相载体可以是用玻璃,塑料(如聚丙烯、尼龙),聚丙烯酰胺,硝酸纤维素或其它材料制成。将核酸粘附到表面的一种优选的方法是影印到玻璃板上,如Schena等人,1995,Quantitative monitoring ofgene expressionpatterns with a complementary DNA microarray,Science 270467-470中所描述的那样。此法特别适用于制备cDNA的微阵列。参见DeRisi等人,1996,Use of a cDNAmicroarray to analyze gene expression patterns in human cancer,Nature Genetics 14457-460;Shalon等人,1996,A DNA microarray system for analyzing complex DNA samplesusing two-color fluorescent probe hybridization,Genome Res.6639-645;以及Schena等人,1995,Parallel human genome analysis;microarray-based expression of 1000 genes,Proc.Natl.Acad.Sci.USA 9310539-11286。
第二种制备微阵列的优选方法是制备高密度的寡聚核苷酸阵列。产生在限定位点上含成千上万种与确定序列互补的寡聚核苷酸的阵列的技术是熟知的,可用照相平版印刷法技术进行表面原位合成(见Fodor等人,1991,Light-directed spatiallyaddressable parallel chemical synthesis,Science 251767-773;Pease等人,1994,Light-directed oligonucleotide arrays for rapid DNA序列analysis,Proc.Natl.Acad.Sci.USA915022-5026;Lockhart等人,1996,Expression monitoring by hybridization to high-density oligonucleotide arrays,Nature Biotech 141675;美国专利Nos.5,578,832;5,556,752;和5,510,270,每篇文献均全文引用作为参考),也可用其它快速合成和沉积限定的寡聚核苷酸的方法(Blanchard等人,1996,High-Density,Oligonucleotide arrays,Biosensors & Bioelectronics 11687-90)。当应用这些方法时,已知序列的寡聚核苷酸(如20-聚物)在表面(如一块衍生玻片)上直接合成。通常,产生的阵列包括针对每种靶转录子的多种探针。寡聚核苷酸探针可用于检测剪接mRNAs或作为各种不同类型的对照。
另一种制备微阵列的较佳方法是通过使用喷墨印刷过程在固相上直接合成寡聚核苷酸。
也可采用其它制备微阵列的方法,如掩模(Maskos和Southern,1992,Nuc.Acids Res.201679-1684)。理论上,任何类型的阵列,如尼龙杂交膜上的点杂交(见Sambrook andRussell,Molecular CloningA Laboratory Manual 3版,Cold Spring Harbor Laboratory,ColdSpring Harbor,N.Y.,2001)都可以采用。然而正如本领域技术人所认识的那样,非常小的芯片是优选的,因为杂交体积更小。
5.合成标记的探针制备总RNA和聚(A)+RNA的方法是熟知的,在Sambrook等人(同上)中有描述。在一个实施例中,从本发明感兴趣的多种生物样品中抽提RNA,其中用硫氰酸胍裂解后用CsCl离心(Chirgwin等人,1979,Biochemistry 185294-5299)。或着,可以用TRIzol试剂(Life Technologies),根据操作手册从样品中提取总RNA。Poly(A)+RNA用寡-dT纤维素选择(见Sambrook和Russell,同上)。有用的生物样品包括正常的肝样品、非癌变的肝样品以及来自确诊的临床样本的样品。
可用寡dT-引物或随机引物逆转录mRNA来制备标记的cDNA,这两种逆转录的方法都是熟知的(参见,如Klug和Berger,1987,Methods Enzymol.152316-325)。逆转录可在有dNTP存在时进行,所用的dNTP和可检测的标记物连接,最好是荧光标记的dNTP。或着,单链mRNA可在标记的dNTPs存在的条件下经双链cDNA体外转录合成标记的反义RNA(Lockhart等人,1996,Expression monitoring by hybridization to high-density oligonucleotide arrays,Nature Biotech.141675,该文献全文引入作为参考)。在另一个实施例中,cDNA或RNA探针可在没有可检测标记物存在下合成,然后再标记,如通过结合生物素标记的dNTPs或rNTP,或用一些相似的方法(如将生物素的补骨脂素衍生物与RNA进行光交联),然后加入标记的链亲和素(如偶连有藻红蛋白的链亲和素)或其等价物。
如果使用荧光标记的探针,有许多合适的荧光团是已知的,包括荧光素、丽丝胺若丹明、藻红蛋白、若丹明(Perkin ElmerCetus)、Cy2、Cy3、Cy3.5、Cy5、Cy5.5、Cy7、FluorX(Amersham)等(参见,如Kricka,1992,Nonisotopic DNA Probe Techniques,Academic Press SanDiego,Calif.)。应理解,可选择有不同发射谱的荧光团,以便于区分。
在另一个实施例中,使用荧光标记物之外的标记物。比如,可使用放射性标记物、或有不同发射谱的一对放射性标记物(见Zhao等人,1995,High density cDNA filteranalysisa novel approach for large-scale,quantitative analysis of gene expression,Gene156207;Pietu等人,1996,Novel gene transcripts preferentially expressed in humanmuscles revealed by quantitative hybridization of a high density cDNA array,Genome Res.6492)。但是,因为放射性微粒有散射因而需要间隔更大的结合位点,因此使用同位素标记物是次佳的实施例。
在一个实施例中,标记的cDNA在含有0.5mMdGTP,dATP,dCTP,0.1mM dTTP,荧光脱氧核苷酸(如,0.1mM若丹明110 UTP(Perken Elmer Cetus)或0.1mM Cy3 dUTP(Amersham))及逆转录酶(如SuperScriptTM II,LTIInc.)的混合物中,于42℃温育60分钟而得以合成。
6.与微阵列的杂交选择优化的核酸杂交和洗涤条件,使得探针“特异性结合”或“特异性杂交”于特异的阵列位点,即探针杂交、连接或结合于互补核酸序列的序列阵列位点上,而不杂交于非互补核酸序列的位点。如本文所用,如果当两个多核苷酸中较短的那一个小于等于25个碱基时,在标准碱基配对原则下无错配,或如果大于25个碱基时,错配就不会超过5%,那么一个多核苷酸序列被认为和另一个是互补的。较佳地,寡核苷酸可以完全互补(没有错配)。很明显,通过使用含阴性对照的杂交分析,可以使特异性的杂交条件产生特异性杂交(参见,如Shalon等人,同上,以及Chee等人,同上)。
优化的杂交条件取决于标记探针和固定化多核苷酸或寡核苷酸的长度(如寡聚物对长度超过200碱基的多核苷酸)及类型(如RNA、DNA、PNA)。对于核酸的特异的(即严谨的)杂交条件的通用参数,在Sambrook等人,同上,和Ausubel等人,1987,CurrentProtocols in Molecular Biology,Greene Publishing and Wiley-Interscience,New York中有描述。若采用Schena等人的cDNA微阵列,典型的杂交条件是在5xSSC加0.2%SDS,65℃下杂交4小时,然后于25℃在低严谨的洗涤缓冲液中洗涤(1xSSC加0.2%SDS),然后于25℃在高严谨的洗涤缓冲液中洗涤10分钟(0.1xSSC加0.2%SDS)(Shena等人,1996,Proc.Natl.Acad.Sci.USA,9310614)。可用的杂交条件也可以参见如Tijessen,1993,Hybridization With Nucleic Acid Probes,Elsevier Science Publishers B.V.andKricka,1992,Nonisotopic DNA Probe Techniques,Academic Press San Diego,Calif。
7.信号检测和数据分析若使用荧光标记的探针,转录本阵列的每一个位点上的荧光发射都可在共聚焦激光显微镜下观察到。荧光强度最好用Axon GenePix 4000扫描仪测量。在一个实施例中,使用适当的激发光对两个荧光团各进行一次独立的扫描。或者,可以使用一道激光在两种荧光团特定的波长下使样本同时发光,并且同时分析两个荧光团的发射(见Shalon等人,1996,A DNA microarray system for analyzing complex DNA samples usingtwo-color fluorescent probe hybridization,Genome Research 6639-645,该文献全文引入作为参考)。在一个较佳实施例中,阵列使用一个带有计算机控制的X-Y坐标和一个显微镜物镜的激光荧光扫描仪进行扫描。两个荧光团用多线混合气体激光连续激发,发射的光按波长分离并由双光电倍增管检测。荧光激光扫描装置在Schena等人,1996,Genome Res.6639-645及其所引参考文献中有描述。或者,Ferguson等人,1996,NatureBiotech.141681-1684中描述的光纤维束也可用于对大量的位点同时检测mRNA丰度水平。
信号被记录,并且在优选例中由计算机分析,如使用12比特模拟器至数字板。在一个实施例中,扫描的图像用图像程序(如Hijaak Graphics Suite)进行去斑点,然后用图像绘格程序分析建立一张各位点各波长的平均杂交数据表。如果必要,可以通过实验测定建立两个荧光通路间的“交叉对话”(或重叠)的修正。在一个较佳的实施例中,荧光强度可以通过GenePix Pro 3.0软件去掉背景信号,然后分析。然后基于通路强度、点的大小和“标志”(丢失的数据),对表达数据进行过滤,并对每个阵列的所有基因计算Cy5/Cy3比值并以中值为中心对比值进行归一化。对转录物阵列的任一特定的杂交位点,可以计算两种荧光团的发射比。比值不依赖于同源基因的绝对表达水平,但是对那些表达受到给药、基因缺失或其他任何事件明显调控的基因很有用。
根据本发明的方法,两个生物样品中的某个mRNA的相对丰度可以作为扰动及扰动程度的评分(即mRNA在两种测试源中的浓度是不同的),或认为没有扰动(即,相对浓度相等)。在不同的实施例中,两个RNA源在至少一个因素上相差至少约25%(一种来源的RNA的丰度比另一种来源的RNA丰度多25%),更通常约有50%,更通常该因素甚至相差约2倍(两倍丰度),3倍(3倍丰度)或5倍(5倍丰度)时,该差异被评为扰动。
较佳地,除了鉴定扰动是阳性还是阴性之外,测定扰动的大小是有利的。这可如上所述进行,如通过计算出用于差异标记的两种荧光团之间的发射比,或通过本领域技术人员显而易见的类似的方法。
8.通路反应和基因表达谱在本发明的一个实施例中,通过观察临床感兴趣样品的基因表达谱测定基因表达谱。在本发明的一个实施例中,通过将两种不同标记的探针混合物与微阵列杂交,可建立反映感兴趣生物样品转录状态的DNA微阵列,其中每一种探针对应一种临床感兴趣的样品或标准样品的mRNA。根据本发明,两种样品是同一种类的,即同一品系和组织类型的,但在临床诊断上可不同。那些表达高度相关的基因可属于同一种基因表达谱。
此外,为降低实验误差,最好在双色差异杂交实验中交换两种荧光标记物以降低对各个基因或阵列位点的偏差。换言之,最好先用一种标记方法测量两种被测细胞的mRNA基因表达(即,用一种荧光团标记被扰动的细胞,用第二种荧光团标记未被扰动的细胞),然后用相反的标记法测量两种细胞的基因表达(即,用第二种荧光团标记被扰动的细胞,用第一种荧光团标记未被扰动的细胞)。超过曝光水平和扰动对照参数水平的多个测量值,可提供额外的实验误差对照。如果充分取样,当选择仿样函数S的宽度(用于在反应函数中于平均误差和结构丢失之间内插反应数据)时,就可实现交换。
9.转录状态测量的其它方法细胞的转录状态可以通过其它基因表达技术测量。这些技术中的一些产生许多有限复杂度的限制性片段用于电泳分析,如双限制酶消化和阶段引物相结合的方法(参见,如欧洲专利0534858 A1,1992年9月24日由Zabeau等人申请),或选择位点最接近所述mRNA末端的限制性片段的方法(参见,如Prashar等人,1996,Proc.Natl.Acad.Sci.USA93659-663)。其他的方法可对cDNA池进行统计学取样,如通过对每个cDNA测定足够多的碱基(如,20-50个碱基)来确定每一个cDNA,或测短标签的序列(如9-10个碱基),其中该标签是在相对于某一mRNA末端的已知位点产生的(参见,如Velculescu,1995,Science 270484-487)。
10.生物状态的其他方面的测定在本发明的多个实施例中,可测定除了转录状态外生物状态,如翻译状态、活性状态或组合,以便获得对药物和通路的反应。这些实施例的细节在下文有描述。
11.转录状态测量的实施例转录状态的测量可根据多种方法进行。比如,对蛋白的全基因组监测(即,“蛋白组”,Goffeau等人,同上)可以通过构建微阵列而实现,其中的结合位点包括固定化的、对细胞基因组所编码的众多蛋白有特异性的抗体(优选单克隆抗体)。较佳地,存在的抗体可针对编码蛋白的大部分,或至少针对那些与感兴趣药物相关的蛋白。制备单抗的方法是熟知的(参见,如Harlow和Lane,1988,AntibodiesA Laboratory Manual,Cold Spring Harbor,N.Y.该文献全文引入作为参考)。在一个较佳的实施例中,根据细胞的基因组序列设计合成肽段,并产生抗这些肽段的单克隆抗体。用这样的抗体阵列,将细胞蛋白与阵列接触,就可用本领域已知的分析方法来分析它们的结合情况。
或者,蛋白可以通过二维凝胶电泳体系分离。二维凝胶电泳本领域中是熟知的。典型的二维凝胶电泳包括沿着第一维的等电聚焦,然后沿第二维的SDS-PAGE电泳。参见,如Hames等人,1990,Gel Electrophoresis of ProteinsA Practical Approach,IRL Press,NewYork;Shevchenko等人,1996,Proc.Nat′l Acad.Sci.USA931440-1445;Sagliocco等人,1996,Yeast 121519-1533;Lander,1996,Science 274536-539。形成的电泳图谱可通过多种技术分析,包括质谱技术、用单抗和多抗进行蛋白质印迹和免疫印迹分析,以及内部和N-末端微测序。应用这些技术,可以鉴定在给定物理条件下产生的所有蛋白的大片段,包括在和药物接触的细胞中(如在酵母中)、或通过缺失或过表达特定基因而修饰的细胞中产生的所有蛋白的大片段。
12.基于生物状态其它方面的实施例尽管本发明的方法是通过基因表达模式的例子进行阐述的,但是本发明的方法可用于任何能够被监测的细胞成分。
具体地,在与某种扰动有关的蛋白活性(如药物作用)可被测定时,本发明的实施例就可以建立在这些测量的基础上。活性测定可以通过任何适用于所测活性的功能的,生化的或物理的方法来进行。当活性包括化学变化时,细胞蛋白能与天然底物接触然后测定变化率。当活性包括多聚单元间的结合时,如活化的DNA结合复合物与DNA之间的结合,可以测量结合蛋白的数量或测量结合后引发的二级结果,如转录的mRNA数量。如果只有一种功能活性是已知的(如在细胞周期调控中),那么可以观察功能的行为表现。无论是已知的还是测定的,蛋白活性的变化可构成反应数据,而这些数据可通过本发明所述的方法进行分析。
在另一非限制性的实施例中,反应数据可以是细胞生物状态的混合因素构成。反应数据可以包括如某种mRNA丰度的变化、某种蛋白丰度的变化和某种蛋白活性的变化。
II.蛋白组分析在另一方面,本发明提供了检测标记物的方法,这些标记物差异存在于转移性HCC肿瘤样品或有HCC易感性病人(即,极易发展为HCC但还未发现肿瘤的病人)的组织样品中。这些标记物可以在多种生物样品中检测到。样品最好是生物组织样品的裂解物。
任何适当的方法都可用来检测一种或多种本文中所述的标记物。例如,可用气相离子光谱测定法。这个技术包括,如激光解吸/电离质谱测定法。较佳地,样品在气相离子光谱测定法之前制备,如通过预分级分离、二维凝胶层析、高效液相层析等,以便有助于检测标记物。可用气相离子光谱测定法之外的方法检测标记物。例如,应用免疫分析法监测样品中的标记物。这些检测方法在下文中有详细描述。
A.气相离子光谱测定法生物样品中的标记物可以用气相离子光谱测定法检测(质谱法更佳)。在一个实施例中,可以应用基质辅助激光解吸/电离(“MALDI”)质谱测定法。在另一个实施例中,可以应用表面增强激光解吸/电离(“SELDI”)质谱测定法。
1.气相离子光谱测定前的样品制备可用一种或联用多种本领域熟知的标准技术来制备样品,以进一步协助对样品中标记物的监测和鉴定。比如,在气相离子光谱测定分析法之前,可以用一种或多种以下的方法将样品分级分离得到较小的复合物样品大小排阻层析、阴离子交换层析、亲和层析、顺序提取、凝胶电泳、高效液相层析(HPLC)。
标记物也可以在分析前经过修饰提高其分辨率或确定其身份。比如,在分析前可将标记物蛋白水解消化。用适当的蛋白酶(如胰酶)消化得到的片段可以作为标记物的指纹,可以实现对它们的间接检测。
2.样品与一种底物接触后进行气相离子光谱测定法分析生物样品可与底物接触,如适用于气相离子光谱测定仪的光谱测定探针。或者,底物可以是一种独立的材料,它可以放在适用于气相离子光谱测定仪的光谱测定探针上。
光谱测定仪探针可以是任何适当的形状,只要它可以在气相离子光谱测定仪上使用(如,可移除地插入气相离子光谱测定仪)。光谱测定仪探针底物可以用任何适当的固体的或多孔的材料制成。适用于本发明的实施例的光谱测定仪探针在如美国专利No.5,617,060(Hutchens和Yip)以及WO 98/59360(Hutchens和Yip)中有描述。
如果样品的复杂性已经像上文所说的被充分降低了,样品可以和任何气相离子光谱测定仪适用的底物接触。在进行气相离子光谱测定分析前,在底物表面的标记物上一般会使用一种能量吸收分子(“EAM”)或基质材料。能量吸收分子和含有标记物的样品可以在任何适当的状态下接触。
样品的复杂性可以用底物进一步降低,这种底物含有能够与一种或多种标记物结合的吸附剂。结合标记物的吸附剂可以任何适当的方式(如连续的或不连续的方式)应用于底物,样品也可以与含有吸附剂的底物在任何适当的状态下接触,如水浴、浸透、浸渍、喷射、溅泼或移液等。接触后,最好洗去底物表面未结合的物质,从而使底物表面只留下结合的物质。
3.解吸/电离和检测底物表面的标记物可以在气相离子光谱测定术中去吸附并电离。任何适当的气相离子光谱测定仪都能使用,只要它可以使底物上的标记物解离。气相离子光谱测定仪最好可以对标记物定量分析。在一个实施例中,气相离子光谱测定仪是质谱仪,最好是激光解吸飞行时间质谱仪。在另一个实施例中,可用离子扩散光谱测定仪检测标记物。在另一个实施例中,总电子流测量装置可用于检测和鉴定标记物。
4.数据分析通过解吸和检测标记物得到的数据可用任何适当的方法分析。在一个实施例中,用一个可编程的数字式计算机分析数据组。计算机程序一般包括一个可读媒体,用来存储代码。某些代码专用于记忆,其中包括光谱测定仪探针上每一个特性位点,在这个特征位点的吸附剂的种类和洗脱吸附物的洗脱条件。计算机同时包括这些代码,它们作为输入的数据。各个分子团的信号强度来自探针上特定的可寻址部位。这些数据表示被检测标记物的数量,包括每个标记物生成的信号的强度。
数据分析可包括以下步骤,测定被测标记物的信号强度(如峰值)和除去偏离预设统计分布的数据。观察的峰值归一化,这是相对于某一参照来计算每一个峰高度的过程。比如,参照可以是仪器和化学物质(如吸收能量的分子)所产生的背景噪音,一般设为零。然后,探测到的每个标记物或其它生物分子的信号强度在所需刻度(如100)上以相对强度表示。或者,针对样品设一个标准(如血清蛋白),标准峰可作为参考计算每个被检测标记物或其他标记物的相对信号强度。
计算机可以将得到的数据转化为不同的显示格式。在一种称为“光谱图像或保留图谱”的格式中,可以显示标准的图谱,其中图像表明了到达探头的在每一个特定的分子量的标记物的数量。在另一称为“峰图谱”的格式中,光谱图像仅保留峰高和质量的有关信息,形成的图像比较简单明了,可更容易分辨分子量接近的标记物。在另一称为“凝胶图像”的格式中,峰图谱的每一个质量在每一个峰高的基础上转化为灰度图像,看上去和电泳凝胶上的条带相似。在另一称为“三维重叠”的格式中,可将几个光谱图重叠以比较它们在相对峰高度的微小差别。在另一称为“差异图谱”的格式中,可以比较两个或更多的波谱,更突出了不同的标记物和样品之间被上调或下调的标记物。任何两个样品的标记物模式(波谱)可以进行宏观地比较。在另一个格式中,可采用点火分散图(Spotfire Scatter Plot),其中被测的标记物在图中以点标出,其中图的一个轴代表被测标记物的表观分子,另一个轴代表被测标记物的信号强度。每一个生物样品的被测标记物和样品中标记物的数量都保存在计算机可读介质中。这些数据可以与对照比较(如在对照中检测到的标记物图谱或数量,例如样品还未检测出的转移性HCC或HCC易感性的病人)。
预测HCC患者的转移可能性或者有慢性肝病患者发展为HCC的可能性的方法,可以通过具有处理数据集的数字计算机执行代码来具体实现,而该数据集是来源于与患者样本接触后的芯片信号。代码通过数字计算机执行的目的是为了创建分析模型。该代码可以以任何适宜的电脑编程语言来书写,这些编程语言有Visual Basic,Fortran,C,C++等。数字计算机可以是使用任一标准或专业化操作系统,如基于Windows的操作系统的、微型的、迷你型或大型的计算机。标准PC(个人电脑)可以按照本发明的实施例来执行分析方法。
B.通过免疫分析来测定免疫分析可被用来检测和分析样本中的标记物。这个方法由以下组成(a)提供能特异结合于标记物的抗体;(b)将抗体和样本接触;和(c)检测样本中结合于标记物的抗体复合物的存在与否。
制备能与细胞标记物发生特异反应的多克隆和单克隆抗体的方法,是本领域技术人员已知的。参阅文献Coligan,Current Protocols in Immunology(1991);Harlow &Lane,AntibodiesA Laboratory Manual(1988);Goding,Monoclonal AntibodiesPrinciples and Practice(2d ed.1986);以及Kohler & Milstein,Nature 256495-497(1975)。例如,为了制备多抗,将已纯化的靶蛋白同佐剂相混合,然后用来免疫动物。当高滴度的靶蛋白抗体产生后,从动物收集血液,制备抗血清用于免疫分析。为制备单抗,将用靶蛋白免疫的动物脾细胞制成无限繁殖系,这通常通过与骨髓瘤细胞融合(参阅,Kohler和Milstein,Eur.J.Immunol.,6511-519,1976)。根据是否产生对靶蛋白有预期特异性和亲和性的抗体,对由单个永久细胞所产生的细胞克隆进行筛选。
如果标记物不是数据库中已知蛋白,即使只有标记物的一部分,可用该知识来确定核酸和氨基酸序列。例如,基于标记物N端氨基酸的序列,来制备简并的探针。然后用这些探针来筛选基因组或cDNA文库,其中该文库是用起初检测到标记物的样本创建的。使用已知的技术,阳性克隆可被鉴定、扩增,而且其重组DNA序列可被亚克隆。参阅,例如,Ausubel等人,Current Protocols for Molecular Biology,1994 andSambrook and Russell,同上。基于编码标记物的寡核苷酸,抗标记物的抗体可用本领域已知的任何合适方法制备。参阅例如,Huse等人,Science 2461275-1281(1989);Ward等人,Nature 341544-546(1989).
提供了抗体后,标记物可以用合适的免疫结合技术进行检测和/或定量(参见,例如,美国专利No.4,366,241;4,376,110;4,517,288;和4,837,168)。可用的分析包括如酶免疫分析(EIA)像酶联免疫吸收分析(ELISA)、反射性免疫分析(RIA)、Western印迹分析、狭缝斑点分析。这些方法在Methods in Cell BiologyAntibodies in Cell Biology,vol 37(Asai编辑.1993);Basic and Clinical Immunology(Stites & Terr,eds.,7th ed.1991);和Harlow & Lane(同上)中有叙述。
C、转移型HCC或HCC易感性的诊断另一方面,本发明提供了一种方法,该方法通过使用表2-7中已鉴定的一个或多个标记物,对HCC患者发展为转移型肿瘤可能性或慢性肝病患者转变为HCC趋势作出诊断。尽管少到只有一个从表2-7标记物中选出的标记物,也能作出正确的诊断,但是优选使用多个标记物,因为多标记物可以获得更多可靠的结果。较佳地,表2中至少10个细胞标记物被包含在标记物集中,并用于预测HCC患者的转移可能性,例如更佳地表2中至少15个、20个、25个、30个、40个、50个、60个、70个、80个90个或100个,甚至最优选的所有153个标记物被用作标记物。类似地,更佳地表5中至少有15个、20个、25个、30个、40个、50个、60个、70个、80个90个或100个,甚至最优选的所有273个标记物被用作标记物,用于测定慢性肝病患者患HCC的风险。表2-7中已鉴定的标记物可单独使用,也可同表中其他表格中的标记物联用,或同完全不同的标记物联用,以便协助诊断患转移型HCC或慢性肝病患者发展为HCC的易感性。与非转移型HCC和无HCC易感性的患者组织样本相比,在转移型HCC样本或HCC易感性患者组织样本中,表2-7中的标记物是分别差别存在的。例如,与非转移型HCC和无HCC易感性的患者组织样本相比,一些标记物高水平表达于和/或较高频率出现于转移型HCC或HCC易感性患者组织样本中。因此,检测人体内一个或多个这样标记物,可提供了某人患转移型HCC或易患HCC的可能性方面的有用信息。
因此,发明的例子包括辅助分析诊断HCC转移可能性的方法,以及辅助分析诊断慢性肝病患者发展为HCC可能性的方法,其中该方法包括(a)检测在样品中的至少一个标志物,该标志物选自表2-7已鉴定的标志物;(b)将一个或多个检测的标志物与转移性HCC的诊断或肝病患者发展为HCC的可能性相关联。该相关性可考虑与标志物的对照量(如非转移型HCC或无HCC易感性的个体)相比较时样品中的标记物数量。相关性可以考虑待检样品中标志物的出现与否和同一标志物在对照样品中检测频率。相关性可以兼顾这些因素,以便判断某人是否患转移性HCC和患可能发展为HCC的严重肝病。
用来检测标志物的合适样品可以从任一个体获得。较佳地,样品是从个体获得的肝组织样品。如果需要,样品可以按照上述方法制备以增强标志物的可检测性。
可以采用任何适当方法来检测样品中的标志物。比如,如上所述可以采用气相离子光谱测定法。应用这些方法,可以检测一个或多个标志物。较佳地,检测样品是否存在多个标志物。检测多个标志物而不是单个标志物的存在,能为诊断提供更多信息。明确地说,在一个样品中检测多个标志物可增加诊断中的真阳性和真阴性,同时将减少诊断中的假阳性和假阴性。
接着,标志物的检测结果与发展为转移型HCC的可能性相关联,或者与严重肝病患者发展为HCC易感性相关联。在某些例子中,仅检测标志物存在与否而不定量标志物数量就是有用的,并可与发展为转移型HCC或严重肝病患者发展为HCC的易感性的大概诊断结果相关联。
另外,检测标志物可包括定量标志物,并将标志物检测结果与发展为转移型HCC或严重肝病患者发展为HCC的易感性的大概诊断结果相关联。例如,已检测到转移型HCC患者中OPN水平增加。这样,如果某待检个体的标志物量高于正常量,那么该个体有高度可能性发展为转移型HCC或者对于严重肝病患者而言有发展为HCC的倾向。
当标志物被定量时,可与对照相比较。对照可以是,例如正常个体的类似样品中的标志物平均值,其中该正常个体无发展为转移型HCC的倾向,或对于慢性肝病患者而言无发展为HCC的倾向。对照组数量与待检样品数量在相同或基本相似的实验条件下测定。例如,如果待检样品为某个体的血清样品而且是采用特定的探针来检测某标志物的话,那么该标志物的对照数量优选应用同样的探针对患者的血清样本进行测定。较佳地,标志物的对照数量,是在大量的无HCC转移的正常个体的样品或无HCC易感性的个体的组织样品的基础上确定的,以便反映在该人群中标志物数量的变异。
计算机软件可以分析质谱测得的资料。该软件的代码可将质谱分析信号转变为计算机可读的形式。该软件还可包括代码,该代码用于应用算法来分析前述信号,以明确这个信号中是否代表了对应于本发明标志物或其他有用的标志物信号“峰”。该软件还可包括代码,该代码用于执行算法,从而将测试样品信号与“正常的”和转移型HCC或HCC易感性的严重肝疾病病人的典型信号特征进行比较,并确定在两个信号间的密切性。该软件还可包括代码,该代码提示待检样品最接近哪一种情况,并提供大概的诊断。
III.治疗靶点生物学活性的调节骨桥蛋白(OPN)和EpCAM与HCC患者的转移和慢性肝病患者发展为HCC均呈正相关。因此,本发明的一个目的就是鉴别调节,尤其是抑制,OPN或EpCAM活性的化合物。
A.生物学功能的测定OPN及其等位基因和多种变异物均是分泌性磷蛋白,其由SEQ ID NO1编码而且其氨基酸序列示于SEQ ID NO2。可采用多种体内和体外的方法来测定OPN多肽的功能、化学和物理作用,如测定受体结合(如与放射性受体结合)等,从而评价OPN多肽的活性。更下游的事件(如改变诸如细胞分裂、细胞分化等细胞事件),也可用作间接表示OPN活性的改变。此外,这些方法可用来检测和筛选OPN活性的拮抗剂。拮抗剂可从基因角度改变OPN的形式,如蛋白质的显性阴性形式。这些OPN活性拮抗剂可用于治疗转移型HCC。
用于分析的OPN可选自有SEQ ID NO2序列的多肽,或其保守修饰的变异体或片段。普遍地,氨基酸序列的相同性至少70%,任选地至少80%,或任选地至少90-95%。任选地,用于分析的多肽可包含OPN结构域,如受体结合域、胞外基质结合域等。OPN或它的结构域可共价结合于异源蛋白以形成用于本分析的嵌合蛋白。
采用如上所述的重组或天然的OPN多肽,可测试OPN活性的调节剂。这种蛋白质可以重组或天然的形式在细胞中表达、从细胞中分泌、在组织或动物中表达,并且被分离。例如,可使用肝脏切片、分离的肝细胞或转化的细胞。采用本文所述的一种体内或体外方法可检测对OPN的拮抗性。此外,在体外的液相或固相反应中可用OPN蛋白的受体结合域来检测受体结合。
受体与OPN、结构域或嵌合蛋白的结合,可在溶液中、双分子膜上、固相载体上、脂质单层上或小泡上测试。可应用光谱特性的变化(如荧光、吸光度、折射率)、流体(如形态)、层析或溶解特性来测试拮抗剂的结合情况。
用潜在的OPN抑制剂处理的样品或分析,通过与不含待检化合物的对照样品相比,来检验拮抗程度。对照样品(未用拮抗剂处理)被定为相对OPN活性值为100。当与对照相比,OPN活性值为约90%、任选地50%、任选地25-0%时,就认为实现了对OPN的拮抗。
在拮抗剂存在的情况下,可通过检测OPN与玻连蛋白受体的结合能力的变化,来评估OPN受体结合的改变。总之,待检化合物的范围为1pM到100mM。
待检化合物对多肽功能的影响可通过测量上述任一参数而测定。任何影响OPN活性的相应生理学变化,可用来评价待检化合物对本发明多肽的影响。当应用完整细胞或动物测定功能结果时,人们还可测量各种不同的效果,如已知和未知遗传标志物的转录变化(如Northern印迹),如细胞代谢的变化(如细胞生长或pH变化)。
类似地,可在如上所述的相同原理和方法学的基础上监测EpCAM的生物学功能。例如,已知EpCAM在上皮源性细胞的粘附中发挥作用,其正常功能依靠其胞外和胞内结构域。因此,可基于诸如细胞聚集、与其已知的结合配对物的特异作用(如通过胞内结构域与肌动蛋白作用)以及信号转导的中断(已知这是EpCAM调节的),来检测EpCAM的功能。各种不同的细胞事件可作为EpCAM的活性的指示物,并有助于筛选作为EpCAM拮抗剂的化合物。
A.拮抗剂作为OPN或EpCAM拮抗剂而测试的化合物可以是任何小的化学物质,或生物物质,例如蛋白、糖、核酸或脂类。抗蛋白的不同抗体是可能的拮抗剂候选物。例如,许多单克隆抗体,如17-1A和GA733,已知道可以特异性地结合EpCAM,因而可通过恰当的分析来测试它们干扰EpCAM生物学功能的能力。
另外,拮抗剂可以是遗传上改变的OPN或EpCAM的形式,例如所谓的“显性阴性(dominant negative)”形式,一种无生物活性的形式,它通过竞争有限的结合伴侣来抑制野生型副本的正常功能。通常,测试化合物是化学小分子和肽。虽然化合物多溶解于水溶液或有机溶剂(特别是基于DMSO的),但是基本上任何化合物可用作本发明分析方法中的潜在拮抗剂。通过检测过程自动化和为分析提供来自任何方便来源的化合物,本分析方法被设计成用于筛选大的化学库,通常分析是进行平行进行的(例如在自动检测中,在微孔滴定板上采用微孔滴定的格式)。应理解,有许多的化合物供应商,包括Sigma(St.Louis,MO),Aldrich(St.Louis,MO),Sigma-Aldrich(St.Louis,MO),Fluka Chemika-BiochemicaAnalytika(Buchs Switzerland)等等。
在一个优选的实例中,高通量筛选的方法包括提供一个组合的化学库或肽库,该库包含大量的具有潜在治疗性的化合物(潜在的调节剂或配体化合物)。如本文所用,通过一种或多种分析方法筛选该“组合化学库”或“配体库”,从而鉴别出具有所需的特征活性的库成员(具体的化学种类或亚组)。这样鉴别出的化合物可作为常规的“先导化合物”,或者本身可用作潜在的或实际的治疗剂。
组合化学库是不同化合物的集成,可以是通过化学合成或生物合成,综合许多化学的“建筑砖块(building blocks)”,如试剂。例如,线性组合的化学库(如多肽库),是对于给定的化合物长度(如多肽化合物的氨基酸数量),通过在任一可能方向上组合一组化学建筑砖块(氨基酸)而形成的。通过化学建筑砖块的这种组合式混合,就可以合成上百万种化学化合物。
如何准备和筛选组合化学库,是本领域技术人员熟知的。这些组合化学库包括(但并不限于)多肽库(见美国专利5,010,175;Furka,Int.J.Pept.Prot.Res.37487-493,1991;和Houghton等人,Nature 35484-88,1991)。其它制造化学多样性库的化学方法也可以用。这些化学方法包括(但并不限于)类肽(如PCT出版物No.WO 91/19735),编码的多肽(如PCT出版物WO 93/20242),随机的生物寡聚物(如PCT出版物No.WO 92/00091),苯并二氮类(如美国专利号5,288,514),多样体(diversomer)例如乙内酰脲类,苯并二氮类和二肽类(Hobbs等人,Proc.Nat.Acad.Sci.USA 906909-6913,1993),联乙烯多肽(Hagihara等人,J.Amer.Chem.Soc.1146568,1992),具有葡萄糖骨架的非肽类的多肽模拟物(Hirschmann等人,J.Amer.Chem.Soc.1149217-9218,1992),小化合物的模拟有机合成库(Chen等人,J.Amer.Chem.Soc.1162661,1994),寡聚氨基甲酸(Cho等人,Science 2611303,1993),和/或肽酰膦酸酯(Campbell等人,J.Org.Chem.59658,1994),核酸库(参见Ausubel,Berger和Sambrook,都同上),肽核酸库(参见,例如,美国专利5,539,083),抗体库(参见,例如,Vaughn等人,Nature Biotechnology,14(3)309-314,1996和PCT/US96/10287),碳水化合物库(参见,例如,Liang等人,Science 2741520-1522,1996和美国专利5,593,853),小有机分子库(参见,例如,苯并二氮,Baum C&EN,1月18日,p33,1993;类异戊二烯,美国专利5,569,588;噻唑和三聚噻唑,美国专利5,549,974;吡咯烷,美国专利5,525,735和5,519,134;吗啉化合物,美国专利5,506,337;苯并二氮,5,288,514,等等)。
制备组合库的设备已商品化了(参见,例如,357 MPS,390 MPS,Advanced Chem Tech,Louisville KY,Symphony,Rainin,Woburn,MA,433A Applied Biosystems,Foster City,CA,9050Plus,Millipore,Bedford,MA)。另外,许多组合库也已商品化了(参见,例如,ComGenex,Princeton,N.J.,Tripos,Inc.,St.Louis,MO,3D Pharmaceuticals,Exton,PA,Martek Biosciences,Columbia,MD,etc.)。
C.固态和可溶性的高通量分析在一个实施例中,本发明提供了可溶性分析方法,其中使用分子,例如结构域(如受体结合结构域、胞外基质结合结构域等等);共价连于异源蛋白以形成嵌合分子的结构域;OPN或EpCAM;或自然或重组表达OPN或EpCAM的细胞或组织。在另一实施例中,本发明提供了基于固相的高通量格式的体外分析方法,其中结构域、嵌合分子、OPN或EpCAM、或者表达OPN或EpCAM的细胞或组织,被附着于固相载体基质。
在本发明的高通量分析中,一天可以筛选高达数千个不同的拮抗剂。具体地,每个微孔滴定板的孔可以针对所选的潜在调节剂单独分析,或者,如果要考虑浓度或孵育时间的影响,每个调节剂可以用5-10个孔进行检测。因此,一个标准的微孔滴定板可以检测约100(如96)种调节剂。如果使用1536孔的板,那么一块板很容易分析100到1500个不同的化合物。如果使用本发明的整套系统,每天可能分析几块不同的板,可能筛选多达6,000-20,000个不同的化合物。最近,Caliper Technologies(Palo Alto,CA)公司已开发了试剂操作的微液方式。
感兴趣的分子可以直接或间接通过共价或非共价连接方式(如通过标签)而连于固相成分上。标签可以是各种不同的成分。通常,结合了标签的分子(标签结合体)被固定在固相载体上,而感兴趣的结合了标签的分子(如感兴趣的信号转导分子)通过与标签及标签结合物的相互作用而连于固相载体。
基于文献中充分描述的分子相互作用,可以使用许多种标签及其结合物。例如,当标签具有诸如生物素、蛋白A、或蛋白G等天然结合物时,它可以与合适的标签结合物(亲合素、链亲合素、中性亲合素、免疫球蛋白Fc段等等)偶联。用天然结合物(如生物素)偶联于分子的抗体,是供应充足的并且是合适的标签结合物;见SIGMA Immunochemicals1998目录(SIGMA,St.Louis MO)。
类似地,任何半抗原或抗原性化合物可用于与合适的抗体结合形成标签/标签结合物配对。数以千计的特异性抗体已经商品化,并且许多额外的抗体在文献中有描述。例如,在常用形式中,标签是第一抗体而标签结合物是识别第一抗体的二抗。除了抗体-抗原的相互作用之外,受体-配体间相互作用也适合作为标签和标签结合物对。例如,细胞膜受体结合剂和拮抗剂(例如细胞受体-配体相互作用,如转铁蛋白、c-kit、病毒受体配体、细胞因子受体、化学因子受体、白介素受体、免疫球蛋白受体和抗体、钙粘合素家族、整联蛋白家族、选择素家族等等;见例如,Pigott & Power,The Adhesion Molecule Facts Book I(1993))。同样地,毒素和毒液,病毒的抗原表位,激素(如鸦片、类固醇等等),胞内受体(如介导不同小配体作用的受体,这些小配体包括类固醇、甲状腺激素、类维生素A和维生素D、多肽),药物,植物凝集素,糖,核酸(线性或环状多聚物结构),寡糖,蛋白,磷脂,和抗体都能够和各种不同的细胞受体相互作用。
合成的多聚物,如聚亚胺酯、聚酯、聚碳酯、聚尿素、聚酰胺、聚乙烯亚胺、聚硫化苯乙烯、聚硅氧烷、聚酰亚胺、和聚乙酸酯也可以形成合适的标签或标签结合物。许多标签/标签结合物配对也可用于本文所述的分析系统,这对于阅读了公开内容后的技术人员而言是显而易见的。
常用的连接体如肽、聚醚、和类似物也可以作为标签,并且包含多肽序列,如约5-200氨基酸的多聚甘氨酸序列。对本领域技术人员而言,这些柔性的连接体都是已知的。例如,聚(乙二醇)连接体可以从Shearwater Polymers,Inc.Huntsville,Alabama购得。这些连接物可任选地含有酰胺键、巯基键、或异功能键。
标签结合物可用已有的各种不同方法固定于固相基质上。通常,通过将全部或部分基质暴露于化学试剂而使固相基质衍生化或功能化,其中该化学试剂将化学基团固定于表面,而该化学基团可与标签结合物的一部分反应。例如,适合连接长链部分的基团包括胺、羟基、巯基、和羰基。氨基烷基硅烷和羟基烷基硅烷可用于活化多种表面,如玻璃表面。该种固相生物多聚物阵列的结构,在文献中有充分描述。见例如,Merrifield,J.Am.Chem.Soc.852149-2154(1963)(描述了固相合成诸如肽等物质);Geysen等人,J.Immun.Meth.102259-274(1987)(描述了在针尖上合成固相成分);Frank & Doring,Tetrahedron4460316040(1988)(描述了在赛璐珞片上合成不同的肽序列);Fodor等人,Science,251767-777(1991);Sheldon等人,Clinical Chemistry 39(4)718-719(1993);和Kozal等人,Nature Medicine2(7)753759(1996)(都描述了固定于固相基质的生物多聚物阵列)。将标签结合物固定于基质的非化学方法包括加热、通过紫外线照射交联等等。
D.基于计算机的分析另一种筛选调节OPN或EpCAM活性的化合物的方法是计算机辅助的药物设计,其中基于氨基酸序列产生的结构信息,利用计算机产生OPN或EpCAM的三维结构。输入的氨基酸序列直接地和积极地通过计算机程序已建立的算法,来产生二级、三级和四级蛋白质结构模型。然后,检查这些蛋白质结构,以确认具有结合活性的结构区域(如结合于配体)。这些区域被用于鉴别结合于蛋白质的配体。
通过在计算机系统中输入至少10个氨基酸残基或相应编码的OPN或EpCAM多肽的核酸序列,可产生蛋白质的三维结构模型。例如,OPN多肽的氨基酸序列或编码该多肽的核酸选自SEQ ID NO1或2,及其保守性修饰形式。氨基酸序列表示了蛋白质的一级序列或亚序列,它编码了蛋白质的结构信息。由计算机键盘输入至少10个氨基酸序列残基(或编码10氨基酸的核苷酸序列),计算机可读的介质包括(但不局限于)电子存储介质(如磁盘、磁带、磁盒和芯片),光学介质(如CD ROM)、因特网网站发布的信息、或通过RAM。然后,使用本领域技术人员已知的软件,通过计算机系统和氨基酸序列的相互作用,可产生蛋白质的三维结构模型。
氨基酸序列是一级结构,它编码了形成感兴趣蛋白的二级、三级和四级结构所需的信息。软件察看产生结构模型的由一级序列编码的某些参数。这些参数被称为“能量项”,主要包括静电势、疏水势、溶剂可达到的表面和氢键。二级能量项包括范德华力。生物分子形成的结构以累积形式减少能量项。因此,计算机程序可利用一级结构或氨基酸序列编码的能量项来产生二级结构模型。
然后,基于二级结构的能量项,形成由蛋白质二级结构所编码的三级结构。这时使用者可以输入额外的参数,例如蛋白是否是膜结合或可溶的、在体内的定位、细胞定位(如细胞质、表面、核)。这些变量结合二级结构的能量项可形成三级结构模型。在模拟三级结构时,计算机程序将二级结构的疏水性面相互匹配,将亲水性面相互匹配。
一旦产生化合物结构,蛋白配体结合区域可被计算机系统识别。潜在配体的三维结构可通过输入化合物的氨基酸或核苷酸序列或化学式而生成,如上所述。将该潜在配体的三维结构与OPN或EpCAM蛋白相比较,可确定出与OPN或EpCAM的结合的配体。蛋白和配体的亲和结合可用能量项来确定哪一种配体与蛋白结合的可能性更大。
计算机系统也被用于筛选OPN基因或EpCAM基因的突变体、多态性变异体、等位基因和种间同源物。这些突变体与病状或遗传特性有关。如上所述,基因芯片和相似的技术可以用来筛选突变体、多态性变异体、等位基因和种间同源物。一旦变异体被确认,可将诊断方法用于鉴别具有这种突变基因的病人。例如,鉴别突变的OPN基因包括接受输入的选自SEQ ID NO1和2的第一氨基酸序列或编码OPN的核酸序列,及其保守性修饰形式。如上所述,将序列输入计算机系统。然后,将第一核酸或氨基酸序列与第二核酸或氨基酸序列相比较,其中第二序列与第一序列基本相同。如上所述,将第二序列输入计算机系统。一旦第一和第二序列被对照后,序列间不同的核苷酸或氨基酸就被确认。这些序列可表示OPN基因的等位差异,以及与病症和遗传特性有关的突变。同样的通用策略也可用于检测EpCAM变异体和突变体。
D.试剂盒感兴趣蛋白及其同源物是确定拮抗剂的有效工具。例如,与OPN核酸特异杂交的OPN-特异性物质(如OPN探针和引物),以及与OPN蛋白特异结合的OPN特异性物质(如OPN抗体),可用于检测肝细胞表达、信号传导调节和HCC转移的诊断。相同的通用方法对EpCAM同样适用。
鉴定样本中是否存在OPN或EpCAM的多核苷酸的核酸分析技术包括本领域技术人员所熟知的许多技术,如Southern印迹分析、Northern印迹分析、点杂交、RNase保护、S1分析、扩增技术如PCR(含RT-PCR)、LCR、和原位杂交。在原位杂交中,例如,将目标核酸(如编码OPN的核酸)从胞内环境中释放出来,同时保持细胞形态用于随后的阐明和分析(见实施例1)。下列文章提供了原位杂交的综述Singer等人,Biotechniques4230-250(1986);Haase等人,Methods in Virology,vol.VII,pp.189-226(1984);和NucleicAcid HybridizationA Practical Approach(Hames等人编.1987)。另外,OPN或EpCAM蛋白可以用前述各种不同的免疫分析技术检测。测试样品通常与阳性对照(如样品中含有重组的OPN或EpCAM)和阴性对照进行比较。
本发明还提供了用于筛选OPN或EpCAM调节剂的试剂盒。该试剂盒可以从很现成的材料和试剂来准备。例如,该试剂盒包含下列材料的一种或多种OPN(或EpCAM)、试管、检测OPN(或EpCAM)活性的说明书。任选地,试剂盒可含有具生物活性的OPN(或EpCAM)。各种不同的试剂盒及其组分,可以按照使用者的不同需要和特殊需求的使用者来制备。
II抑制治疗靶点的表达对HCC病人而言,另一种通过抑制OPN活性来抑制HCC转移的手段是抑制OPN的表达。同样,通过抑制EpCAM表达可以减缓慢性肝病患者发展为HCC。本领域技术人员熟知的各种不同方法,可用来特异性地抑制特定基因的表达。
A反义多核苷酸反义技术已经是在方案中描述最广的、用于实现基因特异性失活的方法,并且是研究和诊断中的有用工具。例如,反义寡聚核苷酸能够高度特异性地抑制基因的表达,并经常作为生物科学的常规手段来阐明特定基因的功能。
反义多核苷酸的特异性和灵敏性使得其适合用于治疗途径。大量的美国专利和科学发表作品设计了利用反义多核苷酸作为治疗动物和人的治疗剂。参见,例如美国专利No.6,080,580;6,180,403;6,255,111;6,306,655;6,440,739;和6,524,854。一个反义多核苷酸包含一个与待失活的基因序列(如SEQ ID NO1或SEQ ID NO5)互补的序列,并且长度可以变化,如从小于10个核苷酸到大于100个核苷酸,能够安全有效地施用于对象(如人)。反义核苷酸可以是寡聚的或多聚的核糖核酸(RNA)或脱氧核糖核酸(DNA)或其模拟物。它可以由天然存在的核碱基、糖和共价的核苷间键合(骨架),以及功能相似的非天然存在的寡核苷酸所构成。这些修饰的或替代的反义寡聚核苷酸常常比天然形式更优选,因为具有一些有利特性,如提高细胞的摄取、提高与靶核酸的亲和性,以及在核酸酶存在下提高稳定性。本发明的反义寡聚核苷酸也可以包括修饰后的骨架或非天然的核苷间的键合。优选的修饰后的寡聚核苷酸骨架包括例如硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、甲基膦酸酯和其他的烃基膦酸酯(包括包括3′-链烯基膦酸酯和手性膦酸酯)、次磷酸酯、氨基磷酸酯(包括3′-氨基磷酸酰胺和氨基烷基磷酰胺)、巯碳氨基磷酸酯、巯碳烷基膦酸酯、巯碳烷基磷酸三酯、和硼烷-磷酸酯,它们可具有正常3′-5′键合,2′-5′的类似键合,以及极性相反的键合,其中相邻核苷单元以3′-5′至5′-3′或2′-5′至5′-2′方式连接。同时也包括各种盐、混合盐,以及游离酸等形式。
另外,适用于本发明的反义核苷酸可对应于靶核酸(如OPN或EpCAM)的编码序列和非编码序列。
B.核酶使用核酶可以减少感兴趣的基因(如OPN或EpCAM)的mRNA水平。核酶是有酶活性的RNA分子,能够以核苷酸序列特异方式切割或剪接其他独立的RNA分子。可用于本发明的核酶是一种具有催化或酶活性的RNA分子,其底物结合区与特定RNA靶目标(如OPN或EpCAM的mRNA)是互补的,并且具有在该靶目标中切割和/或剪接RNA的酶活性,从而抑制靶基因的表达。针对特定基因而设计和使用核酶的方法,对于本领域技术人员而言是已知的,并且在许多出版物中有阐述,包括美国专利No.6,069,007;6,107,027;6,225,291;6,307,041;6,482,803;和6,489,163。
C.小的抑制性RNA(siRNA)另一种可减少目的mRNA和蛋白质水平的有用工具是小的抑制性RNA(siRNA)。siRNA分子是小的双链RNA分子,它可引起已知的RNA干扰过程,这是一种形式的序列特异性的基因失活。一种提出的RNA干扰机制假设,在mRNA和siRNA的反义链之间形成的短双链RNA,会激活依赖于ATP的mRNA分子剪切。Zamore等人,Cell10125-33,2000。已表明,RNA干扰存在于哺乳类细胞系、卵母细胞、早期胚胎和某些细胞类型中。参见例如Elbashir,Sayda M.,等人,Nature 411494-497,2001。siRNA编码序列可以基于靶基因序列(如OPN,或EpCAM)而设计,并且插入各种不同的合适载体(如质粒或病毒载体),而这些载体具有正确放置的转录起始和终止元件。当用于所需的真核受体时,可使用真核的转录调控元件。用本领域技术人员熟知的转基因的通用方法,可将含siRNA的载体输送到所需的靶目标。因此,RNA干扰提供了另一种基于序列而特异性抑制基因表达的方法,即通过快速降解基因(如OPN或EpCAM)的mRNA。
D检测减少的靶基因表达在服用了治疗性药物(其中该药物含有能抑制靶基因的表达(如OPN或EpCAM)表达的物质)之后,可通过比较服药前后靶基因的体内水平,评估治疗性药物的功效。后面的章节将阐述服用药物制剂的通用方法。
当在转录水平上抑制基因的表达(如减少靶基因的mRNA数量)时,可通过比较服用治疗性药物前后的靶基因(如OPN或EpCAM)的mRNA水平,如采用Northern印迹分析、点杂交、RT-PCR等等,从而确认靶基因的表达下降。进行这类分析的通用方法是本领域技术人员所熟知的,并且在许多文献中有阐述(见Sambrook和Russell,同上,以及Ausubel等人,同上)。
当在翻译水平抑制基因表达(如减少靶基因编码的蛋白量)时,可采用本领域专业人员熟知的各种测量组织样本中蛋白质水平的手段,来比较服用治疗性药物前后的靶基因(如OPN或EpCAM)编码的蛋白水平,从而确认靶基因的表达下降。如前所述,多种免疫分析方法可常规地用于检测感兴趣蛋白质(如OPN或EpCAM)的存在与否和数量。在Harlow和Lane,Antibodies,A Laboratory Manual,1988一书中对可用技术有全面的综述。
合适的抗靶蛋白(如OPN或EpCAM)的抗体是免疫分析所必需的。制备抗靶蛋白的特异性抗体的通用方法是本领域技术人员所熟知的,并且前面章节有描述。此外,已有一些具有所需特异性特异性的抗体用于免疫分析(如抗OPN或EpCAM的各种单克隆抗体)。
一旦得到靶蛋白(如OPN或EpCAM)的特异性抗体,病人的靶蛋白水平可以通过各种不同的免疫分析方法测定,从而为临床医生提供定性或定量的结果。病人的各种不同样品,如血液或肝组织,可以通过免疫分析按照前些章节描述的方法检测体内的靶蛋白水平。对于免疫学的和免疫分析方法的全面综述,可参见Stites,同上;美国专利No.4,366,241;4,376,110;4,517,288;和4,837,168。
V.施用抑制靶蛋白活性的物质和药物组合物抑制靶蛋白(如OPN或EpCAM)活性的物质可以直接施用于病人,从而调节体内的靶蛋白活性。给药方式可以是用于使拮抗剂或抑制剂化合物与待治疗组织最终接触的任何常用方法,例如通过舌或口。拮抗剂或抑制剂可以任选地与药学上可接受的载体一起,用任何合适的方式施用。诸如拮抗剂或抑制剂的合适的给药途径是本领域技术人员所熟知的,而且虽然对一特定组合物有多种给药途径,但是某一特定途径常常比其他途径提供更快速而有效的反应。
药学上可接受的载体,通常部分地由待施用的特定组合物以及施用该组合物的特定方法所决定。因此,本发明的药物组合物可以有各种不同的合适制剂(见RemingtonPharmaceutical Sciences,17版,1985)。
拮抗剂或抑制剂,单独地或与其他合适的组分一起,可以制成气雾剂制剂(即它们可以被喷雾化),以便通过吸入而给药。气雾剂制剂可以置于加压的合适推进剂中,如二氯二氟甲烷、丙烷、氮气等等。
适合给药的制剂包含水性和非水性溶液,等渗的无菌溶液(它们可含有抗氧化剂、缓冲液、抑菌剂、和用于给制剂提供等渗性的溶质),水性和非水性的无菌悬浮液(它们可含有混悬剂、增溶剂、增稠剂、稳定剂和防腐剂)。在本发明的实际应用中,组合物可通过口服、局部、静脉内、腹腔内、膀胱内或鞘内给药。任选地,组合物也可以通过口腔或鼻腔给药。化合物制剂可以存在于单剂量或多剂量的密封容器(如安瓿瓶、小瓶)中。溶液和悬浮液可以通过前述的无菌粉剂、颗粒剂、和片剂制备。调节剂也可以作为制备好的食物或药物的一部分而给药。
在本发明的上下文中,施用于病人的服药剂量应该足以在一段时间在该个体中产生有益效果。该剂量可由所采用的特定信号调节剂和个体状况(如体重或待治疗区域的表面积)所决定。剂量大小,还决定于将该特定化合物或载体施用于特定个体时所伴随的任何不利副反应的发生与否、性质和程度。
在确定病人服用拮抗剂和抑制剂的有效剂量时,可评估药物的血液循环情况、毒性以及是否产生抗该药物的抗体。一般地,对于典型个体而言,拮抗剂或抑制剂的剂量当量约为1ng/kg到10mg/kg。
对于给药,本发明的拮抗剂和抑制剂给药可以按测定的速率给药,该速率是由应用于个体的大部分和全身时的拮抗剂的LD50和不同浓度下抑制剂的副反应所决定。给药可通过单剂量或分开剂量方式实现。
IV实例这里所阐述的实施例和例子仅用于说明目的,各种修改或改变形式会提示给阅读了内容之后的本领域技术人员,因而这些修改或改变形式包括在本申请精神和范围之中,也包括在所附权利要求的范围之内。本文提及的所有出版物、专利和专利申请都毫无限制地全部引入本文作为参考。
A.实施例1预测肝细胞癌(HCC)扩散的易感性1.材料和方法a)病人和组织样本所有的HCC样品取自中国复旦大学附属中山医院肝癌研究所的知情同意的做过手术切除的病人。从中国复旦大学附属中山医院肝癌研究所(原上海医科大学)经过肝切除术且病理学诊断为HCC的40位病人中获得了107对原发性HCC、转移HCC和邻近的非肿瘤正常肝组织样品。手术前,所有病人均做了腹部CT和胸部X射线检查,部分患者根据需要还做了同位素扫描检查。在107对样本中,81对来自27位原发性HCC病人,包括相对应的相邻非肿瘤肝脏组织和转移HCC[15对存在肝内扩散(P组),12对存在门静脉分支肿瘤血栓],26对来自13位仅有原发性HCC的患者及其相对应的非肿瘤肝组织(在手术时没有可检测的转移)。肿瘤和非肿瘤组织在切除后切成小块,速冻于液氮中,贮藏在-70度直至使用前。我们用显微镜确认了肿瘤组织样品,其转移主要由癌细胞构成,而非肿瘤相邻肝脏样品中不存在任何入侵的癌细胞。40个病人中,男39人,女1人。病人年龄从36到74岁,中值为50岁。原发性HCC的直径大小范围从1.3-17.5cm,直径中值为7.2cm,其中65%(26/40)的直径大于5cm,其余的直径≤5cm。32个样本(80%)存在肝硬化。除一人外所有患者HBV阳性,但没有人HCV阳性。27名患者(68%)血液中甲胎蛋白浓度升高(AFP)(>20ng/ml)。
b)RNA制备,cDNA点阵和杂交参照制造商的说明,用TRIzol试剂(Life Technologies,Inc.)提取样品中总RNA。CDNA微阵列(芯片)是美国癌症研究所高级技术中心(NCI)制造的。每个阵列含有9180个cDNA克隆,其中有7102个已经命名的基因,1179个EST克隆,和122个Incyte的克隆。用直接标记法制备荧光标记的cDNA,cDNA微阵列的杂交基本上按照Wu等人,Oncogene203674-3682,2001中所述的方法。简而言之,荧光的靶物质按如下方法制备采用SuperScript II逆转录酶(Life Technologies),通过寡聚dT-引物聚合反应,将Cy3-偶联的脱氧核糖核酸(Amersham)标记到100μg非癌症肝脏组织的总RNA上,或将Cy5-偶联的脱氧核糖核酸(Amersham)标记到200μg原代的HCC或转移组织的总RNA上。将靶物质混合后加至微阵列中,42℃孵育过夜(12-16小时)。杂交之前,每个微阵列与含5×SSC,0.1%SDS和1%BSA的预杂交液在42℃预杂交至少1个小时。载玻片在室温分别用2xSSC,0.1%SDS和1xSSC和0.2xSSC各洗涤2min,然后用0.05xSSC洗涤1min。提到的绝大部分样品做双份。每个克隆的Cy3和Cy5荧光强度用Axon GenePix 4000扫描仪采集并且用GenePix Pro 3.0软件剔除背景信号。按照各通道的荧光强度、点大小和旗标(flag)过滤表达数据,然后计算Cy5/Cy3的比例,并且在每个芯片中通过以中值为中心的对数-比值(log-ratio)进行归一化处理。
c)数据分析和统计分析利用CLUSTER和TREEVIEW软件,采用以中值为中心相关法和完全连锁法,进行无监督的分级聚类分析(Eisen等人,同上)。对于非监督和监督分析,我们还使用癌症研究所生物测量研究分公司(Biometric Research Branch of the National CancerInstitute)所开发的BEB-ArrayTools软件,这是用于对cDNA点阵基因表达数据进行可视化和统计分析的完整软件包。使用基于单变量F-测试的类别比较工具,在显著水平为P<0.001或0.002的情况下,寻找预定临床组别之间差异表达的基因。基于2000个随机排列的F统计分析的排列分布状态,被用于证实统计的显著性。在比较同一病人的原发性至扩散性肿瘤时,以同样方法使用成对数值的t统计。通过使用2000个随机的P值小于0.001显著水平的排列,根据基因表达图谱,用具有“省略单因素(leave-one-out)”交叉确认测试的多变量复合共变预测工具(Compound Covariate Predictor,CCP),对预定的临床组别进行分类。在每一交叉确认的步骤中,一个样本被省略,并且基于基因创建一个多变量CCP,其中所述基因是在由未被省略的样本所组成的训练组中,在特定水平下显著单变的基因。CCP被用于对省略后的样本分类,然后注明分类是正确还是错误。对于每次排除一个后的所有样本都要进行重复。总交叉确认的错误分类比率就这样被测定。交叉确认的错误分类比率在统计学上的显著性,通过对数据重复进行2000次的完整交叉确认程序来确定,其中分类成员是随机置换的。CCP建立在基因表达变量的加权线性组合基础上,其中所述变量在训练组中是显著单变的,其权重对应于t-统计,如Radmacher等人(同上)中所述。当CCP用于对成对的原发性和转移组织进行分类时,也进行交叉确认,其中每次省略一对数据,并且基于每个基因表达的成对差异进行分类。两个重复样本的基因表达均值被用于分析。
为产生用于对具有转移可能性的HCC进行分类的预测模型,我们随机选择10个PN样本和10个PT样本作为一个训练组。在测试组中总共包含20个双盲的新HCC样本。新样本分类基于下列线性组合的计算值L=∑iti*(xi-mi),其中ti=分类中基因i的t值,xi=待分类的新样本中基因i的对数-比值,mi=基因I在PN和PT组的中值(见表2)。其他细节可在BRB-ArrayTools用户手册中找到。使用基于Excel的WinSTAT软件,通过Kaplan-Meier存活分析来比较病人的存活率。通过Cox-Mantel对数级测试,当PN与P或PT进行比较时得出统计P值。
d).半定量PT-PCR和Western印迹总RNA用SUPERSCRIPTTMII RNase H-逆转录酶和随机六聚体(Invitrogen Inc.)进行逆转录。PCR进行了26循环(94℃,30sec;53℃,30sec;72℃,1min),随后是72℃,10分钟的一个额外循环,并采用下列引物OPN正义5′-GACTCGAACGACTCTGATGATGTA-3′(SEQ ID NO3);OPN 反义5′-CTGGGCAACGGGGATGG-3′(SEQ ID NO4);以及HotStarTaq Master Mix(QLAGEN)试剂盒。QuantumRNATM18S(Ambion)作为内部标准。OPN的定量采用密度测定法,用18S产物进行归一化。Western印迹分析基本上参照Wu等人,(同上)所述的方法。简而言之用RIPA缓冲液(50mM Tris-HCl,pH7.4/150mM NaCl/1% Triton X-100/1%去氧胆酸/1.0% SDS/1%抑肽酶)从CCL13、SK-Hep-1和Hep3B细胞获得蛋白裂解液,用10%SDS-PAGE分离,转印到Immobilin-P膜(Millipore,Bedford,MA),用大鼠的抗-OPN单克隆抗体(Chemicon International)检测,然后用基于ECL的测定(Amersham)显示。
e)细胞系和体外侵入分析两种具有不同转移潜能的人肝癌细胞系SK-Hep-1和Hep3B,以及一个非转化性的肝细胞系CCL13(张氏肝细胞),并用于确定OPN与转移可能性之间的功能相关性,其中按照制造商的说明使用BD BioCoatTMMatrigelTM侵入腔(BD Biosciences)参照产品说明。这些细胞来自美国典型培养物保藏中心。细胞常规地维持在37℃,5% CO2的潮湿环境中,用EMEM(GIBCOL)培养基,并补加了10%胎牛血清,1×非必须氨基酸,1×丙酮酸钠,2mM谷氨酸和青霉素/链霉素。对于侵入分析,将细胞放在含无血清EMEM的上层室中,并在使用或不用重组的鼠OPN(2μg/ml)(R&D Systems)或充分记载抗OPN的中和抗体(3μg/ml)(R&D Systems)情况下,孵育20小时。将含5%FBS的EMEM培养基加至下层室作为化学吸引剂。加入OPN或OPN抗体之前和之后,对侵入通过MatrigelTM膜的细胞数目进行计数。
f)组织学分析制备石蜡包埋的组织块,然后切成5微米厚的连续切片,并铺于带电荷的载玻片上。载玻片进行苏木精和伊红(H&E)染色。两个病理学家独立地进行组织学诊断性读片。对于免疫组织化学分析,对载玻片脱腊并进行免疫染色(按Forgues等人,J.Biol.Chem.27622797-22803所述的方法)。简而言之,玻片在1x柠檬酸缓冲液,在微波炉中放置15分钟从而恢复抗原,然后用3%双氧水阻断内源性的过氧化物酶10分钟。接着用10%驴血清封闭非特异性结合,切片与鼠抗OPN抗体(Chemicon International)于4℃孵育过夜。使用生物素化的二抗和链亲和素过氧化物酶的复合物(ABC Elite kit,Vector Labs)。切片浸泡在3-3′二氨基联苯胺(DAB)溶液(0.25克/ml,并含3%过氧化氢酶)。玻片用Harris-苏木精复染并且用酒精到二甲苯脱水,用Permount(Sigma)封片。
2.结果a)转移型肝损伤与其对应的原发性HCC无法辨别为确定HCC转移过程中的精细改变,我们将个体的原发性HCC样品的基因表达图谱,与伴有匹配的转移损伤的肝内转移(P组)或门静脉肿瘤血栓(PT组),即P-M或PT-M组,进行比较。同时比较了各样品相对应的非癌肝脏组织。最初,我们对50个来自30个患者随机抽样的原位的和转移的肿瘤样品进行了基因表达图谱比较[即10位无HCC转移患者(PN组),10位PT患者和10位P患者]。我们试图用非监督的分级聚类算法将其分成临床组别,这些算法基于全表达相似性谱,其中使用全部的9180个基因,或者使用经基因筛选过滤器在排除了部分基因(这些基因与中值相比并不显著变化,p<0.001)之后的大约2487个基因。然而,该聚类分析没有产生对应于临床分组的有意义的分组结果。类似地,我们使用107个基因也无法获得有意义的分组,这些基因是与中值相比基因表达比值变化大于2倍进行过滤而获得的。该分析结果意味着,原发性和转移的HCC只可通过较小的基因子集进行区分,而基因的聚类分析可能受许多其他基因变化的影响,从而妨碍了分类。
为研究这些微小差异,我们使用了监督的分类比较分析和单变量F-测试及全面的排列测试,来定义在预定临床组别中差异表达的基因。对5个临床组(即P,P-M,PT,PT-M和PN)的分析,得到了总计143个显著基因(P<0.005)。基于143个显著基因的前三个主要组分的多维量表分析揭示,PN样品明显区别于其余样本,而P、P-M、PT、和PT-M样本是不可区分的(图1a)。意外的是,原发性的和匹配的转移HCC肿瘤的基因表达图谱不能显著地区分开来。
b)PN区别于PT和P为了确认和拓展上述发现,我们对30个原代HCC样本(包括PN、PT和P病人)进行了类别比较分析。该分析产生了总共383个显著差异的基因(P<0.0005)。基于这些383个基因的表达谱,通过分级聚类算法对这30个PN、P和PT样本进行分类(图1b)。在分级树上观察到两个主要分支,一个和PN样本有关,另一个与P和PT样本有关。P和PT样本没有完全分开(图1b)。因此,原发性的无转移HCC的基因表达谱,明显不同于在肝脏软组织的门静脉或其他地方有转移损伤的原发性HCC。
为进一步确定一个能够被准确区分成两个预定类别的基因集和为了鉴别转移相关基因,我们使用监督的机器学习分类算法,即已知的复合相关预测法(CCP),该算法包含“省略单因素”的交叉验证测试,以避免过度评价预测的精确性这一统计学问题,该问题在模型是用相同样本训练和评价时会发生。这种分析也产生多变量预测值,该预测值用于决定某一给定样本到底属于这两类中的那一类,还产生了在给定统计显著性水平下呈现单变量显著的基因列表。我们使用整个基因集并且P值<0.001,将来自30个病人的50个HCC样本按照不同的临床标准分成不同的配对,并将CCP用于每一配对(表1)。在此显著性水平下,在分类中期望的假阳性基因数目小于10。错误分类比率通过“省略单因素”的交叉验证法加以确认。对于交叉验证的每一步骤(其中省略一个样本),重复选择有信息的基因和产生多基因分类。对于随机获得小的交叉验证的错误分类比率的概率,可通过重复整个交叉验证过程而得出,其中使用2000个随机排列的类别标志用于被评估的临床标准。这样得出了分类P值(表1)。采用监督机器学习分类算法,我们在PT和PT-M样本之间没有发现显著性差异(表1)。P和PT样本的基因表达图谱和配对的转移性P-M和PT-M样本几乎相同(表1)。在这些基因分类中的基因数目处于背景(假阳性)水平。这些数据与前述聚类和多维量表分析(multidimensional scaling analysis)是一致。
相反,我们用分类器中的153个显著基因准确地从PN和PT样本中预测了肿瘤(100%)(表2)。交叉验证法的分类误差远小于随机预测(p<0.005)(表1)。相似地,我们用分类器中大量基因准确地预测了PN和P样品,以及PN和P/PT样本(表1)。然而,CCP没有在P、PT、PT-M和P-M中产生显著分类,在这些分类中的基因数目是不显著的。另外,我们发现,当肿瘤大小、年龄、肿瘤包裹性、或肝硬化等被用作临床分类时,并无统计上显著的分类。这些数值与类别比较分析(包括多维量表分析和分级聚类算法分析)的结果是一致的。我们认为,原发性和转移性肿瘤有非常相似的基因表达特征,而无转移的原发性HCC肿瘤可区别于伴有门静脉肿瘤血栓或肝内扩散的原发性HCC。
表1.在“省略单因素”的交叉验证过程中分类器(classifier)的性能*

*用复合变量预测子和总共9180个基因表达数据,进行不同的临床组的分类,显著性差异水平P=0.001。分类器基于2000个随机排列。分类器中假阳性基因的期望数为10。
**PN,单个原发性HCC;PT,有门静脉肿瘤血栓的原发性HCC;PT-M,来自配对PT的肿瘤血栓;P,有肝内扩散的原发性HCC;P-M,来自配对P的肝内扩散;P/PT,同时有P和PT;P-M/PT-M,同时有P-M和PT-M;肿瘤大小是长度方向的直径。
c).来自监督学习算法的基于基因表达的模型可预测HCC病人的转移可能性用CCP来成功地区分PN和PT,使得我们开发了基于基因表达的模型来预测HCC病人发展为转移的可能性。我们随机选择10个PN病人和10个PT病人的原发性HCC样品作为训练组,通过“省略单因素”的交叉验证分类法产生一个预测模型。训练样品的分类产生含153个基因的列表。通过产生出多因子(multi-因子ial)的L值,这提供了检测样本的预测基础,被称为“加权投票”练习(见材料与方法)。我们包括了所有剩余的20个原发性HCC样本作为一个测试集(15个P病人,3个额外PN病人,和2个额外PT病人)。图2显示了计算的“加权投票”L值,其中转移样品产生阴性值,而无转移样品产生阳性值。除了一个“P”样本(S29)外,所有的测试样本都归入转移组(图2a)。病人的跟踪数据显示,一个PN病人(S56)在手术后8个月发生肺转移,而第二个病人(S57)在手术后9个月无癌症,第三个病人(S55)没有回答跟踪问查。基于PN/PT比对所获得的153个基因构成的集合,我们还通过多维量表法分析了这些样本。结果显示,S29基因的表达谱更象P组和PT组,而不象PN组(图2b)。这提示S29应该属于P组和PT组。这样,我们准确地将20个双盲HCC患者中的18个(90%)归类为具有转移可能性。
表2 用于预测转移的153个显著基因及其在预测模型中计算多因子L值所需的值





上述得出的预测结果将40个病人分成两组,一个为转移组,另一个为非转移组。Kaplan-Meier存活数据表示,与未发现转移的患者相比,预测会发生转移的患者生存时间明显缩短(图2C)。因为HCC患者死亡率很大程度上依赖于其是否在肝内发生转移,因此我们的结果表明,用于分类器的基因集提供了反映肝癌转移和存活的准确的基因表达特征。
d)骨桥蛋白促进HCC转移上述研究表明,肝内转移所需的基因应当包括在预测模型内。然而,来自预测模型的153个基因的列表是基于严格的标准的(P值为0.001),以便将分类器中假阳性的基因数减到最少,这是正确分类所必需的。这样严格的标准可能会将许多对于转移过程而言显著的基因排除在外。为了扩展我们的研究,我们对PN组和PT组中各10个原发性HCC样本,在P值小于0.002情况下,进行了总计2000个随机排列的单变量F-检验。这个分析产生了总共224个显著性基因而且预期的假阳性少于20个(见表3)。为了鉴定导致肝癌转移的基因,我们检测了含224个基因的列表,并且对主要在PT和PT-M组中表达发生大幅改变但在PN组中很少变化的30个主要基因,进行了分类(见表4)。通过使用以中值为中心的关联法和完全连锁法,通过分级聚类算法将这些基因按中值为中心进行排列和可视化(图3a)。
在PT组中过表达均值超过3倍但在PN中不表达的一个基因,经鉴定为骨桥蛋白(OPN)(SEQ ID NO1),骨桥蛋白属于分泌型磷蛋白,近来被发现它在转移型乳腺癌、恶性肺癌、结肠癌和前列腺癌中高度表达。芯片表达数据比对结果揭示,在大量的PT样本和对应的PT-M样本中,OPN的表达是升高的,但在PN样本中表达是极低的(图3b)。OPN在PT样本中过表达,但不在PN样本中表达,这一点已通过半定量RT-PCR分析得到确定(图3c和d)。对29例原发性HCC样本(包括16个新出现的HCC病例)和8个健康器官供体的正常肝样本,实施OPN的免疫组化分析(IHC)。这些样本的OPN免疫反应通过双盲模式被评价。唯有转移型肿瘤的细胞质OPN染色是阳性的,尤其是在高密度的脉管区(图4)。IHC结果基本上同芯片和RT-PCR得到的结果一致(61%的阳性例,18个转移HCC中的11个)(数据未显示)。综上所述,这些研究显示,OPN具有诊断转移型HCC患者的良好价值。
为测定OPN在转移中的所起的作用,我们通过Western印迹法和Matrigel体外侵入分析,比较了人HCC细胞系中OPN的表达水平。OPN的表达水平在SK-Hep-1中为高,在Hep3B中为中等,在CCL13中为低(图5a),这同它们的侵入力相符(图5b)。抗OPN的中和抗体能显著地阻断SKHep-1(p<0.001)和Hep3B细胞的侵入(p<0.04)。然而,重组的鼠OPN在Hep3B和Sk-Hep-1细胞上没有显示出统计上显著的刺激作用,暗示要么肿瘤细胞所产生的OPN对于维持侵入的表型已经足够,要么说明因种间差异而导致低效。5个额外的HCC细胞系中也获得了类似的结果(图5c)。然而,中和抗体对细胞的生存和扩散只有很小影响(图5c,右侧)。
为拓展上面的发现,我们在裸鼠中测定了OPN对HCC细胞向肺部转移的作用。HCCLM3细胞株是通过皮下注射具有高度肺转移的MHCC97细胞而获得的一种克隆(Li等人,J.Cancer Res.Clin.Oncology,2002)。在皮下注射后的一周,可获得100%的肿瘤发生率,这同我们近期的数据一致。在原发性肿瘤的大小方面,对照组和抗OPN组没有显著差异(图5E),这同我们抗OPN抗体在体外不会影响HCC细胞生长的结果相一致。在第五周,在大多数I-II级肿瘤簇和一些III-IV级肿瘤簇对照组中的每一只小鼠,都检测到有肺转移损害(图5E,F)。对照组小鼠每个肺中平均有11.1±2.9个肿瘤簇。相反,抗OPN抗体组中只有大约一半的小鼠发生了肺转移,并且剩下的小鼠大多数发展成I级肿瘤簇,且每个肺中综合平均有2.6±1.0个肿瘤簇,因而这个结果在统计学上是显著的(P<0.01)。因此,抗OPN抗体显示出对HCCLM3细胞的肺转移有显著的抑制效应。
表3.用于预测转移的224个显著基因及其在预测模型中计算多因子L值所需的值









表4.用于预测转移的30个显著基因及其在预测模型中计算多因子L值所需的值


实施例2易患肝细胞性癌症体质的预测1.材料与方法a)患者和组织样本预先通知明尼苏达大学研究院评论部(Institution Review Board)并征得同意,并按照规程收集外科手术样本。从59位患晚期慢性肝脏疾病并在1995-2001间接受了肝脏移植手术的患者上获取肝脏样本。从8位肝脏供者上获取正常肝脏样本作为对照。这些样本的收集主要是通过美国明尼苏达大学肝脏组织获取和分配系统(Liver TissueProcurement and Distribution System,LTPADS)来进行。64位患者的肿瘤和相匹配的非肿瘤的肝脏样本,通过LTPADS程序或中国复旦大学肝癌研究所而获得。一旦获得冰冻样本,立即在-80℃组织贮藏库中冻存。
b)cDNA芯片冰冻样本的总RNA抽提采用Trizol试剂(Invitrogen,Gaithersburg,MD)并按照厂商提供的操作程序进行。抽提后的RNA质量控制采用分光光度测量方法,并在1%浓度的琼脂糖凝胶中观察特异性的28S和18S rRNA片段。每一份RNA样本等量分装在管子中,并在-80℃保存。对于cDNA芯片的共同对照,把8个正常肝脏的总RNA样本混合在一起,并均分到每个槽(tub)中。
从NIH的NCI高级技术中心购买cDNA芯片。这些人类UniGem v2.0芯片包含了9180个cDNA克隆,这些克隆被定位于8281个独特UniGene簇(基于2001年2月28日出版的Hs Unigene Build#131),还包括了122个Incyte的EST克隆(Incyte Genomics,Palo Alto,CA)。杂交方法采用NCI建立的优化程序(Wu等人,Oncogene 203674-3682,2001;Ye等人,Nature Med.9416-423,2003)。与芯片杂交后的荧光图象采用GenePix4000扫描仪和GenePix Pro软件(Axon Instruments,Foster City,CA)获得。按照推荐的关于芯片试验最低信息标准(Minimum Information About a Microarray Experiment Standards)(Brazma A等人,NatGenet 2001)所收集的详细信息,可通过NCBI的Gene Expression Ominibus公共数据库来获得。
c)统计分析采用相关基因表达比率(Cy5/Cy3),进行分级聚类分析来检测在几个基因列表和两个风险组之中表达方式的相关性。聚类分析采用Cluster软件并用Tree View软件来显现(Eisen等人,同上)。在以中值为中心进行归一化处理后,进行分级聚类。
分析采用BRB ArrayTools进行。BRB ArrayTools是由国家癌症研究所的生物测定研究分部的Richard Simon博士和Amy Peng建立的。对来自每个芯片上的数据进行测量是为了使数据标准化并进行芯片内比较。分类对比工具的使用是为了比较先前定义的风险组。F检验是对双样本分组中对比数据t检验的概括。用归一化的cDNA对数比率,采用分类对比工具分别计算每个基因的F检验。这个工具进行分组的随机排列。在这些随机排列的基础上,这个工具计算列表中每个基因相关的排列p值。
在采用几种运算方法来分析基因表达数据的基础上,样本被分类到两个预定的类别之一,这些方法包括复合变量预测、最邻近K值预测或支持载体机器预测(support vectormachine predictor)。这种预测的建立包括两个步骤。首先,进行标准的双样本t检验,用来鉴别出在两组中表达比率对数值有显著性差异(达到0.001水平)的基因。其次,每个样本的不同表达基因的对数表达比率被合并到一个复合变量中;这个复合变量可用于基本分类预测。样本i的复合变量i定义如下ci=Σjtjxij,]]>式中,tj是基因j在两个组分类对比的t统计参数。xij是在样本i中测得的基因j的对数比率,总和是针对所有差异表达的基因。
我们通过计算如下的线性组合来预测新样本的分类L=∑iti*(xi-mi)。
式中ti是基因i的t值,xi是在待分类的新样本中基因i的对数比率,mi是基因i在两个分类中的中点值。变量i包括在原始分析中所有显著的基因。当L是阳性时,新样本应被归类到第一个表型标记物,而当L是阴性时,新样本应归类到第二个表型标记物。
d)EpCAM的表达和体外抑制EpCAM的表达采用半定量PCR来评估。总RNA用随机引物(Promega)进行反转录以生成单链cDNA,并按照厂商的操作程序使用Superscript II反转录酶(Invitrogen)。PCR的扩增采用QuantumRNA 18S内在标准(Ambion),按照厂商的操作程序使用HotStarTaq DNA聚合酶(Qiagen)。引物的序列如下正向,5′-TGC CGC AGC TCA GGAAGA ATG TGT-3′(SEQ ID NO6);反向,5′-CAT CAT TCT GAG TTT TTT GAG AAG-3′(SEQ ID NO7)。
用siRNA来抑制EpCAM的表达。siRNA由Qiagen合成。EpCAM的有义链和反义链为有义链5′-GUU UGC GGA CUG CAC UUC AdTdT-3′(SEQ ID NO8);反义链5′-ACG UGA CAC GUU CGG AGA AdTdT-3′(SEQ ID NO11)。siRNA的转染根据厂商操作程序,使用TransIT-TKO转染试剂(Mirus)进行,并在每个实验中使用200nm吸收波长的siRNA双链体。细胞生长情况根据厂商所述使用Cell Counting Kit-8(Dojindo MolecularTech.)。实验重复三次。
2.结果通过含有9128个人类cDNA克隆的芯片,对59位患有慢性肝脏疾病(CLD)患者和14位患有肝细胞癌的患者的肝脏样本中的基因表达图谱和8没有疾病的正常肝脏样本中的基因表达图谱进行比较。CLD样本中包括7例B型肝炎(HBV)、11例C型肝炎(HCV)、3例血色素沉着症(HHC)、5例Wilson氏病(WD)、10例酒精肝疾病(ALD)、16例原发性胆管硬化(PBC)和7例自体免疫性肝炎(AIH)。用2000个分类标志物的随机排列进行监督的单变量F检验运算,来搜寻区分这7组CLD样本的基因。这个分析得到了共计489个显著基因(p<0.o005)。对489个基因的分级聚类分析(如Eisen等描述,同上)显示,这7种肝脏疾病组可分为两个大类,一类主要由HBV、HCV、HHC和WD的样本构成,另一类主要包括PBC、ALD和AIH的样本。这些结果提示,HBV、HCV、HHC和WD相互之间的相关性要比它们与PBC、ALD、或AIH构成一组时更强。通过特异性反映病因的分子特征对这些样本的分类结果,恰巧与它们发展成肝细胞癌症的风险相互关联,除了WD样本以外(数据没有显示)。为了进一步确定这些组别之间的差异程度,通过进行“省略单因素”的(“leave-one-out”)交叉验证和2000个随机排列测试,在7个组别中进行复合变量分析,在此基础上进行t检验。21个模拟试验共发现了500个复合基因。对这些基因的分级聚类结果与F检验的结果是一致的(数据没有显示)。与之相符的是,PBC、ALD或AIH显著不同于HBV、HCV、HHC或WD,但是病因间的差异不是很明显(数据没有显示)。这表明,WD样本属于高风险小组,至少对与该集合而言。对上述结果的解释是,按照发展成肝细胞癌症的能力来区分低风险组和高风险组的基因,占据了分子特征优势,而反映个体病因的基因则不占优势。
在HBV/HCV/HHC/WD样本中共同失调(disregulated)的但在ALD/PBC/AIH中不失调的基因,被假设为与HCC的分子特征更相关。为了全面地搜寻这个基因集,用“省略单因素”的(“leave-one-out”)交叉验证和对高风险组(HBV/HCV/HHC/WD)和低风险组(ALD/PBC/AIH)进行分类标记物测试的2000个随机排列测试,在P值小于0.001的情况下,进行了最邻近K值分析(K=3)(3NN)或支持载体机器预测(SVM)运算,这个计算策略与我们最近的研究是相似的(Ye等人,同上)。这种分析产生了包括556个显著基因的复合分类器,它将这两个组别分得很好。它提供了在这些组别中显著的分类预测方法,采用3NN方法的整体正确率为78%,采用SVM方法整体正确率为86%,并且交叉验证地错误分类比率明显低于随机预期值(p<0.0005)(数据没有显示)。然而,随机对这些样本分类会产生统计上不显著的分类(数据没有显示)。
令人注意的是,在556个基因构成的集合中的许多基因,可在被分析的14例HCC中发现(数据未示出)。为了区分在高风险组中和14例HCC中共同失调的基因,将14例HCC样本和高风险组的样本混合在一起,然后采用2000个随机排列,在P值小于0.001情况下,用3NN运算方法与低风险组进行比较。这个分析发现了416个基因,其中273个基因可在556个基因的集合中发现(49%重叠)。这些结果提示,大约一半能区分高风险组和低风险组的特征基因存在HCC样本中。为了确定是否273个基因的集合(表5)是肿瘤的共同特征,我们通过3NN和SVM预测方法把这基因集应用于两个独立的HCC基因表达图谱。一个集合包括来自24个HCC样本,并与上述使用过相同的正常肝脏对照进行比较;另一集合包括50个HCC样本,并与它配对的非癌症肝脏组织进行比较(Ye等人,同上)。在分类中采用SVM方法,273个基因特征提供了更高的适合度,24例HCC样本的整体正确率为92%,50例HCC样本的整体正确率为94%(数据没有显示)。与556个基因的集合相比,这个方法提高了整体性能。与之相符的是,非重叠的283个基因的集合不能提供任何令人满意的结果。因为绝大多数HCC相关基因在非重叠基因组中被排除了,283个基因的绝大多数或许属于病因外的特征。此外,从HBV/HCV/HHC/WD和ALD/PBC/AIH/HCC对比中选取的383个重叠基因,对于两个独立HCC组不能得出有意义的分类,其整体预测比率低于50%(随机事件)。273个基因在多种肝脏样本中可检测到,这些样本来自两个HBV的患者和来自扩散区域至少5cm直径的肝脏不同部分。来自两个患者不同肝脏部位的273个基因的图谱几乎完全相同(数据没有显示)。此外,参数p值最小(p<0.000001)的前25个基因是从273个基因的集合中选出的。这个集合产生了与273个基因的集合相似的结果(数据未示出)。综合起来,这些结果表明,273个基因的集合包含了绝大多数与HCC相联系的基因,并与HCC进展有关,而且这些基因在患病肝脏的主实中是大范围扩散的而不是局限于原地保留。
为了检测273个基因的集合是否是人类其他肿瘤的常规标志物,运用SVM方法将该特征中的基因参数应用于从几个公共芯片数据库数据98例肝细胞癌症(HCC)、53例肺癌、89例胃腺癌、37例软组织肿瘤、39例乳腺癌和27例弥漫性大B细胞淋巴瘤(DLBCL)(Alizadeh等人,同上;Perou等人,同上;Garber等人,Proc.NatlAcad.Sci.U.S.A.9813784-13789,2001)。在273个基因的集合对额外的98例HCC样本表现良好(80%的样本符合这个特征)的同时,97%的乳腺癌(39例)和78%的DLBCL病例也共享类似的特征。相反,绝大多数来自肺、软组织和胃的肿瘤样本与这些特征的符合率很低(占所有病例的6-30%)(数据未示出)。作为对照,283个基因的集合(非HCC关联基因)也不能对这些样本提供令人满意的预测。由此认为,分类器中的HCC关联基因,在乳腺癌和DLBCL中似乎是共同失调的,但是在肺腺癌、软组织肿瘤和胃腺癌则没有失调。
上述研究表明,与HCC发病相关的基因可能存在273个基因的集合中。例如,对于在高风险组表达显著上升而在风险组则不上升的基因,可作为促进细胞生长的癌基因。为了验证这个“证据原则”(“proof-of-principle”)的假设,我们选择了273基因列表中位于顶部的主要基因。这个基因被鉴别为EpCAM,即肿瘤相关的钙离子传导信号1(TACSTD1,Hs.692),它在高风险组中表达平均提高了3.6倍,但在低风险组中仅为1.7倍(图6a),在HCC中的表达情况类似(数据未示出)。在高风险CLD样本中,EpCAM的高表达可通过定量RT-PCR分析来确证(图6b)。EpCAM在Hep3B细胞中为高表达,但在Huh1和Huh4细胞中的表达水平相对较低(图6c),这总体上与细胞的生长率相关(图6d)。此外,用对EpCAM特异的两个不同siRNA寡链来抑制EpCAM表达,结果导致Hep3B细胞的生长明显受到抑制(图6f)。相反,作为对照的siRNA寡链却没有这种效应(图6e,数据未示出)。这些结果表明,EpCAM可以通过促进肿瘤细胞生长来提供致癌特性。
273个显著基因,其基因符号、染色体图谱位置和UG簇标(识)号列于表5。
表5.用于预测慢性肝病患者患HCC可能性的273个显著基因及其在预测模型中计算多因子L值所需的值












具有最低参数p值(p<0.000001)的前25个基因,被从273个基因的集合中选出,并且这25个基因的集合可产生与273个基因的集合相类似的结果。在表6中列出了这25个基因(它们在指示肝病患者发展为HCC的风险方面有显著性)、其基因符号、其染色体图谱位置、其UG簇标识号。用类似方式确定了进一步的由10个在预测严重肝病患者患HCC风险方面有显著的基因所构成的集合,并在表7中列出。
表6.用于通过复合多变量预测法鉴别可能患HCC的病人的25个显著基因及其在预测模型中计算多因子L值所需的值


这25个基因是通过最小参数p值(p<0.000001)选出的。
表7.用于预测患HCC的10个显著基因及其在预测模型中计算多因子L值所需的值

权利要求
1.一种鉴别抑制肝细胞癌HCC患者中癌细胞转移的潜在治疗靶点的方法,其特征在于,包括以下步骤a)将来自转移性HCC患者的样品与包含针对一组细胞标志物的捕获试剂的芯片接触;b)从样品中捕获标志物并产生第一个信号;c)用非转移的HCC患者的样品重复步骤a)和步骤b)从而产生第二信号;d)比较第一和第二信号,从而鉴定出第一信号和第二信号的水平不同的细胞标志物亚组,此亚组细胞标记物就是治疗HCC病人HCC转移的潜在治疗靶点。
2.如权利要求1所述的方法,其特征在于,在步骤b)和步骤c)中扣除正常非癌组织样品在与步骤a)的芯片相同的芯片上所产生的信号,从而产生第一和第二信号。
3.一种预测肝细胞癌HCC患者癌细胞转移的方法,其特征在于,包括下述步骤a)将来自转移性HCC患者的样品与包含针对一组细胞标志物的捕获试剂的芯片接触,这组细胞标志物包括从表2基因中独立选出的至少10个基因或基因所编码的蛋白;b)从样品中捕获标志物;c)从步骤b)的被捕获标志物中产生第一信号;d)用非转移的HCC患者的样品重复步骤a)至步骤c)从而产生第二信号;e)用不明确有无转移可能的HCC患者样品重复步骤a)至步骤c)从而产生第三信号;f)将第三信号与第一和第二信号进行比较,从而确定步骤e)的HCC患者的转移可能性。
4.如权利要求3所述的方法,其特征在于,这组细胞标志物包括从表2基因中独立选出的至少20个基因或基因所编码的蛋白。
5.如权利要求4所述的方法,其特征在于,这组细胞标志物包括从表2基因中独立选出的至少50个基因或基因所编码的蛋白。
6.如权利要求5所述的方法,其特征在于,这组细胞标志物包括从表2基因中独立选出的至少100个基因或基因所编码的蛋白。
7.如权利要求6所述的方法,其特征在于,这组细胞标志物包括表2的基因或基因所编码的蛋白。
8.如权利要求3所述的方法,其特征在于,这组细胞标志物包括表4的基因或基因所编码的蛋白。
9.如权利要求3所述的方法,其特征在于,这组细胞标志物包括单基因编号为Hs.313、Hs.69707、Hs.222、Hs.63984、Hs.75573、Hs.177687、Hs.69707、Hs.222、Hs.323712、和Hs.63984的基因或基因所编码的蛋白。
10.如权利要求3所述的方法,其特征在于,步骤a)和b)的样品、步骤d)的样品和步骤e)的样品是肝组织提取物。
11.如权利要求3所述的方法,其特征在于,步骤a)中的芯片是基因组芯片。
12.如权利要求3所述的方法,其特征在于,步骤a)中的芯片是蛋白质组芯片。
13.一种鉴别用于防止慢性肝病患者发展为肝细胞癌HCC的潜在治疗靶点的方法,其特征在于,包括以下步骤a)将来自HCC高危的慢性肝病患者的样品与包含针对一组细胞标志物的捕获试剂的芯片接触;b)从样品中捕获标志物并产生第一个信号;c)用HCC低危的慢性肝病患者样品重复步骤a)和步骤b),从而产生第二信号;d)比较第一和第二信号,从而鉴定出第一信号和第二信号的水平不同的细胞标志物亚组,此亚组的细胞标记物就是防止慢性肝病患者发展为HCC的潜在治疗靶点。
14.如权利要求13所述方法,其特征在于,在步骤b)和步骤c)中扣除正常非癌组织样本在与步骤a)的芯片相同的芯片上所产生的信号,从而产生第一和第二信号。
15.一种预测慢性肝病患者发展为肝细胞癌HCC的危险性的方法,其特征在于,包括以下步骤a)将来自HCC高危的慢性肝病患者的样品与包含针对一组细胞标志物的捕获试剂的芯片接触,这组细胞标志物包括由表5基因中独立选出的至少10个基因或基因所编码的蛋白;b)从样品中捕获标志物;c)从步骤b)被捕获的标志物中产生第一信号;d)用HCC低危的慢性肝病患者样品重复步骤a)至步骤c)从而产生第二信号;e)用不明确有无HCC危险的慢性肝病患者样品重复步骤a)至步骤c)从而产生第三信号;f)将第三信号和第一、第二信号进行比较,从而确定步骤e)的患者发展为HCC的危险性。
16.如权利要求15所述的方法,其特征在于,这组细胞标志物包括从表5基因中独立选出的至少20个基因或基因所编码的蛋白。
17.如权利要求16所述的方法,其特征在于,这组细胞标志物包括从表5基因中独立选出的至少50个基因或基因所编码的蛋白。
18.如权利要求17所述的方法,其特征在于,这组细胞标志物包括从表5基因中独立选出的至少100个基因或基因所编码的蛋白。
19.如权利要求18所述的方法,其特征在于,这组细胞标志物包括表5的基因或基因所编码的蛋白。
20.如权利要求15所述的方法,其特征在于,这组细胞标志物包括表6的基因或基因所编码的蛋白。
21.如权利要求15所述的方法,其特征在于,这组细胞标志物包括表7的基因或基因所编码的蛋白。
22.如权利要求15所述的方法,其特征在于,步骤a)和b)的样品、步骤d)的样品和步骤e)的样品是肝组织提取物。
23.如权利要求15所述的方法,其特征在于,步骤a)中的芯片是基因组芯片。
24.如权利要求15所述的方法,其特征在于,步骤a)中的芯片是蛋白质组芯片。
25.如权利要求15所述的方法,其特征在于,步骤a)中的患者所患的疾病选自下组乙肝、丙肝、血色病和Wilson氏病。
26.如权利要求15所述的方法,其特征在于,步骤d)中的患者所患的疾病选自下组酒精性肝病、自身免疫性肝炎和原发性胆汁性肝硬化。
27.如权利要求15所述的方法,其特征在于,步骤e)中的病人所患的疾病选自下组乙肝、丙肝、血色病、Wilson氏病、酒精性肝病、自身免疫性肝炎和原发性胆汁性肝硬化。
28.一种计算机可读介质,其特征在于,包括a)第一数据集的代码,该数据集来源于第一信号,该信号来自与转移性HCC患者的样品接触的芯片,所述芯片包含针对一组细胞标志物的捕获试剂,这组细胞标志物包括由表2基因中独立选出的至少10个基因或基因所编码的蛋白;b)第二数据集的代码,该数据集来源于第二信号,该信号来自与非转移性HCC患者的样品接触的芯片,所述芯片与a)的芯片相同;c)第三数据集的代码,该数据集来源于第三信号,该信号来自与未知转移的HCC患者的样品接触的芯片,所述芯片与a)的芯片相同;d)将第三数据集与第一和第二数据集进行比较的代码。
29.一个数字式计算机,其特征在于,它包括权利要求28所述的计算机可读介质。
30.一个系统,其特征在于,包括a)权利要求29所述的数字式计算机;b)包含针对一组细胞标志物的捕获试剂的阵列的芯片,所述标志物包括从表2基因中独立选出的至少10个基因或基因所编码的蛋白;c)能在与样品接触后从芯片上读取信号的阅读器。
31.一种计算机可读介质,其特征在于,它包括a)第一数据集的代码,该数据集来源于第一信号,该信号来自与患慢性肝病且HCC高危的患者的样品接触的芯片,所述芯片包含针对一组细胞标志物的捕获试剂,这组细胞标志物包括由表5基因中独立选出的至少10个基因或基因所编码的蛋白;b)第二数据集的代码,该数据集来源于第二信号,该信号来自与慢性肝病且HCC低危的患者的样品接触的芯片,所述芯片与a)的芯片相同;c)第三数据集的代码,所述数据集来源于第三信号,该信号来自与慢性肝病且发展为HCC的危险度未知的患者的样品接触的芯片,所述芯片与a)的芯片相同;d)将第三数据集和第一和第二数据集进行比较的代码。
32.一个数字式计算机,其特征在于,它包括权利要求31所述的计算机可读介质。
33.一个系统,其特征在于,包括a)权利要求32所述的数字式计算机;b)包含针对一组细胞标志物的捕获试剂的阵列的芯片,所述标志物包括从表5基因中独立选出的至少10个基因或基因所编码的蛋白;c)能在与样品接触后从芯片上读取信号的阅读器。
34.一种抑制肝细胞癌HCC患者中癌转移的方法,其特征在于,该方法包括步骤抑制骨桥蛋白(OPN)活性。
35.如权利要求34所述的方法,其特征在于,抑制骨桥蛋白活性的步骤是通过抑制OPN表达来完成。
36.如权利要求35所述的方法,其特征在于,用反义多核苷酸用来抑制OPN的表达。
37.如权利要求34所述的方法,其特征在于,抑制骨桥蛋白活性的步骤是通过抑制OPN和OPN受体之间的特异结合来完成。
38.如权利要求37所述的方法,其特征在于,采用OPN拮抗剂来抑制OPN和OPN受体之间的特异结合。
39.如权利要求37所述的方法,其特征在于,采用抗OPN抗体来抑制OPN和OPN受体之间的特异结合。
40一种抑制慢性肝病患者发展为肝细胞癌HCC的方法,其特征在于,包括步骤抑制EpCAM的活性。
41.如权利要求40所述的方法,其特征在于,抑制EpCAM活性的步骤是通过抑制EpCAM表达来完成。
42.如权利要求41所述的方法,其特征在于,采用反义多核苷酸来抑制EpCAM的表达。
43.如权利要求41所述的方法,其特征在于,采用小的抑制性RNA来抑制EpCAM的表达。
44.如权利要求40所述的方法,其特征在于,抑制EpCAM活性的步骤是通过抑制EpCAM和EpCAM受体之间的特异结合来完成。
45.如权利要求44所述的方法,其特征在于,采用抗EpCAM抗体来抑制EpCAM和EpCAM受体之间的特异结合。
全文摘要
本发明涉及诊断HCC患者的肝细胞癌(HCC)转移可能性和慢性肝病患者发展为HCC可能性的方法。还提供了用于上述分析的计算机可读介质、数字式计算机和系统。还公开了确定治疗HCC患者转移的潜在治疗靶点的方法和防止慢性肝病患者发展为HCC的方法。此外,本发明提供了通过抑制HCC患者的一个治疗靶点(骨桥蛋白)的功能而抑制HCC转移的方法,以及通过抑制慢性肝病患者的一个治疗靶点(EpCAM)的功能而防止其发展为HCC的方法。还公开了包含能抑制OPN或EpCAM功能的药物组合物。
文档编号G06F19/24GK1659287SQ03812982
公开日2005年8月24日 申请日期2003年4月4日 优先权日2002年4月5日
发明者王心伟, 叶青海, J·W·金 申请人:美国政府健康及人类服务部
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1