ncRNA及其用途的制作方法

文档序号:12249624阅读:1807来源:国知局
ncRNA及其用途的制作方法与工艺

本申请要求于2010年11月19日提交的临时申请61/415,490的优先权,该临时申请整体以引用方式并入本文。

关于联邦资助研发项目的声明

本发明根据美国国立卫生研究院(National Institutes of Health)授予的CA069568、CA132874和CA111275以及美国陆军医学研究和物资司令部(Army Medical Research and Material Command)授予的W81XWH-09-2-0014在政府支持下完成。政府享有本发明的某些权利。

技术领域

本发明涉及用于癌症诊断、研究和治疗的组合物和方法,包括但不限于癌症标志物。具体地讲,本发明涉及作为前列腺癌、肺癌、乳腺癌和胰腺癌的诊断标志物和临床靶标的ncRNA。



背景技术:

癌症研究的一个中心目标是识别与癌发生存在因果关系的改变的基因。已识别出了多种类型的体细胞突变,包括碱基置换、插入、缺失、易位以及染色体获得和丢失,所有这些都会导致致癌基因或肿瘤抑制基因的活性改变。在20世纪早期首先提出假设,现在已经存在有说服力的证据表明染色体重排在癌症中的因果作用(Rowley, Nat Rev Cancer 1: 245 (2001))。经常性染色体畸变被认为主要为白血病、淋巴瘤和肉瘤所特有。更为常见并且造成与人癌症相关的发病率和死亡率的相对大比例的上皮瘤(癌)包含低于1%的已知、疾病特异性的染色体重排(Mitelman, Mutat Res 462: 247 (2000))。虽然血液恶性肿瘤的特征通常在于平衡的、疾病特异性的染色体重排,但是大部分实体瘤都具有过多的非特异性染色体畸变。据认为,实体瘤的核型复杂性是由于通过癌演化或进展获得的继发改变而造成。

染色体重排的两种主要机制已有描述。在一种机制中,邻近原癌基因的一个基因的启动子/增强子元件发生重排,从而导致原癌蛋白的表达改变。这种类型的易位的示例为免疫球蛋白(IG)和T细胞受体(TCR)基因与MYC并置,从而分别导致B细胞和T细胞恶性肿瘤中该致癌基因的活化(Rabbitts, Nature 372: 143 (1994))。在第二种机制中,重排导致两种基因的融合,其产生可具有新功能或改变的活性的融合蛋白。此易位的原型实例为慢性骨髓性白血病(CML)中的BCR-ABL基因融合(Rowley, Nature 243: 290 (1973); de Klein等, Nature 300: 765 (1982))。重要的是,此发现导致了合理地开发甲磺酸伊马替尼(格列卫(Gleevec)),其成功地靶向了BCR-ABL激酶(Deininger等, Blood 105: 2640 (2005))。因此,需要特异性识别上皮瘤的诊断方法。



技术实现要素:

本发明涉及用于癌症诊断、研究和治疗的组合物和方法,包括但不限于癌症标志物。具体地讲,本发明涉及作为前列腺癌、肺癌、乳腺癌和胰腺癌的诊断标志物和临床靶标的ncRNA。

本发明的实施方案提供可用于检测和筛查前列腺癌的组合物、试剂盒和方法。在本发明实施方案的开发过程中进行的实验识别出了前列腺癌中非编码RNA的上调。本发明的一些实施方案提供用于检测此类ncRNA的表达水平的组合物和方法。ncRNA的识别可用于筛查、诊断和研究用途。

例如,在一些实施方案中,本发明提供筛查受试者中前列腺癌的存在的方法,包括将来自受试者的生物样本与用于检测一种或多种非编码RNA (ncRNA)(例如,PCAT1、PCAT14、PCAT43和PCAT 109)的表达水平的试剂接触;以及例如,使用体外测定检测样本中ncRNA的表达水平,其中样本中ncRNA的表达水平升高(例如,相对于正常前列腺细胞中的水平,相对于之前时间点的水平升高,相对于预先确定的阈值水平升高,等)表示受试者中存在前列腺癌。在一些实施方案中,ncRNA通过SEQ ID NO: 1-9进行描述。在一些实施方案中,样本为组织、血液、血浆、血清、尿液、尿上清液、尿细胞沉淀、精液、前列腺分泌物或前列腺细胞。在一些实施方案中,检测利用测序技术、核酸杂交技术、核酸扩增技术或免疫测定进行。然而,本发明不限于所采用的技术。在一些实施方案中,核酸扩增技术为聚合酶链式反应、逆转录聚合酶链式反应、转录介导的扩增、连接酶链式反应、链置换扩增或基于核酸序列的扩增。在一些实施方案中,前列腺癌为局限性前列腺癌或转移性前列腺癌。在一些实施方案中,试剂为一对扩增寡核苷酸或寡核苷酸探针。

另外的实施方案提供筛查受试者中前列腺癌的存在的方法,包括将来自受试者的生物样本与用于检测选自例如以下的两种或更多种(例如,10种或更多种,25种或更多种,50种或更多种,100种或更多个种或所有121种)非编码RNA(ncRNA)的表达水平的试剂接触:PCAT1、PCAT2、PCAT3、PCAT4、PCAT5、PCAT6、PCAT7、PCAT8、PCAT9、PCAT10、PCAT11、PCAT12、PCAT13、PCAT14、PCAT15、PCAT16、PCAT17、PCAT18、PCAT19、PCAT20、PCAT21、PCAT22、PCAT23、PCAT24、PCAT25、PCAT26、PCAT27、PCAT28、PCAT29、PCAT30、PCAT31、PCAT32、PCAT33、PCAT34、PCAT35、PCAT36、PCAT37、PCAT38、PCAT39、PCAT40、PCAT41、PCAT42、PCAT43、PCAT44、PCAT45、PCAT46、PCAT47、PCAT48、PCAT49、PCAT50、PCAT51、PCAT52、PCAT53、PCAT54、PCAT55、PCAT56、PCAT57、PCAT58、PCAT59、PCAT60、PCAT61、PCAT62、PCAT63、PCAT64、PCAT65、PCAT66、PCAT67、PCAT68、PCAT69、PCAT70、PCAT71、PCAT72、PCAT73、PCAT74、PCAT75、PCAT76、PCAT77、PCAT78、PCAT79、PCAT80、PCAT81、PCAT82、PCAT83、PCAT84、PCAT85、PCAT86、PCAT87、PCAT88、PCAT89、PCAT90、PCAT91、PCAT92、PCAT93、PCAT94、PCAT95、PCAT96、PCAT97、PCAT98、PCAT99、PCAT100、PCAT101、PCAT102、PCAT103、PCAT104、PCAT105、PCAT106、PCAT107、PCAT108、PCAT109、PCAT110、PCAT111、PCAT112、PCAT113、PCAT114、PCAT115、PCAT116、PCAT117、PCAT118、PCAT119、PCAT120或PCAT121;以及使用体外测定检测样本中ncRNA的表达水平,其中样本中ncRNA的表达水平相对于正常前列腺细胞中的水平升高表示受试者中存在前列腺癌。

本发明的另外实施方案提供阵列,包含用于检测选自例如以下的两种或更多种(例如,10种或更多种,25种或更多种,50种或更多种,100种或更多种或所有121种)非编码RNA(ncRNA)的表达水平的试剂:PCAT1、PCAT2、PCAT3、PCAT4、PCAT5、PCAT6、PCAT7、PCAT8、PCAT9、PCAT10、PCAT11、PCAT12、PCAT13、PCAT14、PCAT15、PCAT16、PCAT17、PCAT18、PCAT19、PCAT20、PCAT21、PCAT22、PCAT23、PCAT24、PCAT25、PCAT26、PCAT27、PCAT28、PCAT29、PCAT30、PCAT31、PCAT32、PCAT33、PCAT34、PCAT35、PCAT36、PCAT37、PCAT38、PCAT39、PCAT40、PCAT41、PCAT42、PCAT43、PCAT44、PCAT45、PCAT46、PCAT47、PCAT48、PCAT49、PCAT50、PCAT51、PCAT52、PCAT53、PCAT54、PCAT55、PCAT56、PCAT57、PCAT58、PCAT59、PCAT60、PCAT61、PCAT62、PCAT63、PCAT64、PCAT65、PCAT66、PCAT67、PCAT68、PCAT69、PCAT70、PCAT71、PCAT72、PCAT73、PCAT74、PCAT75、PCAT76、PCAT77、PCAT78、PCAT79、PCAT80、PCAT81、PCAT82、PCAT83、PCAT84、PCAT85、PCAT86、PCAT87、PCAT88、PCAT89、PCAT90、PCAT91、PCAT92、PCAT93、PCAT94、PCAT95、PCAT96、PCAT97、PCAT98、PCAT99、PCAT100、PCAT101、PCAT102、PCAT103、PCAT104、PCAT105、PCAT106、PCAT107、PCAT108、PCAT109、PCAT110、PCAT111、PCAT112、PCAT113、PCAT114、PCAT115、PCAT116、PCAT117、PCAT118、PCAT119、PCAT120或PCAT121。在一些实施方案中,试剂为一对扩增寡核苷酸或寡核苷酸探针。

在一些实施方案中,本发明提供筛查受试者中肺癌的存在的方法,包括将来自受试者的生物样本与用于检测一种或多种非编码RNA(例如,M41或ENST-75)的表达水平的试剂接触;以及例如,使用体外测定检测样本中ncRNA的表达水平,其中样本中ncRNA的表达水平升高(例如,相对于正常肺细胞中的水平,相对于之前时间点的水平升高,相对于预先确定的阈值水平升高,等)表示受试者中存在肺癌。

在一些实施方案中,本发明提供筛查受试者中乳腺癌的存在的方法,包括将来自受试者的生物样本与用于检测一种或多种非编码RNA(例如,TU0011194、TU0019356或TU0024146)的表达水平的试剂接触;以及例如,使用体外测定检测样本中ncRNA的表达水平,其中样本中ncRNA的表达水平升高(例如,相对于正常乳腺细胞中的水平,相对于之前时间点的水平升高,相对于预先确定的阈值水平升高,等)表示受试者中存在乳腺癌。

在一些实施方案中,本发明提供筛查受试者中胰腺癌的存在的方法,包括将来自受试者的生物样本与用于检测一种或多种非编码RNA(例如,TU0009141、TU0062051或TU0021861)的表达水平的试剂接触;以及例如,使用体外测定检测样本中ncRNA的表达水平,其中样本中ncRNA的表达水平升高(例如,相对于正常胰腺细胞中的水平,相对于之前时间点的水平升高,相对于预先确定的阈值水平升高,等)表示受试者中存在胰腺癌。

本文描述了另外的实施方案。

附图说明

图1示出前列腺癌转录组测序揭露了本文所识别的示例性转录本的调节异常。a.前列腺癌中转录的全局概览。b.显示了以给定的RPKM水平表达的基因的累积分数的曲线图。c.对未注释的转录本与已知基因和内含子对照进行比较的保守分析显示出在基因间和内含子未注释的转录本中低但可检测的纯化选择度。d-g.相交图,显示了使用VCaP前列腺癌癌细胞系的ChIP-Seq和RNA-Seq数据在其转录起始位点(TSS)对H3K4me2 (d)、H3K4me3 (e)、乙酰基-H3 (f)或RNA聚合酶II (g)富集的未注释转录本的分数。h.代表了前列腺癌中差异表达的转录本de 热图,包括新型未注释的转录本。

图2示出未注释的基因间转录本可区分前列腺癌和良性前列腺样本。a.绘制出了未注释的ncRNA与最近的蛋白质编码基因之间的基因组距离的柱状图。b.显示了Chr15q上注释转录本和未注释转录本的位置的Circos图。c.差异表达或离群未注释的基因间转录本的热图通过无监督聚类分析聚集了良性样本、局限性肿瘤和转移癌。d.前列腺癌转录组的癌症离群概况分析(Cancer outlier profile analysis, COPA)离群分析揭露出了已知的离群转录本(SPINK1、ERG和ETV1)以及许多未注释的转录本。

图3示出组织特异性前列腺癌相关的非编码RNA的验证。a-c.对一组前列腺和非前列腺样本进行了定量实时PCR以测量三种命名非编码RNA (ncRNA):PCAT-43、PCAT-109和PCAT-14的表达水平,它们在前列腺癌中与正常前列腺组织中相比发生上调。a. PCAT-43是在chr20q13.31上位于PMEPA1的上游40 kb的20 kb ncRNA。b.位于chr2q31.3上的大型、0.5 Mb基因沙漠区(gene desert region)中的PCAT-109显示了前列腺组织中广泛的转录,尤其是在转移癌组织中。c. PCAT-14(涵盖人内源性逆转录病毒的chr22q11.23上的基因组区)在前列腺肿瘤而不是转移癌中表现出显著的上调。

图4示出前列腺癌ncRNA填充Chr8q24基因沙漠。a. chr8q24区的示意图。b.通过RNA-Seq和ChIP-Seq对chr8q24的综合分析揭露出了通过组蛋白修饰支持的许多转录本,诸如乙酰基-H3和H3K4me3,从而标定出活性染色质。c. PCAT-1外显子-外显子连接的RT-PCR和Sanger测序验证。d.通过5’和3’ RACE确定的PCAT-1的基因组位置。PCAT-1的序列分析显示其为拼接到已被Alu重复序列一分为二的marniner家族转座酶的病毒长末端重复序列(LTR)启动子。e.对一组前列腺和非前列腺样本进行的qPCR显示出与良性前列腺样本相比前列腺癌和转移癌中的前列腺特异性表达和上调。f.在e的分析中所包括的四个匹配的肿瘤/正常对证实了在匹配的癌症样本中PCAT-1的体细胞上调。

图5示出ncRNA作为前列腺癌的尿液生物标志物。a-c.对尿液样本队列进行了在前列腺癌组织中表现出生物标志物状态的三种ncRNA的评估,所述尿液样本群来自患有前列腺癌的77名患者,以及具有阴性前列腺活检结果并且不存在TMPRSS2-ERG融合转录本的31个对照。PCA3 (a);PCAT-1 (b);和PCAT-14 (c)。

d.展示了PCA3、PCAT-1或PCAT-14表达评分呈阳性的不同患者亚组的散点图。e.显示了尿沉渣样本中多种不同前列腺癌生物标志物呈阳性和阴性的患者的热图。f.显示了ncRNA签名的统计显著性的表格。g.前列腺癌中非编码RNA (ncRNA)活化的模型。

图6示出前列腺癌转录组的从头组装。(a)用TopHat映射读段(read),并通过Cufflinks组装成文库特异性转录组。(b)分离了对应于处理假基因的转录本,并基于与已知基因注释的聚合组的重叠对其余的转录本分类。

图7示出1号染色体的分类树结果。将递推回归和分割树(rpart)机器学习算法用于预测表达的转录本与背景信号。

图8示出已知基因的转录本组装。将前列腺转录组测序数据上的从头转录本组装用于重构已知的前列腺转录组。a. SPINK1,前列腺癌的生物标志物。b.在其内含子区内具有PCA3非编码RNA的PRUNE2。c. NFKB1。d. COL9A2

图9示出示例性转录本的EST载体的分析。将来自UCSC数据库表“人EST”中的EST用于评估EST与新型转录本之间的重叠量。a.显示了其转录本由特定的EST部分支持的基因部分的曲线图。b.显示了支持每类转录本的EST数量的表格。

图10示出未注释的转录本的编码潜力的分析。提取每个转录本的DNA序列,并使用来自UCSC源工具组的txCdsPredict程序搜索开放阅读框(ORF)。

图11示出新型转录本的重复含量。通过计算每个序列中重复掩蔽(repeatmasked)核苷酸的百分比,评估了所有转录本中重复序列的百分比。

图12示出重复相关的和非重复的新型ncRNA的不同ChIP-Seq签名。将未注释的转录本分成两组:重复相关的和非重复的,并与两种前列腺癌细胞系中的乙酰基-H3和H3K4me3(与转录起始位点(TSS)强烈相关的两种组蛋白修饰)的ChIP-Seq数据交叉。a. LNCaP细胞中的乙酰基-H3。b. LNCaP细胞中的H3K4me3。c. VCaP细胞中的乙酰基-H3。d. VCaP细胞中的H3K4me3。

图13示出VCaP细胞中未注释转录本与ChIP-Seq数据的重叠。VCaP前列腺癌细胞之前公布的ChIP-Seq数据与未注释的前列腺癌转录本和注释的对照基因交叉。a. H3K4me1 b. H3K36me3。

图14示出LNCaP细胞中未注释转录本与ChIP-Seq数据的重叠。LNCaP前列腺癌细胞的ChIP-Seq数据与未注释的转录本和注释的对照基因交叉。将ncRNA分成基因间的和内含子的。a. H3K4me1 b. H3K4me2 c. H3K4me3 d. 乙酰基-H3 e. H3K36me3 f. RNA聚合酶II。

图15示出15号染色体上的新型转录本的验证。a.显示了在良性、局限性肿瘤和转移癌样本中的平均表达水平(RPKM)的覆盖图表明在TLE3下游的新型转录本的上调。b.对保留了共同外显子1和2的该转录本的多个预测的同种型命名。c.对外显子1与2以及外显子3内部之间的外显子-外显子边界在前列腺细胞系模型中通过RT-PCR进行了验证。d. RT-PCR产物的Sanger测序证实了外显子1和外显子2的连接。

图16示出具有离群转录本的前列腺癌的聚类。将具有在前10%内的离群概况评分的转录本使用层次树进行了聚类。

图17示出前列腺细胞系中新型转录本的验证。在细胞系模型中对从14个未注释转录本中选择用于通过RT-PCR和qPCR验证的11个进行了确认。a. RT-PCR凝胶,显示了所验证的11个转录本的预期条带。b.使用从a中选择的引物获得的代表性qPCR结果。用于b中的引物在a中由红色星号指示。

图18示出PCAT-14通过雄激素信号上调。将VCaP和LNCaP细胞用5nM R1881或媒介物(乙醇)对照进行了处理。

图19示出PCAT-14在匹配的肿瘤组织中上调。通过qPCR测定四个匹配的肿瘤-正常患者组织样本的PCAT-14表达。

图20示出PCAT-14转录本结构的分析。a.使用3’引物获得的代表性5’RACE结果证实了有义转录本PCAT-14的存在。预测的新型转录本显示在RACE结果以上。b. PCAT-14的DNA序列分析指明了预期的拼接供体位点、拼接受体位点和多聚腺苷酸化位点。

图21示出PCAT-1转录本结构的分析。5’和3’ RACE实验显示含有两个外显子ncRNA转录本。

图22示出PCAT-1的敲低不影响VCaP细胞的侵袭或增殖。将VCaP细胞用靶向PCAT-1的定制(costom-made)siRNA或非靶向对照进行了转染。a.单独的和合并的四种siRNA寡核苷酸的敲低效率。b.–d. 测试siRNA 2-4因其较高的敲低效率的功能效应。b.用库尔特计数器(Coulter counter)进行的细胞增殖测定表明在PCAT-1敲低后细胞增殖不存在显著的差异。c. WST-1测定表明在PCAT-1敲低后VCaP细胞活力无变化。d.跨膜侵袭测定表明在PCAT-1敲低后VCaP细胞侵袭力无变化。

图23示出CACNA1D内含子中两个Alu元件的转录。a.代表良性样本、局限性肿瘤和前列腺转移癌样本中RPKM的平均表达的覆盖图。b.在整个前列腺转录组测序队列中CACNA1D Alu转录本的RPKM表达值。c.在细胞系模型中Alu转录本的RT-PCR验证。d. RT-PCR片段的Sanger测序确认证实了AluSp转录本序列的存在。e. AluSp序列一部分的原始测序数据。

图24示出在SChLAP1基因座处的许多重复元件的转录。a.代表在chr2q31.3基因座处转录的重复元件的覆盖图。b.在整个前列腺转录组测序队列中chr2q31.3上的LINE-1重复区的RPKM表达值。c.在细胞系模型中对LINE-1重复元件的RTPCR验证。扩增了402 bp的片段。d. PCR片段的Sanger测序确认了LINE-1扩增子的身份。

图25示出重复区的热图聚类了前列腺癌样本。将含有重复元件的未注释转录本用于以无监督方式对前列腺癌样本聚类。

图26示出SChLAP1基因座跨度>500 kb。在UCSC基因组浏览器中转录组测序数据的可视化表明2号染色体中大的、几乎达1 Mb的部分在癌症中高度活化,从而有助于许多个体转录本以协调方式调节。

图27示出SChLAP1基因座与ETS阳性肿瘤相关。a.如图3b中所示对以下队列通过qPCR测定了SChLAP1基因座的表达:14个良性前列腺组织、47个局限性前列腺肿瘤和10个转移性前列腺癌。b.使用由a中的蓝色虚线指示的阈值对与ETS状态相关的SChLAP1定量。

图28示出PCAT-1和PCAT-14的序列。

图29示出PCAT-1表达使前列腺癌细胞对用PARP-1抑制剂进行的治疗敏感。(a-d)用PARP1抑制剂奥拉帕尼(olaparib)治疗,(e-h)用PARP1抑制剂ABT-888治疗。LNCAP前列腺细胞中稳定的PCAT-1敲低降低了对奥拉帕尼(a)和ABT-888 (e)的敏感性。Du145前列腺癌和RWPE良性前列腺细胞中的稳定过表达增加了对奥拉帕尼(b,c)和ABT-888 (f,g)的敏感性。MCF7乳腺癌细胞中的PCAT-1过表达不重现这一效应(d,h)。

图30示出PCAT-1表达使前列腺癌细胞对放射治疗敏感。(a) LNCAP前列腺细胞中稳定的PCAT-1敲低降低了对放射的敏感性。(b,c) Du145前列腺癌和RWPE良性前列腺细胞中的稳定过表达增加了对放射的敏感性。(d). MCF7乳腺癌细胞中的PCAT-1过表达不重现这一效应。

图31示出未注释的基因间转录本可区分前列腺癌和良性样本。(a) SChLAP-1的基因组位置和外显子结构。SChLAP-1在之前未注释的区中位于2号染色体上。(b) SChLAP-1的同种型结构。(c)细胞分级分离成细胞核和细胞质组分证实了SChLAP-1主要位于细胞核中。(d)在前列腺癌和良性组织队列中的SChLAP-1表达表明SChLAP-1是与癌症相关的前列腺癌离群转录本。

图32示出SChLAP-1为前列腺癌细胞侵袭和增殖所必需。(a)将前列腺和非前列腺癌细胞系用SChLAP-1 siRNA进行了处理。

(b和c)如在(a)中,在SChLAP-1敲低后测定了前列腺和非前列腺细胞系的细胞增殖。(d)在与LNCaP癌细胞相似水平的RWPE良性永生化前列腺细胞中克隆和过表达了三种丰度最高的SChLAP-1同种型。(e)过表达SChLAP-1同种型的RWPE细胞在Boyden室测定中表现出侵袭通过基质胶(Matrigel)的能力升高。

图33示出SChLAP-1的缺失分析识别了对其功能必不可少的区。(a)如构建体示意图中所示,生成了过表达SChLAP-1缺失构建体或全长同种型#1的RWPE细胞。(b)过表达SChLAP-1缺失构建体5的RWPE细胞证实了侵袭通过基质胶(Matrigel)的能力受损,而其他缺失构建体则与野生型SChLAP-1相比未表现出它们在诱导RWPE细胞侵袭方面的能力降低。

图34示出对患者尿样中前列腺癌RNA的检测。(a-e). (a) PCA3 (b) PCAT-14 (c) PCAT-1 (d) SChLAP-1 (e) PDLIM5

图35示出将尿液SChLAP-1测量与血清PSA多重化(multiplex)改善了前列腺癌的危险分层。

图36示出肺癌转录组的分析。(a)通过RNA-Seq对38个肺细胞系进行了分析,并且然后对lncRNA转录本进行了重构。(b)在肺细胞系中观察到的转录本表达水平。(c) 13个未注释的转录本的离群分析表明在肺癌细胞系亚型中存在新型lncRNA。

图37示出在肺癌中发现M41和ENST-75。(a) M41的基因组位置,其位于DSCAM的内含子中。M41在物种中保守性差。(b) M41的qPCR展示了在15-20%肺腺癌中的离群表达以及在乳腺细胞中的高表达。(c) ENST-75的基因组位置,其展示了在物种中的高保守性。(d) ENST-75的qPCR显示了在肺癌但非乳腺癌或前列腺癌中的上调。在正常睾丸中观察到了高表达。

图38示出lncRNA是肺癌中的驱动因素和生物标志物。(a) H1299细胞中ENST-75的敲低,其中非依赖性siRNA实现了>70%的敲低。(b) H1299细胞中ENST-75的敲低损害了细胞增殖。误差条表示标准误(s.e.m)。(c)肺腺癌中的ENST-75表达对患者总体存活分层。(d)在正常和肺癌患者中ENST-75的血清检测水平。(e)在肺癌患者血清中与正常患者血清中相比的平均ENST-75表达。误差条表示s.e.m。

图39示出乳腺癌和胰腺癌中癌症相关lncRNA的命名。(a-c) (a) TU0011194 (b) TU0019356 (c) TU0024146 (d-f)由RNA-Seq数据命名的三种新型胰腺癌lncRNA。所有都显示出胰腺癌样本但非良性样本中的离群表达模式。(d) TU0009141 (e) TU0062051 (f) TU0021861。

具体实施方式

定义

为了有利于理解本发明,下文定义了多个术语和短语:

如本文所用,术语“检测(detect)”、“检测(detecting)”或“检测(detection)”可描述可检测地标记的组合物的发现或辨别或具体观察的一般性行为。

如本文所用,术语“受试者”是指使用本文所述的诊断方法筛查的任何生物体。此类生物体优选地包括但不限于哺乳动物(例如,鼠、猴、马、牛、猪、犬、猫等)并且最优选地包括人。

如本文所用的术语“诊断”是指通过疾病的体征和症状或遗传分析、病理分析、组织学分析等识别疾病。

“疑似患有癌症的受试者”涵盖已接受初步诊断(例如,显示出团块的CT扫描,或PSA水平升高)但尚不清楚其癌症阶段或表明癌症的ncRNA是否存在的个体。该术语还包括曾经患有癌症的人(例如,缓解中的个体)。在一些实施方案中,“受试者”为疑似患有癌症或诊断患有癌症的对照受试者。

如本文所用,术语“表征受试者中的癌症”是指识别受试者中的癌症样本的一种或多种特性,包括但不限于良性、癌前或癌组织的存在、癌症的阶段以及受试者的预后。癌症可通过识别一种或多种癌症标志物基因(包括但不限于本文所公开的ncRNA)的表达来表征。

如本文所用,术语“表征受试者中的前列腺组织”是指识别前列腺组织样本的一种或多种特性(例如,包括但不限于癌组织的存在、ncRNA的存在与否、可能变为癌组织的癌前组织的存在以及可能转移的癌组织的存在)。在一些实施方案中,组织通过识别一种或多种癌症标志物基因(包括但不限于本文所公开的癌症标志物)的表达来表征。

如本文所用,术语“癌症的阶段”是指对癌症发展水平的定性或定量评估。用于确定癌症阶段的标准包括但不限于肿瘤的大小和转移的程度(例如,局限性或远处)。

如本文所用,术语“核酸分子”是指含有任何核酸的分子,包括但不限于DNA或RNA。该术语涵盖包括DNA和RNA的任何已知碱基类似物的序列,包括但不限于:4-乙酰基胞嘧啶、8-羟基-N6-甲基腺苷、吖丙啶基胞嘧啶、假异胞嘧啶、5-(羧基羟甲基)尿嘧啶、5-氟尿嘧啶、5-溴尿嘧啶、5-羧甲基氨基甲基-2-硫尿嘧啶、5-羧甲基氨基甲基尿嘧啶、二氢尿嘧啶、肌苷、N6-异戊烯腺嘌呤、1-甲基腺嘌呤、1-甲基假尿嘧啶、1-甲基鸟嘌呤、1-甲基肌苷、2,2-二甲基鸟嘌呤、2-甲基腺嘌呤、2-甲基鸟嘌呤、3-甲基胞嘧啶、5-甲基胞嘧啶、N6-甲基腺嘌呤、7-甲基鸟嘌呤、5-甲基氨基甲基尿嘧啶、5-甲氧基氨基甲基-2-硫尿嘧啶、β-D-甘露糖Q核苷(beta-D-mannosylqueosine)、5'-甲氧基羰基甲基尿嘧啶、5-甲氧基尿嘧啶、2-甲硫基-N6-异戊烯基腺嘌呤、尿嘧啶-5-氧乙酸甲酯、尿嘧啶-5-氧乙酸、oxybutoxosine、假尿嘧啶、Q核苷(queosine)、2-硫胞嘧啶、5-甲基-2-硫尿嘧啶、2-硫尿嘧啶、4-硫尿嘧啶、5-甲基尿嘧啶、N-尿嘧啶-5-氧乙酸甲酯、尿嘧啶-5-氧乙酸、假尿嘧啶、Q核苷、2-硫胞嘧啶和2,6-二氨基嘌呤。

术语“基因”是指包含对于多肽的产生所必需的编码序列的核酸(例如,DNA)序列、前体或RNA(例如,rRNA、tRNA)。多肽可由全长编码序列或由编码序列的任何部分编码,只要保持全长或片段的所需活性或功能特性(例如,酶活性、配体结合、信号转导、免疫原性等)即可。该术语还涵盖结构基因的编码区以及在5'和3'末端上邻近编码区的序列,距离为在任一末端上约1 kb或更大,使得基因对应于全长mRNA的长度。位于编码区5'并存在于mRNA上的序列称为5'非翻译序列。位于编码区3'或下游并存在于mRNA上的序列称为3'非翻译序列。术语“基因”涵盖基因的cDNA和基因组两种形式。基因的基因组形式或克隆含有通过称为“内含子”、“间插区”或“间插序列”的非编码序列中断的编码区。内含子是转录成核RNA (hnRNA)的基因片段;内含子可以含有调控元件,诸如增强子。内含子从核或初级转录本中移除或“剪除”;因此内含子不存在于信使RNA (mRNA)转录本中。mRNA在翻译过程中起到指定新生多肽中的氨基酸序列或顺序的作用。

如本文所用,术语“寡核苷酸”是指较短长度的单链多核苷酸链。寡核苷酸的长度通常短于200个残基(例如,介于15和100之间),然而,如本文所用,该术语也旨在涵盖较长的多核苷酸链。寡核苷酸通常通过其长度来表示。例如,24个残基的寡核苷酸称为"24-mer"。寡核苷酸可通过自我杂交或与其他多核苷酸杂交而形成二级和三级结构。此类结构可包括但不限于双链体、发夹、十字形、弯曲和三链体。

如本文所用,术语“互补的”或“互补性”用于指代通过碱基配对原则相关的多核苷酸(即,核苷酸的序列)。例如,序列"5'-A-G-T-3'"与序列"3'-T-C-A-5'"互补。互补性可以是“部分的”,其中只有一些核酸的碱基根据碱基配对原则匹配。或者,也可在核酸之间存在“完全”或“总”互补性。核酸链之间的互补程度对于核酸链之间的杂交效率和强度具有显著的影响。这在扩增反应以及依赖核酸之间的结合的检测方法中尤其重要。

术语“同源性”是指互补性的程度。可以存在部分同源性或完全同源性(即,同一性)。部分互补的序列是至少部分地抑制完全互补的核酸分子与“基本上同源的”靶核酸杂交的核酸分子。完全互补序列与靶序列的杂交的抑制可通过在低严格性条件下使用杂交测定(Southern或Northern印迹、液相杂交等)进行检查。基本上同源的序列或探针将竞争并抑制完全同源的核酸分子在低严格性条件下与靶标的结合(即,杂交)。这并非是说,低严格性条件是使得允许非特异性结合的条件;低严格性条件要求两个序列彼此之间的结合为特异性(即,选择性)的相互作用。非特异性结合的不存在可通过使用基本上非互补(例如,低于约30%同一性)的第二靶标进行测试;在不存在非特异性结合的情况下,探针将不与第二非互补靶标杂交。

如本文所用,术语“杂交”用于指代互补核酸的配对。杂交和杂交强度(即,核酸之间的缔合强度)受诸如以下的因素影响:核酸之间的互补程度、所涉及的条件的严格性、形成的杂交体的Tm和核酸内的G:C比率。在其结构内含有互补核酸的配对的单个分子称为“自我杂交的”。

如本文所用,术语“严格性”用于指代进行核酸杂交所处的条件:温度、离子强度和其他化合物(诸如有机溶剂)的存在。在“低严格条件”下,所关注的核酸序列将与其精确互补序列、具有单个碱基错配的序列、密切相关的序列(例如,具有90%或更高同源性的序列)以及只有部分同源性的序列(例如,具有50-90%同源性的序列)杂交。在“中等严格性条件”下,所关注的核酸序列将只与其精确互补序列、具有单个碱基错配的序列和密切相关的序列(例如,90%或更高同源性)杂交。在“高严格性条件”下,所关注的核酸序列将只与其精确互补序列和(取决于诸如温度的条件)具有单个碱基错配的序列杂交。换句话讲,在高严格性条件下,可升高温度以排除与具有单个碱基错配的序列杂交。

术语“分离的”当关于核酸使用时,如“分离的寡核苷酸”或“分离的多核苷酸”是指已识别并与其在自然源中通常相关的至少一种组分或污染物分离的核酸序列。分离的核酸以与其存在于自然界中不同的形式或环境而存在。相比之下,非分离的核酸是以其存在于自然界中的状态存在的核酸,诸如DNA和RNA。例如,给定的DNA序列(例如,基因)邻近相邻基因存在于宿主细胞染色体上;RNA序列(诸如编码特定蛋白质的特异性mRNA序列)作为与编码大量蛋白质的许多其他mRNA的混合物存在于细胞中。然而,编码给定蛋白质的分离的核酸以举例的方式包括在通常表达给定蛋白质的细胞中的此类核酸,其中该核酸的染色体位置不同于天然细胞的相应位置,或者其侧翼具有不同于自然界中的核酸序列。分离的核酸、寡核苷酸或多核苷酸可以单链或双链形式存在。当要将分离的核酸、寡核苷酸或多核苷酸用于表达蛋白质时,寡核苷酸或多核苷酸至少将包含有义链或编码链(即,寡核苷酸或多核苷酸可以为单链的),但是可同时包含有义和反义链(即,寡核苷酸或多核苷酸可以为双链的)。

如本文所用,术语“纯化的”或“以纯化”是指从样本中除去组分(例如,污染物)。例如,抗体通过除去污染性非免疫球蛋白而纯化;它们也可通过除去不结合靶分子的免疫球蛋白而纯化。除去非免疫球蛋白和/或除去不结合靶分子的免疫球蛋白导致样本中靶标反应性免疫球蛋白的百分比提高。在另一个实例中,使重组多肽在细菌宿主细胞中表达,并通过除去宿主细胞蛋白质而纯化多肽;重组多肽在样本中的百分比因而得以提高。

如本文所用,术语“样本”以其最广泛的含义使用。在一种含义中,意在包括从任何来源获得的标本或培养物,以及生物和环境样本。生物样本可获自动物(包括人)并涵盖液体、固体、组织和气体。生物样本包括血液制品,诸如血浆、血清等。然而,此类样本不应解释为限制适用于本发明的样本类型。

具体实施方式

本发明涉及用于癌症诊断、研究和治疗的组合物和方法,包括但不限于癌症标志物。具体地讲,本发明涉及作为前列腺癌、肺癌、乳腺癌和胰腺癌的诊断标志物和临床靶标的ncRNA。

在本发明实施方案的开发过程中进行的实验利用组织样本的RNA-Seq分析和从头转录组组装以预测前列腺癌的完整多聚腺苷酸+转录组。识别了存在于前列腺癌中的6,144个新型ncRNA,包括与疾病进展相关的121个ncRNA(图1、2、16和25)。这些数据表明RNA-Seq在限定基因组的功能上重要的元件方面的全局效用。

本发明不限于特定的机制。实际上,对机制的理解对于实践本发明不是必需的。尽管如此,虽然这些RNA(尤其是差异表达的那些)的生物学作用尚不清楚,但是这些结果指明了一种模型,其中特异性基因间基因座在前列腺癌中活化,从而使得能够转录许多疾病特异性和组织特异性ncRNA(图5g)。在临床上,这些ncRNA签名适用于基于尿液的测定以通过非侵入性方式检测和诊断前列腺癌(参见例如实施例1)。另据设想,特定的ncRNA签名普遍存在于所有疾病状态中,并且将这些方法应用于其他疾病揭露了临床上重要的生物标志物,尤其是对于当前缺乏良好的蛋白质生物标志物的疾病。

虽然传统的方法已关注注释的参考基因组,但是在本发明实施方案开发过程中生成的数据暗示了在前列腺癌进展和前列腺特异性表达中大片的未注释基因座。这方面的一个实例为SChLAP1基因座,其代表>500 kb长度的协调调控表达;以及chr8q24基因座,其含有具有前列腺癌生物标志物PCAT-1的前列腺特异性区域。SChLAP1基因座几乎专门在具有ETS基因融合的前列腺癌中表达这一事实进一步证实了ncRNA识别患者疾病亚型的能力。此外,这些分析揭露了肿瘤发生的新型癌症特异性驱动因素。例如,已知长ncRNA HOTAIR指导EZH2在乳腺癌中的癌症促进作用(Gupta等, Nature 464 (7291), 1071 (2010)),而在PC3前列腺癌细胞系中已提出了ANRIL ncRNA的类似作用(Yap等, Mol Cell 38 (5), 662 (2010))。

I.诊断和筛查方法

如上所述,本发明的实施方案提供利用ncRNA(例如,PCAT-1、PCAT-14、PCAT-43和PCAT-109;SEQ ID NO: 1-9)的检测的诊断和筛查方法。下面描述示例性、非限制性方法。

疑似含有ncRNA的任何患者样本均可根据本发明实施方案的方法进行测试。以非限制性实例的方式,样本可以为组织(例如,前列腺活检样本或通过前列腺切除术获得的组织样本)、血液、尿液、精液、前列腺分泌物或其部分(例如,血浆、血清、尿上清液、尿细胞沉淀或前列腺细胞)。尿样优选地在细致的直肠指检(DRE)后立即采集,这种检查导致来自前列腺中的前列腺细胞脱落到尿道中。

在一些实施方案中,让患者样本接受设计用于分离或富集样本中的ncRNA或含ncRNA的细胞的初步处理。本领域普通技术人员已知的许多技术均可用于此目的,包括但不限于:离心、免疫捕获、细胞裂解和核酸靶标捕获(参见例如,整体以引用方式并入本文的欧洲专利号1 409 727)。

可以多重(multiplex)或联检(panel)格式与其他标志物一起检测ncRNA。标志物的选择仅针对其预测值或与基因融合相结合。示例性前列腺癌标志物包括但不限于:AMACR/P504S(美国专利号6,262,245);PCA3(美国专利号7,008,765);PCGEM1(美国专利号6,828,429);蛋白质(prostein)/P501S、P503S、P504S、P509S、P510S、前列腺酶/P703P、P710P(美国专利公布号20030185830);RAS/KRAS (Bos, Cancer Res. 49:4682-89 (1989); Kranenburg, Biochimica et Biophysica Acta 1756:81-82 (2005));以及在美国专利号5,854,206和6,034,218、7,229,774中所公开的那些,它们均整体以引用方式并入本文。其他癌症、疾病、感染和代谢病症的标志物也设想包括在多重或联检格式中。

在一些实施方案中,将多重或阵列格式用于检测组合形式的多种标志物。例如,在一些实施方案中,将选自例如以下的两个或更多个(例如,10个或更多个,25个或更多个,50个或更多个,100个或更多个或所有121个)非编码RNA (ncRNA)的表达水平用于本文所述的研究、筛查、诊断和预后组合物和方法中:PCAT1、PCAT2、PCAT3、PCAT4、PCAT5、PCAT6、PCAT7、PCAT8、PCAT9、PCAT10、PCAT11、PCAT12、PCAT13、PCAT14、PCAT15、PCAT16、PCAT17、PCAT18、PCAT19、PCAT20、PCAT21、PCAT22、PCAT23、PCAT24、PCAT25、PCAT26、PCAT27、PCAT28、PCAT29、PCAT30、PCAT31、PCAT32、PCAT33、PCAT34、PCAT35、PCAT36、PCAT37、PCAT38、PCAT39、PCAT40、PCAT41、PCAT42、PCAT43、PCAT44、PCAT45、PCAT46、PCAT47、PCAT48、PCAT49、PCAT50、PCAT51、PCAT52、PCAT53、PCAT54、PCAT55、PCAT56、PCAT57、PCAT58、PCAT59、PCAT60、PCAT61、PCAT62、PCAT63、PCAT64、PCAT65、PCAT66、PCAT67、PCAT68、PCAT69、PCAT70、PCAT71、PCAT72、PCAT73、PCAT74、PCAT75、PCAT76、PCAT77、PCAT78、PCAT79、PCAT80、PCAT81、PCAT82、PCAT83、PCAT84、PCAT85、PCAT86、PCAT87、PCAT88、PCAT89、PCAT90、PCAT91、PCAT92、PCAT93、PCAT94、PCAT95、PCAT96、PCAT97、PCAT98、PCAT99、PCAT100、PCAT101、PCAT102、PCAT103、PCAT104、PCAT105、PCAT106、PCAT107、PCAT108、PCAT109、PCAT110、PCAT111、PCAT112、PCAT113、PCAT114、PCAT115、PCAT116、PCAT117、PCAT118、PCAT119、PCAT120或PCAT121。

i.DNA和RNA检测

本发明的ncRNA使用本领域普通技术人员已知的多种核酸技术进行检测,这些技术包括但不限于:核酸测序、核酸杂交和核酸扩增。

1. 测序

核酸测序技术的示例性非限制性实例包括但不限于链终止子(Sanger)测序和染料终止子测序。本领域的普通技术人员将认识到,由于RNA在细胞中不太稳定并且在实验中更易受到核酸酶攻击,因此在测序前通常将RNA逆转录成DNA。

链终止子测序采用使用修饰的核苷酸底物的DNA合成反应的序列特异性终止。在模板DNA上的特异性位点引发延伸,方式是使用短放射性的或其他标记的在该区域与模板互补的寡核苷酸引物。使用DNA聚合酶、标准的四个脱氧核苷酸碱基和低浓度的一条链终止核苷酸(最常见为双脱氧核苷酸)延伸寡核苷酸引物。将该反应在四只单独的管中重复,其中每个碱基轮流作为双脱氧核苷酸。通过DNA聚合酶有限结合链终止核苷酸产生仅在使用特定双脱氧核苷酸的位置终止的一系列相关DNA片段。对于每只反应管,在垂直板聚丙烯酰胺凝胶或填充有粘稠聚合物的毛细管中通过电泳对片段按大小进行分离。在从凝胶顶部到底部扫描时,通过读取从标记的引物产生可视标记的泳道,从而确定序列。

染料终止子测序作为另外一种选择对终止子进行标记。通过用单独的荧光染料(在不同的波长处产生荧光)对每个双脱氧核苷酸链终止子进行标记,可在单次反应中进行完整测序。

设想了将多种核酸测序方法用于本公开的方法,包括例如链终止子(Sanger)测序、染料终止子测序和高通量测序方法。这些测序方法中的许多都是本领域熟知的。参见例如,Sanger等, Proc. Natl. Acad. Sci. USA 74:5463-5467 (1997); Maxam等, Proc. Natl. Acad. Sci. USA 74:560-564 (1977); Drmanac,等, Nat. Biotechnol. 16:54-58 (1998); Kato, Int. J. Clin. Exp. Med. 2:193-202 (2009); Ronaghi等, Anal. Biochem. 242:84-89 (1996); Margulies等, Nature 437:376-380 (2005); Ruparel等, Proc. Natl. Acad. Sci. USA 102:5932-5937 (2005)和Harris等, Science 320:106-109 (2008); Levene等, Science 299:682-686 (2003); Korlach等, Proc. Natl. Acad. Sci. USA 105:1176-1181 (2008); Branton等, Nat. Biotechnol. 26(10):1146-53 (2008); Eid等, Science 323:133-138 (2009);它们均整体以引用方式并入本文。

2. 杂交

核酸杂交技术的示例性非限制性实例包括但不限于原位杂交(ISH)、微阵列和Southern或Northern印迹。原位杂交(ISH)是一种使用标记的互补DNA或RNA链作为探针以定位组织一部分或切片(原位)或者如果组织足够小则为整个组织(全组织包埋ISH)中的特异性DNA或RNA序列的杂交。DNA ISH可用于确定染色体的结构。RNA ISH用于测量和定位组织切片或全组织包埋内的mRNA和其他转录本(例如,ncRNA)。通常对样本细胞和组织进行处理以原位固定靶转录本,并增加探针的进入。探针在高温下与靶序列杂交,然后将多余的探针洗掉。分别使用放射自显影、荧光显微术或免疫组织化学,对组织中用放射、荧光或抗原标记的碱基标记的探针进行定位和定量。ISH也可使用两种或更多种通过放射性或其他非放射性标记物标记的探针,以同时检测两种或更多种转录本。

在一些实施方案中,使用荧光原位杂交(FISH)检测ncRNA。在一些实施方案中,FISH测定利用细菌人工染色体(BAC)。这些已经广泛用于人类基因组测序项目中(参见Nature 409: 953-958 (2001)),并且含有特异性BAC的克隆可通过位于许多来源的经销商获得,例如NCBI。得自人类基因组的每个BAC克隆已被给出了明确标识其的参考名称。这些名称可用于查找相应的GenBank序列以及从经销商订购克隆的拷贝。

本发明还提供对人前列腺细胞、人前列腺组织或对所述人前列腺细胞或人前列腺组织的周围液体进行FISH测定的方法。具体的方案在本领域中是熟知的,并可容易地加以修改以用于本发明。关于方法的指导可从许多参考文献中获得,包括:In situ Hybridization: Medical Applications (G. R. Coulton和J. de Belleroche编著), Kluwer Academic Publishers, Boston (1992); In situ Hybridization: In Neurobiology; Advances in Methodology (J. H. Eberwine, K. L. Valentino, 和J. D. Barchas编著), Oxford University Press Inc., England (1994); In situ Hybridization: A Practical Approach (D. G. Wilkinson编著), Oxford University Press Inc., England (1992)); Kuo,等, Am. J. Hum. Genet. 49:112-119 (1991); Klinger,等, Am. J. Hum. Genet. 51:55-65 (1992);以及Ward,等, Am. J. Hum. Genet. 52:854-865 (1993))。还存在可商购获得的并提供执行FISH测定的方案的试剂盒(获自例如,Oncor, Inc., Gaithersburg, MD)。提供关于方法的指导的专利包括U.S. 5,225,326、5,545,524、6,121,489和6,573,043。所有这些参考文献据此整体以引用方式并入,并且可与本领域中的相似参考文献以及在本文实施例章节中提供的信息一起建立适宜特定实验室的程序步骤。

3. 微阵列

不同种类的生物测定为所谓的微阵列,包括但不限于:DNA微阵列(例如,cDNA微阵列和寡核苷酸微阵列)、蛋白质微阵列、组织微阵列、转染或细胞微阵列、化学化合物微阵列和抗体微阵列。通常称为基因芯片、DNA芯片或生物芯片的DNA微阵列是微观DNA点的集合,这些点连接到固体表面(例如,玻璃、塑料或硅芯片)上,形成用于对数千种基因同时进行表达谱分析或表达水平监测的阵列。固定的DNA片段称为探针,其数千个可用于单个DNA微阵列中。微阵列可用于通过比较疾病和正常细胞中的基因表达而识别疾病基因或转录本(例如,ncRNA)。微阵列可使用多种技术加以制造,包括但不限于:用细尖针印刷到载玻片上、使用预制的掩模进行光刻、使用动态微镜器件进行光刻、喷墨印刷或微电极阵列上的电化学方法。

将Southern和Northern印迹分别用于检测特异性DNA或RNA序列。使从样本中提取的DNA或RNA断裂,在基质凝胶上通过电泳分离,然后转移到膜滤器上。使滤器结合的DNA或RNA与和所关注的序列互补的标记探针杂交。检测结合到滤器的杂交探针。该程序的一种变化形式是反向Northern印迹,其中固定到膜的底物核酸为分离的DNA片段的集合,而探针是从组织提取并进行了标记的RNA。

3. 扩增

可在检测前或与检测同时地对核酸(例如,ncRNA)进行扩增。核酸扩增技术的示例性非限制性实例包括但不限于:聚合酶链式反应(PCR)、逆转录聚合酶链式反应(RT-PCR)、转录介导的扩增(TMA)、连接酶链式反应(LCR)、链置换扩增(SDA)和基于核酸序列的扩增(NASBA)。本领域的普通技术人员将认识到,某些扩增技术(例如,PCR)需要在扩增前将RNA逆转录成DNA(例如,RT-PCR),而其他扩增技术则直接扩增RNA(例如,TMA和NASBA)。

通常称为PCR的聚合酶链式反应(美国专利号4,683,195、4,683,202、4,800,159和4,965,188,它们均整体以引用方式并入本文)使用变性、引物对与相反链的退火以及引物延伸的多个循环,以指数方式增加靶核酸序列的拷贝数。在称为RT-PCR的变型形式中,将逆转录酶(RT)用于从mRNA制备互补的DNA (cDNA),然后将cDNA通过PCR扩增以产生DNA的多个拷贝。对于PCR的其他多种排列,参见例如,美国专利号4,683,195、4,683,202和4,800,159;Mullis等, Meth. Enzymol. 155: 335 (1987)以及Murakawa等, DNA 7: 287 (1988),它们均整体以引用方式并入本文。

通常称为TMA的转录介导的扩增(美国专利号5,480,784和5,399,491,它们均整体以引用方式并入本文)在基本上恒定的温度、离子强度和pH的条件下自身催化地合成靶核酸序列的多个拷贝,其中靶序列的多个RNA拷贝自身催化地生成另外的拷贝。参见例如,美国专利号5,399,491和5,824,518,它们均整体以引用方式并入本文。在美国专利公布号20060046265(整体以引用方式并入本文)所述的变型形式中,TMA任选地包括使用阻断部分、终止部分和其他修饰部分,以改善TMA过程的灵敏度和准确度。

通常称为LCR的连接酶链式反应(Weiss, R., Science 254: 1292 (1991),整体以引用方式并入本文)使用与靶核酸的相邻区域杂交的两组互补DNA寡核苷酸。DNA寡核苷酸在热变性、杂交和连接的重复多个循环中通过DNA连接酶共价连接,以产生可检测的双链连接寡核苷酸产物。

通常称为SDA的链置换扩增(Walker, G.等, Proc. Natl. Acad. Sci. USA 89: 392-396 (1992);美国专利号5,270,184和5,455,166,它们均整体以引用方式并入本文)使用以下步骤的多个循环:引物序列对与靶序列的相反链进行退火,在存在dNTPαS下进行引物延伸以产生双链半硫代磷酸化的(hemiphosphorothioated)引物延伸产物,半修饰的限制性内切酶识别位点进行的核酸内切酶介导的切刻,以及从切口3'端进行的聚合酶介导引的物延伸以置换现有链并产生供下一轮引物退火、切刻和链置换的链,从而引起产物的几何扩增。嗜热SDA (tSDA)以基本上相同的方法在更高的温度下使用嗜热核酸内切酶和聚合酶(欧洲专利号0 684 315)。

其他扩增方法包括例如:通常称为NASBA的基于核酸序列的扩增(美国专利号5,130,238,整体以引用方式并入本文);使用RNA复制酶(通常称为Qβ复制酶)扩增探针分子本身的扩增(Lizardi等, BioTechnol. 6: 1197 (1988),整体以引用方式并入本文);基于转录的扩增方法(Kwoh等, Proc. Natl. Acad. Sci. USA 86:1173 (1989));以及自我维持的序列扩增(Guatelli等, Proc. Natl. Acad. Sci. USA 87: 1874 (1990),它们均整体以引用方式并入本文)。对于已知扩增方法的进一步讨论,参见Persing, David H., “In Vitro Nucleic Acid Amplification Techniques” in Diagnostic Medical Microbiology: Principles and Applications (Persing等,编著),51-87页(American Society for Microbiology, Washington, DC (1993))。

4. 检测方法

非扩增或扩增的核酸可通过任何常规的手段检测。例如,ncRNA可通过与可检测的标记探针的杂交以及所得杂交体的测量而进行检测。下文将描述检测方法的示例性非限制性实例。

一种示例性检测方法—杂交保护测定(HPA)涉及将化学发光寡核苷酸探针(例如,吖啶酯(AE)标记的探针)与靶序列杂交,选择性水解存在于未杂交的探针上的化学发光标记,以及在光度计中测量由剩余的探针产生的化学发光。参见例如,美国专利号5,283,174和Norman C. Nelson等,Nonisotopic Probing, Blotting, and Sequencing, 17章( Larry J. Kricka编著,第2版1995,它们均整体以引用方式并入本文)。

另一种示例性检测方法提供扩增过程的实时定量评估。“实时”评估扩增过程涉及在扩增反应期间连续地或定期地测定反应混合物中扩增子的量,以及使用测定的值计算最初存在于样本中的靶序列的量。基于实施扩增测定存在于样本中的初始靶序列量的多种方法是本领域中熟知的。这些包括在美国专利号6,303,305和6,541,205中所公开的方法,所述专利均整体以引用方式并入本文。测定最初存在于样本中的靶序列的量但不是基于实时扩增的另一种方法在美国专利号5,710,029中有所公开,所述专利整体以引用方式并入本文。

可通过使用各种自我杂交探针(它们中的大部分都具有茎-环结构)实时检测扩增产物。对此类自我杂交探针进行标记,使得它们发出可不同地检测的信号,具体取决于探针是处于自我杂交状态还是通过与靶序列杂交的改变状态。以非限制性实例的方式,“分子炬”是一种类型的自我杂交探针,其包括具有自我互补性的不同区域(称为“靶标结合域”和“靶标封闭域”),它们通过连接区(例如,非核苷酸连接子)连接并在预定的杂交测定条件下彼此杂交。在一个优选的实施方案中,分子炬在靶标结合域含有单链碱基区,其长度为1至约20个碱基,并能够在链置换条件下与存在于扩增反应中的靶序列杂交。在链置换条件下,分子炬的两个互补区(可以完全或部分互补)的杂交优先发生,但在靶序列的存在下例外,靶序列将结合到存在于靶标结合域中的单链区并置换靶标封闭域的整个或一部分。分子炬的靶标结合域和靶标封闭域包含可检测的标记或一对相互作用的标记(例如,荧光剂/猝灭剂),它们的定位使得当分子炬自我杂交时产生与当分子炬与靶序列杂交时不同的信号,从而允许在未杂交的分子炬的存在下检测测试样本中的探针:靶标双链体。分子炬和多种类型的相互作用标记对在美国专利号6,534,274中有所公开,所述专利整体以引用方式并入本文。

具有自我互补性的检测探针的另一个实例为“分子信标”。分子信标包括具有靶互补序列的核酸分子、在扩增反应中不存在靶序列的情况下将探针保持在封闭构象的亲和对(或核酸臂)以及当探针处于封闭构象时相互作用的标记对。靶序列和靶互补序列的杂交将亲和对的成员分离,从而使探针转向开放构象。转向开放构象可因标记对的相互作用减弱而检测到,而标记对可以例如为荧光团和猝灭剂(例如,DABCYL和EDANS)。分子信标在美国专利号5,925,517和6,150,097中有所公开,所述专利均整体以引用方式并入本文。

其他自我杂交探针是本领域普通技术人员熟知的。以非限制性实例的方式,具有相互作用标记的探针结合对,诸如在美国专利号5,928,862(整体以引用方式并入本文)中所公开的那些,可适用于本发明。用于检测单核苷酸多态性(SNP)的探针系统也可用于本发明。另外的检测系统包括如美国专利公布号20050042638中所公开的“分子开关”,所述专利公布整体以引用方式并入本文。其他探针,诸如包含插入染料和/或荧光染料的那些,也可在本发明中用于检测扩增产物。参见例如,美国专利号5,814,447(整体以引用方式并入本文)。

ii. 数据分析

在一些实施方案中,将基于计算机的分析程序用于为临床医生将检测测定生成的原始数据(例如,给定的一种或多种标志物的存在、不存在或量)转化成预测值数据。临床医生可使用任何合适的手段访问预测数据。因此,在一些优选的实施方案中,本发明提供不大可能接受遗传学或分子生物学培训的临床医生不必理解原始数据的进一步优势。将数据以其最有用的形式直接展示给临床医生。临床医生然后能够立即利用这些信息以便优化对受试者的护理。

本发明设想了能够在进行测定的实验室、信息提供者、医疗人员和受试者中接收、处理和来回传递信息的任何方法。例如,在本发明的一些实施方案中,从受试者获得样本(例如,活检或血清或尿液样本)并提交给位于世界上任何地方(例如,不同于受试者居住的国家/地区或不同于最终使用信息的国家的国家)的分析服务机构(profiling service)(例如,医疗机构中的临床实验室、基因组分析企业等)以生成原始数据。在样本包括组织或其他生物样本的情况下,受试者可访问医疗中心以获取样本并送往分析中心,或者受试者可自行采集样本(例如,尿样)并直接送往分析中心。在样本包括之前确定的生物学信息的情况下,该信息可由受试者直接送往分析服务机构(例如,可通过计算机扫描包含信息的信息卡,并使用电子通信系统将数据传输到分析中心的计算机)。一旦分析服务机构收到后,对样本进行处理,并产生对受试者所需的诊断或预后信息特定的资料(profile)(即,表达数据)。

然后以适合由治疗临床医生解读的格式准备资料数据(profile data)。例如,不提供原始表达数据,准备好的格式可代表受试者的诊断或风险评估(例如,ncRNA存在与否),以及针对特定治疗选项的建议。数据可通过任何合适的方法显示给临床医生。例如,在一些实施方案中,分析服务机构生成可为临床医生打印(例如,床边)或在计算机显示器上显示给临床医生的报告。

在一些实施方案中,首先在床边或区域性机构对信息进行分析。然后将原始数据发送到中央处理机构以供进一步分析和/或将原始数据转换成对临床医生或患者可用的信息。中央处理机构提供数据分析保密(所有数据以统一安全协议存储在中央机构中)、速度和一致性的优势。中央处理机构然后可在治疗受试者后控制数据的归宿。例如,使用电子通信系统,中央机构可向临床医生、受试者或研究人员提供数据。

在一些实施方案中,受试者能够使用电子通信系统直接访问数据。受试者可基于结果选择进一步的干预或咨询。在一些实施方案中,将数据用于研究用途。例如,数据可用于进一步优化作为特定病症或疾病阶段的有用指标或作为确定疗程的搭配诊断的标志物的包括或淘汰。

iiii.体内成像

ncRNA也可使用体内成像技术检测,包括但不限于:放射性核素成像、正电子发射断层扫描(PET)、计算机轴断层摄影术、X射线或磁共振成像方法、荧光检测和化学发光检测。在一些实施方案中,将体内成像技术用于观察动物(例如,人或非人类哺乳动物)中癌症标志物的存在或表达。例如,在一些实施方案中,将癌症标志物mRNA或蛋白质用对癌症标志物特异性的标记抗体进行标记。特异性结合和标记的抗体可使用体内成像方法在个体中进行检测,这些方法包括但不限于:放射性核素成像、正电子发射断层扫描、计算机轴断层摄影术、X射线或磁共振成像方法、荧光检测和化学发光检测。下文将描述用于生成本发明的癌症标志物的抗体的方法。

本发明实施方案的体内成像方法可用于识别表达ncRNA的癌症(例如,前列腺癌)。将体内成像用于观察ncRNA的存在或表达水平。此类技术允许在不使用令人不快的活检的情况下进行诊断。本发明实施方案的体内成像方法还可用于检测身体其他部分中的转移癌。

在一些实施方案中,对对本发明癌症标志物特异的试剂(例如,抗体)进行荧光标记。将标记后的抗体引入受试者(例如,经口或肠胃外)。使用任何合适的方法检测荧光标记的抗体(例如,使用美国专利号6,198,107中所述的设备,所述专利以引用方式并入本文)。

在其他实施方案中,对抗体进行放射性标记。将抗体用于体内诊断是本领域熟知的。Sumerdon等, (Nucl. Med. Biol 17:247-254 [1990]已描述了使用铟-111作为标记进行肿瘤的放射免疫闪烁显像(radioimmunoscintographic imaging)的优化的抗体螯合剂。Griffin等,(J Clin Onc 9:631-640 [1991])已描述了使用这种物质检测疑似患有复发结直肠癌的患者中的肿瘤。使用具有顺磁离子的相似物质作为磁共振成像的标记在本领域中是已知的(Lauffer, Magnetic Resonance in Medicine 22:339-342 [1991])。所用的标记将取决于所选的成像模式。放射性标记诸如铟-111、锝-99m或碘-131可用于平面扫描或单光子发射计算机断层成像(SPECT)。正电子发射标记诸如氟-19也可用于正电子发射断层扫描(PET)。对于MRI,可以使用顺磁离子诸如钆(III)或锰(II)。

半衰期在1小时至3.5天范围内的放射性金属可用于缀合到抗体,诸如钪-47(3.5天)、镓-67(2.8天)、镓-68(68分钟)、锝-99m(6小时)和铟-111(3.2天),其中镓-67、锝-99m和铟-111对于伽玛照像机成像是优选的,镓-68对于正电子发射断层扫描是优选的。

用此类放射性金属标记抗体的可用方法是借助双官能螯合剂,诸如二亚乙基三胺五乙酸(DTPA),如例如Khaw等(Science 209:295 [1980])针对In-111和Tc-99m所述以及Scheinberg等(Science 215:1511 [1982])所述。也可使用其他螯合剂,但是1-(对羧基甲氧基苄基)EDTA和DTPA的羧酸碳酸酐是有利的,因为它们的使用允许在不明显影响抗体免疫反应性的情况下偶联。

将DPTA缀合到蛋白质的另一种方法是通过使用DTPA的环酐,如Hnatowich等(Int. J. Appl. Radiat. Isot. 33:327 [1982])针对用In-111标记白蛋白所述,但是可对其进行修改以标记其他抗体。用Tc-99m标记抗体但不使用与DPTA的螯合的合适方法是Crockford等的预锡化(pretinning)法(美国专利号4,323,546,以引用方式并入本文)。

用Tc-99m标记免疫球蛋白的方法如Wong等(Int. J. Appl. Radiat. Isot., 29:251 [1978])针对血浆蛋白质所述,并且最近被Wong等(J. Nucl. Med., 23:229 [1981])成功地用于标记抗体。

就缀合到特异性抗体的放射性金属而言,同样期望以尽可能高的放射性标记比例引入抗体分子,而不破坏其免疫特异性。通过在ncRNA的存在下实现放射性标记以确保抗体上的抗原结合位点将受到保护,可实现进一步的改善。在标记后对抗原进行分离。

在另外的实施方案中,将体内生物光子成像(Xenogen, Almeda, CA)用于体内成像。该实时体内成像利用荧光素酶。将荧光素酶基因并入到细胞、微生物和动物中(例如,作为与本发明的癌症标志物的融合蛋白)。当活化时,其导致发光的反应。将CCD相机和软件用于捕获图像并对其进行分析。

iv.组合物和试剂盒

用于本文所述的诊断方法的组合物包含但不限于探针、扩增寡核苷酸等。

本发明的探针和抗体组合物还可以阵列的形式提供。

II. 药物筛选应用

在一些实施方案中,本发明提供药物筛选测定(例如,以筛选抗癌药物)。本发明的筛选方法利用ncRNA。例如,在一些实施方案中,本发明提供筛选改变(例如,降低)ncRNA发热表达或活性的化合物的方法。该化合物或药剂可通过例如与启动子区域相互作用而干扰转录。该化合物或药剂可干扰mRNA(例如,通过RNA干扰、反义技术等)。该化合物或药剂可干扰ncRNA生物活性上游或下游的通路。在一些实施方案中,候选化合物是针对ncRNA的反义或干扰RNA物质(例如,寡核苷酸)。在其他实施方案中,候选化合物是特异性结合到ncRNA调节子或表达产物以抑制其生物功能的抗体或小分子。

在一种筛选方法中,通过将化合物与表达ncRNA的细胞接触然后测定候选化合物对表达的影响,评估候选化合物改变ncRNA表达的能力。在一些实施方案中,通过检测细胞表达的ncRNA水平,测定候选化合物对ncRNA表达的影响。mRNA表达可通过任何合适的方法进行检测。

实验

提供以下实施例以便展示并进一步说明本发明的某些优选的实施方案和方面,而不应解释为限制本发明的范围。

实施例1

A.方法

方法概要

所有前列腺组织样本均使用IRB批准的知情同意书得自University of Michigan Specialized Program Of Research Excellence (S.P.O.R.E.)。如之前所述进行了下一代测序和文库制备(Maher等,Proc Natl Acad Sci U S A 106 (30), 12353 (2009))。将唯一映射测序读段(sequencing read)与TopHat进行了比对,并将所有样本的测序数据合并。通过将序列与TopHat比对并使用唯一映射读段位置通过Cufflinks构建转录本,进行了从头转录组组装。将信息学方法用于改进组装,并预测表达的转录单位。未注释的转录本基于它们不存在于UCSC、RefSeq、ENSEMBL、ENCODE和Vega数据库中而命名。对良性、癌症和转移癌样本中的log2平均表达使用微阵列显著性分析(SAM)算法确定了差异表达(Tusher等,Proc Natl Acad Sci U S A 98 (9), 5116 (2001))。如之前所述通过稍加改动进行了癌症离群概况分析(COPA) (Tomlins等,Science 310 (5748), 644 (2005))。根据标准方案进行了PCR实验,以及通过GeneRacer试剂盒(Invitrogen)根据制造商说明进行了RACE。ChIP-seq数据得自之前已公布的数据(Yu等,Cancer Cell 17 (5), 443)。通过Oligofectamine (Invitrogen)用定制的siRNA寡核苷酸(Dharmacon)进行了siRNA敲低。用基质胶(Matrigel) (BD Biosciences)进行了跨膜侵袭测定,以及通过用库尔特计数器进行细胞计数进行了细胞增殖测定。如之前所述通过稍加改动进行了尿液分析(Laxman等, Cancer Res 68 (3), 645 (2008))。

细胞系和组织

良性永生化前列腺细胞系RWPE以及PC3、Du145、LNCaP、VCaP、22Rv1、CWR22、C4-2B、NCI-660、MDA PCa 2b、WPMY-1和LAPC-4前列腺细胞系得自美国模式培养物保藏中心(Manassas, VA)。良性非永生化前列腺上皮细胞(PrEC)和前列腺平滑肌细胞(PrSMC)得自Lonza (Basel, Switzerland)。将细胞系使用标准培养基和条件维持。对于雄激素处理实验,使LNCaP和VCaP细胞在不含酚红并补充了10%活性炭处理血清和1%青霉素-链霉素的雄激素缺失培养基中生长。48小时后,将细胞用5nM美曲勃龙(methyltrienolone)(R1881, NEN Life Science Products)或等体积乙醇处理。在处理后6小时、24小时和48小时收获细胞的RNA。前列腺组织得自根治性前列腺切除术系列和密歇根大学组织核心实验室(University of Michigan tissue core)的快速尸检项目(Rapid Autopsy Program)。这些项目是密歇根大学前列腺癌卓越研究专用项目(Prostate Cancer Specialized Program Of Research Excellence) (S.P.O.R.E.)的一部分。所有组织样本均根据密歇根大学的机构审查委员会(IRB)批准的方案通过知情同意采集。

使PC3、Du145、LNCaP、22Rv1和CRW22细胞在补充了10%胎牛血清(FBS)和1%青霉素-链霉素的RPMI 1640 (Invitrogen)中生长。使LNCaP CDS亲本细胞在补充了10%活性炭/葡聚糖处理FBS (Invitrogen)和1%青霉素-链霉素的不含酚红RPMI 1640 (Invitrogen)中生长。LNCaP CDS 1、2和3为衍生自雄激素缺失培养基中的延长细胞培养物的雄激素非依赖性亚克隆。使VCaP和WPMY-1细胞在补充了10%胎牛血清(FBS)与1%青霉素-链霉素的DMEM (Invitrogen)中生长。使NCI-H660细胞在补充了0.005 mg/ml胰岛素、0.01 mg/ml转铁蛋白(transferring)、30 nM亚硒酸钠、10 nM氢化可的松、10 nM β-雌二醇、5% FBS和额外2 mM L-谷氨酰胺(4 mM的最终浓度)的RPMI 1640中生长。使MDA PCa 2b细胞在补充了20% FBS、25 ng/ml霍乱毒素、10ng/ml EGF、0.005 mM磷脂酰乙醇胺、100 pg/ml氢化可的松、45 nM亚硒酸和0.005 mg/ml胰岛素的F-12K培养基(Invitrogen)中生长。使LAPC-4细胞在补充了10% FBS和1 nM R1881的Iscove培养基(Invitrogen)中生长。使C4-2B细胞在补充了20% F12、5% FBS、3 g/L NaCo3、5 µg/ml胰岛素、13.6 pg/ml三碘甲状腺原氨酸(triiodothyonine)、5 μg/ml转铁蛋白、0.25 µg/ml生物素和25 µg/ml腺嘌呤的80% DMEM中生长。使PrEC细胞在作为PrEGM BulletKit (Lonza)一部分的补充了2 ml BPE、0.5 ml氢化可的松、0.5 ml EGF、0.5 ml肾上腺素、0.5 ml转铁蛋白(transferring)、0.5 ml胰岛素、0.5 ml视黄酸和0.5 ml三碘甲状腺原氨酸的PrEGM中生长。使PrSMC细胞在作为SmGM-2 BulletKit (Lonza)一部分的补充了2ml BPE、0.5 ml氢化可的松、0.5 ml EGF、0.5 ml肾上腺素、0.5 ml转铁蛋白(transferring)、0.5 ml胰岛素、0.5 ml视黄酸和0.5 ml三碘甲状腺原氨酸的SmGM-2培养基中生长。

RNA-Seq文库制备。

使用2 µg RNA根据Illumina的方案对21个前列腺细胞系、20个良性相邻前列腺、47个局限性肿瘤和14个转移瘤进行了RNA的下一代测序。使用Agilent 2100生物分析仪测量了RNA完整性;并且只将RIN评分>7.0的样本用于文库生成。RNA为使用由Ilumina提供的OligodT珠选择并通过Ambion Fragmentation Reagents试剂盒(Ambion, Austin, TX)碎裂的多聚腺苷酸+。根据Illumina的方案进行了cDNA合成、末端修复、碱基A加成和Illumina PCR衔接子的连接(根据需要为单端或双端)。然后在3.5%琼脂糖凝胶上进行了文库的250-300 bp cDNA片段大小选择,并使用Phusion DNA聚合酶(Finnzymes)进行了15–18个PCR循环的PCR扩增。然后将PCR产物在2%琼脂糖凝胶上纯化,并进行凝胶提取。通过在Agilent 2100生物分析仪上测定各文库的产物大小和浓度,证明了文库质量。在Illumina基因组分析仪I或基因组分析仪II流动池上根据Illumina的方案作为36-45mer对文库进行了测序。所有单端样本在基因组分析仪I上测序,并且所有双端样本在基因组分析仪II上测序。

RNA分离和cDNA合成

使用Trizol和RNeasy试剂盒(Invitrogen)根据制造商的说明通过DNA酶I消化分离了总RNA。在Agilent生物分析仪2100 (Agilent Technologies, Palo Alto, CA)上确认了RNA完整性。使用Superscript III (Invitrogen)和随机引物(Invitrogen)由总RNA合成了cDNA。

实时定量PCR

使用Power SYBR Green Mastermix (Applied Biosystems, Foster City, CA)在Applied Biosystems 7900HT实时PCR系统上进行了实时定量PCR(qPCR)。所有寡核苷酸引物得自Integrated DNA Technologies (Coralville, IA)并在表13中列出。将持家基因GAPDH用作上样对照。相对于GAPDH计算倍数变化,并归一化为良性样本的中位值。

逆转录PCR

使用Platinum Taq高保真聚合酶(Invitrogen)进行了引物对的逆转录PCR (RT-PCR)。将PCR产物在2%琼脂糖凝胶上进行分析。将PCR产物直接测序(如果只观察到单一产物)或者使用凝胶回收试剂盒(Qiagen)提取适当的凝胶产物并克隆进pcr4-TOPO载体(Invitrogen)。使用基因特异性引物或对于克隆的PCR产物而言使用M13正向和反向引物,在密歇根大学测序核心实验室(University of Michigan Sequencing Core)对PCR产物进行双向测序。所有寡核苷酸引物得自Integrated DNA Technologies (Coralville, IA)并在表13中列出。

RNA连接酶介导的cDNA末端快速扩增(RACE)

使用GeneRacer RLM-RACE试剂盒(Invitrogen)根据制造商方案进行了5’和3’ RACE。RACE PCR产物使用Platinum Taq高保真聚合酶(Invitrogen)、供应的GeneRacer引物和合适的基因特异性引物(表13中所示)获得。将RACEPCR产物在2%琼脂糖凝胶上进行了分离。将凝胶产物用凝胶回收试剂盒(Qiagen)提取,克隆进pcr4-TOPO载体(Invitrogen),然后在密歇根大学测序核心实验室使用M13正向和反向引物进行双向测序。对于纯化的每一种凝胶产物,对至少三个集落进行测序。

RNA的双端下一代测序

使用Sera-Mag oligo(dT)珠(Thermo Scientific)从2 μg总RNA中选择多聚腺苷酸+RNA,并如之前所述(Maher等, supra)使用Illumina提供的通用衔接子寡核苷酸和PCR引物(Illumina)制备双端下一代测序文库。在Illumina基因组分析仪II流动池上使用先前所述的方案(Maher等,同上)在单个泳道中对样本测序。36-45 mer双端读段根据Illumina提供的方案进行。

siRNA敲低研究

将细胞以所需的浓度铺在100 mM板中,并在铺板后12小时和36小时用20 µM实验siRNA寡核苷酸或非靶向对照转染两次。使用Oligofectamine和Optimem进行敲低。通过qPCR确定了敲低效率。转染后72小时,将细胞用胰蛋白酶处理,通过库尔特计数器计数,并稀释到1百万个细胞/mL。对于增殖测定,将200,000个细胞铺在24孔板中,并在常规培养基中生长。铺板后48和96小时,收获细胞,并使用库尔特计数器计数。对于侵袭测定,将基质胶(Matrigel)以1:4在无血清培养基中稀释,并将100 µL稀释后的基质胶(Matrigel)涂到Boyden室跨膜插入皿(insert)上,并允许在37℃下沉降过夜。每个插入皿涂覆悬浮在无血清培养基中的200,000个细胞,并将500 µL含血清培养基置于Boyden(用作化学吸引剂的胎牛血清)的底部。让细胞侵袭48小时,此时,取出插入皿,并用棉签轻轻除去非侵袭的细胞和基质胶(Matrigel)。将侵袭细胞用结晶紫染色15分钟,并风干。对于比色测定,将插入皿用200 µl 10%乙酸处理,并使用分光光度计测量560 nm处的吸光度。对于WST-1测定,将20,000个细胞铺在96孔板中,并在100 µL含血清培养基中生长。铺板后48和96小时,通过向细胞培养基中添加10 µL WST-1试剂、在37℃孵育2小时然后使用分光光度计测量450 nm处的吸光度,从而测量细胞活力。

尿液qPCR

如之前所述(Laxman等, Cancer Res 68 (3), 645 (2008)),在密歇根大学通过机构审查委员会的批准,在穿刺活检或根治性前列腺切除术前,在直肠指检后通过知情同意书从120名患者采集了尿样。如之前所述(Laxman等, Neoplasia 8 (10), 885 (2006))进行了尿液RNA分离和TransPlex全转录组扩增。如上所述,使用Power SYBR Mastermix (Applied Biosystems)进行了KLK3 (PSA)、TMPRSS2-ERG、GAPDH、PCA3、PCAT-1和PCAT-14的尿样qPCR。提取了原始Ct值,并按以下方式归一化。首先,将GAPDH Ct值>25或KLK3 Ct值>30的样本从分析中排除,以确保足够的前列腺细胞采集,从而留下108个样本用于分析。对于每个样本,将GAPDH和KLK3原始Ct值求平均值。通过针对CtGAPDH和CtKLK3的平均值测量每个值进行了ΔCt分析,并将ΔCt值归一化为良性样本的中位ΔCt。然后在2-ΔCt处计算倍数变化。如果组织病理学分析观察到了癌症或者如果TMPRSS2-ERG转录本达到了<37的Ct值,则将样本视为前列腺癌。良性样本定义为具有正常组织学和TMPRSS2-ERG转录本Ct值>37的样本。

实验研究的统计分析

所有数据均以平均值±标准误提供。所有实验测定均一式两份或一式三份地进行。

生物信息学分析

为了实现前列腺癌转录组的从头预测,将转录本映射、组织和定量的现有公用工具补充另外的信息学过滤步骤,以丰富最稳健转录本预测的结果(图6a)。然后识别转录本,并通过将它们与基因注释数据库进行比较而分类(图6b)。下文将提供生物信息学分析的详细信息。

通过TopHat映射读段

将读段用TopHat 1.0.13版(2010年2月5日)(Trapnell等, Bioinformatics 25, 1105-11 (2009))进行比对,这是一款能够从头发现剪接点的空位比对软件(gapped aligner)。简而言之,TopHat使用Bowtie (Langmead等, Genome Biol 10, R25 (2009))将读段与人类基因组进行比对,从而确定一组可代表推定外显子的“覆盖岛”(coverage island)。TopHat使用这些外显子以及GT-AG基因组拼接基序的存在构建第二组横跨外显子-外显子连接的参考序列。然后将初始基因组比对步骤中的未映射读段针对此剪接参考再次映射,以发现样本中的所有跨连接的读段。TopHat以SAM格式输出成功映射到基因组或剪接点参考的读段,以进一步分析。对于此研究,使用对应于超过99.98%的RefSeq (Wheeler等 Nucleic Acids Res 28, 10-4 (2000))内含子的500kb最大内含子大小。对于文库测序,在数据分析前使用Agilent 2100生物分析仪测定插入片段大小,并且据发现,该插入片段大小与软件预测值非常一致。选择20个碱基的插入片段大小标准偏差,以便匹配在文库制备期间从凝胶切割的最常见的条带大小。总计,从Illumina基因组分析仪I和Illumina基因组分析仪II上的201个测序泳道生成了17.23亿个片段。将读段映射到从UCSC基因组浏览器网站下载的人类基因组(hg18) (Karolchik等, Nucleic Acids Res 31, 51-4 (2003); Kent等, Genome Res 12, 996-1006 (2002))。获得了14.18亿个唯一性比对,包括11440万个用于转录组组装的剪接点。将通过多次比对而错配少于两个的读段丢弃。

用Cufflinks从头组装和定量

将得自TopHat的比对读段用Cufflinks 0.8.2版(2010年3月26日)(Trapnell等, Nat Biotechnol 28, 511-5)组装成样本特异性转录组。Cufflinks将外显子和剪接点读段使用其比对坐标组装成转录本。为了限制假阳性组装,使用了对应于99.93%已知内含子百分率的300kb最大内含子长度。组装转录本后,Cufflinks通过发现读段在基因座内向转录本的简约分配而计算同种型水平丰度。将丰度低于基因座中主要转录本15%的转录本以及丰度低于主要同种型5%的微量同种型过滤掉。其余参数使用默认设置。

Cufflinks组装阶段得出每个测序文库的一套转录本注释。将转录本通过染色体划分,并将Cufflinks提供的Cuffcompare实用程序用于将转录本合并成一套组合的注释。Cuffcompare程序通过将共有所有内含子和外显子的转录本合并而提供所有转录本的整合。在比较过程中,允许转录本的5'和3'外显子变化最多100nt。

从背景信号中区分转录本

Cuffcompare报告了总共825万个不同的转录本。对已知蛋白质编码基因区中的这些转录本的人工检查表明,大多数转录本可能为重叠较大转录本的差质量重构体。另外,其中许多转录本未拼接并具有小于约250nt的选定片段长度的总长度。此外,这些转录本中的许多只存在于单个样本中。对用于在背景信号上预测转录本的统计分类器进行设计,以识别可能在前列腺癌中发生改变的高重现转录本。使用了AceView (Thierry-Mieg等 Genome Biol 7 增刊1, S12 1-14 (2006))。对于Cufflinks预测的每个转录本,采集了以下统计信息:长度(bp)、外显子数、重现(在其中预测转录本的样本的数目)、所有样本中丰度的第95个百分率(以每百万读段每千碱基的片段数(FPKM)度量)和具有转录本的基因组DNA的唯一性(使用得自UCSC的Rosetta唯一性跟踪程序测量)(Rhead等 2010. Nucleic Acids Res 38, D613-9)。使用此信息,将R软件(rpart包)中的递归分区和回归树用于针对每个转录本预测其表达模式和结构特性是否与注释基因的那些相似。对每条染色体独立地进行分类,以便包括基因密度变化性对表达阈值的影响。将未分类为注释基因的转录本丢弃,并将剩余的用于另外的分析和过滤步骤。通过检查决策树结果,据观察,所有样本中表达值的第95个百分率以及每个转录本的重现在大部分情况下是表达转录本与背景转录本的最优预测因子(图7)。

转录本片段的精化

统计分类器将总共288万个(34.9%)转录本片段预测为“表达”转录本。开发了一款程序以扩展和合并内含子冗余的转录本,以产生描述由Cufflinks所产生的组装的转录本最小集合。合并步骤产生了总共123,554个非依赖性转录本。以每百万每千碱基的读段数(RPKM)单位重新计算了这些修改转录本的转录本丰度水平。将这些表达水平用于研究的其余部分。将多个额外的过滤步骤用于分离最稳健的转录本。首先,将总长度小于200 nt的转录本丢弃。将与另一转录本重叠超过75%的单一外显子转录本也丢弃。将不含至少40 nt的完全明确基因组DNA长度的转录本也剔除。使用从UCSC基因组浏览器网站下载的Rosetta唯一性跟踪程序测量了基因组唯一性。保留在高于5.0 RPKM下不存在于队列的至少5%(>5个样本)中的转录本。

在某些情况下,观察到了被可映射性差的基因组区域中断的转录本。另外,对于低丰度的基因,观察到了由于无剪接点所致的碎裂或连接附近片段所需的双端读段证据。测量了随机选择的外显子在相同转录本上的表达与空间相近的外显子在不同转录本上的表达之间的皮尔逊相关系数(Pearson correlation)差异,并且据发现,在队列中,对于作为相同转录本一部分的不同外显子,>0.8的皮尔逊相关系数具有>95%的阳性预测值(PPV)。使用该标准,进行了将转录片段延伸成较大转录单位的层次凝聚聚类。分开100kb以上的转录本对、相反链上的转录本和重叠转录本不考虑用于聚类。合并了相关转录本的组,并剔除了长度<40 nt的内含子。

与基因注释数据库的比较

通过与得自UCSC、RefSeq、ENCODE、Vega和Ensembl的“注释”转录本的综合性列表进行比较,对通过生物信息学途径产生的44,534个转录本进行了分类。首先,分离了对应于经处理的假基因的转录本。这样做是为了避免TopHat读段比对软件中已知的偏差源。TopHat在其第一步骤中将读段映射到基因组DNA,从而使外显子-外显子连接读段倾向于与其剪接后移假基因同源物比对。接下来,将在正确链上与至少一个注释基因重叠>1bp的转录本命名为“注释”,而将其余的视为“未注释”。将与蛋白质编码基因无重叠的转录本基于它们的相对基因组位置细分成内含子、基因间或部分内含子反应类别。

未拼接前体mRNA同种型的信息学过滤

观察到了相对于已知内含子ncRNA在组装中内含子转录本的百分比升高。这导致了以下观察结果:在许多情况下,未拼接前体mRNA以足够高的水平出现,从而逃避了组装阶段中Cufflinks所采用的过滤步骤。将与其重叠蛋白质编码基因相关(皮尔逊相关系数>0.5)的内含子和反义转录本剔除。这有效剔除了是明显伪假前体mRNA的诸如PCA3HPN基因内的转录本,而使真正新型的内含子转录本-诸如FBXL7CDH13内的那些转录本-保持完整。这些步骤产生了一套共有的35,415个转录本,这些转录本支持人前列腺组织和细胞系中的长多聚腺苷酸化RNA分子。每条染色体转录本计数是已知转录本数据库的准确镜像(表2),从而表明了所采用的信息学程序充分补偿了染色体中的基因密度变化性。总体而言,检测到了与RefSeq或UCSC数据库(Wheeler等Nucleic Acids Res 28, 10-4 (2000))中存在的相似数量的转录本。

编码潜力分析

为了分析编码潜力,提取每个转录本的DNA序列,并使用得自UCSC源工具组的txCdsPredict程序搜索开放阅读框(ORF) (Kent等Genome Res 12, 996-1006 (2002))。该程序产生对应于给定序列的蛋白质编码能力的评分,并且>800的评分约90%预测蛋白质编码基因。将该阈值用于对具有编码潜力的转录本计数,并且只在6,641个未注释基因中发现了5个的评分>800,相比之下在25,414蛋白质编码转录本中发现了1,669个。另外,据观察,蛋白质编码基因具有始终长于未注释或注释ncRNA转录本的ORF,从而表明未注释转录本的绝大部分代表ncRNA(图10)。

将转录本分成重复和非重复类别

为了将转录本分成“重复”和“非重复”转录本,提取了对应于转录外显子的基因组DNA,并计算每个序列中重复掩蔽核苷酸的分数。对于重复类的命名,使用了RepMask 3.2.7 UCSC基因组浏览器跟踪程序(Kent,同上)。据观察,富含重复DNA的转录本往往保守性较差,并且不含活性染色质的ChIP-seq标记(图12)。对含有>25%重复DNA的转录本(图11)进行了分离,以用于ChIP-seq和下文所述的保守性分析目的。

保守性分析

将SiPhy包(Garber等 Bioinformatics 25, i54-62 (2009))用于估计29个胎盘哺乳动物中的所有非重复转录本外显子的局部变化率(ω)。该程序的运行如SiPhy网站上所述。

ChIP-Seq数据集

使用了H3K4me1、H3K4me2、H3K4me3、乙酰化H3、Pan-H3和H3K36me3的已公布的ChIP-Seq数据集(Yu等Cancer Cell 17, 443-54)。这些数据可通过NCBI Geo Omnibus (GEO GSM353632)公开地获得。将原始ChIP-Seq数据用MACS34(H3K4me1、H3K4me2、H3K4me3、乙酰化H3和Pan-H3)或SICER35 (H3K36me3)峰识别程序(peak finder program)以默认设置进行分析。将这些峰识别程序基于它们对检测不同类型组蛋白修饰的优先适用性而使用(Pepke等,Nat Methods 6, S22-32 (2009))。通过将每个H3K4me3峰与最近的H3K36me3富含区(相离最多10 kb)相关联,由峰坐标确定了用于识别lincRNA的H3K4me3-H3K36me3染色质签名。通过从整组H3K4me1峰中减去重叠的一组H3K4me3峰,确定了增强子签名(H3K4me1但非H3K4me3)。这些分析通过作为Galaxy生物信息学架构一部分而分销的bx-python文库进行。

差异表达分析

为了预测差异表达的转录本,通过向所有RPKM值加0.1后使用以2为底的对数,制作了对数变换、归一化RPKM表达值的矩阵。对于每个转录本,首先通过减去良性样本的中位表达使数据居中。将具有Tusher等S0选择方法的250个排列的微阵列显著性分析(SAM)方法(Tusher等,Proc Natl Acad Sci U S A 98, 5116-21 (2001))用于预测差异表达的基因。使用了对于个体分析所需的对应于第90个百分率FDR的δ值。将MultiExperiment Viewer应用程序(Chu等,Genome Biol 9, R118 (2008))用于运行SAM并生成热图。据确认,通过与微阵列和已知的前列腺癌生物标志物比较,结果与预期结果相匹配。

离群分析

对队列中的81个组织样本进行了改良的COPA分析。使用了RPKM表达值并偏移1.0以避免除数为零。COPA分析具有以下步骤(MacDonald & Ghosh, Bioinformatics 22, 2950-1 (2006); Tomlins等 Science 310, 644-8 (2005)):1)使用队列所有样本中基因的中位表达值使基因表达值中位居中。这将基因中位值设为零。2)计算每个基因的绝对中位差(MAD),然后将每个基因表达值乘以其MAD。3)计算每个基因的转化表达值的80、85、90、98百分率,并取这四个值的平均值。然后,将基因根据此“平均百分率”排序,其生成按重要性排列的离群基因列表。4)最后,将良性样本中表现出离群概况的基因丢弃。六个新型转录本在分析中既排列为离群基因也排列成差异表达的基因。将这六个转录本基于每个个体在样本中的指示的分布结果分类为差异表达状态或离群状态。

重复富集分析

为了评估组装中重复元件的富集情况,生成了相同染色体和链上转录本位置的100个随机置换。为了反映用于命名转录本的原始约束,确保了置换的转录本位置含有可唯一性映射的至少50 nt长的基因组DNA长度。为了说明可映射性困难的影响,在将外显子与RepeatMasker 3.2.7数据库中的重复元件相交前,将每个外显子填充(padded)了±0 bp、50 bp、100 bp或500 bp的附加基因组序列。据观察,填充超过50bp未改善富集结果,并且在后续分析和测试中将外显子填充±50 bp(表9)。最后,进行了Shapiro-Wilk正态性检验,并且据确认,与高丰度重复元件类型的匹配数大致呈正态分布。

B. 结果

前列腺癌转录组测序

对21个前列腺细胞系、20个良性相邻前列腺(良性)、47个局限性肿瘤(PCA)和14个转移瘤(MET)进行了转录组测序(RNA-Seq)。对得自该队列的总共201个RNA-Seq文库测序,得出了总共14.1亿个映射读段,其中中位值为每个样本470万个映射读段(有关样本信息,参见表1)。

为了分析这些数据,使用了从头转录组组装以重构转录本和转录本丰度水平的方法(图6和表2)(Trapnell等,NatBiotechnol 28 (5), 511; Trapnell等, Bioinformatics 25 (9), 1105 (2009))。预测了样本特异性转录组,并将各个预测值合并成共有转录组,并保留了最稳健的转录本(图7)。从头转录组组装和后续精化步骤得出了35,415个不同的转录基因座(有关实例,参见图8)。

将组装好的转录组与UCSC、Ensembl、Refseq、Vega和ENCODE基因数据库进行了比较,以识别和分类转录本。虽然大部分转录本(77.3%)对应于注释的蛋白质编码基因(72.1%)和非编码RNA (5.2%),但将不含任何重叠的显著百分比(19.8%)的转录本命名为“未注释”(图1a)。这些包括部分内含子反义(2.44%)、总内含子(12.1%)和基因间转录本(5.25%)。这些结果与之前的数据一致,从而表明了大比率的转录组代表了未注释的转录(Birney等,Nature 447 (7146), 799 (2007); Carninci等,Science 309 (5740), 1559 (2005),以及表明了显著百分比的基因可具有相关的反义转录本(He等,Science 322 (5909), 1855 (2008); Yelin等, Nat Biotechnol 21 (4), 379 (2003))。由于没有链特异性RNA-Seq文库的情况下表征反义或部分内含子转录本的增加的复杂性,研究聚焦于总内含子和基因间转录本。

新型转录本的表征

新型转录本的全局表征证实了之前的报告:它们的保守性相对较差,并且比蛋白质编码基因的表达更低(Guttman等,Nat Biotechnol 28 (5), 503; Guttman等,Nature 458 (7235), 223 (2009))。未注释的前列腺癌转录本的表达水平一致地高于随机置换的对照,但低于注释的ncRNA或蛋白质编码基因(图1b)。未注释的转录本还表明了与已知的表达序列标签(EST)的重叠低于蛋白质编码基因但高于随机置换的对照(图5)。未注释的转录本显示出相对于对照基因组间隔清楚但微弱的保守性增加(对于0.4<ω<0.8,新型基因间转录本p=2.7×10-4±0.0002;对于0<ω<0.4,新型内含子转录本p=2.6×10-5±0.0017;图1c)。新型内含子转录本的仅一个小的子集表现出保守性增加(图1c插图),但该保守性意义极大。相比之下,更多数量的新型基因间转录本表现出保守性的更缓和增加。最后,编码潜力的分析揭露出,6,144个转录本中只有5个具有高质量的开放阅读框(ORF),从而表明这些转录本的绝大部分代表ncRNA(图10)。

接下来,使用两个前列腺细胞系VCaP和LNCaP的已公布前列腺癌ChIP-Seq数据(Yu等,Cancer Cell 17 (5), 443)以便讯问未注释的转录本与支持主动转录的组蛋白修饰(H3K4me1、H3K4me2、H3K4me3、H3K36me3、乙酰基-H3和RNA聚合酶II,参见表3)之间的重叠。由于未注释的ncRNA显示出两个清楚的亚型:重复相关和非重复(图11以及下文所述),因此据设想,这两个亚型可如之前的研究中所述显示出不同的组蛋白修饰(Day等,Genome Biol 11 (6), R69)。鉴于非重复转录本表现出在其推定转录起始位点(TSS)大量富集主动转录的组蛋白标记,重复相关的转录本几乎未表现出这种组蛋白标记的富集(图12),并且对于其余的ChIP-Seq分析,只考虑了非重复转录本。在这组未注释的转录本中,观察到了表征TSS和主动转录的组蛋白修饰—包括H3K4me2、H3K4me3、乙酰基-H3和RNA聚合酶II(图1d-g)但非H3K4me1的大量富集,而H3K4me1则表征增强子区域(图13和14)。基因间ncRNA的表现在这些分析中比内含子ncRNA好得多(图1d-g)。为了阐明前列腺癌与良性组织之间转录本丰度的全局变化,对所有转录本进行了差异表达分析。发现了在良性与PCA样本之间差异表达的836个基因(FDR<0.01),其中蛋白质编码基因占所有差异表达基因的82.8%(图1h和表4)。这一类别包含最有意义的转录本,包括许多已知的前列腺癌基因,诸如AMACR32和Hepsin (Dhanasekaran等,Nature 412 (6849), 822 (2001))。注释的ncRNA占差异表达基因的7.4%,包括ncRNA PCA334,其位于PRUNE2基因的内含子内,并且总体排名第4(12.2倍变化;修正p<2×10-4,Wilcoxon秩和检验,Benjamini-Hochberg校正)(图8)。最后,9.8%的差异表达基因对应于未注释的ncRNA,包括基因内含子内的3.2%以及基因间区域中的6.6%,从而表明这些物种明显造成了前列腺癌转录组的复杂性。

未注释的非编码RNA的调节异常

基因间区域中功能性长间插性非编码RNA的最近报道(Dhanasekaran等,Nature 412 (6849), 822 (2001); Gupta等,Nature 464 (7291), 1071; Rinn等,Cell 129 (7), 1311 (2007); Guttman等,Nature 458 (7235), 223 (2009)) (lincRNA)导致了进一步探索基因间ncRNA。在整个人类基因组中发现了总共1859个未注释的基因间RNA。本发明不限于特定的机制。实际上,对机制的理解对于实践本发明不是必需的。尽管如此,据设想,这只是个保守的估计,因为不能检测通过在RNA-Seq文库生成过程中执行的约250bp大小选择而消除的小RNA(方法)。总体而言,新型基因间RNA靠近蛋白质编码基因的程度超过了蛋白质编码基因彼此之间靠近的程度(对于新型基因而言,距最近蛋白质编码基因的中位距离为4292 kb,而对于蛋白质编码基因而言,则为8559 kb,图2a)。例如,如果两个蛋白质编码基因—基因A和基因B的间距为AB,则未注释ncRNA可以离开它们两者的最远距离为0.5*AB,这与观测值精确一致(4292/8559=0.501)。作为对这一观察结果的支持,34.1%的未注释转录本的位置距离最近的蛋白质编码基因≥10 kb。例如,使用Circos程序观察到了Chr15q臂。在该染色体区域中命名了89个新型基因间转录本,包括TLE3着丝粒端的多个差异表达的基因座(图2b),通过前列腺癌细胞系中的PCR对它们进行了验证(图15)。对1859个新型基因间RNA的聚焦分析得出了在局限性肿瘤中差异表达的106个(FDR<0.05;图2c)。将这些前列腺癌相关转录本(PCAT)根据它们在局限性肿瘤与良性组织中的倍数变化排名(表5和6)。

相似地,对RNA-Seq数据集进行改良癌症离群概况分析(COPA)再次发现了许多已知的前列腺癌离群转录本(诸如ERG7、ETV17、SPINK135和CRISP336,37)并将许多未注释的ncRNA命名为离群转录本(图2d和表6和7)。将差异表达和COPA分析中的结果进行合并产生了一组共121个未注释的转录本,这些转录本通过无监督聚类准确区分良性、局限性肿瘤和转移前列腺样本(图2c)。这些数据提供了PCAT作为前列腺癌和新型前列腺癌亚型生物标志物的证据。使用新型ncRNA离群转录本的聚类分析也提供了疾病亚型(图16)。

ncRNA的确认和组织特异性

对14个未注释表达区进行了验证研究,包括存在于和不存在于差异表达转录本列表中的那些表达区。逆转录PCR (RT-PCR)和实时定量PCR (qPCR)实验在预测细胞系模型中显示了转录本身份和表达水平两者约78% (11/14)的验证率(图17)。接着,检查了与正常前列腺相比在前列腺癌中选择性上调的三个转录本(PCAT-109、PCAT-14和PCAT-43)。从测序数据中,每个基因组基因座在前列腺癌和转移癌中表现出表达显著升高,但PCAT-14除外,其不存在于转移癌中(图3a-c)。PCAT-109还排名为前列腺癌中的第5优离群转录本,正好在ERG之前(图2d和表6)。对14个良性前列腺、47个肿瘤和10个转移癌队列的qPCR确认了这些转录本的表达(图3a-c)。所有三者似乎都为前列腺特异性的,其中在乳腺癌或肺癌细胞系或19种正常组织类型中均未观察到相应的表达(表8)。这种组织特异性未必是因为雄激素信号转导的上调,因为只有PCAT-14表达通过合成雄激素R1881处理雄激素反应性VCaP和LNCaP细胞而诱导,这与来自该基因座的之前数据一致(图18)(Tomlins等, Nature 448 (7153), 595 (2007); Stavenhagen等, Cell 55 (2), 247 (1988))。PCAT-14但非PCAT-109或PCAT-43也在对一组匹配的肿瘤-正常样本进行测试时显示出差异表达,从而表明由HERV-K家族中的内源性逆转录病毒构成的该转录本(Bannert和Kurth, Proc Natl Acad Sci U S A 101 增刊2, 14572 (2004))可用作前列腺癌的体细胞标记(图19)。在该基因座处的5’和3’cDNA末端快速扩增(RACE)揭露出存在个体病毒蛋白开放阅读框(ORF)以及与个体ORF 5'未翻译区(UTR)序列一起拼接的转录本(图20)。据观察,排名靠前的基因间ncRNA位于c-Myc致癌基因附近的染色体8q24基因沙漠中。这种称为PCAT-1的ncRNA位于前列腺癌易感区240-43边缘(图4a)并距离c-Myc约0.5 Mb。这一转录本由H3K4me3、乙酰基-H3和RNA聚合酶II ChIP-Seq数据中明显的峰支持(图4b)。细胞系中的外显子-外显子连接通过RT-PCR和该连接的Sanger测序进行了验证(图4c),并进行了5'和3' RACE以阐明转录本结构(图4d)。通过该分析,PCAT-1为由Alu逆转录转座子中断并通过病毒长末端重复(LTR)启动子区调节的mariner家族转座酶(Oosumi等,Nature 378 (6558), 672 (1995); Robertson等,Nat Genet 12 (4), 360 (1996))(图4d和图21)。通过qPCR,PCAT-1表达为前列腺组织特异性的,其中与良性前列腺组织相比在前列腺癌和转移癌中显著上调(图4e)。PCAT-1排名为第二优的总体前列腺癌生物标志物,正好在AMACR之后(表3),从而表明该转录本是这种疾病有力的辨别者。匹配的肿瘤-正常对相似地表现出匹配肿瘤样本中的显著上调(图4f)。使用靶向PCAT-1序列的定制siRNA在VCaP细胞中进行了RNA干扰(RNAi),并且观察到了PCAT-1敲低后细胞增殖或侵袭无变化(图22)。

癌症中重复元件的选择性再表达

PCAT-1中重复元件的存在导致了探索重复元件。已广为人知,诸如Alu和LINE-1逆转录转座子的重复元件在人中为简并的(Oosumi等,同上;Robertson等,同上;Cordaux等, Nat Rev Genet 10 (10), 691 (2009)),其中只有约100个LINE-1元件(在12-500,000个中)显示出可能的逆转录转座子活性(Brouha等,Proc Natl Acad Sci U S A 100 (9), 5280 (2003))。虽然这些元件的转录本通常通过DNA甲基化和抑制性染色质修饰受到抑制(Slotkin和Martienssen, Nat Rev Genet 8 (4), 272 (2007)),但是在癌症中,已报告了广泛的低甲基化(Cho等,J Pathol 211 (3), 269 (2007); Chalitchagorn等,Oncogene 23 (54), 8841 (2004); Yegnasubramanian等, Cancer Res 68 (21), 8954 (2008))。此外,最近有证据表明这些元件在正常生物学(Kunarso等,Nat Genet.)和癌症(Lin等,Cell 139 (6), 1069 (2009))中均具有功能作用,即便其序列已远离它们的进化祖先序列发生了突变(Chow等,Cell 141 (6), 956)。迄今,只有RNA-Seq平台能够实现在癌症中表达的特异性可转座元件的发现和定量。如上所述,据观察,组装中>50%的未注释外显子与至少一个重复元件重叠(图11)。由于这些元件在通过唯一性读段进行转录组组装时具有可映射性挑战,因此这些基因座通常表现为表达的“山系”,其中可唯一性映射的区域形成由不可映射的“沟壑”分离的表达峰(图23和24)。进行了PCR和Sanger测序实验,以确认这些可映射性低的可转座元件作为这些基因座的一部分而表达(图23和24)。为了进一步探究这一观察结果,通过向外显子5'和3'末端添加侧翼50、100或500 bp附加基因组序列生成了来自组装中未注释转录本的外显子,进行了具有重复元件的这些间隔与类似大小的随机置换基因组间隔的重叠。观察到了数据集中重复元件极为显著的富集(OR 2.82 (95% CI 2.68-2.97),p<10-100,表9)。各个重复元件分类的检查揭露了SINE元件尤其是Alu的特异性富集(p≤2x10-16,表10和11)。LINE-1和Alu可转座元件的子集展示了前列腺癌肿瘤子集中显著的差异表达(图25)。染色体2上的一个基因座(也在图3b中突出显示)是具有许多表达的可转座元件的500+kb区域(图26)。这一称为与前列腺相关的第二染色体基因座-1(Second Chromosome Locus Associated with Prostate-1, SChLAP1)的基因座具有在前列腺癌离群分析中表现极好的转录本(表6和7)。上述PCAT-109是该区域中的一个离群转录本。此外,SChLAP1基因座与ETS基因融合阳性患者高度相关(p<0.0001,费希尔精确检验(Fisher's exact test),图27),而对于其他表达重复元件未观察到这种关联。使用VCaP细胞系中ERG的siRNA介导的敲低,未识别ERG对该区域的直接调节作用。这些数据表明癌症中重复元件的调节异常为高度特异性的,并且表明这种现象只与肿瘤和转移癌的子集相关。因此,在癌症中观察到的重复元件的广泛低甲基化(Cho等,J Pathol 211 (3), 269 (2007); Chalitchagorn等,Oncogene 23 (54), 8841 (2004); Yegnasubramanian等,Cancer Res 68 (21), 8954 (2008))不能说明重复表达的高特异性。

尿液中ncRNA的非侵入式检测

合在一起,这些数据显示了前列腺癌新型ncRNA生物标志物的丰度,其中许多似乎具有组织特异性。对得自前列腺癌患者的77个尿沉渣样本和无已知疾病的31名对照患者(有关样本详细信息,参见表12)进行了分析(Laxman等,Cancer Res 68 (3), 645 (2008))。将对照患者定义为在前列腺活检时无癌症组织学以及在尿沉渣RNA中无TMPRSS2-ERG融合转录本的那些患者(Laxman等,同上)。因为在患者组织样本中的生物标志物状态而选择了PCAT-1和PCAT-14以及已知的ncRNA生物标志物PCA3对该尿液联检进行评估。qPCR分析导致了观察到它们在检测前列腺癌患者而不是具有正常前列腺的患者的能力方面的特异性(图5a-c)。在多种情况下,被错误地分类为“良性”的ETS阴性前列腺癌患者是显而易见的(图5a和5c)。此外,PCAT-14作为尿液生物标志物的表现似乎与PCA3几乎一样好,尽管只将少量患者用于该联检,也几乎实现了统计显著性(p=0.055,费希尔精确检验)。接着评估了这些未注释的ncRNA是否识别了也将通过其他尿检识别的一组冗余患者,诸如PCA3或TMPRSS2-ERG转录本。将尿液样本中的PCAT-1和PCAT-14表达与PCA3比较或与彼此进行比较揭露了这些ncRNA识别了不同的患者组,从而表明患者尿液通常具有PCAT-1或PCAT-14转录本但非两者(图5d)。使用图5a-c中显示的截止值,生成了将这三个ncRNA与患者的TMPRSS2-ERG状态进行比较的二元热图(图5e)。ncRNA能够通过该尿检测出另外的具有前列腺癌的ETS阴性患者,从而表明使用多重化尿检它们具有作为前列腺癌高特异性标志物的临床效用。将PCAT-1、PCAT-14和PCA3合并成单个“非编码RNA签名”生成了识别可与MPRSS2-ERG融合大致相当(33%与45%)的大量前列腺癌患者的高特异性尿液签名(p=0.0062,费希尔精确检验,图5f)。

图34显示了使用qPCR对患者尿样中前列腺癌RNA的检测。所有RNA物种均可在尿液中检测。图35显示了将尿液SChLAP-1测量与血清PSA多重化改善了前列腺癌的危险分层。单独地,SChLAP-1是具有中等或高临床侵袭性危险的前列腺癌的预测因素。通过将该测量与血清PSA多重化对血清PSA预测更具侵袭性疾病的能力实现了改善。

附加表征

在前列腺癌中进行了与PCAT-1和SChLAP-1区相关的附加实验。图29展示了PCAT-1表达使前列腺癌细胞对用PARP-1抑制剂进行的治疗敏感。图30展示了PCAT-1表达使前列腺细胞对放射治疗敏感。

图31展示了SChLAP-1中的未注释基因间转录本可区分前列腺癌和良性样本。图32展示了SChLAP-1为前列腺癌细胞侵袭和增殖所必需。前列腺细胞系但不是非前列腺细胞通过Boyden室测定显示出侵袭力降低。EZH2和非靶向siRNA分别用作阳性和阴性对照。进行了SChLAP-1的缺失分析。图33显示出识别了对其功能必不可少的区域。

肺癌、乳腺癌和胰腺癌中的ncRNA

对肺癌转录组进行了分析(图36)。通过RNA-Seq对38个肺细胞系进行了分析,然后对lncRNA转录本进行了重构。未注释的转录本占所有转录本的27%。新型转录本的表达远高于注释的ncRNA但非蛋白质编码转录本的表达。13个未注释的转录本的离群分析显示了在肺癌细胞系亚型中的新型lncRNA。图37显示了在肺癌中发现M41和ENST-75 ncRNA。图38显示了lncRNA是肺癌中的驱动因素和生物标志物。图39显示了乳腺癌和胰腺癌中癌症相关lncRNA的识别。从RNA-Seq数据中命名了三种新型乳腺癌lncRNA(TU0011194、TU0019356和TU0024146)。所有都显示出乳腺癌样本但非良性样本中的离群表达模式。从RNA-Seq数据中命名了三种新型胰腺癌lncRNA(TU0009141、TU0062051和TU0021861)。所有都显示出胰腺癌样本但非良性样本中的离群表达模式。

表1

表2

表3

表4

表5

表6

表7

表7

表8显示了针对四种主要癌症类型命名的癌症相关lncRNA的数量。验证的数量显示在右侧列中。该表反映了不断的努力。

表8

以上说明书中提及的所有出版物、专利、专利申请和登录号均整体以引用方式并入本文。虽然已结合具体实施方案对本发明进行了描述,但是应当理解,要求书保护的本发明不应不当地限于此类具体实施方案。实际上,本发明的所述组合物和方法的各种修改形式和变型形式对本领域的普通技术人员将显而易见并且旨在落在以下权利要求的范围内。

序列表

<110> The Regents of the University of Michigan

Chinnaiyan, Arul M.

Prensner, John R.

Iyer, Matthew K.

<120> ncRNA及其用途

<130> UM-31566/WO-1/ORD

<140> PCT/US 2011/061204

<141> 2011-11-17

<150> US 61/415,490

<151> 2010-11-19

<160> 21

<170> PatentIn 版本 3.5

<210> 1

<211> 621

<212> DNA

<213> 智人(Homo sapiens)

<400> 1

acacatggat attggatatc tgcataggca gcttgctcca cgccagtgcc tacctgtgca 60

gatgggaagg aaaggaaagt ggcaaggagg cagagaaagc atctgtaccc ttacaatttg 120

gtgagacaag aatgtatgaa ttcccacagg tcaaattata atgaagaaag gaacctctct 180

tgagtacaaa gagctaccta tggtggtctg gagccggagg accacagcat caaaggatat 240

aagatgcata gccaactgag gaacctgagc aattaaagag atccacagtt aagtcacact 300

taactggcac ttgtggaagc cccgcaaggc ctgaaggaga gctgacatag gcaccccgga 360

gagccagaat ctggatccca tcttaataag gccatgaaca ccagtggaga agaggcagaa 420

acaccaatgg ataaggaaca ttcacatctt tcttcccatg tgcctctaag tgccagtgca 480

ggccccacag gccaagctac agggagaaag gagatgacgc aaaggaacct aactggactt 540

taatcactag aagtgagaag agaaatctat tggaacctcc caagataatg ccaagggtca 600

aagggtgcgc agatacataa g 621

<210> 2

<211> 1371

<212> DNA

<213> 智人(Homo sapiens)

<400> 2

accatggaaa taatatcaga caaaaagcag attagagcaa ttttcttttt cgagttcaaa 60

atgggttata aagcagcgga gacaaaccgc aacatcacca acgcctttgg cccaggaact 120

gctaatgaag gtacagtgca gtcactgttc aggaagtttt gcaaaggaga ctagagcctt 180

gaagatgagg agcatagtga ccagccattg gaagtcgaca aagaccaatt gagaggaatc 240

attgaagctg atcatcttac aactacacga gaagttgtca aagaacgcaa tgttgaccat 300

tgtgtggtct tttcgcattt gaagcaaatt ggaaaggtga aaaacttgat aagtgggtgc 360

cttgtgagct cagcaaaaat ccaaaaaaat aatcattttt aagtgttgtc ttctcttatt 420

ctacgcaaca acaataacca ttttgcaatc ggattgtgat gtgcaatgaa aagtggattt 480

ggggccgggc gcggtggctc acgcctgtaa tctcagcact ttggaaggcc aaggcgggca 540

gatcacgagg tcaggagatc aagaccgtcc tggctaacac ggtgaaaccc cgtctctact 600

gaaaatacaa aaaattagcc gggtgtggtg gctggcgcct gtagtcccag ctacaggctg 660

aggcaggaga atggcatgaa cctgggaggc ggagcttgca gtgagccgag accgtgccac 720

tgcactccag cctgggcgac agagcgatac tccgtcaaaa aaaaaaaaaa aaaaaaaaaa 780

agacaagtgg attttatata tggcaaccag caatgaccag ctcagtggct ggactgagaa 840

gaagctccaa agcacttccc aaagccaaac ttgcaccaaa aaaaaggtca gggtcactgt 900

ttggtggtct gctgctggtc tgatccaccg ctgctctctg aatcctggca aaaccattac 960

atctgagaag tatgctcaac aaatcaatga gctacgccaa aaactgcagc atctgcagct 1020

ggcattggtc aacataacgg gtccaattct tctccacgac aacgctcaac tgcaccttgc 1080

gcaagcagcg cttcaaaagt tgaacaaatt gggctacata gtttttcctc atccgccata 1140

ttcacctgac gtcttgccaa ctaactacca cttcttcaag tatctcaaca actttttgca 1200

gggaaaacac ttccacaacc agcaggatgc agaacacgct ttccaagagt ttgtcgaatc 1260

ctgacgcaca gatttttatg ctacaggaat aaactaactt atttctcatt ggcaaaaatg 1320

tgttgattgt aatggttcct attttgatga ataaatgtgt gtttgagcct a 1371

<210> 3

<211> 238

<212> DNA

<213> 智人(Homo sapiens)

<400> 3

atgctgagcg ccggtcccct gggcccactt ttctttctct atactttgtc tctgttgtct 60

ttcttttctc aagtctctcg ttccacctga ggagaaatgc ccacagctgt ggaggcgcag 120

gccactccat ctggtgccca acgtggatgc ttttctctag ggtgaaggga ctctcgagtg 180

tggtcattga ggacaagtca acgagagatt cccgagtacg tctacagtga gccttgtg 238

<210> 4

<211> 79

<212> DNA

<213> 智人(Homo sapiens)

<400> 4

ggtgaaggta ctctacagtg tggtcattga ggacaagttg acgagagagt cccaagtacg 60

tccacggtca gccttgcgg 79

<210> 5

<211> 79

<212> DNA

<213> 智人(Homo sapiens)

<400> 5

acatttaaag ttctacaatg aactcactgg agatgcaaag aaaagtgtgg agatggagac 60

accccaatcg actcgccag 79

<210> 6

<211> 682

<212> DNA

<213> 智人(Homo sapiens)

<400> 6

tctacaggtg tatccagcag ctccaaagag acagcaacca gcaagaatgg gccatagtga 60

cgatggtggt tttgtcaaaa agaaaagggg gggatatgta aggaaaagag agatcagact 120

ttcactgtgt ctatgtagaa aaggaagaca taagaaactc cattttgatc tgtactaaga 180

aaaattgttt tgccttgaga tgctgttaat ctgtaacttt agccccaacc ctgtgctcac 240

ggaaacatgt gctgtaaggt ttaagggatc tagggctgtg caggatgtac cttgttaaca 300

atatgtttgc aggcagtatg tttggtaaaa gtcatcgcca ttctccattc tcgattaacc 360

aggggctcaa tgcactgtgg aaagccacag gaacctctgc ccaagaaagc ctggctgttg 420

tgggaagtca gggaccccga atggagggac cagctggtgc tgcatcagga aacataaatt 480

gtgaagattt cttggacatt tatcagtttc caaaattaat acttttataa tttcttacac 540

ctgtcttact ttaatctctt aatcctgtta tctttgtaag ctgaggatat acgtcacctc 600

aggaccacta ttgtacaaat tgattgtaaa acatgttcac atgtgtttga acaatatgaa 660

atcagtgcac cttgaaaatg aa 682

<210> 7

<211> 238

<212> DNA

<213> 智人(Homo sapiens)

<400> 7

atgctgagcg ccggtcccct gggcccactt ttctttctct atactttgtc tctgttgtct 60

ttcttttctc aagtctctcg ttccacctga ggagaaatgc ccacagctgt ggaggcgcag 120

gccactccat ctggtgccca acgtggatgc ttttctctag ggtgaaggga ctctcgagtg 180

tggtcattga ggacaagtca acgagagatt cccgagtacg tctacagtga gccttgtg 238

<210> 8

<211> 5553

<212> DNA

<213> 智人(Homo sapiens)

<400> 8

tctctcatcc ctcctgacga gaaataccca caggtgtgga ggggctggcc cccttcatct 60

gatgcccaat gtgggtgcct ttctctaggg tgaaggtact ctacagtgtg gtcattgagg 120

acaagttgac gagagagtcc caagtacgtc cacggtcagc cttgcggtaa gcttgtgtgc 180

ttagaggaac ccagggtaac gatggggcaa actgaaagta aatatgcctc ttatctcagc 240

tttattaaaa ttcttttaag aagaggggga gttagagctt ctacagaaaa tctaattacg 300

ctatttcaaa caatagaaca attctgccca tggtttccag aacagggaac tttagatcta 360

aaagattggg aaaaaattgg caaagaatta aaacaagcaa atagggaagg taaaatcatc 420

ccacttacag tatggaatga ttgggccatt attaaagcaa ctttagaacc atttcaaaca 480

ggagaagata ttgtttcagt ttctgatgcc cctaaaagct gtgtaacaga ttgtgaagaa 540

gaggcaggga cagaatccca gcaaggaacg gaaagttcac attgtaaata tgtagcagag 600

tctgtaatgg ctcagtcaac gcaaaatgtt gactacagtc aattacagga gataatatac 660

cctgaatcat caaaattggg ggaaggaggt ccagaatcat tggggccatc agagcctaaa 720

ccacgatcgc catcaactcc tcctcccgtg gttcagatgc ctgtaacatt acaacctcaa 780

acgcaggtta gacaagcaca aaccccaaga gaaaatcaag tagaaaggga cagagtctct 840

atcccggcaa tgccaactca gatacagtat ccacaatatc agccggtaga aaataagacc 900

caaccgctgg tagtttatca ataccggctg ccaaccgagc ttcagtatcg gcctccttca 960

gaggttcaat acagacctca agcggtgtgt cctgtgccaa atagcacggc accataccag 1020

caacccacag cgatggcgtc taattcacca gcaacacagg acgcggcgct gtatcctcag 1080

ccgcccactg tgagacttaa tcctacagca tcacgtagtg gacagggtgg tgcactgcat 1140

gcagtcattg atgaagccag aaaacagggc gatcttgagg catggcggtt cctggtaatt 1200

ttacaactgg tacaggccgg ggaagagact caagtaggag cgcctgcccg agctgagact 1260

agatgtgaac ctttcaccat gaaaatgtta aaagatataa aggaaggagt taaacaatat 1320

ggatccaact ccccttatat aagaacatta ttagattcca ttgctcatgg aaatagactt 1380

actccttatg actgggaaat tttggccaaa tcttcccttt catcctctca gtatctacag 1440

tttaaaacct ggtggattga tggagtacaa gaacaggtac gaaaaaatca ggctactaag 1500

cccactgtta atatagacgc agaccaattg ttaggaacag gtccaaattg gagcaccatt 1560

aaccaacaat cagtgatgca gaatgaggct attgaacaag taagggctat ttgcctcagg 1620

gcctggggaa aaattcagga cccaggaaca gctttcccta ttaattcaat tagacaaggc 1680

tctaaagagc catatcctga ctttgtggca agattacaag atgctgctca aaagtctatt 1740

acagatgaca atgcccgaaa agttattgta gaattaatgg cctatgaaaa tgcaaatcca 1800

gaatgtcagt cggccataaa gccattaaaa ggaaaagttc cagcaggagt tgatgtaatt 1860

acagaatatg tgaaggcttg tgatgggatt ggaggagcta tgcataaggc aatgctaatg 1920

gctcaagcaa tgagggggct cactctagga ggacaagtta gaacatttgg gaaaaaatgt 1980

tataattgtg gtcaaatcgg tcatctgaaa aggagttgcc caggcttaaa taaacagaat 2040

ataataaatc aagctattaa cagcaaaaaa taaaaagcca tctggcctgt gtccaaaatg 2100

tggaaaagca aaacattggg ccaatcaatg tcattctaaa tttgataaag atgggcaacc 2160

attgtctgga aacaggaaga ggggccagcc tcaggccccc caacaaactg gggcattccc 2220

agttaaactg tttgttcctc agggttttca aggacaacaa cccctacaga aaataccacc 2280

acttcaggga gtcagccaat tacaacaatc caacagctgt cccgcgccac agcaggcagc 2340

accgcagtag atttatgttc cacccaaatg gtctttttac tccctggaaa gcccccacaa 2400

aagattccta gaggggtata tggcccgctg ccagaaggga gggtaggcct ttgagggaga 2460

tcgtctaaat ttgaagggag tccaaattca tactggggta atttattcag attataaagg 2520

gggaattcag ttagtgatca gctccactgt tccccggagt gccaatccag gtgatagaat 2580

tgctcaatta ctgcttttgc cttatgttaa aattggggaa aacaaaaagg aaagaacagg 2640

agggtttgga agtaccaacc ctgcaggaaa agctgcttat tgggctaatc aggtctcaga 2700

ggatagaccc gtgtgtacag tcactattca gggaaagagt ttgaaggatt agtggatacc 2760

caggctgatg tttctgtcat cggcataggt actgcctcag aagtgtatca aagtgccatg 2820

attttacatt gtccaggatc tgataatcaa gaaagtacgg ttcagcctgt gatcacttca 2880

ttccaatcaa tttatggggc cgagacttgt tacaacaatg gcatgcagag attactatcc 2940

cagcctccct atacagcccc aggaataaaa aaatcatgac taaaatggga tagctcccta 3000

aaaagggact aggaaagaag tcccaattga ggctgaaaaa aatcaaaaaa gaaaaggaat 3060

agggcatcct ttttaggagc ggtcactgta gagcctccaa aacccattcc attaacttgg 3120

gggaaaaaaa aacaactgta tggtaaatca gcagcgcttc caaaacaaaa actggaggct 3180

ttacatttat tagcaaagaa acaattagaa aaaggacatt gagccttcat tttcgccttg 3240

gaattctgtt tgtaattcag aaaaaatccg gcagatggcg tataatgccg taattcaacc 3300

catgggggct ctcccacccc ggttgccctc tccagccatg gtccccttta attataattg 3360

atctgaagga ttgctttttt accattcctc tggcaaaaca ggattttgaa aaatttgctt 3420

ttaccacacc agcctaaata ataaagaacc agccaccagg tttcagtgga aagtattgcc 3480

tcagggaatg cttaatagtt caactatttg tcagctcaag ctctgcaacc agttagagac 3540

aagttttcag actgttacat cgttcactat gttgatattt tgtgtgctgc agaaacgaga 3600

gacaaattaa ttgaccgtta cacatttctg cagacagagg ttgccaacgc gggactgaca 3660

ataacatctg ataagattca aacctctact cctttccgtt acttgggaat gcaggtagag 3720

gaaaggaaaa ttaaaccaca aaaaatagaa ataagaaaag acacattaaa agcattaaat 3780

gagtttcaaa agttgctagg agatactaat tggatttgga gatattaatt ggatttggcc 3840

aactctaggc attcctactt atgccatgtc aaatttgttc tctttcttaa gaggggactc 3900

ggaattaaat agtgaaagaa cgttaactcc agaggcaact aaagaaatta aattaattga 3960

agaaaaaatt cggtcagcac aagtaaatag aatagatcac ttggccccac tccaaatttt 4020

gatttttgct actgcacatt ccctaacagg catcattgtt caaaatacag atcttgtgga 4080

gtggtccttc cttcctcaca gtacaattaa gacttttaca ttgtacttgg atcaaatggc 4140

tacattaatt ggtcagggaa gattatgaat aataacattg tgtggaaatg acccagataa 4200

aatcactgtt cctttcaaca agcaacaggt tagacaagcc tttatcaatt ctggtgcatg 4260

gcagattggt cttgccgatt ttgtgggaat tattgacaat cgttacccca aaacaaaaat 4320

cttccagttt ttaaaattga ctacttggat tttacctaaa gttaccaaac ataagccttt 4380

aaaaaatgct ctggcagtgt ttactgatgg ttccagcaat ggaaaagtgg cttacaccgg 4440

gccaaaagaa tgagtcatca aaactcagta tcacttgact caaagagcag agttggttgc 4500

cgtcattaca gtgttaacaa gattttaatc agtctattaa cattgtatca gattctgcat 4560

atgtagtaca ggctacaaag gatattgaga gagccctaat caaatacatt atggatgatc 4620

agttaaaccc gctgtttaat ttgttacaac aaaatgtaag aaaaagaaat ttcccatttt 4680

atattactca tattcgagca cacactaatt taccagggcc tttaactaaa gcaaatgaac 4740

aagctgactt gctagtatca tctgcattca tggaagcaca agaacttcat gccttgactc 4800

atgtaaatgc aataggatta aaaaataaat ttgatatcac atggaaacag acaaaaaata 4860

ttgtacaaca ttgcacccag tgtcagattc tacacctggc cactcaggag gcaagagtta 4920

atcccagagg tctatgtcct aatgtgttat ggcaaatgga tgtcatgcac gtaccttcat 4980

ttggaaaatt gtcatttgtc catgtgacag ttgatactta ttcacatttc atatgggcaa 5040

cctgccagac aggagaaagt acttcccatg ttaaaagaca tttattatct tgttttcctg 5100

tcatgggagt tccagaaaaa gttaaaacag acaatgggcc aggttactgt agtaaagcag 5160

ttcaaaaatt cttaaatcag tggaaaatta cacatacaat aggaattctc tataattccc 5220

aaggacaggc cataattgaa agaactaata gaacactcaa agctcaattg gttaaacaaa 5280

aaaaaggaaa agacaggagt ataacactcc ccagatgcaa cttaatctag cactctatac 5340

tttaaatgtt ttaaacattt atagaaatca gaccactacc tctgcagaac aacatcttac 5400

tggtaaaagg aacagcccac atgaaggaaa actgatttgg tggaaagata ataaaaataa 5460

aacatgggaa atggggaagg tgataacgtg ggggagaggt tttgcttgtg tttcaccagg 5520

agaaaatcag cttcctgttt ggatacccac tag 5553

<210> 9

<211> 2179

<212> DNA

<213> 智人(Homo sapiens)

<400> 9

gtaaacaaaa tggtgatatc agaagaacag aaaaagttgc cttccatcaa ggaagcagag 60

ttgccaatat aggcacaatt aaagaagctg acacagttag ctaaaaaaaa aagcctagag 120

aatacaaagg tgacaccaac tccagagaat atgctgcttg cagctctgat gattgtatca 180

acggtggtaa gtcttcccaa gtctgcagga gcagctgcag ctaattatac ttactgggcc 240

tatgtgcctt tcccaccctt aattcgggca gttacataga tggataatcc tattgaagta 300

gatgttaata atagtgcatg ggtgcctggc cccacagatg actgttgccc tgcccaacct 360

gaagaaggaa tgatgatgaa tatttccatt gggtatcctt atcctcctgt ttgcctaggg 420

aaggcaccag gatgcttaat gcctacaacc caaaattggt tggtagaagt acctacagtc 480

agtgctacca gtagatttac ttatcacatg gtaagtggaa tgtcacagat aaataattta 540

caggaccctt cttatcaaag atcattacaa tgtaggccta aggggaaggc ttgccccaag 600

gaaattccca aagaatcaaa aagcccagaa gtcttagtct gcggagaatg tgtggctgat 660

actgcagtgt agtacaaaac aatgaatttt gaactatgat agactgggtc ccttgaggcc 720

aattatatca taactgtaca ggccagactc attcatgttc acaggcccca tccatctggc 780

ccattaatcc agcctatgac ggtgatgtaa ctgaaaggct ggaccaggtt tatagaaggt 840

tagaatcact ctgtccaagg aaatggggtg aaaagggaat ttcatcacct tgaccaaagt 900

tagtcctgtt actggtcctg aacatccaga attaggaagc ttactgtggc ctcacaccac 960

attagaattt gttctggaaa tcaagctata ggaacaagag atcgtaagtc atattatact 1020

atcaacctaa attccagtct gacaattcct ttgcaaaatt gtgtaaaact cccttatatt 1080

gctagttgta ggaaaaacat agttattaaa cctgattccc aaaccataat ctgtgaaaat 1140

tgtggaatgt ttacttgcat tgatttgact tttaattggc agcaccgtat tctactagga 1200

agagcaagag agggtgtgtg gatccttgtg tccatggacc gaccatggga ggcttcgcta 1260

tccatccata ttttaacgga agtattaaaa ggaattctaa ctagatccaa aagattcatt 1320

tttactttga tggcagtgat tatgggcctc attgcagtca cagctactgc tgcggctgct 1380

ggaattgctt tacactcctc tgttcaaact gcagaatacg taaatgattg gcaaaagaat 1440

tcctcaaaat tgtggaattc tcagatccaa atagatcaaa aattggcaaa ccaaattaat 1500

gatcttagac aaactgtcat ttggatggga gaggctcatg agcttggaat atctttttca 1560

gttacgatgt gactggaata catcagattt ttgtgttaca ccacaagcct ataatgagtc 1620

tgagcatcac tgggacatgg ttagatgcca tctgcaagga ggagaagata atcttacttt 1680

agacatttca aaattaaaag aatttttttt ttctttgaga cagagtctcg ctctgtcgcc 1740

caggctggag tgcagtggcg tgatctcagc tcactgcaag ttccgcctcc tgggtttaca 1800

ccattctcct gcctcagcct cccaagtagt tgggactaca ggagcccacc accatgcctg 1860

gctaattttt tttgggtttt taatagagat ggagtttcac cgtgttagcc aggatggtct 1920

cgatctcctg accttgtgat ctgcccacct tggcctccca aagtgctggg attacagtcg 1980

tgagccaccg tgcccagcca agaaaaaatt tttgaggcat caaaagccca tttaaatttg 2040

gtgccaggaa cggagacaat cgtgaaagct gctgatagcc tcacaaatct taagccagtc 2100

acttgggtta aaagcatcag aagtttcact attgtaaatt tcatattaat ccttgtatgc 2160

ctgttctgtc tgttgttag 2179

<210> 10

<211> 16

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 10

ccgaaccaca catgga 16

<210> 11

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 11

cagatacata aggtaagc 18

<210> 12

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 12

tttattttag accatggaaa ta 22

<210> 13

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 13

gatgaataaa tgtgtgtttg agcctagtta tg 32

<210> 14

<211> 261

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 14

cgggtcctcc atatgctgag cgccggtccc ctgggcccac ttttctttct ctatactttg 60

tctctgttgt ctttcttttc tcaagtctct cgttccacct gaggagaaat gcccacagct 120

gtggaggcgc aggccactcc atctggtgcc caacgtggat gcttttctct agggtgaagg 180

gactctcgag tgtggtcatt gaggacaagt caacgagaga ttcccgagta cgtctacagt 240

gagccttgtg gtaagcttgg g 261

<210> 15

<211> 101

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 15

tctttcctca gggtgaaggt actctacagt gtggtcattg aggacaagtt gacgagagag 60

tcccaagtac gtccacggtc agccttgcgg gtgaaggtac t 101

<210> 16

<211> 101

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 16

atacccacta gacatttaaa gttctacaat gaactcactg gagatgcaaa gaaaagtgtg 60

gagatggaga caccccaatc gactcgccag gtaaacaaaa t 101

<210> 17

<211> 701

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 17

tgttgttagt ctacaggtgt atccagcagc tccaaagaga cagcaaccag caagaatggg 60

ccatagtgac gatggtggtt ttgtcaaaaa gaaaaggggg ggatatgtaa ggaaaagaga 120

gatcagactt tcactgtgtc tatgtagaaa aggaagacat aagaaactcc attttgatct 180

gtactaagaa aaattgtttt gccttgagat gctgttaatc tgtaacttta gccccaaccc 240

tgtgctcacg gaaacatgtg ctgtaaggtt taagggatct agggctgtgc aggatgtacc 300

ttgttaacaa tatgtttgca ggcagtatgt ttggtaaaag tcatcgccat tctccattct 360

cgattaacca ggggctcaat gcactgtgga aagccacagg aacctctgcc caagaaagcc 420

tggctgttgt gggaagtcag ggaccccgaa tggagggacc agctggtgct gcatcaggaa 480

acataaattg tgaagatttc ttggacattt atcagtttcc aaaattaata cttttataat 540

ttcttacacc tgtcttactt taatctctta atcctgttat ctttgtaagc tgaggatata 600

cgtcacctca ggaccactat tgtacaaatt gattgtaaaa catgttcaca tgtgtttgaa 660

caatatgaaa tcagtgcacc ttgaaaatga acagaataac a 701

<210> 18

<211> 644

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 18

ggctccgaac acacatggat attggatatc tgcataggca gcttgctcca cgccagtgcc 60

tacctgtgca gatgggaagg aaaggaaagt ggcaaggagg cagagaaagc atctgtaccc 120

ttacaatttg gtgagacaag aatgtatgaa ttcccacagg tcaaattata atgaagaaag 180

gaacctctct tgagtacaaa gagctaccta tggtggtctg gagccggagg accacagcat 240

caaaggatat aagatgcata gccaactgag gaacctgagc aattaaagag atccacagtt 300

aagtcacact taactggcac ttgtggaagc cccgcaaggc ctgaaggaga gctgacatag 360

gcaccccgga gagccagaat ctggatccca tcttaataag gccatgaaca ccagtggaga 420

agaggcagaa acaccaatgg ataaggaaca ttcacatctt tcttcccatg tgcctctaag 480

tgccagtgca ggccccacag gccaagctac agggagaaag gagatgacgc aaaggaacct 540

aactggactt taatcactag aagtgagaag agaaatctat tggaacctcc caagataatg 600

ccaagggtca aagggtgcgc agatacataa ggtaagccct tcgg 644

<210> 19

<211> 1376

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 19

tttagaccat ggaaataata tcagacaaaa agcagattag agcaattttc tttttcgagt 60

tcaaaatggg ttataaagca gcggagacaa accgcaacat caccaacgcc tttggcccag 120

gaactgctaa tgaaggtaca gtgcagtcac tgttcaggaa gttttgcaaa ggagactaga 180

gccttgaaga tgaggagcat agtgaccagc cattggaagt cgacaaagac caattgagag 240

gaatcattga agctgatcat cttacaacta cacgagaagt tgtcaaagaa cgcaatgttg 300

accattgtgt ggtcttttcg catttgaagc aaattggaaa ggtgaaaaac ttgataagtg 360

ggtgccttgt gagctcagca aaaatccaaa aaaataatca tttttaagtg ttgtcttctc 420

ttattctacg caacaacaat aaccattttg caatcggatt gtgatgtgca atgaaaagtg 480

gatttggggc cgggcgcggt ggctcacgcc tgtaatctca gcactttgga aggccaaggc 540

gggcagatca cgaggtcagg agatcaagac cgtcctggct aacacggtga aaccccgtct 600

ctactgaaaa tacaaaaaat tagccgggtg tggtggctgg cgcctgtagt cccagctaca 660

ggctgaggca ggagaatggc atgaacctgg gaggcggagc ttgcagtgag ccgagaccgt 720

gccactgcac tccagcctgg gcgacagagc gatactccgt caaaaaaaaa aaaaaaaaaa 780

aaaaaagaca agtggatttt atatatggca accagcaatg accagctcag tggctggact 840

gagaagaagc tccaaagcac ttcccaaagc caaacttgca ccaaaaaaaa ggtcagggtc 900

actgtttggt ggtctgctgc tggtctgatc caccgctgct ctctgaatcc tggcaaaacc 960

attacatctg agaagtatgc tcaacaaatc aatgagctac gccaaaaact gcagcatctg 1020

cagctggcat tggtcaacat aacgggtcca attcttctcc acgacaacgc tcaactgcac 1080

cttgcgcaag cagcgcttca aaagttgaac aaattgggct acatagtttt tcctcatccg 1140

ccatattcac ctgacgtctt gccaactaac taccacttct tcaagtatct caacaacttt 1200

ttgcagggaa aacacttcca caaccagcag gatgcagaac acgctttcca agagtttgtc 1260

gaatcctgac gcacagattt ttatgctaca ggaataaact aacttatttc tcattggcaa 1320

aaatgtgttg attgtaatgg ttcctatttt gatgaataaa tgtgtgtttg agccta 1376

<210> 20

<211> 813

<212> DNA

<213> 智人(Homo sapiens)

<400> 20

tttctcaggt ctggatgtag ggttagatgc cagttagata taagtgaaat agccggttta 60

cttaccaata gacaggaaag tagtcttttg tgattccctt ctccactaaa tacaaatcag 120

tgctactcag gggctcttta aagaaggagt tggccaggtg tggtgactca cgcctgtaat 180

cttagcactt tgggaggttg aggcgggtgg atcacctgag gtcaggagtt cgagaccatt 240

cctgaccaac atggagaaac cctgtctcta aaaatacaaa atcagctggg cgtggtggcg 300

catgcctgta atcccagcta cttgggaggc tgaggcagga gaatcgcttg aacccgggag 360

gcggaggttg tagtgagccg agattgtgcc attgcactcc agcctgggca acaagagcga 420

aactccgact acatgtaccc taaaacttaa agtataataa taataaaatt aaaaaaaaaa 480

aaaaagaaca gcagcagtaa aaaataaata aagaaataaa taaataaata aatgaagaag 540

tcaatcggta ccataagaaa ggacaaaaac caaaacaaac ccaaagcaaa accaaaaact 600

ccccacaaac cagcctcccc taaccctttt aactcaaagc ttcgtaatgt ctctgaattt 660

ataattacga ttttaaagag cactgtttct catgccccat cccccaaccc atttcgggag 720

taaacctttt ctgtcagggt gaggagaaag tgggtaaagg acttcagcat ttacagttga 780

gttagtattt gttgttctcc aaatgtgcag gaa 813

<210> 21

<211> 404

<212> DNA

<213> 智人(Homo sapiens)

<400> 21

tccttggtgg cttagggtac agttattaat gctggctgtg atgaagtttt gctggggacc 60

aggataacag atggtccagt catggggcct cagtggtggc agtgattagc tgatcatgcc 120

tgtcctttgg ccccaggttg gcttatgctg gcacttgtgt tgttaggccc aagcagtctg 180

atttgggggc ctccacatgg tttgctggga tgttggtagt ttctgcttcc tggcctgatg 240

tggtacatct gggtgagtgc cagctctggt ggtattagca tgttatgtca gcctgtcctt 300

agaccctggg agaagtgttc atgtgccaat ggtggtagac tgtgctgagt gatttccagg 360

cccctggaca gcatactgaa ttactgagag gatgggactg agca 404

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1