17q连锁的乳房癌和卵巢癌易患性基因的体内突变和多态性的制作方法

文档序号:3549081阅读:274来源:国知局

专利名称::17q连锁的乳房癌和卵巢癌易患性基因的体内突变和多态性的制作方法
技术领域
:本发明一般涉及人类遗传学领域。具体地,本发明涉及用于分离和检测人乳房癌和卵巢癌倾向性基因(BRCA1)的方法和材料,该基因的某些突变型等位基因造成癌症尤其是乳房和卵巢癌的易患性。更具体地,本发明涉及BRCA1基因的种系突变及其在诊断乳房癌和卵巢癌倾向性方面的用途。本发明还涉及在人乳房癌和卵巢癌中BRCA1基因的体细胞突变及其在诊断和预后乳房癌和卵巢癌倾向性方面的用途。此外,本发明还涉及在其他的人癌肿中的BRCA1基因体细胞突变及其在人癌肿的诊断和预后方面的用途。本发明还涉及BRCA1基因发生突变的人癌肿的治疗,它包括基因治疗、蛋白质置换治疗和蛋白质模拟物(mimetics)。本发明还涉及筛选用于癌肿治疗的药物。最后,本发明涉及筛选BRCA1基因的突变,而这些突变可用于诊断乳房癌和卵巢癌的倾向性。此处用来说明本发明的背景、尤其用来对实施提供额外细节的出版物和其他材料,在本申请中结合引用作为参考,并且为了方便起见,在下文中按作者和日期进行引用而且分别归类在所附的参考文献清单中。
背景技术
:癌肿遗传学非常复杂,涉及多个显性的、转化状态的正调节物(癌基因)以及多个隐性的、负调节物(肿瘤抑制基因)。已经确定了超过100种的癌基因。被鉴定的肿瘤抑制基因还不到12种,但是预计该数目会增加至超过50种(Knudson,1993)。牵涉这么多基因强调了为了维持正常组织的完整性而在细胞中发挥作用的生长调控机制的复杂性。这种复杂性还通过另一种方式体现。迄今为止,还没有单个基因参与所有的、或者绝大多数的人癌肿的进程。最常见的癌基因突变是在H-ras基因中,在所有实体瘤的10-15%中有此种突变发现(Anderson等人,1992)。突变频率最高的肿瘤抑制基因是TP53基因(在约50%所有肿瘤中纯合缺失)和CDKN2(在46%检查的肿瘤细胞系中纯合缺失)(Kamb等人,1994)。没有一个共同的针对所有转化细胞的靶目标,就不可能寻找到能够摧毁或逆转癌细胞而又不损害正常细胞的“魔弹”。新一代特异性导向式抗肿瘤药物的希望便寄托在能够鉴定出在细胞分裂调控中起普遍作用的肿瘤抑制基因或癌基因。已经克隆和确定的肿瘤抑制基因影响对下列癌肿的易患性1)成视网膜细胞瘤(RB1);2)Wilms瘤(WT1);3)Li-Fraumeni(TP53);4)家族性多发性腺癌(APC);5)I型神经纤维瘤病(NF1);6)II型神经纤维瘤(NF2);7)vonHippel-Lindau综合征(VHL);8)2A型多发性内分泌腺瘤病(MEN2A)和黑素瘤(CDKN2)。已经确定遗传图谱但还没有被分离的肿瘤抑制基因的基因座包括下列基因I型多发性内分泌腺瘤病(MEN1);II型Lynch癌家族性综合征(LCFS2);神经母细胞瘤(NB);基底细胞痣综合征(BCNS);Beckwith-Wiedemann综合征(BWS);肾细胞癌(RCC);I型结节性硬化(TSC1)和II型结节性硬化(TSC2)。目前已经定性的肿瘤抑制基因,它们编码与多种蛋白质类型具有相似性的产物,其中包括DNA结合蛋白(WT1)、辅助性转录调节蛋白(RB1)、GTP酶活化蛋白(又称为GAP)(NF1)、细胞骨架组份(NF2)、膜结合受体激酶(MEN2A)、细胞周期调控蛋白(CDKN2),还编码其他的与已知的蛋白质没有明显相似性的产物(APC和VHL)。在大多数情况下,最初通过遗传学研究而鉴别的肿瘤抑制基因已表明在某些偶发的肿瘤中是缺失的或突变的。该结果暗示,染色体异常的区域可用于表明在癌肿的遗传倾向和偶发癌肿中所涉及的重要的肿瘤抑制基因的位置。迄今为止确定的数种肿瘤抑制基因的特征之一是,它们在某些肿瘤类型中高频率地缺失。缺失常常涉及失去一个等位基因,即所谓的杂合性丢失(lossofheterozygosity,简称LOH),但是也涉及两个等位基因的纯合缺失(homozygousdeletion)。对于LOH,余下的等位基因被认为不起作用,其原因或者是因为已有的遗传突变,或者是因为第二次的偶发突变。乳房癌是影响妇女的最主要疾病中的一种。在目前水平,在95岁之前每8个美国妇女中有1个会得乳房癌(美国癌症协会,1992)。晚期乳房癌的治疗通常是徒劳的而且破坏形体,这使该病的早期检测在医疗中占优先地位。卵巢癌尽管比乳房癌的发病率低,但是通常快速致命而且是美国妇女中死亡率占第4位的肿瘤种类。由遗传因子造成的乳房癌发生比例还不清楚,估计为所有病例的约5%,但是占40岁前诊断病例的约25%(Claus等人,1991)。根据年龄特异性发病曲线在50岁左右的拐折,将乳房癌细分成两种类型早发型和晚发型。一个基因即BRCA1的突变被认为造成约45%的家族性乳房癌,但是造成至少80%同时有乳房癌和卵巢癌的家族(Easton等人,1993)。分离BRCA1基因的深入努力,从1990年其被首次定位后便已开始(Hall等人,1990;Narod等人,1991)。第2个基因座BRCA2已经被定位在染色体13q(Wooster等人,1994),并且似乎造成比例与BRCA1大致相等的早发型乳房癌,但是造成的卵巢癌危险性较低。早发型乳房癌的其余易患性被分成两类还未定位的家族性癌肿和更罕见的种系基因突变如TP53的突变(Malkin等人,1990)。还提出,缺陷型Ataxia-Telangectasia基因的杂合子携带者是高危乳房癌患者(Swift等人,1976;Swift等人,1991)。晚发型乳房癌经常也是家族性的,尽管在亲属中发病的风险没有早发型乳房癌中那么高(Cannon-Albright等人,1994;Mettlin等人)。但是,还不清楚由遗传易患性造成的该病例的百分比。乳房癌长久以来被认为,部分是家族性疾病(Anderson,1972)。许多研究者已研究了基因遗传的证据并得出结论,数据与主易患性基因座的显性遗传完全一致(Bishop和Gardner,1980;Go等人,1983;Willams和Anderson,1984;Bishop等人,1988;Newman等人,1988;Claus等人,1991)。最近的结果显示,存在至少3个基因座携带乳房癌和其他癌肿的易患性。这些基因座是位于染色体17p上的TP53(Malkin等人,1990)、与17q连锁的易患性基因座BRCA1(Hall等人,1990)和一个或多个负责未定位地剩余部分的基因座。Hall等人(1990)指出,在亲缘族中早发型遗传性乳房癌的易患性与染色体17q21连锁;尽管该小组随后使用更合适的遗传模型进行的研究与局限于早发型乳房癌的结论有些出入(Margaritte等人,1992)。克隆与17q连锁的乳房癌倾向性基因(BRCA1)的许多方案需要精确的基因定位研究。对于BRCA1功能作用的最简单模型认为,使人倾向于患癌肿的BRCA1等位基因相对野生型等位基因是隐性的;即含有至少一个野生型BRCA1等位基因的细胞不是癌肿性的。但是含有一个野生型BRCA1等位基因和一个倾向性等位基因的细胞偶尔会因随机突变或细胞分裂过程中染色体丢失(未分离)而丢失野生型等位基因。该突变细胞的所有子代缺乏BRCA1的野生型功能,并可能发展成肿瘤。根据这一模型,BRCA1倾向性等位基因是隐性的,因而肿瘤易患性以显性方式遗传具有一个倾向性等位基因(和一个野生型等位基因)的妇女易患癌肿,因为她们的乳房上皮细胞可自发地丢失野生型BRCA1等位基因。该模型适用于一组癌肿易患性基因座即肿瘤抑制基因或抗癌基因,这一组基因包括成视网膜细胞瘤基因和神经纤维瘤基因。通过推理,该模型也可解释BRCA1功能,正如最近所揭示的那样(Smith等人,1992)。第二种可能性是BRCA1倾向性等位基因是完全显性的;即BRCA1野生型等位基因不能阻止倾向性等位基因形成肿瘤的功能。因此,携带野生型和突变型等位基因的细胞在发展成恶性细胞之前不必丢失BRCA1的野生型拷贝。易患个体中的乳房细胞会发生某些其他的随机变化,从而导致癌肿。如果BRCA1倾向性等位基因是隐性的,那么BRCA1基因预计会在正常的乳房组织中表达,但是不会在乳房肿瘤中功能性地表达。相反,如果BRCA1倾向性等位基因是显性的,那么野生型BRCA1基因在正常乳房组织中可能表达或可能不表达。但是,倾向性等位基因在乳房肿瘤细胞中应是表达的。BRCA1与17q的连锁关系分别在5个患有乳房癌和卵巢癌两种癌肿的亲缘族中的3个中得到了证实(Narod等人,1991)。这些研究声称将基因定位在一个非常大的(15厘摩(centiMorgan,cM)或约15,000,000碱基对)、在连锁标记pCMM86(D17S74)侧翼的区域中。但是,使用pCMMS6周围的标记进一步通过遗传学研究确定区域的尝试证明是不成功的。随后的研究表明,基因是相当邻近的(Easton等人,1993),而且最初的分析是有缺点的(Margaritte等人,1992)。Hall等人(1992)最近将BRCA1基因定位于约8cM(约8百万碱基对)的间距中,两侧为近端的Mfd15(D17S250)和远端的人GIP基因。根据公开的资料,稍为更窄的BRCA1基因座间距,在1992年3月的17号染色体研讨会(Fain,1992)上达成共识。这些区域的大小和与其相关的不确定性使人们难于设计和完成物理图谱和/或用于分离BRCA1基因的克隆方案。鉴定乳房癌易患性基因座可以便于早期检测易患个体并大大增加我们了解导致癌肿的最初步骤。因为易患性基因座常常在肿瘤发展中改变,所以克隆这些基因在开发更佳的诊断和预后产品以及更好的癌肿疗法方面也是重要的。发明概述本发明一般涉及人类遗传学领域。具体地,本发明涉及用于分离和检测人乳房癌倾向性基因(BRCA1)的方法和材料,该基因的某些等位基因造成癌症尤其是乳房和卵巢癌的易患性。更具体地,本发明涉及BRCA1基因的种系突变及其在诊断乳房癌和卵巢癌倾向性方面的用途。本发明还涉及在人乳房癌中BRCA1基因的体细胞突变及其在诊断和预后乳房癌和卵巢癌倾向性方面的用途。此外,本发明还涉及在其他的人癌肿中的BRCA1基因体细胞突变及其在人癌肿的诊断和预后方面的用途。本发明还涉及治疗BRCA1基因发生突变的人癌肿的方法,它包括基因治疗、蛋白质置换治疗和蛋白质模拟物。本发明还涉及筛选用于癌肿治疗的药物。最后,本发明涉及筛选BRCA1基因的突变,而这些突变可用于诊断乳房癌和卵巢癌的倾向性。附图简述图1显示了17号染色体研讨会所确定的BRCA1周围的基因座次序。图1从Fain(1992)复制而来。图2是界定Mfd15-Mfd188区域部分的YAC示意图。图3是在BRCA1区域中的STS、P1和BAC的示意图。图4是人17号染色体的示意图。含有BRCA1的有关区域被放大,以显示以前鉴定的2个基因CA125和RNU2的相对位置,BRCA1横跨标记D17S855。图5显示了BRCA1锌指域(zinc-fingerdomain)与在Smith-Waterman排列中得分最高的3个其他的锌指域的排列图。RPT1编码的蛋白质似乎是鼠IL-2受体的负调控物。RIN1编码的DNA结合蛋白具有一个与锌指相关的RING-指基序(motif)。RFP1编码推断的转录因子,该因子是RET癌基因产物的N末端结构域。底线含有C3HC4共有锌指序列,显示了形成锌离子结合袋的半胱氨酸和组氨酸的位置。图6是BRCA1mRNA图,显示了内含子位置和通过不同剪接而形成的BRCA1mRNA变异形式。内含子位置用黑色三角形表示,外显子在表示cDNA的直线下方给出编号。顶部的cDNA是用于产生BRCA1肽序列的复合物。鉴别为cDNA克隆或杂交体选择克隆的其他形式显示在下方。图7显示了BRCA1的组织表达格局。印迹从Clontech获得并含有来自所示组织的RNA。杂交条件如制造商所建议,并使用由BRCA1核苷酸3631位-3930位构成的探针。注意,乳房和卵巢是异源组织,而且相关上皮细胞的百分比是可变的。分子量标准为“千碱基”。图8是5′不翻译区加上BRCA1翻译区开始部分的示意图,它显示了内含子的位置和通过不同剪接而形成的BRCA1mRNA变异形式。内含子位置用虚线表示。显示了6种不同的剪接形式。图9显示了亲缘族2082中的无义突变。P表示最初筛选到的人,b和c是单倍型携带者,a、d、e、f和g不携带BRCA1单倍型。C突变为T形成一个终止密码子并且形成一个限制酶AvrII位点。PCR扩增产物用该酶进行切割。携带者的位点是杂合的,所以显示3个条带。非携带者保持未切割状态。图9B显示了在BRCA1亲缘族中的突变和共分离分析。携带者个体在谱系图中用实心圆圈和方块表示。在亲缘族1910中有移码突变。前3个泳道是对照用非携带者样本。标为1-3的泳道含有携带者个体的序列。泳道4含有的DNA来自不携带BRCA1突变的亲缘族成员。菱形表示妨碍了亲缘族的鉴别。由额外的C造成的移码突变在标为1、2和3的泳道中是明显的。图9C显示了在BRCA1亲缘族中的突变和共分离分析。携带者个体在谱系图中用实心圆圈和方块表示。亲缘族2035中有推断的调控突变。显示了2种不同多态性(PM1和PM7)的携带者和非携带者的ASO分析,检查了他们种系的杂合性并与淋巴细胞mRNA的杂合性进行比较。图板中上方的2行含有从基因组DNA中扩增而得的PCR产物,下方2行含有从cDNA扩增而得的PCR产物。“A”和“G”是被ASO检测的2个等位基因。黑点表示在样本中存在特定的等位基因。PM7的前3列表示一般人群中的3种基因型。图10A-10H显示了BRCA1的基因组序列。小写字母表示内含子序列,而大写字母表示外显子序列。在内含子中的不确定间隔部分用vvvvvvvvvvvvv表示。已知的多态性位点用下划线和粗体字型表示。发明详述本发明一般涉及人类遗传学领域。具体地,本发明涉及用于分离和检测人乳房癌倾向性基因(BRCA1)的方法和材料,该基因的某些等位基因造成癌症尤其是乳房和卵巢癌的易患性。更具体地,本发明涉及BRCA1基因的种系突变及其在诊断乳房癌和卵巢癌倾向性方面的用途。本发明还涉及在人乳房癌中BRCA1基因的体细胞突变及其在诊断和预后乳房癌和卵巢癌倾向性方面的用途。此外,本发明还涉及在其他的人癌肿中的BRCA1基因体细胞突变及其在人癌肿的诊断和预后方面的用途。本发明还涉及治疗BRCA1基因发生突变的人癌肿的方法,它包括基因治疗、蛋白质置换治疗和蛋白质模拟物。本发明还涉及筛选用于癌肿治疗的药物。最后,本发明涉及筛选BRCA1基因的突变,而这些突变可用于诊断乳房癌和卵巢癌的倾向性。本发明提供了一种分离的多聚核苷酸,它含有所有或部分的BRCA1基因座或突变的BRCA1基因座,长度较佳地为至少8个碱基和不超过约100kb。这种多聚核苷酸可以是反义多聚核苷酸。本发明还提供了含有这种分离的多聚核苷酸的重组构建物,例如适合在转化的宿主细胞中表达的重组构建物。本发明还提供了在分析物中检测含有部分BRCA1基因座的多聚核苷酸或其表达产物的方法。这些方法还可含有扩增部分BRCA1基因座的步骤,并且还可含有提供一套多聚核苷酸(作为扩增该部分BRCA1基因座的引物)的步骤。该方法可用于诊断癌肿的倾向性,或用于诊断或预后癌肿。本发明还提供了分离的抗体,较佳地是单克隆抗体,该抗体特异性地与分离的、含有至少5个由BRCA1基因座编码的氨基酸残基的多肽结合。本发明还提供了用于在分析物中检测含有部分BRCA1基因座的多聚核苷酸的试剂盒,该试剂盒包括包装在适当容器中的、与部分BRCA1基因座互补的多聚核苷酸以及使用说明。本发明还提供了制备一种多聚核苷酸的方法,它包括步骤聚合核苷酸从而产生含有BRCA1基因座至少8个连续核苷酸的序列;还提供了制备多肽的方法,它包括步骤聚合氨基酸从而产生含有至少5个由BRCA1基因座编码的氨基酸的序列。本发明还提供了筛选BRCA1基因以鉴别突变的方法。这些方法还可包括扩增部分BRCA1基因座的步骤,并且还可含有提供一套多聚核苷酸(作为扩增该部分BRCA1基因座的引物)的步骤。该方法可用于诊断癌肿的倾向性,或用于诊断或预后癌肿。本发明还提供了筛选可疑BRCA1突变型等位基因以鉴别BRCA1基因中突变的方法。此外,本发明提供了筛选用于癌肿治疗的药物的方法,以便鉴别出合适的、能恢复BRCA1基因产物功能的药物。最后,本发明提供了针对癌肿细胞的基因治疗所需的手段。这些治疗试剂可以利用含有全部或部分BRCA1基因座的多聚核苷酸,将其置于合适的载体或用更直接的方法将其送递入该靶细胞,从而恢复BRCA1蛋白质的功能。治疗试剂也可以利用基于部分或全部BRCA1蛋白质序列的多肽。这些多肽可在体内在功能上替代BRCA1的活性。本发明发现,使个体倾向患乳房癌的BRCA1基因座是编码BRCA1蛋白的基因,已发现它与已知的蛋白质或DNA序列没有显著的同源性。该基因在此处被称为BRCA1。本发明发现,在种系中BRCA1基因座的突变表示存在患乳房癌和卵巢癌的倾向性。最后,本发明发现,BRCA1基因座的体细胞突变与乳房癌、卵巢癌和其他癌肿关联,因此是这些癌肿或癌肿预后的标记。BRCA1基因座的突变事件涉及编码序列和非编码序列中的缺失、插入和点突变。从人基因组的17号人染色体的长臂上的某一区域17q(其大小估计约为8百万碱基对)开始,已鉴别出一个含有遗传基因座BRCA1的区域,它造成包括乳房和卵巢癌在内的癌肿易患性。含有BRCA1基因座的区域用各种遗传技术进行鉴别。遗传图谱定位技术通过与各遗传标记的重组关系最早限定了BRCA1区域。根据对具有多个乳房癌病例的大的延伸家族(“亲缘族”)(在某些亲缘族中有卵巢癌病例)的研究,精确定位出一个染色体区域,它含有BRCA1基因以及在BRCA1基因座中其他假定的易患性等位基因。在BRCA1基因座的远端一侧发现了2个减数分裂断点,它们在遗传标记和疾病之间以重组体表现,而且一个重组体位于BRCA1基因座的近端一侧。因此,含有BRCA1基因座的区域被这些标记在物理上界定了边界。使用本发明提供的遗传标记,可以从人的酵母人工染色体(YAC)或人的细菌人工染色体(BAC)文库中鉴别出覆盖该区域的克隆。还可以从该区域鉴别和制备操作更方便的粘粒、P1和BAC克隆,并且从一亚系列克隆中构建毗连群(contig)。这些粘粒、P1、YAC和BAC提供了克隆BRCA1基因座的基础,并提供了开发例如有效地诊断和治疗乳房癌和/或卵巢癌的试剂的基础。已经从该区域中分离出BRCA1基因和其他潜在的易患性基因。采用软件俘获(一种从连续的或非连续的基因组DNA序列中鉴别出可能含有编码外显子序列的计算机方法)、杂交体选择技术和直接筛选方法,用来自粘粒、P1和BAC区域中的整个或部分cDNA插入片段筛选cDNA从而进行分离。这些方法被用于获得在乳房和其他组织中表达的基因座序列。分析这些候选基因以鉴别赋予癌肿易患性的序列。我们发现,在亲缘族中BRCA1基因座的编码序列有突变,它们造成与17q连锁的癌肿易患性(即已知的BRCA1)。不知道该基因在此区域中。本发明不仅有助于某些癌肿的早期检测(这对病人的存活极为重要),而且还可在患癌肿之前检测易患性个体。群体来源大量的、记录完整的Utah州亲缘族对于提供人类遗传学研究的良好资料是极为重要的。每个大亲缘族都独立地提供了检测该家族中BRCA1易患性等位基因是否分离的能力。对BRCA1基因座的定位和分离提供信息的重组体只能从大到足以证实存在易患性等位基因的亲缘族中获得。大的同胞关系(sibship)对于研究乳房癌尤其重要,因为BRCA1易患性等位基因的外显率会因年龄和性别而减弱,使有信息的同胞关系难以发现。此外,大的同胞关系对于通过近亲的单倍型推断建立已故个体的单倍型是至关重要的。尽管其他群体也可提供有用的信息,但是这种研究一般需要更多努力,而且家族一般越小,提供的信息也越少。经年龄调整后,犹他州的乳房癌发病率比美国平均发病率低20%。犹他州的低发病率很可能是因为第一次怀孕时的年龄早,这增加了在犹他州亲缘族中的病例携带遗传倾向性的可能性。遗传作图对于一组有信息的家族,为了将某一疾病与染色体的某一区域连锁,需要有遗传标记。这样的标记包括限制性片段长度多态性(RFLP)(Botstein等人,1980)、具有不同数目的串联重复(variablenumberoftandemrepeats,简称VNTR)的标记(Jeffreys等人,1985;Nakamura等人,1987)、和基于短串联重复(shorttandemrepeats,简称STR)尤其是CpA重复的高丰度的DNA多态性(Weber和May,1989;Litt等人,1989)。为了构建遗传图谱,人们选择潜在的遗传标记并用从被研究的亲缘族成员抽提的DNA进行测试。用于搜寻与疾病关联的遗传基因座的遗传标记可以根据特定情况而加以选择,或者通过密集地覆盖特定的染色体,或者通过对染色体特定区域的仔细分析。一种选择与某一疾病连锁的遗传标记的较佳方法是,评估亲缘族提供的信息度以确定给定多态性程度下遗传标记之间的理想距离,然后从已知的遗传图(这些遗传图的间距适中以便使效率最高)上选择标记。亲缘族的信息度根据各标记在不相关个体中杂合的可能性而计算出。使用STR标记也是最有效的,这些STR标记可用PCR通过扩增靶核酸序列而检测出;这种标记富含信息,便于分析(Weber和May,1989),而且可用多种方案同时分析(Skolnick和Wallace,1988),这大大减少了所需的实验次数。一旦建立了连锁关系,人们就需要找到位于疾病基因座两侧的标记,即一个或多个位于该疾病基因座近端的标记以及一个或多个位于该疾病基因座远端的标记。如果可能,候选标记可从已知的遗传图上选择。如果一个都不知道,那么可用STR技术鉴别出新的标记,如实施例中所示。遗传作图通常是一个反复过程。在本发明中,起初是确定BRCA1基因座周围的侧翼遗传标记,然后用其他逐渐更靠近BRCA1基因座的标记置换这些侧翼标记。作为最初步骤,通过大的延伸亲缘族而确定的重组事件特别有助于将BRCA1基因座定位于某一特定遗传标记的远端或近端(Goldgar等人,1994)。在本发明公开之前,在BRCA1周围的区域还没有被很好地作图,而且标记很少。因此,分析从YAC上亚克隆而来的粘粒上的短重复序列(已作物理图谱)以开发新的遗传标记。用这种方法,发现了本发明的一个标记42D6,它替换pCMM86作为BRCA1区域的远端一侧的标记。因为42D6距pCMM86约14cM,所以BRCA1区域被缩小了约14厘摩(Easton等人,1993)。这样,本发明便从发现BRCA1区域的连锁更紧密的远端一侧标记而开始。然后发现BRCA1在遗传标记Mfd15的远端。所以,显示BRCA1应在由Mfd15和42D6所界定的6-10百万碱基区域中。随后发现,标记Mfd191在Mfd15的远端并在BRCA1的近端。因此,用Mfd191替代Mfd15作为最近端的遗传标记。类似地,发现遗传标记Mfd188可替代遗传标记42D6,这将含有BRCA1基因座的区域缩小到约1.5百万碱基。然后使用本领域中已知的和此处描述的技术,用tdj1474替代标记Mfd191作为近端标记,并用U5R替代Mfd188作为远端标记,这进一步将BRCA1区域缩小到足够小区域,从而可以分离和定性研究BRCA1基因座(见图3)。物理作图采用3种不同方法对该区域进行物理作图。第一种方法是使用酵母人工染色体(YAC)克隆由UR5和tdj1474所界定的区域。第二种方法是构建一套覆盖含有BRCA1基因座的区域的P1、BAC和粘粒克隆。酵母人工染色体(YAC)。一旦鉴别出足够小的、含有BRCA1基因座的区域,便可以通过鉴别一套覆盖该区域的重叠YAC而物理性分离该区域的DNA。有用的YAC可从已知的文库中分离,例如St.Louis和CEPHYAC文库,这些文库被广泛分发并且每个文库含有约50000个YAC。分离的YAC来自这些可公开获得的文库,并且可从包括MichiganGenomeCenter在内的各种地方获得。很明显,可获得这些YAC的其他人,如果没有本发明的公开内容,是不知道我们选择的特定YAC的价值的,因为他们不知道哪些YAC在含有BRCA1基因座的最小区域之内,哪些在该最小区域之外。粘粒、P1和BAC克隆。在本发明中,通过获得粘粒、P1和BAC克隆来覆盖该区域是有利的。与YAC插入片段相比,这些尺寸更小的插入片段可以更有用地用作特异的杂交探针。此外,具有克隆于细菌细胞中而不是酵母细胞中的DNA,可以大大增加操作感兴趣DNA的方便程度,并改善杂交分析中信号-噪音比。对于YAC的粘粒亚克隆,用限制酶Sau3A部分消化DNA,然后克隆入pWE15粘粒载体(Stratagene,目录#1251201)的BamHI位点。含有人序列的粘粒的筛选如下进行与人重复DNA(如Gibco/BRL,人C0t-1DNA,目录5279SA)的杂交,然后用各种技术进行指纹分析,如实施例中详细所述。通过筛选用人全基因组构建的、具有特定的来自YAC、粘粒或P1和BAC的序列标记位点(STS),获得P1和BAC克隆,并如本文所述进行分离。这些P1、BAC和粘粒克隆用散布重复序列(interspersedrepetitivesequence,简称IRS)PCR和/或限制酶消化,随后进行凝胶电泳并比较形成的DNA片段(“指纹”)而加以比较(Maniatis等人,1982)。克隆还可用STS的存在与否进行定性。指纹用于确定一套重叠的毗连克隆,这套克隆覆盖该区域但又不过多,在本文中被称为“最少砖块道路”。这种最少砖块道路构成了随后鉴别起源于BRCA1基因座的cDNA的实验基础。P1和BAC克隆对空隙的覆盖。为了用基因组克隆覆盖已鉴别的粘粒之间BRCA1毗连群(contig)中的任何空隙,使用在P1和BAC载体中的克隆(它们含有比P1的粘粒约大2倍的基因组DNA插入片段并且也比BAC的还大)(Sternberg,1990;Sternberg等人,1990;Pierce等人,1992;Shizuya等人,1992)。由GenomeSciences使用我们提供的用于筛选的PCR引物而分离P1克隆。BAC是在MelSimon博士的实验室中通过杂交技术提供的。使用P1克隆的方案也允许用不来自YAC的一套独立克隆来覆盖基因组区域。这保留了在YAC中没有被检测到的其他缺失的可能性。这些来自P1克隆的新序列提供了进一步筛选候选基因的材料,如下所述。分离基因有许多技术可用于测试基因组克隆中是否存在可能是人们想要分离的基因座编码序列的候选序列,其中包括但并不限于a.动物印迹b.鉴别HTF岛c.外显子捕获d.将cDNA与粘粒或YAC杂交e.筛选cDNA文库(a)动物印迹。第一种技术是将粘粒与Southern印迹杂交以鉴别那些进化上保守,从而会对来自与人亲缘关系不同的物种(如猴、牛、鸡、猪、小鼠和大鼠)的DNA给出阳性杂交信号的DNA序列。含有来自各种物种的这种DNA的Southern印迹是可购得的(Clonetech,目录7753-1)。(b)鉴别HTF岛。第二种技术涉及找到富含核苷酸C和G的区域,这种区域常常在编码序列旁边或之中。这种序列被称为HTF(HpaI小片段,HpaItinyfragment,简称HTF)或CpG岛,因为对含有CpG二聚体的位点特异的限制酶在该区域会频繁地切割(Lindsay等人,1987)。(c)外显子捕获。第三种技术是外显子捕获,该方法鉴别基因组DNA中含有剪接部位从而可能含有基因编码序列的序列。外显子扩增(Buckler等人,1991)被用于从上述的DNA克隆中选择和扩增外显子。外显子的扩增基于选择出位于功能性5′和/或3′剪接位点两侧的RNA序列。外显子扩增产物被用于筛选乳房cDNA文库以鉴别一些可实际操作的候选基因供进一步研究。外显子捕获还可用计算机程序或软件捕获法在测序过的DNA小片段上进行。(d)将cDNA与粘粒、P1、BAC或YAC杂交。第四种方法是选择性富集技术的改进技术,它采用cDNA与粘粒、P1、BAC或YAC的杂交,从而允许转录序列被鉴别出并且从克隆的基因组DNA中回收(Kandpal等人,1990)。出于本目的而改进的选择性富集技术,涉及将来自YAC中的BRCA1区域的DNA与柱基质结合,然后从相关文库中选择出与结合的DNA发生杂交的cDNA,随后通过扩增和纯化结合的DNA,从而大大富集由克隆基因组DNA所代表区域的cDNA。(e)鉴别cDNA。第五种技术是鉴别对应于BRCA1基因座的cDNA。使用用上述任何技术选择的、含有假定编码序列的杂交探针,来筛选各种文库,包括乳房组织cDNA文库、卵巢cDNA文库和任何其他必要的文库。直接选择cDNA主题中另一种变化形式也被用于发现BRCA1的候选基因(Lovett等人,1991;Futreal,1993)。该方法使用粘粒、P1或BAC的DNA作为探针。探针DNA用切成平末端的限制酶如HaeIII消化。再将双链衔接头(adapter)连于DNA并作为随后PCR扩增反应中引物的结合位置(PCR反应中使用生物素化的引物)。靶cDNA的产生是用组织样品如乳房组织的mRNA,通过随机引发或寡聚(dT)引发第一条链的合成然后再合成第二条链。使cDNA末端成平端,再连于双链衔接头。这些衔接头作为PCR的扩增位点。使靶序列和探针序列变性,然后与人C0t-1DNA混合以封闭重复序列。在高C0t-1/2值下进行溶液杂交,以保证稀少的靶cDNA分子发生杂交。退火后的材料再用抗生物素蛋白珠进行捕获,在高严紧条件下洗涤,保留的cDNA被洗涤并用PCR扩增。选择出的cDNA再进行进一步的富集处理,然后克隆入质粒载体以供分析。测试cDNA的候选性通过在从患病亲缘族成员中抽提出的DNA中发现一些序列,它们会形成异常BRCA1基因产物或异常水平的BRCA1基因产物,从而获得了cDNA是BRCA1基因座的证据。这种BRCA1易患性等位基因会在大亲缘族中与疾病一起分离。它们在患乳房癌和卵巢癌的非亲缘族个体中的存在频率远高于一般人群中的个体。最后,因为肿瘤经常在基因座发生体细胞突变(而在其他情况下是种系突变),所以我们预计,正常的种系BRCA1等位基因突变成与从肿瘤组织中抽提DNA中BRCA1易患性等位基因相同或相似的序列。无论人们是将来自肿瘤组织的BRCA1序列与来自同一个体的种系BRCA1等位基因相比,还是人们将来自癌肿病例的种系BRCA1等位基因与那些没有患病个体的等位基因相比,关键是发现足够严重从而可导致基因产物正常功能发生明显崩溃的突变。这些突变可有多种形式。最严重的形式是移码突变或大的缺失,这样造成基因编码异常蛋白或者显著改变蛋白质表达的蛋白。稍不严重的破坏性突变包括小的框架内缺失和非保守碱基对置换,这对产生的蛋白质有显著影响如半胱氨酸残基的改变、从碱性氨基酸变为酸性氨基酸或相反的变化、从疏水性氨基酸变为亲水性氨基酸或相反的变化、或其他影响蛋白质二级、三级或四级结构的突变。沉默突变或其他造成保守氨基酸置换的突变一般预计不会完全破坏蛋白质功能。根据本发明的诊断和预后方法,可检测野生型BRCA1基因座的改变。此外,该方法的操作可通过检测野生型BRCA1基因座并证实在BRCA1基因座不具有癌肿的倾向性。“野生型基因的改变”包含所有形式的突变,包括在编码区域和非编码区域的缺失、插入和点突变。缺失可以是整个基因或只是部分基因的缺失。点突变可以造成终止密码子、移码突变或氨基酸置换。体细胞突变是仅发生在某些组织如肿瘤组织中的突变,不会在种系中遗传。种系突变可以在任一身体组织中找到而且是遗传的。若仅有一个单一等位基因呈体细胞突变,那么说明是处于早期瘤形成状态。然而,若两个等位基因都突变,那么说明是处于晚期瘤形成状态。因此,BRCA1突变的发现可以提供诊断和预后信息。可以对没有缺失的一个BRCA1等位基因(即在作为携带BRCA1缺失染色体的姐妹染色体上的BRCA1等位基因)进行筛选,以确定是否有其他的突变如插入、小缺失和点突变。据信,在肿瘤组织中发现的许多突变导致BRCA1基因产物表达下降。但是,导致无功能的基因产物的突变也会产生癌肿。点突变事件可以发生在调控区域如在基因的启动子中,从而导致mRNA表达的消失或下降。点突变还会破坏适当的RNA加工,从而导致BRCA1基因产物表达的消失或者导致mRNA稳定性或翻译效率的下降。有用的诊断技术包括,但并不限于荧光原位杂交(FISH)、直接DNA测序、脉冲电场凝胶电泳(PFGE)分析、Southern印迹分析、单链构象分析(SSCA)、核糖核酸酶(RNase)保护测定、等位基因特异的寡核苷酸(ASO)、点杂交分析和聚合酶链反应-单链构象多态性(PCR-SSCP),下文将更详细地描述。患癌肿如乳房癌和卵巢癌以及此处指出的其他癌肿的倾向性,可以通过测试任何人组织中BRCA1基因的突变而确定。例如,一个遗传有种系BRCA1突变的人将易患癌肿。这一点可以通过测试来自该个体的任何身体组织中的DNA而确定。最简单地,可以抽取血液并且从血细胞中抽提出DNA。此外,通过检测胎儿细胞、胎盘细胞或羊水细胞是否有BRCA1基因的突变可以进行产前诊断。野生型BRCA1等位基因的改变(例如由点突变或缺失而造成的)可以用此处所述的任一手段检测出。有数种方法可用于检测DNA序列变化。直接DNA测序,无论手工测序还是自动荧光测序都能检测序列变化。对于象BRCA1那么大的基因,手工测序非常费力,但是在最佳条件下在基因编码序列中的突变很少被漏检。另一种方法是单链构象多态性分析(SSCA)(Orita等人,1989)。该方法不检测所有的序列变化,尤其当DNA片段大于200bp时,但是可优化以检测大多数DNA变化。检测灵敏度的下降是不利的,但是SSCA带来的更高的处理能力使它成为一种有吸引力的、有用的替代直接测序的方法,用于基础研究的检测突变。在SSCA凝胶上迁移率(泳动率)改变的片段再被测序以确定DNA序列改变的确切本质。其他基于检测两条互补DNA链之间的不匹配的方法,包括夹子变性凝胶电泳(clampeddenaturinggelelectrophoresis,简称CDGE)(Sheffield等人,1991)、异源双链分析(HA)(White等人,1992)和化学错配切割(chemicalmismatchcleavage,简称CMC)(Grompe等人,1989)。上述方法中没有一种可检测大缺失、重复或插入,也不能检测影响蛋白质表达或转录的调控突变。其他可检测这些类型突变的方法如蛋白质截短分析或不对称分析,只能检测特殊类型的突变而不能检测错义突变。对于目前已有的检测DNA序列变化的方法回顾,可在最近Grompe(1993)的总结中找到。一旦知道了一个突变,那么便可用等位基因特异性检测方法如等位基因特异性寡核苷酸(ASO)杂交术来快速筛选大量的其他样品是否有同一突变。为了在组织中检测野生型BRCA1基因的改变,须将该组织分离出而不含周围正常组织。富集含肿瘤细胞的组织制品的方法是本领域中公知的。例如,可以从石蜡或低温恒温器的切段中分离组织。还可以用流式细胞计量术将癌肿细胞与正常细胞分开。这些技术以及其他将肿瘤细胞和正常细胞分开的技术是本领域中公知的。如果肿瘤组织被正常细胞严重污染,那么突变的检测将变得更困难。一种检测DNA序列多态性的快速的初步分析法是观察一系列用一个或多个限制酶、更佳地是用大量限制酶消化的DNA的Southern印迹。每张印迹片含有一系列的正常个体和一系列的癌肿病例、肿瘤、或两者。显示出杂交片段的Southern印迹(当用靠近或含有BRCA1基因座的序列作为探针杂交时,在长度上会与对照DNA有差别。)表明可能存在一个突变。如果使用会产生非常大的限制性片段的限制酶时,那么可以使用脉冲电场凝胶电泳(PFGE)。点突变的检测,可以用本领域中公知的技术进行BRCA1等位基因的分子克隆并对该等位基因测序而实现。或者,可以用已有技术对来自肿瘤组织的基因组DNA制品直接扩增基因序列。然后再确定扩增序列的DNA序列。有6种已知的、比较完整的但仍不是直接的测试方法可以确定易患性等位基因的存在1)单链构象分析(SSCA)(Orita等人,1989);2)变性梯度凝胶电泳(DGGE)(Wartell等人,1990;Sheffield等人,1989);3)RNase保护测定(Finkelstein等人,1990;Kinszler等人,1991);4)等位基因特异的寡核苷酸(ASO)(Conner等人,1983);5)使用识别核苷酸错配的蛋白质如大肠杆菌mutS蛋白质(Modrich,1991)和6)等位基因特异的PCR(Rano&amp;Kidd,1989)。对于等位基因特异性PCR,使用在其3′端会与特定的BRCA1突变杂交的引物。如果特定的BRCA1突变不存在,则观察不到扩增产物。还可以使用如在欧洲专利申请No.0332435和Newton等人(1989)的文章中公开的扩增不应突变的体系(AmplificationRefractoryMutationSystem,ARMS)。基因的插入和缺失还可以通过克隆、测序和扩增而检测。此外,还可以使用针对该基因或周围标记基因的限制性片段长度多态性(RFLP)探针,以便以多态性片段形式评估等位基因的改变或插入。该方法对于筛选患病个体的亲属是否具有该个体中发现的BRCA1突变特别有用。也可以使用本领域中公知的检测插入和缺失的其他方法。在前三种方法(即SSCA、DGGE和RNase保护测定)中,出现一条新的电泳条带。SSCA检测迁移有所不同的条带,因为序列变化造成单链分子内碱基配对的差别。RNase保护涉及将突变型多聚核苷酸切成两个或多个更小的片段。DGGE是用变性梯度凝胶,检测与野生型序列相比时突变型序列的迁移率。在等位基因特异的寡核苷酸测定中,设计出可以检测特异性序列的寡核苷酸,然后通过检测杂交信号的存在与否而进行分析。在mutS测定中,蛋白质只与由突变型和野生型序列形成的、含有核苷酸错配的异源双链序列结合。根据本发明,错配物是杂合的核酸双链,其中双链之间不是100%互补。缺失、插入、倒位或置换可造成整体同源性的减小。错配检测可以用于检测基因或其mRNA产物中的点突变。虽然这些技术比测序的灵敏度低,但是对于大量的肿瘤样本而言,其操作更为简便。错配切割技术的一个例子是RNase保护法。在本发明的实践中,该方法涉及使用与人野生型BRCA1基因编码序列互补的标记核糖核酸探针。该核糖核酸探针和从肿瘤组织中分离出的mRNA或DNA一起退火(杂交),随后用能够检测双链RNA结构中某些错配的酶核糖核酸酶A(RNaseA)消化。如果RNaseA检测到错配,它就在错配位置将其切割。因此,退火的RNA产物在电泳凝胶基质中分离时,如果错配被RNaseA检测到并切断,那么会观察到一个RNA产物,它比全长的、由核糖核酸探针与mRNA或DNA形成的双链RNA更小。核糖核酸探针不必是全长的BRCA1mRNA或基因,它可以是它们的一个片段。如果核糖核酸探针仅含有BRCA1mRNA或基因的片段,那么需要用大量的这些探针来筛选整个mRNA序列是否存在错配。按类似的方式,通过酶法或化学方法的切割,可以使用DNA探针来检测错配。如参见Cotton等人,1988;Shenk等人,1975;Novack等人,1986。或者,通过错配双链相对于正确配对双链的电泳迁移率(泳动率)的改变而检测错配。如参见Cariello,1988。用核糖核酸探针或DNA探针时,在杂交之前用PCR(见下文)扩增含有突变的细胞mRNA或DNA。用Southern杂交法也可检测BRCA1基因DNA的变化,尤其当变化是大的重排如缺失和插入时。也可以用等位基因特异性探针筛选用PCR扩增的BRCA1基因DNA序列。这些探针是核酸寡聚体,每种含有一个携带已知突变的BRCA1基因序列的区域。例如,一个寡聚体可以长约30核苷酸,并且对应于一部分BRCA1基因序列。通过使用一组这种等位基因特异的探针,便可以筛选PCR扩增产物,从而确定在BRCA1基因中是否存在已确定的突变类型。例如可以在尼龙滤膜上用扩增的BRCA1序列和等位基因特异性探针进行杂交。在严紧杂交条件下与特定的探针发生杂交表示,在这种肿瘤组织中存在与等位基因特异性探针相同类型的突变。对于候选基因座突变的最明确的测试方法是直接比较癌肿病人和对照人群的基因组BRCA1序列。或者,人们可以用PCR方法扩增后对信使RNA进行测序,从而不必确定候选基因的外显子结构。癌肿病人在BRCA1编码区域之外的突变可以通过检测BRCA1基因附近或内部的非编码区域如内含子和调控序列而检测出。表明非编码区域的突变是至关重要的早期证明来自Northern印迹实验,该实验揭示出与对照个体相比,在癌肿病人中有大小异常或高丰度的信使RNA分子。BRCA1mRNA表达的改变可以用本领域中公知的技术进行检测。其中包括Northem印迹分析、PCR扩增和RNase保护法。mRNA表达的减少表明野生型BRCA1基因发生了改变。还可以通过筛选野生型BRCA1蛋白质的改变而检测野生型BRCA1基因的改变。例如,可以使用具有针对BRCA1的免疫反应性单克隆抗体来筛选组织。缺乏相应的抗原便表示有BRCA1突变。也可以使用对突变型等位基因产物特异的抗体来检测突变型BRCA1基因产物。这些免疫学测定可以以本领域中公知的方便方式进行。其中包括Western印迹、免疫组织化学测定和酶联免疫吸附测定(ELISA)。任何检测BRCA1蛋白质改变的方法都可以用于检测野生型BRCA1基因的改变。可以使用功能测定法如蛋白质结合确定法。此外,可以使用检测BRCA1的生物化学功能的分析方法。寻找到突变型BRCA1基因产物就表示存在野生型BRCA1基因的改变。还可以在其他的人体样品如血清、粪便、尿液和唾液中检测突变型BRCA1基因或基因产物。可以将上述的检测组织中突变型BRCA1基因或基因产物的相同技术应用于其他的人体样品。癌肿细胞会从肿瘤上脱落下来从而出现在这些人体样品中。此外,BRCA1基因产物本身会分泌入细胞外空间,从而甚至在没有癌肿细胞的这些人体样品中被找到。通过对这些人体样品进行筛选,可以对许多种癌肿进行早期诊断。另外,可以更容易地通过测试人体样品中是否存在突变型BRCA1基因或基因产物而监测化疗或放疗的进展。本发明的诊断方法还适用于任何一种在肿瘤发生中BRCA1发挥作用的肿瘤。本发明的诊断方法对于医疗人员很有用,能使他们决定适当的治疗方案。本发明的引物对可用于通过PCR确定某一特定BRCA1等位基因的核苷酸序列。单链DNA引物对可以与染色体17q21上的BRCA1基因内部或周围的序列进行退火,以便引发BRCA1基因本身的DNA合成扩增。整套的这些引物可以合成所有的BRCA1基因编码序列(即外显子)的核苷酸。更佳地,一套引物可以合成内含子和外显子序列。也可以使用等位基因特异的引物。这些引物只与特定的BRCA1突变型等位基因发生退火,从而只能扩增出以突变型等位基因作为模板的产物。为了便于随后的扩增序列克隆,引物可以在其5′端含有限制酶切位点序列。因此除少数形成限制性酶切位点所需的核苷酸外,所有的引物核苷酸来自BRCA1序列或靠近BRCA1的序列。这些酶和酶切位点是本领域中公知的。引物本身可以用本领域中公知的技术合成。一般可以使用市售的寡核苷酸合成仪制备引物。根据SEQIDNO1所示的BRCA1开放阅阅读框架,设计特定的引物是本领域中的技术人员所能胜任的。本发明提供的核酸探针能用于许多目的。如上所述,它们可以用于与基因组DNA的Southern杂交和用于RNase保护法以检测点突变。这些探针还可以用于检测PCR扩增产物。使用其他技术,它们还可以用于检测BRCA1基因或mRNA的错配。已经发现,具有野生型BRCA1基因的个体没有由BRCA1等位基因导致的癌肿。但是,干扰BRCA1蛋白功能的突变与癌肿的形成有关。因此,改变的(或突变型)BRCA1基因(它产生功能丧失或功能改变的蛋白质)的存在,与癌肿的高风险之间直接相关。为了检测BRCA1基因突变,制备生物样品并分析被分析的BRCA1等位基因序列和野生型BRCA1等位基因序列之间的差别。用上述的任何一种技术可以先鉴别出突变型BRCA1等位基因。然后再对突变型等位基因进行测序以鉴别特定等位基因的具体突变类型。或者,突变型BRCA1等位基因可先通过用常规技术鉴别出突变型(改变的)BRCA1蛋白而鉴别出。突变型等位基因再测序以鉴别出各等位基因的具体突变类型。这些突变,尤其是那些导致BRCA1蛋白功能改变的突变,接着被用于本发明的诊断和预后方法。定义本发明使用下列定义“多聚核苷酸的扩增”采用诸如聚合酶链反应(PCR)、连接扩增(或称为连接酶链反应,LCR)和基于使用Q-beta复制酶的扩增方法。这些方法是公知的而且在本领域中被广泛使用。例如参见美国专利4,683,195和4,683,202以及Innis等人,1990(PCR)和Wu等人,1989a(LCR)。用于进行PCR的试剂和硬件已商品化。用于扩增BRCA1区域序列的引物最好互补于并且特异性地杂交于BRCA1区域中的序列或者界定靶区域的区域序列。用扩增方法产生的BRCA1序列可以直接测序。或者,扩增的序列可以在序列分析之前先被克隆,但该方法稍不可取。对用酶法扩增的基因组片段进行直接克隆和测序分析的方法已由Scharf(1986)描述过。“被分析的多聚核苷酸”和“被分析的链”指单链或双链多聚核苷酸,它可能包含一段靶序列而且存在于各种不同类型的样品(包括生物样品)中。“抗体”。本发明还提供了能够特异性地与BRCA1多肽或其片段结合、或者与BRCA1区域的多聚核苷酸序列(特别是BRCA1基因座或其部分)结合的多克隆和/或单克隆抗体、及其片段、以及其免疫结合等价物。术语“抗体”指均一的分子统一体或由多种不同的分子统一体组成的混合物如血清产物。多肽可以在肽合成仪上合成并偶联于载体分子(如匙孔血蓝蛋白),然后注入兔子数月。测试兔血清对BRCA1多肽或片段的免疫反应性。可以通过将蛋白质多肽、融合蛋白质或其片段注入小鼠而制备单克隆抗体。用ELISA筛选单克隆抗体,然后测试其与BRCA1多肽或其片段的特异免疫反应性。参见Harlow&amp;Lane,1988。这些抗体可以用于分析和作为药物。一旦获得足够量的所需多肽,就可以将其用于各种用途。典型的用途是用于产生特异性结合的抗体。这些抗体可以为多克隆或单克隆抗体,而且可以用本领域中公知的技术在体外或体内产生。对于产生多克隆抗体,可以选择合适的靶免疫体系,一般是小鼠或兔。由适用于动物的方法以及免疫学家熟知的其他参数限定方式,然后按此方式将基本纯化的抗原供给免疫体系。典型的注射位置是爪垫、肌内注射、腹膜内注射或皮下注射。当然,也可以用其他动物替代小鼠或兔。然后用本领域中公知的技术纯化多克隆抗体,再调节所需的特异性。免疫应答通常用免疫测定进行分析。一般地这些免疫测定涉及对一种抗原源进行某种程度的纯化,这种抗原源由相同的细胞产生并且处于相同的抗原形式。各种免疫测定方法是本领域中公知的。如参见Harlow&amp;Lane,1988或Goding,1986。典型地,用标准程序如Harlow&amp;Lane(1988)或Goding(1986)所述的程序,可以制得亲和力为10-8M-1或更佳地为10-9至10-10M-1或更高的单克隆抗体。简而言之,可以选用合适的动物,然后采用所需的免疫方案。经过适当的时间,取出动物的脾脏,然后在合适的选择条件下,将个体脾细胞与无限增殖化的骨髓瘤细胞融合。随后,通过克隆分离细胞,并且测试各克隆的上清液以确定是否产生适当的、特异性针对所需抗原区域的抗体。其他合适的技术涉及在体外将淋巴细胞暴露于抗原性多肽,或者选择噬菌体或类似载体中的抗体库。参见Huse等人,1989。本发明的多肽和抗体可加以修饰或不加修饰地使用。多肽和抗体常常可以通过共价或非共价地连接一种提供可检测信号的物质而被标记。大量不同的标记物和连接技术是公知的,并且在科学和专利文献中被广泛地报道。合适的标记物包括放射性核素、酶、底物、辅助因子、抑制剂、荧光剂、化学发光剂、磁性颗粒等。讲授使用这些标记物的专利包括美国专利3,817,837;3,850,752;3,939,350;3,996,345;4,277,437;4,275,149和4,366,241。同样,还可以产生重组免疫球蛋白(参见美国专利4,816,567)。“结合配偶体”指能够高特异性地与配体分子结合的分子,如抗原和抗原特异性抗体或者酶及其抑制剂。通常地,特异性结合配偶体必须以足够的亲和力进行结合从而在分离条件下固定被分析物拷贝/互补双链(在进行多聚核苷酸杂交时)。特异性的结合配偶体是本领域中熟知的,例如包括生物素和抗生物素蛋白或链球菌抗生物素蛋白(streptavidin)、IgG和蛋白质A、无数已知的受体-配体偶联物和互补的多聚核苷酸链。在互补的多聚核苷酸结合配偶体中,配偶体长度通常地至少约15碱基,而且长度至少可以为40碱基。多聚核苷酸可以由DNA、RNA或合成的核酸类似物构成。“生物样品”指来自某个体的、可能含有被分析的多聚核苷酸或多肽的组织或体液样品,它包括但并不限于例如血浆、血清、脊髓液、淋巴液、皮肤外表、呼吸道、肠道和生殖-泌尿道、眼泪、唾液、血细胞、肿瘤、器官、组织和体外细胞培养成分的样品。如此处所用,术语“诊断”或“预后”,当用于有关肿瘤形成的上下文时,被用于表示1)对瘤形成损伤进行分类,2)确定瘤形成的严重性或3)在治疗之前、之中或之后监视疾病的进展。“编码”。如果当某多聚核苷酸在其天然状态或用本领域中技术人员熟知的方法操作时,可以被转录和/或被翻译从而产生mRNA或多肽或其片段,那么则称该多聚核苷酸“编码”多肽。反义链是该核酸的互补物,可以从其推导出编码序列。“分离的”或“基本纯的”。“分离的”或“基本纯的”核酸(如RNA、DNA或混合聚合物)是基本上与在自然状态下伴随天然的人序列或蛋白质的其他细胞组份(如核糖体、聚合酶、许多其他的人基因组序列及蛋白质)相分离的核酸。该术语包括从其自然存在的环境中取出的核酸序列或其蛋白质,并且包括重组的或克隆的DNA分离物以及化学合成的类似物或者通过异源体系而生物合成的类似物。“BRCA1等位基因”指正常的BRCA1基因座的等位基因以及携带变异的等位基因,这些变异使得个体倾向在许多部位患癌肿,其中包括乳房癌、卵巢癌、结肠直肠癌和前列腺癌。这种倾向性等位基因还被称为“BRCA1易患性等位基因”。“BRCA1基因座”、“BRCA1基因”、“BRCA1核酸”或“BRCA1多聚核苷酸”都指位于BRCA1区域的多聚核苷酸,它们会在正常的组织中表达,其中某些等位基因会使个体倾向患乳房癌、卵巢癌、结肠直肠癌和前列腺癌。BRCA1基因座的突变涉及到其他肿瘤的引发和/或进展。该基因座部分地由导致个体倾向患癌肿的突变所表示。这些突变位于本文下述的BRCA1区域中。BRCA1基因座包括编码序列、间插序列和控制转录和/或翻译的调控元件。BRCA1基因座包括所有的等位基因的DNA序列变异形式。当这些术语用于核酸时,是指编码BRCA1多肽、片段、同系物或变异体(例如包括融合蛋白或缺失蛋白)的核酸。本发明的核酸具有或者衍生自或者类似于天然BRCA1编码基因的序列,或者具有基本上与天然BRCA1编码基因或其部分同源的序列。BRCA1多肽的编码序列显示于SEQIDNO1,而氨基酸序列显示于SEQIDNO2。本发明的多聚核苷酸组合物包括RNA、cDNA、基因组DNA、合成形式和混合聚合物,可以是有义链或反义链,而且可以是用化学或生化方法修饰过的或者含有非天然的或衍生的核苷酸碱基,这些对本领域中的熟练技术人员而言是显而易见的。这些修饰包括例如,标记、甲基化、用类似物置换一个或多个天然核苷酸、核苷酸之间的修饰如不带电荷的键连接(如膦酸甲酯、磷酸三酯、磷酸酰胺化物、甲氨酸酯等)、带电荷的键连接(如硫代磷酸酯、二硫代磷酸酯等)、侧链部分(如多肽)、嵌入剂(intercalator)(如吖啶、补骨脂内酯等)、螯合剂、烷基化剂和修饰的键连接(如α正位异构化(anomeric)核酸等)。还包括合成的分子,该分子能通过氢键和其他化学相互作用模拟多聚核苷酸与指定序列结合。这类分子是本领域中熟知的,例如包括那些在分子骨架中用肽键替换磷酸键的分子。本发明提供含有全部或部分BRCA1区域的重组核酸。重组构建物能在宿主细胞中自主复制。或者,重组构建物可整合入宿主细胞的染色体DNA中。这种重组的多聚核苷酸包括基因组的、cDNA的、半合成的或合成的多聚核苷酸,该多聚核苷酸因其来源或因操作而呈现1)并不与全部或部分在天然状态下与其相连的多聚核苷酸相连;2)连接于在天然状态下并不与其相连的多聚核苷酸;或者3)自然界本不存在。因此,本发明提供的重组核酸含有自然界原本不存在的序列。尽管可以使用野生型序列,但是野生型序列常常被加以改变,如通过缺失、置换或插入。可以使用不同类型的cDNA或基因组文库作为本发明的天然核酸源进行筛选,也可以通过使用PCR等技术在基因组DNA或其他天然来源中扩增存在的序列而获得这些核酸。cDNA文库的选择通常对应于富含所需蛋白质的mRNA的组织源。一般噬菌体文库较佳,但是也可以使用其他文库。文库的克隆被涂布于平板上,转移至基膜上进行筛选,变性并利用探针检测是否存在所需的序列。用于本发明的DNA序列通常含有至少5个密码子(15个核苷酸),更通常地至少7-15个密码子,最佳地至少35个密码子。可以存在一个或多个内含子。核苷酸的数目通常是能够与BRCA1编码序列特异性地杂交的成功探针所需的最小长度左右。有关核酸操作的技术例如在Sambrook等人,1989或Ausubel等人,1992中有广泛的描述。使用这些技术的试剂,如限制酶等是本领域中熟知的,而且可以从供应商如NewEnglandBioLabs、BoehringerMannheim、Amersham、PromegaBiotec、U.S.Biochemicals、NewEnglandNuclear和大量其他供应商处购得。用于产生本发明的融合蛋白的重组核酸序列可以从天然的或人工合成的序列中衍生而得。许多天然的基因序列可以用合适的探针从基因组文库中或者从不同的cDNA中获得。参见GenBank,NationalInstitutesofHealth。“BRCA1区域”指由标记tdi1474和U5R所界定的人染色体17q21部分。该区域含有BRCA1基因座,包括BRCA1基因。如本文所用,术语“BRCA1基因座”、“BRCA1等位基因”和“BRCA1区域”都指含有该基因座、等位基因或区域的双链DNA,以及含有该基因座、等位基因或区域的单链DNA。如本文所用,“部分”BRCA1基因座或区域或等位基因被定义为最小大小至少约8个核苷酸,或较佳地约15个核苷酸或更佳地至少约25个核苷酸,并且最小大小可以是至少约40个核苷酸。“BRCA1蛋白质”或“BRCA1多肽”指由BRCA1基因座编码的蛋白质或多肽、其变异蛋白或其片段。术语“多肽”指氨基酸的聚合物或其等价物,并不指具有特定长度的产物;因此,肽、寡肽和蛋白质都被包括在多肽这一定义中。该术语并不排除多肽的修饰作用如糖基化、乙酰基化、磷酰基化等。包括在该定义中的有含有一个或多个氨基酸类似物(包括非天然氨基酸等)的多肽、具有取代键以及本领域中已知的其他天然或非天然修饰的多肽。一般地,这些多肽至少具有约50%、较佳地大于约90%、更佳地至少约95%与天然BRCA1序列的同源性。还包括由在高严紧或低严紧条件下与BRCA1编码核酸杂交的DNA所编码的蛋白质,以及用针对BRCA1蛋白质的抗血清而获得的密切相关的多肽或蛋白质。用于比较同源性的多肽序列长度通常至少约16个氨基酸,常常至少约20个残基,更通常地至少约24个残基,典型地至少约28个残基,而且更佳地大于约35个残基。“可操作(地)相连(于)”是指这样一种并列关系,其中所述组份所处的关系使得它们可以按预期的方式发挥功能。例如,如果启动子可以引起一段编码序列转录或表达的话,则该启动子是可操作地相连于编码序列的。“探针”。导致易患某些癌肿或者与大多数癌肿关联的BRCA1等位基因的相关多聚核苷酸多态性,可以通过与某多聚核苷酸探针的杂交反应进行检测,该探针在严紧至中等严紧杂交和洗涤条件下能够与靶序列形成稳定的杂交体。如果预期探针完全与靶序列互补,那么可以使用严紧条件。如果预期存在某些错配,例如预期变异体与探针不是完全互补的时候,那么可以降低杂交的严紧性。选择的条件应消除非特异的/偶然的结合,即应降低背景。因为这种显示会确定出中性DNA多态性和突变,所以,还需要进一步分析以表明BRCA1易患性等位基因的检测结果。用于BRCA1等位基因的探针可以从BRCA1区域或其cDNA序列获得。探针可以具有任何合适长度,它可以横跨BRCA1区域的全部或部分,而且可以特异性地与BRCA1区域杂交。如果靶序列含有与探针相同的序列,那么探针可以短一些,如约为8-30碱基对,因为即使在严紧条件下杂交体也是相对稳定的。如果预期与探针之间有某些程度的错配,即如果怀疑探针会与变异体区域杂交,那么可以采用较长的、与靶序列发生必要特异性杂交的探针。探针包括连于标记物或报道分子的分离多聚核苷酸,而且可以使用标准方法用于分离其他的、具有序列相似性的多聚核苷酸序列。对于探针的制备和标记,请参见Sambrook等人,1989或Ausubel等人,1992。其他类似的多聚核苷酸可以通过使用同源的多聚核苷酸加以选择。或者,编码这些多肽或类似多肽的多聚核苷酸可以通过利用遗传密码子的丰余性加以合成或选择。可以引入不同的密码子置换,例如沉默变化(从而产生不同的限制性位点)或优化某特定体系的表达。可以引入突变以修饰多肽的性能,也许会改变配体结合的亲和力、链间的亲和力、多肽降解或转换率(turnoverrate)。本发明的探针含有合成寡核苷酸或其他多聚核苷酸,它们可以衍生自天然存在的或重组的单链或双链多聚核苷酸,或者通过化学方式合成。探针可以通过缺口平移、Klenow填入法或其他本领域中已知的方法进行标记。最好选用编码BRCA1的多聚核苷酸序列作为探针,该探针具有至少约8个核苷酸,通常地至少约15个核苷酸而且小于约6千碱基对,通常地小于约1.0千碱基对的多聚核苷酸序列部分。探针还可以用于确定细胞或组织中是否存在编码BRCA1的mRNA。对于BRCA1多肽或其片段,本发明还提供了“蛋白质修饰形式或片段”,它们一级结构序列基本同源,但是包括例如,在体内或体外的化学和生化的修饰形式,以及掺入非常见氨基酸的形式。这些修饰包括乙酰基化、羧基化、磷酰基化、糖基化、遍在蛋白化(ubiquitination)、如用放射性核素进行标记以及各种酶的修饰,这些都是本领域中的技术人员能轻易理解的。大量不同的标记多肽的方法以及大量不同的用于该用途的取代物或标记物是本领域中熟知的,其中包括放射性同位素如32p、可与标记的抗配体(如抗体)结合的配体、荧光团、化学发光剂、酶和作为标记配体的特异性结合配对物的抗配体。标记物的选择取决于所需的灵敏度、与引物偶联的简便性、所要求的稳定性和所能得到的仪器设备。标记多肽的方法是本领域中熟知的。例如参见Sambrook等人,1989或Ausubel等人,1992。除了基本上全长的多肽之外,本发明还提供了具有生物学活性的多肽片段。重要的生物学活性包括配体结合活性、免疫学活性和BRCA1多肽的其他生物学活性。免疫学活性包括靶免疫体系中的免疫原功能,以及具有供结合的免疫表位以作为BRCA1蛋白表位的竞争剂或取代抗原。如本文所用,“表位”(又称为“抗原决定簇”)指多肽的抗原决定簇。一个表位可以含有三个该表位独有的、处于空间构象中的氨基酸。一般地,一个表位由至少5个这样的氨基酸、更常见地由至少8-10个这样的氨基酸构成。确定这些氨基酸的空间构象的方法是本领域中熟知的。对于免疫学的用途,可以使用串联重复的多肽片段作为抗原,从而产生高抗原性的蛋白质。或者,这种多肽可以作为特异性结合的极有效的竞争剂。下文描述特异地针对BRCA1多肽或其片段的抗体的产生过程。本发明还提供了含有BRCA1多肽及其片段的融合多肽。同源多肽可以是在两个或多个BRCA1多肽序列之间的或者在BRCA1序列和相关蛋白质之间的融合物。同样可以构建异源的融合蛋白,它具有衍生蛋白质的复合性能或活性。例如,可以在不同的新融合多肽或片段之间“交换”配体结合域或其他的结构域。这种同源或异源的融合多肽可表现出例如不同的结合强度和特异性。融合配偶体包括免疫球蛋白、细菌β-半乳糖苷酶、trpE、蛋白质A、β-内酰胺酶、α-淀粉酶、乙醇脱氢酶和酵母α接合因子。例如参见Godowski等人,1988。典型地,融合蛋白可以用重组核酸法(如下文所示)或者用化学合成法制得。用于合成多肽的技术在Merrifield,1963中有描述。“蛋白质纯化”指从其他生物材料中如从用重组的编码BRCA1的核酸转化的细胞中,分离出BRCA1多肽的各种不同方法,这些方法是本领域中熟知的。例如,可以用如本发明中提供的抗体,使用免疫亲和色谱法来纯化多肽。各种不同的蛋白质的纯化方法是本领域中熟知的,其中包括在Deutscher,1990和Scopes,1982中所述的方法。术语“分离的”、“基本纯的”、和“基本同质的”可以互换使用,都可用于描述已经与天然状态下伴随它的组份分离开的蛋白质或多肽。当约60-75%的样品具有单一的多肽序列时,该单体蛋白质便是基本纯的。基本纯的蛋白质典型地含有约60-90%(重量/重量)、更通常地约95%而且更佳地超过约99%的蛋白质样品。蛋白质的纯度或同质性可以用多种本领域中熟知的方法表示,如先进行蛋白质样品的聚丙烯酰胺凝胶电泳,然后在对凝胶进行染色之后观察蛋白质样品中的单一多肽条带。对于某些情况,可以用高效液相色谱(HPLC)或其他本领域中熟知的手段来提供更高的分辨率,它们可用于纯化。当BRCA1蛋白质已经与天然状态下伴随它的天然污染物分离开时,则该BRCA1蛋白质就基本上不含与其天然相关的组份了。因此,用化学方法合成的多肽、或者在与天然产生该多肽的细胞不同的细胞体系中合成的多肽是基本上不含与其天然相关的组份。还可以使用本领域中熟知的蛋白质纯化技术,通过分离使蛋白质基本上不含与其天然相关的组份。如本文所用,作为分离的和操作的基因序列的表达产物而产生的多肽是“分离的多肽”,即使是在同源的细胞类型中表达。人工合成形式或用异源细胞表达的分子本身就是分离的分子。“重组核酸”是天然不存在的核酸,或者是将两个原本分开的序列片段通过人工组合而形成的核酸。该人工组合通常是通过化学合成手段,或者通过对分离的核酸片段进行人工操作(例如通过遗传工程技术)而实现。典型地,当需要引入或去除一个序列识别位点时,常常这样做以便用编码相同的或保守性的氨基酸的丰余密码子来置换某一密码子。或者,可以将具有所需功能的核酸片段合并起来产生所需的功能组合。“调控序列”指那些通常位于某基因座编码区域的100kb之内(但是也可距编码区域更远)、影响基因表达(包括基因的转录和信使RNA的翻译、剪接、稳定性等)的序列。“基本同源或类似”。如果与其他核酸(或其互补链)最佳地进行排列(具有适当的核苷酸插入或缺失)时,核苷酸序列的相同程度有至少约60%的核苷酸碱基,通常地至少约70%的核苷酸碱基,更通常地至少约80%,较佳地至少约90%,更佳地至少约95-98%的核苷酸碱基时,那么我们称该核酸或其片段与另一核酸“基本同源”(或“基本类似)。或者,当核酸或其片段在选择性杂交条件下能够与另一核酸(或其互补链)或与某一链或其互补链杂交,那么就存在基本同源或类似性。当发生比特异性完全缺乏更具选择性的杂交时,存在着杂交的选择性。典型地,当在一段至少约14个核苷酸的区间中有至少约55%的同源性、较佳地至少约65%、更佳地至少约75%、最佳地至少约90%的同源性时,会发生选择性的杂交。参见Kanehisa,1984。如本文所述,比较同源性的长度可以在更长的区段进行。在某些实施例中经常是至少约9个核苷酸长度,通常地至少约20个核苷酸,更通常地至少约24个核苷酸,典型地至少约28个核苷酸,更典型地至少约32个核苷酸,并且更佳地至少约36个核苷酸或更多。除了受到碱基组成、互补链长度和杂交核酸之间核苷酸碱基错配数目等因素影响之外,核酸杂交还受诸如盐浓度、温度或有机溶剂等因素的影响,这一点是本领域中的熟练技术人员所知晓的。严紧的温度条件通常包括超过30℃的温度,典型地超过37℃,更佳地超过45℃。严紧的盐浓度一般小于1000mM,典型地小于500mM,更佳地小于200mM。然而,这些参数的组合比任何单一参数更为重要。例如参见Wetmur&amp;Davidson,1968。探针序列还可以在特定的条件下与双链DNA特异性地杂交,从而形成三股或其他更高级的DNA复合物。这些探针的制备和合适的杂交条件是本领域中所熟知的。当用于多肽时,术语“基本同源”或“基本相同”表示感兴趣的多肽或蛋白质与完整的天然存在的蛋白质或其部分相比,至少约30%相同,通常地至少约70%相同,更佳地至少约95%相同。“基本相似的功能”指相对于野生型BRCA1核酸或野生型BRCA1多肽而言,修饰的核酸或修饰的蛋白质的功能。修饰的多肽基本上与野生型BRCA1多肽同源而且基本上具有相同的功能。修饰的多肽可以具有不同的氨基酸序列和/或含有修饰的氨基酸。除了功能相似性之外,修饰多肽还可以有其他有用的性能,比如更长的半衰期。修饰的多肽的功能(活性)的相似可以与野生型BRCA1多肽的活性相同。或者,修饰的多肽的功能(活性)的相似可比野生型BRCA1多肽的活性更高。修饰的多肽可用常规技术合成,或者用修饰的核酸编码并用常规技术产生。修饰的核酸可用常规技术制备。功能基本上类似于野生型BRCA1基因功能的核酸,可产生上述的修饰蛋白质。典型地,多肽的同源性用序列分析软件确定。例如参见GeneticsComputerGroup(UniversityofWisconsinBiotechnologyCenter,910UniversityAvenue,Madison,Wisconsin53705)的序列分析软件包(SequenceAnalysisSoftwarePackage)。蛋白质分析软件通过指定给各种置换、缺失和其他修饰的同源性数值来匹配相似的序列。典型地保守性置换包括列于下组中的置换甘氨酸、丙氨酸;缬氨酸、异亮氨酸、亮氨酸;天冬氨酸、谷氨酸;天冬酰胺、谷酰胺;丝氨酸、苏氨酸;赖氨酸、精氨酸;以及苯丙氨酸、酪氨酸。多肽“片段”、“部分”是指至少约5-7个连续氨基酸、通常地至少约7-9个连续氨基酸、典型地至少约9-13个连续氨基酸、最佳地至少约20-30个或更多连续氨基酸的一段氨基酸残基。本发明的多肽,如果是可溶的,可以偶联于固相载体,例如硝基纤维素、尼龙、柱填塞材料(如琼脂糖凝胶(Sepharose)珠)、磁性珠、玻璃棉、塑料、金属、聚合物凝胶、细胞或其他的基质。这些载体可以是珠、槽(well)、浸量尺或膜等形式。“靶区域”指被扩增和/或被检测的核酸区域。术语“靶序列”所指的序列在所需条件下可与探针或引物形成稳定的杂交体。除非另外注明,本发明的实施采用化学、分子生物学、微生物学、重组DNA、遗传学和免疫学的常规技术。例如参见Maniatis等人,1982;Sambrook等人,1989;Ausubel等人,1992;Glover,1985;Anand,1992;Guthrie&amp;Fink,1991。用于人基因作图包括人染色体17q作图的技术和材料的一般性讨论,可参见White&amp;Lalouel(1988)的文章。制备重组的或化学合成的核酸;载体、转化、宿主细胞本发明的大量多聚核苷酸可以通过在适当宿主细胞中的复制而产生。编码所需片段的天然或合成的多聚核苷酸片段可以整合入重组多聚核苷酸构建物中,通常为DNA构建物。该构建物可以引入原核或真核细胞中并在其中复制。一般地,多聚核苷酸构建物适合在单细胞宿主如酵母或细菌中复制,但是也可以将其引入培养的哺乳动物或植物或其他的真核细胞系中(整合或没有整合入基因组中)。对用本发明方法产生的核酸进行纯化的方法,在Sambrook等人,1989或Ausubel等人,1992中有描述。本发明的多聚核苷酸还可以用化学合成的方法产生,例如Beaucage&amp;Carruthers,1981所述的亚磷酰胺法或者Matteucci和Caruthers,1981所述的三酯法,而且可以在商购的自动寡核苷酸合成仪上进行。从化学合成的单链产物基础上获得双链片段,可通过合成互补链然后在合适的条件下使两条链退火,或者通过使用DNA聚合酶和合适的引物序列添加互补链。为了引入原核或真核宿主中而制备的多聚核苷酸构建物,可以含有一个能被宿主识别的复制系统,该系统包括编码所需多肽的多聚核苷酸片段,而且最好含有可操作地相连于多肽编码片段的转录和翻译起始调控序列。表达载体含有复制起始点或自主复制序列(autonomouslyreplicatingsequence,简称ARS)和表达控制序列、启动子、增强子和必要的加工信息位点如核糖体结合位点、RNA剪接位点、聚腺苷酸化位点、转录终止序列和mRNA稳定序列。合适的话,可以含有来自天然BRCA1蛋白质或者来自其他受体或者来自相同或相关物种的分泌型多肽的分泌信号,从而使蛋白质能够通过和/或留在细胞膜,并因此获得其功能性拓扑结构或者从细胞中分泌出去。这些载体可以用本领域中熟知的标准重组技术制备,例如可以参见Sambrook等人,1989或Ausubel等人,1992。应选择合适的启动子和其他必要的载体序列以便其能在宿主中发挥作用,而且合适的话,可含有与BRCA1基因天然相关的序列。细胞系和表达载体的可操作的组合在Sambrook等人,1989或Ausubel等人,1992中有描述;还可以参见Metzger等人,1988。许多有用的载体是本领域中熟知的,而且可以从供应商如Stratagene、NewEnglandBiolabs、PromegaBiotech等处获得。启动子如trp、lac和噬菌体启动子、tRNA启动子和糖酵解酶启动子可以用于原核宿主。有用的酵母启动子包括金属硫蛋白(metallothionein)、3-磷酸甘油酸激酶或其他糖酵解酶如烯醇化酶或甘油醛-3-磷酸脱氢酶、担负利用麦芽糖和半乳糖的酶等的启动子区域。适合用于酵母表达的载体和启动子还在Hitzeman等人,EP73,675A中有进一步描述。合适的非天然哺乳动物启动子包括来自SV40的早期和晚期启动子(Fiers等人,1978)或来自Moloney鼠白血病病毒、鼠肿瘤病毒、鸟肉瘤病毒、腺病毒II、牛乳头状瘤病毒或多瘤的启动子。另外,构建物可以连于可扩增的基因(如二氢叶酸还原酶(DHFR))从而可以产生多拷贝基因。至于合适的增强子和其他的表达控制序列,也可以参见“增强子和基因表达”(EnhancersandEukaryoticGeneExpression),ColdSpringHarborPress,ColdSpringHarbor,NewYork(1983)。尽管这些表达载体可以自主复制,但是它们也可以通过使用本领域中熟知的方法插入到宿主细胞的基因组中再复制。表达和克隆载体可含有供选择的标记基因,该基因编码的蛋白质是用载体转化的宿主细胞存活或生长所必需的。该基因保证只有表达该插入片段的宿主细胞才能生长。典型的选择基因编码下列蛋白质a)提供对抗生素或其他毒性物质如氨苄青霉素、新霉素、氨甲喋呤等的抗性的蛋白质;b)互补营养缺陷型蛋白质或c)提供复合培养基中没有的重要营养成分的蛋白质,例如杆菌D-丙氨酸消旋酶的基因。选择合适的供选择的标记基因取决于所用的宿主细胞,而各种不同宿主的合适标记基因是本领域中所熟知的。含有感兴趣核酸的载体可以在体外转录,然后用熟知的方法例如通过注射(参见T.Kubo等人,1988)将得到的RNA引入宿主细胞,或者也可以用本领域中熟知的方法将载体直接引入宿主细胞,这取决于宿主细胞的类型。这些方法包括电穿孔;采用氯化钙、氯化铷、磷酸钙、二乙氨乙基(DEAE)-葡聚糖或其他物质的转染;微粒轰击(microprojectilebombardment);脂质转染(1ipofection);感染(当载体是感染物例如反转录病毒基因组时)和其他方法。一般地参见Sambrook等人,1989和Ausubel等人,1992。用本领域中任何已知的方法,特别是上述的方法,将多聚核苷酸引入宿主细胞的过程在本文中称为“转化”。已经引入上述核酸的细胞还包括该细胞的后代。大量的本发明核酸和多肽,可以在相容的原核或真核宿主细胞中通过载体或其他表达载体表达而得以制备。最常用的原核宿主是大肠杆菌菌株,尽管其他的原核生物,如枯草杆菌或假单孢菌(属)也可使用。哺乳动物或其他的真核宿主细胞,如酵母、丝状真菌、植物、昆虫或两栖动物或鸟类的宿主细胞,也可以用于产生本发明的蛋白质。哺乳动物细胞的培养增殖是本领域中每个人都熟知的。参见Jakoby和Pastan,1979。常用的哺乳动物宿主细胞系的例子是VERO和HeLa细胞、中国仓鼠卵巢(CHO)细胞和WI38、BHK和COS细胞系。但是熟练的技术人员知道,其他的细胞系也是合适的,可用于提供更高效的表达、所需的糖基化形式或其他特性。根据载体构建的方式,通过使用标记基因而选择克隆。标记基因位于相同或不同的DNA分子上,较佳地在相同的DNA分子上。在原核宿主中,可以通过对诸如氨苄青霉素、四环素或其他抗生素的抗性而选择转化体。根据温度敏感性而产生的特定产物也可以用作合适的标记物。用本发明的多聚核苷酸转化的原核或真核细胞不仅可以用于产生本发明的核酸和多肽,也可以用于研究BRCA1多肽的性质。反义多聚核苷酸序列可用于防止或减弱BRCA1基因座的表达,这一点是本领域中的熟练技术人员所能理解的。例如,可以将含有全部或部分BRCA1基因座序列、或者来自BRCA1区域的其他序列(尤其是位于BRCA1基因座两侧的序列)的多聚核苷酸载体置于反义方向启动子的控制下,并引入细胞。在细胞中,这种反义构建物的表达会干扰BRCA1转录和/或翻译和/或复制。本文所公开的BRCA1基因序列的探针和引物,可以用于在其他物种中鉴别同源的BRCA1基因序列和蛋白质。对于分离出这些物质的物种,可将这些BRCA1基因序列和蛋白质用于本文所述的诊断/预后、治疗和药物筛选方法。使用方法核酸诊断和诊断试剂盒为了检测是否存在使个体易患癌肿的BRCA1等位基因,可以制备生物样品如血液,然后分析是否存在易患性BRCA1等位基因。为了检测是否存在瘤形成、或者先前损伤向恶性发展、或者预后的征兆,可以制备损伤的生物样品,然后分析是否存在BRCA1等位基因。这些测试的结果和解释信息可以提供给卫生保健机构,从而告诉受测试的个体。这些诊断可以由诊断实验室进行,或者可以制造诊断试剂盒并售给卫生保健机构或个人以供自我诊断。起初,筛选方法涉及通过扩增有关的BRCA1序列。在另一本发明的优选例子中,筛选方法是一种不基于PCR的方案。该筛选方法包括本领域中熟知的两步标记扩增技术。PCR和不基于PCR的筛选方案都能以很高的灵敏度检测靶序列。目前最常用的方法是靶序列的扩增。使用聚合酶扩增靶核酸序列。一种特别优选的、聚合酶驱动的扩增反应方法是聚合酶链反应(PCR)。通过聚合酶驱动的扩增循环,聚合酶链反应和其他聚合酶驱动的扩增分析方法可使拷贝数目增加一百万倍以上。一旦被扩增,得到的核酸可以用于测序或者用作DNA探针的底物。当使用探针来检测靶序列的存在时(例如在筛选癌肿的易患性时),可以处理待分析的生物样品(例如血液和血清)以抽提出核酸。样品核酸可以用不同的方法进行制备,以便于靶序列的检测;例如变性、限制性消化、电泳或点杂交。被分析核酸的靶区域通常必须至少部分呈单链状态,以便与探针的靶序列形成杂交体。如果序列本身是单链,那么不需要变性。但是,如果序列是双链,那么序列可能需要变性。可以用本领域中熟知的各种技术进行变性。在会促使探针的靶序列和被分析物中假定的靶序列之间形成稳定杂交体的条件下,将被分析核酸和探针进行孵育。与被分析物结合的探针区域可以被制成与人染色体17q的靶区域完全互补。因此,为了防止假阳性,需要高严紧条件。只有当探针与基因组中单一的染色体区域互补时方使用高严紧条件。杂交的严紧性由杂交和洗涤过程中的众多因素所决定,其中包括温度、离子强度、碱基组成、探针长度和甲酰胺浓度。这些因素在Maniatis等人,1982和Sambrook等人,1989中有总结。在某些情况下,更高级杂交体如三聚体、四聚体等的形成也可以作为检测靶序列的方法。如果存在杂交体,那么形成的杂交体的检测通常通过使用标记探针而实现。或者,探针可以是未标记的,但是可以与直接或间接标记的配体通过特异性地结合而检测出。合适的标记物以及用于标记探针和配体的方法是本领域中熟知的,其中包括可用已知方法(如缺口平移、随机引物法和磷酸根转移法(kinasing))掺入的放射性标记物、生物素、荧光基团、化学发光基团(如二氧杂环丁烷(dioxetane),尤其是触发态二氧杂环丁烷)、酶、抗体等。在这一基本技术框架下的改动是本领域中熟知的,并且包括那些有助于将待检测的杂交体从外源材料中分离出来和/或放大来自标记部分的信号的改动。众多的改动形式总结于Matthews&amp;Kricka,1988;Landegren等人,1988;Mittlin,1989;美国专利4,868,105和EPO出版物No.225,807中。如上所述,非PCR筛选分析方法也在本发明的构思之中。在实施例11中提供了代表性的非PCR程序。在该程序中,将核酸探针(或类似物,例如用膦酸甲酯骨架替换普通的磷酸二酯)与低浓度的DNA靶目标杂交。该探针具有与其共价相连的酶,因而该共价连接不会干扰杂交反应的特异性。接着该酶-探针-偶联物-靶核酸复合物可以与游离的探针-酶偶联物分离,然后加入底物进行酶检测。可以通过显色变化或者灵敏度增高103-106倍的荧光输出量而观察酶活性。对于寡聚脱氧核苷酸-碱性磷酸酶偶联物的制备及其作为杂交探针的用途,可以参见Jablonski等人,1986。两步标记放大技术是本领域中熟知的。这些分析方法基于这样的原理将小配体(如地高辛配基(digoxigenin)、生物素等)连于能够特异性地与BRCA1结合的核酸探针上。代表性的探针列于本申请的表9中,并且还包括对应于SEQIDNO1中3631至3930位核苷酸的核酸探针。等位基因特异性探针也在该例子的构思范围之中,代表性的等位基因特异性探针包括含有总结于本申请表11和12中的倾向性突变的探针。在一个例子中,连于核酸探针上的小配体被抗体-酶偶联物特异性识别。在该例子中,将地高辛配基连于核酸探针上。通过能够使化学发光底物发生转换的抗体-碱性磷酸酶偶联物检测杂交。用于标记该例子中核酸探针的方法,可以参见Martin等人,1990。在另一例子中,小配基被能够特异性地与第一配基复合的第二配基-酶偶联物所识别。这种情况下的一个众所周知的例子是生物素-抗生物素的相互作用。标记核酸探针的方法以及它们在基于生物素-抗生物素分析中的用途,参见Rigby,等人,1977和Nguyen,等人(1992)。同样在本发明构思范围之中的是,本发明的核酸探针分析可以采用能够检测出BRCA1基因的核酸探针的混合物。因此,在一个从细胞样品中检测BRCA1是否存在的例子中,采用多种与BRCA1互补的探针,尤其是这组不同的探针可以为2、3或5种不同的核酸探针序列。在另一例子中,为了在病人中检测是否存在BRCA1基因序列的突变,可以使用一种以上与BRCA1互补的探针,其中该混合物含有能够与等位基因特异性突变结合的探针,而这些突变是在带有BRCA1突变的病人群体中鉴别出的。在该例子中,可以使用任何数目的探针,而且最好包括对应于使个体倾向于患乳房癌的主要的基因突变类型的探针。一些本发明范围之内的候选探针包括含有表11和12中列出的等位基因特异性突变的探针,以及含有对应于SEQIDNO1突变位点5′和3′的BRCA1区域的探针。使用方法肽诊断和诊断试剂盒损伤的瘤形成状况可以根据野生型BRCA1多肽发生的改变而加以检测。这种改变可以用常规技术通过序列分析确定。更佳地,可使用抗体(多克隆或单克隆抗体)来检测BRCA1肽的差异或BRCA1肽的缺乏。抗体可以按上述标题为“抗体”中的方法进行制备,并且在实施例12和13中有进一步的显示。用于产生和纯化抗体的其他技术是本领域中公知的,而且任何一种这类技术都可用于实现本发明所述的制剂。在本发明的优选实施例中,抗体将BRCA1蛋白质从溶液中免疫沉淀出,并且在聚丙烯酰胺凝胶的Western印迹或免疫印迹中与BRCA1蛋白质反应。在另一优选实施例中,通过使用免疫细胞化学技术,抗体可以检测石蜡或冰冻组织切片中的BRCA1蛋白质。检测BRCA1或其突变方法的优选例子包括酶联免疫吸附测定(enzymelinkedimmunosorbentassays,ELISA)、放射免疫测定(RIA)、免疫放射测定(IRMA)和免疫酶测定(IEMA),包括使用单克隆和/或多克隆抗体的夹心测定。代表性的夹心测定例子在David等人的美国专利No.4,376,110和4,486,530中有描述(这些文献在此引用作为参考),并且以实施例14为例。使用方法药物筛选本发明对于筛选化合物特别有用,即在各种药物筛选技术中通过使用BRCA1多肽或其结合片段而筛选化合物。在测试中使用的BRCA1多肽或其片段可以处于溶液中的游离状态,或者被固定于某固相载体,或者位于细胞表面。一种药物筛选方法最好是在竞争结合测定中,采用已经用表达多肽或其片段的重组多聚核苷酸稳定地转化了的原核或真核宿主细胞。这类细胞,或者处于游离状态或者处于固定形式,都可以用于标准结合分析中。例如人们可以测量在BRCA1多肽或其片段和被测试的试剂之间是否形成复合物,或者检测在BRCA1多肽或其片段和已知配体之间形成的复合物受所测试试剂干扰的程度。因此,本发明提供了筛选药物的方法,它包括将某种试剂与BRCA1多肽或其片段接触,然后用本领域中熟知的方法测定1)是否存在由该试剂和BRCA1多肽或其片段形成的复合物或2)是否存在由BRCA1多肽或其片段和配基形成的复合物。在这种竞争性结合测定中,BRCA1多肽或其片段通常是被标记的。将游离的BRCA1多肽或其片段从蛋白质蛋白质复合物中分离,游离(即未复合的)标记物的量便分别是被测试的试剂结合于BRCA1的测量值,或者是其干扰BRCA1配体结合的测量值。另一种药物筛选的方法可以为与BRCA1多肽有适当结合亲和力的化合物提供高产率的筛选,该方法在Geysen的PCT出版的申请WO84/03564中(1984年9月13日出版)有详细的描述。简而言之,在固相基质如塑料针或其他表面上合成大量不同的小肽测试化合物,然后将肽测试化合物与BRCA1多肽反应并洗涤。接着用本领域中熟知的方法检测结合的BRCA1多肽。纯化的BRCA1可以直接涂在板上以便用于上述的药物筛选技术。但是,也可以使用针对多肽的非中和抗体来捕获抗体以便将BRCA1多肽固定于固相载体。本发明还构思了竞争性药物筛选测定法的用途。其中能够特异性地结合BRCA1的中和抗体与测试化合物发生竞争,争夺与BRCA1多肽或其片段的结合。在这种方法中,可以使用抗体来检测具有一个或多个BRCA1多肽抗原决定簇的任何肽。另一种药物筛选的技术涉及使用具有无功能BRCA1基因的真核宿主细胞或细胞系(例如上述的)。这些宿主细胞系或细胞在BRCA1多肽水平上存在缺陷。在药物化合物存在条件下,使这些宿主细胞系或细胞生长。测量宿主细胞的生长速率以确定化合物是否能够调节BRCA1缺陷型细胞的生长。使用方法合理的药物设计合理的药物设计的目的是产生出感兴趣的、具有生物学活性的多肽结构类似物,或与其反应的小分子结构类似物(例如促效剂、拮抗剂、抑制剂),以便设计出的药物是活性更高的或更稳定的多肽,或者该药物可以增强或干扰多肽在体内的功能。例如参见Hodgson,1991。在一种方法中,人们先要通过X-射线衍射晶体法、通过计算机模型设计或者最典型地通过多种手段的结合而确定感兴趣蛋白质(例如BRCA1多肽)或BRCA1受体或配体复合物的三维结构。通过基于同源蛋白质结构的模型设计,可以获得有关某肽结构的较不常见的有用信息。合理的药物设计的一个例子是人免疫缺陷病毒(HIV)蛋白酶抑制剂的开发(Erickson等人,1990)。此外,可以用丙氨酸扫描法(Wells,1991)来分析肽(如BRCA1多肽)。在该技术中,用Ala置换某氨基酸残基,然后确定该置换对肽活性的影响。肽的每一个氨基酸残基都用这种方式进行分析,以确定肽的重要区域。通过功能测定的选择,还可以分离靶特异性抗体,然后解开其晶体结构。从理论上讲,这种方法会得到一个药物核心(pharmacore),而随后的药物设计都可以以此为基础。通过产生针对有功能的、有药物学活性的抗体的抗特异型抗体(anti-id),就有可能绕过蛋白质晶体分析。作为镜像的镜像,可以预计抗特异型抗体的结合位点是最初受体的类似物。然后,可用抗特异型抗体从化学或生物学方法产生的肽文库中鉴别和分离出所需的肽。此时,选出的肽可以作为药物核心。因此,人们可以设计出BRCA1活性更高或更稳定的药物,或者可以设计出作为BRCA1活性抑制剂、促效剂、拮抗剂等的药物。因为已经有了克隆的BRCA1序列,所以可以产生出足够量的BRCA1多肽,以便进行X-射线衍射晶体等研究。另外,此处提供的BRCA1蛋白质序列的知识对那些采用计算机模型设计取代X-射线衍射晶体的人以及那些同时使用这两种方法的人可起指导作用。使用方法基因治疗根据本发明,提供了向携带突变型BRCA1等位基因的细胞提供野生型BRCA1功能的方法。提供这样一种功能会抑制受体细胞的肿瘤生长。可以将位于载体中的野生型BRCA1基因或部分基因引入细胞,从而使引入的基因处于染色体外。在这种情况中,基因在细胞的染色体外进行表达。如果基因片段被引入并在携带突变型BRCA1等位基因的细胞中表达,则基因片段应能够编码使细胞进行非瘤形成生长所需的部分BRCA1蛋白质。更优选的是这样一种情况野生型BRCA1基因或其部分被引入突变型细胞并且和细胞中存在的内源突变型BRCA1基因发生重组。这种重组需要发生双重组事件,从而导致BRCA1基因突变的校正。用于将基因引入从而进行重组或维持在染色体外的载体,是本领域中熟知的,而且可以使用任何合适的载体。将DNA引入细胞的方法,例如电穿孔、磷酸钙共沉淀和病毒转导都是本领域中熟知的,方法的选择是一般技术人员都能做到的。用野生型BRCA1基因转化的细胞可以用作研究癌肿消退以及研究促进这种消退的药物治疗的模型系统。如上所述,可以在基因治疗方法中采用BRCA1基因或其片段(适用时),以便增加癌肿细胞中该基因表达产物的数量。这种基因治疗特别适用于癌肿细胞和前癌肿(pre-cancerous)细胞,因为与正常细胞相比,这种细胞中BRCA1多肽的水平下降或缺乏。这种基因治疗还可以用于在另一些肿瘤细胞中增加给定的BRCA1基因的表达水平,在这些细胞中突变型基因按“正常的”水平进行表达,但是基因产物却没有全部功能。基因治疗可以用普遍接受的方法进行,例如Friedman,1991中所描述的方法。来自病人的肿瘤细胞可以先用上述的诊断方法进行分析,以确定肿瘤细胞中产生BRCA1多肽。然后制备含有连于表达调控元件并且能够在肿瘤细胞中复制的BRCA1基因拷贝的病毒或质粒载体(细节如下)。适用的载体是本领域中熟知的,例如在美国专利5,252,479和PCT出版的申请WO93/07282中所公开的。接着可以将载体注射入病人,或者是局部地在肿瘤位置进行,或者是全身性进行(为了到达可能转移至其他部位的肿瘤细胞)。如果转染的基因没有永久性地掺入各靶肿瘤细胞的基因组,那么需要定期地重复进行治疗。本领域中已知的基因转移系统都可以用于实施本发明的基因治疗方法。这包括病毒和非病毒转移方法。大量的病毒已用作基因转移载体,其中包括乳多空病毒如SV40(Madzak等人,1992)、腺病毒(Berkner,1992;Berkner等人,1988;Gorziglia和Kapikian,1992;Quantin等人,1992;Rosenfeld等人,1992;Wilkinson等人,1992;Stratford-Perricaudet等人,1990)、牛痘病毒(Moss,1992)、腺伴随病毒(Muzyczka,1992;Ohi等人,1990)、包括单纯疱疹病毒(HSV)和EB病毒(EBV)在内的疱疹病毒(Margolskee,1992;Johnson等人,1992;Fink等人,1992;Breakfield和Geller,1987;Freese等人,1990)和来自鸟类(Brandyopadhyay和Temin,1984;Petropoulos等人,1992)、鼠(Miller,1992;Miller等人,1985;Sorge等人,1984;Mann和Baltimore,1985;Miller等人,1988)和人(Shimada等人,1991;Helseth等人,1990;Page等人1990;Buchschacher和Panganiban,1992)的反转录病毒。大多数的人类基因治疗方案以无毒的鼠反转录病毒为基础。本领域中已知的非病毒基因转移方法包括化学方法,例如磷酸钙共沉淀(Graham和vanderEb,1973;Pellicer等人,1980);机械方法,例如微注射(Anderson等人,1980;Gordon等人,1980;Brinster等人,1981;Constantini和Lacy,1981);通过脂质体进行的膜融合介导转移(Felgner等人,1987;Wang和Huang,1989;Kaneda等人,1989;Stewart等人,1992;Nabel等人,1990;Lim等人,1992)和直接DNA摄入以及受体介导的DNA转移(Wolff等人,1990;Wu等人,1991;Zenke等人,1990;Wu等人,1989b;Wolff等人,1991;Wagner等人,1990;Wagner等人,1991;Cotten等人,1990;Curiel等人,1991a;Curiel等人,1991b)。病毒介导的基因转移可以与使用脂质体送递的直接的体内基因转移一起使用,使得人们可指导病毒载体进入肿瘤细胞而不进入周围的不分裂细胞。或者,可以将产生反转录病毒载体的细胞系注射入肿瘤(Culver等人,1992),这种生产细胞的注入可以连续地提供载体颗粒来源。该技术已经被批准用于患有不可进行手术的脑肿瘤病人。在一种结合生物学和物理学基因转移法的方法中,将任何大小的质粒DNA与对腺病毒六邻体蛋白特异的聚赖氨酸偶联抗体混合,形成的复合物被连于腺病毒载体。然后用这种三分子复合物感染细胞。在双链DNA破坏之前,腺病毒载体能够有效地结合、内化(internalization)和降解核内体(endosome)。已表明,脂质体/DNA复合物能够介导直接的体内基因转移。尽管对于标准的脂质体制剂,基因转移过程是非特异性的,但是已经有报道,按照直接的原位施用方法(Nabel1992),在肿瘤病灶部位有局部体内摄入和表达。优选的是将DNA直接导向乳房和卵巢组织例如乳房或卵巢的上皮细胞的基因转移技术。受体介导的基因转移,可例如通过聚赖氨酸将DNA(通常为共价闭合的超螺旋质粒)与蛋白质配体偶联起来而实现。根据在靶细胞/靶组织类型的细胞表面是否存在相应的配体受体,选择配体。一种合适的受体/配体对包括雌激素受体及其配体即雌激素(或雌激素类似物)。如果需要,这些配体-DNA偶联物可直接注入血液中并导向靶组织,在靶组织处发生受体结合和DNA-蛋白质复合物的内化。为了克服DNA在细胞内解体的问题,可用腺病毒一起共感染以破坏核内体。治疗涉及两个步骤,它们可以单独或组合进行。在第一步骤中,用基因送递载体治疗携带BRCA1易患性等位基因的青春期前的女性,从而使部分或全部乳房管上皮前体细胞接受至少一个额外拷贝的功能性正常BRCA1等位基因。在该步骤中,接受治疗的个体减小了患乳房癌的风险,因为易患性等位基因的作用被存在的正常等位基因所抵消。在预防性治疗的第二步骤中,易患性年轻女性尤其是已接受所述基因治疗处理的女性,进行激素治疗以模拟全程怀孕对乳房的影响。使用方法肽治疗可以将具有BRCA1活性的肽提供给携带突变型BRCA1等位基因或缺乏BRCA1等位基因的细胞。本文公开了BRCA1蛋白质的序列(SEQIDNO2)。可使用已知的表达载体,通过细菌中的cDNA序列的表达而产生蛋白质。或者,BRCA1多肽可以从产生BRCA1的哺乳动物细胞中抽提出。另外,可以使用化学合成技术来合成BRCA1蛋白质。其中任何一种技术都能够提供本发明的、含有BRCA1蛋白质的制剂。该制剂基本上不含其他种类的人蛋白质。通过在微生物内合成或体外合成,可以极方便地实现该目的。可以通过微注射或使用脂质体将活性BRCA1分子引入细胞。或者,某些活性分子可以被细胞主动地或通过扩散摄入。在细胞外施用BRCA1基因产物可足以影响肿瘤的生长。提供具有BRCA1活性的分子可以部分地逆转瘤形成状态。也可以使用其他具有BRCA1活性的分子(例如肽、药物或有机化合物)来实现这种逆转。还可以使用功能基本类似的修饰多肽进行肽治疗。使用方法转化的宿主同样地,携带突变型BRCA1等位基因的细胞和动物可以用作模型系统,以研究和测试可能成为治疗剂的物质。这些细胞通常是培养的上皮细胞。这些细胞可以从具有体细胞或种系突变的BRCA1突变个体中分离而得。或者如上所述,可以对细胞系进行工程改造,使之携带BRCA1等位基因的突变。将测试物质施用于细胞之后,测定细胞的瘤形成转化表型。对瘤形成转化细胞的任何性状都可以进行评估,其中包括不依赖于贴壁的生长(anchorage-independentgrowth)、在裸鼠中的致瘤性、对细胞的入侵性和对生长因子的依赖性。其中任何一种性状的测定是本领域中熟知的。在对全体动物进行诱变或对种系细胞或合子进行处理之后,可以选择用于测试治疗剂的动物。这些处理包括插入突变型BRCA1等位基因(通常来自另一种动物)以及插入破坏的同源基因。或者,可以使用常规技术(Capecchi,1989;Valancius和Smithies,1991;Hasty等人,1991;Shinkai等人,1992;Mombaerts等人,1992;Philpott等人,1992;Snouwaert等人,1992;Donehower等人,1992),通过插入或缺失突变或者其他的遗传改变而破坏动物的内源BRCA1基因。在将测试物质施用于动物之后,必须评估肿瘤的生长。如果测试物质防止或抑制肿瘤的生长,那么该测试物质是用于治疗本文所述癌肿的候选治疗剂。这些动物模型提供了潜在治疗剂极其重要的测试工具。本发明结合下列实施例进行阐述。这些实施例仅用于阐述本发明,并不以任何方式限制本发明。采用的是本领域中熟知的标准技术或在下文中特别说明的技术。实施例1确定与研究可能具有与17q连锁的乳房癌易患性基因座的亲缘族从具有多个乳房癌病例及具有许多可供研究亲属的一大组延伸亲缘族的群体中,确定了具有广泛性癌症倾向的亲缘族。在这些大的亲缘族中发生的大量减数分裂提供了检测BRCA1基因座是否分离的能力,而且增加了在被研究的这一微小区域内发生有信息的重组的机会。这大大增加了建立与BRCA1区域连锁的机会,从而极大地方便了缩小BRCA1区域至可操作的大小,这将能够鉴定出BRCA1基因座。每一亲缘族延伸至所有可联系的亲属,并至每一先证者(proband)或癌症病人所有有信息的一级亲属(嫡堂(表)兄妹)。就这些亲缘族而言,还通过肿瘤记录连锁档案鉴定出此亲缘族中的其它乳房癌病例和在其它部位(例如卵巢)有癌肿的个体。对亲缘族中全部有记录的但未经UtahCancerRegistry确认的乳房癌进行了研究。收集医疗记录或死亡证明以确认全部癌肿病例。每一重要相关个体和所有可提供信息的个体均被邀请参与,要其提供血样供抽提DNA。我们还对已故病例的配偶和亲属进行了取样,由此可从其亲属的基因型获得已故病例的基因型。由原先从连锁数据库(Skolnick等人,1990)中确定的29个用于研究乳腺增生疾病及乳房癌的亲缘族中,选择10个具有3个或3个以上具有可推断的基因型的癌肿病例的亲缘族,用于与17q上各标记的连锁研究。选择这些亲缘族的标准是有两姐妹或一个母亲及其女儿患有乳房癌。此外,还包括自1980起作为我们乳房癌连锁研究一部分的2个亲缘族(K1001、K9018)、由连锁数据库确定的有乳房癌和/或卵巢癌的6个亲缘族(K2019、K2073、K2079、K2080、K2039、K2082)和一个早发型乳房癌自荐(self-referred)亲缘族(K2035)。以上文所述的方法对这些亲缘族进行了临床调查和扩延。表1显示了这19个作为随后实施例对象的亲缘族的特征。在表1中,记录了我们数据库中每一亲缘族的个体总数,各型别个体的数量和诊断为乳房癌/卵巢癌时的最小、平均及最大年龄。亲缘族按在诊断为乳房癌时的平均年龄的递增顺序归类。4个同时诊断有卵巢癌和乳房癌的妇女在两类中同时被计数。表1对19个亲缘族的说明乳房癌卵巢癌个体数确诊年龄确诊年龄亲缘族总数样本数患者最小平均最大患者最小平均最大191015104273449----10011339813283764----2035422582837451-60-202721114343841-----9018541793040722464850192550274394253----192749295324251----191128217284276----192916114344373----1901351910314476----208218010520274767104552662019421910425379----1900702384555701-78-20802647422+2755924455371207357299355780----19171664435861----192022143626368----20791361814386684452596520398740144468884415175+包括一例男性乳房癌。实施例2与染色体17q连锁的亲缘族的选择和BRCA1在Mfd15-Mfd188间隔内的定位对于收集自19个亲缘族中的每一个样本,用标准实验室方法从血液(在两个病例中从石蜡包埋组织块)中抽提DNA。在本研究中基因分型仅限于短串联重复(STR)标记,因为它们通常具有高度的杂合性,并且PCR使用很少量的DNA就能提供迅速的周转速度。为了有助于此,通过在染色体特异性粘粒文库中筛选针对CA阳性克隆,确定了位于染色体17上的4个这类STR标记。其中3个标记在长臂上(46E6,Easton等人,1993);(42D6,Easton等人,1993);26C2(D17S514,Oliphant等人,1991),另一个12G6(D17S513,Oliphant等人,1991)在短臂上并靠近p53肿瘤抑制基因基因座。其中两个,42D6和46E6被提交给乳房癌连锁协会(BreastCancerLinkageConsortium)供世界各地的研究者进行乳房癌分类。从公开的报道,或作为乳房癌连锁协会的成员,或从其它研究者处,可获得不是由我们的实验室确定的标记的寡聚核苷酸序列。全部基因分型照片根据用于维持等位基因一致编号的标准泳道标记进行盲法评分。对此处4个亲缘族中的关键样本就全部相关标记进行重复分型。对全部19个亲缘族就两种多态性CA重复标记42D6(D17S588)(在我们的实验室中分离得到的CA重复标记)和Mfd15(D17S250)(由J.Weber(Weber等人,1990)提供的CA重复标记)进行了分型。使用了多种来源的探针以产生位于染色体17上的、尤其是由LosAlamosNationalLaboratories(VanDilla等人,1986)从已分类的染色体产生的染色体17粘粒和λ噬菌体文库中的遗传标记。就两种重组值0.001和0.1,计算每一亲缘族与这两个标记(42D6、Mfd15)和大致位于这两个标记的中间位置的第三标记Mfd188之间的LOD值。(有关LOD值的计算参见Oh,1985)。在Claus等人,(1991年)的模式下计算可能性,该模式假设估计的基因频率为0.003,基因携带者的终身患病风险率约0.80,而且非基因携带者的风险率是以群体为基础的年龄特异性的。根据本实验室对CEPH实验对象中不相关个体(White和Lalaouel,1988)的分型结果计算出用于LOD值计算的三种标记的等位基因频率。表2显示每一亲缘族与三种标记42D6、Mfd188和Mfd15的配对连锁分析结果。表2亲缘族的配对连锁分析Mfd15(D17S250)Mfd188(D17S579)42D6(D17S588)重组重组重组0.0010.10.0010.10.0010.1亲缘族19100.060.300.060.300.060.301001-0.30-0.09NTNT-0.52-0.1920352.341.850.940.902.341.822027-1.22-0.33-1.20-0.42-1.16-0.339018-0.54-0.22-0.17-0.100.110.0719251.080.790.550.38-0.11-0.071927-0.410.01-0.350.07-0.44-0.021911-0.27-0.13-0.43-0.230.490.381929-0.49-0.25NTNT-0.49-0.2519011.501.170.780.570.650.3720824.253.366.075.112.003.562019-0.10-0.01-0.11-0.05-0.18-0.101900-0.14-0.11NTNT-0.12-0.052080-0.16-0.040.760.74-1.25-0.582073-0.41-0.290.630.49-0.23-0.131917-0.02-0.02NTNT-0.010.001920-0.03-0.02NTNT0.000.0020790.020.01-0.01-0.010.010.012039-1.67-0.830.120.59-1.150.02NT没有对Mfd188进行分型的亲缘族。以在CASH模式(Claus等人,1991)下,至少一个基因座的LOD值>1.0作为与17q发生连锁的标准,19个亲缘族中有4个似乎与17q连锁(K1901、K1925、K2035、K2082)。其它一些亲缘族也表现出某些连锁迹象,但在此不能确切归为连锁类。这些亲缘族包括K1911、K2073、K2039和K2080。3个17q连锁亲缘族具有此区域内可提供信息的重组体,详细描述见下文。亲缘族2082是迄今报道的最大的17q连锁的乳房癌家族。该家族有20例乳房癌,10例卵巢癌。两例同时患有卵巢癌和乳房癌。该家族与17q连锁的证明是十分明显的,其与所连锁单倍型的LOD值大于6.0,但3例乳房癌除外,它们似乎是偶发的,即这些病例不共有Mfd15和42D6之间的连锁单倍型。这3个偶发病例在46,47和54岁时被诊断为乳房癌。在较小的亲缘族中,这种偶发癌肿大大干扰了连锁分析和对关键重组体的正确鉴定。在2082亲缘族中的关键重组体是一个在45岁时患上卵巢癌的妇女,其母亲和阿姨分别在58岁和66岁患上卵巢癌。她遗传了Mfd188和42D6两者的单倍型连锁部分同时遗传了位于Mfd15的非连锁等位基因;该重组事件将BRCA1定位于Mfd15的远端。K1901是典型的早发型乳房癌家族。该家族有10例平均诊断年龄为43.5岁的乳房癌病例;4例是在40岁前诊断的。该亲缘族与标记42D6的LOD值为1.5,使得17q连锁的经验概率为0.96。对该亲缘族中的单倍型进行检查,在一必然男性携带者和其受累的女儿(在45岁时诊断为乳房癌)中鉴定了一个重组单倍型。他们的标记Mfd15连锁等位基因不同于在该亲缘族中其它病例(有1例除外,该病例不能由其后代完全推测)中找到的。两种单倍型对Mfd188和42D6是一致的。所以,从K1901获得的数据也将BRCA1定位于Mfd15的远端。亲缘族2035在疾病表型方面类似于K1901。该亲缘族中8例乳房癌的平均诊断年龄为37岁。其中一例还在60岁时患上卵巢癌。该家族的乳房癌病例从两姐妹开始下传,这两姐妹直至80多岁死亡时始终没有发生乳房癌。两分支均包括4例乳房癌,各分支中至少一例是明显的早发型。该亲缘族与Mfd15的LOD值是2.34。两分支中患乳房癌的分离单倍型都有相同的位于Mfd15的等位基因,但远端基因座Mfd188和NM23(由协会成员定出的、刚好位于42D6远端的标记(Hall等人,1992))不同。虽然这两个单倍型对标记42D6来说是一样的,但很可能等位基因共有相同的状态(来自不同祖先的相同等位基因)而不是相同的起源(来自同一祖先),因为共有等位基因是在该基因座观察到的第二位的最常见等位基因。相比之下,在Mfd15处共有的连锁等位基因其频率为0.04。这是我们数据组合中的一个关键重组体,因为这是唯一一个BRCA1随单倍型近端部分分离的重组体,由此确定了BRCA1区域的远端边界。如果这一事件不是成为关键重组体的话,则需要在与该亲缘族婚配的一配偶中存在有第二个突变型BRCA1基因,该配偶也共有亲缘族两分支中随乳房癌一同分离的稀有Mfd15等位基因。这种情况的可能性低于千分之一。来自该亲缘族的证据将BRCA1基因座定位于Mfd188的近端。实施例3利用其它的STR多态性产生精确的结构图谱并将BRCA1区域确定于Mfd191-Mfd188为了更好的定性重组体以及确定更靠近的标记,需要有染色体17q上此相对小区域的密集图谱。17号染色体研讨会已根据遗传和物理作图研究(Fain,1992)得出了该区域的一致性图谱(图1)。该图谱同时包含高度多态性的STR多态性和一些非多态性的表达基因。由于该图谱没有给出证明该次序的有关细节,也没有给出局部支持相邻基因座次序倒位的测定值,所以我们只将其视为获取用于开发新的标记和构建我们自己的含BRCA1小区域的详细遗传和物理图谱的粗略引导。我们的方法是,同时根据利用CEPH参考家族的DNA鉴定出的减数分裂(遗传)断裂点图和就此区域构建的体细胞杂交体(物理断裂点)图,分析由其它研究者提供的已有STR标记和各种由我们实验室新开发出的标记。这些标记包括由本实验室开发的位于Mfd15近端的26C2、Mfd191(由JamesWeber提供)、THRA1(Futreal等人,1992)和三个由DonaldBlack博士提供三个多态性标记NM23(Hall等人,1992)、SCG40(D17S181)和6C1(D17S293)。标记的遗传定位为了在目标区域内将新的标记遗传定位,我们已在CEPH参考家族和我们的大乳房癌亲缘族(K2082)中鉴定出了一些该区域内的减数分裂断裂点。由于该区域内遗传距离短,它们似乎只是很小的一组可用于此目的的重组体,而且它们将标记分成几组。每一组中的标记次序只能由物理作图测定。但是,这最大程度地减少了定位新标记所必需的基因分型的次数。表3和表4显示出了这些断裂点。利用此方法,我们能够确定标记THRA1、6C1、SCG40和Mfd191的遗传次序。从表3和表4中可以看到,THRA1和MFD19,都在Mfd15至Mfd181域内,我们已在先前鉴定出该区域内含有BRCA1基因座。在表3和表4中,M/P表示一母系或父系重组体。“1”表示等位基因遗传自祖父辈,“0”表示遗传自祖母辈,“-”表示该基因座没有被分型或没有信息。表3CEPH重组体家族IDM/PMfd15THRA1Mfd191Mfd188SCG406C142D6132924M1110000132944M1110000132946M0011---13343M111110013334M1110--013336M0011--113338P1000--013778M0-00001表4亲缘族2082重组体家族IDM/PMfd15Mfd191Mfd188SCG406C142D675M0111--63M0011-1125M1110-040M1100-0在我们的重组体家族中对标记Mfd15、Mfd188、Mfd191和THRA1进行分析在我们的重组体家族中对Mfd15、Mfd188、Mfd191和THRA1进行了分型,并检查了其它定位BRCA1基因座的信息。在亲缘族1901中,Mfd15重组体也是THRA1重组体,但没有信息显示是Mfd191重组体,因此BRCA1位于THRA1的远端。在K2082中,带Mfd15的重组体也带Mfd191,所以,BRCA1基因座位于Mfd191的远端(Goldgar等人,1994)。在亲缘族K2035中对THRA1和Mfd191的检查未提供进一步的定位信息,两分支对两标记的表现相同。但是,SCG40和6C1表现出相同于Mfd188的格局,更使我们确信该家族中Mfd188提供的定位信息。所以,BRCA1基因座,或者至少其部分,位于由其近端Mfd191和远端Mfd188界定的区间内。实施例4该目标区域内的遗传和物理资源的开发为了增加Mfd191至Mfd188区域内高度多态性基因座的数量,我们在实验室中通过粘粒和YAC开发了一些STR标记,它们被物理定位于该区域的。这些标记能够使我们进一步确定此区域。从已知位于所需区域内的基因中鉴定出STS以用于鉴定含有这些基因座的YAC,然后将其用于鉴定粘粒P1或BAC中的亚克隆。然后,利用(CA)n寡核苷酸(Pharmacia),就是否存在CA串联重复序列进行筛选。优先选取具有强信号的克隆,因为它们更可能代表了CA重复序列,即具有大量的重复序列和/或具有与(CA)n格局近乎最佳的一致性。已知两者的这些特征都提高了多态性的可能性(Weber,1990)。从载体上直接测序这些克隆以确定重复序列位置。利用一组与CA重复序列末端互补的可能性引物中的一个,例如(GT)10T,我们获得了CA重复序列一侧的一段单一序列。根据这段单一序列,合成一个引物,从而从反方向对重复区进行测序,由此产生了一个单一序列,再将其用于设计第二个位于CA重复区侧翼的引物。然后对一小组不相关个体就多态性筛选STR,然后对照杂交体图进行检查以确认它们的物理位置。然后在来自犹他州和CEPH家族的一组40个不相关个体中对满足这些标准的新标记进行分型以获取适合研究群体的等位基因频率。本研究中报道的其它标记在一较小组的CEPH不相关个体中进行测试以类似地获取合适的等位基因频率。使用上述方法,从这些YAC中共发现8种多态性STR。以此方式鉴定的基因座中有4个既呈多态性,而且又位于BRCA1区。有4个标记不在染色体17上,反映了所用的YAC的嵌合特性。位于区域内的4个标记为AA1、ED2、4-7和YM29。AA1和ED2来自RNU2阳性的YAC,4-7来自EPB3YAC,YM29来自根据杂交体图位于该区域的粘粒。表5给出了在乳房癌亲缘族中分析的有关这4个及所有其它STR多态性的等位基因数量、杂合性和来源的说明。表5用于BRCA1基因座精确结构作图的多态性短串联重复标记等位基因*频率(%)克隆基因Na**杂合性123456Mfd15D17S250100.822622157723THRA1THRA15Mfd191D17S77670.55482011777ED2D17S1327120.5562985511AA1D17S132670.83282825865CA375D17S184100.7526151199204-7D17S118390.5063158644YM29--90.62422412778Mfd188D17S579120.92331888825SCG40D17S181140.902018181083542D6D17S588110.86211711109326C1D17S29370.753030111199Z109D17S75090.70332777719tdj1475D17S1321130.8421161111833CF4D17S132060.6350279743tdj1239D17S1328100.80861097414U5D17S1325130.8319161210934*等位基因编号1-5按递减频率排列;等位基因数目不对应于片段的大小。等位基因6频率是全部其它等位基因对每一基因座的联合频率。**在用于计算等位基因频率的遗传上独立DNA样本中看到的等位基因数量。在先前的表3和表4所示减数分裂断裂点图中,对这4个物理定位于该区域的STR多态性进行分析。表6和表7包含了用于定位这4个标记的相关CEPH数据和亲缘族2082数据。在两表中,M/P表示一母系或父系的重组体。“1”表示遗传的等位基因来自祖父辈,“0”表示来自祖母辈,“-”表示该基因座没有被分型或无信息。表6用于确定17q的BRCA1区域内实验室开发的新STR基因座遗传顺序的关键重组体CEPH家族IDM/PMfd15THRA1Mfd191ED2AA1Z1094-7YM29Mfd188SCG4042D6132924M11111000000132944M100-0---0--132946M001-1---1---13334M111-0--00-013336M001-1--11-113333M001---111-1表7亲缘族2082重组体IDM/PMfd15Mfd191ED2AA14-7YM29Mfd188SCG4042D663M001-11111125M111-1110040M110-0-00022P001111111从CEPH1333-04我们看到,AA1和YM29一定位于Mfd191的远端。从13292可以推断AA1和ED2都在4-7、YM29和Mfd188的近端。在K2082中发现的重组体提供了另外一些顺序信息。3个相互独立的观察结果(个体号22、40和63)将AA1、ED2、4-7和YM29以及Mfd188定位于Mfd191的远端,ID125则将4-7、YM29和Mfd188定位于SCG40的近端。从遗传重组体分析中,没有获得有关两标记簇AA1/ED2和4-7/YM29/Mfd188内相对次序的遗传信息。虽然根据已知含有“洞”(间隙人DNA小片段可能在此丢失)的杂交体来确定基因座的次序是有疑问的,但杂交体格局显示4-7在YM29和Mfd188的上游。实施例5利用标记AA1、4-7、ED2和YM29进行乳房癌亲缘族遗传分析除了具有前述关键重组体的3个亲缘族外,亲缘族K2039经新STR标记分析被证明与该区域连锁而且具有有用的重组体。表8就各基因座的特异性标记及其频率确定了亲缘族的单倍型(以编号形式表示)。表8中,等位基因按频率递减次序排列;各基因座等位基因1-5频率在表5中给出。单倍型H是BRCA1关联单倍型,P表示部分的H单倍型,R表示可观察到的重组体单倍型。如表8所示,并非所有的亲缘族都对全部标记分型;而且,并非同一亲缘族特别是K2082中的全部个体都对同一组标记分型。除一个例外之外,只表示了遗传自发病或危发亲缘族成员的单倍型;没有描述来自与亲缘族婚配的配偶的单倍型。所以在一给定的同胞关系中,单倍型X和Y的出现表示,发现了来自发病或危发个体的两个单倍型,但都不是乳房癌关联单倍型。表8在三个亲缘族中发现的乳房癌连锁单倍型MfdMfdtdjMfd亲缘族HAP15THRA11911475ED2AA1Z109CA3754-7YM29188SCG406C142D61901H1155314NINI113NINI1R2925614NINI113NINI12082H13NI4661NINI2142NI1P13NI4NININININININI42NI1P23NININININININININI4NININIR16NI1561NINI2142NI1R26NI4661NINI2142NI1R33NI4NI61NINI2141NI7R47NI1NI15NINI46I2NI1R53NI4NINININININI21NININIR63NI4312NINI1226NI6R73NI4371NINI1137NI42035HI821NI5114316824H2821NI5112112314R2821NI5112112361在亲缘族K1901中,新标记没有表现出可观察的、具有乳房癌易患性的重组体,这表明该亲缘族中的重组事件最可能发生在THRA1和ED2之间。所以,根据在该亲缘族中对这4个新标记的研究未获得新的BRCA1定位信息。在亲缘族2082中,关键重组体个体遗传了ED2、4-7、AA1和YM29的等位基因,但就tdj1474发生了重组,这表明该个体中的重组事件发生在tdj1474至ED2/AA1之间。如表8所示,在亲缘族K2035中有三个有意义单倍型,H1,H2和R2。H1存在于4个病例和个体17后代的一个必然男性携带者中,H2存在于或据推断存在于两个病例和个体10后代的两个必然男性携带者中。R2就Mfd15和SCG40之间(包括两端)的基因座而言与H2相同,但在SCG40和42D6之间发生了重组。由于我们已确定BRCA1在42D6的近端,这一H2/R2差异并不提供进一步的定位信息。H1和R2共有位于Mfd15、THRA1、AA1和ED2的相同等位基因,但对于假设位于ED2远端的基因座却不同,即4-7、Mfd188,SCG40和6C1。虽然两单倍型对标记YM29(物理上定位于4-7和Mfd188之间的标记)的第5个等位基因是相同的,但很可能这些等位基因共有相同的状态而不是相同的起源,因为该等位基因是该基因座最常见的等位基因,在CEPH亲代中其频率估计为0.42。相反,在Mfd15和ED2基因座共有的连锁等位基因,其频率分别为0.04和0.09。它们还在Mfd191(频率=0.52),THRA1和AA1(频率=0.28)共有相同的等位基因。这是这一组中的关键重组体,因为它是唯一一个乳房癌随单倍型近端部分一同分离的重组体,由此确定了远端的边界。来自该亲缘族的证据由此将BRCA1基因座定位于4-7的远端。亲缘族2082中将BRCA1定位于tdj1474远端的重组事件,是所述4种重组事件中唯一一个可以直接推断而知的;即,受累母亲的基因型可由其配偶和后代来推断,重组体单倍型可见于其发病的女儿。在该家族中,携带BRCA1易患性等位基因的发病个体的机率极高;对此数据的唯一解释是BRCA1位于Mfd191的远端,或者,该重组体是在44岁患上卵巢癌的偶发病例。对亲缘族2035的解释是根据对不同、有时是关系较远的亲缘族旁系中不同的17q单倍型分离的观察结果而得出的,而不是依据可直接观察或推断的重组体。观察结果是这些单倍型中的部分就某些标记具有共同的等位基因而对另外一些标记则不同,该结果将BRCA1基因座定位于共有区域内。对这一定位的确定性取决于几个因素各单倍型携带者之间的关系,共有等位基因的频率,显示单倍型与BRCA1基因座一同分离的确性度,以及用于在该区域内确定该单倍型的标记的密度。在亲缘族2035中,两分支紧密相关,各分支都有一些携带各自单倍型的早发型病例。有两个共有等位基因是相同的(Mfd191、THRA1),在Mfd15、AA1和ED2处的共有等位基因的估计频率分别是0.04、0.28和0.09。所以,很可能,这些等位基因的起源相同(起源于同一祖先)而不是状态相同(来自普通群体的相同等位基因)。实施例6精细的物理作图研究确定BRCA1基因在以tfj1474和U5R为侧翼的区域内自1990年最早在染色体17q上进行定位(Hall等人,1990)以来,已进行了大量努力将BRCA1基因定位在一个足够小的区域内,小至允许使用有效的定位克隆法来分离该基因。BRCA1基因座最早根据由214个来自世界各地的家族构成的合作乳房癌连锁协会数据集,利用多点连锁分析(Easton等人,1993),被确定位于Mfd15(D17S250)至42D6(D17S588)之间。随后的进一步精确定位是根据个别家族中的个体重组。Bowcock等人(1993年)将其确定在THRA1至D17S183区域;Simard等人(1993年)将其确定在THRA1至D17S78区域。我们还证明BRCA1基因座一定位于标记Mfd191(D17S776)(Goldgar等人,1994)的远端。已知该标记位于THRA1和RARA的远端。所以,已公开的最小BRCA1基因座区域是在D17S776和D17S78之间。该区域仍含有约1.5×106个DNA碱基,使得在此区域内分离并测试全部基因十分困难。所以,我们力图构建该区域的物理图谱,分离出一组该区域内的多态性STR标记,并在一组可提供信息的家族中对这些新的标记进行分析以便将BRCA1基因的位置确定在一可操作的间距内。有4个家族可提供重要遗传证据,将BRCA1定位于一足够小的区域从而可使用定位克隆法。两个家族(K2082、K1901)提供与BRCA1近端边界有关的数据,另两个(K2035,K1813)确定远端边界。下文将对这些家族进行详细论述。可用PCR测试的总共15个短串联重复标记,被用于在被研究家族中的精确定位。这些标记包括DS17S7654、DS17S975、tdj1474和tdj1239。这些标记的引物序列是DS17S754的SEQIDNO3和SEQIDNO4;DS17SS975的SEQIDNO5和SEQIDNO6;tdj1474的SEQIDNO7和SEQIDNO8;tdj1239的SEQIDNO9和SEQIDNO10。亲缘族2082亲缘族2082是迄今研究过的最大的BRCA1连锁乳房癌/卵巢癌家族。其LOD值为8.6,明确表明与17q连锁。该家族前文已述并显示有一个关键重组体将BRCA1定位于MFD191(D17S776)的远端。该重组体出现在一个于45岁时被诊断为卵巢癌的妇女中,其母亲于63岁患上卵巢癌。发病的母亲已死亡;但是,从她的后代可以推断她具有存在于该家族30个其它连锁病例中的、位于Mfd15和Mfd188之间的连锁单倍型。其发病的女儿在基因座ED2、4-7和Mfd188得到了连锁的等位基因,但在Mfd15和Mfd191得到的是非BRCA1染色体上的等位基因。为了进一步确定重组断裂点的位置,我们就以下得自物理图来源的标记对该家族中的关键成员进行的测试tdj1474、tdj1239、CF4、D17S855。发病的女儿没有得到tdj1474和CF4标记的连锁等位基因。但是,就STR基因座tdj1239而言,可推断母亲有有关信息而女儿的确得到了BRCA1关联等位基因。在该家族中,D17S855不提供信息。根据此分析,次序应为17q着丝粒-Mfd191-17HSD-CF4-tdj1474-tdj1239-D17S855-ED2-4-7-17q端粒。所以上述重组体中将BRCA1定位于tdj1474的远端,而断裂点在tdj1474和tdj1239之间。除了BRCA1位于tdj1474远端这种解释之外,对该家族数据的唯一另一种解释是,重组个体的卵巢癌是由与BRCA1基因不相关的原因引起的。由于很少有人在50岁前被诊断为卵巢癌,所以该解释非常不可能。亲缘族1901亲缘族1901是一个早发型乳房癌家族,有7例50岁前诊断为乳房癌,其中4例在40岁之前。此外,还有3例在50至70岁之间诊断为乳房癌。有一例乳房癌还在61岁时诊断患卵巢癌。该家族现在与D17S855的LOD值为1.5。因为该连锁证据并且存在有至少一例卵巢癌,该家族因BRCA1而发病的经验概率超过0.99。该家族中,重组缘自这样一个事实,即有一个体是卵巢癌病例(大部分其它病例遗传自该卵巢癌病例)的兄弟,他只共有该家族中随其它病例共分离的单倍型的一部分。但是,他将这一部分的单倍型传给了他的女儿,后者在44岁时患上乳房癌。如果该病例是由BRCA1基因造成的,那么只有该兄弟与其姐妹共有的那部分单倍型可能含有BRCA1基因。解释这种情况的难处在于,虽然可以确定不共有的标记是重组体,但相同的标记可能是因为非重组而共有,也可能是因为其亲代是纯合子。没有父亲的基因型数据,不可能区别这多种可能性。对K1901中的单倍型检查显示,他不共有Mfd15(D17S250)、THRA1、CF4(D17S1320)和tdj1474(17DS1321)的连锁等位基因。他共有Mfd191(D17S776)、ED2(D17S1327)、tdj1239(D17S1328)和Mfd188(D17S579)处的连锁等位基因。虽然Mfd191处的共有等位基因较少见(0.07),我们将假设亲代是纯合子,因为它们是靠近两侧的标记的重组体,而该区域内的双重组事件是极不可能的。所以,该家族的证据也表明BRCA1基因座位于tdj1474的远端。但是,没有父亲的基因型信息不能确定该断裂点的下限。有趣的是,该家族中的关键重组体断裂点证实了亲缘族2082中的结果。如前所述,该家族中的定位信息只有在乳房癌是由BRCA1基因引起时才有意义。但是,她相对早的诊断时年龄(44岁)使得这一点显得很有可能,因为45前乳房癌的风险在普通群体中是很低的(约1%)。亲缘族2035有关键重组体的信息不是直接观察到的而是由观察结果推断的,该观察结果是为随该家族两旁系中早发型乳房癌共分离的两个单倍型对位于17qBRCA1区域近端的标记表现相同但对较远端基因座的表现不同。在这一点上,该家族与K1901类似。两单倍型都出现在至少4例早发型或双侧乳房癌中。该家族与ED2的总LOD值为2.2,考虑到该家族中有一例卵巢癌(表明与BRCA1连锁的先验概率为80%),得出的该家族与BRCA1连锁的经验概率为0.998。两单倍型对标记Mfd15、THRA1、Mfd191、ED2、AA1、D17S858和D17S902相同。Mfd15和ED2处的共同等位基因很少见,这表明该单倍型在后代中共有相同。但单倍型对CA375、4-7和Mfd188及几个更远的标记不相同。这表明BRCA1基因座一定位于CA375的上游。该标记在D17S78下游约50kb处,所以,它主要起到进一步证实了先前Simard等人(1993)报道的下游边界。亲缘族1813亲缘族1813是一个小家族,有4例于40岁前诊断为的乳房癌,她们母亲在45岁诊断为乳房癌并在61岁诊断为卵巢癌。这一情况因这样的事实而有些复杂即4病例有3个不同的父亲,其中只有一个确定了基因型。但是,通过对BRCA1区域内一些不同标记和基因组中其它位置的高度多态性标记的分型,已高可信度地确定了该家族中所有后代的父系。该家族与17q标记的最大多点LOD值为0.60,在已知有至少一例卵巢癌的情况下,作为BRCA1连锁家族的经验概率为0.93。该家族个体18中有一个可直接观察到的重组事件(参见图5,Simard等人,HumanMol.Genet.21193-1199(1993)),该个体在34岁时发生乳房癌。从她的基因型、她的发病的姐妹的基因型和其它3个未发病的同胞的基因型,可推断其发病的母亲在相关的17q基因座的基因型。个体18遗传了以下基因座的BRCA1连锁等位基因Mfd15、THRA1、D17S800、D17S855、AA1和D17S931。但是,对D17931下游的标记,即U5R、vrs31、D17S858和D17S579,她遗传了不带疾病的染色体上的等位基因。来自该家族的证据由此确定BRCA1位于标记U5R的近端。因为她较早的诊断年龄(34岁),极可能该重组个体的癌肿是因为与该家族其它乳房癌/卵巢癌病例有关的基因引起的;该家族中的不定性缘于我们较少的证据,即该家族中的乳房癌是由于BRCA1而不是另一个、尚为作图的癌肿易患性基因座。含BRCA1的区域的大小根据以上详细描述的遗传数据,BRCA1基因座一定位于标记tdj1474和U5R之间,两标记都在本实验室中得以分离。根据图2和3中的物理图谱,我们可以试着估计这两个基因座之间的物理距离。大约需要14个平均插入片段大小约80kb的P1克隆来跨越该区域。但是,所有这些P1克隆都有某种未知程度的重叠,所以很可能物理距离比80kb的14倍小得多。根据覆盖该区域的克隆的限制性图谱,我们估计含BRCA1区域的大小约为650kb。实施例7通讨毗连群区的基因组分析鉴定BRCA1基因座的候选cDNA克隆可能区域的全面筛选。鉴定候选cDNA的第一种方法是利用已知技术,但是劳动强度较大。该方法包括筛选毗连群内的粘粒和P1及BAC克隆以鉴定出推断的编码序列。然后将含有推断的编码序列的克隆用作cDNA文库滤膜上的探针,以鉴定出候选cDNA克隆用于以后的分析。用两种方法中的任何一种,就推断的编码序列筛选克隆。动物印迹。鉴定推断的编码序列的第一种方法是筛选粘粒和P1克隆,寻找在进化过程中种间保守的序列。该技术被称为“动物印迹分析”,Monaco,1986对此有所说明。具体地说,来自牛、鸡、猪、小鼠和大鼠的DNA用限制酶EcoRI和HindIII消化(8μgDNA/酶)。消化后的DNA在0.7%的凝胶(14cm的凝胶)上,以20伏分离16小时,以标准的Southern印迹技术将DNA转移到尼龙膜上。例如,动物印迹滤膜在65℃,在0.1×SSC,0.5%SDS和0.2M的Tris(pH8.0)中处理30分钟,然后在42℃,在5×SSC、10%PEG8000、20mMNaPO4(pH6.8)、100μg/ml鲑精DNA、1×Denhardt’s、50%甲酰胺、0.1%SDS和2μg/mlC0t-1DNA中封闭过夜。用限制酶消化待分析的粘粒和P1克隆,使人DNA从载体DNA上释放。DNA在14cm、0.5%琼脂糖凝胶上,以20伏电压,过夜电泳16小时。从凝胶中切取人DNA带,在0.5×Tris乙酸盐缓冲液中,以100伏电压,由凝胶边缘电洗脱人DNA至少2小时(Maniatis等人,1982)。然后用EcoRI限制酶消化洗出的经NotI消化的DNA(~15kb至25kb)以产生更小的片段(~0.5kb至5.0kb),后者在下一步放射性核苷酸标记DNA中更容易解链。利用六聚体(Borhringer-Mannheim,目录#1004760)随机引发标记法标记这些DNA片段。标记的DNA经精胺沉淀(加100μlTE,5μl0.1M精胺,和5μl10mg/ml鲑精DNA)去除未掺入的放射性核苷酸。然后将标记过的DNA在100μlTE、0.5MNaCl中于65℃悬浮5分钟,再按照制造商的说明用人C0t-1DNA(Gibco/BRL,目录#5279SA)封闭2-4小时。经C0t-1封闭的探针在动物印迹滤膜上,在封闭溶液中于42℃孵育过夜。滤膜在2×SSC、0.1%SDS中,室温下洗涤30分钟,再在相同的溶液中于55℃洗涤30分钟。将滤膜与带增感屏的KodakXAR-5胶片在-70℃曝光1至3天。这样,动物印迹或者与插入片段的EcoRI片段混合物杂交,或者与单个片段杂交。HTF岛分析。鉴定用作cDNA文库探针的粘粒的另一种方法是HTF岛分析。由于脉冲场图谱可揭示HTF岛,所以优先分析这些定位于HTF岛区域的粘粒。HTF岛是含有高频率非甲基化CpG二核苷酸的DNA片段(Tonolio等人,1990),并可通过识别序列包括CpG二核苷酸的酶限制性位点的聚集程度来揭示。已知用于HTF岛分析的酶是AscI、NotI、BssHII、EagI、SacII、NaeI、NarI、SmaI和MluI(Anand,1992)。用酶NotI、NruI、EagI、SacII和SalI产生脉冲场图,发现两个HTF岛。这些岛位于区域的远末端,一个在GP2B基因座的远端,另一个在同一基因座的近端,两个都在BRCA1区域外。分析来自YAC的、覆盖这两个位置的粘粒,以鉴定含有这些限制性位点的质粒,进而鉴别出HTF岛。cDNA筛选。含有HTF岛或与除人之外物种的DNA杂交的克隆可能含有编码序列。从这些克隆中分离出作为完整插入片段或EcoRI片段的人DNA,并如上所述进行标记。用标记过的DNA在与动物印迹相同的条件下筛选各种cDNA文库滤膜,所不同的是cDNA滤膜经受了更严紧的洗涤,2次以0.1×SSC和0.1%SDS在65℃洗涤30分钟。迄今在我们的研究中使用的大多数cDNA文库(cDNA文库得自正常乳房组织、一个怀孕8个月的妇女和乳房癌恶化的妇女的乳房组织)是Clonetech,Inc.制备的。可从Clonetech(目录#HL1037a)购得构建于λgt-10载体的怀孕8个月的妇女的乳房组织的cDNA文库,它培养在C600Hfl细菌宿主细胞内。由一37岁的高加索女性分离正常乳房组织和恶性乳房组织的样本,两种组织各取1克送至Clonetech进行mRNA加工和构建cDNA文库。利用随机引发和寡聚dT引发来产生后两个cDNA文库,并筛选出大小合适的最终产物克隆入λZapII载体,按照制造商的说明将其培养在XL1-蓝菌株中。其它组织特异性cDNA文库包括人胎脑(Stratagene,目录936206)、人睾丸(Clonetech目录HL3024)、人胸腺(Clonetech目录HL1127n)、人脑(Clonetech目录HL11810)、人胎盘(Clonetech目录1075b)和人骨骼肌(Clonetech目录HL1124b)。将cDNA文库及其宿主细胞铺于NZCYM板上,按照Maniatis等人(1982)所述,从每一板上重复进行滤膜取印。纯化候选基因组克隆的插入(人)DNA,并放射性标记至高比活性。然后放射性DNA与cDNA滤膜杂交,以鉴定对应于候选粘粒克隆中的基因的cDNA。挑选、再铺平板由此鉴定出的cDNA,并再次用标记过的克隆插入片段或由其衍生的EcoRI片段DNA筛选,以证实其为阳性状态。培养在这第二轮筛选后呈阳性的克隆,并纯化其DNA用于Southern印迹分析和测序。克隆可以按照制造商的方法说明,从λ载体上通过体内切取质粒而作为质粒纯化,也可以作为限制性片段从λ载体上分离,然后将其亚克隆入质粒载体中。重复进行Southern印迹,其中之一用原初基因组的插入DNA作为探针来证实cDNA插入片段子中含有杂交序列。另一次印迹是与最大cDNA克隆的cDNA插入DNA杂交,以鉴定出代表相同基因的克隆。所有与基因组克隆杂交并具有单一性的cDNA被测序,并分析DNA以确定序列是否代表了已知的或单一的基因。所有表现出单一性的cDNA作为候选BRCA1基因座被进一步分析。具体地说,这些克隆与Northern印迹杂交以查找乳房特异性表达和正常的对乳房肿瘤RNA的差异表达。还在BRCA1区域内的克隆上对它们进行了PCR分析以确定它们的位置。为了对基因座范围作图,分离出全长cDNA,并将其序列用作YAC和包围并包含原初鉴定克隆的克隆上的PCR探针。然后通过序列分析进一步确定内含子-外显子边界。我们已用得自该区域内粘粒BAC和P1克隆的动物印迹阳性EcoRI片段,筛选了正常乳房、8个月孕妇的乳房和胎脑的cDNA文库。在这3个文库中鉴定出了潜在的BRCA1cDNA克隆。挑选出克隆,再铺平板,并用原初探针再次筛选以确认其为阳性。对杂交体选择的cDNA的分析。直接选取的cDNA片段用DNA探针通过Southern印迹杂交检查以证实它们来自毗连群。对通过该测试的片段进行完整测序。然后,由此获得的这套DNA序列相互杂交检查以查找重叠的独立克隆。例如,克隆694-65、1240-1和1240-33是分别获得的,但序列上显示为来自同一毗连cDNA序列,该序列定名为EST4891。候选克隆的分析。对上述产生的一个或多个候选基因进行测序,并将信息用于鉴定和分型每一种被表达的基因。通过核苷酸序列比较并通过在翻译所有框架后与已知氨基酸序列比较来将这些DNA序列与已知基因进行比较。这种比较的是对本地以及远程序列数据库(如GenBank)进行比较而完成的,其中使用GeneticDataEnvironment(GDE)2.2版软件和BasicLocalAlignmentSearchTool(Blast)系列客户/服务器软件包(例如BLASTN1.3.13MP),并在SunSPARC工作站上运行。已经产生了从用粘粒和P1鉴定的cDNA克隆集合而重构的序列。进一步分析所有代表新序列的候选基因以测定它们作为推断的BRCA1基因座的候选性。突变的筛选。为了筛选发病谱系中的突变,使用了两种不同的方法。第一种,将从已知携带BRCA1易患性等位基因的家族成员中分离出的DNA用作PCR扩增候选基因的模板。如果PCR引物在内含子/外含子边界的旁边或与其重叠,扩增出的片段将比预计的cDNA序列大,或者不存在于扩增后的混合物中。利用一套设计的引物将这种扩增实验与P1、BAC或粘粒克隆测序相结合,便可以确定内含子/外含子结构并最终获得该谱系的基因组DNA的DNA序列。第二种方法在候选基因的内含子/外显子较复杂时要快得多,它涉及对由谱系淋巴细胞cDNA扩增得到的片段进行测序。从该谱系的血液中抽提淋巴细胞mRNA,由此mRNA合成cDNA,将其用作利用设计的引物PCR扩增的底物。如果候选基因在淋巴细胞中大量表达,这种实验通常产生不需要知道内含子/外显子连接而可直接测序的扩增片段。通过凝胶电泳来分析这种测序反应的产物,以确定序列中含有突变(例如缺失或插入)或碱基对置换的物质(它们都会导致氨基酸改变或其它有害结果)。任何一种在乳房组织中表达的BRCA1区域内的序列都被认为是BRCA1的候选基因。给定候选基因对应于BRCA1的有力证据缘于这样的证明即谱系家族含有该候选基因的缺陷型等位基因。实施例8BRCA1的鉴定BRCA1的鉴定。使用多种方案,绘制出在D17S1321和D17S1324之间600kb的17q21区域的详细图谱。候选的被表达序列定义为以下途径获得的DNA序列1)对乳房、胎脑或淋巴细胞cDNA文库的直接筛选,2)对乳房、淋巴细胞或卵巢cDNA的杂交体选择,或3)对基因组DNA的随机测序和利用XPOUND(Thoma和Skolnick,1994)预测编码外显子。很多情况下,这些可表达序列被组合成由多个分别鉴定出的序列构成的毗连群。候选基因可能包含一个以上的这些候选可表达序列。通过杂交体选择、直接筛选cDNA文库和对P1亚克隆随机测序鉴定了该区域内的65个候选可表达序列。通过对分离17q连锁的乳房癌和卵巢癌易患性亲缘族个体中的转录产物大小、DNA序列、数据库比较、表达方式、基因组结构和最重要的DNA序列分析,对表达序列进行定性。分离得到3个独立的表达序列的毗连群11411(649bp)、6945(213bp)和754∶2(1079bp),并被最后证明代表了部分的BRCA1。当用这些毗连群的EST作为Northern分析的探针时,在正常的乳房mRNA中只发现一种约7.8kb的转录产物,这表明它们编码同一基因的不同部分。筛选乳房、胎脑、胸腺、睾丸、淋巴细胞和胎盘的cDNA文库,并用乳房mRNA进行PCR试验,将11411、6945和7542的毗连群连接起来。5’RACE试验使用胸腺、睾丸和乳房mRNA将毗连群延伸至推断的5’末端,由此获得复合的全长序列。该区域内P1和BAC的PCR和直接测序被用于鉴定内含子的位置和测定剪接供体和受体的位点。这3个可表达序列被合并成一个转录单元,该单元在最后的分析中被确认为BRCA1。这一转录单元位于该600kb区域中部的D17S855附近(图4)。将得自cDNA克隆、杂交体选择序列和PCR扩增产物的序列合并起来,能够构建出复合的全长BRCA1cDNA(SEDIDNO1)。BRCA1cDNA序列(终止子以上)也已在GenBank保藏,登记号为U-14680。该保藏序列在此被参考引用。在3’方向延伸最远的cDNA克隆含有聚腺苷酸化信号和随后的聚腺苷酸段。cDNA的概念翻译揭示了一段208千道尔顿的长开放阅读框(氨基酸序列SEQIDNO2),其中有一潜在的起始密码子,该密码子侧翼为与Kozak一致序列(Kozak,1987)相似的序列。Smith-Waterman(Smith和Waterman,1981)和BLAST(Altschul等,1990)搜索鉴定了一段靠近氨基末端的序列,它与锌指域具有相当的同源性(图5)。该序列含有位于C3HC4锌指基序(motif)中的半胱氨酸和组氨酸,并与数据库中的锌指蛋白共有多个其它残基。BRCA1基因由23个编码外显子构成,它们排列在超过100Kb的基因组DNA上(图6)。利用BRCA1cDNA片段为探针的Northern印迹鉴定了单一的约7.8kb的转录产物,该转录产物在乳房、胸腺和睾丸中最多,也存在于卵巢中(图7)。还观察到4种不同剪接产物的独立cDNA克隆;其中3个在乳房中检测到,有2个在卵巢mRNA中(图6)。组织cDNA的PCR检测进一步支持了这一观点,即该基因的转录产物靠近5’端具有相当的不均一性;不均一性的分子基础涉及不同的第一剪接供体位点选择,而测得的变化都改变了鉴定出的起始密码子5’区域的转录产物。我们在该5’非翻译区测得6个潜在的其它剪接供体,最长缺失为1,155bp。乳房和卵巢中的主要BRCA1蛋白形式没有外显子4。BRCA1外显子4的核苷酸序列见SEQIDNO11,其预期氨基酸序列见SEQIDNO12。另一BRCA1基因组DNA5’序列显示在SEQIDNO13中。位置1处的G代表在睾丸中的潜在起始位点。位置140处中的A代表体细胞组织中的潜在起始位点。如图8所示,该5’序列有6种不同剪接形式。位置356处的G代表标准的第一剪接供体位点。位置444处的G代表两个克隆(睾丸1和睾丸2)中的第一剪接供体位点。位置889处的G代表胸腺3中的第一剪接供体位点。第四种剪接供体位点是位置1230处的G。位置1513处的T代表所有上述剪接供体的剪接受体位点。第五种不同剪接形式具有在位置349处的第一剪接供体位点,位置591处的第一剪接受体位点,以及位置889处的第二剪接供体位点和位置1513处的第二受体位点。第六种不同形式在该5’区域是非剪接的。位置1532处的A是标准起始位点,它出现在SEQIDNO1的位置120处。测定为BRCA1的部分基因组DNA序列显示在图10A-10H和SEQIDNO14至34中。小写字母(图10A-10H中)表示内含子序列,大写字母表示外含子序列。图10A-10H中以vvvvvvvvvvvvv表示内含子内不确定的间隔。表9列出内含子/外显子的连接。在在外显子8和14的5’端有发现的CAG,位于某些cDNA中但在其它cDNA中则没有发现。图10A-10H中以黑体显示已知的多态性位点,并加有下划线。已知的多态性列于表18和19。表9外长内显子边界显碱基子位置*度No.5’3’5’3’e11100100GATAAATTAAAACTGCGACTGCGCGGCGTG35*GTAGTAGAGTCCCGGGAAAGGGACAGGGGG36e210119999ATATATATATGTTTTTCTAATGTGTTAAAG37GTAAGTCAGCACAAGAGTGTATTAATTTGG38e320025354TTTCTTTTTCTCCCCCCCCTACCCTGCTAG39GTAAGTTTGAATGTGTTATGTGGCTCCATT40e4******111AGCTACTTTTTTTTTTTTTTTTTGAGACAG41GTAAGTGCACACCACCATATCCAGCTAAAT42e525433178AATTGTTCTTTCTTTCTTTATAATTTATAG43GTATATAATTTGGTAATGATGCTAGGTTGG44e633242089GAGTGTGTTTCTCAAACAATTTAATTTCAG45GTAAGTGTTGAATATCCCAAGAATGACACT46e7421560140AAACATAATGTTTTCCCTTGTATTTTACAG47GTAAAACCATTTGTTTTCTTCTTCTTCTTC48e8561666106TGCTTGACTGTTCTTTACCATACTGTTTAG49GTAAGGGTCTCAGGTTTTTTAAGTATTTAA50e966771246TGATTTATTTTTTGGGGGGAAATTTTTTAG51GTGAGTCAAAGAGAACCTTTGTCTATGAAG52e1071378977TCTTATTAGGACTCTGTCTTTTCCCTATAG53GTAATGGCAAAGTTTGCCAACTTAACAGGC54e1179042153426GAGTACCTTGTTATTTTTGTATATTTTCAG55GTATTGGAACCAGGTTTTTGTGTTTGCCCC56e124216430287ACATCTGAACCTCTGTTTTTGTTATTTAAG57AGGTAAAAAGCGTGTGTGTGTGTGCACATG58e1343034476174CATTTTCTTGGTACCATTTATCGTTTTTGA59GTGTGTATTGTTGGCCAAACACTGATATCT60e1444774603127AGTAGATTTGTTTTCTCATTCCATTTAAAG61GTAAGAAACATCAATGTAAAGATGCTGTGG62e1546044794191ATGGTTTTCTCCTTCCATTTATCTTTCTAG63**GTAATATTTCATCTGCTGTATTGGAACAAA64e1647955105311TGTAAATTAAACTTCTCCCATTCCTTTCAG65GTGAGTGTATCCATATGTATCTCCCTAATG66e175106519388ATGATAATGGAATATTTGATTTAATTTCAG67GTATACCAAGAACCTTTACAGAATACCTTG68e185194527178CTAATCCTTTGAGTGTTTTTCATTCTGCAG69GTAAGTATAATACTATTTCTCCCCTCCTCC70e195272531241TGTAACCTGTCTTTTCTATGATCTCTTTAG71GTAAGTACTTGATGTTACAAACTAACCAGA72e205313539684TCCTGATGGGTTGTGTTTGGTTTCTTTCAG73GTAAAGCTCCCTCCCTCAAGTTGACAAAAA74e215397545155CTGTCCCTCTCTCTTCCTCTCTTCTTCCAG75GTAAGAGCCTGGGAGAACCCCAGAGTTCCA76e225452552574AGTGATTTTACATGTAAATGTCCATTTTAG77GTAAGTATTGGGTGCCCTGTCAGTGTGGGA78e235526558661TTGAATGCTCTTTCCTTCCTGGGGATCCAG79GTAAGGTGCCTCGCATGTACCTGTGCTATT80e2455875914328CTAATCTCTGCTTGTGTTCTCTGTCTCCAG81*SEQIDNO1中的碱基编号**指SEQIDNO的编号。***来自SEQIDNO11的e4。低严紧性印迹,即用缺失了锌指区域的BRCA1序列为探针杂交来自不同系统发育背景的生物基因组DNA,发现了人、猴、羊和猪中的强杂交片段,以及鼠中很弱的杂交信号。该结果表明,除了锌指域外,BRCA1在进化过程中只具有中等保守性。17q连锁的亲缘族中的种系BRCA1突变。对BRCA1候选基因最严格的检测,是在分离17q连锁的乳房癌和卵巢癌易患性的亲缘族的携带者个体中,寻找潜在的分裂突变。这类个体一定含有不同于野生型序列的BRCA1等位基因。用于该分析的这组DNA样本,由代表了8个不同BRCA1亲缘族的个体的DNA组成。表10亲缘族说明和关联LOD值亲缘族病例数(n)偶发病LOD值标记例数1(n)乳房癌50岁前的卵巢癌乳房癌208231202279.49D17S1327209922142*02.36D17S800/D17S855220351081*02.25D17S132719011071*01.50D17S855192543000.55D17S579191054000.36D17S579/D17S250219275401-0.44D17S25019118502-0.20D17S2501.不共有在该亲缘族其它病例中分离的BRCA1连锁的单倍型的、患有乳房癌(诊断于50岁前)或卵巢癌(诊断于任何年龄)的妇女人数。2.用两个标记计算而得的多点LOD值。*同时具有患乳房癌和卵巢癌的个体的亲缘族;该个体既算作乳房癌病例又算作卵巢癌病例。17q21中一组标记在这些亲缘族中的优势对数(logarithmoftheodds,LOD)在9.49至-0.44之间。其中4个家族具有令人信服的连锁LOD值,4个具有低正值或负值的LOD值。包括后4个亲缘族是因为它们证明了至少3个发病成员共有染色体17q21上的单倍型。而且,该组中的所有亲缘族都表现出早发乳房癌,而且有4个亲缘族包括了至少一例卵巢癌,两者均是BRCA1亲缘族的标记。亲缘族2082具有近乎相等的乳房癌和卵巢癌发病率,基于群体中较低的卵巢癌发病率而言,这是一个特例。除2个之外的所有亲缘族都在犹他州加以确认。K2035来自中西部。K2099来自美国南部的非洲-美洲亲缘族。在最初对BRCAl中倾向性突变的筛选中,测试了各亲缘族中一个携带有易患单倍型个体的DNA。从基因组DNA样本或从淋巴细胞mRNA制备的cDNA扩增出23个编码外显子和相关的剪接接头。在将扩增出的DNA序列与野生型序列比较时,8个亲缘族实例中4个被发现有序列变异体(表11)。表11倾向性突变亲缘族编号突变体编码结果位置*2082C→TGln→终止40561910多余的C移码53582099T→GMet→Arg54432035?不转录1901缺失11bp移码189*在SEQIDNO1中4种序列变异体都是杂合的,而且每一种都只表现在一个亲缘族中。亲缘族2082含有在编码外显子10中的一个无义突变(图9A),亲缘族1910有一个在外显子19中的单核苷酸插入(图9B),亲缘族2099有一个在编码外显子20中的错义突变,造成Met→Arg取代(图9C)。移码突变和无义突变有可能损害BRCAl产物的功能。由亲缘族1910中的移码等位基因编码的肽含有改变的、从野生型的C末端第107个残基起的氨基酸序列。亲缘族1901的移码等位基因编码的肽含有改变的、从从野生型的N末端第24个残基起的氨基酸序列。亲缘族2082的突变型等位基因编码的蛋白质缺失从C末端起548个残基。亲缘族2099中的错义突变具有潜在的危害性,因为它导致大的带电残基Arg取代了小的疏水性氨基酸Met。还观察到11个共同的多态性,8个在编码序列中,3个在内含子中。亲缘族2035中的被研究个体显然具有BRCAl内的调节型突变。在她的cDNA中,多态性位点(碱基3667处的A→G)表现为纯合的,但她的基因组DNA在此位置表现出杂合性(图9C)。对此结果一种可能的解释是,她的突变BRCAl等位基因的mRNA的丢失是因为突变影响其产生或稳定性。通过检查BRCAl编码区域内的5个多态性位点进一步检验这种可能性,在BRCAl的转录产物中按3.5kb分离这5个位点。在她的基因组DNA对某一多态性表现为杂合的所有情况下,cDNA总是纯合的。在其它亲缘族个体和亲缘族2035的非单倍型携带者中,可以观察到这些多态性位点在cDNA中是杂合的,这暗示由cDNA进行的扩增并不偏向于某个等位基因。该分析表明亲缘族2035的BRCAl突变或者阻碍了转录,或者造成BRCAl转录产物的不稳定性或不正常剪接。BRCA1突变与BRCA1单倍型的共分离和群体频率分析。除了潜在的分解蛋白的功能之外,序列变异体还必须满足两条标准才够格成为候选的倾向性突变。变异体必须1)存在于亲缘族中携带了倾向性BRCA1单倍型的个体中,但不存在于亲缘族的其它个体中,2)鲜见于普通群体中。检查了每一种突变与BRCA1的共分离情况。对于亲缘族1910中的移码突变,对另两个单倍型携带者和一个非携带者进行了测序(图9B)。只有携带者表现出了移码突变。亲缘族2082中C变为T产生了一个新的AvrII限制性位点。对该亲缘族中的其它携带者和非携带者就是否存在该限制性位点进行了检查(图9A)。设计了等位基因特异性寡核苷酸(ASO)在亲缘族2099中检查是否存在序列变异体。针对先前在该亲缘族中测得的突变,利用ASO对该亲缘族中的一些个体进行了筛选,其中有些个体已知带有与倾向性等位基因关联的单倍型,另一些则已知不带关联单倍型。在每个亲缘族中,在携带有BRCA1关联单倍型的个体中都测得了相应的突变型等位基因,而在非携带者中则没有。对于发现调节型突变的亲缘族2035个体,将该亲缘族中携带者的cDNA与基因组DNA就多态性位点的杂合性进行了比较。在各例中,cDNA样本中缺失的等位基因被证明存在于携带有BRCA1倾向性等位基因的染色体上(图9C)。为了排除突变只是群体中一般多态性的可能性,使用针对各种突变的ASO来筛选一组正常DNA样本。根据犹他州群体的随机样本进行高加索人中的基因频率分析。根据M.Peracek-Vance提供的39份样本进行非洲-美洲人中的基因频率分析,这些样本来自她在连锁研究中所用的非洲-美洲人和20个新生的犹他州非洲-美洲人。在适当的对照群体中没有发现4种潜在的倾向性突变中的任何一种,这表明它们在普通群体中很少见。所以,这些候选的倾向性突变满足了成为BRCA1易患性等位基因的两条重要条件1)突变型等位基因与疾病的共分离,2)突变型等位基因不存在于对照中,这表明其在普通群体中基因频率低。BRCA1突变的表型表达。BRCA1蛋白质突变的影响与在BRCA1亲缘族观察到的表型表达差异有关。大多数BRCA1亲缘族有发生卵巢癌风险的中等程度提高,有一较小的家族具有可与乳房癌发病率相比的卵巢癌高风险率(Easton等,1993)。测得BRCA1突变的4个亲缘族中有3个归入前一类,第四个(亲缘族K2082)归入卵巢癌高风险率一组。由于在亲缘族K2082中发现的BRCA1无义突变比其它测得的突变更靠近氨基端,所以预计它可能具有不同的表型。实际上,亲缘族K2082突变具有高的卵巢癌发病率,以及比其它亲缘族迟的平均乳房癌诊断年龄(Goldgar等人,1994)。这一发病年龄上的差异可能是因为较小的、外显率更高的家族中的确证偏离,或者,这可能反映BRCA1突变表现的组织特异性差异。分离已知BRCA1突变的其它3个亲缘族中每十个乳房癌病例中有一例卵巢癌,但在25-30岁至30出头诊断为乳房癌的比例较高。发生移码突变的亲缘族1910值得注意,因为4个发病者中有3个患有双侧乳房癌,而且其中的第二个肿瘤都是在第一个出现后一年内诊断的。分离潜在的调节型BRCA1突变的亲缘族2035估计也具有出人意料的表型。该亲缘族中50岁之前的乳房癌发病率为80%。这一数据和该组中的任一亲缘族一样高,由此指示了一个具有高度外显率的BRCA1突变型等位基因(表10)。虽然以上清晰描述的突变是有害的,使得妇女在很年轻时就发生乳房癌,但发生突变的4个亲缘族都有至少一位妇女携带有突变但活到80岁而并不发生恶性病症。在以后的研究中最重要的是,鉴定能够改善BRCA1突变效果的其它遗传或环境因素。在8个推断的BRCA1连锁的亲缘族中有4个并未在其中发现潜在的倾向性突变。这4个中有3个与BRCA1连锁的标记的LOD值低于0.55。所以,这些亲缘族可能实际上并不分离BRCA1倾向性等位基因。或者,这4个亲缘族中的突变发生在影响转录水平的BRCA1区域内,因而被漏检。BRCA1在癌肿中的作用。迄今已鉴定的大多数肿瘤抑制基因产生功能丧失、失效或减退的蛋白质产物。TP53突变主要是错义;其中有些已被证明产生干扰野生型产物功能的异常p53分子(Shaulian等人,1992;Srivastava等人,1993)。对于有些产生截短分子的家族性多发性结肠息肉症(APC)等位基因(Su等人,1993)和改变蛋白质的DNA结合位点的Wilms肿瘤基因(WT1)中点突变(Little等人,1993),提出了类似的显性的负向作用机制。在BRCA1编码序列中观察到的突变特征与显性的负向蛋白或非功能性蛋白的产生相一致。亲缘族2035中的推断的调节型突变不可能是显性负向的;这种突变更可能导致患者等位基因的BRCA1表达的降低或完全丧失。BRCA1蛋白包含一个C3HC4锌指域,这与在许多DNA结合蛋白中发现的并与核酸的锌依赖性结合有关的锌指域相似。BRCA1前180个氨基酸中的碱性残基比酸性残基多5个。相反,分子的其余部分酸性很强,净超出70个酸性残基。超出的负电荷尤其集中于C末端。所以,一种可能性是BRCA1编码一种转录因子,该因子具有N末端的DNA结合域和C末端的反式激活“酸点(acidicblob)”域。有趣的是,另一家族的肿瘤抑制基因WT1也具有类似的锌指基序(Haber等人,1990)。WT1内的许多癌肿倾向性突变改变了锌指域(Little等人,1993;Haber等人,1990;Little等人,1992)。WT1编码一种转录因子,对编码锌指域的外显子的各种剪接改变了WT1的DNA结合特性(Bickmore等人,1992)。某些WT1mRNA的其他剪接形式产生作为转录抑制剂的分子(Drummond等人,1994)。某些BRCA1剪接变异体可能改变锌指基序,这提高了类似于WT1中的调节机制适用于BRCA1的可能性。实施例9BRCA1突变肿瘤的分析为了将分析集中于最可能包含BRCA1突变的肿瘤,根据BRCA1区内的LOH对原发性乳房癌和卵巢癌进行分型。使用三个高度多态性、简单串联重复标记来评价LOHBRCA1基因内的D17S1323和D17S855,以及距BRCA1远端约100kb的D17S1327。有信息的病例中乳房癌的合并LOH频率(即,种系为杂合子的)为32/72(44%),卵巢癌的为12/21(57%),这与过去该区域的LOH测定值一致(Futreal等人,1992b;Jacobs等人,1993;Sato等人,1990;Eccles等人,1990;Cropp等人,1994)。这一分析确定了一组病例以检查是否有BRCA1突变,该组病例由不同种族、不同发病年龄的32例乳房肿瘤和12例卵巢肿瘤病例构成。单独通过直接测序,或将单链构象分析(SSCA)于直接测序联用,而筛选出基因的完整的5,589bp编码区和内含子/外显子边界序列。总共发现6例突变,一例在卵巢肿瘤中,4例在乳房肿瘤中,1例在一男性不发病的单倍型携带者中(表12)。突变之一,Glu1541Ter,引入了一个终止子,这将产生羧基端缺失273个氨基酸的截短的蛋白质。此外,鉴定了两例错义突变。它们是Ala1708Glu和Met1775Arg,并且涉及小的、疏水性残基被带电残基所取代。病人17764和19964来自同一家族。在病人OV24中,核苷酸2575缺失,病人17764和19964中,核苷酸2993-2996缺失。表12倾向性突变病人密码子核苷酸变化氨基酸变化发病年龄家族史BT0981541GAT→TAGGlu→终止39-OV24819缺失1bp移码44-BT1061708GCG→GAGAla→Glu24+MC441775ATG→AGGMet→Arg42+17764958缺失4bp移码31+19964958缺失4bp移码+**不发病的单倍型携带者,男性有几条证据表明,所有5种突变代表了BRCA1易患性等位基因(I)全部突变都存在于种系中;(ii)全部突变都不存在于适当的对照人群中,这表明它们不是一般的多态性;(iii)每一种突变型等位基因都保留在肿瘤中,正如同来自分离BRCA1易患性等位基因的亲缘族的病人肿瘤中的情况(Smith等人,1992;Kelsell等人,1993)(如果突变代表的是中性多态性,它们应该只保留于50%的病例中);(iv)4例发生突变的乳房癌病例的发病年龄在24至42岁之间,与BRCA1易患性个体的乳房癌早发年龄相一致;类似的,卵巢癌诊断于44岁,该年龄归于所有卵巢癌病例中最年轻的13%之中;最后(v)回顾其医疗记录,5例中有3例具有阳性乳房癌或卵巢癌家族史,尽管肿瘤组并不是据此选择的。BT106在24岁被诊断为乳房癌。其母亲患有卵巢癌,其父亲患有黑素瘤,其祖母也患有乳房癌。病人MC44,非洲-美洲混血儿,在42岁时诊断为双侧乳房癌。该病人有一姊妹在34岁死于乳房癌,另一姊妹死于淋巴癌,以及一兄弟死于肺癌。她的突变(Met1775Arg)先前曾在亲缘族2099(一个分离BRCA1易患性等位基因的非洲-美洲混血家族)中测得过,但不存在于非洲-美洲混血和高加索对照中。据我们所知,病人MC44与亲缘族2099无关。一次在BRCA1亲缘族中,一次在明显不相关的早发型乳房癌病例种系中发现一种稀有的突变型等位基因表明,Met1775Arg改变可能是非洲-美洲混血家族中的常见倾向性突变。总而言之,这些观察结果表明肿瘤中的全部4种突变代表了易患性等位基因;在接受分析的样本中没有检测到体细胞突变。根据17q上的LOH频率以及通常的易患性基因作为肿瘤抑制基因在癌肿发展过程中的作用,没有体细胞BRCA1突变是意料之外的。对此有3种可能的解释(i)我们的筛选过程遗漏了一些编码序列中的BRCA1突变;(ii)BRCA1体细胞突变在编码外显子之外;(iii)17q中的LOH并不反映体细胞突变。如果在乳房癌和卵巢癌中,体细胞BRCA1突变确实少见,那么这将是BRCA1生物学的强烈暗示。体细胞BRCA1突变的表观缺失暗示,与普通群体中的肿瘤相比,遗传倾向性BRCA1携带者中肿瘤的发生可能存在着根本的差异。例如,BRCA1中的突变可能只对乳房癌和卵巢癌发育早期某一特定阶段的肿瘤形成有作用。这种可能性与更年期前乳房癌中的BRCA1的主要功能相一致。这种BRCA1在乳房癌和卵巢癌中的作用模型预计了生殖激素与BRCA1功能之间的一种相互作用。但是,除了发病年龄之外,还未曾有过在家族性和偶发性的乳房癌和卵巢癌之间存在临床或病理学差异的描述(Lynch等人,1990)。另一方面,最近的发现,即具有乳房癌家族史的病人其乳腺肿瘤中的TP53突变和微卫星(microsatellite)不稳定性的增加(Glebov等人,1994),可能反映遗传倾向性个体中肿瘤发生的某些差异。现在可以直接论及BRCA1在这种现象中的关系。或者,体细胞BRCA1突变的缺乏可能是因为存在着多个基因,它们以与BRCA1相同的肿瘤抑制路径起作用,但共同代表着偶发肿瘤中更为优先的突变目标。因为遗传路径中单个元件的突变通常就足以使路径中断,所以BRCA1的突变率可能远低于其它元件突变频率的总和。在日本进行了独立的研究,以分析肿瘤的BRCA1突变。对一组103个病人进行BRCA1突变的筛选,该组病人代表了早发型病例(<35岁)(46个病人)、多发性家族成员(12个病人)和/或患双侧乳房癌的病人(59个病人)。通过单链构象多态性(SSCP)分析,筛选这些病人的原发性乳房肿瘤是否在BRCA1编码外显子中有突变。对于3425bp长的外显子11,设计PCR引物以便分别扩增出该外显子的11个重叠片段。其他22个外显子中每个外显子都各自在单个PCR中扩增。这样,对每个病例都进行33个PCR-SSCP分析。在4个病人中检测到突变,这4个病人都患双侧乳房癌(表12A)。一个突变因为在密码子797处缺失2bp(缺失AA)而造成移码突变。这造成一个截短的蛋白质,它缺失COOH端的1065个氨基酸。第二个突变在密码子1214处,因密码子第一个核苷酸的G→T转变而造成无义突变。这导致在该位点处的谷氨酸被成熟前终止的密码子所置换,从而造成在COOH端缺失649个氨基酸的蛋白质。含有两个错义突变。一个是在密码子271处的第一个核苷酸由G→A,从而导致Val→Met置换。另一个是在密码子1150处(密码子的第一个核苷酸由C→T),它导致Pro→Ser置换,这种置换是用极性的、不带电荷的氨基酸替换疏水的、非极性的氨基酸。发现这些突变都是种系突变。在这4个病人中,平均发病年龄是49岁。这些研究还发现一个共同的中性多态性在密码子771处的第一个核苷酸是C或T。表12A倾向性突变病人密码子核苷酸变化氨基酸变化发病年龄231150CCT→TCTPro→Ser49&amp;64441214GAG→TAGGlu→终止51&amp;5198271GTG→ATGVal→Met45&amp;451007972bp缺失移码50&amp;715482-4834bp缺失移码456856TAT→CATTyr→His547271GTG→ATGVal→Met49&amp;4988521bp缺失移码62尽管病人98和7的突变相同,但是他们相互之间没有关系。实施例10BRCA1基因的分析按照以下方法测定BRCA1基因的结构与功能。生物学研究。构建包含了BRCA1cDNA的哺乳动物表达载体,将其转染入该基因损伤的合适的乳房癌细胞。使用的是野生型的BRCA1cDNA和变异过的BRCA1cDNA。变异过的BRCA1cDNA可取自变异的BRCA1等位基因,或者如下产生。检查培养物中的表型回复(如细胞形态、倍增时间、不依赖贴壁生长情况)和动物中的表型回复(如生瘤性)。研究将同时使用基因的野生型和突变型形式(B部分)。分子遗传学研究。进行体外诱变以构建缺失突变体和错义突变体(通过个别密码子中的单碱基对取代和带电簇→丙氨酸扫描诱变)。突变体被用于生物学、生物化学和生理学研究中。机制研究。检查BRCA1蛋白与已知和未知DNA序列的结合能力。利用哺乳动物细胞中的瞬时报道基因表达系统分析其反式激活启动子的能力。常规方法例如颗粒捕获和酵母双杂交体系统(yeasttwo-hybridsystem)被用于发现和鉴定各种功能性配偶体。对配偶体的特性和功能进行描述。这些配偶体因此而成为药物开发的目标。结构研究。在大肠杆菌(E.coli)、酵母、昆虫和/或哺乳动物细胞中生产重组蛋白,将其用于结晶学和NMR研究中。还使用了蛋白质的分子模型。这些研究有助于基于结构的药物研究。实施例11检测样本中有否BRCA1的两步试验根据Antonarakis等人(1985)所述的方法对病人的样品进行处理,经1%琼脂糖凝胶电泳分离,转移到尼龙膜上进行Southern印迹分析。利用GS基因连接仪(Bio-Rad)在150mJ对膜进行UV交联。将对应于SEQIDNO1中核苷酸位置3631-3930的BRCA1探针亚克隆在pTZ18U中。将此噬菌粒转化入经辅助噬菌体M13KO7(Bio-Rad,Richmond,CA)感染的大肠杆菌(E.coli.)MV1190。根据标准方法分离出单链DNA(参见Sambrook等人,1989)。印迹在0.5MNaPO4中的7%十二烷基硫酸钠(SDS)中,在65℃预杂交15至30分钟。此方法按照Nguyen等人,1992所述进行。印迹与25-50ng/ml单链探针DNA在65℃,在7%SDS、0.5MNaPO4中杂交过夜。杂交后洗涤包括两次用5%SDS、40mMNaPO4在65℃洗涤30分钟,然后两次用1%SDS,40mMNaPO4在65℃洗涤30分钟。接着,印迹用磷酸盐缓冲液(pH6.8)在室温下洗涤5分钟,用0.2%酪蛋白的PBS溶液室温下孵育30-60分钟,然后用PBS洗涤5分钟。然后,印迹与杂交缓冲液(包含6M尿素,0.3MNaCl和5×Denhardt’s溶液(参见Sambrook等人,1989)在振荡水浴中预孵育5至10分钟。去除缓冲液,代之以50-75μl/cm2新鲜的杂交缓冲液和2.5nM共价交联的寡核苷酸-碱性磷酸酶偶联体,其中的核苷酸序列与通用引物位点互补(UP-AP,Biod-Rad)。印迹在45℃杂交20-30分钟,杂交后洗涤为在45℃孵育,即两次在6M尿素、1×标准柠檬酸盐溶液(SSC)、0.1%SDS中洗涤10分钟,一次在1×SSC、0.1%TritonX-100中洗涤10分钟。室温下以1×SSC洗涤印迹10分钟。印迹在含有0.1M二乙醇胺、1mMMgCl2,0.02%叠氮钠、pH10.0的底物缓冲液中,在室温下振荡孵育10分钟。各个印迹与底物缓冲液和0.2mMAMPPD(3-(2’-螺金刚烷)-4-甲氧基-(3’-磷酰氧)苯基-1,2-二噁烷二钠盐,Biod-Rad)一起置于垫封口袋中。室温下振荡孵育20分钟后,去除过量的AMPPD溶液。印迹与X光片曝光过夜。阳性条带表示有BRCA1存在。实施例12抗BRCA1的多克隆抗体的产生以融合蛋白形式在大肠杆菌中表达BRCA1编码序列的片段。凝胶洗脱纯化高表达蛋白,按照类似于Harlow和Lare,1988所述的方法,将其用于免疫兔和小鼠。该方法已被证明能够产生抗多种其它蛋白质的抗体(例如,参见Kraemer等人,1993)。简而言之,将一段BRCA1编码序列作为融合蛋白克隆到质粒PET5A(Novagen,Inc.,Madison,WI)中。含有BRCA1的序列包含对应于SEQIDNO2中#1361-1554的氨基酸。用IPTG诱导后,由SDS/PAGE证实具有期望分子量的融合蛋白的高表达。利用电洗脱从凝胶上纯化融合蛋白。通过N末端蛋白质测序证明了该蛋白是BRCA1融合产物。接着,将纯化蛋白用作兔的免疫原。用100μg溶于完全Freund’s佐剂中的蛋白质来免疫兔,并以3周为间隔加强免疫2次,第一次用溶于完全Freund’s佐剂中的100μg免疫原,后一次用溶于PBS中的100μg免疫原。两周后收集含有抗体的血清。重复该方法以产生抗BRCA1基因突变型的抗体。这些抗体与野生型BRCA1的抗体一起可用于检测各种组织和生物体液中突变型的存在和相对水平。实施例13BRCA1特异性单克隆抗体的产生根据以下方法生产单克隆抗体。以众所周知的方法利用戊二醛或EDC将完整BRCA1或BRCA1肽(野生型或突变型)与匙孔血蓝蛋白偶联,以此作为免疫原免疫小鼠。免疫原是与某种佐剂混合的。每个小鼠注射4次10至100μg免疫原,在第4次注射后采集小鼠的血样,测定血清中有否免疫原的抗体。利用ELISA或RIA测定血清的效价。挑选血清中含有针对免疫原的抗体的小鼠用于产生杂交瘤。从免疫鼠中取出脾脏,制备单细胞悬液(参见Harlow和Lane,1988)。基本上按照Kohler和Milstein(1975年)所述的方法进行细胞融合。简而言之,根据Harlow和Lane,1988所述,用聚乙二醇将P3.65.3骨髓瘤细胞(美国典型培养物保藏中心,Rockville,MD)和免疫脾细胞融合在一起。按2×105细胞/孔的密度将细胞置于96孔的组织培养板上。检查各孔是否有细胞的生长,并且对生长的孔中的上清液通过ELISA或RIA,用野生型或突变型BRCA1靶蛋白进行测试以确定BRCA1特异性抗体的存在。对阳性孔中的细胞继续进行培养并且亚克隆以获得并证实单克隆性。具有所需特异性的克隆在小鼠中作为腹水或者在空心纤维系统中继续繁殖和生长,从而产生出足够的抗体供定性和分析之用。实施例14BRCA1的夹心分析将单克隆抗体连于固相表面,例如板、试管、珠或颗粒。较佳地,抗体被附着于96孔ELISA板的孔表面。将含有BRCA1肽/蛋白质(野生型或突变型)的100微升样品(例如血清、尿液、组织胞液)加至固相抗体。样品在室温下孵育2小时。接着倒去样品液体,用缓冲液洗涤固相以去除非结合的物质。将100μl第二种单克隆抗体(针对BRCA1肽/蛋白质的不同的抗原决定簇)加至固相。该抗体是用检测分子(例如125I、酶、荧光基团、生色基团)标记的。固相和第二种抗体在室温下孵育2小时。倒去第二种抗体,用缓冲液洗涤固相以去除非结合的物质。定量地测定结合标记物的数量,它与样品中BRCA1肽/蛋白质的数量成正比。再使用对野生型BRCA1特异的单克隆抗体以及对各种BRCA1突变特异的单克隆抗体进行分析。实施例15分析BRCA1突变用于筛选BRCA1突变的DNA样品,是从参与乳房癌遗传研究的、患乳房癌或卵巢癌的病人(或通过单倍型分析确定的已知携带者)的血液或肿瘤样品中抽提出的。所有的对象都签了合适的、提供信息的同意书。表13详细列出了各套筛选样品的样品数目、确定标准和筛选方法。表13用于筛选BRCA1突变的各套DNA样品样本来源样本描述1筛选方法2筛选的样本目前已发现数目突变的数目UTAH-2乳房癌/卵巢癌家族SEQ102MONTREAL乳房癌/卵巢癌家族SEQ3013MSKCC-1乳房癌和乳房癌/卵巢癌家族SEQ142MSK/UT-1早发型乳房癌病例SEQ241STRANG乳房癌和乳房癌/卵巢癌家族SEQ124STOCKHOLM乳房癌和乳房癌/卵巢癌家族SEQ154USC-1两侧乳房癌先证者,高危SEQ73TUMOR-3早发型乳房肿瘤SEQ141USC-2侧乳房癌<50岁+1°相关乳ASO595房癌MSK/UT-2早发型乳房癌病例ASO1093YN两侧;早发型SSCA1034Texas乳房癌/卵巢癌家族SEQ152Utah乳房癌/卵巢癌家族SEQ101Pisa乳房癌/卵巢癌家族SEQ214TumorlmodSEQ1MSKCC-2早发型乳房癌病例SEQ2131大多数样本组含有样品的异源混合物。给出了各套的最具代表性的描述。2SEQPCR产物的直接测序;SSCA单链构象分析;ASO等位基因特异性寡聚物尽管通过筛选cDNA而检测Miki等人(1994)描述的原始突变,但是对于大多数其余样品使用25对内含子PCR引物扩增来自基因组DNA的完整的编码序列和剪接部位。最新的引物信息可通过匿名的fpt从morgan.med.utah.edu的目录pub/BRCA1下公开获得。可能的话,测试DNA序列变异在家族中与乳房癌或卵巢癌的共分离情况。通过证明在一组对照个体中缺乏假定的突变,进一步提供了序列变异体在癌症中起因果作用的证据。用ASO杂交技术在大量的选定样品中筛选上述特异性突变。表14描述了许多突变,它们的发现是通过筛选整个BRCA1编码序列和内含子/外显子边界以及通过发现还原成cDNA中单态性位点的基因组DNA多态性位点。发现了2个共同的突变,然后用ASO分析检查它们在其他样品中的频率(表15)。表16和17描述了分别按类型和按BRCA1编码序列中的位置而确定的突变的分布。目前,大多数鉴定的突变是移码突变。目前为止在全球范围,在BRCA1编码序列中发现的各种突变中,还没有发现统计上明显偏离BRCA1编码序列范围内的随机分布(x2=2.00,2df,p=0.37)。表14通过完全筛选BRCA1基因而鉴定的突变<p>表14(续)通过完全筛选BRCA1基因而鉴定的突变</tables>1FS移码;NS无义;MS错义;SP剪接位点。2对于错义和无义突变,突变描述包括野生型氨基酸、受累者的氨基酸、改变的氨基酸(或终止)。对于移码突变,格式为核苷酸、插入或缺失、具体改变的核苷酸(若<3)或者插入或缺失的数目(若>2),以及因移码而导致终止信号的氨基酸(解释插入或缺失)。核苷酸参照GENBANK索引号No.U-14680的BRCA1cDNA序列。3该家族中的突变在Myriad和UniversityofPennsylvaniaLabs两地都独立地被鉴定。4该肿瘤中鉴别出的突变也在该个体的种系中发现。表15两种共同BRCA1突变的频率发现的突变数目组别研究的数目185缺失AG5382插入CUSC-15941MSK/UT-210930GLASGOW-2100未测试3GLASGOW-3100未测试2CRC-OV250未测试1表16观察到的不同类型突变的频率数目(百分比)突变类型不同的突变1所有突变2移码42(65)81(72)无义10(16)13(12)错义9(14)14(12)其他3(5)5(4)1在该列中,相同的突变被计为一种。2在该列中鉴别出突变的每个样本被计数。表17鉴别出的突变在BRCA1编码序列中的分布氨基酸突变1-621622-12421243-1863不同的182321所有的442839已在基因的许多不同区域发现了突变,表型上严重的突变在基因极靠5′端和极靠3′端的地方都有发现。在一个有7个早发型乳房癌病例的家族中发现了一个这样的突变,它产生的蛋白质仅缺失末端的10个氨基酸,这表明BRCA1的这个区域在正常的基因功能中起作用。值得注意的是,在BRCA1中占绝大多数的改变是造成不稳定的或截短的蛋白质产物的移码或无义突变。目前为止,在BRCA1中有两个突变似乎较普遍。通过直接测序,在密码子1756处的5382插入C(5382insC)形式的BRCA1突变和在密码子23处的185缺失AG(185delAG)形式的突变,分别在鉴别突变的最初研究中所研究的68个先证者中的7个(10%)和8个(12%)被鉴别出。除了这些共同的突变,通过对cDNA的完全筛选还在一个以上的家族中发现其他突变形式。目前用于筛选BRCA1突变的许多先证者,是根据含有这些突变的高前概率而被选出的。因此,在该组中发现的突变可能并不代表那些在其他组病人中可能鉴别出的突变。然而,两个最常见的BRCA1突变(5382insC和185delAG)已经在多组先证者(这些先证者或者是没有根据家族史而选择,或者用最少家族史而加以确定)的定向筛选中被多次发现。除了上面所示的突变,在筛选样本中还检测到许多多态性。这些多态性列于表18和19。表18在BRCA1基因组DNA的外显子中的多态性名称外显子#密码子碱基位置1碱基变化效应PM01113561186AGglnargPM021314364427TCserserPM031616134956AGserglyPM06118712731CTproleuPM071111833667AGlvsargPM09116942201CTserserPM10117712430TCleuleuPM121615614801CTthrilePM141110383233AGglugluPM179197710CTcyscysPM18116932196GAaspasnPM19118412640CTargtrpPM201110403238GAserasnPM214612483CTalavalPM22113271100AGthrthrPM231113164067CApheleuPM241110083143GAmetilePM251113164067CGpheleuPM261113224083AGlysgluPM271113474158AGargglyPM28117072240TCglyglyPM29116752144ACalaala1在SEQIDNO1中所示的碱基位置2包含在编码区域中的外显子4的密码子号码3在SEQIDNO11中所示的碱基位置(仅外显子4单独)表19在BRCA1基因组DNA内含子中的多态性名称内含子#碱基位置1碱基变化效应PM041115284CA未知PM051820334AG未知PM111619231GA未知PM1589106缺失T未知PM162222914TC未知PMA02.111295GA未知PMA03.122141GC未知PMA06.153653AG未知PMA07.17在4391-4392间插入TTC未知PMA08.176538CT未知PMA08.286823AT未知PMA09.299376TC未知PMA13.11316243GA未知PMA15.114在17335-17336间插入CCAAC未知PMA15.21417399AT未知PMA15.31417473CG未知PMA18.11720138CT未知PMA22.12122680AG未知1在图10A-H中所示的碱基位置工业实用性如上所述,本发明提供了用于检测个体BRCA1等位基因的材料与方法,以及对等位基因正常或倾向性特性的解释。发病风险高于正常的个体可适当地改变其生活方式。在BRCA1病例中,最主要的非遗传性风险因子具有早期、全程妊娠的保护作用。所以,具有发病危险的妇女可以考虑提早生育或采取激发早期全程妊娠激素作用的治疗方法。具有高发病风险的妇女还应该力求早期检查,并更积极地学习和实践乳房自查。这些妇女还应更多地进行定期乳房X线照片,开始的年龄可能早于普通人群。还应该进行较高频率的卵巢癌检查。以BRCA1基因座的序列分析为基础的诊断方法也可用于肿瘤的检测和分类。序列分析可用于诊断前体损伤。随着方法的改进以及有关BRCA1和其它致病基因座的信息的累积,区分良性还是恶性的癌肿将成为可能。如果是倾向性的,因而与不是倾向性的妇女相比更可能发生其它癌肿的妇女应接受各种不同的手术治疗。使用肽或小分子(合理的药物设计)可以发展出其它治疗方法。肽可能是缺失基因产物本身或缺失基因产物的一部分。或者,治疗剂可以是另一种分子,它模拟缺失基因的功能,是能够抵抗遗传基因座有害作用的肽或非肽类分子。治疗方法还可以是以基因为基础的,即给个体引入正常的BRCA1等位基因,以产生能够抵抗有害等位基因作用的蛋白质。这些基因治疗可以是多种形式的,可以是直接阻止肿瘤的形成,从而在癌肿刚发生时将其治愈,或者是阻止癌肿的转移。很明显,本发明的方法和内容可以用于各种不同的实施例中,其中只有一小部分公开于此。本领域中的熟练技术人员知晓,还存在其他的实施方式,这些都是属于本发明范围之内。因此,上述的实施例只用于阐述目的,并不用于限制目的。参考文献清单Altschul,S.F.等人(1990).“分子生物学杂志”(J.Mol.Biol.〕215195-197.美国癌症协会(AmericanCancerSociety),癌症事实&amp;数据-1992(CancerFacts&amp;Figures-1992)。(美国癌症协会(AmericanCancerSociety),亚特兰大,GA)。Anand,R.(1992).分析复杂基因组的技术(TechniquesfortheAnalysisofComplexGenomes),(AcademicPress).Anderson,等人(1980).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)775399-5403.Anderson,D.E.(1972).″国立癌症研究所杂志″(J.Natl.CancerInst.)481029-1034.Anderson,J.A.,等人(1992).″耳鼻喉科学杂志″(J.Otolaryngology)21321.Antonarakis,S.E.,等人(1985).“新英国医学杂志”(NewEng.J.Med.)313842-848.Ausubel,F.M.,等人(1992),分子生物学中目前方案(CurrentProtocolsinMolecularBiology),(J.WileyandSons,N.Y.)Beaucage&amp;Carruthers(1981).″四字符″(Tetra.Letts.)221859-1862.Berkner(1992).“微生物学免疫学的当前课题”(Curr.Top.Microbiol.Immunol.)15839-61.Berkner,等人(1988).“生物技术”(BioTechniques)6616-629.Bickmore,W.A.,等人(1992).“科学”(Science)257235-7.Bishop,D.T.,等人(1988).″遗传流行病″(Genet.,Epidemiol.)5151-169.Bishop,D.T.和Gardner,E.J.(1980).InBanbury报道之4在限定人群中的癌症发生(BanburyReport4CancerIncidenceinDefinedPopulations)(J.Cairns,J.L.Lyon,M.Skolnick,eds.),ColdSpringHarborLaboratory,ColdSpringHarbor,N.Y.,309-408.Botstein,等人(1980).“美国人类遗传学杂志”(Am.J.Hum.Genet.)32314-331.Bowcock,A.M.,等人(1993).“美国人类遗传学杂志”(Am.J.Hum.Genet.)52718.Brandyopadhyay和Temin(1984).″分子细胞生物学″(Mol.Cell.Biol.)4749-754.Breakfield和Geller(1987).″分子神经生物学″(Mol.Neurobiol.)1337-371.Brinster,等人(1981).″细胞″(Cell)27223-231.Buchschacher和Panganiban(1992).″病毒学杂志″(J.Virol.)662731-2739.Buckler,等人(1991).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)884005-4009.Cannon-Albright,L.,等人(1994).″癌症研究″(CancerResearch)542378-2385.Capecchi,M.R.(1989).“科学”(Science)2441288.Cariello(1988).″人类遗传学″(HumanGenetics)42726.Claus,E.,等人(1991).“美国人类遗传学杂志”(Am.J.Hum.Genet.)48232-242.Conner,B.J.,等人(1983).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)80278-282.Constantini和Lacy(1981).″自然″(Nature)29492-94.Cotten,等人(1990).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)874033-4037.Cotton,等人(1988).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)854397.Cropp,C.S.,等人(1994).″癌症研究″(CancerRes.)542548-2551.Culver,等人(1992).“科学”(Science)2561550-1552.Curiel,等人(1991a).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)888850-8854.Curiel,等人(1991b).″人基因治疗″(Hum.GeneTher.)3147-154.Deutscher,M.(1990).″酶学方法″(Meth.Enzymology)182(AcademicPress,SanDiego,Cal.).Donehower,L.A.,等人(1992).″自然″(Nature)356215.Drummond,I.A.,等人(1994).″分子细胞生物学″(Mol.CellBiol.)143800-9.Easton,D.,等人(1993).“美国人类遗传学杂志”(Am.J.Hum.Genet.)52678-701.Eccles,D.M.,等人(1990).″癌基因″(Oncogene)51599-1601.增强子和真核基因表达(EnhancersandEurkaryoticGeneExpression),ColdSpringHarborPress,ColdSpringHarbor,NewYork(1983).Erickson,J.等人,(1990).“科学”(Science)249527-533.Fain,P.R.(1992).″细胞发生细胞遗传学″(Cytogen.CellGenet.)60178.Felgner,等人(1987).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)847413-7417.Fiers,等人(1978).″自然″(Nature)273113.Fink,等人(1992).″人基因治疗″(Hum.GeneTher.)311-19.Finkelstein,J.,等人(1990).″基因组″(Genomics)7167-172.Freese,等人(1990).″生物化学药物学″(Biochem.Pharmacol.)402189-2199.Friedman,T.(1991).遗传疾病治疗(InTherapyforGeneticDiseases),T.Friedman,ed.,OxfordUniversityPress,pp.105-121.Futreal(1993).博士论文,UniversityofNorthCarolina,ChapelHill.Futreal,A.,等人(1992a).″人类分子遗传学″(Hum.Molec.Genet.)1∶66.Futreal,P.A.,等人(1992b).″癌症研究″(CancerRes.)522624-2627.Glebov,O.K.,等人(1994).″癌症研究″(CancerRes.)543703-3709.Glover,D.(1985).″DNA克隆″(DNACloning),IandII(OxfordPress).Go,R.C.P.,等人(1983).″国立癌症研究所杂志″(J.Natl.CancerInst.)71455-461.Goding(1986).单克隆抗体原理和实践(MonoclonalAntibodiesPrinciplesandPractice),2版.(AcademicPress,N.Y.).Godowski,等人(1988).“科学”(Science)241812-816.Goldgar,D.E.,等人(1994).″国立癌症研究院杂志″(J.Natl.Can.Inst.)863200-209.Gordon,等人(1980).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)777380-7384.Gorziglia和Kapikian(1992).″病毒学杂志″(J.Virol.)664407-4412.Graham和vanderEb(1973).″病毒学″(Virology)52456-467.Grompe,M.,(1993).″自然遗传学″(NatureGenetics)5111-117.Grompe,M.,等人,(1989).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)865855-5892.Guthrie,G.&amp;Fink,G.R.(1991).酵母遗传学和分子生物学导向(GuidetoYeastGeneticsandMolecularBiology)(AcademicPress).Haber,D.A.,等人(1990).″细胞″(Cell)611257-69.Hall,J.M.,等人(1990).“科学”(Science)2501684-1689.Hall,J.M.,等人(1992).“美国人类遗传学杂志”(Am.J.Hum.Genet.)501235-1241.Harlow&amp;Lane(1988).抗体实验室手册(AntibodiesALaboratoryManual)(ColdSpringHarborLaboratory,ColdSpringHarbor,N.Y.Hasty,P.,K.,等人(1991).″自然″(Nature)350243.Helseth,等人(1990).″病毒学杂志″(J.Virol.)642416-2420.Hodgson,J.(1991).″生物技术″(Bio/Technology)919-21.Huse,等人(1989).“科学”(Science)2461275-1281.Innis等人(1990).PCR方案方法和应用引导(PCRProtocolsAGuidetoMethodsandApplications)(AcademicPress,SanDiego,Cal.).Jablonski,E.,等人(1986).″核酸研究″(Nuc.AcidsRes.)146115-6128.Jacobs,I.J.,等人(1993).″癌症研究″(CancerRes.)531218-1221.Jakoby,W.B.和Pastan,I.H.(eds.)(1979).细胞培养.酶学方法(CellCulture.MethodsinEnzymology),栏58(volume58)(AcademicPress,Inc.,HarcourtBraceJovanovich(NewYork)).Jeffreys,等人(1985).″自然″(Nature)31467-73.Johnson,等人(1992).″病毒学杂志″(J.Virol.)662952-2965.Kamb,A.等人(1994).“科学”(Science)264436-440.Kandpal,等人(1990).″核酸研究″(Nucl.AcidsRes.)181789-1795.Kaneda,等人(1989).″生物化学杂志″(J.Biol.Chem.)26412126-12129.Kanehisa(1984).″核酸研究″(Nucl.AcidsRes.)12203-213.Kelsell,D.P.,等人(1993).″人类分子遗传学″(HumanMol.Genet.)21823-1828.Kinszler,K.W.,等人(1991).“科学”(Science)2511366-1370.Knudson,A.G.(1993).″自然遗传学″(NatureGenet.)5103.Kohler,G.和Milstein,C.(1975).″自然″(Nature)256495-497.Kozak,M.(1987).″核酸研究″(NucleicAcidsRes.)158125-8148.Kraemer,F.B.等人(1993).″脂类研究杂志″(J.LipidRes.)34663-672.Kubo,T.,等人(1988).FEBSLetts.241119.Landegren,等人(1988).“科学”(Science)242229.Lim,等人(1992).″循环系统″(Circulation)832007-2011.Lindsay,S.,等人(1987).″自然″(Nature)327336-368.Litt,等人(1989).“美国人类遗传学杂志”(Am.J.Hum.Genet.)44397-401.Little,M.H.,等人(1992).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)894791.Little,M.H.,等人(1993).″人类分子遗传学″(Hum.Mol.Genet.)2259.Lovett,等人(1991).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)889628-9632.Lynch,H.T.,等人(1990).″妇科肿瘤学″(Gynecol.Oncol.)3648-55.Madzak,等人(1992).″遗传病毒学杂志″(J.Gen.Virol.)731533-1536.Malkin,D.,等人(1990).“科学”(Science)2501233-1238.Maniatis.T.,等人(1982).分子克隆实验室手册(MolecularCloningALaboratoryManual)(ColdSpringHarborLaboratory,ColdSpringHarbor,N.Y.).Mann和Baltimore(1985).″病毒学杂志″(J.Virol.)54401-407.Margaritte,等人(1992).“美国人类遗传学杂志”(Am.J.Hum.Genet.)501231-1234.Margolskee(1992).“微生物学免疫学的当前课题”(Curr.Top.Microbiol.Immunol.)15867-90.Martin,R.,等人(1990).“生物技术”(BioTechniques)9762-768.Matteucci,M.D.和Caruthers,M.H.(1981).″美国化学协会杂志″(J.Am.Chem.Soc.)1033185.Matthews&amp;Kricka(1988).″分析化学″(Anal.Biochem.)1691.Merrifield(1963).″美国化学协会杂志″(J.Am.Chem.Soc.)852149-2156.Mettlin,C.,等人(1990).″美国流行病杂志″(AmericanJournalofEpidemiology)131973-983.Metzger,等人(1988).″自然″(Nature)33431-36.Miki,Y.,等人(1994).″科学″26666-71.Miller(1992).“微生物学免疫学的当前课题”(Curr.Top.Microbiol.Immunol.)1581-24.Miller,等人(1985).″分子细胞生物学″(Mol.Cell.Biol.)5431-437.Miller,等人(1988).″病毒学杂志″(J.Virol.)624337-4345.Mittlin(1989).″临床化学″(ClinicalChem.)351819.Modrich,P.(1991).″遗传学年报″(Ann.Rev.Genet.)25229-253.Mombaerts,P.,等人(1992).″细胞″(Cell)68869.Monaco,等人(1986).″自然″(Nature)323646.Moss(1992).“微生物学免疫学的当前课题”(Curr.Top.Microbiol.Immunol.)15825-38.Muzyczka(1992).“微生物学免疫学的当前课题”(Curr.Top.Microbiol.Immunol.)15897-123.Nabel(1992).″人基因治疗″(Hum.GeneTher.)3399-410.Nabel,等人(1990).“科学”(Science)2491285-1288.Nakamura,等人(1987).“科学”(Science)2351616-1622.Narod,S.A.,等人(1991).″柳叶刀″(TheLancet)33882-83.Newman,B.,等人(1988).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)853044-3048.Newton,C.R.,Graham,A.,Heptinstall,L.E.,Powell,S.J.,Summers.C.,Kalsheker,N.,Smith,J.C.,和Markham,A.F.(1989).″核酸研究″(Nucl.AcidsRes.)172503-2516.Nguyen,Q.,等人(1992).“生物技术”(BioTechniques)13116-123.Novack,等人(1986).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)83586.Oh,J.(1985).人遗传连锁分析(AnalysisofHumanGeneticLinkage),JohnsHopkinsUniversityPress,Baltimore,Md,pp.1-216.Ohi,等人(1990).″基因″(Gene)89279-282.Oliphant,A.,等人(1991).″核酸研究″(NucleicAcidRes.)194794.Oliphant,A.,等人(1991).″核酸研究″(NucleicAcidRes.)194795.Orita,等人(1989).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)862776-2770.Page,等人(1990).″病毒学杂志″(J.Virol.)645370-5276.Pellicer,等人(1980).“科学”(Science)2091414-1422.Petropoulos,等人(1992).″病毒学杂志″(J.Virol.)663391-3397.Philpott,K.L.,等人(1992).“科学”(Science)2561448.Pierce,等人(1992),″美国科学院院报″(Proc.Natl.Acad.Sci.USA)892056-2060.Quantin,等人(1992).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)892581-2584.Rano&amp;Kidd(1989).″核酸研究″(Nucl.AcidsRes.)178392.Rigby,P.W.J.,等人(1977).“分子生物学杂志”(J.Mol.Biol.〕113237-251.Rosenfeld,等人(1992).″细胞″(Cell)68143-155Sambrook,J.,等人(1989).分子克隆实验室手册(MolecularCloningALaboratoryManual),2ndEd.(ColdSpringHarborLaboratory,ColdSpringHarbor,N.Y.).Sato,T.,等人(1990).″癌症研究″(″癌症研究″(CancerRes.))507184-7189.Scharf(1986).“科学”(Science)2331076Scopes,R.(1982).蛋白质纯化原理和实践(ProteinPurificationPrinciplesandPractice),(Springer-Verlag,N.Y.).Shaulian,E.,等人(1992).″分子细胞生物学″(Mol.CellBiol.)125581-92.Sheffield,V.C.,等人(1989).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)86232-236.Sheffield,V.C.,等人(1991).“美国人类遗传学杂志”(Am.J.Hum.Genet.)49699-706.Shenk,等人(1975).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)72989.Shimada,等人(1991).″临床调查杂志″(J.Clin.Invest.)881043-1047.Shinkai,Y.,等人(1992).″细胞″(Cell)68855.Shizuya,H.,等人(1992).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)898794-8797.Simard,J.,等人(1993).″人类分子遗传″(HumanMol.Genet.)21193-1199.Skolnick,M.H.和Wallace,B.R.(1988).″基因组″(Genomics)2273-279.Skolnick,M.H.,等人(1990).“科学”(Science)2501715-1720.Smith,S.A.,等人(1992).″自然遗传学″(NatureGenetics)2128-131.Smith,T.F.和Waterman,M.S.(1981).“分子生物学杂志”(J.Mol.Biol.〕147195-197.Snouwaert,J.N.,等人(1992).“科学”(Science).2571083.Sorge,等人(1984).″分子细胞生物学″(Mol.Cell.Biol.)41730-1737.Srivastava,S.,等人(1993).″癌症研究″(″癌症研究″(CancerRes.))534452-5.Sternberg(1990).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)87103-107.Sternberg,等人(1990).″新生物学家″(TheNewBiologist)2151-162.Stewart,等人(1992).″人基因治疗″(″人基因治疗″(Hum.GeneTher.))3267-275.Stratford-Perricaudet,等人(1990).″人基因治疗″(″人基因治疗″(Hum.GeneTher.))1241-256.Swift,M.,等人(1991).″新英国医学杂志″(N.Engl.J.Med.)3251831-1836.Swift,M.,等人(1976).″癌症研究″(″癌症研究″(CancerRes.))36209-215.Su,L.K.,等人(1993).″癌症研究″(″癌症研究″(CancerRes.))532728-31.Thomas,A.和Skolnick,M.H.(1994).″在医学和生物学中应用数学的IMA杂志″(IMAJournalofMathematicsAppliedinMedicineandBiology)(inpress).Tonolio,D.,等人(1990).ColdSpringHarbor会议.Valancius,V.&amp;Smithies,O.(1991).″分子细胞生物学″(Mol.CellBiol.)111402.vanDilla,等人(1986).″生物技术″(Biotechnology)4537-552.Wagner,等人(1990).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)873410-3414.Wagner,等人(1991).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)884255-4259.Wang和Huang(1989).″生物化学″(Biochemistry)289508-9514.Wartell,R.M.,等人(1990).″核酸研究″(Nucl.AcidsRes.)182699-2705.Weber,J.L.(1990).″基因组″(Genomics)7524-530.Weber和May(1989).“美国人类遗传学杂志”(Am.J.Hum.Genet.)44388-396.Weber,J.L.,等人(1990).″核酸研究″(NucleicAcidRes.)184640.Wells,J.A.(1991).″酶学方法″(MethodsinEnzymol.)202390-411.Wetmur&amp;Davidson(1968).“分子生物学杂志”(J.Mol.Biol.〕31349-370.White,M.B.,等人,(1992).″基因组″(Genomics)12301-306.White和Lalouel(1988).″遗传学年报″(Ann.Rev.Genet.)22259-279,Wilkinson,等人(1992).″核酸研究″(NucleicAcidsRes.)202233-2239.Willams和Anderson(1984).″遗传流行病″(Genet.Epidemiol.)17-20.Wolff,等人(1990).“科学”(Science)2471465-1468.Wolff,等人(1991).“生物技术”(BioTechniques).11474-485.Wooster,R.,等人(1994).“科学”(Science)2652088.Wu,等人(1989a).″基因组″(Genomics)4560-569.Wu,等人(1989b).″生物化学杂志″(J.Biol.Chem.)26416985-16987.Wu,等人(1991).″生物化学杂志″(J.Biol.Chem.)26614338-14342.Zenke,等人(1990).″美国科学院院报″(Proc.Natl.Acad.Sci.USA)873655-3659.专利和专利申请清单美国专利No.3,817,837美国专利No.3,850,752美国专利No.3,939,350美国专利No.3,996,345美国专利No.4,275,149美国专利No.4,277,437美国专利No.4,366,241美国专利No.4,376,110美国专利No.4,486,530美国专利No.4,683,195美国专利No.4,683,202美国专利No.4,816,567美国专利No.4,868,105美国专利No.5,252,479EPO出版物No.225,807欧洲专利申请出版物No.0332435Geysen,H.,PCT出版的申请WO84/03564,于1984年9月13日出版Hitzeman等人,EP73,675APCT出版的申请WO93/07282序列表(1)一般信息(i)申请人Shattuck-Eidens,DonnaM.Simard,JacquesEmi,MitsuruNakamura,YusukeDurcher,Francine(ii)发明名称17q连锁的乳房癌和卵巢癌易患性基因的体内突变和多态性(iii)序列数目85(iv)通信地址(A)收信人Venable,Baetjer,Howard&amp;Civiletti,LLP(B)街道1201NewYorkAvenue,N.W.,Suite1000(C)城市华盛顿(D)州DC(E)国家美国(F)邮编20005(v)计算机可读形式(A)记录介质类型软盘(B)计算机IBMPC兼容性(C)操作系统PC-DOS/MS-DOS(D)软件PatentInRelease#1.0,Version#1.30(vi)本申请资料(A)申请号(B)申请日(C)分类(vii)在先申请资料(A)申请号US(B)申请日07-6月-1995(vii)在先申请资料(A)申请号US08/409,305(B)申请日24-3月-1995(vii)在先申请资料(A)申请号US08/348,824(B)申请日29-11月-1994(vii)在先申请资料(A)申请号US08/308,104(B)申请日16-9月-1994(vii)在先申请资料(A)申请号US08/300,266(B)申请日02-9月-1994(vii)在先申请资料(A)申请号US08/289,221(B)申请日12-8月-1994(viii)律师/代理人信息(A)姓名Ihnen,JeffreyL.(B)登记号28,957(C)参考/案卷号24884-109347(ix)通讯信息(A)电话202-962-4810(B)传真202-962-8300(2)SEQIDNO1信息(i)序列特征(A)长度5914碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型cDNA(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(ix)特征(A)名称/检索符号CDS(B)位置120..5711(xi)序列描述SEQIDNO1AGCTCGCTGAGACTTCCTGGACCCCGCACCAGGCTGTGGGGTTTCTCAGATAACTGGGCC60CCTGCGCTCAGGAGGCCTTCACCCTCTGCTCTGGGTAAAGTTCATTGGAACAGAAAGAA119ATGGATTTATCTGCTCTTCGCGTTGAAGAAGTACAAAATGTCATTAAT167MetAspLeuSerAlaLeuArgValGluGluValGlnAsnValIleAsn151015GCTATGCAGAAAATCTTAGAGTGTCCCATCTGTCTGGAGTTGATCAAG215AlaMetGlnLysIleLeuGluCysProIleCysLeuGluLeuIleLys202530GAACCTGTCTCCACAAAGTGTGACCACATATTTTGCAAATTTTGCATG263GluProValSerThrLysCysAspHisIlePheCysLysPheCysMet354045CTGAAACTTCTCAACCAGAAGAAAGGGCCTTCACAGTGTCCTTTATGT311LeuLysLeuLeuAsnGlnLysLysGlyProSerGlnCysProLeuCys505560AAGAATGATATAACCAAAAGGAGCCTACAAGAAAGTACGAGATTTAGT359LysAsnAspIleThrLysArgSerLeuGlnGluSerThrArgPheSer65707580CAACTTGTTGAAGAGCTATTGAAAATCATTTGTGCTTTTCAGCTTGAC407GlnLeuValGluGluLeuLeuLysIleIleCysAlaPheGlnLeuAsp859095ACAGGTTTGGAGTATGCAAACAGCTATAATTTTGCAAAAAAGGAAAAT455ThrGlyLeuGluTyrAlaAsnSerTyrAsnPheAlaLysLysGluAsn100105110AACTCTCCTGAACATCTAAAAGATGAAGTTTCTATCATCCAAAGTATG503AsnSerProGluHisLeuLysAspGluValSerIleIleGlnSerMet115120125GGCTACAGAAACCGTGCCAAAAGACTTCTACAGAGTGAACCCGAAAAT551GlyTyrArgAsnArgAlaLysArgLeuLeuGlnSerGluProGluAsn130135140CCTTCCTTGCAGGAAACCAGTCTCAGTGTCCAACTCTCTAACCTTGGA599ProSerLeuGlnGluThrSerLeuSerValGlnLeuSerAsnLeuGly145150155160ACTGTGAGAACTCTGAGGACAAAGCAGCGGATACAACCTCAAAAGACG647ThrValArgThrLeuArgThrLysGlnArgIleGlnProGlnLysThr165170175TCTGTCTACATTGAATTGGGATCTGATTCTTCTGAAGATACCGTTAAT695SerValTyrIleGluLeuGlySerAspSerSerGluAspThrValAsn180185190AAGGCAACTTATTGCAGTGTGGGAGATCAAGAATTGTTACAAATCACC743LysAlaThrTyrCysSerValGlyAspGlnGluLeuLeuGlnIleThr195200205CCTCAAGGAACCAGGGATGAAATCAGTTTGGATTCTGCAAAAAAGGCT791ProGlnGlyThrArgAspGluIleSerLeuAspSerAlaLysLysAla210215220GCTTGTGAATTTTCTGAGACGGATGTAACAAATACTGAACATCATCAA839AlaCysGluPheSerGluThrAspValThrAsnThrGluHisHisGln225230235240CCCAGTAATAATGATTTGAACACCACTGAGAAGCGTGCAGCTGAGAGG887ProSerAsnAsnAspLeuAsnThrThrGluLysArgAlaAlaGluArg245250255CATCCAGAAAAGTATCAGGGTAGTTCTGTTTCAAACTTGCATGTGGAG935HisProGluLysTyrGlnGlySerSerValSerAsnLeuHisValGlu260265270CCATGTGGCACAAATACTCATGCCAGCTCATTACAGCATGAGAACAGC983ProCysGlyThrAsnThrHisAlaSerSerLeuGlnHisGluAsnSer275280285AGTTTATTACTCACTAAAGACAGAATGAATGTAGAAAAGGCTGAATTC1031SerLeuLeuLeuThrLysAspArgMetAsnValGluLysAlaGluPhe290295300TGTAATAAAAGCAAACAGCCTGGCTTAGCAAGGAGCCAACATAACAGA1079CysAsnLysSerLysGlnProGlyLeuAlaArgSerGlnHisAsnArg305310315320TGGGCTGGAAGTAAGGAAACATGTAATGATAGGCGGACTCCCAGCACA1127TrpAlaGlySerLysGluThrCysAsnAspArgArgThrProSerThr325330335GAAAAAAAGGTAGATCTGAATGCTGATCCCCTGTGTGAGAGAAAAGAA1175GluLysLysValAspLeuAsnAlaAspProLeuCysGluArgLysGlu340345350TGGAATAAGCAGAAACTGCCATGCTCAGAGAATCCTAGAGATACTGAA1223TrpAsnLysGlnLysLeuProCysSerGluAsnProArgAspThrGlu355360365GATGTTCCTTGGATAACACTAAATAGCAGCATTCAGAAAGTTAATGAG1271AspValProTrpIleThrLeuAsnSerSerIleGlnLysValAsnGlu370375380TGGTTTTCCAGAAGTGATGAACTGTTAGGTTCTGATGACTCACATGAT1319TrpPheSerArgSerAspGluLeuLeuGlySerAspAspSerHisAsp385390395400GGGGAGTCTGAATCAAATGCCAAAGTAGCTGATGTATTGGACGTTCTA1367GlyGluSerGluSerAsnAlaLysValAlaAspValLeuAspValLeu405410415AATGAGGTAGATGAATATTCTGGTTCTTCAGAGAAAATAGACTTACTG1415AsnGluValAspGluTyrSerGlySerSerGluLysIleAspLeuLeu420425430GCCAGTGATCCTCATGAGGCTTTAATATGTAAAAGTGAAAGAGTTCAC1463AlaSerAspProHisGluAlaLeuIleCysLysSerGluArgValHis435440445TCCAAATCAGTAGAGAGTAATATTGAAGACAAAATATTTGGGAAAACC1511SerLysSerValGluSerAsnIleGluAspLysIlePheGlyLysThr450455460TATCGGAAGAAGGCAAGCCTCCCCAACTTAAGCCATGTAACTGAAAAT1559TyrArgLysLysAlaSerLeuProAsnLeuSerHisValThrGluAsn465470475480CTAATTATAGGAGCATTTGTTACTGAGCCACAGATAATACAAGAGCGT1607LeuIleIleGlyAlaPheValThrGluProGlnIleIleGlnGluArg485490495CCCCTCACAAATAAATTAAAGCGTAAAAGGAGACCTACATCAGGCCTT1655ProLeuThrAsnLysLeuLysArgLysArgArgProThrSerGlyLeu500505510CATCCTGAGGATTTTATCAAGAAAGCAGATTTGGCAGTTCAAAAGACT1703HisProGluAspPheIleLysLysAlaAspLeuAlaValGlnLysThr515520525CCTGAAATGATAAATCAGGGAACTAACCAAACGGAGCAGAATGGTCAA1751ProGluMetIleAsnGlnGlyThrAsnGlnThrGluGlnAsnGlyGln530535540GTGATGAATATTACTAATAGTGGTCATGAGAATAAAACAAAAGGTGAT1799ValMetAsnIleThrAsnSerGlyHisGluAsnLysThrLysGlyAsp545550555560TCTATTCAGAATGAGAAAAATCCTAACCCAATAGAATCACTCGAAAAA1847SerIleGlnAsnGluLysAsnProAsnProIleGluSerLeuGluLys565570575GAATCTGCTTTCAAAACGAAAGCTGAACCTATAAGCAGCAGTATAAGC1895GluSerAlaPheLysThrLysAlaGluProIleSerSerSerIleSer580585590AATATGGAACTCGAATTAAATATCCACAATTCAAAAGCACCTAAAAAG1943AsnMetGluLeuGluLeuAsnIleHisAsnSerLysAlaProLysLys595600605AATAGGCTGAGGAGGAAGTCTTCTACCAGGCATATTCATGCGCTTGAA1991AsnArgLeuArgArgLysSerSerThrArgHisIleHisAlaLeuGlu610615620CTAGTAGTCAGTAGAAATCTAAGCCCACCTAATTGTACTGAATTGCAA2039LeuValValSerArgAsnLeuSerProProAsnCysThrGluLeuGln625630635640ATTGATAGTTGTTCTAGCAGTGAAGAGATAAAGAAAAAAAAGTACAAC2087IleAspSerCysSerSerSerGluGluIleLysLysLysLysTyrAsn645650655CAAATGCCAGTCAGGCACAGCAGAAACCTACAACTCATGGAAGGTAAA2135GlnMetProValArgHisSerArgAsnLeuGlnLeuMetGluGlyLys660665670GAACCTGCAACTGGAGCCAAGAAGAGTAACAAGCCAAATGAACAGACA2183GluProAlaThrGlyAlaLysLysSerAsnLysProAsnGluGlnThr675680685AGTAAAAGACATGACAGCGATACTTTCCCAGAGCTGAAGTTAACAAAT2231SerLysArgHisAspSerAspThrPheProGluLeuLysLeuThrAsn690695700GCACCTGGTTCTTTTACTAAGTGTTCAAATACCAGTGAACTTAAAGAA2279AlaProGlySerPheThrLysCysSerAsnThrSerGluLeuLysGlu705710715720TTTGTCAATCCTAGCCTTCCAAGAGAAGAAAAAGAAGAGAAACTAGAA2327PheValAsnProSerLeuProArgGluGluLysGluGluLysLeuGlu725730735ACAGTTAAAGTGTCTAATAATGCTGAAGACCCCAAAGATCTCATGTTA2375ThrValLysValSerAsnAsnAlaGluAspProLysAspLeuMetLeu740745750AGTGGAGAAAGGGTTTTGCAAACTGAAAGATCTGTAGAGAGTAGCAGT2423SerGlyGluArgValLeuGlnThrGluArgSerValGluSerSerSer755760765ATTTCATTGGTACCTGGTACTGATTATGGCACTCAGGAAAGTATCTCG2471IleSerLeuValProGlyThrAspTyrGlyThrGlnGluSerIleSer770775780TTACTGGAAGTTAGCACTCTAGGGAAGGCAAAAACAGAACCAAATAAA2519LeuLeuGluValSerThrLeuGlyLysAlaLysThrGluProAsnLys785790795800TGTGTGAGTCAGTGTGCAGCATTTGAAAACCCCAAGGGACTAATTCAT2567CysValSerGlnCysAlaAlaPheGluAsnProLysGlyLeuIleHis805810815GGTTGTTCCAAAGATAATAGAAATGACACAGAAGGCTTTAAGTATCCA2615GlyCysSerLysAspAsnArgAsnAspThrGluGlyPheLysTyrPro820825830TTGGGACATGAAGTTAACCACAGTCGGGAAACAAGCATAGAAATGGAA2663LeuGlyHisGluValAsnHisSerArgGluThrSerIleGluMetGlu835840845GAAAGTGAACTTGATGCTCAGTATTTGCAGAATACATTCAAGGTTTCA2711GluSerGluLeuAspAlaGlnTyrLeuGlnAsnThrPheLysValSer850855860AAGCGCCAGTCATTTGCTCCGTTTTCAAATCCAGGAAATGCAGAAGAG2759LysArgGlnSerPheAlaProPheSerAsnProGlyAsnAlaGluGlu865870875880GAATGTGCAACATTCTCTGCCCACTCTGGGTCCTTAAAGAAACAAAGT2807GluCysAlaThrPheSerAlaHisSerGlySerLeuLysLysGlnSer885890895CCAAAAGTCACTTTTGAATGTGAACAAAAGGAAGAAAATCAAGGAAAG2855ProLysValThrPheGluCysGluGlnLysGluGluAsnGlnGlyLys900905910AATGAGTCTAATATCAAGCCTGTACAGACAGTTAATATCACTGCAGGC2903AsnGluSerAsnIleLysProValGlnThrValAsnIleThrAlaGly915920925TTTCCTGTGGTTGGTCAGAAAGATAAGCCAGTTGATAATGCCAAATGT2951PheProValValGlyGlnLysAspLysProValAspAsnAlaLysCys930935940AGTATCAAAGGAGGCTCTAGGTTTTGTCTATCATCTCAGTTCAGAGGC2999SerIleLysGlyGlySerArgPheCysLeuSerSerGlnPheArgGly945950955960AACGAAACTGGACTCATTACTCCAAATAAACATGGACTTTTACAAAAC3047AsnGluThrGlyLeuIleThrProAsnLysHisGlyLeuLeuGlnAsn965970975CCATATCGTATACCACCACTTTTTCCCATCAAGTCATTTGTTAAAACT3095ProTyrArgIleProProLeuPheProIleLysSerPheValLysThr980985990AAATGTAAGAAAAATCTGCTAGAGGAAAACTTTGAGGAACATTCAATG3143LysCysLysLysAsnLeuLeuGluGluAsnPheGluGluHisSerMet99510001005TCACCTGAAAGAGAAATGGGAAATGAGAACATTCCAAGTACAGTGAGC3191SerProGluArgGluMetGlyAsnGluAsnIleProSerThrValSer101010151020ACAATTAGCCGTAATAACATTAGAGAAAATGTTTTTAAAGAAGCCAGC3239ThrIleSerArgAsnAsnIleArgGluAsnValPheLysGluAlaSer1025103010351040TCAAGCAATATTAATGAAGTAGGTTCCAGTACTAATGAAGTGGGCTCC3287SerSerAsnIleAsnGluValGlySerSerThrAsnGluValGlySer104510501055AGTATTAATGAAATAGGTTCCAGTGATGAAAACATTCAAGCAGAACTA3335SerIleAsnGluIleGlySerSerAspGluAsnIleGlnAlaGluLeu106010651070GGTAGAAACAGAGGGCCAAAATTGAATGCTATGCTTAGATTAGGGGTT3383GlyArgAsnArgGlyProLysLeuAsnAlaMetLeuArgLeuGlyVal107510801085TTGCAACCTGAGGTCTATAAACAAAGTCTTCCTGGAAGTAATTGTAAG3431LeuGlnProGluValTyrLysGlnSerLeuProGlySerAsnCysLys109010951100CATCCTGAAATAAAAAAGCAAGAATATGAAGAAGTAGTTCAGACTGTT3479HisProGluIleLysLysGlnGluTyrGluGluValValGlnThrVal1105111011151120AATACAGATTTCTCTCCATATCTGATTTCAGATAACTTAGAACAGCCT3527AsnThrAspPheSerProTyrLeuIleSerAspAsnLeuGluGlnPro112511301135ATGGGAAGTAGTCATGCATCTCAGGTTTGTTCTGAGACACCTGATGAC3575MetGlySerSerHisAlaSerGlnValCysSerGluThrProAspAsp114011451150CTGTTAGATGATGGTGAAATAAAGGAAGATACTAGTTTTGCTGAAAAT3623LeuLeuAspAspGlyGluIleLysGluAspThrSerPheAlaGluAsn115511601165GACATTAAGGAAAGTTCTGCTGTTTTTAGCAAAAGCGTCCAGAAAGGA3671AspIleLysGluSerSerAlaValPheSerLysSerValGlnLysGly117011751180GAGCTTAGCAGGAGTCCTAGCCCTTTCACCCATACACATTTGGCTCAG3719GluLeuSerArgSerProSerProPheThrHisThrHisLeuAlaGln1185119011951200GGTTACCGAAGAGGGGCCAAGAAATTAGAGTCCTCAGAAGAGAACTTA3767GlyTyrArgArgGlyAlaLysLysLeuGluSerSerGluGluAsnLeu120512101215TCTAGTGAGGATGAAGAGCTTCCCTGCTTCCAACACTTGTTATTTGGT3815SerSerGluAspGluGluLeuProCysPheGlnHisLeuLeuPheGly122012251230AAAGTAAACAATATACCTTCTCAGTCTACTAGGCATAGCACCGTTGCT3863LysValAsnAsnIleProSerGlnSerThrArgHisSerThrValAla123512401245ACCGAGTGTCTGTCTAAGAACACAGAGGAGAATTTATTATCATTGAAG3911ThrGluCysLeuSerLysAsnThrGluGluAsnLeuLeuSerLeuLys125012551260AATAGCTTAAATGACTGCAGTAACCAGGTAATATTGGCAAAGGCATCT3959AsnSerLeuAsnAspCysSerAsnGlnValIleLeuAlaLysAlaSer1265127012751280CAGGAACATCACCTTAGTGAGGAAACAAAATGTTCTGCTAGCTTGTTT4007GlnGluHisHisLeuSerGluGluThrLysCysSerAlaSerLeuPhe128512901295TCTTCACAGTGCAGTGAATTGGAAGACTTGACTGCAAATACAAACACC4055SerSerGlnCysSerGluLeuGluAspLeuThrAlaAsnThrAsnThr130013051310CAGGATCCTTTCTTGATTGGTTCTTCCAAACAAATGAGGCATCAGTCT4103GlnAspProPheLeuIleGlySerSerLysGlnMetArgHisGlnSer131513201325GAAAGCCAGGGAGTTGGTCTGAGTGACAAGGAATTGGTTTCAGATGAT4151GluSerGlnGlyValGlyLeuSerAspLysGluLeuValSerAspAsp133013351340GAAGAAAGAGGAACGGGCTTGGAAGAAAATAATCAAGAAGAGCAAAGC4199GluGluArgGlyThrGlyLeuGluGluAsnAsnGlnGluGluGlnSer1345135013551360ATGGATTCAAACTTAGGTGAAGCAGCATCTGGGTGTGAGAGTGAAACA4247MetAspSerAsnLeuGlyGluAlaAlaSerGlyCysGluSerGluThr136513701375AGCGTCTCTGAAGACTGCTCAGGGCTATCCTCTCAGAGTGACATTTTA4295SerValSerGluAspCysSerGlyLeuSerSerGlnSerAspIleLeu138013851390ACCACTCAGCAGAGGGATACCATGCAACATAACCTGATAAAGCTCCAG4343ThrThrGlnGlnArgAspThrMetGlnHisAsnLeuIleLysLeuGln139514001405CAGGAAATGGCTGAACTAGAAGCTGTGTTAGAACAGCATGGGAGCCAG4391GlnGluMetAlaGluLeuGluAlaValLeuGluGlnHisGlySerGln141014151420CCTTCTAACAGCTACCCTTCCATCATAAGTGACTCTTCTGCCCTTGAG4439ProSerAsnSerTyrProSerIleIleSerAspSerSerAlaLeuGlu1425143014351440GACCTGCGAAATCCAGAACAAAGCACATCAGAAAAAGCAGTATTAACT4487AspLeuArgAsnProGluGlnSerThrSerGluLysAlaValLeuThr144514501455TCACAGAAAAGTAGTGAATACCCTATAAGCCAGAATCCAGAAGGCCTT4535SerGlnLysSerSerGluTyrProIleSerGlnAsnProGluGlyLeu146014651470TCTGCTGACAAGTTTGAGGTGTCTGCAGATAGTTCTACCAGTAAAAAT4583SerAlaAspLysPheGluValSerAlaAspSerSerThrSerLysAsn147514801485AAAGAACCAGGAGTGGAAAGGTCATCCCCTTCTAAATGCCCATCATTA4631LysGluProGlyValGluArgSerSerProSerLysCysProSerLeu149014951500GATGATAGGTGGTACATGCACAGTTGCTCTGGGAGTCTTCAGAATAGA4679AspAspArgTrpTyrMetHisSerCysSerGlySerLeuGlnAsnArg1505151015151520AACTACCCATCTCAAGAGGAGCTCATTAAGGTTGTTGATGTGGAGGAG4727AsnTyrProSerGlnGluGluLeuIleLysValValAspValGluGlu152515301535CAACAGCTGGAAGAGTCTGGGCCACACGATTTGACGGAAACATCTTAC4775GlnGlnLeuGluGluSerGlyProHisAspLeuThrGluThrSerTyr154015451550TTGCCAAGGCAAGATCTAGAGGGAACCCCTTACCTGGAATCTGGAATC4823LeuProArgGlnAspLeuGluGlyThrProTyrLeuGluSerGlyIle155515601565AGCCTCTTCTCTGATGACCCTGAATCTGATCCTTCTGAAGACAGAGCC4871SerLeuPheSerAspAspProGluSerAspProSerGluAspArgAla157015751580CCAGAGTCAGCTCGTGTTGGCAACATACCATCTTCAACCTCTGCATTG4919ProGluSerAlaArgValGlyAsnIleProSerSerThrSerAlaLeu1585159015951600AAAGTTCCCCAATTGAAAGTTGCAGAATCTGCCCAGAGTCCAGCTGCT4967LysValProGlnLeuLysValAlaGluSerAlaGlnSerProAlaAla160516101615GCTCATACTACTGATACTGCTGGGTATAATGCAATGGAAGAAAGTGTG5015AlaHisThrThrAspThrAlaGlyTyrAsnAlaMetGluGluSerVal162016251630AGCAGGGAGAAGCCAGAATTGACAGCTTCAACAGAAAGGGICAACAAA5063SerArgGluLysProGluLeuThrAlaSerThrGluArgValAsnLys163516401645AGAATGTCCATGGTGGTGTCTGGCCTGACCCCAGAAGAATTTATGCTC5111ArgMetSerMetValValSerGlyLeuThrProGluGluPheMetLeu165016551660GTGTACAAGTTTGCCAGAAAACACCACATCACTTTAACTAATCTAATT5159ValTyrLysPheAlaArgLysHisHisIleThrLeuThrAsnLeuIle1665167016751680ACTGAAGAGACTACTCATGTTGTTATGAAAACAGATGCTGAGTTTGTG5207ThrGluGluThrThrHisValValMetLysThrAspAlaGluPheVal168516901695TGTGAACGGACACTGAAATATTTTCTAGGAATTGCGGGAGGAAAATGG5255CysGluArgThrLeuLysTyrPheLeuGlyIleAlaGlyGlyLysTrp170017051710GTAGTTAGCTATTTCTGGGTGACCCAGTCTATTAAAGAAAGAAAAATG5303ValValSerTyrPheTrpValThrGlnSerIleLysGluArgLysMet171517201725CTGAATGAGCATGATTTTGAAGTCAGAGGAGATGTGGTCAATGGAAGA5351LeuAsnGluHisAspPheGluValArgGlyAspValValAsnGlyArg173017351740AACCACCAAGGTCCAAAGCGAGCAAGAGAATCCCAGGACAGAAAGATC5399AsnHisGlnGlyProLysArgAlaArgGluSerGlnAspArgLysIle1745175017551760TTCAGGGGGCTAGAAATCTGTTGCTATGGGCCCTTCACCAACATGCCC5447PheArgGlyLeuGluIleCysCysTyrGlyProPheThrAsnMetPro176517701775ACAGATCAACTGGAATGGATGGTACAGCTGTGTGGTGCTTCTGTGGTG5495ThrAspGlnLeuGluTrpMetValGlnLeuCysGlyAlaSerValVal178017851790AAGGAGCTTTCATCATTCACCCTTGGCACAGGTGTCCACCCAATTGTG5543LysGluLeuSerSerPheThrLeuGlyThrGlyValHisProIleVal179518001805GTTGTGCAGCCAGATGCCTGGACAGAGGACAATGGCTTCCATGCAATT5591ValValGlnProAspAlaTrpThrGluAspAsnGlyPheHisAlaIle181018151820GGGCAGATGTGTGAGGCACCTGTGGTGACCCGAGAGTGGGTGTTGGAC5639GlyGlnMetCysGluAlaProValValThrArgGluTrpValLeuAsp1825183018351840AGTGTAGCACTCTACCAGTGCCAGGAGCTGGACACCTACCTGATACCC5687SerValAlaLeuTyrGlnCysGlnGluLeuAspThrTyrLeuIlePro184518501855CAGATCCCCCACAGCCACTACTGACTGCAGCCAGCCACAGGTACAGAGCCACAG5741GlnIleProHisSerHisTyr*1860GACCCCAAGAATGAGCTTACAAAGTGGCCTTTCCAGGCCCTGGGAGCTCCTCTCACTCTT5801CAGTCCTTCTACTGTCCTGGCTACTAAATATTTTATGTACATCAGCCTGAAAAGGACTTC5861TGGCTATGCAAGGGTCCCTTAAAGATTTTCTGCTTGAAGTCTCCCTTGGAAAT5914(2)SEQIDNO2信息(i)序列特征(A)长度1864氨基酸(B)类型氨基酸(D)拓扑结构线性(ii)分子类型蛋白质(xi)序列描述SEQIDNO2MetAspLeuSerAlaLeuArgValGluGluValGlnAsnValIleAsn151015AlaMetGlnLysIleLeuGluCysProIleCysLeuGluLeuIleLys202530GluProValSerThrLysCysAspHisIlePheCysLysPheCysMet354045LeuLysLeuLeuAsnGlnLysLysGlyProSerGlnCysProLeuCys505560LysAsnAspIleThrLysArgSerLeuGlnGluSerThrArgPheSer65707580GlnLeuValGluGluLeuLeuLysIleIleCysAlaPheGlnLeuAsp859095ThrGlyLeuGluTyrAlaAsnSerTyrAsnPheAlaLysLysGluAsn100105110AsnSerProGluHisLeuLysAspGluValSerIleIleGlnSerMet115120125GlyTyrArgAsnArgAlaLysArgLeuLeuGlnSerGluProGluAsn130135140ProSerLeuGlnGluThrSerLeuSerValGlnLeuSerAsnLeuGly145150155160ThrValArgThrLeuArgThrLysGlnArgIleGlnProGlnLysThr165170175SerValTyrIleGluLeuGlySerAspSerSerGluAspThrValAsn180185190LysAlaThrTyrCysSerValGlyAspGlnGluLeuLeuGlnIleThr195200205ProGlnGlyThrArgAspGluIleSerLeuAspSerAlaLysLysAla210215220AlaCysGluPheSerGluThrAspValThrAsnThrGluHisHisGln225230235240ProSerAsnAsnAspLeuAsnThrThrGluLysArgAlaAlaGluArg245250255HisProGluLysTyrGlnGlySerSerValSerAsnLeuHisValGlu260265270ProCysGlyThrAsnThrHisAlaSerSerLeuGlnHisGluAsnSer275280285SerLeuLeuLeuThrLysAspArgMetAsnValGluLysAlaGluPhe290295300CysAsnLysSerLysGlnProGlyLeuAlaArgSerGlnHisAsnArg305310315320TrpAlaGlySerLysGluThrCysAsnAspArgArgThrProSerThr325330335GluLysLysValAspLeuAsnAlaAspProLeuCysGluArgLysGlu340345350TrpAsnLysGlnLysLeuProCysSerGluAsnProArgAspThrGlu355360365AspValProTrpIleThrLeuAsnSerSerIleGlnLysValAsnGlu370375380TrpPheSerArgSerAspGluLeuLeuGlySerAspAspSerHisAsp385390395400GlyGluSerGluSerAsnAlaLysValAlaAspValLeuAspValLeu405410415AsnGluValAspGluTyrSerGlySerSerGluLysIleAspLeuLeu420425430AlaSerAspProHisGluAlaLeuIleCysLysSerGluArgValHis435440445SerLysSerValGluSerAsnIleGluAspLysIlePheGlyLysThr450455460TyrArgLysLysAlaSerLeuProAsnLeuSerHisValThrGluAsn465470475480LeuIleIleGlyAlaPheValThrGluProGlnIleIleGlnGluArg485490495ProLeuThrAsnLysLeuLysArgLysArgArgProThrSerGlyLeu500505510HisProGluAspPheIleLysLysAlaAspLeuAlaValGlnLysThr515520525ProGluMetIleAsnGlnGlyThrAsnGlnThrGluGlnAsnGlyGln530535540ValMetAsnIleThrAsnSerGlyHisGluAsnLysThrLysGlyAsp545550555560SerIleGlnAsnGluLysAsnProAsnProIleGluSerLeuGluLys565570575GluSerAlaPheLysThrLysAlaGluProIleSerSerSerIleSer580585590AsnMetGluLeuGluLeuAsnIleHisAsnSerLysAlaProLysLys595600605AsnArgLeuArgArgLysSerSerThrArgHisIleHisAlaLeuGlu610615620LeuValValSerArgAsnLeuSerProProAsnCysThrGluLeuGln625630635640IleAspSerCysSerSerSerGluGluIleLysLysLysLysTyrAsn645650655GlnMetProValArgHisSerArgAsnLeuGlnLeuMetGluGlyLys660665670GluProAlaThrGlyAlaLysLysSerAsnLysProAsnGluGlnThr675680685SerLysArgHisAspSerAspThrPheProGluLeuLysLeuThrAsn690695700AlaProGlySerPheThrLysCysSerAsnThrSerGluLeuLysGlu705710715720PheValAsnProSerLeuProArgGluGluLysGluGluLysLeuGlu725730735ThrValLysValSerAsnAsnAlaGluAspProLysAspLeuMetLeu740745750SerGlyGluArgValLeuGlnThrGluArgSerValGluSerSerSer755760765IleSerLeuValProGlyThrAspTyrGlyThrGlnGluSerIleSer770775780LeuLeuGluValSerThrLeuGlyLysAlaLysThrGluProAsnLys785790795800CysValSerGlnCysAlaAlaPheGluAsnProLysGlyLeuIleHis805810815GlyCysSerLysAspAsnArgAsnAspThrGluGlyPheLysTyrPro820825830LeuGlyHisGluValAsnHisSerArgGluThrSerIleGluMetGlu835840845GluSerGluLeuAspAlaGlnTyrLeuGlnAsnThrPheLysValSer850855860LysArgGlnSerPheAlaProPheSerAsnProGlyAsnAlaGluGlu865870875880GluCysAlaThrPheSerAlaHisSerGlySerLeuLysLysGlnSer885890895ProLysValThrPheGluCysGluGlnLysGluGluAsnGlnGlyLys900905910AsnGluSerAsnIleLysProValGlnThrValAsnIleThrAlaGly915920925PheProValValGlyGlnLysAspLysProValAspAsnAlaLysCys930935940SerIleLysGlyGlySerArgPheCysLeuSerSerGlnPheArgGly945950955960AsnGluThrGlyLeuIleThrProAsnLysHisGlyLeuLeuGlnAsn965970975ProTyrArgIleProProLeuPheProIleLysSerPheValLysThr980985990LysCysLysLysAsnLeuLeuGluGluAsnPheGluGluHisSerMet99510001005SerProGluArgGluMetGlyAsnGluAsnIleProSerThrValSer101010151020ThrIleSerArgAsnAsnIleArgGluAsnValPheLysGluAlaSer1025103010351040SerSerAsnIleAsnGluValGlySerSerThrAsnGluValGlySer104510501055SerIleAsnGluIleGlySerSerAspGluAsnIleGlnAlaGluLeu106010651070GlyArgAsnArgGlyProLysLeuAsnAlaMetLeuArgLeuGlyVal107510801085LeuGlnProGluValTyrLysGlnSerLeuProGlySerAsnCysLys109010951100HisProGluIleLysLysGlnGluTyrGluGluValValGlnThrVal1105111011151120AsnThrAspPheSerProTyrLeuIleSerAspAsnLeuGluGlnPro112511301135MetGlySerSerHisAlaSerGlnValCysSerGluThrProAspAsp114011451150LeuLeuAspAspGlyGluIleLysGluAspThrSerPheAlaGluAsn115511601165AspIleLysGluSerSerAlaValPheSerLysSerValGlnLysGly117011751180GluLeuSerArgSerProSerProPheThrHisThrHisLeuAlaGln1185119011951200GlyTyrArgArgGlyAlaLysLysLeuGluSerSerGluGluAsnLeu120512101215SerSerGluAspGluGluLeuProCysPheGlnHisLeuLeuPheGly122012251230LysValAsnAsnIleProSerGlnSerThrArgHisSerThrValAla123512401245ThrGluCysLeuSerLysAsnThrGluGluAsnLeuLeuSerLeuLys125012551260AsnSerLeuAsnAspCysSerAsnGlnValIleLeuAlaLysAlaSer1265127012751280GlnGluHisHisLeuSerGluGluThrLysCysSerAlaSerLeuPhe128512901295SerSerGlnCysSerGluLeuGluAspLeuThrAlaAsnThrAsnThr130013051310GlnAspProPheLeuIleGlySerSerLysGlnMetArgHisGlnSer131513201325GluSerGlnGlyValGlyLeuSerAspLysGluLeuValSerAspAsp133013351340GluGluArgGlyThrGlyLeuGluGluAsnAsnGlnGluGluGlnSer1345135013551360MetAspSerAsnLeuGlyGluAlaAlaSerGlyCysGluSerGluThr136513701375SerValSerGluAspCysSerGlyLeuSerSerGlnSerAspIleLeu138013851390ThrThrGlnGlnArgAspThrMetGlnHisAsnLeuIleLysLeuGln139514001405GlnGluMetAlaGluLeuGluAlaValLeuGluGlnHisGlySerGln141014151420ProSerAsnSerTyrProSerIleIleSerAspSerSerAlaLeuGlu1425143014351440AspLeuArgAsnProGluGlnSerThrSerGluLysAlaValLeuThr144514501455SerGlnLysSerSerGluTyrProIleSerGlnAsnProGluGlyLeu146014651470SerAlaAspLysPheGluValSerAlaAspSerSerThrSerLysAsn147514801485LysGluProGlyValGluArgSerSerProSerLysCysProSerLeu149014951500AspAspArgTrpTyrMetHisSerCysSerGlySerLeuGlnAsnArg1505151015151520AsnTyrProSerGlnGluGluLeuIleLysValValAspValGluGlu152515301535GlnGlnLeuGluGluSerGlyProHisAspLeuThrGluThrSerTyr154015451550LeuProArgGlnAspLeuGluGlyThrProTyrLeuGluSerGlyIle155515601565SerLeuPheSerAspAspProGluSerAspProSerGluAspArgAla157015751580ProGluSerAlaArgValGlyAsnIleProSerSerThrSerAlaLeu1585159015951600LysValProGlnLeuLysValAlaGluSerAlaGlnSerProAlaAla160516101615AlaHisThrThrAspThrAlaGlyTyrAsnAlaMetGluGluSerVal162016251630SerArgGluLysProGluLeuThrAlaSerThrGluArgValAsnLys163516401645ArgMetSerMetValValSerGlyLeuThrProGluGluPheMetLeu165016551660ValTyrLysPheAlaArgLysHisHisIleThrLeuThrAsnLeuIle1665167016751680ThrGluGluThrThrHisValValMetLysThrAspAlaGluPheVal168516901695CysGluArgThrLeuLysTyrPheLeuGlyIleAlaGlyGlyLysTrp170017051710ValValSerTyrPheTrpValThrGlnSerIleLysGluArgLysMet171517201725LeuAsnGluHisAspPheGluValArgGlyAspValValAsnGlyArg173017351740AsnHisGlnGlyProLysArgAlaArgGluSerGlnAspArgLysIle1745175017551760PheArgGlyLeuGluIleCysCysTyrGlyProPheThrAsnMetPro176517701775ThrAspGlnLeuGluTrpMetValGlnLeuCysGlyAlaSerValVal178017851790LysGluLeuSerSerPheThrLeuGlyThrGlyValHisProIleVal179518001805ValValGlnProAspAlaTrpThrGluAspAsnGlyPheHisAlaIle181018151820GlyGlnMetCysGluAlaProValValThrArgGluTrpValLeuAsp1825183018351840SerValAlaLeuTyrGlnCysGlnGluLeuAspThrTyrLeuIlePro184518501855GlnIleProHisSerHisTyr*1860(2)SEQIDNO3信息(i)序列特征(A)长度20碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(vii)直接来源(B)克隆s754A(xi)序列描述SEQIDNO3CTAGCCTGGGCAACAAACGA20(2)SEQIDNO4信息(i)序列特征(A)长度20碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(vii)直接来源(B)克隆s754B(xi)序列描述SEQIDNO4GCAGGAAGCAGGAATGGAAC20(2)SEQIDNO5信息(i)序列特征(A)长度20碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(vii)直接来源(B)克隆s975A(xi)序列描述SEQIDNO5TAGGAGATGGATTATTGGTG20(2)SEQIDNO6信息(i)序列特征(A)长度20碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(vii)直接来源(B)克隆s975B(xi)序列描述SEQIDNO6AGGCAACTTTGCAATGAGTG20(2)SEQIDNO7信息(i)序列特征(A)长度22碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(vii)直接来源(B)克隆tdj1474A(xi)序列描述SEQIDNO7CAGAGTGAGACCTTGTCTCAAA22(2)SEQIDNO8信息(i)序列特征(A)长度23碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(vii)直接来源(B)克隆tdj1474B(xi)序列描述SEQIDNO8TTCTGCAAACACCTTAAACTCAG23(2)SEQIDNO9信息(i)序列特征(A)长度20碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(vii)直接来源(B)克隆tdj1239A(xi)序列描述SEQIDNO9AACCTGGAAGGCAGAGGTTG20(2)SEQIDNO10信息(i)序列特征(A)长度21碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(vii)直接来源(B)克隆tdj1239B(xi)序列描述SEQIDNO10TCTGTACCTGCTAAGCAGTGG21(2)SEQIDNO11信息(i)序列特征(A)长度111碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型cDNA(iii)假设否(vi)最初来源(A)有机体人(ix)特征(A)名称/检索符号CDS(B)位置2..111(xi)序列描述SEQIDNO11GGKCTTACTCTGTTGTCCCAGCTGGAGTACAGWGTGCGATCATGAG46XaaLeuLeuCysCysProSerTrpSerThrXaaCysAspHisGlu186518701875GCTTACTGTTGCTTGACTCCTAGGCTCAAGCGATCCTATCACCTCAGT94AlaTyrCysCysLeuThrProArgLeuLysArgSerTyrHisLeuSer1880188518901895CTCCAAGTAGCTGGACT111LeuGlnValAlaGly1900(2)SEQIDNO12信息(i)序列特征(A)长度36氨基酸(B)类型氨基酸(D)拓扑结构线性(ii)分子类型蛋白质(xi)序列描述SEQIDNO12XaaLeuLeuCysCysProSerTrpSerThrXaaCysAspHisGluAla151015TyrCysCysLeuThrProArgLeuLysArgSerTyrHisLeuSerLeu202530GlnValAlaGly35(2)SEQIDNO13信息(i)序列特征(A)长度1534碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO13GAGGCTAGAGGGCAGGCACTTTATGGCAAACTCAGGTAGAATTCTTCCTCTTCCGTCTCT60TTCCTTTTACGTCATCGGGGAGACTGGGTGGCAATCGCAGCCCGAGAGACGCATGGCTCT120TTCTGCCCTCCATCCTCTGATGTACCTTGATTTCGTATTCTGAGAGGCTGCTGCTTAGCG180GTAGCCCCTTGGTTTCCGTGGCAACGGAAAAGCGCGGGAATTACAGATAAATTAAAACTG240CGACTGCGCGGCGTGAGCTCGCTGAGACTTCCTGGACCCCGCACCAGGCTGTGGGGTTTC300TCAGATAACTGGGCCCCTGCGCTCAGGAGGCCTTCACCCTCTGCTCTGGGTAAAGGTAGT360AGAGTCCCGGGAAAGGGACAGGGGGCCCAAGTGATGCTCTGGGGTACTGGCGTGGGAGAG420TGGATTTCCGAAGCTGACAGATGGGTATTCTTTGACGGGGGGTAGGGGCGGAACCTGAGA480GGCGTAAGGCGTTGTGAACCCTGGGGAGGGGGGCAGTTTGTAGGTCGCGAGGGAAGCGCT540GAGGATCAGGAAGGGGGCACTGAGTGTCCGTGGGGGAATCCTCGTGATAGGAACTGGAAT600ATGCCTTGAGGGGGACACTATGTCTTTAAAAACGTCGGCTGGTCATGAGGTCAGGAGTTC660CAGACCAGCCTGACCAACGTGGTGAAACTCCGTCTCTACTAAAAATACNAAAATTAGCCG720GGCGTGGTGCCGCTCCAGCTACTCAGGAGGCTGAGGCAGGAGAATCGCTAGAACCCGGGA780GGCGGAGGTTGCAGTGAGCCGAGATCGCGCCATTGCACTCCAGCCTGGGCGACAGAGCGA840GACTGTCTCAAAACAAAACAAAACAAAACAAAACAAAAAACACCGGCTGGTATGTATGAG900AGGATGGGACCTTGTGGAAGAAGAGGTGCCAGGAATATGTCTGGGAAGGGGAGGAGACAG960GATTTTGTGGGAGGGAGAACTTAAGAACTGGATCCATTTGCGCCATTGAGAAAGCGCAAG1020AGGGAAGTAGAGGAGCGTCAGTAGTAACAGATGCTGCCGGCAGGGATGTGCTTGAGGAGG1080ATCCAGAGATGAGAGCAGGTCACTGGGAAAGGTTAGGGGCGGGGAGGCCTTGATTGGTGT1140TGGTTTGGTCGTTGTTGATTTTGGTTTTATGCAAGAAAAAGAAAACAACCAGAAACATTG1200GAGAAAGCTAAGGCTACCACCACCTACCCGGTCAGTCACTCCTCTGTAGCTTTCTCTTTC1260TTGGAGAAAGGAAAAGACCCAAGGGGTTGGCAGCGATATGTGAAAAAATTCAGAATTTAT1320GTTGTCTAATTACAAAAAGCAACTTCTAGAATCTTTAAAAATAAAGGACGTTGTCATTAG1380TTCTTCTGGTTTGTATTATTCTAAAACCTTCCAAATCTTCAAATTTACTTTATTTTAAAA1440TGATAAAATGAAGTTGTCATTTTATAAACCTTTTAAAAAGATATATATATATGTTTTTCT1500AATGTGTTAAAGTTCATTGGAACAGAAAGAAATG1534(2)SEQIDNO14信息(i)序列特征(A)长度1924碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO14GAGGCTAGAGGGCAGGCACTTTATGGCAAACTCAGGTAGAATTCTTCCTCTTCCGTCTCT60TTCCTTTTACGTCATCGGGGAGACTGGGTGGCAATCGCAGCCCGAGAGACGCATGGCTCT120TTCTGCCCTCCATCCTCTGATGTACCTTGATTTCGTATTCTGAGAGGCTGCTGCTTAGCG180GTAGCCCCTTGGTTTCCGTGGCAACGGAAAAGCGCGGGAATTACAGATAAATTAAAACTG240CGACTGCGCGGCGTGAGCTCGCTGAGACTTCCTGGACCCCGCACCAGGCTGTGGGGTTTC300TCAGATAACTGGGCCCCTGCGCTCAGGAGGCCTTCACCCTCTGCTCTGGGTAAAGGTAGT360AGAGTCCCGGGAAAGGGACAGGGGGCCCAAGTGATGCTCTGGGGTACTGGCGTGGGAGAG420TGGATTTCCGAAGCTGACAGATGGGTATTCTTTGACGGGGGGTAGGGGCGGAACCTGAGA480GGCGTAAGGCGTTGTGAACCCTGGGGAGGGGGGCAGTTTGTAGGTCGCGAGGGAAGCGCT540GAGGATCAGGAAGGGGGCACTGAGTGTCCGTGGGGGAATCCTCGTGATAGGAACTGGAAT600ATGCCTTGAGGGGGACACTATGTCTTTAAAAACGTCGGCTGGTCATGAGGTCAGGAGTTC660CAGACCAGCCTGACCAACGTGGTGAAACTCCGTCTCTACTAAAAATACNAAAATTAGCCG720GGCGTGGTGCCGCTCCAGCTACTCAGGAGGCTGAGGCAGGAGAATCGCTAGAACCCGGGA780GGCGGAGGTTGCAGTGAGCCGAGATCGCGCCATTGCACTCCAGCCTGGGCGACAGAGCGA840GACTGTCTCAAAACAAAACAAAACAAAACAAAACAAAAAACACCGGCTGGTATGTATGAG900AGGATGGGACCTTGTGGAAGAAGAGGTGCCAGGAATATGTCTGGGAAGGGGAGGAGACAG960GATTTTGTGGGAGGGAGAACTTAAGAACTGGATCCATTTGCGCCATTGAGAAAGCGCAAG1020AGGGAAGTAGAGGAGCGTCAGTAGTAACAGATGCTGCCGGCAGGGATGTGCTTGAGGAGG1080ATCCAGAGATGAGAGCAGGTCACTGGGAAAGGTTAGGGGCGGGGAGGCCTTGATTGGTGT1140TGGTTTGGTCGTTGTTGATTTTGGTTTTATGCAAGAAAAAGAAAACAACCAGAAACATTG1200GAGAAAGCTAAGGCTACCACCACCTACCCGGTCAGTCACTCCTCTGTAGCTTTCTCTTTC1260TTGGAGAAAGGAAAAGACCCAAGGGGTTGGCAGCGATATGTGAAAAAATTCAGAATTTAT1320GTTGTCTAATTACAAAAAGCAACTTCTAGAATCTTTAAAAATAAAGGACGTTGTCATTAG1380TTCTTCTGGTTTGTATTATTCTAAAACCTTCCAAATCTTCAAATTTACTTTATTTTAAAA1440TGATAAAATGAAGTTGTCATTTTATAAACCTTTTAAAAAGATATATATATATGTTTTTCT1500AATGTGTTAAAGTTCATTGGAACAGAAAGAAATGGATTTATCTGCTCTTCGCGTTGAAGA1560AGTACAAAATGTCATTAATGCTATGCAGAAAATCTTAGAGTGTCCCATCTGGTAAGTCAG1620CACAAGAGTGTATTAATTTGGGATTCCTATGATTATCTCCTATGCAAATGAACAGAATTG1680ACCTTACATACTAGGGAAGAAAAGACATGTCTAGTAAGATTAGGCTATTGTAATTGCTGA1740TTTTCTTAACTGAAGAACTTTAAAAATATAGAAAATGATTCCTTGTTCTCCATCCACTCT1800GCCTCTCCCACTCCTCTCCTTTTCAACACAATCCTGTGGTCCGGGAAAGACAGGGCTCTG1860TCTTGATTGGTTCTGCACTGGGCAGGATCTGTTAGATACTGCATTTGCTTTCTCCAGCTC1920TAAA1924(2)SEQIDNO15信息(i)序列特征(A)长度631碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO15AAATGCTGATGATAGTATAGAGTATTGAAGGGATCAATATAATTCTGTTTTGATATCTGA60AAGCTCACTGAAGGTAAGGATCGTATTCTCTGCTGTATTCTCAGTTCCTGACACAGCAGA120CATTTAATAAATATTGAACGAACTTGAGGCCTTATGTTGACTCAGTCATAACAGCTCAAA180GTTGAACTTATTCACTAAGAATAGCTTTATTTTTAAATAAATTATTGAGCCTCATTTATT240TTCTTTTTCTCCCCCCCCTACCCTGCTAGTCTGGAGTTGATCAAGGAACCTGTCTCCACA300AAGTGTGACCACATATTTTGCAAGTAAGTTTGAATGTGTTATGTGGCTCCATTATTAGCT360TTTGTTTTTGTCCTTCATAACCCAGGAAACACCTAACTTTATAGAAGCTTTACTTTCTTC420AATTAAGTGAGAACGAAAATCCAACTCCATTTCATTCTTTCTCAGAGAGTATATAGTTAT480CAAAAGTTGGTTGTAATCATAGTTCCTGGTAAAGTTTTGACATATATTATCTTTTTTTTT540TTTTGAGACAAGTCTCGCTCTGTCGCCCAGGCTGGAGTGCAGTGGCATGAGGCTTGCTCA600CTGCACCTCCGCCCCCGAGTTCAGCGACTCT631(2)SEQIDNO16信息(i)序列特征(A)长度481碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO16TGAGATCTAGACCACATGGTCAAAGAGATAGAATGTGAGCAATAAATGAACCTTAAATTT60TTCAACAGCTACTTTTTTTTTTTTTTTTTGAGACAGGGKCTTACTCTGTTGTCCCAGCTG120GAGTACAGWGTGCGATCATGAGGCTTACTGTTGCTTGACTCCTAGGCTCAAGCGATCCTA180TCACCTCAGTCTCCAAGTAGCTGGACTGTAAGTGCACACCACCATATCCAGCTAAATTTT240GTGTTTTCTGTAGAGACGGGGTTTCGCCATGTTTCCCAGGCTGGTCTTGAACTTTGGGCT300TAACCCGTCTGCCCACCTAGGCATCCCAAAGTGCTAGGATTACAGGTGTGAGTCATCATG360CCTGGCCAGTATTTTAGTTAGCTCTGTCTTTTCAAGTCATATACAAGTTCATTTTCTTTT420AAGTTTAGTTAACAACCTTATATCATGTATTCTTTTCTAGCATAAAGAAAGATTCGAGGC480C481(2)SEQIDNO17信息(i)序列特征(A)长度522碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO17TGTGATCATAACAGTAAGCCATATGCATGTAAGTTCAGTTTTCATAGATCATTGCTTATG60TAGTTTAGGTTTTTGCTTATGCAGCATCCAAAAACAATTAGGAAACTATTGCTTGTAATT120CACCTGCCATTACTTTTTAAATGGCTCTTAAGGGCAGTTGTGAGATTATCTTTTCATGGC180TATTTGCCTTTTGAGTATTCTTTCTACAAAAGGAAGTAAATTAAATTGTTCTTTCTTTCT240TTATAATTTATAGATTTTGCATGCTGAAACTTCTCAACCAGAAGAAAGGGCCTTCACAGT300GTCCTTTATGTAAGAATGATATAACCAAAAGGTATATAATTTGGTAATGATGCTAGGTTG360GAAGCAACCACAGTAGGAAAAAGTAGAAATTATTTAATAACATAGCGTTCCTATAAAACC420ATTCATCAGAAAAATTTATAAAAGAGTTTTTAGCACACAGTAAATTATTTCCAAAGTTAT480TTTCCTGAAAGTTTTATGGGCATCTGCCTTATACAGGTATTG522(2)SEQIDNO18信息(i)序列特征(A)长度465碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO18GGTAGGCTTAAATGAATGACAAAAAGTTACTAAATCACTGCCATCACACGGTTTATACAG60ATGTCAATGATGTATTGATTATAGAGGTTTTCTACTGTTGCTGCATCTTATTTTTATTTG120TTTACATGTCTTTTCTTATTTTAGTGTCCTTAAAAGGTTGATAATCACTTGCTGAGTGTG180TTTCTCAAACAATTTAATTTCAGGAGCCTACAAGAAAGTACGAGATTTAGTCAACTTGTT240GAAGAGCTATTGAAAATCATTTGTGCTTTTCAGCTTGACACAGGTTTGGAGTGTAAGTGT300TGAATATCCCAAGAATGACACTCAAGTGCTGTCCATGAAAACTCAGGAAGTTTGCACAAT360TACTTTCTATGACGTGGTGATAAGACCTTTTAGTCTAGGTTAATTTTAGTTCTGTATCTG420TAATCTATTTTAAAAAATTACTCCCACTGGTCTCACACCTTATTT465(2)SEQIDNO19信息(i)序列特征(A)长度513碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO19AAAAAATCACAGGTAACCTTAATGCATTGTCTTAACACAACAAAGAGCATACATAGGGTT60TCTCTTGGTTTCTTTGATTATAATTCATACATTTTTCTCTAACTGCAAACATAATGTTTT120CCCTTGTATTTTACAGATGCAAACAGCTATAATTTTGCAAAAAAGGAAAATAACTCTCCT180GAACATCTAAAAGATGAAGTTTCTATCATCCAAAGTATGGGCTACAGAAACCGTGCCAAA240AGACTTCTACAGAGTGAACCCGAAAATCCTTCCTTGGTAAAACCATTTGTTTTCTTCTTC300TTCTTCTTCTTCTTTTCTTTTTTTTTTCTTTTTTTTTTTGAGATGGAGTCTTGCTCTGTG360GCCCAGGCTAGAAGCAGTCCTCCTGCCTTAGCCNCCTTAGTAGCTGGGATTACAGGCACG420CGCACCATGCCAGGCTAATTTTTGTATTTTTAGTAGAGACGGGGTTTCATCATGTTGGCC480AGGCTGGTCTCGAACTCCTAACCTCAGGTGATC513(2)SEQIDNO20信息(i)序列特征(A)长度6769碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO20ATGATGGAGATCTTAAAAAGTAATCATTCTGGGGCTGGGCGTAGTAGCTTGCACCTGTAA60TCCCAGCACTTCGGGAGGCTGAGGCAGGCAGATAATTTGAGGTCAGGAGTTTGAGACCAG120CCTGGCCAACATGGTGAAACCCATCTCTACTAAAAATACAAAAATTAGCTGGGTGTGGTG180GCACGTACCTGTAATCCCAGCTACTCGGGAGGCGGAGGCACAAGAATTGCTTGAACCTAG240GACGCGGAGGTTGCAGCGAGCCAAGATCGCGCCACTGCACTCCAGCCTGGGCCGTAGAGT300GAGACTCTGTCTCAAAAAAGAAAAAAAAGTAATTGTTCTAGCTGGGCGCAGTGGCTCTTG360CCTGTAATCCCAGCACTTTGGGAGGCCAAGGCGGGTGGATCTCGAGTCCTAGAGTTCAAG420ACCAGCCTAGGCAATGTGGTGAAACCCCATCGCTACAAAAAATACAAAAATTAGCCAGGC480ATGGTGGCGTGCGCATGTAGTCCCAGCTCCTTGGGAGGCTGAGGTGGGAGGATCACTTGA540ACCCAGGAGACAGAGGTTGCAGTGAACCGAGATCACGCCACCACGCTCCAGCCTGGGCAA600CAGAACAAGACTCTGTCTAAAAAAATACAAATAAAATAAAAGTAGTTCTCACAGTACCAG660CATTCATTTTTCAAAAGATATAGAGCTAAAAAGGAAGGAAAAAAAAAGTAATGTTGGGCT720TTTAAATACTCGTTCCTATACTAAATGTTCTTAGGAGTGCTGGGGTTTTATTGTCATCAT780TTATCCTTTTTAAAAATGTTATTGGCCAGGCACGGTGGCTCATGGCTGTAATCCCAGCAC840TTTGGGAGGCCGAGGCAGGCAGATCACCTGAGGTCAGGAGTGTGAGACCAGCCTGGCCAA900CATGGCGAAACCTGTCTCTACTAAAAATACAAAAATTAACTAGGCGTGGTGGTGTACGCC960TGTAGTCCCAGCTACTCGGGAGGCTGAGGCAGGAGAATCAACTGAACCAGGGAGGTGGAG1020GTTGCAGTGTGCCGAGATCACGCCACTGCACTCTAGCCTGGCAACAGAGCAAGATTCTGT1080CTCAAAAAAAAAAAACATATATACACATATATCCCAAAGTGCTGGGATTACATATATATA1140TATATATATATATTATATATATATATATATATATATGTGATATATATGTGATATATATAT1200AACATATATATATGTAATATATATGTGATATATATATAATATATATATGTAATATATATG1260TGATATATATATATACACACACACACACATATATATGTATGTGTGTGTACACACACACAC1320ACAAATTAGCCAGGCATAGTTGCACACGCTTGGTAGACCCAGCTACTCAGGAGGCTGAGG1380GAGGAGAATCTCTTGAACTTAGGAGGCGGAGGTTGCAGTGAGCTGAGATTGCGCCACTGC1440ACTCCAGCCTGGGTGACAGAGCAGGACTCTGTACACCCCCCAAAACAAAAAAAAAAGTTA1500TCAGATGTGATTGGAATGTATATCAAGTATCAGCTTCAAAATATGCTATATTAATACTTC1560AAAAATTACACAAATAATACATAATCAGGTTTGAAAAATTTAAGACAACMSAARAAAAAA1620WYCMAATCACAMATATCCCACACATTTTATTATTMCTMCTMCWATTATTTTGWAGAGMCT1680GGGTCTCACYCYKTTGCTWATGCTGGTCTTTGAACYCCYKGCCYCAARCARTCCTSCTCC1740ABCCTCCCAARGTGCTGGGGATWATAGGCATGARCTAACCGCACCCAGCCCCAGACATTT1800TAGTGTGTAAATTCCTGGGCATTTTTTCAAGGCATCATACATGTTAGCTGACTGATGATG1860GTCAATTTATTTTGTCCATGGTGTCAAGTTTCTCTTCAGGAGGAAAAGCACAGAACTGGC1920CAACAATTGCTTGACTGTTCTTTACCATACTGTTTAGCAGGAAACCAGTCTCAGTGTCCA1980ACTCTCTAACCTTGGAACTGTGAGAACTCTGAGGACAAAGCAGCGGATACAACCTCAAAA2040GACGTCTGTCTACATTGAATTGGGTAAGGGTCTCAGGTTTTTTAAGTATTTAATAATAAT2100TGCTGGATTCCTTATCTTATAGTTTTGCCAAAAATCTTGGTCATAATTTGTATTTGTGGT2160AGGCAGCTTTGGGAAGTGAATTTTATGAGCCCTATGGTGAGTTATAAAAAATGTAAAAGA2220CGCAGTTCCCACCTTGAAGAATCTTACTTTAAAAAGGGAGCAAAAGAGGCCAGGCATGGT2280GGCTCACACCTGTAATCCCAGCACTTTGGGAGGCCAAAGTGGGTGGATCACCTGAGGTCG2340GGAGTTCGAGACCAGCCTAGCCAACATGGAGAAACTCTGTCTGTACCAAAAAATAAAAAA2400TTAGCCAGGTGTGGTGGCACATAACTGTAATCCCAGCTACTCGGGAGGCTGAGGCAGGAG2460AATCACTTGAACCCGGGAGGTGGAGGTTGCGGTGAACCGAGATCGCACCATTGCACTCCA2520GCCTGGGCAAAAATAGCGAAACTCCATCTAAAAAAAAAAAAGAGAGCAAAAGAAAGAMTM2580TCTGGTTTTAAMTMTGTGTAAATATGTTTTTGGAAAGATGGAGAGTAGCAATAAGAAAAA2640ACATGATGGATTGCTACAGTATTTAGTTCCAAGATAAATTGTACTAGATGAGGAAGCCTT2700TTAAGAAGAGCTGAATTGCCAGGCGCAGTGGCTCACGCCTGTAATCCCAGCACTTTGGGA2760GGCCGAGGTGGGCGGATCACCTGAGGTCGGGAGTTCAAGACCAGCCTGACCAACATGGAG2820AAACCCCATCTCTACTAAAAAAAAAAAAAAAAAAATTAGCCGGGGTGGTGGCTTATGCCT2880GTAATCCCAGCTACTCAGGAGGCTGAGGCAGGAGAATCGCTTGAACCCAGGAAGCAGAGG2940TTGCAGTGAGCCAAGATCGCACCATTGCACTCCAGCCTAGGCAACAAGAGTGAAACTCCA3000TCTCAAAAAAAAAAAAAAAGAGCTGAATCTTGGCTGGGCAGGATGGCTCGTGCCTGTAAT3060CCTAACGCTTTGGAAGACCGAGGCAGAAGGATTGGTTGAGTCCACGAGTTTAAGACCAGC3120CTGGCCAACATAGGGGAACCCTGTCTCTATTTTTAAAATAATAATACATTTTTGGCCGGT3180GCGGTGGCTCATGCCTGTAATCCCAATACTTTGGGAGGCTGAGGCAGGTAGATCACCTGA3240GGTCAGAGTTCGAGACCAGCCTGGATAACCTGGTGAAACCCCTCTTTACTAAAAATACAA3300AAAAAAAAAAAAATTAGCTGGGTGTGGTAGCACATGCTTGTAATCCCAGCTACTTGGGAG3360GCTGAGGCAGGAGAATCGCTTGAACCAGGGAGGCGGAGGTTACAATGAGCCAACACTACA3420CCACTGCACTCCAGCCTGGGCAATAGAGTGAGACTGCATCTCAAAAAAATAATAATTTTT3480AAAAATAATAAATTTTTTTAAGCTTATAAAAAGAAAAGTTGAGGCCAGCATAGTAGCTCA3540CATCTGTAATCTCAGCAGTGGCAGAGGATTGCTTGAAGCCAGGAGTTTGAGACCAGCCTG3600GGCAACATAGCAAGACCTCATCTCTACAAAAAAATTTCTTTTTTAAATTAGCTGGGTGTG3660GTGGTGTGCATCTGTAGTCCCAGCTACTCAGGAGGCAGAGGTGAGTGGATACATTGAACC3720CAGGAGTTTGAGGCTGTAGTGAGCTATGATCATGCCACTGCACTCCAACCTGGGTGACAG3780AGCAAGACCTCCAAAAAAAAAAAAAAAAGAGCTGCTGAGCTCAGAATTCAAACTGGGCTC3840TCAAATTGGATTTTCTTTTAGAATATATTTATAATTAAAAAGGATAGCCATCTTTTGAGC3900TCCCAGGCACCACCATCTATTTATCATAACACTTACTGTTTTCCCCCCTTATGATCATAA3960ATTCCTAGACAACAGGCATTGTAAAAATAGTTATAGTAGTTGATATTTAGGAGCACTTAA4020CTATATTCCAGGCACTATTGTGCTTTTCTTGTATAACTCATTAGATGCTTGTCAGACCTC4080TGAGATTGTTCCTATTATACTTATTTTACAGATGAGAAAATTAAGGCACAGAGAAGTTAT4140GAAATTTTTCCAAGGTATTAAACCTAGTAAGTGGCTGAGCCATGATTCAAACCTAGGAAG4200TTAGATGTCAGAGCCTGTGCTTTTTTTTTGTTTTTGTTTTTGTTTTCAGTAGAAACGGGG4260GTCTCACTTTGTTGGCCAGGCTGGTCTTGAACTCCTAACCTCAAATAATCCACCCATCTC4320GGCCTCCTCAAGTGCTGGGATTACAGGTGAGAGCCACTGTGCCTGGCGAAGCCCATGCCT4380TTAACCACTTCTCTGTATTACATACTAGCTTAACTAGCATTGTACCTGCCACAGTAGATG4440CTCAGTAAATATTTCTAGTTGAATATCTGTTTTTCAACAAGTACATTTTTTTAACCCTTT4500TAATTAAGAAAACTTTTATTGATTTATTTTTTGGGGGGAAATTTTTTAGGATCTGATTCT4560TCTGAAGATACCGTTAATAAGGCAACTTATTGCAGGTGAGTCAAAGAGAACCTTTGTCTA4620TGAAGCTGGTATTTTCCTATTTAGTTAATATTAAGGATTGATGTTTCTCTCTTTTTAAAA4680ATATTTTAACTTTTATTTTAGGTTCAGGGATGTATGTGCAGTTTGTTATATAGGTAAACA4740CACGACTTGGGATTTGGTGTATAGATTTTTTTCATCATCCGGGTACTAAGCATACCCCAC4800AGTTTTTTGTTTGCTTTCTTTCTGAATTTCTCCCTCTTCCCACCTTCCTCCCTCAAGTAG4860GCTGGTGTTTCTCCAGACTAGAATCATGGTATTGGAAGAAACCTTAGAGATCATCTAGTT4920TAGTTCTCTCATTTTATAGTGGAGGAAATACCCTTTTTGTTTGTTGGATTTAGTTATTAG4980CACTGTCCAAAGGAATTTAGGATAACAGTAGAACTCTGCACATGCTTGCTTCTAGCAGAT5040TGTTCTCTAAGTTCCTCATATACAGTAATATTGACACAGCAGTAATTGTGACTGATGAAA5100ATGTTCAAGGACTTCATTTTCAACTCTTTCTTTCCTCTGTTCCTTATTTCCACATATCTC5160TCAAGCTTTGTCTGTATGTTATATAATAAACTACAAGCAACCCCAACTATGTTACCTACC5220TTCCTTAGGAATTATTGCTTGACCCAGGTTTTTTTTTTTTTTTTTTTGGAGACGGGGTCT5280TGCCCTGTTGCCAGGATGGAGTGTAGTGGCGCCATCTCGGCTCACTGCAATCTCCAACTC5340CCTGGTTCAAGCGATTCTCCTGTCTCAATCTCACGAGTAGCTGGGACTACAGGTATACAC5400CACCACGCCCGGTTAATTGACCATTCCATTTCTTTCTTTCTCTCTTTTTTTTTTTTTTTT5460TTGAGACAGAGTCTTGCTCTGTTGCCCAGGCTGGAGTACAGAGGTGTGATCTCACCTCTC5520CGCAACGTCTGCCTCCCAGGTTGAAGCCATACTCCTGCCTCAGCCTCTCTAGTAGCTGGG5580ACTACAGGCGCGCGCCACCACACCCGGCTAATTTTTGTATTTTTAGTAGAGATGGGGTTT5640CACCATGTTGGCCAGGCTGGTCTTGAACTCATGACCTCAAGTGGTCCACCCGCCTCAGCC5700TCCCAAAGTGCTGGAATTACAGGCTTGAGCCACCGTGCCCAGCAACCATTTCATTTCAAC5760TAGAAGTTTCTAAAGGAGAGAGCAGCTTTCACTAACTAAATAAGATTGGTCAGCTTTCTG5820TAATCGAAAGAGCTAAAATGTTTGATCTTGGTCATTTGACAGTTCTGCATACATGTAACT5880AGTGTTTCTTATTAGGACTCTGTCTTTTCCCTATAGTGTGGGAGATCAAGAATTGTTACA5940AATCACCCCTCAAGGAACCAGGGATGAAATCAGTTTGGATTCTGCAAAAAAGGGTAATGG6000CAAAGTTTGCCAACTTAACAGGCACTGAAAAGAGAGTGGGTAGATACAGTACTGTAATTA6060GATTATTCTGAAGACCATTTGGGACCTTTACAACCCACAAAATCTCTTGGCAGAGTTAGA6120GTATCATTCTCTGTCAAATGTCGTGGTATGGTCTGATAGATTTAAATGGTACTAGACTAA6180TGTACCTATAATAAGACCTTCTTGTAACTGATTGTTGCCCTTTCGCTTTTTTTTTTGTTT6240GTTTGTTTGTTTTTTTTTGAGATGGGGTCTCACTCTGTTGCCCAGGCTGGAGTGCAGTGA6300TGCAATCTTGGCTCACTGCAACCTCCACCTCCAAAGGCTCAAGCTATCCTCCCACTTCAG6360CCTCCTGAGTAGCTGGGACTACAGGCGCATGCCACCACACCCGGTTAATTTTTTGTGGTT6420TTATAGAGATGGGGTTTCACCATGTTACCGAGGCTGGTCTCAAACTCCTGGACTCAAGCA6480GTCTGCCCACTTCAGCCTCCCAAAGTGCTGCAGTTACAGGCTTGAGCCACTGTGCCTGGC6540CTGCCCTTTACTTTTAATTGGTGTATTTGTGTTTCATCTTTTACCTACTGGTTTTTAAAT6600ATAGGGAGTGGTAAGTCTGTAGATAGAACAGAGTATTAAGTAGACTTAATGGCCAGTAAT6660CTTTAGAGTACATCAGAACCAGTTTTCTGATGGCCAATCTGCTTTTAATTCACTCTTAGA6720CGTTAGAGAAATAGGTGTGGTTTCTGCATAGGGAAAATTCTGAAATTAA6769(2)SEQIDNO21信息(i)序列特征(A)长度4249碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO21GATCCTAAGTGGAAATAATCTAGGTAAATAGGAATTAAATGAAAGAGTATGAGCTACATC60TTCAGTATACTTGGTAGTTTATGAGGTTAGTTTCTCTAATATAGCCAGTTGGTTGATTTC120CACCTCCAAGGTGTATGAAGTATGTATTTTTTTAATGACAATTCAGTTTTTGAGTACCTT180GTTATTTTTGTATATTTTCAGCTGCTTGTGAATTTTCTGAGACGGATGTAACAAATACTG240AACATCATCAACCCAGTAATAATGATTTGAACACCACTGAGAAGCGTGCAGCTGAGAGGC300ATCCAGAAAAGTATCAGGGTAGTTCTGTTTCAAACTTGCATGTGGAGCCATGTGGCACAA360ATACTCATGCCAGCTCATTACAGCATGAGAACAGCAGTTTATTACTCACTAAAGACAGAA420TGAATGTAGAAAAGGCTGAATTCTGTAATAAAAGCAAACAGCCTGGCTTAGCAAGGAGCC480AACATAACAGATGGGCTGGAAGTAAGGAAACATGTAATGATAGGCGGACTCCCAGCACAG540AAAAAAAGGTAGATCTGAATGCTGATCCCCTGTGTGAGAGAAAAGAATGGAATAAGCAGA600AACTGCCATGCTCAGAGAATCCTAGAGATACTGAAGATGTTCCTTGGATAACACTAAATA660GCAGCATTCAGAAAGTTAATGAGTGGTTTTCCAGAAGTGATGAACTGTTAGGTTCTGATG720ACTCACATGATGGGGAGTCTGAATCAAATGCCAAAGTAGCTGATGTATTGGACGTTCTAA780ATGAGGTAGATGAATATTCTGGTTCTTCAGAGAAAATAGACTTACTGGCCAGTGATCCTC840ATGAGGCTTTAATATGTAAAAGTGAAAGAGTTCACTCCAAATCAGTAGAGAGTAATATTG900AAGGCCAAATATTTGGGAAAACCTATCGGAAGAAGGCAAGCCTCCCCAACTTAAGCCATG960TAACTGAAAATCTAATTATAGGAGCATTTGTTACTGAGCCACAGATAATACAAGAGCGTC1020CCCTCACAAATAAATTAAAGCGTAAAAGGAGACCTACATCAGGCCTTCATCCTGAGGATT1080TTATCAAGAAAGCAGATTTGGCAGTTCAAAAGACTCCTGAAATGATAAATCAGGGAACTA1140ACCAAACGGAGCAGAATGGTCAAGTGATGAATATTACTAATAGTGGTCATGAGAATAAAA1200CAAAAGGTGATTCTATTCAGAATGAGAAAAATCCTAACCCAATAGAATCACTCGAAAAAG1260AATCTGCTTTCAAAACGAAAGCTGAACCTATAAGCAGCAGTATAAGCAATATGGAACTCG1320AATTAAATATCCACAATTCAAAAGCACCTAAAAAGAATAGGCTGAGGAGGAAGTCTTCTA1380CCAGGCATATTCATGCGCTTGAACTAGTAGTCAGTAGAAATCTAAGCCCACCTAATTGTA1440CTGAATTGCAAATTGATAGTTGTTCTAGCAGTGAAGAGATAAAGAAAAAAAAGTACAACC1500AAATGCCAGTCAGGCACAGCAGAAACCTACAACTCATGGAAGGTAAAGAACCTGCAACTG1560GAGCCAAGAAGAGTAACAAGCCAAATGAACAGACAAGTAAAAGACATGACAGCGATACTT1620TCCCAGAGCTGAAGTTAACAAATGCACCTGGTTCTTTTACTAAGTGTTCAAATACCAGTG1680AACTTAAAGAATTTGTCAATCCTAGCCTTCCAAGAGAAGAAAAAGAAGAGAACTAGAAAC1740AGTTAAAGTGTCTAATAATGCTGAAGACCCCAAAGATCTCATGTTAAGTGGAGAAAGGGT1800TTTGCAAACTGAAAGATCTGTAGAGAGTAGCAGTATTTCATTGGTACCTGGTACTGATTA1860TGGCACTCAGGAAAGTATCTCGTTACTGGAAGTTAGCACTCTAGGGAAGGCAAAAACAGA1920ACCAAATAAATGTGTGAGTCAGTGTGCAGCATTTGAAAACCCCAAGGGACTAATTCATGG1980TTGTTCCAAAGATAATAGAAATGACACAGAAGGCTTTAAGTATCCATTGGGACATGAAGT2040TAACCACAGTCGGGAAACAAGCATAGAAATGGAAGAAAGTGAACTTGATGCTCAGTATTT2100GCAGAATACATTCAAGGTTTCAAAGCGCCAGTCATTTGCTCCGTTTTCAAATCCAGGAAA2160TGCAGAAGAGGAATGTGCAACATTCTCTGCCCACTCTGGGTCCTTAAAGAAACAAAGTCC2220AAAAGTCACTTTTGAATGTGAACAAAAGGAAGAAAATCAAGGAAAGAATGAGTCTAATAT2280CAAGCCTGTACAGACAGTTAATATCACTGCAGGCTTTCCTGTGGTTGGTCAGAAAGATAA2340GCCAGTTGATAATGCCAAATGTAGTATCAAAGGAGGCTCTAGGTTTTGTCTATCATCTCA2400GTTCAGAGGCAACGAAACTGGACTCATTACTCCAAATAAACATGGACTTTTACAAAACCC2460ATATCGTATACCACCACTTTTTCCCATCAAGTCATTTGTTAAAACTAAATGTAAGAAAAA2520TCTGCTAGAGGAAAACTTTGAGGAACATTCAATGTCACCTGAAAGAGAAATGGGAAATGA2580GAACATTCCAAGTACAGTGAGCACAATTAGCCGTAATAACATTAGAGAAAATGTTTTTAA2640AGAAGCCAGCTCAAGCAATATTAATGAAGTAGGTTCCAGTACTAATGAAGTGGGCTCCAG2700TATTAATGAAATAGGTTCCAGTGATGAAAACATTCAAGCAGAACTAGGTAGAAACAGAGG2760GCCAAAATTGAATGCTATGCTTAGATTAGGGGTTTTGCAACCTGAGGTCTATAAACAAAG2820TCTTCCTGGAAGTAATTGTAAGCATCCTGAAATAAAAAAGCAAGAATATGAAGAAGTAGT2880TCAGACTGTTAATACAGATTTCTCTCCATATCTGATTTCAGATAACTTAGAACAGCCTAT2940GGGAAGTAGTCATGCATCTCAGGTTTGTTCTGAGACACCTGATGACCTGTTAGATGATGG3000TGAAATAAAGGAAGATACTAGTTTTGCTGAAAATGACATTAAGGAAAGTTCTGCTGTTTT3060TAGCAAAAGCGTCCAGAAAGGAGAGCTTAGCAGGAGTCCTAGCCCTTTCACCCATACACA3120TTTGGCTCAGGGTTACCGAAGAGGGGCCAAGAAATTAGAGTCCTCAGAAGAGAACTTATC3180TAGTGAGGATGAAGAGCTTCCCTGCTTCCAACACTTGTTATTTGGTAAAGTAAACAATAT3240ACCTTCTCAGTCTACTAGGCATAGCACCGTTGCTACCGAGTGTCTGTCTAAGAACACAGA3300GGAGAATTTATTATCATTGAAGAATAGCTTAAATGACTGCAGTAACCAGGTAATATTGGC3360AAAGGCATCTCAGGAACATCACCTTAGTGAGGAAACAAAATGTTCTGCTAGCTTGTTTTC3420TTCACAGTGCAGTGAATTGGAAGACTTGACTGCAAATACAAACACCCAGGATCCTTTCTT3480GATTGGTTCTTCCAAACAAATGAGGCATCAGTCTGAAAGCCAGGGAGTTGGTCTGAGTGA3540CAAGGAATTGGTTTCAGATGATGAAGAAAGAGGAACGGGCTTGGAAGAAAATAATCAAGA3600AGAGCAAAGCATGGATTCAAACTTAGGTATTGGAACCAGGTTTTTGTGTTTGCCCCAGTC3660TATTTATAGAAGTGAGCTAAATGTTTATGCTTTTGGGGAGCACATTTTACAAATTTCCAA3720GTATAGTTAAAGGAACTGCTTCTTAAACTTGAAACATGTTCCTCCTAAGGTGCTTTTCAT3780AGAAAAAAGTCCTTCACACAGCTAGGACGTCATCTTTGACTGAATGAGCTTTAACATCCT3840AATTACTGGTGGACTTACTTCTGGTTTCATTTTATAAAGCAAATCCCGGTGTCCCAAAGC3900AAGGAATTTAATCATTTTGTGTGACATGAAAGTAAATCCAGTCCTGCCAATGAGAAGAAA3960AAGACACAGCAAGTTGCAGCGTTTATAGTCTGCTTTTACATCTGAACCTCTGTTTTTGTT4020ATTTAAGGTGAAGCAGCATCTGGGTGTGAGAGTGAAACAAGCGTCTCTGAAGACTGCTCA4080GGGCTATCCTCTCAGAGTGACATTTTAACCACTCAGGTAAAAAGCGTGTGTGTGTGTGCA4140CATGCGTGTGTGTGGTGTCCTTTGCATTCAGTAGTATGTATCCCACATTCTTAGGTTTGC4200TGACATCATCTCTTTGAATTAATGGCACAATTGTTTGTGGTTCATTGTC4249(2)SEQIDNO22信息(i)序列特征(A)长度710碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO22NGNGAATGTAATCCTAATATTTCNCNCCNACTTAAAAGAATACCACTCCAANGGCATCNC60AATACATCAATCAATTGGGGAATTGGGATTTTCCCTCNCTAACATCANTGGAATAATTTC120ATGGCATTAATTGCATGAATGTGGTTAGATTAAAAGGTGTTCATGCTAGAACTTGTAGTT180CCATACTAGGTGATTTCAATTCCTGTGCTAAAATTAATTTGTATGATATATTNTCATTTA240ATGGAAAGCTTCTCAAAGTATTTCATTTTCTTGGTACCATTTATCGTTTTTGAAGCAGAG300GGATACCATGCAACATAACCTGATAAAGCTCCAGCAGGAAATGGCTGAACTAGAAGCTGT360GTTAGAACAGCATGGGAGCCAGCCTTCTAACAGCTACCCTTCCATCATAAGTGACTCTTC420TGCCCTTGAGGACCTGCGAAATCCAGAACAAAGCACATCAGAAAAAGGTGTGTATTGTTG480GCCAAACACTGATATCTTAAGCAAAATTCTTTCCTTCCCCTTTATCTCCTTCTGAAGAGT540AAGGACCTAGCTCCAACATTTTATGATCCTTGCTCAGCACATGGGTAATTATGGAGCCTT600GGTTCTTGTCCCTGCTCACAACTAATATACCAGTCAGAGGGACCCAAGGCAGTCATTCAT660GTTGTCATCTGAGATACCTACAACAAGTAGATGCTATGGGGAGCCCATGG710(2)SEQIDNO23信息(i)序列特征(A)长度473碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO23CCATTGGTGCTAGCATCTGTCTGTTGCATTGCTTGTGTTTATAAAATTCTGCCTGATATA60CTTGTTAAAAACCAATTTGTGTATCATAGATTGATGCTTTTGAAAAAAATCAGTATTCTA120ACCTGAATTATCACTATCAGAACAAAGCAGTAAAGTAGATTTGTTTTCTCATTCCATTTA180AAGCAGTATTAACTTCACAGAAAAGTAGTGAATACCCTATAAGCCAGAATCCAGAAGGCC240TTTCTGCTGACAAGTTTGAGGTGTCTGCAGATAGTTCTACCAGTAAAAATAAAGAACCAG300GAGTGGAAAGGTAAGAAACATCAATGTAAAGATGCTGTGGTATCTGACATCTTTATTTAT360ATTGAACTCTGATTGTTAATTTTTTTCACCATACTTTCTCCAGTTTTTTTGCATACAGGC420ATTTATACACTTTTATTGCTCTAGGATACTTCTTTTGTTTAATCCTATATAGG473(2)SEQIDNO24信息(i)序列特征(A)长度421碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO24GGATAAGNTCAAGAGATATTTTGATAGGTGATGCAGTGATNAATTGNGAAAATTTNCTGC60CTGCTTTTAATCTTCCCCCGTTCTTTCTTCCTNCCTCCCTCCCTTCCTNCCTCCCGTCCT120TNCCTTTCCTTTCCCTCCCTTCCNCCTTCTTTCCNTCTNTCTTTCCTTTCTTTCCTGTCT180ACCTTTCTTTCCTTCCTCCCTTCCTTTTCTTTTCTTTCTTTCCTTTCCTTTTCTTTCCTT240TCTTTCCTTTCCTTTCTTTCTTGACAGAGTCTTGCTCTGTCACTCAGGCTGGAGTGCAGT300GGCGTGATCTCGNCTCACTGCAACCTCTGTCTCCCAGGTTCAAGCAATTTTCCTGCCTCA360GCCTCCCGAGTAGCTGAGATTACAGGCGCCAGCCACCACACCCAGCTACTGACCTGCTTT420T421(2)SEQIDNO25信息(i)序列特征(A)长度997碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO25AAACAGCTGGGAGATATGGTGCCTCAGACCAACCCCATGTTATATGTCAACCCTGACATA60TTGGCAGGCAACATGAATCCAGACTTCTAGGCTGTCATGCGGGCTCTTTTTTGCCAGTCA120TTTCTGATCTCTCTGACATGAGCTGTTTCATTTATGCTTTGGCTGCCCAGCAAGTATGAT180TTGTCCTTTCACAATTGGTGGCGATGGTTTTCTCCTTCCATTTATCTTTCTAGGTCATCC240CCTTCTAAATGCCCATCATTAGATGATAGGTGGTACATGCACAGTTGCTCTGGGAGTCTT300CAGAATAGAAACTACCCATCTCAAGAGGAGCTCATTAAGGTTGTTGATGTGGAGGAGCAA360CAGCTGGAAGAGTCTGGGCCACACGATTTGACGGAAACATCTTACTTGCCAAGGCAAGAT420CTAGGTAATATTTCATCTGCTGTATTGGAACAAACACTYTGATTTTACTCTGAATCCTAC480ATAAAGATATTCTGGTTAACCAACTTTTAGATGTACTAGTCTATCATGGACACTTTTGTT540ATACTTAATTAAGCCCACTTTAGAAAAATAGCTCAAGTGTTAATCAAGGTTTACTTGAAA600ATTATTGAAACTGTTAATCCATCTATATTTTAATTAATGGTTTAACTAATGATTTTGAGG660ATGWGGGAGTCKTGGTGTACTCTAMATGTATTATTTCAGGCCAGGCATAGTGGCTCACGC720CTGGTAATCCCAGTAYYCMRGAGCCCGAGGCAGGTGGAGCCAGCTGAGGTCAGGAGTTCA780AGACCTGTCTTGGCCAACATGGGNGAAACCCTGTCTTCTTCTTAAAAAANACAAAAAAAA840TTAACTGGGTTGTGCTTAGGTGNATGCCCCGNATCCTAGTTNTTCTTGNGGGTTGAGGGA900GGAGATCACNTTGGACCCCGGAGGGGNGGGTGGGGGNGAGCAGGNCAAAACACNGACCCA960GCTGGGGTGGAAGGGAAGCCCACTCNAAAAAANNTTN997(2)SEQIDNO26信息(i)序列特征(A)长度639碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO26TTTTTAGGAAACAAGCTACTTTGGATTTCCACCAACACCTGTATTCATGTACCCATTTTT60CTCTTAACCTAACTTTATTGGTCTTTTTAATTCTTAACAGAGACCAGAACTTTGTAATTC120AACATTCATCGTTGTGTAAATTAAACTTCTCCCATTCCTTTCAGAGGGAACCCCTTACCT180GGAATCTGGAATCAGCCTCTTCTCTGATGACCCTGAATCTGATCCTTCTGAAGACAGAGC240CCCAGAGTCAGCTCGTGTTGGCAACATACCATCTTCAACCTCTGCATTGAAAGTTCCCCA300ATTGAAAGTTGCAGAATCTGCCCAGAGTCCAGCTGCTGCTCATACTACTGATACTGCTGG360GTATAATGCAATGGAAGAAAGTGTGAGCAGGGAGAAGCCAGAATTGACAGCTTCAACAGA420AAGGGTCAACAAAAGAATGTCCATGGTGGTGTCTGGCCTGACCCCAGAAGAATTTGTGAG480TGTATCCATATGTATCTCCCTAATGACTAAGACTTAACAACATTCTGGAAAGAGTTTTAT540GTAGGTATTGTCAATTAATAACCTAGAGGAAGAAATCTAGAAAACAATCACAGTTCTGTG600TAATTTAATTTCGATTACTAATTTCTGAAAATTTAGAAY639(2)SEQIDNO27信息(i)序列特征(A)长度922碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO27NCCCNNCCCCCNAATCTGAAATGGGGGTAACCCCCCCCCAACCGANACNTGGGTNGCNTA60GAGANTTTAATGGCCCNTTCTGAGGNACANAAGCTTAAGCCAGGNGACGTGGANCNATGN120GTTGTTTNTTGTTTGGTTACCTCCAGCCTGGGTGACAGAGCAAGACTCTGTCTAAAAAAA180AAAAAAAAAAAAATCGACTTTAAATAGTTCCAGGACACGTGTAGAACGTGCAGGATTGCT240ACGTAGGTAAACATATGCCATGGTGGGATAACTAGTATTCTGAGCTGTGTGCTAGAGGTA300ACTCATGATAATGGAATATTTGATTTAATTTCAGATGCTCGTGTACAAGTTTGCCAGAAA360ACACCACATCACTTTAACTAATCTAATTACTGAAGAGACTACTCATGTTGTTATGAAAAC420AGGTATACCAAGAACCTTTACAGAATACCTTGCATCTGCTGCATAAAACCACATGAGGCG480AGGCACGGTGGCGCATGCCTGTAATCGCAGCACTTTGGGAGGCCGAGGCGGGCAGATCAC540GAGATTAGGAGATCGAGACCATCCTGGCCAGCATGGTGAAACCCCGTCTCTACTANNAAA600TGGNAAAATTANCTGGGTGTGGTCGCGTGCNCCTGTAGTCCCAGCTACTCGTGAGGCTGA660GGCAGGAGAATCACTTGAACCGGGGAAATGGAGGTTTCAGTGAGCAGAGATCATNCCCCT720NCATTCCAGCCTGGCGACAGAGCAAGGCTCCGTCNCCNAAAAAATAAAAAAAAACGTGAA780CAAATAAGAATATTTGTTGAGCATAGCATGGATGATAGTCTTCTAATAGTCAATCAATTA840CTTTATGAAAGACAAATAATAGTTTTGCTGCTTCCTTACCTCCTTTTGTTTTGGGTTAAG900ATTTGGAGTGTGGGCCAGGCAC922(2)SEQIDNO28信息(i)序列特征(A)长度867碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO28GATCTATAGCTAGCCTTGGCGTCTAGAAGATGGGTGTTGAGAAGAGGGAGTGGAAAGATA60TTTCCTCTGGTCTTAACTTCATATCAGCCTCCCCTAGACTTCCAAATATCCATACCTGCT120GGTTATAATTAGTGGTGTTTTCAGCCTCTGATTCTGTCACCAGGGGTTTTAGAATCATAA180ATCCAGATTGATCTTGGGAGTGTAAAAAACTGAGGCTCTTTAGCTTCTTAGGACAGCACT240TCCTGATTTTGTTTTCAACTTCTAATCCTTTGAGTGTTTTTCATTCTGCAGATGCTGAGT300TTGTGTGTGAACGGACACTGAAATATTTTCTAGGAATTGCGGGAGGAAAATGGGTAGTTA360GCTATTTCTGTAAGTATAATACTATTTCTCCCCTCCTCCCTTTAACACCTCAGAATTGCA420TTTTTACACCTAACATTTAACACCTAAGGTTTTTGCTGATGCTGAGTCTGAGTTACCAAA480AGGTCTTTAAATTGTAATACTAAACTACTTTTATCTTTAATATCACTTTGTTCAAGATAA540GCTGGTGATGCTGGGAAAATGGGTCTCTTTTATAACTAATAGGACCTAATCTGCTCCTAG600CAATGTTAGCATATGAGCTAGGGATTTATTTAATAGTCGGCAGGAATCCATGTGCARCAG660NCAAACTTATAATGTTTAAATTAAACATCAACTCTGTCTCCAGAAGGAAACTGCTGCTAC720AAGCCTTATTAAAGGGCTGTGGCTTTAGAGGGAAGGACCTCTCCTCTGTCATTCTTCCTG780TGCTCTTTTGTGAATCGCTGACCTCTCTATCTCCGTGAAAAGAGCACGTTCTTCTGCTGT840ATGTAACCTGTCTTTTCTATGATCTCT867(2)SEQIDNO29信息(i)序列特征(A)长度561碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO29NAAAAACGGGGNNGGGANTGGGCCTTAAANCCAAAGGGCNAACTCCCCAACCATTNAAAA60ANTGACNGGGGATTATTAAAANCGGCGGGAAACATTTCACNGCCCAACTAATATTGTTAA120ATTAAAACCACCACCNCTGCNCCAAGGAGGGAAACTGCTGCTACAAGCCTTATTAAAGGG180CTGTGGCTTTAGAGGGAAGGACCTCTCCTCTGTCATTCTTCCTGTGCTCTTTTGTGAATC240GCTGACCTCTCTATGTCCGTGAAAAGAGCACGTTCTTCGTCTGTATGTAACCTGTCTTTT300CTATGATCTCTTTAGGGGTGACCCAGTCTATTAAAGAAAGAAAAATGCTGAATGAGGTAA360GTACTTGATGTTACAAACTAACCAGAGATATTCATTCAGTCATATAGTTAAAAATGTATT420TGCTTCCTTCCATCAATGCACCACTTTCCTTAACAATGCACAAATTTTCCATGATAATGA480GGATCATCAAGAATTATGCAGGCCTGCACTGTGGCTCATACCTATAATCCCAGCGCTTTG540GGAGGCTGAGGCGCTTGGATC561(2)SEQIDNO30信息(i)序列特征(A)长度567碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO30AATTTTTTGTATTTTTAGTAGAGATGAGGTTCACCATGTTGGTCTAGATCTGGTGTCGAA60CGTCCTGACCTCAAGTGATCTGCCAGCCTCAGTCTCCCAAAGTGCTAGGATTACAGGGGT120GAGCCACTGCGCCTGGCCTGAATGCCTAAAATATGACGTGTCTGCTCCACTTCCATTGAA180GGAAGCTTCTCTTTCTCTTATCCTGATGGGTTGTGTTTGGTTTCTTTCAGCATGATTTTG240AAGTCAGAGGAGATGTGGTCAATGGAAGAAACCACCAAGGTCCAAAGCGAGCAAGAGAAT300CCCAGGACAGAAAGGTAAAGCTCCCTCCCTCAAGTTGACAAAAATCTCACCCCACCACTC360TGTATTCCACTCCCCTTTGCAGAGATGGGCCGCTTCATTTTGTAAGACTTATTACATACA420TACACAGTGCTAGATACTTTCACACAGGTTCTTTTTTCACTCTTCCATCCCAACCACATA480AATAAGTATTGTCTCTACTTTATGAATGATAAAACTAAGAGATTTAGAGAGGCTGTGTAA540TTTGGATTCCCGTCTCGGGTTCAGATC567(2)SEQIDNO31信息(i)序列特征(A)长度633碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO31TTGGCCTGATTGGTGACAAAAGTGAGATGCTCAGTCCTTGAATGACAAAGAATGCCTGTA60GAGTTGCAGGTCCAACTACATATGCACTTCAAGAAGATCTTCTGAAATCTAGTAGTGTTC120TGGACATTGGACTGCTTGTCCCTGGGAAGTAGCAGCAGAAATGATCGGTGGTGAACAGAA180GAAAAAGAAAAGCTCTTCCTTTTTGAAAGTCTGTTTTTTGAATAAAAGCCAATATTCTTT240TATAACTAGATTTTCCTTCTCTCCATTCCCCTGTCCCTCTCTCTTCCTCTCTTCTTCCAG300ATCTTCAGGGGGCTAGAAATCTGTTGCTATGGGCCCTTCACCAACATGCCCACAGGTAAG360AGCCTGGGAGAACCCCAGAGTTCCAGCACCAGCCTTTGTCTTACATAGTGGAGTATTATA420AGCAAGGTCCCACGATGGGGGTTCCTCAGATTGCTGAAATGTTCTAGAGGCTATTCTATT480TCTCTACCACTCTCCAAACAAAACAGCACCTAAATGTTATCCTATGGCAAAAAAAAACTA540TACCTTGTCCCCCTTCTCAAGAGCATGAAGGTGGTTAATAGTTAGGATTCAGTATGTTAT600GTGTTCAGATGGCGTTGAGCTGCTGTTAGTGCC633(2)SEQIDNO32信息(i)序列特征(A)长度470碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO32TTTGAGAGACTATCAAACCTTATACCAAGTGGCCTTATGGAGACTGATAACCAGAGTACA60TGGCATATCAGTGGCAAATTGACTTAAAATCCATACCCCTACTATTTTAAGACCATTGTC120CTTTGGAGCAGAGAGACAGACTCTCCCATTGAGAGGTCTTGCTATAAGCCTTCATCCGGA180GAGTGTAGGGTAGAGGGCCTGGGTTAAGTATGCAGATTACTGCAGTGATTTTACATGTAA240ATGTCCATTTTAGATCAACTGGAATGGATGGTACAGCTGTGTGGTGCTTCTGTGGTGAAG300GAGCTTTCATCATTCACCCTTGGCACAGTAAGTATTGGGTGCCCTGTCAGTGTGGGAGGA360CACAATATTCTCTCCTGTGAGCAAGACTGGCACCTGTCAGTCCCTATGGATGCCCCTACT420GTAGCCTCAGAAGTCTTCTCTGCCCACATACCTGTGCCAAAAGACTCCAT470(2)SEQIDNO33信息(i)序列特征(A)长度517碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO33GGTGGTACGTGTCTGTAGTTCCAGCTACTTGGGAGGCTGAGATGGAAGGATTGCTTGAGC60CCAGGAGGCAGAGGTGGNANNTTACGCTGAGATCACACCACTGCACTCCAGCCTGGGTGA120CAGAGCAAGACCCTGTCTCAAAAACAAACAAAAAAAATGATGAAGTGACAGTTCCAGTAG180TCCTACTTTGACACTTTGAATGCTCTTTCCTTCCTGGGGATCCAGGGTGTCCACCCAATT240GTGGTTGTGCAGCCAGATGCCTGGACAGAGGACAATGGCTTCCATGGTAAGGTGCCTCGC300ATGTACCTGTGCTATTAGTGGGGTCCTTGTGCATGGGTTTGGTTTATCACTCATTACCTG360GTGCTTGAGTAGCACAGTTCTTGGCACATTTTTAAATATTTGTTGAATGAATGGCTAAAA420TGTCTTTTTGATGTTTTTATTGTTATTTGTTTTATATTGTAAAAGTAATACATGAACTGT480TTCCATGGGGTGGGAGTAAGATATGAATGTTCATCAC517(2)SEQIDNO34信息(i)序列特征(A)长度434碱基对(B)类型核酸(C)股性双链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(iv)反义否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO34CAGTAATCCTNAGAACTCATACGACCGGGCCCCTGGAGTCGNTGNTTNGAGCCTAGTCCN60GGAGAATGAATTGACACTAATCTCTGCTTGTGTTCTCTGTCTCCAGCAATTGGGCAGATG120TGTGAGGCACCTGTGGTGACCCGAGAGTGGGTGTTGGACAGTGTAGCACTCTACCAGTGC180CAGGAGCTGGACACCTACCTGATACCCCAGATCCCCCACAGCCACTACTGACTGCAGCCA240GCCACAGGTACAGAGCCACAGGACCCCAAGAATGAGCTTACAAAGTGGCCTTTCCAGGCC300CTGGGAGCTCCTCTCACTCTTCAGTCCTTCTACTGTCCTGGCTACTAAATATTTTATGTA360CATCAGCCTGAAAAGGACTTCTGGCTATGCAAGGGTCCCTTAAAGATTTTCTGCTTGAAG420TCTCCCTTGGAAAT434(2)SEQIDNO35信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO35GATAAATTAAAACTGCGACTGCGCGGCGTG30(2)SEQIDNO36信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO36GTAGTAGAGTCCCGGGAAAGGGACAGGGGG30(2)SEQIDNO37信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO37ATATATATATGTTTTTCTAATGTGTTAAAG30(2)SEQIDNO38信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO38GTAAGTCAGCACAAGAGTGTATTAATTTGG30(2)SEQIDNO39信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO39TTTCTTTTTCTCCCCCCCCTACCCTGCTAG30(2)SEQIDNO40信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO40GTAAGTTTGAATGTGTTATGTGGCTCCATT30(2)SEQIDNO41信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO41AGCTACTTTTTTTTTTTTTTTTTGAGACAG30(2)SEQIDNO42信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO42GTAAGTGCACACCACCATATCCAGCTAAAT30(2)SEQIDNO43信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO43AATTGTTCTTTCTTTCTTTATAATTTATAG30(2)SEQIDNO44信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO44GTATATAATTTGGTAATGATGCTAGGTTGG30(2)SEQIDNO45信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO45GAGTGTGTTTCTCAAACAATTTAATTTCAG30(2)SEQIDNO46信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO46GTAAGTGTTGAATATCCCAAGAATGACACT30(2)SEQIDNO47信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO47AAACATAATGTTTTCCCTTGTATTTTACAG30(2)SEQIDNO48信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO48GTAAAACCATTTGTTTTCTTCTTCTTCTTC30(2)SEQIDNO49信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO49TGCTTGACTGTTCTTTACCATACTGTTTAG30(2)SEQIDNO50信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO50GTAAGGGTCTCAGGTTTTTTAAGTATTTAA30(2)SEQIDNO51信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO51TGATTTATTTTTTGGGGGGAAATTTTTTAG30(2)SEQIDNO52信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO52GTGAGTCAAAGAGAACCTTTGTCTATGAAG30(2)SEQIDNO53信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO53TCTTATTAGGACTCTGTCTTTTCCCTATAG30(2)SEQIDNO54信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO54GTAATGGCAAAGTTTGCCAACTTAACAGGC30(2)SEQIDNO55信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO55GAGTACCTTGTTATTTTTGTATATTTTCAG30(2)SEQIDNO56信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO56GTATTGGAACCAGGTTTTTGTGTTTGCCCC30(2)SEQIDNO57信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO57ACATCTGAACCTCTGTTTTTGTTATTTAAG30(2)SEQIDNO58信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO58AGGTAAAAAGCGTGTGTGTGTGTGCACATG30(2)SEQIDNO59信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO59CATTTTCTTGGTACCATTTATCGTTTTTGA30(2)SEQIDNO60信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO60GTGTGTATTGTTGGCCAAACACTGATATCT30(2)SEQIDNO61信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO61AGTAGATTTGTTTTCTCATTCCATTTAAAG30(2)SEQIDNO62信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO62GTAAGAAACATCAATGTAAAGATGCTGTGG30(2)SEQIDNO63信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO63ATGGTTTTCTCCTTCCATTTATCTTTCTAG30(2)SEQIDNO64信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO64GTAATATTTCATCTGCTGTATTGGAACAAA30(2)SEQIDNO65信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO65TGTAAATTAAACTTCTCCCATTCCTTTCAG30(2)SEQIDNO66信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO66GTGAGTGTATCCATATGTATCTCCCTAATG30(2)SEQIDNO67信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO67ATGATAATGGAATATTTGATTTAATTTCAG30(2)SEQIDNO68信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO68GTATACCAAGAACCTTTACAGAATACCTTG30(2)SEQIDNO69信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO69CTAATCCTTTGAGTGTTTTTCATTCTGCAG30(2)SEQIDNO70信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO70GTAAGTATAATACTATTTCTCCCCTCCTCC30(2)SEQIDNO71信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO71TGTAACCTGTCTTTTCTATGATCTCTTTAG30(2)SEQIDNO72信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO72GTAAGTACTTGATGTTACAAACTAACCAGA30(2)SEQIDNO73信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO73TCCTGATGGGTTGTGTTTGGTTTCTTTCAG30(2)SEQIDNO74信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO74GTAAAGCTCCCTCCCTCAAGTTGACAAAAA30(2)SEQIDNO75信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO75CTGTCCCTCTCTCTTCCTCTCTTCTTCCAG30(2)SEQIDNO76信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO76GTAAGAGCCTGGGAGAACCCCAGAGTTCCA30(2)SEQIDNO77信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO77AGTGATTTTACATGTAAATGTCCATTTTAG30(2)SEQIDNO78信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO78GTAAGTATTGGGTGCCCTGTCAGTGTGGGA30(2)SEQIDNO79信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO79TTGAATGCTCTTTCCTTCCTGGGGATCCAG30(2)SEQIDNO80信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO80GTAAGGTGCCTCGCATGTACCTGTGCTATT30(2)SEQIDNO81信息(i)序列特征(A)长度30碱基对(B)类型核酸(C)股性单链(D)拓扑结构线性(ii)分子类型DNA(基因组)(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO81CTAATCTCTGCTTGTGTTCTCTGTCTCCAG30(2)SEQIDNO82信息(i)序列特征(A)长度42氨基酸(B)类型氨基酸(C)股性(D)拓扑结构线性(ii)分子类型肽(iii)假设否(vi)最初来源(A)有机体人(xi)序列描述SEQIDNO82CysProIleCysLeuGluLeuIleLysGluProValSerThrLysCys151015AspHisIlePheCysLysPheCysMetLeuLysLeuLeuAsnGlnLys202530LysGlyProSerGlnCysProLeuCysLys3540(2)SEQIDNO83信息(i)序列特征(A)长度45氨基酸(B)类型氨基酸(C)股性(D)拓扑结构线性(ii)分子类型肽(iii)假设否(xi)序列描述SEQIDNO83CysProIleCysLeuGluLeuLeuLysGluProValSerAlaAspCys151015AsnHisSerPheCysArgAlaCysIleThrLeuAsnTyrGluSerAsn202530ArgAsnThrAspGlyLysGlyAsnCysProValCysArg354045(2)SEQIDNO84信息(i)序列特征(A)长度41氨基酸(B)类型氨基酸(C)股性(D)拓扑结构线性(ii)分子类型肽(iii)假设否(xi)序列描述SEQIDNO84CysProIleCysLeuAspMetLeuLysAsnThrMetThrThrLysGlu151015CysLeuHisArgPheCysSerAspCysIleValThrAlaLeuArgSer202530GlyAsnLysGluCysProThrCysArg3540(2)SEQIDNO85信息(i)序列特征(A)长度42氨基酸(B)类型氨基酸(C)股性(D)拓扑结构线性(ii)分子类型肽(iii)假设否(xi)序列描述SEQIDNO85CysProValCysLeuGlnTyrPheAlaGluProMetMetLeuAspCys151015GlyHisAsnIleCysCysAlaCysLeuAlaArgCysTrpGlyThrAla202530CysThrAsnValSerCysProGlnCysArg3540权利要求1.一种分离的、编码突变型或多态性BRCA1多肽的核酸,其特征在于,与SEQIDNO1中所示的BRCA1多肽编码序列相比,该核酸含有一个或多个选自表12、12A和14所示突变和表18和19所示多态性的突变或多态性。2.如权利要求1所示的分离的核酸,其特征在于,它是编码突变型BRCA1多肽的DNA,与SEQIDNO1中所示的BRCA1多肽编码序列相比,该DNA含有一个或多个选自表12、12A和14所示突变的突变。3.如权利要求1所示的分离的核酸,其特征在于,它是编码多态性BRCA1多肽的DNA,与SEQIDNO1中所示的BRCA1多肽编码序列相比,该DNA含有一个或多个选自表18和19所示多态性的多态性。4.一种核酸探针,其特征在于,其核酸序列是如权利要求1-3中任一权利要求所述的核酸的一部分,与SEQIDNO1中所示的核苷酸序列相比,该核酸含有一个或多个选自表12、12A和14所示突变和表18和19所示多态性的突变型或多态性。5.一种复制克隆载体,其特征在于,它含有如权利要求1-4中任一权利要求所述的分离DNA和可在该载体的宿主细胞中操作的复制子。6.一种表达载体,其特征在于,它含有如权利要求1-4中任一权利要求所述的分离DNA,其中编码该突变型或多态性BRCA1多肽的编码序列可操作地连于启动子序列,该启动子序列能够指导该编码序列在该载体的宿主细胞中表达。7.用如权利要求5或6所述的载体转化的宿主细胞。8.一种产生与具有SEQIDNO2中所示氨基酸序列的BRCA1多肽相比的突变型或多态性BRCA1多肽的方法,其特征在于,它包括(i)在适合产生该多肽的条件下,培养权利要求7所述的、含有编码该多肽的表达载体的宿主细胞;和(ii)回收该多肽。9.如权利要求8所述的方法,其特征在于,还包括标记回收的多肽。10.一种基本上不含其他蛋白的多肽制剂,其特征在于,该多肽是与具有SEQIDNO2中所示氨基酸序列的BRCA1多肽相比的突变型或多态性BRCA1多肽,它可通过表达某核苷酸编码序列而获得,该核苷酸编码序列衍生自SEQIDNO1所示核苷酸序列并掺有一个或多个选自表12、12A和14所示突变和表18和19所示多态性的突变或多态性。11.如权利要求10所述的多肽制剂,其特征在于,它是可通过表达某核苷酸编码序列而获得的突变型BRCA1多肽,该核苷酸编码序列衍生自SEQIDNO1所示核苷酸序列并掺有一个或多个选自表12、12A和14所示突变的突变。12.一种基本上不含其他蛋白的多肽制剂,其特征在于,该多肽是权利要求10或11中任一权利要求所述多肽的抗原片段,与具有SEQIDNO2所示氨基酸序列的BRCA1多肽相比,该多肽有突变型或多态性。13.如权利要求10-12中任一权利要求所述的制剂,其特征在于,该多肽是被标记的。14.如权利要求10-12中任一权利要求所述的制剂,其特征在于,它处于融合蛋白形式。15.权利要求10-12和14中任一权利要求所述多肽的用途,其特征在于,用作产生抗体的免疫原。16.如权利要求15所述的用途,其特征在于,一种或多种产生的抗体随后被标记或结合于固相载体。17.一种诊断人体对象中乳房癌和卵巢癌倾向性的方法,其特征在于,它包括与SEQIDNO1所示核苷酸序列或其野生型等位基因变异体相比,确定在该对象的组织样品的BRCA1基因序列中是否有种系改变,表明对该癌症有倾向性的改变选自表12、12A和14所示突变。18.一种诊断人体对象的乳房或卵巢损伤是否有与BRCA1基因座关联的瘤形成的方法,其特征在于,它包括与SEQIDNO1所示核苷酸序列或其野生型等位基因变异体相比,确定在来自该损伤的样品中BRCA1基因序列是否有突变,该突变选自表12、12A和14所示突变。19.如权利要求17或18所述的方法,其特征在于,它包括分析该样品的mRNA或蛋白质,以确定是否存在表示权利要求1所述的突变型BRCA1等位基因表达的表达产物。20.如权利要求19所述的方法,其特征在于,调查在该样品中由BRCA1基因所编码的mRNA。21.如权利要求20所述的方法,其特征在于,在探针会与对应于BRCA1基因的RNA发生杂交的条件下,来自该样品的mRNA与BRCA1基因探针接触,然后检测该探针的杂交情况。22.如权利要求17或18所述的方法,其特征在于,在探针会与基因发生杂交的条件下,将BRCA1基因探针与从该样品中分离出的基因组DNA接触,然后检测该探针的杂交情况。23.如权利要求21或22所述的方法,其特征在于,该探针是针对权利要求1所述的突变型BRCA1等位基因的、等位基因特异性探针。24.如权利要求17或18所述的方法,其特征在于,它包括通过观察来自该样品的单链DNA在非变性的聚丙烯酰胺凝胶上电泳泳动率的变化,确定在该样品中的BRCA1基因是否有突变。25.如权利要求17或18所述的方法,其特征在于,扩增该样品中的全部或部分BRCA1基因,然后确定该扩增序列的序列。26.如权利要求17或18所述的方法,其特征在于,采用对权利要求1所述的突变型BRCA1等位基因特异的寡核苷酸引物,通过核酸扩增确定在该样品中是否存在该等位基因。27.如权利要求17或18所述的方法,其特征在于,克隆该样品中的全部或部分BRCA1基因以产生克隆的序列,然后确定该克隆序列的序列。28.如权利要求17-20任一权利要求所述的方法,其特征在于,它包括当分子(1)从该样品中分离出的BRCA1基因的基因组DNA或BRCA1mRNA和(2)与人野生型BRCA1基因DNA互补的核酸探针相互发生杂交形成双链时,确定分子(1)和(2)之间是否有错配。29.如权利要求17-20任一权利要求所述的方法,其特征在于,扩增该样品中的BRCA1基因序列,然后确定扩增出的序列与一个或多个核酸探针的杂交情况,这些探针含有野生型BRCA1基因序列或权利要求1所述的突变型BRCA1基因序列。30.如权利要求17或18所述的方法,其特征在于,确定该样品中的BRCA1基因与一个或多个核酸探针的原位杂交情况,这些探针含有野生型BRCA1基因序列或权利要求1所述的突变型BRCA1基因序列。全文摘要本发明一般涉及人类遗传学领域。具体地,本发明涉及用于分离和检测人乳房癌和卵巢癌倾向性基因(BRCA1)的方法和材料,该基因的某些突变型等位基因造成癌症尤其是乳房和卵巢癌的易患性。更具体地,本发明涉及BRCA1基因的种系突变及其在诊断乳房癌和卵巢癌倾向性方面的用途。本发明还涉及在人乳房癌和卵巢癌中BRCA1基因的体细胞突变及其在诊断和预后乳房癌和卵巢癌方面的用途。此外,本发明还涉及在其他的人癌肿中的BRCA1基因体细胞突变及其在人癌肿的诊断和预后方面的用途。本发明还涉及BRCA1基因发生突变的人癌肿的治疗,它包括基因治疗、蛋白质置换治疗和蛋白质模拟物。本发明还涉及筛选用于癌肿治疗的药物。最后,本发明涉及筛选BRCA1基因的突变,而这些突变可用于诊断乳房癌和卵巢癌的倾向性。文档编号C07K14/47GK1172502SQ9519541公开日1998年2月4日申请日期1995年8月11日优先权日1994年8月12日发明者D·M·沙特克-艾登斯,J·西马尔,江见充,中村祐辅,F·迪罗切申请人:亿万遗传股份有限公司,舒勒研究中心,肿瘤研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1