通过比较感染性生物的临床分离物中的多态性区域构建比较数据库和鉴定致病因子的制作方法

文档序号:426969阅读:883来源:国知局

专利名称::通过比较感染性生物的临床分离物中的多态性区域构建比较数据库和鉴定致病因子的制作方法
技术领域
:本发明涉及新的核苷酸序列,其将用于对包括结核病在内的所有感染性疾病的诊断、菌林鉴定、菌林分型和对其潜在毒性程度、传染性和/或潜伏期给出指导。本发明还包括通过感染性生物的不同临床分离物/菌林的序列的比较基因组分析,鉴定和选择与感染性疾病中的毒性和/或传染性相关的多态性的方法。多态性区域也可以作为潜在药物靶标和疫苗靶标。更具体地,本发明还涉及鉴定将包括在诊断DNA芯片中的结核分枝杆菌(Af.似Z^tm/w")菌林和其他感染性生物的致病因子,允许鉴定菌林、分型菌林和最终对其潜在毒性程度给出指导。尽管本发明已经特别参考结核分枝杆菌中的多态性区域进行了阐明,但是所述发明不被理解和解释为限定于结核病,而是可以应用于所有感染性疾病。
背景技术
:微生物病原体使用多种复杂的策略破坏宿主细胞功能以确保它们的繁殖和存活。已经与宿主共同进化或者与它们的宿主长期共存的一些病原体利用精密调节的宿主特异性策略来建立病原性关系。在感染期间,病原体遇到不同的条件,并且通过表达适于特定环境、宿主或者环境和宿主的毒性因子来应答。尽管抗生素是治疗感染性疾病的有效工具,但是药物抗性病原体的出现正成为临床情况中的问题。因此,需要新的抗生素或者抗病原体分子来抵抗此类药物抗性病原体。因此,本领域需要筛选方法,其目标不仅是鉴定和表征潜在的抗病原体试剂,还包括鉴定和表征使得病原体能够感染宿主和使其宿主变得虚弱的致病因子。分枝杆菌是不形成孢子的棒状、耐酸的需氧芽孢杆菌。一些种类的分枝杆菌对人和/或动物是致病的,许多因子与它们的毒性有关。结核病是世界性的健康问题,其导致每年约三百万人死亡,然而对于结核病致病的分子基础知之甚少。该疾病由结核分枝杆菌(Afj;co6a"er/ti附m&n:M/6>s/s)的感染引起;结核杆菌4皮吸入并4皮肺泡巨噬细胞摄入。与多数病原体的情况相同,结核分枝杆菌的感染并不总是导致疾病。该感染通常被细胞介导的免疫(CMI)的发展而阻止,导致在肺中形成微损伤,或者结节。如果CMI不限制结核分枝杆菌的扩散,那么可以发生干酪样坏死、支气管壁侵蚀,和肺部空洞。确定结核分枝杆菌感染是否将导致疾病的因素还没有完全了解。结核病复合体是一组四种分枝杆菌物种,它们在遗传上如此密切相关以致于已经提出它们组合成一个物种。该复合体的三个重要的成员是结核分枝杆菌(人类结核病的主要原因);非洲分枝杆菌(iV&coftflc&WMma/r/cflWM附)(某些群体中人类结核病的主要原因);和牛分冲支杆菌(Afyco6""^7'"m6ov&)(牛结核病的病因)。这些分枝杆菌没有一种局限于对单独一种宿主物种致病。例如,牛分枝杆菌导致包括人的宽范围的动物中的结核病,其中它引起与结核分枝杆菌引起的疾病在临床上不可区分的疾病。人结核病是世界上,尤其在较不发达的国家中主要的死因。它引起每年约8百万新的临床疾病病例和三百万死亡。牛结核病导致小百分比的这些人类病例,是患病动物的主要病因并且导致动物工业的很大经济成本。结核病的抗生素治疗非常昂贵并且需要长期施用几种抗结核病药物的组合。用一种抗生素治疗不是可取的,因为结核病生物可以发展出对有效针对它们的治疗水平的所有抗生素的抗性。抗一种或多种抗结核病药物的结核分枝杆菌菌林正变得更频繁并且此类菌林感染的患者的治疗非常昂贵和困难。在少数但是其百分比不断增加的人类结核病病例中,结核病生物已经变得耐受两种最有用的抗生素异烟肼和利福平。这些患者的治疗表现出极端困难并且实际上通常不成功。在当前的情况中,明显迫切需要开发新的方法来检测分枝杆菌的毒性菌林和开发结核病疗法。存在结核病的公认的疫苗,其是称作BCG的牛分枝杆菌的减毒形式。该疫苗非常广泛地使用,但是它提供不完全的保护。BCG的开发在1921年完成,但是其无毒性的理由过去直到现在一直未知。对结核病菌林减毒以便以更合理的方式产生疫苗的方法已经进行了研究,但是由于多种原因还没有成功。然而,考虑到死亡的牛分枝杆菌BCG在赋予免疫性方面没有活的BCG有效,所有需要可以用于制备疫苗的分枝杆菌的减毒菌林。已经提出多种化合物作为结核病的致病因子(v/n//ec^/fl"or),但是尽管进行了无数研究,仍然缺少支持这些提议的有力证据。然而,结核病的一种或多种致病因子的发现是非常重要的并且是当前研究的活跃领域。这种发现将不仅使得可能开发新一代的结核病疫苗,而且还可能提供设计或者发现新的或者改进的抗结核病药物或者疗法的耙标o鉴定和表征来自人和动物疾病的样品中的分枝杆菌的当前方法是通过Zeil-Neilson染色、体外和体内培养、生物化学测试和血清分型。这些方法通常緩慢并且不容易区分密切相关的分枝杆菌菌林和种,尤其例如募'J结核分枝杆菌(聊co6""m'Mm/7"m似6grcM/固's")和鸟分枝杆菌(Afyco6ff"en7/附flWw附)。分枝杆菌在环境中广泛分布,并且没有用于从通常不致病的许多环境菌株中鉴定特定致病菌林的快速方法。分枝杆菌鉴定和表征的现有方法的困难已经增加了分析来自人类中的克洛恩氏病(节段性回肠炎)和动物(尤其牛、绵羊和山羊)中的约内病(Johne,sdisease)的微生物分离物以及具有分枝杆菌超感染的艾滋病患者的鸟分枝杆菌菌林的关联性。尽管对人麻风病和结核病的致病剂的认识是清楚的,但是存在每种疾病的临床病理形式,如麻风病的结核样形式,其中分枝杆菌组织丰度很低并且鉴定也相应的很困难。如果当前的将诸如类风湿性关节炎的疾病与分枝杆菌抗原联系的证据得到证明,那么分枝杆菌的特定识别和表征中的改进也可以增加关联性。对于分枝杆菌,包括来自艾滋病患者的鸟分枝杆菌和来自结核病患者的结核分枝杆菌,的不断出现的药物抗性是越来越严重的问题。现有技术中还没有数据或者技术信息来允许特异地为新药物和疫苗组合物选择潜在的新靶标和保护性抗原,来治疗和预防感染性疾病,尤其结核病。此外,需要开发新的工具以选择编码分枝杆菌物种的存活或感染中必需的蛋白质或者调节性核苷酸序列以及用于基于比较性分枝杆菌基因组学的知识设计抗结核病药物和疫苗。使用DNA探针来精确鉴定分枝杆菌和通过基因型表征区分密切相关的分枝杆菌菌林和物种的方法是必需的。基因型分析的方法还可以应用于快速鉴定表型特征,如药物抗性和致病性。本发明的目的是满足本领域的这些需要。本发明的方法的优点是,通过首次给出结核病中保守SNP的详尽描述,显著减小潜在的新靶标和保护性抗原的数目。本发明中描述的分离的多核香酸在毒性和非毒性的基因组序列中都高度保守,通过该特征,这些多核苷酸是这些分枝杆菌在宿主中的存活或者毒性所必需的。通过比较基因组分析的方法已经进行了抗原和潜在的治疗靶标的鉴定。现有技术专利申请WO02074903描述了选择编码蛋白质或者蛋白质部分的纯化的核苷酸序列或者多核苷酸的方法,其携带分枝杆菌物种的存活或者毒性所必需的至少一种功能,所述方法是通过将结核分枝杆菌的基因组序列与麻风分枝杆菌(M.leprae)基因组序列进行比对并进行比较基因组分析来实现的;还公开了结核分枝杆菌和麻风分枝杆菌标记多肽,编码所述多肽的核香酸,以及使用所述核苦酸和编码的多肽的方法。美国专利号6,228,575提供了基于寡核苷酸的阵列和例如,使用基于结核分枝杆菌rpoB基因的寡核苷酸序列,鉴别(speciate)生物和鉴定生物表型的方法。通过将来自该生物的靶核酸的杂交模式与数据库中的杂交模式相比较,可以确定所述生物所属的组或者物种。专利申请号W09954487和美国专利号6,492,506描述了使用细菌人工染色体(BAC)载体分离目的多核苷酸的方法,所述目的多核普酸存在于或者表达于第一种分枝杆菌菌林的基因组中,并且在与第一种分枝杆菌菌林不同的第二种分枝杆菌菌林的基因组中不存在或者发生了改变。本发明还涉及通过该方法分离的多核苷酸和用于该方法的重组BAC载体。此外,本发明包括用于检测生物样品中的分枝杆菌的存在的方法和试剂盒。美国专利号5,783,386描述了与分枝杆菌的毒性相关的多核苷酸,尤其从牛分枝杆菌分离的含有编码推定的ci因子的区域的DNA片段。还提供了用于与分枝杆菌,尤其结核分枝杆菌和牛分枝杆菌中毒性决定子有关的一种或多种DNA序列的方法。此外,该发明提供了产生具有改变的毒性(virulence)或者其他性质的菌林的方法,所述菌林自身可以用于鉴定和操作个别基因。美国专利号5,955,077涉及来自分枝杆菌的新的抗原,用结核病复合体的分枝杆菌再刺激(rechallenge)感染后,所述抗原能够以记忆免疫动物中Y-干扰素释放的形式从T辅助细胞引起早期(4天内)免疫应答。认为该发明的抗原尤其可用于疫苗中,而且可以用于诊断组合物中,特别是诊断毒性分枝杆菌的感染。还公开了编码所述抗原的核酸片段以及免疫动物/人的方法和诊断结核病的方法。美国专利号6,596,281描述了结核分枝杆菌的蛋白质的已经测序的两种基因。所述DNA和它们编码的多肽可以用于免疫测定和疫苗。至少三种纯化的重组抗原的混合物和编码它们的至少三种DNA的混合物可以用于针对细菌病原体和寄生虫的改进的测定法和疫苗。美国专利号5,700,683提供了特定基因缺失,其导致分枝杆菌的无毒性表型。这些缺失可以用作表型标记以提供区分产生疾病和非产生疾病的分枝杆菌的手段。美国专利号5,225,324涉及分枝杆菌来源的DNA插入序列(ISMY)家族和其他DNA探针,其可以用作测定方法中的探针用来鉴定分枝杆菌和区分密切相关的分枝杆菌菌林和物种。还公开了ISMY、ISMY编码的蛋白质和肽用于疫苗、药物制剂和诊断测试试剂盒中的用途。WO0066157专利申请提供了结核分枝杆菌基因组中存在但是BCG基因组中不存在的可读框编码的多肽,和使用这些多肽的诊断和预防方法。US6,458,366/〉开了用于诊断结核病的化合物和方法。所提供的化合物包括含有一种或多种结核分枝杆菌蛋白质的至少一个抗原性部分的多肽,和编码此类多肽的DNA序列。含有此类多肽或者DNA序列和合适的检测试剂的诊断试剂盒可以用于检测患者和生物样品中的结核分枝杆菌感染。还提供了针对此类多肽的抗体。S.T.Cole已经测定了结核分枝杆菌的最详细表征的菌林H37Rv的完整基因组序列的序列。已经分析了所述序列以便提高我们对该緩慢生长的病原体的生物学的理解和帮助对新的预防性和治疗性干预的设计[淑M^393,537-544(1998)。用于确定多态性与毒性和感染性程度的关联的多组分分析正在进行中。这些多态性(polymorphisms)组成了一组推定的毒性标记,其正在120个结核病的临床分离物中被验证。该研究得到一组毒性标记,其可以用于预测分枝杆菌感染的毒性和感染性的程度。在本领域中没有数据或者技术信息来允许特异地为新药物和疫苗组合物选择潜在的新靶标和保护性抗原,所述药物和疫苗组合物用于治疗和预防感染性疾病,包括分枝杆菌疾病,尤其是结核病和麻风病。发明概述本发明的目的是鉴定基因,所述基因编码在所有感染性疾病中在分枝杆菌物种的存活或感染中必需的蛋白质或者调节核苷酸序列,并且将用于基于比较基因组学的知识设计药物和疫苗。本发明的再一个目的是提供疾病样品中包括分枝杆菌在内的菌林的鉴定,和病原性菌林的特定识别,精确区分包括分枝杆菌菌林的密切相关的菌林和定义毒性和抗性模式。本发明的方法通过首次给出导致结核病的不同结核分枝杆菌菌林中保守SNP的详尽描述而具有显著减小潜在的新靶标和保护性抗原数目的优点。本发明中描述的分离的多核苷酸在毒性菌林的基因组序列中高度保守,并且对于这些菌林,尤其分枝杆菌在宿主中的存活或者毒性是必需的。通过比较基因组分析方法已经进行了抗原和潜在治疗靶标的鉴定。本发明涉及使用与毒性因子有关的DNA、RNA链和/或蛋白质鉴定结核分枝杆菌和其他感染性疾病中的毒性因子,允许菌林的鉴定、菌林的分型(typing)和最终对其毒性、感染性和/或潜伏期的潜在程度给出指导(orientation),本发明提供了用于诊断、鉴定菌林、对菌林分型和对所有感染性疾病的毒性、感染性和/或潜伏期的潜在程度给出指导的核苷酸序列,其具有SEQIDno1到2531。本发明还涉及方法,其包括比对不同分枝杆菌物种的基因组序列以a.选择在毒性菌林中高度保守并且对应于分枝杆菌物种的存活或毒性必需的基因的多核苷酸;b.选择毒性和无毒性菌株之间的多态性以鉴定对前者赋予毒性的基因和区域;c.和任选地,测试所选多核苷酸的毒性能力或者参与分枝杆菌物种的存活的能力,所述测试基于细菌宿主中所述多核苷酸的活化或者性。$土…二、、二、本发明还包含鉴定下面的多态性,其具有用作试剂和用于感染性疾病的诊断剂、药物和疫苗开发的潜力i.毒性菌林/物种中的相同核苷酸,但是在无毒性菌林/物种中相同位置上的不同核苦酸;ii.一些毒性菌林在核苷酸序列的特定位置上不同并且与无毒性菌林共有所述核苷酸序列。本发明涉及鉴定和分析用于预测保守和非保守氨基酸替代的非同义SNP。所述替代对编码的蛋白质的功能的作用在预测与感染性疾病如结核分枝杆菌的毒性和感染性相关的SNP中提供了有力的洞察。本发明还涉及携带导致结核病和其他感染性疾病的生物中的多态性的区域所编码的蛋白质、RNA、DNA和代谢物;其可以用于开发有效针对结核病和其他感染性疾病的药物和疫苗,在基因治疗、RNAi技术和成像中起重要作用。本发明还涉及重组多肽和包含它们的嵌合多肽、针对这些多肽产生的抗体、包含用作保护性抗原或者能够在体内或者体外诱导针对分枝杆菌感染的保护性应答的至少一种多肽的免疫原性或者疫苗组合物、包含至少一种根据本发明的这种多肽的免疫治疗组合物的生产方法,和此类核酸和多肽在诊断方法、疫苗、试剂盒或者抗微生物疗法中的用途。SEQIDNos.l到1829是单核香酸多态性。SEQIDNos.l830到2286是插入/缺失(indel)。SEQIDNo2287到2531是长多态性区。本发明还包括用于扩增多态性SEQIDnos1到2531周围区域的引物序列。SEQIDNos.1到2531的多态性侧翼4壬一边至35个核苦酸长度的核苦酸序列用于试剂和诊断、药物开发、RNAi、基因治疗和其他此类技术中。SEQIDNos.1到2531用作使用生物信息学和其他工具进4亍的药物设计、药物开发、基因治疗和疫苗开发的靶标。本发明还包括携带SEQIDNos.l到2531的多态性的区域所编码的蛋白质、RNA、DNA和代谢物用于RNAi技术和反义技术的用途。本发明还包括用于鉴定和选择具有SEQIDNos.1到2531的多态性的数据库。附图和表格简述图l描述了实体关系模型。图2阐明了结核分枝杆菌菌林H37Rv、CDC1551和牛分枝杆菌BCG中SNP的鉴定。在三个基因组中鉴定了总共1829个SNP。这其中1825个SNP在H37Rv和CDC1551中相同,在BCG中有一个核苦酸不同。这其中1579个在ORF中,而剩余的(246个)在非编码区。ORF中的SNP被分类为同义的(synonymous)、非同义的SNP。后者进一步基于该蛋白质一级结构的改变而分类_所编码的蛋白质的一级结构无改变则为保守的,有改变则为不保守的。图3阐明了结核分枝杆菌菌林H37Rv、CDC1551和牛分枝杆菌BCG中indels的鉴定。在三个基因组中已经鉴定了总共794种indels。这其中237种存在于H37Rv和CDC1551中并且不存在于BCG中,其中的178种在ORF中,59种在ORF外。图4阐明了结核分枝杆菌菌林H37Rv、CDC1551和牛分枝杆菌BCG中长多态性的鉴定。136种多态性存在于三种基因组中,它们中的30种对于CDC1551和H37Rv相同。这些多态性中的22种存在于ORF中,而8种在ORF夕卜。图5展示显示了BCG基因组的10kb区,具有三种类型的注解;BCGORF、H37Rv中的SNP,和CDC1551的SNP。图6显示了比较基因组浏览器,其在上方的栏展示BCG,在底部栏展示H37Rv。标记MUM^的区段是通过MUMmer工具产生的完全匹配,垂直线显示了两个基因组中MUM区段的比对。ORF的颜色编码用于指出ORF的长度。这对于研究人员非常有帮助,因为如果H37中的ORF与BCG中的ORF对齐,但是它们具有不同的颜色,那么就存在使得它们具有不同长度的突变(见例如,MUM-1280区中的基因)。图7.1-7.25是用于扩增以包括多态性区的引物。表1给出了结核分枝杆菌/牛分枝杆菌BCG中单核苷酸多态性的列表。表2给出了结核分枝杆菌/牛分枝杆菌BCG中插入/缺失(Indels)的列表。表3给出了结核分枝杆菌/牛分枝杆菌BCG中的长多态性的列表。表4列出了涉及细胞壁合成的基因中的多态性。图5列出了转录因子中的多态性。图6列出了涉及脂类代谢的基因中的多态性。图7列出了编码膜转运蛋白的基因中的多态性。图8列出了与毒性有关的基因中的多态性。发明详述结核分枝杆菌复合体由六个种结核分枝杆菌、牛分枝杆菌、M.cawW"、M.附/ct0"7和非洲分枝杆菌组成。这其中,对人类有毒性和感染性的结核分枝杆菌的两个不同菌林的基因组已经被完全测序,而无毒并且无感染性的牛分枝杆菌BCG的完整基因组也已经测序。仅可以得到其他种的部分序列。检索并编辑NCBI、EMBL、GENBANK、Sanger和TIGR数据库中可得到的所有分枝杆菌序列。所检索的(retrieved)序列的总数如下物种名已检索序列的数目#浙#戎许霧160324潜凝^戎Yf麥1274乎》戎并^183结核分枝杆菌菌林H37Rv(称作H37Rv)和CDC1551(称作CDC15M)-(两种都对人有毒性和感染性)和牛分枝杆菌BCG(称作BCG)-(在人中无毒性和无感染性)的完整基因组-进行了比对并构建了数据库。在图1中给出数据库的结构。4吏用成对比对工具"MUMmer-3.08"(www.tigr.org)比对序列。-MUMmer的l吏用需要三个不同步骤1.为每个靶基因组(CDC1551和H37Rv)针对参考基因组(BCG)运行M而mer;2.对MUMmer输出进行分析以产生多态性列表,并将这些数据加载到多态性数据库;3.产生用于可视化的特征文件,并将这些特征加载到特征数据库。选择BCG作为参考基因组并针对参考比较两种结核病菌林CDC1551和H37Rv。MUMmer使用fasta文件作为输入并使用下面的命令行运行mn-mummerlbovis.fastacdcl551.fastaBCG-CDC其采取格式,program<reference><query><output>BCG-CDC参数为输出文件提供了文件名前缀,bovis.fasta参数是参考fasta文件,CDC1551.fasta参数是查询fasta序列文件的名称。使用下面的脚本产生数据库对MUMmer.align文件做分析(parsing)以提取多态性数据。该文件被分析以提取有用的信息并将其以更简单的用tab分隔的文本文件格式存储。一种自定义perl脚本称作mum-parse.pl,其^f吏用Perl模块Parse::RecDescent基于自定义文件Mummer.pm中所含的语法产生递归下P争i吾'法分才斤(recursivedescentparser),被用于运4亍下面的命令行这产生三个输出文件1.BCG-CDC.gaps-这是初始输出文件,其简单地列出两个序列中所有精确匹配的位置。2.BCG-CDC.errorgaps-这是gaps文件的经处理的版本。3.BCG-CDC.align-这是完全注释的文件,其用于定位所有多态性。使用BCG基因组序列作为参考进行BCG-H37Rv和BCG-CDC1551的逐对比对。比对的结果鉴定了三类多态性l.SNPs-比对的一个或多个序列中的单个核苷酸多态性。2.indels-比对的序列中一个或多个碱基的插入或者缺失。3.长多态性区-在比对的序列中具有很多改变的区域。向数据库插入完整基因组的注解通过运行下面的脚本向数据库中包括从genbank或EMBL下载的基因注解$/work/mtb/scriptsannot.pl—seq=filename一dbname=NAME—user=[NAME]—password=[PASS文件名指出genbank或者EMBL基因注解文件。向DB中插入数据为了向DB中插入CDC1551SNP,运行下面的命令$perl/work/mtb/scripts/snp-insert.pl—snp=../muinmer/BCG-CDC.snp—user=[NAME—password=[PASS—query_acc=NC—002755为了向DB中插入H:37RvSNP,运行下面的命令$perl/work/mtb/scripts/snp-insert.pl—snp=../imimmer/BCG-H37.snp—user=[NAME—password=PASSI—query_acc=NC—000962为了确定SNP是同义的还是非同义的,首先确定它们在可读框内还是框外。取出在ORF内的所有SNP并确定含有SNP的密码子的氨基酸。为了确定BCG位置是否在ORF内,运行下面的命令$peii/work/mtb/scripts/snp-Grf翻ref.pl誦画refseq=../seqs/bovis.fasta—user=NAME一password-PASSORF内的所有BCG位置必须确定它们的氨基酸。为此,运行下面的命令$perl/work/mtb/scripts/ref國aa.pl—ref_seq=../seqs/bovis.fasta—user=[NAME—password=[PASS接着,对H37Rv和CDC1551位置作图。为了分配CDCl551ORF,运行下面的命令$perl/work/mtb/scripts/snp-orf2.pl—query_seq=../seqs/CDC1551.fasta—user-[NAME]—password-[PASS]为了分配H37RvORF,运行下面的命令$perlscripts/snp画orf2.pl—query_seq=../seqs/H37Rv.fasta—user=[NAME《password=[PASS为了确定CDC1551SNP是同义还是反义,运行下面的命令$cd/work/mtb/scripts$perls/work/mtb/scripts/synomous.pl—beg—file=../seqs/bovis.fasta—query_seq=../seqs/CDC1551.fasta—user=[NAME一password=[PASS为了确定H37RvSNP是同义还是反义,运行下面的命令$cd/work/mtb/scripts$perl/work/mtb/scripts/synomous.pl—bcg_file=../seqs/bovis.fasta画-beg—file-.,/seqs/H37Rv.fasta—user-NAMEl—password-[PASS一l且总结列(asetofsummarycolumns)用于将f斤有SNP数据集合在一个位置。为此,运行下面的命令$perl/work/mtb/scripts/compare—snps.pl——user=[NAME]隱画password-[PASS]为了将数据插入到SNP分析表格,取得来自SNP、SE(^SNP和基因本体论表格的SNP数据并插入到SNP一分析表。该步骤还鉴定了保守和非保守氨基酸。为此,运^f亍下面的程序$run.sh/work/mtb/scripts/从而完成了数据库中的SNP数据。SNP的分析所鉴定的SNP为两类i.在CDC1551和H37Rv中相同的核苦酸,但是在BCG中相同位置上不同的核苦酸。ii.三个序列之一是多态性的;CDC1551和H37Rv的核苷酸序列相互不同并且它们之一与BCG序列在相同位置上相同。所鉴定的SNP根据它们在可读框中的位置分类。鉴定了落入BCG和H37Rv的ORF内的SNP。通过确定BCG和CDC1551的ORF中是否存在SNP来验证结果。落入ORF中的SNP进一步分类成同义的和不同义的SNP。如果发生下列情形则说SNP导致非同义改变1)它在ORF中发生;2)它在被比较的基因组中*相同*01^中发生。在一些情况中,SNP可以在参考序列中的一种ORF中,但是在比较序列中的另一ORF中,例如,由于序列中较早的移码突变。因此在我们将SNP分配到"非同义"或者"同义"组之前,除去没有落入ORF中,或者落入参考序列和比较序列上的不同ORF中的所有SNP。BCG和H37基因组已经相互注解。然而,CDC1551还没有如此充分注解,因此不可能立即评估BCG中的ORF是否是CDC中对应的ORF。因此,设计度量来消除假的比较。对所鉴定的非同义SNP进行分析以预测保守的和非保守的氨基酸替代。预测所述替代对编码的蛋白质的功能的影响。这提供了与结核分枝杆菌中毒性和感染性相关的SNP的预测中有力的洞察(insight)。下面是从数据库得到的输出的实例。<formula>formulaseeoriginaldocumentpage18</formula>上面的图描述了SNP细节,其如下;Bovis—pos—具有SNP的Bovis位置。-Bovis_ORF-Yes表示bovis中的SNP位于bovisORF中。No表示不在ORF中。'Bovis_base—指出关于bovis中的SNP位置的SNP。.Bovis—AA-显示了密码子翻译后的bovis氨基酸。.Qry—name—显示了菌林名称,例如H37Rv或microtii。.Qry_pos-显示了CDC1551或H37Rv中关于bovisSNP位置的SNP的位置。<)ry_ORF-如果SNP落入查询(H37Rv或CDC1551)的ORF中,则显示Yes。.Qry—base-显示查询SNP。Qry—AA-显示查询(H37Rv或CDC1551)的氨基酸。-Is_nsSNP-显示同义(S)、非同义(NS)SNP和非编码区(NC)中的SNP。.Conservative_subst—显示了H37rv和CDC1551中的同源替代。-Fun—annotation-将显示查询的功能注解。在表l中给出了以上述方式鉴定的单核苷酸多态性的列表。在三种基因组中已经鉴定了总共1829个。这其中,1825个在H37Rv和CDC1551中具有相同的核苷酸,在BCG中具有不同的核苷酸。这1829个SNP中,1579个在ORF中,而剩余的(246个)在非编码区中。811个H37RvSNP和810个CDC1551SNP为同义的,而1282个H37Rv和1219个CDC1551SNP为非同义的。1219个CDC1551nsSNP中,312个SNP具有保守氨基酸替代,888个具有非保守替代,并且19个导致截短的蛋白质。1282个H37Rv非同义SNP中,304个具有保守氨基酸替代,954个具有非保守替代并且24个导致截短的蛋白质(图2)。Indels(插入和缺失)的分析Indels是序列中相对于BCG序列的插入和缺失。这些indels可以是一个或多个核苷酸的插入和缺失。考虑BCG作为参考序列,鉴定了结核分枝杆菌的两个菌林H37rv和CDC1551中的indels。为了将来自mummer输出的.align文件的indels插入数据库,运4亍下面的Java程序$Java/work/mtb/scripts/indel为了将来自基因本体论数据库(geneontologydatabase)的功能注解输入indels表格,运4亍下面的程序$Java/work/mtb/scripts/indfunction所鉴定的indels的列表在表2中给出。在三个基因组中已经鉴定了总共794个indels。这其中,237(H37Rv)和237(CDC1551)个indels相对于BCG存在于H37Rv和CDC1551两者中。这其中,178个在ORF内,59个在ORF夕卜(图2)。长多态性的分析长多态性是就BCG序列而论,长核苷酸节段的插入或者缺失。为了将来自mummer输出的.align文件的长多态性插入到数据库,运4亍下面的Java程序$Java/work/mtb/scripts/indel为了将来自基因本体论数据库的功能注解输入长多态性表格,运二f亍下面的Java程序$Java/work/mtb/scripts/indfunction在表3中给出了列出长多态性的表格。在三个基因组中已经鉴定了总共136个长多态性。其中,相对于BCG,在H37Rv和CDC155都存在30(H37Rv)和30(CDC1551)个indels。其中,22个在ORF中,8个在ORF夕卜(图3)。所鉴定的多态性的功能注解为了鉴定具有推定的功能关联的多态性,使用GeneOntologyDB(GO)来构建工具。EMBL序列DB已经对三个TB基因组中多数ORF进行了推定的GO分配,从而将GO的局部设置与EMBL交叉参考表一起使用来基于它们的推定的功能分类鉴定TB多态性。构建了注解表,其由基因的genbank特征(如编码区)、数据库参考和产物信息等等组成。为了将基因本体论特征,如术语定义和来自基因本体论数据库的名称插入到indels和长多态性表中,运行下面的程序$Java/work/mtb/scripts/indfunctionl下面是注解表中的属性列表。Accessionno—这表示序歹'J的登"i己号;Gene—start—这表示编码区的起始;Gene—end-这表示编码区的结束;Locus—tag一db—xref_这表示基因的基因索引(geneindicesrepresentation);db_xref—GOA-这表示基因产物的基因本体论身份;id-这表示基因注解;type-strand-这表示存储在genbank中的序列的正向或者反向链;gene—name—这表示基因名称;gene—link-这提供了来自genbank的基因特征的超链接;note-这提供了基因的一般信息和蛋白质信息。构建前端作为数据库的必要部分数据库的前端显示比对结果的前端(front-end)如下注解表由bovis、H37Rv和CDC1551中的基因的genbank注解组成。它指出了细节,包括基因的编码区和其数据库参考。SNP、indels和长多态性的注解id已经被超链接以得到关于特定基因的所有记录。涉及indels和长多态性的数据也已经加入到前端。查询描述使得数据库可以查询以分别找到SNP、indels和长多态性的所需特征。查询SNP信息的主要选项为选择SNPs.ALL-这展示了满足下面特征的所有记录。Identicalinbothqueries—该查询指出相对于H37Rv和CDC1551,SNP存在于BCG中。Differentbasesinbothqueries-该查询指出H37Rv和CDC1551中不同的核苷酸。HavingSNPsinBCG-H37only-该查询指出仅在BCG和H37Rv中并且不在CDC1551中的SNP。.HavingSNPsinBCG-CDConly—该查询指出仅在BCG和CDC1551中并且不在H37Rv中的SNP。BCG-H37SNPs-该查询指出关于BCG位置SNP存在于H37Rv中并且可能存在或可能不存在于CDCl551中的该特定位置中。BCG-CDCSNPs-该查询指出关于BCG位置SNP存在于CDC1551中并且可能存在或可能不存在于H37Rv中的该特定位置中。所考虑的其他选项为SelectBCGORF-这提供了选择在BCGORF内或者BCGORF外BCGSNP的存在的选项。-SelectqueryORF-这提供了选择在查询ORF之内或者查询ORF之外查询SNP的存在的选项。-Selectsynonymous-这提供了选项以选择SNP是同义还是非同义的。-SelectConservative-这提供了选项来选择非同义SNP导致保守、非保守替代还是截短的蛋白质。.Selectfunction-这提供了选项来选择所需功能,其包括细胞壁合成、转录因子、脂类代谢、膜转运和表面蛋白。下面显示了从数据库提取SNP信息的查询的实例iiQue^y:,Mi:crcisoft:lnteTnetExplorerl;;;;,;;浩m;:岛;;;;虔l翁,:;:節;;;;ii^is;活:;:;;;:;;;窮禁;缀瞎:^g憩;;;i驟;;;',培,缀敦疆■1■■iScl&ct1fcsia^<JueryHo贫'c^歸::.::::::::::,讀;向cc哲辆:改邀權;;IIdenticalbaseinbothqueriesM'iORFjlnORF麵JNonSynonymous羅jNodConservative泰〗下面显示了从上面的查询得到的结果:<table>tableseeoriginaldocumentpage23</column></row><table>已经为indels和长多态性以类似方式i殳计了查询。SNP分析包括功能注解id,其被超链接到携带多态性的基因的功能注解。功能注解id由SwissProt、SPTREMBL或者基因本体论id之一组成。类似地,已经功能注解了indels和长多态性。还可以分别从SNP数据库查询或者从长多态性数据库查询获得已知与结核分枝杆菌的毒性有关的基因。已经鉴定了涉及下列功能的多态性1.细胞壁合成2.转录因子3.脂类代谢4.膜转运5.表面蛋白6.毒性基因下面显示了细胞壁合成功能的一种此类查询。<image>imageseeoriginaldocumentpage24</image>20为了增加SNP数据的效用,已经产生了用于可视化分枝杆菌SNP数据的两种工具第一种工具是基于在ColdSpringHarborLab(CSHL)开发的通用基因组浏览器(GenericGenomeBrowser)。该可视化工具可以显示单个TB基因组以及任何注解,例如所有其他基因组的SNP位置。浏览器的细节如下-输出显示了目的区中的多态性。-备选地,可以通过指定文本框中标记为"landmarkorregion"的目的区来获得输出。对于SNP的情况,基因起始和基因结束必须指定,对于indels或者长多态性,必须指定BCG起始和BCG结束。通过点击跨基因组的目的区中的标尺,可以将视图再次定中心位置。通过在下拉菜单中选择所需的碱基对数目,可以放大或者缩小显示。通过选择图4所示的trackscheckbox中的选项可以显示所需的特征。图4显示了BCG基因组的10kb区,其具有三种类型的注解BCGORF、H37Rv中的SNP和CDC1551中的SNP。为了比较多个基因组,构建了基于WormBase同线性浏览器的笫二种工具。该工具可以一次可视化两个TB基因组并且对于验证如图5中所示的CDC1551基因组的多态性非常有用。图5显示了比较基因组学浏览器,其在上方栏显示BCG,在底部栏显示H37Rv。标记MUM^的区段是通过MUMmer工具产生的完全匹配,垂直线显示了两个基因组中MUM区段的比对。ORF的色码用于指出ORF的长度。这对于研究人员非常有帮助,因为如果H37中的ORF与BCG中的ORF对齐,但是它们具有不同的颜色,那么就存在使得它们具有不同长度的突变(见例如,MUM-1280区中的基因)。正在进行具有已知疾病谱的临床分离物中上面鉴定的所有多态性区域的方法筛选,以进一步追踪与结核分枝杆菌的毒性和/或感染性有关的多态性。2.多态性区域的筛选正在对具有已知毒性的一组5种结核分枝杆菌菌抹筛选上面鉴定的多态性。摩」遂已经选择了下面的菌林用于研究a.H37Rv-—种参考实验室菌抹,已知其感染小鼠,但是在人体内仅有轻微感染性。它自从分离出来以后已经在实验室中经历了许多传代。它是在世界上不同实验室的结核病研究中使用的标准品。b.Beijing菌林-在人体具有已知的毒性和感染性的临床分离物。在印度和中国的某些地区70%的结核病患者感染该菌林。该菌林从Mumbai的WesternIndian州的患者分离。c.S.I-从居住在Hyderabad的SouthIndian州的患者分离的在人体仅具有轻微毒性和感染性的温和SouthIndian菌林。d.N丄F—从Delhi的Safderjung医院分离的致命NorthIndian菌林,在该医院中患有肺结核的患者死亡。e.N丄NF—从Delhi的Safderjung医院分离的非致命NorthIndian菌林。患者疾病的临床进展已知。已经设计了引物来包括多态性区域。用于扩增的引物列表在图6.1-6.25中给出。多态性周围区域的扩增和测序在为每个引物对确定的最佳条件下扩增来自5种菌林的DNA。所扩增的片段已经测序并且比较从不同菌林得到的序列。下面给出了一些实例SO708030100110120130140150ISO170+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+BCG鉱CdTCTrao;8L'就RfflC能TGSaili:Tf:能C隨CS;fiTG[T&l^能CS^TGGi]K離GSCC能ffiTGfi「JiX能TSSCS5恥CTGSTGilKTSCSXS;reGirin从H-590622到H-591026的区域的测序.从不同菌林扩增序列。200480043971.9说明书第23/166页BCG:爭》、戎并霧BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;NINF:非致命NorthIndian菌林;BS:Beijing菌林;NIF:致命NorthIndian菌林。编码氧化还原酶活性的基因是毒性基因,其在结核分枝杆菌菌林之间不显示出任何差异,但是与牛分枝杆菌BCG具有保守多态性。130140150170180130200210BCGCCfi隨fXTC隨TCSfiC隨TCT8GC6TCTnCG鹏翩鹏鉱TnfllXSTT80i:sn:&CCS化raCC(iGCGGSTGfinGCGG从H-138548到H-139067的区域的测序。从不同菌林扩增序列。BCG:爭》V乂并霧BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林;NIF:致命NorthIndian菌抹。在BCG中的插入导致与结核病菌林编码的转录因子相比具有不同羧基末端的较短的蛋白质。27<formula>formulaseeoriginaldocumentpage28</formula>从H-3283171到H-3283585的区域的测序。该区域的特征是两个SNP,一个indel,一个长多态性。从不同菌林扩增序列BCG:乎^BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。所有多态性发生在fadD28中,fadD28是涉及脂肪酸合成的一种毒性基因。它们导致非保守替代并且可能在传递到菌林的毒性程度中具有重要作用。bcgis擺腦Gii磁漲fi战[;iGi;擺G[;腦ixn哪G腿[:n縱i鹏虹腿鹏i;G腦孤孤sx腿f:GGreirniG腿fia(i鹏節ffit節fi鹏iG孤sxffi13014015016017018013020021DBCGnGICCCRCiTeneWCr『Gfil隨CCnTgGCTGffiGT繊C8脂Cf!flGnCTG削能GrgnGCGCCXG'〖'O^CXi;隨能CDCS:::::::::::二:::::::::::::::::::::::::::::::::g::::二::::::::::::::::::::::::2112302402502S0270280230BCGH'S说Gn说JOXRT隨Gr『蹈tJl"SmTT8ffiSIGC'm能T^说SXIIGSClXTi^能C鹏郎iCG^fmJ8nGTCg鹏i;fiH37Rv……......,....._______..................CDC1551………,……………………………………………,……………"HINF……………________…-………,……….。__________…………….…---------—…SI…"……………………""………………………………""……M"…_____….….…………,……..………….…………----------……………30G3103203303恥350360370380BCGG朋nCTGCGD;CTS::flCTCG蹈nGCS5::⑩TTGTCnCC&:HTTGGTGCCGCTCGCT能GGCffilCSCTTR[:CCCSnGCSi]H37Rv……""………………"…………………………"""…G"………CDC1551""………………"………………"""…………………G"………NINF"………………"………………………………,…,……G"………GI……""…………"…………"""………………………G"………BS…………,…………………………"……"……………』………"从H-2051784到H-2052209区域的测序。该区域的特征是牛分枝杆菌BCG和结核病菌林之间的SNP以及亚洲菌林和BCG共有但是与H37Rv和CDC1551不同的第二个SNP。从不同菌林扩增序列。BCG:爭》戎并霧BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。所有结核病菌林共有的SNP导致PPE33b基因中的保守替代并且不影响该基因的功能。然而,A到G的替代导致BCG编码的蛋白质的截短。15d160170180130200210220230240B[GCaTraTC^XSCiCGMGfiTWCTGGCGCCGCTCCTCCCCflTCGCTTTGCTCTGCfiTCGTCGCMGCGCMGTCflCTGGCGCCGCTCCTCtXH37Rv………,………,______________________________________________________________________CDC1551………,…,"…H______________________________________________________________________SI.""""""……"CTGG[GCCGCTCCTCCC[fiTCGCTTTGCT[TGCflTCGTCGCCGGCG[GG6TaCTGGCGCCGCTEXT[CCBS"…"…………"CTGGCGCCGCTCCTOXCRTCGCTTTGCTCTGCaTanCKCGGCGCGGGTCflCTGGCGCraCTCCTCCCNINF……".,……,""CTGG隱GCTCCTaX[flTCGCTTTGCTCTGCaraTCGCCGG隱G函f:TGGCCTiX證2"250260270280230300bcgcflTracnTGCTCTGCfiTt:Gn;GccGGC(5CGEJGT[:fi'fs:随能mm;ca;sn.:GCGraicH37Rm____________________________________,,…"",……J…",CDC1551------------------------------------"……,……J……SICflTCGCTTTGCTCTGCBTCGTCGCCGGCGCGGGTCR………….....^,…,BSCflTCGCTTTGCTCTGCBTCGTCGCCGGCGCGGGTCR"…,.……,"j"".,虹NFCflTCGCTTTGCTCTGCRTCGTCGCCGGCGCGGGTC^…………"J……从H-3006917到H-3007246的区域的测序。从不同菌林扩增序列。BCG:乎分戎并霧BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;M18:非致命NorthIndian菌林。该区域包括插入BCG和亚洲菌林中编码内在膜蛋白质的基因之中的106bp的长多态性。这导致与H37Rv和CDC1551相比在这些菌林中更长的内在膜产物。该SNP还导致在H37Rv和CDC1551中引入终止密码子,进一步减小CDC1551编码的膜蛋白的长度。<formula>formulaseeoriginaldocumentpage31</formula>从H-2052524到H-2052863的区域的测序。从不同菌林扩增序列BCG:乎》、戎许芽BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林;NIF:致命NorthIndian菌林。发生在质子转运基因PPE33b中的单核苷酸多态性导致引入终止密码子,从而导致BCG中该蛋白质的截短。1302002102202302402502G0270280230bcgi:肌縱ci靴,能湖in脇ra歐-----------------------------------------------,Gcra,c縦i:諷縱C0QK1"CGCTCfiGCGaiRllGGCflTCGflffififlCflRGCCCflSGGTGGCCTTGTC,,,丄.隨工GCTMC(SCC[S咖C肌G鹏fiflC朋Gi;CC,ESTGGC!;TTGL",C…w"""…,b8w,CGCTCfiG0i(X[flGGGCfnC!SfWGfifC冊GCa;ilGGGT6G(;CTTGTC,">,C.......…"",,HINF,CGCTCR!]CG(X(;fl(i(;GCAT[GmGfifC冊G(XCfiGGGTGaXTTGTC,"丄,,"",SIw""4,CGCT[RGCGCC[flGGGCflTCSm6mCflRGra:fiGGGTGGi;[TTGTC,"丄,从H-1468644到H-1469150的测序。从不同菌林扩增序列。BCG:爭》、戎Vf霧BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。在所有结核病菌林中,在具有DNA结合活性的一个基因-Mbl346c中看到47bp的插入。还看到第二个多态性(SNP),其与相同基因中的插入紧邻。该SNP导致该基因分裂成两个基因,而在结核分枝杆菌菌林中有一个长基因。130200210220230250270280230BCGTGTT^CTT(lTC能C亂D;XS能GIf5TGTinC船G(;隨T胡TCCGG^C船CG^inC郎^T储(:a;隨TTCCGC(X滞蹈liTCC—^fBI:CTSTI5CDC1551w,.…"……""'…,…一,……,""…丄"T…,…"".,……"…………,…1………H37Rv",,",,""—"",,,,""i;,,,T,,,",,,,,",w,,,,,"lo,NiHF,,,c";r,SI…,,"。………'…画画,……,…。w[.,丄w…,,…w"…w>山,……JC………,,从H-455094到H-455468的区域的测序。从不同菌抹扩增序列。BCG:牛分枝杆菌BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。该区域的特征是在转录调节子中出现两个indels和两个SNP。所有结核病菌林在该区域中看起来相同,而BCG在该区域中具有不同的氨基酸序列。60708030100110120130140150160BCGCR隨TC郎GHG(JTCi:&:TTCGC随nT能GGCTCG認CTfiTGreC能TCGGT(^ra!]OI:TGC随滞TGCilTffiGI5GRG能R(SCTTffiCCGCreC肝S从H-466229到H-466536的区域的测序。从不同菌林扩增序列。BCG:牛分枝杆菌BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。NIF:致命NorthIndian菌林。C到T的转换发生在未知功能的基因中并且导致同义替代。然而,C到A的改变发生在转录因子(Mb0393)中并且是非保守替代,导致BCG中稍微不同的蛋白质。130140150160170180130200bcg!XG(XFs鹏!T固c[;匿GTrae[;cTra匿iC綱鹏T匿i:固c;,區creGi;T匿CFiCDC1551……………"……""………g……………………""……H-560625到H-561248的区域的测序。从不同菌林扩增序列。BCG:牛分枝杆菌BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌抹A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。NIF:致命NorthIndian菌林。同义SNP在毒性基因中发生并且在所有结核病菌林中相同。1501G017D180130200210220230240250G縱諷斷T服糊腦擺C鹏n縱I縱腦G[(]ag鄉服,碟CG(X!I[鉞a邵識C腦腦縱孤腦腦能彼G虹K从H-2046394到H-2046928的区域的测序。从不同菌林扩增序列。BCG:牛分枝杆菌BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。NIF:致命NorthIndian菌林。BCG中的SNP导致将基因PE-PGRS32分裂成两个部分,后者被截短。州5060708030100110120130140150+---------+---------+---------+---------+---------+---------+---------+---------+--------+---------+---------+BCG8C能KlffCGSTiiTKISS服IXSG悄T能T能CIKKOC^iS能Ga!iTCilf;隨GCGCTT^T隨C隨T随C8KC認鉱C隨鉱能SICffl^(IG隨CG[;G,---------T---------T---------T---------,----------T---------,----------T---------T---------T---------T---------TBCGSC隨CGg〔:隨D,:XK蹈T随T能CGKG犯llCCS鉱IIi5SnCTC〔'raG漲能T蛇(;GS銘(XSCIi!X(5!XGICD]!nSS[;S能TflCC節!:!)G隨C離TCGCT^CD固,ww"4,4"<4,w,........ninf::::::::::=::::::::::::::::::::::::::::::::::::::::::::::::::::从H-1373629到H-1374101的区域的测序。从不同菌林扩增序列。BCG:牛分枝杆菌BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌株A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。NIF:致命NorthIndian菌林。所观察到的两个多态性在转录因子中发生并且导致非保守替代。咖230MO250柳270柳2別卿咖咖330340丄_________丄_________丄_________丄_________上_________丄_________上_________丄_________上_________丄_________丄_________丄_________丄BCGm[I腦I(Sn^脇(S艦iEllEI腦冊m識鹏脇G咖GGGG咖GGGGGGGG鹏鹏[Ka[:繊G歐O識脇(in鄉鹏觀:4t》々4litt44^ft44K争4tif争4t,fr》4t4f4。14444丄丄",T-4^+49+—争,《^+444>>44,》2gh"从H-1622821到H-1623282的区域的测序。从不同菌林扩增序列。BCG:牛分枝杆菌BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌株H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。NIF:NorthIndianFatal。所观察到的多态性在ORF外的非编码区中发生。150160170180130200210220230—T——T—bcgTSG5(XffiTC顶憩T隨isiHiEiiffii:ffi能!ireCTM蹈(M!;筋sffireETEffi银ixms鉱GEffi(;in[ffiranfflffinnffi蛇raffi能t隨蛇si;能ST(XTi;活TSbssininf""""""151如—.iso■■■+■,170—■+國180130200210劉—■+■230240250■■■+,51sininf:顧驟,i繩隱c匿o.C丽TT,麵觀瞧縱报脇.>,4,….…,….........."fflXfiGfi鹏T恥OT(XfiraL4<,<>…厕Gfi朋G臓T隱C.........."""""…,-,,,'G(iCSlll]T[IGraiT!:raTCSlC,,,>,,-w",,",-…-,屮^j國能T匿闘亂,屮屮,^,,,…,从H-3086111到H-3086539的区域的测序。从不同菌林扩增序列。BCG:牛分枝杆菌BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。在H37Rv中见到的SNP在非编码区中发生而BCG中的缺失导致转录调节蛋白的截短。35TSTG從KK:CTSGCTCfi胡T能C^能CGC^[能(H:GCSCGCs:Si:fiOSTCfifi離in^TG鉱CGGC鹏CGGCCGCfiGra从H-2295752到H-2296046的区域的测序。从不同菌林扩增序列。BCG:牛分枝杆菌BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。所观察到的多态性在pksl2基因中发生并且导致非保守替代。30恥5060708030100110120130wo150G1VIsLrc5DCsBNQD57I13N180130200210220230240250260270B[GKET[SD3秘C础能CSTTT^能TCOCraTraCC能SGD3CTG8TC肌Sl[:liCT陆CCI碟T『丄raa^CCSX^iXC能6隨(lT陆从H-2295062到H-2295633的区域的测序。从不同菌林扩增序列。BCG:牛分枝杆菌BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;A2313:SouthIndianstrainA2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。NIF:NorthIndianFatal。所乂见察到的SNP在pksl2基因中发生并且导致非保守替代。8030100110120130140150160170180130200bcg識隨諷^1脇1腦丽战瞎,,(:讓战.鄉孤船圆(:歐腦0:服猫鄉隨,鄉脇謝丌鹏脳44>44+"*》O+ftH》4+0f+4S">44*>》44+tfl+4fr4fl44t>044((Sj"444t+44*>44"f*f+444>*44t(4444>f4+>+fr4444+<">+4f^>4+4*4444>4*>从H-162341到H-162761的区域的测序。从不同菌林扩增序列。BCG:牛分枝杆菌BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。BCG中的缺失在对应于具有推定的酶活性的基因的区域中发生并且导致BCG中功能的丧失。DCLewCDCOunr/LhJTi<table>tableseeoriginaldocumentpage37</column></row><table>从H-2296260到H-2296692的区域的测序。从不同菌林扩增序列。BCG:牛分枝杆菌BCG;H37Rv:来自NCBI数据库的结核分枝杆菌菌林H37Rv序列;CDC:CDC1551;S.I:SouthIndian菌林A2313;BS:Beijing菌林;NINF:非致命NorthIndian菌林。NIF:NorthIndianFatal菌林。在pksl2中观察到长多态性但是没有改变聚酮化合物合酶的活性。对总共2755个多态性,包括ORF中的1779个多态性和ORF外区域中的313个多态性,筛选与结核病中的毒性和/或感染性的关联。用于确定多态性与毒性和感染性的程度之关联的多组分分析正在进行中。组成一组毒性标记的多态性进一步在结核病的120个临床分离物中进行验证。所鉴定的毒性因子可以用作i.诊断标记,用于预测疾病和其在患者中的进展。ii.药物靶标,用于开发TB的新的有效治疗。iii.DNA疫苗中的候选基因/序列。iv.用于开发siRNA技术以抵抗结核病。表I<table>tableseeoriginaldocumentpage39</column></row><table><table>tableseeoriginaldocumentpage40</column></row><table><table>tableseeoriginaldocumentpage41</column></row><table><table>tableseeoriginaldocumentpage42</column></row><table><table>tableseeoriginaldocumentpage43</column></row><table><table>tableseeoriginaldocumentpage44</column></row><table><table>tableseeoriginaldocumentpage45</column></row><table>G<table>tableseeoriginaldocumentpage46</column></row><table><table>tableseeoriginaldocumentpage47</column></row><table><table>tableseeoriginaldocumentpage48</column></row><table><table>tableseeoriginaldocumentpage49</column></row><table><table>tableseeoriginaldocumentpage50</column></row><table><table>tableseeoriginaldocumentpage51</column></row><table><table>tableseeoriginaldocumentpage52</column></row><table><table>tableseeoriginaldocumentpage53</column></row><table><table>tableseeoriginaldocumentpage54</column></row><table><table>tableseeoriginaldocumentpage55</column></row><table><table>tableseeoriginaldocumentpage56</column></row><table><table>tableseeoriginaldocumentpage57</column></row><table><table>tableseeoriginaldocumentpage58</column></row><table><table>tableseeoriginaldocumentpage59</column></row><table><table>tableseeoriginaldocumentpage60</column></row><table><table>tableseeoriginaldocumentpage61</column></row><table><table>tableseeoriginaldocumentpage62</column></row><table><table>tableseeoriginaldocumentpage63</column></row><table><table>tableseeoriginaldocumentpage64</column></row><table><table>tableseeoriginaldocumentpage65</column></row><table><table>tableseeoriginaldocumentpage66</column></row><table><table>tableseeoriginaldocumentpage67</column></row><table><table>tableseeoriginaldocumentpage68</column></row><table><table>tableseeoriginaldocumentpage69</column></row><table><table>tableseeoriginaldocumentpage70</column></row><table><table>tableseeoriginaldocumentpage71</column></row><table><table>tableseeoriginaldocumentpage72</column></row><table><table>tableseeoriginaldocumentpage73</column></row><table><table>tableseeoriginaldocumentpage74</column></row><table><table>tableseeoriginaldocumentpage75</column></row><table><table>tableseeoriginaldocumentpage76</column></row><table><table>tableseeoriginaldocumentpage77</column></row><table><table>tableseeoriginaldocumentpage78</column></row><table><table>tableseeoriginaldocumentpage79</column></row><table><table>tableseeoriginaldocumentpage80</column></row><table><table>tableseeoriginaldocumentpage81</column></row><table><table>tableseeoriginaldocumentpage82</column></row><table><table>tableseeoriginaldocumentpage83</column></row><table><table>tableseeoriginaldocumentpage84</column></row><table><table>tableseeoriginaldocumentpage85</column></row><table><table>tableseeoriginaldocumentpage86</column></row><table><table>tableseeoriginaldocumentpage87</column></row><table><table>tableseeoriginaldocumentpage88</column></row><table><table>tableseeoriginaldocumentpage89</column></row><table><table>tableseeoriginaldocumentpage90</column></row><table><table>tableseeoriginaldocumentpage91</column></row><table><table>tableseeoriginaldocumentpage92</column></row><table><table>tableseeoriginaldocumentpage93</column></row><table><table>tableseeoriginaldocumentpage94</column></row><table><table>tableseeoriginaldocumentpage95</column></row><table><table>tableseeoriginaldocumentpage96</column></row><table><table>tableseeoriginaldocumentpage97</column></row><table><table>tableseeoriginaldocumentpage98</column></row><table><table>tableseeoriginaldocumentpage99</column></row><table><table>tableseeoriginaldocumentpage100</column></row><table><table>tableseeoriginaldocumentpage101</column></row><table><table>tableseeoriginaldocumentpage102</column></row><table><table>tableseeoriginaldocumentpage103</column></row><table><table>tableseeoriginaldocumentpage104</column></row><table>BCGH37RvCDC<table>tableseeoriginaldocumentpage105</column></row><table>SNP的描述多态性IDSNP位置碱基AASNP位置碱基AASNP位置碱基AAORFSNP类型GOID推定功能13683291984CG3335294TD3329616TDYesNS,NCP95116重组酶活性13693292201CA3335511TT3329833TTYesNS,NCP95116重组酶活性13703292395cR3335705GP3330027GPYesNS,NCP95116重组酶活性13713301607TE3345044GD3339424GDYesNS,C0532373-异丙基苹杲酸脱水酶活性13723303630TE3347067GA3341447GAYesNS,NC053239-13733304818AT3348255GA3342635GAYesNS,NC053240-13743309535G33S2916AF3347295AFYesNS,NCP953133-异丙基苹果酸脱氢酶活性13753312033AS3355414TC3349793TCYesNS,NC053244-13763313133CP3356514TP3350893TPYesS,NUIXNull-13773321979AD3365361GG3359739GGYesNS,NC053253-13783326484TNull3369866GNull3364244GnullNonc,NULLNull-13793327875CV3371257TI3365635TIYesNS,C053258酰胺酶活性13803327980TT3371362CA3365740CAYesNS,NC053258酰胺酶活性13813328016AL3371398GL3365776GLYesS,NUIXNull-13823333886CV3377268GL3371647GYesNS,CP31500-13833338640TG3382077CG3377816CGYesNull-13843339158TT3382595CA3378334CAYesNS,NCP96354过氧化物酶活性13853343458CNull3386895TNull3382634TnullYesnc,NULLNull—13863343463GNull3386900ANull3382639AnullYesnc,NULLNull-13873343657AV3387094GA3382833GAYesNS,C053275电子转运蛋白活性13883345242CV3388679TV3384418TVYesS,NUIXNull-13893353514CR3396951TQ33926卯TQYesNS,NC053283-13卯3354831GA3398268TD3394007TDYesNS,NC053284一200480043971.9溢齿被101/1665t<table>tableseeoriginaldocumentpage106</column></row><table><table>tableseeoriginaldocumentpage107</column></row><table><table>tableseeoriginaldocumentpage108</column></row><table><table>tableseeoriginaldocumentpage109</column></row><table><table>tableseeoriginaldocumentpage110</column></row><table><table>tableseeoriginaldocumentpage111</column></row><table><table>tableseeoriginaldocumentpage112</column></row><table><table>tableseeoriginaldocumentpage113</column></row><table><table>tableseeoriginaldocumentpage114</column></row><table><table>tableseeoriginaldocumentpage115</column></row><table><table>tableseeoriginaldocumentpage116</column></row><table><table>tableseeoriginaldocumentpage117</column></row><table><table>tableseeoriginaldocumentpage118</column></row><table><table>tableseeoriginaldocumentpage119</column></row><table><table>tableseeoriginaldocumentpage120</column></row><table><table>tableseeoriginaldocumentpage121</column></row><table><table>tableseeoriginaldocumentpage122</column></row><table><table>tableseeoriginaldocumentpage123</column></row><table><table>tableseeoriginaldocumentpage124</column></row><table><table>tableseeoriginaldocumentpage125</column></row><table><table>tableseeoriginaldocumentpage126</column></row><table><table>tableseeoriginaldocumentpage127</column></row><table>表II:结核分枝杆菌/牛分枝杆菌BCG中插入/缺失列表<table>tableseeoriginaldocumentpage128</column></row><table><table>tableseeoriginaldocumentpage129</column></row><table><table>tableseeoriginaldocumentpage130</column></row><table><table>tableseeoriginaldocumentpage131</column></row><table>表II:结核分枝杆菌/牛分枝杆菌BCG中插入/缺失列表<table>tableseeoriginaldocumentpage132</column></row><table><table>tableseeoriginaldocumentpage133</column></row><table>表II:结核分枝杆菌/牛分枝杆菌BCG中插入/缺失列表<table>tableseeoriginaldocumentpage134</column></row><table><table>tableseeoriginaldocumentpage135</column></row><table><table>tableseeoriginaldocumentpage136</column></row><table><table>tableseeoriginaldocumentpage137</column></row><table>表II:结核分枝杆菌/牛分枝杆菌BCG中插入/缺失列表<table>tableseeoriginaldocumentpage138</column></row><table>表II:结核分枝杆菌/牛分枝杆菌BCG中插入/缺失列表<table>tableseeoriginaldocumentpage139</column></row><table><table>tableseeoriginaldocumentpage140</column></row><table><table>tableseeoriginaldocumentpage141</column></row><table><table>tableseeoriginaldocumentpage142</column></row><table>表II:结核分枝杆菌/牛分枝杆菌BCG中插入/缺失列表<table>tableseeoriginaldocumentpage143</column></row><table><table>tableseeoriginaldocumentpage144</column></row><table><table>tableseeoriginaldocumentpage145</column></row><table><table>tableseeoriginaldocumentpage146</column></row><table><table>tableseeoriginaldocumentpage147</column></row><table><table>tableseeoriginaldocumentpage148</column></row><table>表4.a:涉及细胞壁合成的基因中多态性(单核苷酸多态性)列表<table>tableseeoriginaldocumentpage149</column></row><table>表4.b:涉及细胞壁合成的基因中多态性(插入/缺失)列表<table>tableseeoriginaldocumentpage150</column></row><table>表4.c:涉及细胞壁合成的基因中多态性(长多态性)列表<table>tableseeoriginaldocumentpage151</column></row><table>表IV:涉及细胞壁合成的基因中长多态性列表多态性IDBCG起始BCG结束H37Rv起始H37Rv结束C1551起始CDC1551结束:ORFGOID推定功能可以借以识别多态性的ID牛分枝杆菌BCG基因组中发生多个多态性起始的位置牛分枝杆菌BCG基因组中多个多态性结束的位置结核分枝杆菌H37Rv基因组中多个多态性起始的位置结核分枝杆菌H37Rv基因组中多个多态性结束的位置结核分枝杆菌CDC1551基因组中多个多态性起始的位置结核分枝杆菌CDC1551基因组中多个多态性结束的位置指出多态性在可读框(yes)还是不在可读框(no)中发生基因本体论数据库中序列的ID其中发生SNP的基因的推定功能<table>tableseeoriginaldocumentpage153</column></row><table>表5.a:转录因子中多态性(单核苷酸多态性:<table>tableseeoriginaldocumentpage154</column></row><table>表5.b:转录因子中多态性(插入/缺失)列表<table>tableseeoriginaldocumentpage155</column></row><table>表V:转录因子中长多态性列表多态性IDBCG起始BCG结束H37Rv起始H37Rv结束C1551起始CDC1551结束:ORFGOID推定功妙月匕可以借以识别多态性的ID牛分枝杆菌BCG基因组中发生多个多态性起始的位置牛分枝杆菌BCG基因组中多个多态性结束的位置结核分枝杆菌H37Rv基因组中多个多态性起始的位置结核分枝杆菌H37Rv基因组中多个多态性结束的位置结核分枝杆菌CDC1551基因组中多个多态性起始的位置结核分枝杆菌CDC1551基因组中多个多态性结束的位置指出多态性在可读框(yes)还是不在可读框(no)中发生基因本体论数据库中序列的ID其中发生SNP的基因的推定功能表6.a:涉及脂类代谢的基因中多态性(单核苷酸多态性)列表<table>tableseeoriginaldocumentpage157</column></row><table><table>tableseeoriginaldocumentpage158</column></row><table><table>tableseeoriginaldocumentpage159</column></row><table><table>tableseeoriginaldocumentpage160</column></row><table><table>tableseeoriginaldocumentpage161</column></row><table><table>tableseeoriginaldocumentpage162</column></row><table><table>tableseeoriginaldocumentpage163</column></row><table><table>tableseeoriginaldocumentpage164</column></row><table><table>tableseeoriginaldocumentpage165</column></row><table><table>tableseeoriginaldocumentpage166</column></row><table>表VII:编码膜<table>tableseeoriginaldocumentpage167</column></row><table><table>tableseeoriginaldocumentpage168</column></row><table>表VIII:涉及毒性的基因中长多态性列表多态性IDBCG起始BCG结束H37Rv起始H37Rv结束C1551起始CDC1551结束:ORFGOID推定功能可以借以识别多态性的ID牛分枝杆菌BCG基因组中发生多个多态性起始的位置牛分枝杆菌BCG基因组中多个多态性结束的位置结核分枝杆菌H37Rv基因组中多个多态性起始的位置结核分枝杆菌H37Rv基因组中多个多态性结束的位置结核分枝杆菌CDC1551基因组中多个多态性起始的位置结核分枝杆菌CDC1551基因组中多个多态性结束的位置指出多态性在可读框(yes)还是不在可读框(no)中发生基因本体论数据库中序列的ID其中发生SNP的基因的推定功能表8:涉及毒性的基因中多态性列表<table>tableseeoriginaldocumentpage170</column></row><table>权利要求1.具有SEQIDnos1到2531的核苷酸序列,其用于诊断、菌株鉴定、对菌株分型和对所有感染性疾病的毒性、感染性和/或潜伏期的潜在程度给出指导。2.如权利要求1所述的具有SEQIDnos1到2531的核苷酸序列,其用于诊断、菌林鉴定、对菌林分型和对所有分枝杆菌菌林的毒性、感染性和/或潜伏期的潜在程度给出指导。3.权利要求1或者2的核苷酸序列,其中所述序列是具有SEQIDNos.l到1829的单核苷酸多态性。4.权利要求1或者2的核苷酸序列,其中所述序列是具有SEQIDNos.1830到2286的插入/缺失(indel)。5.权利要求1或者2的核苷酸序列,其中所述序列是具有SEQIDNo2287到2531的长多态性的区域。6.引物序列,其用于扩增多态性SEQIDnosl到2531周围的区域。7.如权利要求1所述的SEQIDnos1到2531的多态性任一边侧翼至35个核苷酸长的核苷酸序列,其用于试剂和诊断、药物开发、RNAi、基因治疗和其他此类技术中。8.包含具有SEQIDnos1到2531的核苷酸序列的序列的用途,其用作使用生物信息学和其他工具进行的药物设计、药物开发、基因治疗和疫苗开发的靶标。9.包含如权利要求3所述的具有SEQIDNos1到1829的单核苦酸多态性的序列的用途,用作使用生物信息学和其他工具进行的药物设计、药物开发、基因治疗和疫苗开发的靶标。10.包含如权利要求4所述的具有SEQIDNos.1830到2286的插入/缺失(indel)的序列的用途,用作使用生物信息学和其他工具进行的药物设计、药物开发、基因治疗和疫苗开发的靶标。11.如权利要求5所述的具有SEQIDNos.2287到2581的长多态性区域的用途,用作使用生物信息学和其他工具进行的药物设计、药物开发、基因治疗和疫苗开发的靶标。12.携带如权利要求1所述的具有SEQIDNOs.1到2531的多态性的区域编码的蛋白质、RNA、DNA和代谢物的用途,用于使用生物信息学和其他工具进行的药物设计、有效针对包括结核病在内的感染性疾病的药物的开发。13.携带如权利要求1所述的具有SEQIDNOs.1到2531的多态性的区域编码的蛋白质、RNA、DNA和代谢物的用途,用于开发针对包括结核病在内的感染性疾病的疫苗。14.携带如权利要求1所述的具有SEQIDNOs.1到2531的多态性的区域编码的蛋白质、RNA、DNA和代谢物的用途,用于RNAi技术和反义技术。15.产生和开发用于鉴定和选择如权利要求1所述的具有SEQIDNOs.1到2531的多态性的数据库的方法。16.如权利要求15所述的方法,其中用如本文描述的算法产生所述数据库。17.如权利要求15所述的数据库的用途,用于鉴定生物间的多态性。18.具有如权利要求1所述的SEQIDnos1到2531的诊断试剂盒,其用于诊断、鉴定菌林、对菌林分型和对所有感染性疾病的毒性、感染性和/或潜伏期的潜在程度给出指导。19.如权利要求19所述的诊断试剂盒,其具有如权利要求1所述的SEQIDnos1到2531,用于诊断、鉴定菌林、对菌林分型和对分枝杆菌的所有菌林的毒性、感染性和/或潜伏期的潜在程度给出指导。20.如权利要求19所述的诊断试剂盒,其中所述序列是如权利要求3所述的具有SEQIDNos.l到1829的单核苷酸多态性。21.如权利要求19所述的诊断试剂盒,其中所述序列是如权利要求4所述的具有SEQIDNos.1830到2286的插入/缺失(indel)。22.如权利要求19所述的诊断试剂盒,其中所述序列是如权利要求5所述的具有SEQIDNo2287到2531的长多态性的区域。23.如权利要求1所述的具有SEQIDnos1到2531的核苷酸序列的用途,用作用于鉴定包括分枝杆菌在内的感染性疾病的菌林的测定法中的探针。24.如权利要求23所述的用途,其中所述序列是具有SEQIDNos.l到1829的单核香酸多态性。25.如权利要求23所述的用途,其中所述序列是具有SEQIDNos.1830到2286的插入/缺失(indel)。26.如权利要求24所述的用途,2287到2531的长多态性区域。权利要求书第3/3页其中所述序列是具有SEQIDNo全文摘要本发明涉及新的核苷酸序列,其将用于对所有感染性疾病(更具体地结核病)的诊断、菌株鉴定、菌株分型和对其潜在毒性程度、传染性和/或潜伏期给出指导。本发明还包括通过感染性生物的不同临床分离物/菌株的序列的比较基因组分析,鉴定和选择与感染性疾病(尤其结核病)中的毒性和/或传染性相关的多态性的方法。多态性区域也可以作为潜在药物靶标和疫苗靶标。更具体地,本发明还涉及鉴定将包括在诊断DNA芯片中的结核分枝杆菌(M.tuberculosis)菌株和其他感染性生物的致病因子,允许鉴定菌株、分型菌株和最终对其潜在毒性程度给出指导。尽管本发明已经特别参考结核分枝杆菌中的多态性区域进行了阐明,但是所述发明不被理解和解释为限定于结核病,而是可以应用于所有感染性疾病。文档编号C12Q1/04GK101421415SQ200480043971公开日2009年4月29日申请日期2004年7月12日优先权日2004年7月12日发明者G·弗纳特,K·R·拉亚什里,M·罗德里古,V·M·帕特尔申请人:阿维斯塔金格兰技术有限公司;拜奥梅留克斯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1